統計一口メモ 第13話 「相関をp値で見てはダメ!」
名古屋市立大学大学院医学研究科 非常勤講師 薬学博士 松本一彦
基礎研究論文でも臨床研究論文でも、よく目にするのは相関関係の図です。もしかして、その図に書かれているP値で有意差があれば ”相関あり“ と思っていませんか?
§1.γ―GTPと臨床生化学検査値の相関関係
次の2つの図で相関があるのはどちらでしょうか?
γ―GTPは胆管酵素で肝障害のマーカーとして使用されます。左図の尿酸との相関解析では 相関係数r=0.286、p値=0.048で有意差がみられています。一方、右図の肝障害マーカーASTとの相関解析ではr=0.672、p値=0.068で有意差は見られません。
p値で判断すると、γーGTPと “相関する” のは尿酸でASTとは “相関しない” ということになります。それって正しい評価でしょうか? なぜ、そんなことになるのでしょう。
§2.ピアソン相関係数の求め方 (Pearson correlation coefficient)
Pharmaco Basicの「相関と回帰」、例題1.は次のようなデータを扱っています。
相関係数rはエクセル関数 [=CORREL(Xの範囲)、Yの範囲)] で求めることができます。
§3.相関係数の検定
相関係数は-1~+1の範囲を示す数値で、その絶対値が1に近いほど直線的であることを示しています。
検定には「2つの変数には関係が認められない、すなわち相関関係は0である」を帰無仮説として 設定します。
帰無仮説H0:ρ=0 ρ(ロー):母相関係数
対立仮説H1:ρ≠0
検定統計量は
のとき、水準αで有意、母相関係数はρ≠0と判断します。例題1の場合は、
したがって、本結果はp=0.0002で有意差がみとめられました。すなわちB法への切り替えに問題なしということになります。でもこのp値で判断してはダメというのが今回のテーマです。
§4.なぜ、相関係数をp値で判定してはダメ?
もう一度、検定統計量を見てみましょう。
t統計量の計算式には(n-2)が分子に来ています。n数が増えるとt値が大きくなり、相関係数が小さくても有意となるわけです。反対に、n数が少ないと、いくら相関係数が大きくてもt値は大きくならずに有意とならないことが起きます。せっかく、相関がみられるのに、「相関なし」の結論を出すことになります。したがって、相関があるかどうかは、p値ではなく相関係数の r をみる癖をつけましょう。なお、論文査読者(レフリー)からはp値を出すことを求められることがあります。そのことも考えてPharmacoではp値も併記して、色付けしています(赤はp<0.01, 緑はp<0.05)。
§5.統計家の意見
統計家は§1.の結果を見て、こう言います。「n数が少ない例で相関係数を論ずるべきではない」。「30例以上のデータが必要だ」とも。実務家は、「できればそうしたい。でも10例以下で見なければならないこともある」と。一方、例数が多く、rが小さく、p値で有意となる場合の統計家の意見にこのような記載もあります。
吉村功、他は「相関係数の検定のp値については値が小さい方が高い、すなわち関連が強いことを意味するという解釈が広く普及しているが、これは全くの誤解である。図は成人女性100人の体重と体脂肪の測定値である。p値は0.0007以下と非常に小さい。
しかし、これは、体脂肪率が体重と強い関連を持っていることを意味しているわけではない」。体重が大きい方がやや体脂肪率が大きいという傾向があるにすぎない。相関係数は0.333で統計家が見れば、ほとんど問題にしない小さな値である」。相関係数の検定のp値は相関がないわけではないという程度の意味しかない」1) 佐久間昭は「叔父と甥の身長の相関はr=0.25で100対も調べる
とp<0.01で有意になる。体重と身長はr=0.5ぐらい、左右の人差し指でr=0.9程度であろう。―――図の中に回帰直線式とr、p値を併記するのは妙なもの。rの代わりに寄与率R2を記した方が具体的で首尾一貫している」2)
ボクのつぶやき:寄与率R2は回帰平方和が全体の平方和中でどれだけを占めるかを表すもので相関ではない。エクセルでXとYの散布図を描くと回帰直線式とR2が併記される。このR2を相関係数と間違えて記載する過ちが多いなー。
§6.相関係数の落とし穴
相関係数は、たった1例の外れ値があるだけでrがびっくりするほど変わります。次の図で1例を外したとき(右図)と入れたとき(左図)のr値の変化を見てください。
rが0.190だったのが1例を外すことでr=0.507となりました。
このように、外れ値に大きく影響されるのが相関係数です。相関係数を求めるときは、必ず相関図を見て、外れ値の確認をせねば――です。
§7.回帰分析との関連
最近は相関より回帰を扱うことが多くなりました。その理由として、相関係数rはYとXの線型関係の緊密度を測るにすぎず、検定結果も、rが0でないということを述べているにすぎません。
多くの場合、興味のある問題は
- Xの一定の変化に対してYはどのくらい変化するか?
- YとXはどのような直線で表わされる?
- XからYをどれぐらい正確に予測することができるか?
だと思います。 これらの問題は回帰の手法によって取り扱われます。
Armitageは「相関係数は、統計的方法の中で歴史的には重要な役割をなした。しかし、現在は回帰係数より、かなり小さな価値しか持たない。2変数に相関があるならば、相関係数という1つの指標で相関の程度を要約するよりも、1つの変数を他の変数から予測可能にする回帰直線の方が大いに有用である3)と述べています。
ボクのつぶやき:とはいうものの、やはり、相関係数を求める機会も多い。だから、両方できるようにしておく方がいい。
§2.の例題1も新法BがAと相関があって切り替えても、前の値と比べるときには、回帰直線式から予測値を算出することになるから、やはり回帰も必要だよね。
§8.Pharmaco Basicでの解析
「相関・回帰」で相関解析あるいは回帰解析を選択します。相関解析の場合は回帰直線は出ません。
一方、回帰解析では相関係数は出ませんが寄与率が表示されます。
参考図書
1)吉村功他 「医学・薬学・健康の統計学」サイエンティスト社 2009
2)佐久間昭 「医学統計Q&A」金原出版(株) 1994
3)D. G. Armitage 「医学研究における実用統計学」 1999