Total:  Today:  Yesterday:

【統計一口メモ 第35話】寄与率とは?


名古屋市立大学大学院医学研究科 非常勤講師 薬学博士 松本一彦

第13話に「相関をp値で見てはダメ!」を載せたのですが、その中でも寄与率にふれました。でも、ここに再度とりあげて相関係数と間違わないように、その違いを確認しておきたいと思います。

エクセルで表1のような2変量 x と y の関係について、「挿入」→「散布図」を使って解析すると図1のような図と直線回帰式および寄与率R2が求められます。このR2=0.477を相関係数0.477と誤って使っている人が少なからず見うけられます。

エクセルの作図は相関関係を見るためのメソッドではなく、回帰直線を求めるための方法です。 直線回帰式 y=x+5.5とR2=0.4773が表示されますが、この寄与率R2と相関係数rとの違いを見ていきましょう。

表1

図1

§1.相関係数coefficient of correlation

表1を見て、A君は「あっ、これは相関を見るつもりではないな」と言いました。どうしてそう言えるのでしょうか?A君は、相関はxもyも確率変数すなわち母集団から観測値としてとってきたもので、正規分布をしていることが前提であることを知っているから、そう言えたのです。xは1から順に8までを設定した値で観測値ではありません。そして、相関を求める目的はxの変化とyの変化が共通しているかどうかを知ることで、xの値からyを予測するつもりはありません。したがって、図として示すときは、図1のような回帰式を入れると相関がなくてもあるような感覚になるので、相関だけを述べるときは、直線は入れないようにしましょう。

表1のデータで相関係数を計算すると次のようになります。

相関係数rは0.69となりました。この値がどのくらい意味のあるものなのかを一般的にはp値で 判断することになりますが、第13話に書いたようにN数が多くなると(30例ぐらいでも)、rが0.3で 有意になることもあり、誤った判断に導くため「p値を見てはダメ!」というタイトルにしたわけです。 今回のr=0.69に関しては、松原先生1)は「データの大きさがn=15ぐらいだと、相関係数r=0.7でも弱い相関としか言えない」と言われます。N数が少ないときの相関は要注意です。

§2.寄与率contribution rate(=決定係数coefficient of determination)

回帰分析は、回帰式 y=bx+a のパラメータb(傾き)とa(切片)を推定することが主たる目的で、それを評価するためには、全体のバラツキ(平方和)=STを“xによって変化する回帰平方和 SR”と“xでは説明できない部分の残差平方和 Se” に分解することが必要です。そしてSRがSTの中でどれだけ占めるか、寄与するかをSR/STで求めて、それを寄与率と呼びR2で表わします。エクセルで表1のデータST、SR、Seを求めるにはLINEST関数を用います。その結果が表2です。

表2

SR=回帰平方和=42.0

Se=残差平方和=46.0

ST=全体平方和=42.0+46.0=88.0

これを図で示すと図2のようになります。

図2

全体の中の回帰のバラツキ(平方和)の比=SR/ST=42/88=0.477が寄与率R2と表示されます。

それでは、この寄与率0.477は満足いく値なのでしょうか? 

先の相関係数についてはn数が15程度なら0.7でも満足していないことを考えると、 r=√R2=√0.477=0.69はあまり喜ばしい値ではなさそうです。ただ、寄与率については、統計家は相関係数のように0.5とか0.7のような数値を出してくれません。それだけ判断が難しいと言えそうです。したがって、2つの寄与率があったときに寄与率の高い方が、バラツキが少ないデータからの回帰直線であることの確認に使うのがよさそうです。

§3.自由度調整寄与率

自由度は全体(N-1)と誤差((N-a)と異なるため、その調整が必要となることがあります。

それは、重回帰や1因子分散分析で水準数が多い場合が特に大事です。

STはSRとSeの和なのでSR=ST-Seで

Se/STは誤差率と呼ばれ、全体の平方和STの中で誤差の平方和の占める割合を示します。

誤差率の自由度は分子のSeと分母のSTで異なり、分子はN-a、分母はN-1です。

自由度で割った数値で誤差率を出して1から引くことで寄与率を求めます。それを自由度調整寄与率といいR*2で表わします2)

§4.JMPソフトならびにPharmacoソフトでの解析

表3 JMPソフトのアウトプット

表4 Pharmacoソフトのアウトプット

両方のソフトのアウトプットでは寄与率は0.4773で分散分析表からp値は0.0578と表示されていますが、これもn数が増えると寄与率が低くても有意となるので、相関係数と同じようにp値を見るときは慎重にしなければなりません。

  • 1)松原望「改訂版統計の考え方」放送大学教材 2006年
  • 2)芳賀敏郎 「医薬品開発のための統計解析」第2部 実験計画法改訂版 サイエンティス社 2014年