Total:  Today:  Yesterday:

【統計一口メモ 第37話】重回帰分析とは?


名古屋市立大学大学院医学研究科 非常勤講師 薬学博士 松本一彦

統計手法で「回帰」と聞くと、一般的には単回帰分析simple linear regression analysisを想定します。単回帰分析は、x 軸に用量、y 軸に反応値があり、その直線性の有無を知りたいとき、そしてx 軸からy 軸の値を予測するときに用いる手法です。一方、重回帰分析とは、1つの目的変数(従属変数)に対して複数の説明変数(独立変数)を用いて回帰分析を行うことです。そのねらいは、重回帰式を使って、目的変数の値を予測することにあり、その目的変数に影響を与えている説明変数を探索することでもあります。ここでは、都会の高級マンションの賃貸料(家賃=目的変数)を部屋面積と築年数(説明変数)から予測することを取り上げてみました。

§1.重回帰式と偏回帰係数

マンションの部屋面積と築年数から家賃を予測

予測値は重回帰式から求め、残差は(家賃-予測値)で計算します。

目的変数 y が p 個の説明変数X,X,----Xpに対して

y = β0X1X+----+βpXp

と表されるモデルを重回帰モデルといいます。

例題はp=2 なので、ExcelのLINEST関数を使って回帰係数を求めると表3のようになります。

式の中のb1、b2偏回帰係数(Partial Regression Coefficient)と呼びます。

ここでは、b=1.06,b=-1.47となります。

§2.標準偏回帰係数

偏回帰係数の絶対値(1.06と1.47)の大きさでは予測値への影響を比較することは、それぞれの単位(面積<m>と築年数<年>)が異なるのでできません。そこで、それぞれの変数から平均値を引いて、標準偏差で割った(基準化した)データを使って標準偏回帰係数を求めることができます。

標準偏回帰係数は、説明変数がその標準偏差だけ変化したとき、目的変数がその標準偏差の何倍変化するかを表します。単位によらないで偏回帰係数を比較するときに用います。

例えば家賃に対して部屋面積と築年数で、どちらの影響が大きいかをみると、次のようになります。

標準偏回帰係数:

*=1.06 x 9.72/17.2=0.599

*=1.47 x 5.4/17.2=0.462

このように、偏回帰係数 b=1.06は標準化すると0.599に b=1.47は0.462となり、その絶対値を比較するとb1の方が大きく、家賃に対して部屋面積の方が築年数より影響が大きいことがわかります。

§3.平方和の分解と自由度を求める

家賃yの平方和は、予測値の平方和と残差の平方和に分解されます。すなわち、目的変数 y の総平方和 S は、説明変数 x,xの影響で変化した部分である回帰平方和 S と、残りの残差平方和 S に分解できます。ST = SR + Se

重回帰分析の回帰平方和の自由度 f は回帰式に含まれる説明変数の個数pで、この例では 2 となります。なお、総平方和の自由度 f は、n-1となります。

§4.重相関係数

単回帰分析では x と y から単相関係数を求めますが、重回帰分析では予測値 yhatと実測値 y から相関係数を求め、それを重相関係数と呼び、正しくはRy|12という記号で表します。いずれの相関係数も2乗すると寄与率となります。寄与率は単回帰、重回帰とも R で分けていません。

§5.寄与率と誤差率

y の全体のバラツキである総平方和 STのうち、回帰平方和 SRがどれだけ占めるかを表したのが寄与率 R2です。

R2=SR/ST=6310.08/7075.50=0.892

すなわち、家賃の変動のうちの89%が面積と築年数で説明できることがわかります。

言い換えると,求めた回帰式がデータに良く当てはまっているかどうかを表す量とも言えます。

寄与率R2は次のように変形できます。

R2=SR/ST=(ST-Se)/ST=1-Se/ST    Se/ST=誤差率

=1-765.42/7075.50=0.892

寄与率=1-(誤差率)

誤差率とは、y の全体のバラツキのうち、x の変化では説明できない誤差の割合を示しています。

§6.自由度調整寄与率

誤差率の分母STと分子Seは、それぞれ y 全体の平方和および残差の平方和です。平方和はn数が増えれば増えるだけ大きくなります。すなわち、説明変数が多くなればなるほど平方和も大きくなってしまうので、nで割って平均平方としてから誤差率を求めることにします。分子、分母ともに自由度で割ります。

*2=1-(Se/fe)/(ST/fT)=1-(Se/(n-p-1))/(ST/(n-1))

=1-(765.42/22)/(7075.50/24)=0.882

このようにして求めた寄与率を自由度調整寄与率と呼びR*2で表わします。R*2はR2より小さくなります。

§7.自由度2重調整寄与率

重回帰分析に無意味な変数が式に追加されることへのペナルティーを課したのが自由度調整寄与率でした。それでも、説明変数が多くなると自由度で割っただけでは、良い回帰式とは言えないことがあるため、ペナルティーを約2倍した「自由度2重調整寄与率=R**2」を求めます。

回帰式の良さを表す尺度としては自由度2重調整寄与率が良いとされています。(※ボクのつぶやき:次の節のトレランスのように、“いくつ以下はダメ!”のような基準がどこにも示されていないので、実務的に使いにくい数値だと思う。でも寄与率同士を比較する意味はありそうだ)

§8.トレランス(許容度)と多重共線性

偏回帰係数の分散V[b1]はx1の平方和S11に 1-r212 を掛けて求められます。

V[b1]=σ2/S11(1-r212

1-r212は “トレランス” と言って説明変数間の相関の強さを表す指標とされます。

ここでいう、説明変数間というのは、面積と築年数のことで、その相関rは-0.577でした。

したがって、1-r12は1-(-0.577)=0.667となります。

トレランスの目安として,0.5以上であれば問題がなく0.1以下のときは,得られた重回帰式を利用することは避けた方がよいとされています。なお、トレランスが0に近いとき多重共線性(multi-collinearity)があるといわれます。西内氏は著書2)の中で、多重共線性のことを「マルチコ」と呼んで、「生半可に統計学をかじった時期にやたらと”マルチコの確認は済んでいますか“と他人の分析結果にケチをつける人もいる」と辛らつな言葉で書かれています。「説明変数に相関があっても、自分のイメージする結果との齟齬がなければ、めくじらを立てることもない」ということのようです。

多重共線性を問う場合は、変数についてのしっかりした知識をつけておかねばならないということですね。

§9.変数選択法について

重回帰分析を実際に行うときに、どの説明変数をいくつぐらい使って分析すればいいのかという問題にぶつかります。教科書には変数増加法、減少法、ステップワイズ法などが紹介されています。

ただ変数選択法の結論として、何を知りたいかによって、変数選択が機械的な手法の結果に従わないということを理解する必要があります。ようするに、最終的な判断は個別の状況を重視するということのようです。Pharmacoソフトでは変数選択法は採用していません。それは, 重回帰分析で 説明変数の当たりをつけて、Pharmaco Clinicの層別解析で詳しく内容を分析することに重点をおいているからです。似たような考えは、西内氏も著書2)で取り上げていて、「回帰分析で当たりをつけ、ランダム化比較実験で検証する」としています。具体的には、重回帰分析で「年齢」が選択されたときに、20~30代、40~60代、70代~80代、90代以上のように細かい分類をしていきます。 重回帰分析は層別解析をするための前哨戦のようなものと位置付けています。

§10.偏回帰係数に関する検定

偏回帰係数 b1 の標準誤差 s(b1) は分散の平方根をとり、

s (b1)=se/√S11(1-r212) = 5.898/√2266.45x0.667=0.152

となります。 S(b2)は0.272と求められ、表3に表示されています。

βj = 0 の検定は

j = bj/s(bj)  

を求め、p値を計算します。 自由度は表3に 22 が求められています。

‘t1=1.055/0.152=6.951 p=TDIST(6.941,22,2)=0.000

‘t2=-1.470/0.272=-5.404 p=TDIST(5.404,22,2)=0.000

結果は有意確率1%以下で、面積、築年数ともに家賃に対して影響を与えると判断されます。

§11.Pharmaco Pharma3)で解析

重回帰式y^= b0+b1X1+b2X2=3.415+0.105X1-0.147X2

確かに面積と築年数は家賃に影響を有意に与えることはわかりましたが、それだけでは余り実務的には役に立ちません。重回帰分析でやりたいことは、面積Xと築年数Xが分かったときに家賃がいくらなのかを知りたいわけです。

Pharmacoでは、まず相関を確認します。ここでは、面積 x 築年数で 相関係数 r=0.58が求められています。トレランスも0.665で多重共線性に問題ありません。そこで、面積と築年数を説明変数として重回帰式から面積30m、築15年の高級マンションの賃貸料を求めると43万7千円と提示されました。

  • 1)芳賀敏郎:エクセルによる多変量解析実務講座 テキストII (財)実務教育研究所 2001年
  • 2)西内 啓:統計学が最強の学問である<実践編> ダイアモンド社  2014年
  • 3)Pharmaco 工房から試供版を提供 https://pharmaco club/