統計一口メモ 第7話 【2x2分割表でイエーツ(Yate‘s)の修正をする?しない?】
名古屋市立大学大学院医学研究科 非常勤講師 薬学博士 松本一彦
計数値(カテゴリカルデータ)の解析で最初に出会うのが<2x2分割表>です。「薬効の
有無」や「疾患+-」を2群で比較する場合に用いられます。
<創薬担当者二人の主張>
安全性研究所のA君は上の2x2分割表のデータをGLP統計ソフトで解析して有意差なし〈p=0.0841〉と報告しました。ところが本社の開発部B君から「なに言ってんだp=0.0325で有意差あるじゃないか!」とクレームが入りました。両者とも再計算して、結果に間違いはありません。いったいどうなってるんでしょうか?
実は、この結果はどちらも正しい結果を示しています。使っているソフトの問題です。
A君の使っているGLPソフトは“イエーツの修正”が入っていて、B君の使っているJMPソフトは入っていません。イエーツの修正が入るか入らないかでこんなに違うのですが、実は統計家の間でも論議が分かれています1),2)。ちなみに、医薬統計の教科書的な吉村功編集「毒性・薬効データの統計解析」3)はイエーツの修正をした手法を採用していますが、JMPに採用されているPearsonの方法はイエーツの修正はされていません。結果は次のようになります。
<イエーツの修正って何?>
- χ2検定はχ2の分布を連続的な分布に近似しているので誤差が生まれます(後述)。
その誤差を修正するのが,「イエーツの修正」です。
- イエーツの修正をかけると,保守的な(有意差が出にくい)傾向があり,“データに 5以下が含まれている場合のみに用いる”という意見もあります。
- しかし,そのような場合は一般的にFisherの直接確率計算(正確検定)を用いるので,イエーツの修正を行ってまでχ2検定にこだわることはありません。
- 先に述べたように、イエーツの修正をするべきか否かは,現在,統計家の中でも意見が分かれています。
- したがって,どちらがいいとか悪いとかの問題ではありません。もし、使用するソフトを選べないならば実務家には選択の余地はないと思ってください。ソフトの開発者である統計家の考え方に従うしかありません。
- ちなみに,JMP ソフトは修正をしていません(後述)。PharmacoはJMPの解法に従っているので同じように修正をかけていません。
<もう少し詳しく解説すると―正規近似と連続修正―>
- 下図の“縦の実線”はn=10 確率p=0.5のときの r(成功の数)の2項分布を示しています。
- “曲線”は平均np=(10 x 0.5)=5で標準偏差√npq=√10×0.5x(1-0.5)=1.581の正規曲線です。
- 2項分布はr=0,1,2,—10という値でしか確率をもたない離散型であるのに対し,正規分布は-∞から∞までのどの区間においても連続した確率をもちます。
- r=8の確率を推定するのに,正規曲線のどの部分を近似として用いればいいのでしょうか?
- 2項分布とは正規分布をその単位級間隔ごとの組み分けしたものと考えます。すなわち,r=8の場合は,7.5~8.5までの点線内の面積に対応します。
- そこで,8回以上の確率を計算したいときに,その正確な確率は r=8,9,10 に対する2項確率を加えることによって得られます。
- r=8,9,10それぞれの確率とそれの合計は
0.0495+0.0097+0.00098=0.0547
- 正規曲線下の対応する面積は7.5~∞までであって,8~∞までの面積ではありません。
- したがって,
正規偏差は z=(7.5-5)/1.581=1.58127
近似的な確率は p= 1-NORMSDIST(1.581) =0.0569
※正規偏差z検定とχ2検定は同じもの。
- これを7.5ではなく8でやると
z=(8-5)/1.581=1.89753
p=1-NORMSDIST(1.8975)=0.0288
- 以上の結果,8より7.5の方がより真実(0.0547)に近いことから,一般原則として(r-np)の絶対値から1/2だけ引くことにします。
- この1/2減算を<連続性の修正>と呼びます。
- 大きさnの標本でr個の成功を得る確率を一般式であらわすと,
pr=nCr pr(1-p)n-r nCr=n!/(r!(n-r)!) =二項係数
n=10, p=0.5, r=8 のときの確率は
Pr= 10!/8!(10-8)! x 0.58 x (1-0.5)(10-8)=45×0.00391×0.25=0.04395
n=10, p=0.5, r=9 のときの確率は=0.009765
n=10, p=0.5, r=10 のときの確率は=0.000976
合計=0.05469
スネデカー・コクラン「統計的方法」原書第6版 岩波書店1977年より抜粋
<エクセルを用いた二項分布の計算法>
大きさnの標本で,事象Eの起こる確率をpとするとき,そのうちx個にEが起こる確率は BINOMDIST(r, n, p, false) で計算できます。
n=10, r=8, p=0.5のときは BINOMDIST( 8,10,0.5,false)= 0.04395
<何でJMPはイエーツの修正をかけない?>
イエーツの修正をかけない代表にJMPの考え方を芳賀敏郎先生が「医薬品開発のための統計解析」第3部4)で詳しく解説しています。簡単に言うと「2項分布の正確な確率を用いた
実質αは、第1種の誤りの確率である名目αに比べて低くなるため、平均をとる手法(mid-p)が好ましい。それには連続修正を加えない正規近似がよい」ということになります。
それでも、「第1種の誤りの確率を厳格に保証しなければならない場合(保守的な立場)には、2項分布の正確な確率計算をする(イエーツの修正をかける)」という言葉も心にとめておかねば。
1) 丹後俊郎、医学への統計学(第3版)、朝倉書店、(2013年)
2) 永田 靖、統計的方法のしくみ、日科技連、(1996年)
3) 吉村 功、毒性・薬効データの統計解析、サイエンティスト社、(1987年)
4) 芳賀敏郎、医薬品開発のための統計解析 第3部、サイエンティスト社、(2016年)
以上