統計ひと口メモ(第5話)イヌ試験(N=4)でノンパラやってはダメ!
イヌやサルのようにN=3ないしN=4例でWilcoxonやSteelなどのノンパラメトリック検定を何の疑問もなく使っていませんか?それは、大きな過ちです。もしかしたら有意差があるのに見逃しているかもしれません、あるいはその逆も。
下記の例のように3例で対照群と試験群の比較をしたときに、明らかに試験群全例が対照群よりも低値な場合、t検定ではp=0.0326で有意となりますが、ノンパラのWilcoxon検定ではP=0.089で有意とはなりません。このように順位が偏っている場合に起こっている現象なので、今までは気が付かなかったのかもしれませんが、手法としては間違っています。
偏ったデータでは全て“有意差なし”になります。 もしかして“3例”でやるからだと思っていませんか?それでは“4例”でやってみましょう。
N=3例ではどんなに差があっても有意とならず、反対にN=4例では全く差がなくても有意となることがあるということです。このようなことでは、検定手法に使うことはできませんね。
統計ソフトJMPで解析すると、「標本サイズが小さいので,この近似は精度がよくありません。統計表を使って検定してください」と書かれています。このコメントはN=6例で消えます。
実はノンパラメトリック検定はN=4例で実施してはダメということは、1998年の応用統計学誌で永田靖先生*が報告されています1)。その論文には『ノンパラメトリック法の使用に関しては、様々な誤解があるように思う。その中で「サンプルサイズがかなり小さい場合には(正規性のチェックが困難なので)ノンパラメトリック法を用いる」という誤解がある。これが誤解であるという理由は、ノンパラメトリック法の場合は、特に多重比較を行う場合には、データがいかなる値を取っても絶対に有意にならない検定を行うはめになりやすいからである』と書かれています。
そこには、表のような結果が示されていて、N=6 ならばOK。N=5 はマージナル(どっちつかず)となっています。*永田靖先生にはPharmaco Basicの多重比較検定(Dunnett, Williams検定ついて貴重なご意見をいただいています。
<Steel検定をn=4以下で使ってはいけない理由1)>
全部でa群、第1群のサンプルサイズがnでスティールの方法を用いるとき、第1群と第j群の比較において、第1群のn個のデータが第j群のデータの最小値よりも小さいとします(つまり、もっとも有意になりやすいパターンとします)。
Rij=1+2+3+—n=n(n+1)/2
E(Rij)=n(2n+1)/2
V(Rij)=n2(2n+1)/12 (タイ=同値がないとする)
となり、したがって、
tij=(Rij-E(Rij))/√(V(Rij))=-n/√((2n+1)/3)
となります。ここで、nの値をいくつかとってtijの値を求めると次のようになります。
n=3のときtij=-1.964, n=4のときtij=-2.309, n=5のときtij=-2611, n=6のときtij=-2.882, n=7のときtij=-3.130, n=8のときtij=-3.361
例として4群でスティールの方法の棄却限界値を求めると次のようになります。
これらの結果を見比べると、例えば、4群のとき、Steelの方法(両側検定)では、4例でt値が2.309で棄却限界値は2.349(両側5%)で決して有意にならないことが分かります。
今まで、イヌやサルの大動物のみならずラットでもn=3例や4例でWilcoxonやSteel検定を使っていたのは、今回の例題のように極端な事例がなかったために気が付かなかっただけは? でも、間違った検定手法です。n=3、4例ではノンパラは使わずに、パラメトリックにしましょう。
1)永田靖:多重比較法の実際、応用統計学 27(2)93-108、1998