【統計一口メモ 第29話】Kruscal Wallis検定とPost hoc

名古屋市立大学大学院医学研究科 非常勤講師 薬学博士 松本一彦

 ...

芳賀敏郎:「医薬品開発における統計解析」第2部 サイエンティスト社

§1.Kruscal Walis(クラスカルワリス)検定質的解析

 ...

まず、原表から順位表を作成する。

 ...

この順位の付け方は、全群を一緒にして1番から最後の38番まで付けることに注意!

Steel検定では比較する2群間で順位を付けます。

次に、順位値―平均値=残差を求める。例: 2-7.56=-5.56

 ...

効果は、平均-全体。例:-11.94=7.56-19.50

 ...

水準間平方和=∑(ni x 効果i

例:2481.41=(8 x(-11.94)+6 x(-3.33)+----+6 x 2.00

残差平方和=∑(残差) 例:(-5.56+---+13.50

結果は、6種の食品添加物間で有意差がみられた(p=0.0011)となりました。

Kruskal Wallis検定は1因子分散分析のノンパラメトリック版です。ちなみに1因子分散分析では下表のような分散分析表になります。

 ...

すなわち、1因子分散分析では、1桁小さなp=0.0001で有意差が認められています。

※ボクのつぶやき:本例題は外れ値もないし、0が多く見られるわけでもないし、まとまったデータで、わざわざノンパラメトリックのKruskal Wallis検定をする必要はない気がする。また、Kruskal Wallis検定は1因子分散分析(ANOVA)も、6種の添加物のどれに他と違うものがあるのかは教えてくれない。だから有意差が出た時にかぎり、次の多重比較検定に移るというステップがとられるんだろう。

§2.ポストホックpost hoc、アドホックad hocとは?

外国誌に論文投稿すると、「多重比較検定する前にANOVAを実施せよ」というコメントが入ることを多くの研究者から聞かされる。論文にも

① 「対照群と比較して:One-way ANOVA and Dunnett's test」

② 「3群以上の差の検定は一元配置分散分析で検定し、post hoc testとしてScheffeの 検定を用いた」。などの記載がみられます。

なお、post hoc (ラテン語:事後に)の他に、ad hoc(ラテン語:その場しのぎ)という表現も使われています。

このANOVA検定の後に多重比較をするというのは、日本の多くの統計家は否定的で、早稲田大学の永田靖先生は著書1)の中で 「教科書の中には、多重比較法を適用するときは、前もって一元配置分散分析により、母平均の一様性の帰無仮説についての検定を行い、有意になった場合にのみ多重比較を行う」と述べられているものがあるが、これは正しくない。というのは、一元配置分散分析と多重比較法の2つの検定を行うことになり、ここにまた検定の多重性が生じるためである。

したがって、「多重比較法と通常の一元配置分散分析とは 別物であり、多重比較法を適用するときは、その手順の中に示されていない限りはF検定による一元配置分散分析を併用するべきではないと考えておいてほしい」と述べています。

また、ヨーロッパでも、2013年に公開されたOECDガイドライン(TG210 ANNEX5)2)■では多重比較をする前にANOVA検定は必要ないと述べられています。そこには、「毒性試験を評価するために使用されるほとんどの統計手法は、対照群と試験群を比較したものである。したがって、Dunnett検定やWilliams検定を行う前にANOVA検定を実施することや、Jonchkeere-Terpstra検定、Mann-Whitney検定およびDunn検定を行う前にKraskal-Wallis検定の有意性を求めることは適切ではない。Dunnett検定はもともと固有の多重性の調整が検定に組み込まれているため、ゲイトキーパーとしてF検定(ANOVA)を行うことは、その偽陽性や偽陰性率を高める方に向かうことになる」と書かれています。同じヨーロッパの中でもANOVA派のレフリーに出会うとPost hocが要求されるわけです。それには、少し理由(わけ)がありそうです。

§3.レフリーが執拗にpost hocを要求してくる理由はこれ?

統計家J.A.Ingelfinger3)は次のように述べています。「アスピリンとスルファピラゾールの比較試験では、初めに全ての被験者を対象としてアスピリンが卒中死を減少させることを証明し(※ANOVAで有意差あり)、次にこの全体的解析後にアスピリンが男性に効果があり女性にはないことを発見した(※post hocで有意差検定)。この解析は、全体では効果がなく(※ANOVAで差なし)、その後にそれぞれの性で別々に検定したときに、男性で統計的に有意な効果を見出した解析よりも、男性における効果をより確信させる」。

要するに、まず、全体で薬効があることを証明しておいてから、層別で効果を確認する方が正しくて、全体で薬効がないときに、層別で効果があることをみつけても価値は低い。すなわち、ANOVAで有意差があることを証明しておいて、多重比較検定を実施して有意差を個別に確認することを奨めることになる。この思考が広く浸透していて、日本の多くの統計家やOECDのTG210 統計ガイドライン作成者が、いくら「ANOVAがゲイトキーパーの役目をして、検定を繰り返し行うことになるのでダメ」と言っても聞く耳をもたないのかもしれない。

※ボクのつぶやき:実務で統計を使用している一般研究者は論文査読者(レフリー)統計家がどちらの立場をとるかで、論文の是非を問われるのはかなわない。頑なにpost hocを要求してくる レフリーのいる学会誌は避ける方が賢明かも。

§4.毒性と薬理におけるANOVA-post hocの捉え方の違い

GLPがらみの毒性試験では、プロトコールの決定樹にしたがい Bonferroniで分散の検定をして、ANOVAで有意差がなければ群間に差はありませんと報告します。でも、薬理試験(探索毒性も含みます)では、他剤との差を求めるときに、ANOVAで差がなくても、多重比較で差があれば、その差を重視します。だから、ANOVAをする意味がなくなります。先の「post hocではなく、直接多重比較検定をせよ」という勧告は薬理研究者には朗報で、GLP試験ではあまりうれしくない勧告になります。故佐久間昭先生は「多群で有意差がないときに、2群で差を求めるのは墓場で死体を掘り起こすようなものだ」とたしなめていましたが、現場の薬理研究者は、「死因を暴くためには、墓を掘り起こすことも辞さない」とつぶやくのも聞こえてきます。どちらが正しいとかいう問題ではなさそうです。

  • 1)「永田靖、吉田道弘;「統計的多重比較法の比較」 サイエンティス社 1997年
  • 2)松本一彦、松田眞一訳「化学物質試験のためのOECD試験ガイドライン 魚類初期生活段階毒性試験 無影響濃度(NOEC)決定に向けた統計ガイダンスTG210、ANNEX5.臨床評価 別冊   Vo46、 No1. 71-76、2018.
  • 3)J.A.Ingelfinger他.「臨床医学のためのバイオ統計学」サイエンティスト社 1995年