#統計
jstage.jst.go.jp/article/kagaku…改訂増補版:統計検定を理解せずに使っている人のためにII
池田 郁男
化学と生物57 巻 (2019) 9 号
これは3年前なのですが、いつものよく見る誤解がもろに説明されています。
現代でもこういうので統計学入門の勉強をしてしまう人達がいるわけです。非常に残念。続く
#統計 以下はすべて誤り。
❌t検定は正規母集団以外には使えない。
❌Wilcoxonの順位和検定=Mann-WhitneyのU検定は等分散であれば使用可能
❌Wilcoxonの順位和検定=Mann-WhitneyのU検定やBrunner-Munzel検定は平均値ではなく中央値を扱う。
誤りを認めて訂正するべき解説者が多い。
#統計
⭕️Welchのt検定は標本平均の分布が中心極限定理によって正規分布で近似されていると期待できる場合には概ね使用可能である。
⭕️Wilcoxonの順位和検定は「2つの母集団分布が等しい」という仮説の検定である。
⭕️Brunner-Munzel検定は「大小比較で勝率5割」という仮説の検定である。
#統計 Wilcoxonの順位和検定=Mann-Whitneyの順位和検定は「2つの母集団分布が等しい」という仮説の検定です。
「2つの分布が等しい」という条件は「2つの分布の平均が等しい」や「2つの分布の中央値が等しい」という条件よりも圧倒的に強い条件です。続く
#統計 だから、Wilcoxonの順位和検定=Mann-Whitneyの順位和検定では、2つの母集団分布がともに左右対称で平均値と中央値と分散が互いに等しくても、尖度が異なると有意差が出易くなります。
そのような場合でもは、尖度の違いを検定では検出していることになり、実際にやりたいことではなくなる。
#統計 Wilcoxonの順位和検定=Mann-Whitneyの順位和検定やBrunner-Munzel検定は、データの数値の絶対値の情報を使わず、数値の順位だけしか使いません。
一方、分散は数値の絶対値の情報を使って定義される量です。
だから、分散の話をそれらの検定で持ち出すことには疑問を持たないとおかしい。
#統計 順位(順序)の情報しか使わない検定と相性が悪そうな分散の話を持ち出すときには、「あれ?おかしいな」と感じるべきなのですが、なぜかそうしない。
Wilcoxonの順位和検定=Mann-Whitneyの順位和検定やBrunner-Munzel検定がどのような仮説の検定であるかを軽視し過ぎている。ひどすぎ。
#統計 仮説検定は仮説のテストのはずなのに、各検定がどのような仮説の検定になっているかについて真っ当に説明しようとしない態度は、特にノンパラメトリック検定の解説で目立ち、統計学入門の解説という分野内で自浄作用がほとんど働いていないように見える。
(私は統計学についてはど素人です)
#統計
分散が等しい正規母集団の場合には、Mann-WhitneyのU検定の検出力はt検定とほとんど変わらない(ほんの少ししか弱くない)
という話がよく強調されていますが、Mann-WhitneyのU検定は
2つの母集団分布が等しい
という超絶強い仮説の検定なので、その比較の仕方はちょっとミスリーディング。
#統計 確率分布の全体をパラメータ付けするには無限個のパラメータが必要になります。
Wilcoxonの順位和検定=Mann-WhitneyのU検定は「2つの分布が等しい」=「2つの分布の無限個のパラメータがすべて一致する」という仮説の検定です。
Welchのt検定は「2つの平均値は等しい」という仮説の検定。続く
#統計 「無限個あるすべてのパラメータの値が一致する」という仮説を扱う検定と「平均値というたった1つのパラメータの値が一致する」という仮説を扱う検定を比較するときには、仮説の強さが段違いであることを強調しておかないと誤解誘導的になると私は思います。
伝統的な説明の多くに問題がある。
#統計 等分散性に関するF検定は正規母集団の仮定に強く依存しており、正規母集団の仮定が崩れていると信頼できない検定法になります。
この点は平均に関するt検定達とは大違いなので要注意です。t検定では正規母集団の仮定が崩れていても、標本平均の分布が正規分布で近似されていれば概ね使える。
#統計
Mann-WhitneyのU検定=Wilcoxonの順位和検定
平均の差に関するStudentのt検定
等分散性に関するF検定
は検定法が前提としている条件が厳しい検定の例になっており、使える場合は限られていると考えられます。
#統計 それらとは対照的に
Welchのt検定
Brunner-Munzel検定
の使用可能条件はかなり緩い。
#統計 Studentのt検定の使用可能条件はWelchのt検定とt値の定義を比較すればわかります。2つのt値の分子は等しく、分母の2乗はそれぞれ
Welch分母²=u²/m+v²/n
Student分母²=((m-1)u²+(n-1)v²)/(m+n-2)×(1/m+1/n)
ここで、u²,v²は2つの標本の不偏分散で、m,nは標本サイズです。続く
#統計 2つの分母²を比較すると
Student分母²=Welch分母² ⇔ u²=v² or m=n
となることが分かります。
これに近い状況ではStudent分母²とWelch分母²の違いは小さくなり、Studentのt検定のt値はWelchのt検定のt値で近似され、Studentのt検定はWelchのt検定で近似されると期待されます。続く
#統計 そのことを確認するためには、Studentのt検定で使う自由度
m+n-2
とWelchのt検定で使う自由度
複雑なので略
を比較すればよい。ちょっと頑張れば(結構面倒)
min(m-1,n-1) ≤ Welchのt検定の自由度 ≤ m+n-2
を示せます。m,nが十分大きいなら、2つの自由度はどちらも十分大きくなる。続く
#統計 自由度が大きなt分布は標準正規分布で近似されるので、自由度が大きければ、自由度のことは忘れてよい。
#統計
以上をまとめると、標本平均の分布が正規分布で近似されていると期待できて、標本サイズが十分大きくて、
* 2つの不偏分散が等しい
または
* 2つの標本サイズが等しい
に近い状況ならStudentのt検定を概ね使えると考えて良いことが分かります。続く
#統計 Studentのt検定の使用可能条件として追加される条件は
* 2つの不偏分散が等しい
または
* 2つの標本サイズが等しい
なのですが、後者の「等標本サイズ」という条件は触れられずに済まされることが多いのですが、過去のStudentのt検定の適用事例を評価するときには重要です。続く