@genkuroki: #統計<a target="_blank" href="...

1

#統計

jstage.jst.go.jp/article/kagaku…
改訂増補版：統計検定を理解せずに使っている人のためにII
池田郁男
化学と生物57 巻 (2019) 9 号

これは3年前なのですが、いつものよく見る誤解がもろに説明されています。

現代でもこういうので統計学入門の勉強をしてしまう人達がいるわけです。非常に残念。続く

View Tweet

2

#統計以下はすべて誤り。

❌t検定は正規母集団以外には使えない。

❌Wilcoxonの順位和検定=Mann-WhitneyのU検定は等分散であれば使用可能

❌Wilcoxonの順位和検定=Mann-WhitneyのU検定やBrunner-Munzel検定は平均値ではなく中央値を扱う。

誤りを認めて訂正するべき解説者が多い。

3

#統計

⭕️Welchのt検定は標本平均の分布が中心極限定理によって正規分布で近似されていると期待できる場合には概ね使用可能である。

⭕️Wilcoxonの順位和検定は「2つの母集団分布が等しい」という仮説の検定である。

⭕️Brunner-Munzel検定は「大小比較で勝率5割」という仮説の検定である。

4

#統計 Wilcoxonの順位和検定=Mann-Whitneyの順位和検定は「2つの母集団分布が等しい」という仮説の検定です。

「2つの分布が等しい」という条件は「2つの分布の平均が等しい」や「2つの分布の中央値が等しい」という条件よりも圧倒的に強い条件です。続く

5

#統計だから、Wilcoxonの順位和検定=Mann-Whitneyの順位和検定では、2つの母集団分布がともに左右対称で平均値と中央値と分散が互いに等しくても、尖度が異なると有意差が出易くなります。

そのような場合でもは、尖度の違いを検定では検出していることになり、実際にやりたいことではなくなる。

6

#統計 Wilcoxonの順位和検定=Mann-Whitneyの順位和検定やBrunner-Munzel検定は、データの数値の絶対値の情報を使わず、数値の順位だけしか使いません。

一方、分散は数値の絶対値の情報を使って定義される量です。

だから、分散の話をそれらの検定で持ち出すことには疑問を持たないとおかしい。

7

#統計順位(順序)の情報しか使わない検定と相性が悪そうな分散の話を持ち出すときには、「あれ？おかしいな」と感じるべきなのですが、なぜかそうしない。

Wilcoxonの順位和検定=Mann-Whitneyの順位和検定やBrunner-Munzel検定がどのような仮説の検定であるかを軽視し過ぎている。ひどすぎ。

8

#統計仮説検定は仮説のテストのはずなのに、各検定がどのような仮説の検定になっているかについて真っ当に説明しようとしない態度は、特にノンパラメトリック検定の解説で目立ち、統計学入門の解説という分野内で自浄作用がほとんど働いていないように見える。

(私は統計学についてはど素人です)

9

#統計

分散が等しい正規母集団の場合には、Mann-WhitneyのU検定の検出力はt検定とほとんど変わらない(ほんの少ししか弱くない)

という話がよく強調されていますが、Mann-WhitneyのU検定は

　2つの母集団分布が等しい

という超絶強い仮説の検定なので、その比較の仕方はちょっとミスリーディング。

10

#統計確率分布の全体をパラメータ付けするには無限個のパラメータが必要になります。

Wilcoxonの順位和検定=Mann-WhitneyのU検定は「2つの分布が等しい」=「2つの分布の無限個のパラメータがすべて一致する」という仮説の検定です。

Welchのt検定は「2つの平均値は等しい」という仮説の検定。続く

11

#統計「無限個あるすべてのパラメータの値が一致する」という仮説を扱う検定と「平均値というたった1つのパラメータの値が一致する」という仮説を扱う検定を比較するときには、仮説の強さが段違いであることを強調しておかないと誤解誘導的になると私は思います。

伝統的な説明の多くに問題がある。

12

#統計等分散性に関するF検定は正規母集団の仮定に強く依存しており、正規母集団の仮定が崩れていると信頼できない検定法になります。

この点は平均に関するt検定達とは大違いなので要注意です。t検定では正規母集団の仮定が崩れていても、標本平均の分布が正規分布で近似されていれば概ね使える。

13

#統計

Mann-WhitneyのU検定=Wilcoxonの順位和検定
平均の差に関するStudentのt検定
等分散性に関するF検定

は検定法が前提としている条件が厳しい検定の例になっており、使える場合は限られていると考えられます。

14

#統計それらとは対照的に

Welchのt検定
Brunner-Munzel検定

の使用可能条件はかなり緩い。

15

#統計 Studentのt検定の使用可能条件はWelchのt検定とt値の定義を比較すればわかります。2つのt値の分子は等しく、分母の2乗はそれぞれ

Welch分母²=u²/m+v²/n

Student分母²=((m-1)u²+(n-1)v²)/(m+n-2)×(1/m+1/n)

ここで、u²,v²は2つの標本の不偏分散で、m,nは標本サイズです。続く

16

#統計 2つの分母²を比較すると

Student分母²=Welch分母² ⇔ u²=v² or m=n

となることが分かります。

これに近い状況ではStudent分母²とWelch分母²の違いは小さくなり、Studentのt検定のt値はWelchのt検定のt値で近似され、Studentのt検定はWelchのt検定で近似されると期待されます。続く

17

#統計そのことを確認するためには、Studentのt検定で使う自由度

m+n-2

とWelchのt検定で使う自由度

複雑なので略

を比較すればよい。ちょっと頑張れば(結構面倒)

min(m-1,n-1) ≤ Welchのt検定の自由度 ≤ m+n-2

を示せます。m,nが十分大きいなら、2つの自由度はどちらも十分大きくなる。続く

18

#統計自由度が大きなt分布は標準正規分布で近似されるので、自由度が大きければ、自由度のことは忘れてよい。

19

#統計

以上をまとめると、標本平均の分布が正規分布で近似されていると期待できて、標本サイズが十分大きくて、

* 2つの不偏分散が等しい

または

* 2つの標本サイズが等しい

に近い状況ならStudentのt検定を概ね使えると考えて良いことが分かります。続く

20

#統計 Studentのt検定の使用可能条件として追加される条件は

* 2つの不偏分散が等しい

または

* 2つの標本サイズが等しい

なのですが、後者の「等標本サイズ」という条件は触れられずに済まされることが多いのですが、過去のStudentのt検定の適用事例を評価するときには重要です。続く

21

#統計なぜならば、伝統的にStudentのt検定が適用される場合では、実験計画の段階で2群の標本サイズを同じにすることが多いからです(そうするのが合理的)。

だから、不等分散の場合であっても、等標本サイズであれば、Studentのt検定は安全に適用できる場合が多いという知識は結構重要です。

22

#統計「等分散」という条件だけではなく、「等標本サイズ」という条件も提示する方が、Studentのt検定の解説では実践的にはより適切だと思われます。

しかし、そのような解説をしているのを見たことがありません。

23

#統計多分、多くの解説者達は自分の頭で考えずに昔から言われていることのコピー&ペーストで説明を作っている。

これが質の低い統計学入門の解説が生産される大きな原因の1つになっていると思われます。

理解が伴わないコピー&ペーストはやはりまずいということが常識になるべきです。

24

#統計 Welchのt検定の自由度は一般に整数にならないのですが、

❌四捨五入して整数にする

としてはいけません。

一体どうして四捨五入すると信じてしまったのか？
↓
jstage.jst.go.jp/article/kagaku…
改訂増補版：統計検定を理解せずに使っている人のためにII
池田郁男
化学と生物57 巻 (2019) 9 号

25

#統計【paired t testを行うべき場合に、unpaired t testを行うと、有意差が出にくい！】と！付きで書いている部分も酷いです。

本当に問題なのは「有意差の出にくさ」ではなく、ユニット単位で比較するべきことを、平均の比較に置き換えていることです。続く

26

#統計科学研究では、有意差の出やすさよりも、科学的なまともさの方を優先する必要があります。

ユニット単位で比較して傾向を見たい場合に、全体の平均を比較してしまうことは、科学研究としてまるっきりおかしなことをしているわけで、統計学以前の問題になります。

27

#統計【paired t testを行うべき場合に、unpaired t testを行うと、有意差が出にくい！】という言い方で解説してしまっていることは、科学的にまともであることではなく、「有意差」の方を重要だとみなしているようにも見えるので、非常にまずいと思いました。

28

#統計比較する予定のものを比較すると有意差が出にくくなる場合には、有意差が出にくくなることを受け入れて、それに合わせて必要な標本サイズを見積もる必要があります。

29

#統計例えば

* 処置Xの効果を指標Yで調べたい。
* 指標Yで効果を見ると有意差が出難くなりそう。
* そこで効果指標Yとは異なる指標に基く有意差が出易い検定Aを使用する。

のようなことをやって、検定Aで有意差が出たか否かを指標Yによる判断よりも優先すると、おかしなことになります。

30

#統計多分、統計学入門の解説では検定についても「処置Xの効果を指標Yで測る」という発想の仕方で教えることが重要で、「有意差を出す」という発想への偏りは科学的に有害であるとはっきり教えて行く必要があると思われます。

@genkuroki: #統計<a target="_blank" href="...

You're reading 30 of 155 posts

Actions

What You Can Do