@genkuroki: #統計 うわっ!何が真に嫌われているかという肝腎な点につ...

@genkuroki
26 views May 03, 2025
1
#統計 うわっ!

何が真に嫌われているかという肝腎な点についてミスリーディングなプレゼン。これは酷い。

P値の使用自体ではなく、「統計的有意性」(多くの場合に「P値<5%」を意味する)で決定を下すことが有害であることを多くの人達が指摘しているのです。P値は無罪。

speakerdeck.com/taka88/pzhi-fa…
Thread image
2
#統計 800人以上の科学者達が反対したのは「P値」ではなく、「統計的有意性」(statistical significance)です。この程度の英語も読めないなら、解説するのをやめた方が良い。

この記事の3人の共著者達はその後言い足りなかったことを別の論文に書いていて、そちらも確認すればクリアになります。
Thread image
3
#統計 おそらく、英語を読めないせいで誤解したのではなく、「P値は統計的有意差を出すために使う道具である」と洗脳されているせいで、統計的有意性の使用に反対することと、P値の使用に反対することの区別ができなくなっており、ミスリーディングな解説の仕方をしてしまっているのだと思います。
4
#統計 natureのその記事の後に書かれた何が問題であるかに関する解説で最も分かりやすいのは、Greenlndさんの講演スライド(2022)

biostat.ucdavis.edu/sites/g/files/…

だと思います(その中で引用されている論文も読み易い)。これを読めば

* P値は無罪
* 統計的有意性は有罪

だとクリアに分かると思う。続く
5
#統計 P値のトリセツ(⻑崎⼤学病院初期研修医1年⽬中島誉也)には添付画像のように書いてあります(手書き部分は私のコメント)。

【検定から推定へ】というスローガンは正しい。

しかし、P値も推定のための道具なので、そのスローガンがP値の欠点の話だとするのは誤り。

speakerdeck.com/taka88/pzhi-fa…
Thread image
6
#統計 P値が推定のための道具にもなっているという一度理解すれば当たり前の話を、どうして多くの人達が認識できないのか?

その理由はおそらく「P値は仮説検定によって統計的有意差を出すための道具」だと洗脳されてしまっているからだと思います。最初に必要なのは脱洗脳です。続く
7
#統計 「P値は統計的有意差を出すための道具」だと洗脳されてしまった人達は「差はない」の型の帰無仮説(ゼロ仮説)のP値のみを主に扱い、P値<αになったら「差はある」と判断するものだと思い込んでいる。

まずはそのような悪しき洗脳を受けているという自覚が必要です。続く
8
#統計 「差はゼロである」という仮説以外にも、任意の数値aに関する「差はaである」という仮説も当然考えられます。

そして、ちょっと数学ができるなら、「差はaである」の型の仮説のP値も定義できることもすぐに分かります。

ゼロ仮説のnull P値だけがP値ではないと最初に気付く必要がある。続く
9
#統計 そして信頼区間について理解できているなら、

「差はaである」という仮説のP値が有意水準α以上になるような値a全体の集合



差の信頼区間

になることも知っているはず。

これで、P値から区間__推定__が得られることが分かりました。

ほら、P値は推定のための道具でしょ?😁
10
#統計 P値が最大になるaの値は差の点推定値になります。

P値が推定の道具でもあることは論文

scholar.google.co.jp/scholar?cluste…
Rafi-Greenland 2020

にも分かるように書いてあるし、Greenlandさんのスライドにもあります。

biostat.ucdavis.edu/sites/g/files/…
Thread image
11
#統計 P値と言えば「差はない」型の帰無仮説のnull P値であるという思い込みはnullismという病気の症状の1つ。

P値<5%による安易な二分法はdichotomaniaという病気。

さらに、数学的設定を現実と混同するreificationという病気もある。モデルを疑わない病。

Greenlandさんのまとめは参考になる。
12
#統計 Greenlandさんは超絶優れた研究者でかつ少なくとも医療統計ユーザーには非常に有名な人です。

Greenlandさんは論文の編集時にはsignificantの語をすべて削除して、P=(具体的な値)なのでP<0.05のように書き直して来たそうです。

「統計的有意性」の使用にずっと本当に反対して来たわけです。
13
#統計 そして、Greenlandさんが実際に論文を書くときにどうしていたかを読めば、P値の使用には一切反対していないこともわかります。GreenlandさんはP値に対する不当な攻撃をよく批判しています。

しかし、「統計的有意性」にはガチで反対している。

この辺をクリアに伝えないと誤解が生じます。続く
14
#統計 P値について批判的なことを語る人達の大部分は論理的に考えておらず、なんとなくP値の使用に反対することがブームになっているかのように誤解して、雰囲気で(もしくはお気持ち)で考えたつもりになっています。

まず最初に自分自身の脱洗脳が必要なことに全然気付かない。
15
#統計 関連スレッド
16
#統計 関連スレッド2 (長大!)
17
#統計 大事なことなので再強調。P値は無罪。

有罪→統計的有意性

有罪→P値として「差がない」の型の帰無仮説のP値(null P値)だけを考える

無罪→P値

好ましい→P値は推定のための道具だと考える
18
#統計 補足

リンク先の添付画像では、(null) P値を報告せずに、点推定値と信頼区間を報告するべきであるかのようになっています。

しかも【P値(検定結果)】と書いてあり、まるでP値を報告することと、P値<αという条件による2値的な検定結果を報告することが同じであるかのようになっている。続く
19
#統計 実際には、P値を書くことと、P値<αという条件で2値的判断を下すことは同じではありません。「P値は有意差を出すための道具」という誤解がそれらの混同の原因になっているのだと思いました。

さらに、信頼区間の内外にはリンク先添付画像のグラフにようにP値がのっていることも忘れている。
20
#統計

「差はない」の型のゼロ仮説のP値(null P値)
信頼区間
点推定値

はすべてP値関数全体が持っている情報の不完全な要約に過ぎません。

そういう知識がないせいで、null P値を報告せずに点推定値と信頼区間の組み合わせのみを報告するという発想が出て来るのです。
21
#統計 null P値を略さずに、null P値、点推定値、信頼区間の3つをまとめて報告しても全然悪くないのは当たり前の話だと思います。

P値即2値的判断という思い込みでP値を排除するのは誤り。
22
#統計 あと、信頼区間を報告しようが、ベイズ統計を使おうが、hackingをそれで防げるわけではないことは強調されてしかるべきだと思う。

この点についてはSander Greenlandさんの添付画像の発言が面白いです。P値以外を使えばhackingを抑制できるという意見を強く否定。

discourse.datamethods.org/t/principles-a…
Thread image
Thread image
23
#統計 統計学の基本的な使い方に関する文献や専門家の発言を読むと、内容の質は人によって大きな差があることに気付きます。囲碁で言えば一流のプロとアマチュア有段者程度の巨大な違いがある。

Greenlandさんのような経験豊富な超一流の人が書いたものを優先的に読まないと失敗すると思う。
24
#統計 大事なことなので繰り返しますが、

 P値は無実
 統計的有意性は有罪

「P値は統計的に有意差を出すために使われる」と教えて来たことの害が噴き出して来ている。

ただし、P値として「差はない」の型のゼロ仮説のnul P値だけしか思いつかない人も潜在的に有罪だとみなす必要がある。
25
#統計 「有意」(significant)の語を論文(や教育)で一切使用しなくても、統計学の理論と応用における世界最高レベルの研究者(かつ教育者)になれることを、Sander Greenlandさんの存在が証明している。

26
#統計 添付画像は

jstage.jst.go.jp/article/jjb/38…
ASA声明と疫学研究におけるP値
佐藤 俊哉

の最終段落。

雰囲気に流されて、お気持ちでP値(や検定論)を攻撃する行為はかなり有害なのでやめた方がよい。

P値は検定だけではなく、推定の道具でもあることの理解を広めることが大事なのだと思います。
Thread image
27
#統計 【信頼区間に関する統計学の理論と方法は仮説検定のそれとパラレル】という事実は、Neyman-Pearsonの仮説検定の標準的な教科書である Lehmann, Testing Statistical Hypotheses, 1959 (第1版)にも添付画像のように書いてある。

仮説検定の理論は信頼区間の理論と表裏一体(互いに双対)!
Thread image
Thread image
Thread image
28
#統計 ちょっと面白いのは、Lehmann, Testing Statistical Hypothesesの第1版ではP値をcritical level (臨界水準)と呼んでいたこと。

第2版で、significance probability (有意確率)、p-value (P値)と呼ぶようになった。

NP流なので "how ~ contradict"と「矛盾」という強い言葉を使う傾向がある。
Thread image
Thread image
29
#統計 現代でも、P値を「有意確率」(significance probability)と呼ぶ人がいるが、「有意」という言い方は全般的にミスリーディングなので、意味不明に見える「P値」を使った方が良いと思う。

「P値」の代わりに意味が分かるよう言いたいなら「データの数値とモデルの相性の良さの程度」。
30
#統計 Neyman-PearsonのPearsonさん自身が、

Neyman-Pearsonの仮説検定が取り消せない二分法的な最終決定を強制するかのように解釈するのは誤り

という意味のことを言っているので、仮説検定をそのように解釈するのは誤りです。

変なことを堂々と言う人達に騙されないように注意。
You're reading 30 of 31 posts

Create a free account to read the full thread.

Sign Up Free
Actions
Visual Editor
Update Thread
What You Can Do
  • Download as PDF
  • Save to Notion
  • Export as Markdown
  • Visual Editor
Create Free Account

Includes 7-day Premium trial