@genkuroki: #統計P値 ―その正しい理解と適用― (統計スポットラ...
@genkuroki
29 views
Apr 13, 2025
1
#統計
P値 ―その正しい理解と適用―
(統計スポットライト・シリーズ)
2018/11/28
柳川 堯 (著)
この本は良いことも書いてあるのですが、ほうちゃんさんも御指摘のようにつっこみ所が色々ある本だと思います。
添付画像は1.3節にあるグラフ。
問題:このグラフのどこがおかしいか?
続く
P値 ―その正しい理解と適用―
(統計スポットライト・シリーズ)
2018/11/28
柳川 堯 (著)
この本は良いことも書いてあるのですが、ほうちゃんさんも御指摘のようにつっこみ所が色々ある本だと思います。
添付画像は1.3節にあるグラフ。
問題:このグラフのどこがおかしいか?
続く
View Tweet
5
#統計 「大きな効果量の点推定値」と「小さな標本サイズ(広い信頼区間)」と「大きめのP値」の組み合わせが得られたときに、「大きな効果量の点推定値」を理由に特に科学的に価値がありそうな場合だとバイアスをかけることはやめた方がよいです。
cf. McShane-Gelman 2022 stat.columbia.edu/~gelman/resear…
cf. McShane-Gelman 2022 stat.columbia.edu/~gelman/resear…
11
#統計 柳川堯著『P値』はP値の概念を理解したり、P値の誤用を防ぎたい人にとってはむしろ有害な本である可能性が高いです。おそらくそれでもよい部分はあるのでしょうが、この本を購入した人達の多くは「お金を損した」と感じたと思われます。
12
#統計 P値や信頼区間の無難な解釈の仕方及びそれらの誤用とその原因について学びたい人はGreenlandさんの講演スライド
biostat.ucdavis.edu/sites/g/files/…
を見ると良いと思います。非常に率直に書かれており、めちゃくちゃ面白いです。この面白さをみんなと共有したい。
biostat.ucdavis.edu/sites/g/files/…
を見ると良いと思います。非常に率直に書かれており、めちゃくちゃ面白いです。この面白さをみんなと共有したい。
13
#統計 P値と言えば「差がない」という帰無仮説(ゼロ仮説)のP値に限るかのような統計学ユーザー向けの伝統的なP値の説明をしている人は、P値について理解していないと判断した方がよいです。
P値は任意の数値aに関する「差はaである」という検定したい仮説に対して定義できます。
P値は任意の数値aに関する「差はaである」という検定したい仮説に対して定義できます。
14
#統計 Greenlandさんの講演スライド
biostat.ucdavis.edu/sites/g/files/…
では、「差はない」「効果はない」などの帰無仮説(ゼロ仮説)にこだわることをnullism (帰無主義、ゼロ主義)と呼び、強く批判しています。
任意の数値aに関する「効果はaである」の型の一般の検定仮説を扱うべきです。
biostat.ucdavis.edu/sites/g/files/…
では、「差はない」「効果はない」などの帰無仮説(ゼロ仮説)にこだわることをnullism (帰無主義、ゼロ主義)と呼び、強く批判しています。
任意の数値aに関する「効果はaである」の型の一般の検定仮説を扱うべきです。
15
#統計 補足。想定される検出力が80%になるように標本サイズを十分に大きくした場合であっても、「効果はゼロである」の型のゼロ仮説のP値が有意水準以上になった場合には「ゼロ仮説の妥当性の判断は保留する」とするのが正しく、「ゼロ仮説は正しい」のように判断するべきではありません。続く
View Tweet
16
#統計 想定される検出力が80%ということは、背景となるモデルと想定した効果の下でP値が有意水準未満になる確率は80%だということです。残りの20%の確率でP値は有意水準以上になり、効果の有無に関する判断は保留されることになります。
この20%という第2種の過誤の確率はかなり大きいです。
この20%という第2種の過誤の確率はかなり大きいです。
17
#統計 しかも、実践的なケースでは、想定した効果の大きさが過大評価になっているせいで、実効的な検出力は80%よりも小さな値になっている可能性も残ります。
想定される検出力を80%にしても過信しないように注意する必要があります。
想定される検出力を80%にしても過信しないように注意する必要があります。
18
#統計 「効果は0である」という帰無仮説と想定される効果の値aに関する「効果はaである」という仮説をP値で比較したいならば、帰無仮説のP値だけではなく、「効果はaである」という仮説のP値も計算してしまえばよいのです。
伝統的な悪習にこだわると、こういうシンプルな発想をできなくなる。
伝統的な悪習にこだわると、こういうシンプルな発想をできなくなる。
19
#統計 Greenlandさんの講演スライド biostat.ucdavis.edu/sites/g/files/… を難しく感じる人は、同じようなことが書いてある最新しまりす本を読めばよいと思います。
佐藤俊哉著『宇宙怪人しまりす統計よりも重要なことを学ぶ』
asakura.co.jp/detail.php?boo…
↓
asakura.tameshiyo.me/9784254122978?…
↓
佐藤俊哉著『宇宙怪人しまりす統計よりも重要なことを学ぶ』
asakura.co.jp/detail.php?boo…
↓
asakura.tameshiyo.me/9784254122978?…
↓
20
#統計 補足への補足
有意水準として慣習的に使われている5%も科学的厳密性の観点からはザルであることに注意。
赤無しの麻雀で子で配牌ドラ2以上となる確率は約4.6%(ドラ2は4.3%)で5%に近い。
配牌ドラ2以上は無視できるほどまれであるという感覚で麻雀を遊んでいる人はいないと思います。続く
有意水準として慣習的に使われている5%も科学的厳密性の観点からはザルであることに注意。
赤無しの麻雀で子で配牌ドラ2以上となる確率は約4.6%(ドラ2は4.3%)で5%に近い。
配牌ドラ2以上は無視できるほどまれであるという感覚で麻雀を遊んでいる人はいないと思います。続く
View Tweet
21
#統計 慣習的な検出力の80%に対応する第2種の過誤の確率20%はさらにザルです。
5%やら20%のようなザルのフィルターであっても、我々の生活水準を向上させるために役に立つのであれば使用することは合理的です。治療法の治験(多段階になっていることが重要!)での使用はそういう例になっています。
5%やら20%のようなザルのフィルターであっても、我々の生活水準を向上させるために役に立つのであれば使用することは合理的です。治療法の治験(多段階になっていることが重要!)での使用はそういう例になっています。
22
#統計 有意水準5%、想定検出力80%の仮説検定は科学的にザルなので、治療法の治験が制度的に多段階になっていることは非常に重要です。
多段階になっていない単一の報告での有意水準5%想定検出力80%の仮説検定は科学的にザルになっている可能性が高いことに常に注意が必要になります。
多段階になっていない単一の報告での有意水準5%想定検出力80%の仮説検定は科学的にザルになっている可能性が高いことに常に注意が必要になります。
23
#統計 さらに補足。P値との関係で、所謂「再現性の危機」についてPハッキングのような不正行為の蔓延について強調する行為もミスリーディングで好ましくない。
理想的に行われた有意水準5%想定検出力80%の仮説検定も再現性を保証できないことを正直に説明しないと、真っ当な統計学教育になりません。
理想的に行われた有意水準5%想定検出力80%の仮説検定も再現性を保証できないことを正直に説明しないと、真っ当な統計学教育になりません。
24
#統計 両側検定での有意水準5%検出力80%の仮説検定でP値が5%を切っても、再現確率が60%くらいにしかならないシンプルな想定が最新シマリス本にあります。
asakura.co.jp/detail.php?boo…
↓
asakura.tameshiyo.me/9784254122978?…
asakura.co.jp/detail.php?boo…
↓
asakura.tameshiyo.me/9784254122978?…
25
#統計 有意水準5%やそれと同等の信頼水準95%(95%信頼区間)を使って、本当は白黒をはっきりつけられないことについても、白黒つけることにこだわる病気をGreenlandさんのスライドではdichotomania (二分法病)と呼んでいます。
biostat.ucdavis.edu/sites/g/files/…
biostat.ucdavis.edu/sites/g/files/…
26
#統計 統計学ユーザー達に伝統的に蔓延している3種の病気:
* nullism (帰無主義)
* dichotomania (二分法病)
* reification
"reification" は「物象化」「具象化」と翻訳されたりしますが、この場合には、
モデルを疑わない病
のように翻訳すると分かりやすいと思います。
* nullism (帰無主義)
* dichotomania (二分法病)
* reification
"reification" は「物象化」「具象化」と翻訳されたりしますが、この場合には、
モデルを疑わない病
のように翻訳すると分かりやすいと思います。
View Tweet
27
#統計 有限個の数値の集まりに過ぎないデータの数値から、無限に可能性がある未知の母集団の様子は、何らかのモデル(数学的設定)無しには何も分かりません。
そのとき使ったモデルの妥当性は常に問題にされるべきです。
しかし、伝統的な統計学教育ではモデルに言及せずにやり方を説明してしまう。
そのとき使ったモデルの妥当性は常に問題にされるべきです。
しかし、伝統的な統計学教育ではモデルに言及せずにやり方を説明してしまう。
28
#統計 その結果、多くの統計学ユーザー達は、「効果がない」という仮説のP値が有意水準未満もしくは非常に小さいならば、「効果がない」という仮説を否定するための証拠の1つが得られたかのように誤解してしまいます。
疑うべき対象から、モデルが完全に抜け落ちてしまう。
疑うべき対象から、モデルが完全に抜け落ちてしまう。
View Tweet
29
#統計 モデルのパラメータに関する検定仮説H(例えば効果を意味するパラメータθに関するθ=0という仮説)のP値が小さいときには、仮説Hだけではなく、モデル全体(数学的設定の全体)も疑いの対象になります。実際にはデータの数値の取得法も疑いの対象になります。
これは非常に当たり前の話です。
これは非常に当たり前の話です。
View Tweet
30
#統計 P値が小さい場合には、検定したい仮説だけではなく、P値の計算に使われた数学的設定の全体(モデル全体)やデータの数値の取得法の妥当性も疑いの対象になるという当たり前の話は、『統計的有意性とP値に関するASA声明』での原則1でも強調されています。
biometrics.gr.jp/news/all/ASA.p…
biometrics.gr.jp/news/all/ASA.p…














