@genkuroki: #統計P値 ―その正しい理解と適用― (統計スポットラ...

1

#統計

P値 ―その正しい理解と適用―
(統計スポットライト・シリーズ)
2018/11/28
柳川堯 (著)

この本は良いことも書いてあるのですが、ほうちゃんさんも御指摘のようにつっこみ所が色々ある本だと思います。

添付画像は1.3節にあるグラフ。

問題：このグラフのどこがおかしいか？

続く

View Tweet

2

#統計添付画像①は柳川堯著『P値』1.3節にある正規分布の密度函数のグラフ。σの長さがまるで2σになってしまっています。

添付画像②は正しいグラフです。

σと2σの区別は初学者向けの教科書では大事なのでもっとしっかりして欲しいです。

3

#超算数柳川堯著『P値』は個人的な意見ではかなり有害な感じでミスリーディングな説明が書いてあり、出版前の原稿を見た人達は厳しく指摘してあげるべきだったと思います。

例えば添付画像の部分は読者を誤誘導するような説明になっていると私は思いました。続く

4

#統計添付画像は柳川堯著『P値』より

HRの点推定値が1から大きく離れているという理由で【かなり強いリスクファクターだと示唆される】と考えることは誤りです。

なぜならば、小さな標本サイズでは、真のHRが1であっても、HRの点推定値が1から大きく離れる確率は大きくなるからです。続く

5

#統計「大きな効果量の点推定値」と「小さな標本サイズ(広い信頼区間)」と「大きめのP値」の組み合わせが得られたときに、「大きな効果量の点推定値」を理由に特に科学的に価値がありそうな場合だとバイアスをかけることはやめた方がよいです。

cf. McShane-Gelman 2022 stat.columbia.edu/~gelman/resear…

6

#統計広い信頼区間と大きめのP値はHRの点推定値が信頼できないことを意味しています。HRの点推定値が1から大きく離れた値になっていることを理由に、標本サイズを増やせばP値が5%を切る可能性が高いかのように考えることも間違っている。

添付画像に引用した部分はそのような誤解の原因になります。

7

#統計柳川堯著『P値』のp.22より

割合は等しいが標本サイズは違う2つの分割表のデータについて、片方のP値は36%でもう一方のP値が1.4%であることについて

【矛盾した判定結果】
【サンプルサイズを無視してP値を有意水準5%で判定すると，このような誤用が起こる】

と説明するのは酷すぎ。続く

8

#統計効果量の点推定値が同じ状況で、片方は標本サイズが小さいのでP値が大きめの値になって帰無仮説の成否について判断を保留することになり、もう一方では標本サイズが大きいのでP値が小さくなって帰無仮説を棄却することになるのは矛盾でもなんでもありません。

9

#統計「処置群と対照群で有効になる真の確率は等しい」という帰無仮説の下で、表3.1のAのような分割表のデータの数値が得られる確率よりも、Bのような分割表のデータの数値が得られる確率はずっと小さくなります。

その確率の違いがP値の違いになっていると考えてよい。続く

10

#統計帰無仮説下で生じる確率が全然違う2つのデータの数値について、【サンプルサイズを増やせばP値は減少する】のように言うのは、P値について何もわかっていない人だけが可能な酷い説明の仕方だと思いました。

11

#統計柳川堯著『P値』はP値の概念を理解したり、P値の誤用を防ぎたい人にとってはむしろ有害な本である可能性が高いです。おそらくそれでもよい部分はあるのでしょうが、この本を購入した人達の多くは「お金を損した」と感じたと思われます。

12

#統計 P値や信頼区間の無難な解釈の仕方及びそれらの誤用とその原因について学びたい人はGreenlandさんの講演スライド

biostat.ucdavis.edu/sites/g/files/…

を見ると良いと思います。非常に率直に書かれており、めちゃくちゃ面白いです。この面白さをみんなと共有したい。

13

#統計 P値と言えば「差がない」という帰無仮説(ゼロ仮説)のP値に限るかのような統計学ユーザー向けの伝統的なP値の説明をしている人は、P値について理解していないと判断した方がよいです。

P値は任意の数値aに関する「差はaである」という検定したい仮説に対して定義できます。

14

#統計 Greenlandさんの講演スライド

biostat.ucdavis.edu/sites/g/files/…

では、「差はない」「効果はない」などの帰無仮説(ゼロ仮説)にこだわることをnullism (帰無主義、ゼロ主義)と呼び、強く批判しています。

任意の数値aに関する「効果はaである」の型の一般の検定仮説を扱うべきです。

15

#統計補足。想定される検出力が80%になるように標本サイズを十分に大きくした場合であっても、「効果はゼロである」の型のゼロ仮説のP値が有意水準以上になった場合には「ゼロ仮説の妥当性の判断は保留する」とするのが正しく、「ゼロ仮説は正しい」のように判断するべきではありません。続く

View Tweet

16

#統計想定される検出力が80%ということは、背景となるモデルと想定した効果の下でP値が有意水準未満になる確率は80%だということです。残りの20%の確率でP値は有意水準以上になり、効果の有無に関する判断は保留されることになります。

この20%という第2種の過誤の確率はかなり大きいです。

17

#統計しかも、実践的なケースでは、想定した効果の大きさが過大評価になっているせいで、実効的な検出力は80%よりも小さな値になっている可能性も残ります。

想定される検出力を80%にしても過信しないように注意する必要があります。

18

#統計「効果は0である」という帰無仮説と想定される効果の値aに関する「効果はaである」という仮説をP値で比較したいならば、帰無仮説のP値だけではなく、「効果はaである」という仮説のP値も計算してしまえばよいのです。

伝統的な悪習にこだわると、こういうシンプルな発想をできなくなる。

19

#統計 Greenlandさんの講演スライド biostat.ucdavis.edu/sites/g/files/… を難しく感じる人は、同じようなことが書いてある最新しまりす本を読めばよいと思います。

佐藤俊哉著『宇宙怪人しまりす統計よりも重要なことを学ぶ』
asakura.co.jp/detail.php?boo…
↓
asakura.tameshiyo.me/9784254122978?…
↓

20

#統計補足への補足

有意水準として慣習的に使われている5%も科学的厳密性の観点からはザルであることに注意。

赤無しの麻雀で子で配牌ドラ2以上となる確率は約4.6%(ドラ2は4.3%)で5%に近い。

配牌ドラ2以上は無視できるほどまれであるという感覚で麻雀を遊んでいる人はいないと思います。続く

View Tweet

21

#統計慣習的な検出力の80%に対応する第2種の過誤の確率20%はさらにザルです。

5%やら20%のようなザルのフィルターであっても、我々の生活水準を向上させるために役に立つのであれば使用することは合理的です。治療法の治験(多段階になっていることが重要！)での使用はそういう例になっています。

22

#統計有意水準5%、想定検出力80%の仮説検定は科学的にザルなので、治療法の治験が制度的に多段階になっていることは非常に重要です。

多段階になっていない単一の報告での有意水準5%想定検出力80%の仮説検定は科学的にザルになっている可能性が高いことに常に注意が必要になります。

23

#統計さらに補足。P値との関係で、所謂「再現性の危機」についてPハッキングのような不正行為の蔓延について強調する行為もミスリーディングで好ましくない。

理想的に行われた有意水準5%想定検出力80%の仮説検定も再現性を保証できないことを正直に説明しないと、真っ当な統計学教育になりません。

24

#統計両側検定での有意水準5%検出力80%の仮説検定でP値が5%を切っても、再現確率が60%くらいにしかならないシンプルな想定が最新シマリス本にあります。

asakura.co.jp/detail.php?boo…
↓
asakura.tameshiyo.me/9784254122978?…

25

#統計有意水準5%やそれと同等の信頼水準95%(95%信頼区間)を使って、本当は白黒をはっきりつけられないことについても、白黒つけることにこだわる病気をGreenlandさんのスライドではdichotomania (二分法病)と呼んでいます。

biostat.ucdavis.edu/sites/g/files/…

26

#統計統計学ユーザー達に伝統的に蔓延している3種の病気:

* nullism (帰無主義)
* dichotomania (二分法病)
* reification

"reification" は「物象化」「具象化」と翻訳されたりしますが、この場合には、

　モデルを疑わない病

のように翻訳すると分かりやすいと思います。

View Tweet

27

#統計有限個の数値の集まりに過ぎないデータの数値から、無限に可能性がある未知の母集団の様子は、何らかのモデル(数学的設定)無しには何も分かりません。

そのとき使ったモデルの妥当性は常に問題にされるべきです。

しかし、伝統的な統計学教育ではモデルに言及せずにやり方を説明してしまう。

28

#統計その結果、多くの統計学ユーザー達は、「効果がない」という仮説のP値が有意水準未満もしくは非常に小さいならば、「効果がない」という仮説を否定するための証拠の1つが得られたかのように誤解してしまいます。

疑うべき対象から、モデルが完全に抜け落ちてしまう。

View Tweet

29

#統計モデルのパラメータに関する検定仮説H(例えば効果を意味するパラメータθに関するθ=0という仮説)のP値が小さいときには、仮説Hだけではなく、モデル全体(数学的設定の全体)も疑いの対象になります。実際にはデータの数値の取得法も疑いの対象になります。

これは非常に当たり前の話です。

View Tweet

30

#統計 P値が小さい場合には、検定したい仮説だけではなく、P値の計算に使われた数学的設定の全体(モデル全体)やデータの数値の取得法の妥当性も疑いの対象になるという当たり前の話は、『統計的有意性とP値に関するASA声明』での原則1でも強調されています。

biometrics.gr.jp/news/all/ASA.p…

@genkuroki: #統計P値 ―その正しい理解と適用― (統計スポットラ...

You're reading 30 of 49 posts

Actions

What You Can Do