✨ Visual Editor
close

arrow_forward
135°

40px
16px

16px
黒木玄 Gen Kuroki
@genkuroki
#統計 おお!

統計学の講義でP値関数について解説する仲間が増えた。

その場合を #Julia言語 で視覚化してみました。信頼区間はP値がα以上になるモデルのパラメータの範囲になる。

誰でも実行して遊べるColabノートブック

colab.research.google.com/drive/1she_BKS…
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計 二項分布モデルの正規分布近似によるP値関数のグラフ。左側のグラフは片側P値関数達と両側P値関数の1/2倍の同時プロットで、右側のグラフは両側P値関数のプロット。

colab.research.google.com/drive/1she_BKS…
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計

100(1-α)%信頼区間の定義は「P値≥αとなるパラメータの値の範囲」です。

95%両側信頼区間は、97.5%片側信頼区間達の共通部分になる。

片側P値関数達と両側P値関数の両方の__全体__を同時にプロットしているグラフは珍しいのでちょっと貴重かもしれません。

colab.research.google.com/drive/1she_BKS…
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計 ASA声明 scholar.google.co.jp/scholar?cluste… でのP値の説明も添付画像のようになっているせいでそのままだとダメなので、講義で使う場合には注意が必要です。

直近の2つの"the data"の意味が異なることをきちんと説明しないと誤解させてしまいます。

あと"incompatible"は"compatible"に直したい。
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計 ASA声明のように不快なP値の説明がなくて、クリアで内容的に一貫している解説にSander Greenlandさんの講演スライド

biostat.ucdavis.edu/sites/g/files/…

があります。

医療関係者はGreenlandさんに従えば統計を安全に使い易くなると思います。スライドの中に引用できる論文のリストがあります。
黒木玄 Gen Kuroki
@genkuroki
#統計 再現性の危機の主な原因がPハッキングの類の不正行為であるかのように語るミスリーディングな説明に注意。

次の論文の内容が科学的常識にフィットしていると思います。

scholar.google.co.jp/scholar?cluste…
Amrhein-Trafimow-Greenland 2019
副題:再現性を期待しなければ再現性の危機は存在しない
黒木玄 Gen Kuroki
@genkuroki
#統計 二項分布モデルの下で

(alt=:greaterの片側P値)=(仮説「成功確率はp以下」とデータの数値の相性の良さ)

(alt=:lessの片側P値)=(仮説「成功確率はp以上」とデータの数値の相性の良さ)

(alt=:twosidedの片側P値)=(仮説「成功確率はp」とデータの数値の相性の良さ)

colab.research.google.com/drive/1she_BKS…
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計 このようにP値は、

特定のモデルの下での
データの数値と
モデルのパラメータの値に関する仮説
の相性の良さ(compatibility)の程度

を表しています。これがASA声明にあるP値の解釈の仕方の一例になっている。

添付画像は「n=50回中k=42回成功」というデータの数値のP値関数たちのグラフ。
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計 ASA声明での「P値はincompatibleな程度だ」の「P値」は正しくは「P値の小ささ」です。

「P値はcompatibleな程度(相性の良さの程度)」だと言う方が直接的で、両側P値が最大になるパラメータの値を「点推定値」と呼ぶこととも整合的です。

このあたりはASA声明よりGreenlandが優れています。
黒木玄 Gen Kuroki
@genkuroki
#統計 おそらく、ASA声明には「小さな世界」の統計学(実践的ではない)や、P値の使用先として帰無仮説有意性検定を主に考えるというような時代遅れの感覚が残っていると解釈すると、P値に関する説明の仕方がいまいちである理由が分かるような気がします。
黒木玄 Gen Kuroki
@genkuroki
#統計 モデルが現実においても正しいことを当然の前提とする時代遅れの「小さな世界」の統計学の考え方が混じっているならば、"the data"という言葉を直近で異なる意味で使ってしまっても不思議ではありません。
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計 P値の使い道として、P値がどれだけ小さいかを気にすれば十分な帰無仮説有意性検定だけしか考えていないならば、シンプルに"compatible"と書かずに"incompatible"と書いてしまったことも理解できます。

P値は推定のための道具でもあります。
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計 ASA声明でのP値に関する説明の仕方が不快に感じる人はGreenlandさんによる解説を読むとすっきりすると思います。
黒木玄 Gen Kuroki
@genkuroki
#統計 Colabノートブック

colab.research.google.com/drive/1she_BKS…

の実行の仕方:

1. ブラウザからGoogleにログインする。

2. そのブラウザで上のURLにアクセスする。

3. ランタイム→すべてのセルを実行(添付画像)

1分程度ですべてが実行されます。少しだけ書き変えて実行すると理解が進む場合がある。
Thread image
黒木玄 Gen Kuroki
@genkuroki
#統計

colab.research.google.com/drive/1she_BKS…

で #Julia言語 で実装されている信頼区間のコードは、高校数学で習うWaldの信頼区間(二項分布の正規分布近似から素直に得られ__ない__信頼区間)ではなく、Wilsonのスコア信頼区間(二項分布の正規分布近似から素直に得られる信頼区間)です。

ja.wikipedia.org/wiki/%E3%82%A6…
黒木玄 Gen Kuroki
@genkuroki
#統計 Wilsonのスコア信頼区間は、Rのprop.testのcorrect=FALSEで実装されている信頼区間です。

Wilsonのスコア信頼区間が優れた性質を持つことについては以下のリンク先で紹介した非常に有名な論文を参照。
黒木玄 Gen Kuroki
@genkuroki
#統計 P値を「特定のモデルの下での、データの数値とモデルのパラメータに関する特定の仮説の相性の良さ(compatibility)の程度」と解釈することの利点の1つは、ベイズ統計での事後確率も同じように解釈できることです。ただし、ベイズではモデルの構成要素に事前分布が含まれる。
Generated by Thread Navigator
100%
workspace_premium Upgrade
Press + S to quick-export