#統計 私が繰り返し引用している「統計的有意性とP値に関するASA声明」 biometrics.gr.jp/news/all/ASA.p… を使うときの問題点について書きます(既出の話題)。
肝腎のP値の概念の説明の仕方がまずいという問題がある!
P値の説明で出て来る2つの「データ」の意味は互いに全く異なります。これは結構酷い。続く

#統計 「P値とは?」の説明は、
大雑把に言うと、P値とは特定の統計モデル内の確率変数としての仮想的データ(現実で得たデータの数値のことではない)の統計的要約が現実で観察された値以上に極端な値をとるモデル内確率である
のようにするべきです。
P値はモデル内確率にすぎません。続く
大雑把に言うと、P値とは特定の統計モデル内の確率変数としての仮想的データ(現実で得たデータの数値のことではない)の統計的要約が現実で観察された値以上に極端な値をとるモデル内確率である
のようにするべきです。
P値はモデル内確率にすぎません。続く

#統計 原則1については
P値は現実で観察されたデータの数値と特定の統計モデルの相性の良さ(compatibility)の程度を示す指標の1つである
のように説明して、「P値とは?」の説明との対応が明瞭になるようにするべきです。
P値は現実で観察されたデータの数値と特定の統計モデルの相性の良さ(compatibility)の程度を示す指標の1つである
のように説明して、「P値とは?」の説明との対応が明瞭になるようにするべきです。

#統計 さらに「統計的有意性とP値に関するASA声明」 biometrics.gr.jp/news/all/ASA.p… では、「P値以外のアプローチ」の中にP値によるアプローチである「信頼区間」が含めています。これも結構酷い。
おそらく「P値」を暗黙のうちに「差がない」や「効果ゼロ」を意味する帰無仮説のP値とみなしている。続く
おそらく「P値」を暗黙のうちに「差がない」や「効果ゼロ」を意味する帰無仮説のP値とみなしている。続く

#統計 P値は、効果を意味するモデルのパラメータθに関する帰無仮説「θ=0」だけではなく、任意の数値aに関する「θ=a」という仮説についても定義されます。
そのとき効果θの信頼区間が「P値≥αとなるθの値全体の範囲」と定義されます。
信頼区間はもろにP値によるアプローチの1つです。続く
そのとき効果θの信頼区間が「P値≥αとなるθの値全体の範囲」と定義されます。
信頼区間はもろにP値によるアプローチの1つです。続く
#統計 P値に関する根深い誤解の1つは、「効果ゼロ」を意味する特殊な帰無仮説に関する単独のP値(以下null P値と呼ぶ)だけをP値だと思い込むことです。
その誤解は「効果ゼロ」を意味する特殊な帰無仮説に異様にこだわる有害な帰無主義(nullism)の一部分になっています。続く
その誤解は「効果ゼロ」を意味する特殊な帰無仮説に異様にこだわる有害な帰無主義(nullism)の一部分になっています。続く
#統計 「統計的有意性とP値に関するASA声明」では本当は、nullismもきちんと否定し、信頼区間はP値によるアプローチの一種に過ぎないことさえ認識できていない人達が多いという問題についても指摘しておくべきだったのですが、その点については非常に弱いものになっています。
#統計 nullismをきちんと否定する非常にもっともな立場では、
❌P値の代わりに信頼区間を使う
という安易な考え方は明瞭に有害だとみなされ、
⭕️任意の数値aに関する仮説θ=aのP値の全体を使う
の方がよりよい立場だとみなされることになります。
❌P値の代わりに信頼区間を使う
という安易な考え方は明瞭に有害だとみなされ、
⭕️任意の数値aに関する仮説θ=aのP値の全体を使う
の方がよりよい立場だとみなされることになります。
#統計 「信頼区間を使えば良い」というような安易な考え方のダメ出しやP値を検定ではなく推定のための道具とみなすことが適切であることなどについては、Greenlandさんの講演スライド biostatistics.ucdavis.edu/sites/g/files/… に書いてあります。
View Tweet
#統計 関連スレッド
View Tweet
#統計 信頼区間は「P値≥αとなるモデルのパラメータの値の範囲」なので「P値の代わりに信頼区間を使う」は自明にナンセンス。
しかし、「検定から推定へ」というスローガンは悪くない。検定や信頼区間による悪しき二分法に陥らずに、null P値以外のすべてのP値を使う「推定」に移行するのがよさそう。
しかし、「検定から推定へ」というスローガンは悪くない。検定や信頼区間による悪しき二分法に陥らずに、null P値以外のすべてのP値を使う「推定」に移行するのがよさそう。
#統計 P値を
❌「効果ゼロ」という帰無仮説に関する検定の道具
とみなすのではなく、
⭕️推定の道具
とみなすべきであることについては、Greenlandさんの講演スライドを参照。
この講演スライドに目を通しておくと、P値に関するおかしな議論に関わる時間を減らせます。
biostatistics.ucdavis.edu/sites/g/files/…
❌「効果ゼロ」という帰無仮説に関する検定の道具
とみなすのではなく、
⭕️推定の道具
とみなすべきであることについては、Greenlandさんの講演スライドを参照。
この講演スライドに目を通しておくと、P値に関するおかしな議論に関わる時間を減らせます。
biostatistics.ucdavis.edu/sites/g/files/…

#統計 統計学での「推定」の1つの定義は「データの数値とモデルのパラメータの各値の相性の良さの程度を調べること」です。
点推定はデータの数値と最も相性が良いパラメータの値を求めること。
区間推定はデータの数値との相性の良さが閾値以上のパラメータの値の範囲を求めること。
点推定はデータの数値と最も相性が良いパラメータの値を求めること。
区間推定はデータの数値との相性の良さが閾値以上のパラメータの値の範囲を求めること。
#統計 1つ上の投稿における「推定」の定義を採用するとき、P値は「データの数値とモデルのパラメータの値の設定の相性の良さ」の指標の1つなので、P値はもろに「推定の道具」であることになります。
biostatistics.ucdavis.edu/sites/g/files/…
biostatistics.ucdavis.edu/sites/g/files/…

#統計 【信頼区間という言葉の使い方】は__確実に__かつ決定的にダメです。
おそらく多くの人が信頼区間は「信頼できる区間」のようなものだと誤解している。
しかし、今さら「信頼区間」という言い方をやめることは難しい。
おそらく多くの人が信頼区間は「信頼できる区間」のようなものだと誤解している。
しかし、今さら「信頼区間」という言い方をやめることは難しい。
View Tweet
#統計 ベイズ統計での「信用区間」(credible interval)という言い方も同様の理由で確実にダメです。
信頼区間も信用区間も、データの数値との相性の良さ(compatibility)がある閾値以上のモデルのパラメータの範囲に過ぎません。
非ベイズとベイズでは「相性の良さ」の測り方が違うだけ。
信頼区間も信用区間も、データの数値との相性の良さ(compatibility)がある閾値以上のモデルのパラメータの範囲に過ぎません。
非ベイズとベイズでは「相性の良さ」の測り方が違うだけ。
#統計 この「データ」という用語も要注意。
数学的フィクションにすぎない統計モデル内の標本分布に従う確率変数としてのデータ
と
現実世界で得たデータの数値
を厳密に区別する必要があります。
モデルと現実の混同はさすがにまずい。
しかし、統計学の解説では区別が曖昧な表現が多いです。
数学的フィクションにすぎない統計モデル内の標本分布に従う確率変数としてのデータ
と
現実世界で得たデータの数値
を厳密に区別する必要があります。
モデルと現実の混同はさすがにまずい。
しかし、統計学の解説では区別が曖昧な表現が多いです。
View Tweet
#統計 確率変数とその実現値を区別するだけでは全然ダメ。この点の強調は重要。
現実の母集団(例えばS市の高校1年生男子の体重全体)からの無作為抽出で得られる標本の分布
と
数学的フィクションの統計モデル内の標本分布
を厳密に区別して扱う必要があります。
現実とモデルの区別の話。
現実の母集団(例えばS市の高校1年生男子の体重全体)からの無作為抽出で得られる標本の分布
と
数学的フィクションの統計モデル内の標本分布
を厳密に区別して扱う必要があります。
現実とモデルの区別の話。
#統計 ほらやっぱり誤解していた。
信頼区間の「信頼」(confidence)は不適切な命名法の典型例です。
信頼区間は
信頼できるかどうか不明のモデル(統計モデルだけではなく因果モデル)
にも依存して決まるので多くの場合に信頼せずに注意深く扱う必要があります。
信頼区間の「信頼」(confidence)は不適切な命名法の典型例です。
信頼区間は
信頼できるかどうか不明のモデル(統計モデルだけではなく因果モデル)
にも依存して決まるので多くの場合に信頼せずに注意深く扱う必要があります。
View Tweet
#統計 信頼区間の信頼(confidence)がいかに不適切な単語の使い方であったかは、Greenlandさんの講演スライド
biostatistics.ucdavis.edu/sites/g/files/…
で特に強調されていることの一つです。
biostatistics.ucdavis.edu/sites/g/files/…
で特に強調されていることの一つです。

Generated by Thread Navigator
Press ⌘ + S to quick-export
auto_awesome
Image exported!
Pro export renders embedded tweets & media at 2x Retina resolution.
Upgrade — $5 for 30 days