@genkuroki: #統計 私が繰り返し引用している「統計的有意性とP値に関する...
@genkuroki
17 views
Mar 26, 2026
Advertisement
1
#統計 私が繰り返し引用している「統計的有意性とP値に関するASA声明」 biometrics.gr.jp/news/all/ASA.p… を使うときの問題点について書きます(既出の話題)。
肝腎のP値の概念の説明の仕方がまずいという問題がある!
P値の説明で出て来る2つの「データ」の意味は互いに全く異なります。これは結構酷い。続く
肝腎のP値の概念の説明の仕方がまずいという問題がある!
P値の説明で出て来る2つの「データ」の意味は互いに全く異なります。これは結構酷い。続く
4
#統計 さらに「統計的有意性とP値に関するASA声明」 biometrics.gr.jp/news/all/ASA.p… では、「P値以外のアプローチ」の中にP値によるアプローチである「信頼区間」が含めています。これも結構酷い。
おそらく「P値」を暗黙のうちに「差がない」や「効果ゼロ」を意味する帰無仮説のP値とみなしている。続く
おそらく「P値」を暗黙のうちに「差がない」や「効果ゼロ」を意味する帰無仮説のP値とみなしている。続く
5
#統計 P値は、効果を意味するモデルのパラメータθに関する帰無仮説「θ=0」だけではなく、任意の数値aに関する「θ=a」という仮説についても定義されます。
そのとき効果θの信頼区間が「P値≥αとなるθの値全体の範囲」と定義されます。
信頼区間はもろにP値によるアプローチの1つです。続く
そのとき効果θの信頼区間が「P値≥αとなるθの値全体の範囲」と定義されます。
信頼区間はもろにP値によるアプローチの1つです。続く
6
#統計 P値に関する根深い誤解の1つは、「効果ゼロ」を意味する特殊な帰無仮説に関する単独のP値(以下null P値と呼ぶ)だけをP値だと思い込むことです。
その誤解は「効果ゼロ」を意味する特殊な帰無仮説に異様にこだわる有害な帰無主義(nullism)の一部分になっています。続く
その誤解は「効果ゼロ」を意味する特殊な帰無仮説に異様にこだわる有害な帰無主義(nullism)の一部分になっています。続く
7
#統計 「統計的有意性とP値に関するASA声明」では本当は、nullismもきちんと否定し、信頼区間はP値によるアプローチの一種に過ぎないことさえ認識できていない人達が多いという問題についても指摘しておくべきだったのですが、その点については非常に弱いものになっています。
8
#統計 nullismをきちんと否定する非常にもっともな立場では、
❌P値の代わりに信頼区間を使う
という安易な考え方は明瞭に有害だとみなされ、
⭕️任意の数値aに関する仮説θ=aのP値の全体を使う
の方がよりよい立場だとみなされることになります。
❌P値の代わりに信頼区間を使う
という安易な考え方は明瞭に有害だとみなされ、
⭕️任意の数値aに関する仮説θ=aのP値の全体を使う
の方がよりよい立場だとみなされることになります。
9
#統計 「信頼区間を使えば良い」というような安易な考え方のダメ出しやP値を検定ではなく推定のための道具とみなすことが適切であることなどについては、Greenlandさんの講演スライド biostatistics.ucdavis.edu/sites/g/files/… に書いてあります。
View Tweet
10
#統計 関連スレッド
View Tweet
11
#統計 信頼区間は「P値≥αとなるモデルのパラメータの値の範囲」なので「P値の代わりに信頼区間を使う」は自明にナンセンス。
しかし、「検定から推定へ」というスローガンは悪くない。検定や信頼区間による悪しき二分法に陥らずに、null P値以外のすべてのP値を使う「推定」に移行するのがよさそう。
しかし、「検定から推定へ」というスローガンは悪くない。検定や信頼区間による悪しき二分法に陥らずに、null P値以外のすべてのP値を使う「推定」に移行するのがよさそう。
12
#統計 P値を
❌「効果ゼロ」という帰無仮説に関する検定の道具
とみなすのではなく、
⭕️推定の道具
とみなすべきであることについては、Greenlandさんの講演スライドを参照。
この講演スライドに目を通しておくと、P値に関するおかしな議論に関わる時間を減らせます。
biostatistics.ucdavis.edu/sites/g/files/…
❌「効果ゼロ」という帰無仮説に関する検定の道具
とみなすのではなく、
⭕️推定の道具
とみなすべきであることについては、Greenlandさんの講演スライドを参照。
この講演スライドに目を通しておくと、P値に関するおかしな議論に関わる時間を減らせます。
biostatistics.ucdavis.edu/sites/g/files/…
13
#統計 統計学での「推定」の1つの定義は「データの数値とモデルのパラメータの各値の相性の良さの程度を調べること」です。
点推定はデータの数値と最も相性が良いパラメータの値を求めること。
区間推定はデータの数値との相性の良さが閾値以上のパラメータの値の範囲を求めること。
点推定はデータの数値と最も相性が良いパラメータの値を求めること。
区間推定はデータの数値との相性の良さが閾値以上のパラメータの値の範囲を求めること。
14
#統計 1つ上の投稿における「推定」の定義を採用するとき、P値は「データの数値とモデルのパラメータの値の設定の相性の良さ」の指標の1つなので、P値はもろに「推定の道具」であることになります。
biostatistics.ucdavis.edu/sites/g/files/…
biostatistics.ucdavis.edu/sites/g/files/…
15
#統計 【信頼区間という言葉の使い方】は__確実に__かつ決定的にダメです。
おそらく多くの人が信頼区間は「信頼できる区間」のようなものだと誤解している。
しかし、今さら「信頼区間」という言い方をやめることは難しい。
おそらく多くの人が信頼区間は「信頼できる区間」のようなものだと誤解している。
しかし、今さら「信頼区間」という言い方をやめることは難しい。
View Tweet
16
#統計 ベイズ統計での「信用区間」(credible interval)という言い方も同様の理由で確実にダメです。
信頼区間も信用区間も、データの数値との相性の良さ(compatibility)がある閾値以上のモデルのパラメータの範囲に過ぎません。
非ベイズとベイズでは「相性の良さ」の測り方が違うだけ。
信頼区間も信用区間も、データの数値との相性の良さ(compatibility)がある閾値以上のモデルのパラメータの範囲に過ぎません。
非ベイズとベイズでは「相性の良さ」の測り方が違うだけ。
17
#統計 この「データ」という用語も要注意。
数学的フィクションにすぎない統計モデル内の標本分布に従う確率変数としてのデータ
と
現実世界で得たデータの数値
を厳密に区別する必要があります。
モデルと現実の混同はさすがにまずい。
しかし、統計学の解説では区別が曖昧な表現が多いです。
数学的フィクションにすぎない統計モデル内の標本分布に従う確率変数としてのデータ
と
現実世界で得たデータの数値
を厳密に区別する必要があります。
モデルと現実の混同はさすがにまずい。
しかし、統計学の解説では区別が曖昧な表現が多いです。
View Tweet
18
#統計 確率変数とその実現値を区別するだけでは全然ダメ。この点の強調は重要。
現実の母集団(例えばS市の高校1年生男子の体重全体)からの無作為抽出で得られる標本の分布
と
数学的フィクションの統計モデル内の標本分布
を厳密に区別して扱う必要があります。
現実とモデルの区別の話。
現実の母集団(例えばS市の高校1年生男子の体重全体)からの無作為抽出で得られる標本の分布
と
数学的フィクションの統計モデル内の標本分布
を厳密に区別して扱う必要があります。
現実とモデルの区別の話。
19
#統計 ほらやっぱり誤解していた。
信頼区間の「信頼」(confidence)は不適切な命名法の典型例です。
信頼区間は
信頼できるかどうか不明のモデル(統計モデルだけではなく因果モデル)
にも依存して決まるので多くの場合に信頼せずに注意深く扱う必要があります。
信頼区間の「信頼」(confidence)は不適切な命名法の典型例です。
信頼区間は
信頼できるかどうか不明のモデル(統計モデルだけではなく因果モデル)
にも依存して決まるので多くの場合に信頼せずに注意深く扱う必要があります。
View Tweet
20
#統計 信頼区間の信頼(confidence)がいかに不適切な単語の使い方であったかは、Greenlandさんの講演スライド
biostatistics.ucdavis.edu/sites/g/files/…
で特に強調されていることの一つです。
biostatistics.ucdavis.edu/sites/g/files/…
で特に強調されていることの一つです。
21
#統計 こうたさんと同意見です。
繰り返し標本を取り直す母集団分布は現実の母集団分布ではなく、数学的フィクションの統計モデル内の仮想的母集団分布に過ぎないことを正直に言わないとアウト。
そして数学的フィクションとしての仮想的母集団分布なら標本を取り直さずに単に確率を計算すればよい。
繰り返し標本を取り直す母集団分布は現実の母集団分布ではなく、数学的フィクションの統計モデル内の仮想的母集団分布に過ぎないことを正直に言わないとアウト。
そして数学的フィクションとしての仮想的母集団分布なら標本を取り直さずに単に確率を計算すればよい。
View Tweet
22
#統計 「P値」には「有意確率」(significance probability)という有害な別名がありますが、統計学においては「有意」(significance)も「信頼」(confidence)と同程度に有害な単語の使い方になっています。
「有意確率」よりも「P値」という言い方の方がよく使われていることはちょっとだけ幸運。
「有意確率」よりも「P値」という言い方の方がよく使われていることはちょっとだけ幸運。
23
#統計 「尤度」(ゆうど)という意味不明に響く用語はlikelihoodの統計学での翻訳なのですが、尤度はもっともらしさの指標ではないので、「もっともらしさ度」のように翻訳がされなかったことはラッキーでした。
統計学の文脈では、専門用語の正しい解釈は単語の意味と無関係な場合が非常に多いです。
統計学の文脈では、専門用語の正しい解釈は単語の意味と無関係な場合が非常に多いです。
24
#統計
⭕️信頼区間や信用区間は多くの場合に信頼も信用もできない。
⭕️統計的に有意であることは、統計的に意味があることや重要であることを意味しない。
⭕️尤度は尤もらしさの指標ではない。
⭕️信頼区間や信用区間は多くの場合に信頼も信用もできない。
⭕️統計的に有意であることは、統計的に意味があることや重要であることを意味しない。
⭕️尤度は尤もらしさの指標ではない。
25
#統計 多くの解説では、仮説検定は示したい仮説に関する背理法のようなものだと説明されていますが(高校数学Ⅰの教科書でもそうなっている!😱)、実際にはテストしたい仮説単体ではなく、諸々の仮定の全体を見なければいけないので、そういう説明は間違っています。
biostatistics.ucdavis.edu/sites/g/files/…
biostatistics.ucdavis.edu/sites/g/files/…
26
#統計 元々、統計学の入門的な教科書やハウツー本の内容は伝統的に酷かったのですが、日本では高校数学の検定済み教科書を通して若い世代の国民の大部分によろしくない考え方を吹き込む方針が現在進行中です。
誰が責任をとってくれるんでしょうかね?
誰が責任をとってくれるんでしょうかね?
27
#統計 95%信頼区間について「95%の確率で信頼できる範囲」と説明することはやめた方が良いです。
「信頼」という語の通常の意味は完全に無視した方が良い。
「二項分布のパラメータpの値でデータの数値との相性が悪くないものの範囲」だと解釈すれば安全だというのがGreenlandさんの主張です。
「信頼」という語の通常の意味は完全に無視した方が良い。
「二項分布のパラメータpの値でデータの数値との相性が悪くないものの範囲」だと解釈すれば安全だというのがGreenlandさんの主張です。
View Tweet
28
#統計 論文へのリンク
bmcmedresmethodol.biomedcentral.com/articles/10.11…
Semantic and cognitive tools to aid statistical science: replace confidence and significance by compatibility and surprise
Zad Rafi & Sander Greenland
2020
大体においてP値に関する正しい考え方についてはGreenlandさん達の論文がお勧め。
bmcmedresmethodol.biomedcentral.com/articles/10.11…
Semantic and cognitive tools to aid statistical science: replace confidence and significance by compatibility and surprise
Zad Rafi & Sander Greenland
2020
大体においてP値に関する正しい考え方についてはGreenlandさん達の論文がお勧め。
View Tweet










