@genkuroki: #統計 いつも言っていることをそのまま書きます。長めのスレッ...
@genkuroki
29 views
Mar 03, 2025
1
#統計 いつも言っていることをそのまま書きます。長めのスレッドになります。
以下スクショによるスライドの引用は speakerdeck.com/shuntaros/jia-… より。赤字と青字は私による書き込みコメント。
まず、p.12について。詳しい解説に続く。
以下スクショによるスライドの引用は speakerdeck.com/shuntaros/jia-… より。赤字と青字は私による書き込みコメント。
まず、p.12について。詳しい解説に続く。
View Tweet
2
#統計 「違いがない」の型の帰無仮説のP値をnull P値と呼びます。
null P値は「違いは○○である」の型の仮説に関する無数のP値の特別な場合で、null P値へのこだわりは悪しきnullismである云々とGreenlandさんは言っています。
biostat.ucdavis.edu/sites/g/files/…
null P値は「違いは○○である」の型の仮説に関する無数のP値の特別な場合で、null P値へのこだわりは悪しきnullismである云々とGreenlandさんは言っています。
biostat.ucdavis.edu/sites/g/files/…
3
#統計 平たく言えば、「違いがない」の型の帰無仮説を「null P値<α」という条件によって棄却して「違いはある」という結論を出すためにP値を単純に使うことはP値の誤用の典型例であり、科学のプロセスを害しています。
biostat.ucdavis.edu/sites/g/files/…
biostat.ucdavis.edu/sites/g/files/…
4
#統計 医療関係者達にはP値を積極的に誤用させる教育が長年されて来たように見えます。
多くの人にとってのデフォルトの知識は、P値を誤用することをまともな統計分析だと信じることである可能性が高く、どう解決したら良いのかさっぱりわからない大問題。
多くの人にとってのデフォルトの知識は、P値を誤用することをまともな統計分析だと信じることである可能性が高く、どう解決したら良いのかさっぱりわからない大問題。
10
#統計 だから、Wilcoxonの順位和検定は「2つの母集団分布はぴったり等しい」という超絶強い帰無仮説に関する検定法だとみなすことはできます。
実際、2つの母集団分布の母平均、母中央値、母分散、母歪度が等しくても母尖度が違うせいで有意差が出易くなったりします。続く
実際、2つの母集団分布の母平均、母中央値、母分散、母歪度が等しくても母尖度が違うせいで有意差が出易くなったりします。続く
View Tweet
13
#統計 p.18, p.30
『統計的有意性とP値に関するASA声明』翻訳版での「矛盾する程度」は原文では"how incompatible"で、"how inconsistent"ではありません。
P値で矛盾は示せないので「矛盾する程度」と翻訳するのはやめた方が良いと私は思います。私は「相性の悪さの程度」という翻訳を提案。続く
『統計的有意性とP値に関するASA声明』翻訳版での「矛盾する程度」は原文では"how incompatible"で、"how inconsistent"ではありません。
P値で矛盾は示せないので「矛盾する程度」と翻訳するのはやめた方が良いと私は思います。私は「相性の悪さの程度」という翻訳を提案。続く
View Tweet
14
#統計 P値は大きいほどcompatibleになる指標なので、原文も素直に"how compatible"とすれば分かり易かった。日本語では
P値はデータの数値と統計モデルと検定したい仮説の組み合わせの相性の良さの程度を示す指標の1つである
のように説明すればぴったりだと思います。
P値はデータの数値と統計モデルと検定したい仮説の組み合わせの相性の良さの程度を示す指標の1つである
のように説明すればぴったりだと思います。
View Tweet
16
#統計 例えば、「P値<α」という条件によって「薬は効かない」という帰無仮説を棄却して「薬は効く」と判定する状況を考えましょう。
このとき気になるのは、そのようにして「効く」と判定された薬達の中に実際には効かない薬がどの程度の割合で含まれてしまうかです。その割合が大きいなら危険。続く
このとき気になるのは、そのようにして「効く」と判定された薬達の中に実際には効かない薬がどの程度の割合で含まれてしまうかです。その割合が大きいなら危険。続く
17
#統計 例えば、仮にすでに相当に吟味した薬達だけをテストするならば、テストする薬達の半分は効き目があるとしてよいでしょう。
その場合に、有意水準5%、検出力80%の両側検定のいつもの設定で、「効く」と判定された薬達の中での実際には効かない薬の割合は3%程度に抑えられます。
しかし~続く
その場合に、有意水準5%、検出力80%の両側検定のいつもの設定で、「効く」と判定された薬達の中での実際には効かない薬の割合は3%程度に抑えられます。
しかし~続く
View Tweet
18
#統計 しかし、テストする薬達の5%しか効き目がない場合には、同設定で、「効く」と判定された薬達の中での実際には効かない薬の割合は37%に跳ね上がります。
このように、P値<αという条件による判定の実践的有効性は、テストする薬の中での効く薬の割合に大きく依存します。
このように、P値<αという条件による判定の実践的有効性は、テストする薬の中での効く薬の割合に大きく依存します。
View Tweet
19
#統計 P値<αという条件だけで単純に判断することは、科学の信頼を損なうために非常に有効な方法になります。絶対にやめなければいけない。続く
20
#統計 現実社会での薬の承認制度は第1,2,3相の多段階治験をすべてクリアさせる非常に厳しい試練を課しています。
最終の第3相治験に入る前までにテストしている薬達のうち半分以上が効く薬ならば、第3相の主要評価項目の成否を「P値<α」という条件で判断しても安全性はかなり高くなる。
最終の第3相治験に入る前までにテストしている薬達のうち半分以上が効く薬ならば、第3相の主要評価項目の成否を「P値<α」という条件で判断しても安全性はかなり高くなる。
21
#統計 「P値<5%」という条件で「薬は効く」と判断することは、仮説検定に関わる諸々がすべて理想的になっていたとしても、テストする薬達の中で効く薬の割合が半分以上でなければ危ない、と考える必要があります。
仮説検定は理想的に使ってもそういう制限が入ります。続く
仮説検定は理想的に使ってもそういう制限が入ります。続く
22
#統計 研究では「驚くべき仮説が示された!」と言える結果を出したほうがうれしいので、テストされる(対立)仮説達の中で本当に正しいものの割合は小さくなる可能性が高くなるように私は思います。
実際にそうなら5%の有意水準はザルで発表された統計的有意な結果の数十%は再現不可能になるでしょう。
実際にそうなら5%の有意水準はザルで発表された統計的有意な結果の数十%は再現不可能になるでしょう。
23
#統計 おそらくそういうことは特定の分野達で実際に起こっています。
所謂「再現性の危機」の話。
p-hackingやHARKingなどの不正を防いでも、幾らでも「再現性の危機」は発生しそうです。ベイズ統計を使っても同じことになります。
所謂「再現性の危機」の話。
p-hackingやHARKingなどの不正を防いでも、幾らでも「再現性の危機」は発生しそうです。ベイズ統計を使っても同じことになります。
View Tweet
26
#統計 p.20, p.29
もしもp.20の意味で「サンプルサイズを大きくすると~P値は小さくなる」ことを理由に、p.29で「サンプルサイズを無視してP値の計算をおこなっている」を悪いことの例として挙げているならナンセンスです。続く
もしもp.20の意味で「サンプルサイズを大きくすると~P値は小さくなる」ことを理由に、p.29で「サンプルサイズを無視してP値の計算をおこなっている」を悪いことの例として挙げているならナンセンスです。続く
View Tweet
28
#統計 未知の母集団分布を考慮すれば、サンプルサイズを大きくすれば、データ内での比率は大数の法則によって母集団での母比率に近付きます。
2つの母比率が等しいなら、サンプルサイズを増やしてもP値の分布は一様分布に近いままになります。続く
2つの母比率が等しいなら、サンプルサイズを増やしてもP値の分布は一様分布に近いままになります。続く
29
#統計 2つの母比率が等しくないなら、サンプルサイズnを大きくすると、P値の分布は0側にどんどん偏って行き、n→∞では0に集中するようになります。続く
30
#統計 2つの母比率は等しくないが、医療的に無意味なほど小さい場合にも、サンプルサイズn→∞でP値(正確にはnull P値)の分布は0に集中するようになりますが、そこまでnを大きくできることは稀でしょう。




















