✨ Visual Editor
close
warning

Thread Truncated

Only the first 20 tweets are shown to ensure high-quality rendering and prevent image size issues.

arrow_forward
135°

40px
16px

16px
黒木玄 Gen Kuroki
@genkuroki
「チャート式」的なものを大学生になったり、大学を卒業した後になってもありがたがる人達が多いこと自体に私は問題があると思っています。

「きちんと理解するための勉強をする気がない」のような態度にどうしても見えてしまいます。

統計学についてそれをやられちゃうと社会的な害は大きいと思う。
黒木玄 Gen Kuroki
@genkuroki
「チャート式」的なものを大学生になったり、大学を卒業した後になってもありがたがる人達が多いことは、我々の社会が適切な高等教育に失敗していることを意味しています。

大学を卒業しているのに、「チャート式」的なものをありがたがっている人達は、その不幸な被害者達だと思います。
黒木玄 Gen Kuroki
@genkuroki
ただし、そういう失敗を大学のせいだけにするのはまずくて、小学校でのおかしな教育の仕方まで戻って教育を改善しなければどうにもならない問題だと思います。

大学を卒業しているのに、数学的な事柄について受験数学の参考書的なものを求めることは恥ずかしいことだとみんなで言うことも必要。
黒木玄 Gen Kuroki
@genkuroki
大学で検定法選択のフローチャート(←ある種の伝統になっており、その内容は杜撰)を教わって、その後大学の先生になって、学生に検定法選択のフローチャートを教えているような人達の問題も頭が痛く、解決の目処はまったくない。

これは日本だけの問題ではない。
黒木玄 Gen Kuroki
@genkuroki
#統計 統計学の入門書の内容を確認するときには、アメリカ統計学会による『統計的有意性とP値に関するASA声明』(2016) biometrics.gr.jp/news/all/ASA.p… と整合的な内容になっているかを確認すると良いです。

P値や信頼区間が統計モデル依存であるという当たり前の話を強調していなければアウトです。
黒木玄 Gen Kuroki
@genkuroki
#統計 そのASA声明の内容については、佐藤俊哉さんの講義動画が分かり易いです。

その講義の画期的なところは教科書が基本的なところでもろに間違っていることを繰り返し強調していることです。

基本的な内容がもろに間違っている教科書を再生産するのはちょっとまずいと思います。
黒木玄 Gen Kuroki
@genkuroki
#統計 Greenlandさんに代表される大物達によるP値の使い方に関する議論で明瞭に危険行為だとされていることは、「P値について5%のような閾値を設けて安易にニ値的な判断をすること」であり、P値の積極的利用は否定されていません。続く
黒木玄 Gen Kuroki
@genkuroki
#統計 例えば、95%信頼区間は「P値が5%以上になるパラメータ値全体の集合」なので、P値に関する5%の閾値を設ける行為の延長線上にあるので要注意です。

しかし、各パラメータ値のP値を全て集めてできるP値関数を見ること自体には閾値は必要ない。続く
黒木玄 Gen Kuroki
@genkuroki
#統計 信頼区間もP値を使う方法の特別な場合とみなされるので、信頼区間を使うことを良いことだと思っている人は、必然的にP値を使うことも良いことだと言っていることになります。

P値の仕様を否定して信頼区間を使うべきだと考えることは論理的にシンプルに間違っています。
黒木玄 Gen Kuroki
@genkuroki
#統計 危険視されているのは、例えば、治療や政策の効果を表すパラメータθについて、効果無しを意味する帰無仮説θ=0のP値のみを使ってかつ5%の閾値で安易なニ値的な判断をすることです。

パラメータθのすべての値にP値を対応させるP値関数の使用(=無数のP値を使うこと)は危険視されていない。続く
黒木玄 Gen Kuroki
@genkuroki
#統計 脱線。

【パラメータθのすべての値にP値を対応させるP値関数の使用(=無数のP値を使うこと)】のように書くと、基本的な事柄について理解度の低い人達が、自分自身の理解度の低さを自覚せずに「多重検定の問題」と関係があるかのようなコメントをして来る場合がある。

理解度が低過ぎる。
黒木玄 Gen Kuroki
@genkuroki
#統計 その手の「理解度の低さ」は勉強不足で生じているのではなくて、論理的にシンプルな理解を目指さずに、

❌昔から言われていることを受け入れる

というスタイルで勉強してしまったせいで生じています。複数のP値が出て来た途端にパターンマッチ的に「多重検定」と反応するようになる。
黒木玄 Gen Kuroki
@genkuroki
#統計 データの数値とパラメータθの値の設定(例えば帰無仮説)からP値が計算されるのですが、そのときには統計モデル(統計分析で仮定する数学的仮定の全体)を使います。

P値は統計モデルに強く依存して決まり、使用した統計モデルの実践的な妥当性は非自明な問題になり、避けて通れません。
黒木玄 Gen Kuroki
@genkuroki
#統計 よく見るのは

❌正規分布の母集団でなければt検定達を使えない。
❌ノンパラメトリック検定であれば無条件で使える。

という実践的には致命的な誤解です。

正規分布モデルを使っているt検定達の正規分布以外への適用は多くの場合に妥当になります。

ノンパラ検定も無条件では使えません。
黒木玄 Gen Kuroki
@genkuroki
#統計 統計モデルは数学的フィクションであり、現実の母集団分布を十分に近似している保証が通常の場合には得られません。

だから、具体的な各々の場合に、目的に合わせて、使用した統計モデルの選択がどのような意味で合理的であるかをユーザー側が自分で判断する必要があります。続く
黒木玄 Gen Kuroki
@genkuroki
#統計 例えば、「モデルMは現実の精緻な近似には全然なっていないが、○○対策のための緊急の政策案を作成するためには十分に役に立つので、モデルMを採用してパラメータθの値を色々変えてみて、既存のデータの数値との相性の良さを見ることは十分に合理的である」のような専門的な判断が必要になる。
黒木玄 Gen Kuroki
@genkuroki
#統計 統計モデルMの下での、データの数値とパラメータ値の設定の間の相性の良さの指標の1つがP値です。(P値の他にも尤度やベイズ統計での事後分布もような選択肢がある。)
黒木玄 Gen Kuroki
@genkuroki
#統計 それでは、帰無仮説のP値に有意水準と呼ばれる閾値αを設定したときの様々な事柄は役に立たないのか?例えば検出力のような概念は役に立たないのか?

もちろんそんなことはありません。

ただし、社会的には慎重な運用が求められます。続く
黒木玄 Gen Kuroki
@genkuroki
#統計 5%のような有意水準の取り扱いで注意するべきことは、その5%を実際に誤りが起こる確率のように解釈してはいけないことです。

以下では統計モデルが正しいという理想化された設定(実践的には無理な設定)で説明します。続く
黒木玄 Gen Kuroki
@genkuroki
#統計 その理想化された設定の下では、有意水準は

帰無仮説が正しい場合に制限したとき
帰無仮説を棄却されるという誤りが起こる確率

を意味していますが、

帰無仮説が棄却された場合に制限したときに
実際には帰無仮説が正しいという誤りが起こっている確率

ではありません。続く
Generated by Thread Navigator
100%
workspace_premium Upgrade
Press + S to quick-export