@genkuroki: #統計うわっ！以前から危惧していた通りに、アメリカ統計...

1

#統計うわっ！

以前から危惧していた通りに、アメリカ統計学界のASA声明に違反しているP値の使い方を仮定している問題が出題されたようだ。

こういう問題を作った人とそのまま出すことを許可した人達に何らかのペナルティーが課せられるべきだと思いました。続く

2

#統計大学で統計学を数十年間教えて来た人達であっても、ASA声明の厳しい批判を理解していない人たちは、こういう問題を出しても良いと多分思っています。

そういう人達は結果的に次世代の若い人達の知的レベルを下げることに貢献している。

統計学教育の内容が伝統的に酷いことは深刻な問題。

3

#統計統計学教育のスタンダードがASA声明 biometrics.gr.jp/news/all/ASA.p… 的にはトンデモであることについては、佐藤俊哉先生の講義動画を参照して下さい。

高校生にアメリカ統計学会が誤りだと言っていることを教える伝統を我々の世代は作ってしまうかもしれない。高校の数学の教科書の内容も酷い。

4

#統計現実の高校生達の大部分は高校の数学の教科書通りに仮説検定について習っているので、アメリカ統計学会の声明で統計学の誤用扱いされているやり方を学んでいることになります。

以前は18歳以上でされていたトンデモ教育が15歳の子にされるようになってしまった。

普通はなかなか見れない暴挙。

5

#統計アメリカ統計学会が出した伝統的に蔓延している統計学の誤用を指摘した声明(ASA声明)関連情報。

6

#統計件の問題文における

【この仮説のもとで、かたよりなく選ばれた 35人のうち 23人以上が「キャンペーンAの方がよい」と回答する確率が5%未満であれば、その仮説は誤っていると判断】

の部分はASA声明の添付画像の部分に違反しているやり方になっています。

biometrics.gr.jp/news/all/ASA.p…

7

#統計モデルが正しく、データの取得法にも何の瑕疵がなくても、帰無仮説が正しい可能性(確率)が非常に高い場合には、P値<5%となったときの帰無仮説が正しい(条件付き)確率はかなり高くなります(典型的な場合には数十%の確率になる)。

P値は最終判断のために使える情報の1つでしかない。

8

#統計 ASA声明的には、P値は参考情報の１つに過ぎないのですが、統計学教育の伝統(悪しき伝統)では、まるでP値だけを使って判断して良いかのように教えて来た。

そういうのはダメだとアメリカ統計学会ははっきり言っており、しかも、それは科学的には普通に常識的な意見に過ぎないということ。

9

#統計 P値な信頼区間についてどのように教えるべきか、についてはGreenlandさん達が穏健で合理的に見える提案をずっとして来ています。Greenlandさんの講演スライドが率直で分かり易いです。

10

#統計アメリカ統計学会の声明(ASA声明) scholar.google.co.jp/scholar?cluste… が出たのは2016年なので、日本での高校数学に仮説検定をねじ込むことの実施時の非トンデモ化に十分間に合っていたのですが、高校数学に仮説検定をねじ込んだ勢力はそれをサボったわけです。

きちんと責任の所在をはっきりさせるべき。

11

#統計間違っていたら申し訳ないのですが、多くの人が受験している統計検定で出されている問題でも同様のトンデモが標準的になっている疑いがあると思います。

その辺の事情を知っている人がいたら、どうなっているかについて教えて下さい。

12

#統計おそらく、𝕏上にも責任を取るべき立場かもしれない人たちがいると思います。そういう人達にこのスレッドの情報を伝えてくださる人がいると助かります。

13

#統計うわっ。

共通テストの問題は基本を理解していない人達が作っているということですね。高校の数学の教科書も同様。責任を取らなければいけない人達が沢山いる。

たくさんいるがゆえに、無知無能に基いて教科書を執筆したり共通テストの問題を作ったりした人達は責任を取らない可能性が高い。

14

#統計添付画像は toshintimes.com/uploadPdfs/bac… より。

こういう問題が(また)出題される可能性があることを知った高校生は、ASA声明に反するやる方を高校生時代に一所懸命勉強するようになる。

大学入学後に脱洗脳が必要になる。

15

#統計こういう問題を平気で作れてしまうレベルの教養しかない人は統計学の問題を作るチームから外さないとまずい。そして誰かがASA声明についてスタッフに解説して、2度とこの手の問題が作られたりしないようにする必要がある。

ASA声明は2016年に出版されたので知らないではさすがにすまされない。

16

#統計分岐スレッドへ

17

#統計仮説検定の結果をそのまま最終的判断とすることがまるで普通であるかのように説明している教科書は、少なくともNeyman-PearsonのPearsonによる1955年の論文には反しています。検定は「最終的な意思決定の形成を助ける道具」に過ぎません。

統計学の教科書はこのPearson (1955)を無視している。

18

#統計 Neymanの弟子のLehmannは1993年の論文で、仮説検定による二分法的な結果だけを報告するのではなく、普段はP値(=帰無仮説が棄却される有意水準の下限)の値を報告し、必要に応じて閾値未満かどうかにも触れると良いとしています。

やはり検定は最終的な二分法的意思決定を与えないとされている。

19

#統計「帰無仮説が棄却されるか否か」の二値的情報よりも、P値=「帰無仮説が棄却される有意水準の下限」の方が多くの情報を持っているし、さらに帰無仮説「効果はゼロ」以外の「効果はaである」(aは任意の数値)という検定仮説達のP値全体(P値関数)なら圧倒的に豊富な情報を持っています。

詳しくは↓

20

#統計最終的な意思決定を助けるために、そのP値全体はデータの数値とモデルの相性の良さの様子を適切に要約すると手段の1つであり、P値全体の持つ情報は区間推定と点推定の情報も持っています。

P値の取り扱いについてはGreenlandさん達が勧めているやり方が合理的です。
↓

21

#統計以上では仮説検定の使い方について偉い人達(Neyman-PearsonのPearson (1955)、Neymanの弟子のLehmann (1993)、疫学と統計学の基礎の超絶偉い先生であるGreenland (2022))がどのように述べているかの歴史を簡単にたどりました。

それらと比較すると普通の教科書の説明はおそろしくレベルが低い。

22

#統計 P値<5%で二分法的な判断をするときには、

P値<5%という条件の下での帰無仮説が正しい条件付き確率

の大雑把な見積りが重要です。例えば薬の効き目については、「効果はゼロ以下」という帰無仮説が棄却されたのに実際には効果がゼロ以下である確率の見積もりは重要です。続く

23

#統計仮に仮説検定の結果で薬を承認するか否かを決定するならば

「効果はゼロ以下」という帰無仮説が棄却されたのに実際には効果がゼロ以下である確率

は

効果がゼロ以下の薬がどの程度の割合で出回るか

を意味しています。この割合が数十%のオーダーに高くなるのは非常にまずい。続く

24

#統計テストする薬の95%の効果はゼロで、5%が効果が正の効く薬であると仮定する。

このとき、有意水準2.5%と検出力100%(←非現実的な超理想的な設定)の片側検定で「効果はゼロ(以下)」という帰無仮説が棄却されたのに、実際には効果がゼロである条件付き確率は約32%になります。続く

25

#統計その確率の計算式は

(0.025*0.95)/(0.025*0.95 + 1.0*0.05)≈0.32

です。検出力100%の非現実的な理想化を、検出力を慣習的な現実的数値の80%で置き換えると、

(0.025*0.95)/(0.025*0.95 + 0.80*0.05)≈0.37

と状況は少し悪化します。続く

26

#統計共通テストでは片側検定でも有意水準を5%にしていますが、慣習的には片側検定の有意水準は2.5%にすることが多いです。そうしておかないと、有意水準5%での両側検定+効果の正負による判断との整合性が取れなくなくなってしまいます。

だから以上では片側検定の有意水準を2.5%に設定した。続く

27

#統計有意水準と検出力の定義

有意水準は、帰無仮説の「効果はゼロ」が正しいときに帰無仮説が棄却される確率です。

検出力は、対立仮説の「効果は正」が正しいときに帰無仮説が棄却される確率です。検出力まわりは色々面倒なので非現実的な理想化の検出力100%を仮定して計算しました。続く

28

#統計仮説検定で使うモデルの正しさや、データの取得の理想的な適切さも仮定しました(これも現実では苦しい)。

そういう理想的な設定に下であっても、テストする薬の95%の効果がゼロならば、有意水準2.5%の仮説検定によって承認された薬の32%は実際には効かない薬になってしまいます。続く

29

#統計完全に理想的に実施された仮説検定であっても、テストする薬の95%に効き目がないならば、仮説検定で承認された薬の32%は効き目ゼロの薬になってしまいます。

そのことを確認する計算は小学校5年生レベルの割合の計算に過ぎません。小5でも理解できる話。続く

30

#統計小学生レベルの算数をきちんと理解できていれば、完全に理想的な状況であっても、仮説検定で採用した5%や2.5%は現実におけるリスクの小ささの適切な値ではないことが分かります。現実的なリスクの評価は、テストする仮説群の中にどれだけ正しいものが含まれているかにも大きく依存するのです。

@genkuroki: #統計うわっ！以前から危惧していた通りに、アメリカ統計...

You're reading 30 of 77 posts

Actions

What You Can Do