@genkuroki: #統計 統計学入門の講義で注意するべきことについてのスレッド...
@genkuroki
36 views
Sep 01, 2025
1
#統計 統計学入門の講義で注意するべきことについてのスレッド
最も注意が必要なことは、
検定によって帰無仮説が棄却されても
それをそのまま現実の問題に関する解答だとみなしてはいけない
とはっきり教えることだと思います。
検定による帰無仮説の棄却は数学的フィクションに過ぎない。続く
最も注意が必要なことは、
検定によって帰無仮説が棄却されても
それをそのまま現実の問題に関する解答だとみなしてはいけない
とはっきり教えることだと思います。
検定による帰無仮説の棄却は数学的フィクションに過ぎない。続く
View Tweet
2
#統計 例えばリンク先で紹介したNHK高校講座のように統計学を教えてはいけない。
NHK高校講座では、片側P値が5%未満になっただけで【やっぱりこのコイン、細工されていたんだなあ】と判断して良いかのように教えていますが、これは全くのデタラメです。続く
NHK高校講座では、片側P値が5%未満になっただけで【やっぱりこのコイン、細工されていたんだなあ】と判断して良いかのように教えていますが、これは全くのデタラメです。続く
View Tweet
3
#統計 おそらく大学においても、P値が5%未満になっただけで【やっぱりこのコイン、細工されていたんだなあ】と判断して良いかのように教えて来た先生達は数え切れないくらいいると思います。
これは日本だけではないと思われるので、大変に深刻な問題です。続く
これは日本だけではないと思われるので、大変に深刻な問題です。続く
4
#統計 P値が事前に決めておいた有意水準の5%を切っていれば帰無仮説を否定するという判断を現実において下して良いという考え方はまるっきりのデタラメで、デタラメだと分からない人は科学的にまともな考え方をできていない。
Neyman-PearsonのPearsonもそういうデタラメを否定しています。
↓
Neyman-PearsonのPearsonもそういうデタラメを否定しています。
↓
View Tweet
5
#統計 しかし、検定法について棄却領域の言葉で説明する講義を行ったときに、「検定によって帰無仮説が棄却されること」と、「現実における判断として帰無仮説を棄却すること」を混同させずに済ますことは無理だと思います。
だからそういう教え方をしてはいけないと結論せざるを得ない。
だからそういう教え方をしてはいけないと結論せざるを得ない。
6
#統計 「検定によって帰無仮説が棄却されたこと」は数学的設定内部にのみ通用する数学的フィクション扱いする必要があります。
そういう数学的フィクションの結果を、現実の問題で活かすことは別問題になります。
でも、そういう教え方が初学者に通用するはずがない。
そういう数学的フィクションの結果を、現実の問題で活かすことは別問題になります。
でも、そういう教え方が初学者に通用するはずがない。
7
#統計 統計学の入門的講義での検定法の解説を「帰無仮説を棄却」「統計的に有意」「有意差あり」という二分法の言葉で行うことは、学生に誤解させて科学的にデタラメな考え方をさせてしまうリスクが大きいので避けるべきだとおもいます。
それでは二分法なしに教える方法はあるのか?続く
それでは二分法なしに教える方法はあるのか?続く
8
#統計 最初から二分法の言葉を使わずに、実質的に検定法と同等のことを教える方法はあります。
それは統計ソフトがアウトプットしてくれるP値について教えるという方針です。有意水準を設定しない限り、二分法は現れません。続く
それは統計ソフトがアウトプットしてくれるP値について教えるという方針です。有意水準を設定しない限り、二分法は現れません。続く
9
#統計 P値を主軸に講義をするときの重要ポイントは、
仮説HのP値は統計モデル+仮説Hの組み合わせとデータの値の相性の良さ(compatibility)の指標の1つである
と教えることです。P値についてはこの解釈の仕方さえ知っていれば、計算法の詳細を忘れても実用的に利用できます。
仮説HのP値は統計モデル+仮説Hの組み合わせとデータの値の相性の良さ(compatibility)の指標の1つである
と教えることです。P値についてはこの解釈の仕方さえ知っていれば、計算法の詳細を忘れても実用的に利用できます。
View Tweet
10
#統計 P値が満たすべき性質は、
仮説Hを満たす統計モデルの確率分布に従って生成された仮想的なデータから計算された仮説HのP値は0から1の間の一様分布に近似的に従う
という条件です。この条件がP値の実用性を支えています。
一様分布に近似的に従うことはコンピュータでチェックできれば十分。
仮説Hを満たす統計モデルの確率分布に従って生成された仮想的なデータから計算された仮説HのP値は0から1の間の一様分布に近似的に従う
という条件です。この条件がP値の実用性を支えています。
一様分布に近似的に従うことはコンピュータでチェックできれば十分。
11
#統計 仮説HのP値の仮説Hの下での近似的一様分布性より、S=-log₂(P値)とおくとき次のように言えます:
統計モデル+仮説Hを信じている人にとって
偏りのないコイン投げでS回続けて表が出たのと
同じ程度に意外なデータの値が得られたことになる。
Sを意外度と呼びます。
統計モデル+仮説Hを信じている人にとって
偏りのないコイン投げでS回続けて表が出たのと
同じ程度に意外なデータの値が得られたことになる。
Sを意外度と呼びます。
View Tweet
12
#統計 有意水準を設定していなくても、P値単体だけで意味を持つことを直観的に把握する方法として、コイン投げのたとえを使うという教育テクニックは結構昔から知られていたようです。
View Tweet
13
#統計 P値の小ささを表す(S値)=-log₂(P値)は、統計モデル+仮説の立場からデータの値の意外さを測る連続的な指標になっています。連続的な指標として扱うことは非常に重要。
例えばP値が4.9%の場合と5.1%の場合では科学的にほぼ同じ結論を出すことが要請されます。5%の閾値による二分法は否定される。
例えばP値が4.9%の場合と5.1%の場合では科学的にほぼ同じ結論を出すことが要請されます。5%の閾値による二分法は否定される。
14
#統計 学生向けの講義では、すでに存在する非科学的な慣習の類は、はっきり明瞭に否定する必要があります。
科学よりも慣習に基く権威の側を優先してしまうようだと、非常にまずいことになります。ここは絶対に譲れない点だと思います。
科学よりも慣習に基く権威の側を優先してしまうようだと、非常にまずいことになります。ここは絶対に譲れない点だと思います。
15
#統計 以上では、検定法に関する数学的な理論(特にLehmannの有名な教科書に書いてあるNeyman-Pearson流の仮説検定の理論)を一切否定していないことにも注意して下さい。
Lehmannの教科書も有意水準を設定せずにP値を報告することを認めています。
Lehmannの教科書も有意水準を設定せずにP値を報告することを認めています。
View Tweet
16
#統計 一般に、たとえ現実にそのまま応用できないとしても、数学的フィクションに関する数学的理論の研究は非常に重要です。
有害なのは、数学的フィクションと現実の混同。
モデルと現実の混同(model reification)は多くの統計学入門の解説に共通する病なので注意が必要。
有害なのは、数学的フィクションと現実の混同。
モデルと現実の混同(model reification)は多くの統計学入門の解説に共通する病なので注意が必要。
17
18
#統計 具体的なP値の構成については、仮説θ=aの両側P値と仮説θ≤a(もしくはθ≥a)の片側P値について説明しておけば実用的には十分。
常にモデルにパラメータθを入れておくことはゼロ仮説主義(nullism)の病対策のために重要。
信頼区間の構成でも必須。続く
常にモデルにパラメータθを入れておくことはゼロ仮説主義(nullism)の病対策のために重要。
信頼区間の構成でも必須。続く
19
#統計 パラメータθに関する95%信頼区間は、仮説θ=aのP値が5%以上になる数値a全体の集合として定義できます。
パラメータθの点推定値は、仮説θ=aのP値が最大値の1になる数値aだと定義できます。
要するにP値は推定のための道具にもなっています!
パラメータθの点推定値は、仮説θ=aのP値が最大値の1になる数値aだと定義できます。
要するにP値は推定のための道具にもなっています!
View Tweet
20
#統計 以上のストーリーの利点は、コンピュータがアウトプットして来るP値のcompatibilityとしての解釈の仕方さえ理解できれば、P値から得られる信頼区間や点推定値についてもcompatibilityで解釈できるようになり、信頼区間の解釈問題も自動的に解決することです。
View Tweet
21
#統計 以上のストーリーの「欠点」(鉤括弧付き)は、統計学教育における非科学的な慣習を否定せざるを得なくなることです。
今までの教え方を否定することは、科学よりも伝統と権威に従いたい先生には無理だと思います。
今までの教え方を否定することは、科学よりも伝統と権威に従いたい先生には無理だと思います。
22
#統計 議論の途中で、Neyman-PearsonのPearsonの1955年の論文を引用することによって、Neyman-Pearson流検定法による二分法をそのまま現実における最終判断とみなすことをはっきり否定し、Fisherによる検定法は「学習の手段」であるという考え方が正しいということにしていた点にも注目。
View Tweet
23
#統計 Neyman-Pearson流の仮説検定では帰無仮説と対立仮説の片方が棄却されるともう一方は受容されるのですが、それをそのまま現実における判断とするかのような説明は誤りです。
少なくともPearson 1955の論文には反している。
この辺りの誤解も新しい教科書では訂正されるべき。
少なくともPearson 1955の論文には反している。
この辺りの誤解も新しい教科書では訂正されるべき。
View Tweet
24
#統計 統計的有意性による安易な二分法へのこだわり(dichotomania)を捨て去る教え方をするということは、統計学を科学的なお墨付きを得るための道具扱いすることを止めることにもなります。
統計学にお墨付きを求めてはいけない。
統計学にお墨付きを求めてはいけない。
25
#統計 「統計学にお墨付きを求めるな」と「再現性を期待しなければ再現性の危機は存在しない」はほぼ同じ話。
通常は、1つの研究グループが得た1つのデータセットに基く1つの統計分析だけで、科学的なお墨付きが得られたとはみなされない。複数の研究を総合しないと科学的に確立した結果にならない。
通常は、1つの研究グループが得た1つのデータセットに基く1つの統計分析だけで、科学的なお墨付きが得られたとはみなされない。複数の研究を総合しないと科学的に確立した結果にならない。
View Tweet
26
#統計 「効果あり」という仮説が正しい場合であっても、その仮説の再現実験に常に成功するわけではないことにも注意が必要。
例えば効果の大きさの過大評価に基づいて検出力が80%になるようにサンプルサイズを設定して再現実験をやると、真の検出力は80%よりも小さくなる。
例えば効果の大きさの過大評価に基づいて検出力が80%になるようにサンプルサイズを設定して再現実験をやると、真の検出力は80%よりも小さくなる。
View Tweet
27
#統計 「再現性の危機」(鉤括弧付き)の問題は
* 1つの統計分析だけでお墨付きが得られるという間違った期待
* ダメな科学研究と誤りを認めない研究者
の問題。PハッキングやHARKingのような詐欺の問題に矮小化するべきではないです。
* 1つの統計分析だけでお墨付きが得られるという間違った期待
* ダメな科学研究と誤りを認めない研究者
の問題。PハッキングやHARKingのような詐欺の問題に矮小化するべきではないです。
View Tweet
28
#統計 詐欺行為がなくても統計的に有意な結果が再現実験で再現されるとはかぎらないとか、統計学はお墨付きを得るための道具ではない、というようなちょっと考えれば当たり前の教養に欠けている人達が「再現性の危機」(鉤括弧付き)について不適切な騒ぎ方をしている。
その悪影響
↓
その悪影響
↓
View Tweet
29
#統計 1つの統計分析だけで科学的なお墨付きは得られないという当たり前の話と、「統計的に有意である/ない」と報告する行為には整合性がないので、統計的有意性の廃止の提案は正しい。
仮説検定の理論は数学的フィクションに関する数学的理論として重要だが、現実での意思決定法としては使えない。
仮説検定の理論は数学的フィクションに関する数学的理論として重要だが、現実での意思決定法としては使えない。
View Tweet
30
#統計 数理統計学の典型的な基本結果は特定の条件の下での最適化問題の解答になっており、意思決定論的な意味付けをして提示されることが多い。そういう結果は確かに重要。
しかし、それをそのまま複雑な現実における意思決定の方法として使っても良いかのように誤解させる教え方をしてはいけない。
しかし、それをそのまま複雑な現実における意思決定の方法として使っても良いかのように誤解させる教え方をしてはいけない。
View Tweet