@genkuroki: #統計東京大学出版会の『統計学入門』を警告抜きに他人に勧め...

1

#統計東京大学出版会の『統計学入門』を警告抜きに他人に勧めるような人は統計学を全然理解していない人の可能性が高く要注意です。

あちこちにおかしな説明が地雷のように敷設されている本です。

例えば、『統計学入門』でのWelchのt検定での自由度の扱いもなぜか整数化しており、おかしいです。

View Tweet

2

#統計東京大学出版会『統計学入門』での統計学における基本概念(信頼区間、尤度、最尤法、パラメトリック、…)の解説はことごとく不適切なのですが、ついさっき、

　よく使われているWelchのt検定さえ
　まともに解説されていない

ことに気付きました。

この本を他人に勧めるときには警告が必要。

3

#統計以前からなぜかWelchのt検定での使う自由度を四捨五入などによって整数にすることにこだわる酷い解説があることは知っていましたが、東京大学出版会の『統計学入門』にもそういう酷い説明があったんですね。

この本で勉強した人はどこで恥をかくことになるか予測不可能かもしれません。

4

#統計私自身はやる気になれないのですが、東京大学出版会の『統計学入門』については、

　読者が注意するべき不適切な説明のリスト

を誰か作った方が良いと思います。

この本は多くの人が読んでいるので、すでにそういうリストを作った人がいても不思議ではないです。是非とも公開して欲しいです。

5

#統計

　不適切な説明が多いことを承知で読む

のと、

　そうとは知らずに
　内容をそのまま受け入れてしまう読み方を
　不幸にもしてしまって、
　この本の説明はあちこちとても酷いことを後で知って
　がっかりする

のでは、その後のやる気が大きく違って来ると思います。

6

#統計『統計学入門』における「対立仮説」(p.235)と「検出力」(p.251)の説明も不明瞭もしくは不適切です。その説明で理解できたと感じる人が論理的に考えていないことになると思います。

よく分からない説明については正直に「分からない」ことを認めるべき。それくらいまずい説明。続く

7

#統計例えば、平均パラメータμに関して、

帰無仮説 H₀: μ=15
対立仮説 H₁: μ≠15

という両側検定の設定を考えましょう(『統計学入門』p.237)。

問題：対立仮説はμ≠15という数式で表される単独の仮説であるか？

この問題に即答できないと対立仮説について理解したことになりません。

続く

8

#統計答えは「いいえ」です。両側検定の設定における対立仮説は単独の仮説ではありません。

帰無仮説μ=15の両側検定の設定における対立仮説の正体は、

　15以外の数値aで決まる仮説μ=aの
　全体で構成された仮説の集合

になります。

この設定は検出力の話に繋がって行きます。続く

9

#統計実際、『統計学入門』p.251には添付画像のように、検出力の説明のところで「複合仮説」という用語が説明されています。

両側検定や片側検定における対立仮説は単独の仮説ではなく、複数の仮説からなる複合仮説になります。

こういうことが分かるような説明になっていないと思います。

10

#統計帰無仮説μ=15の両側検定の検定法の検出力は、15以外の任意の数値aごとに決まる仮説μ=aごとに決まります。

検出力の定義は、μ=aと設定された統計モデル内で生成されたデータにその検定法を適用したときに帰無仮説μ=15が棄却される確率です。

つまり、検出力はaの函数になる。続く

11

#統計 aの函数である検出力はできるだけaについて一様に大きくなって欲しいわけです。

しかし、両側検定の場合にはその意味でベストな検定法は存在しない。

一方、片側検定ではaの動く範囲が15未満または15より大きいの片方に制限されるので、上の意味でベストの検定法を尤度比検定として作れます。

12

#統計このように、複数ある対立仮説を決めるパラメータ値aごとに決まる検出力をできるだけ高くしたいという要求をしたとき、両側検定と片側検定でがaを動かす範囲が違うので、そこで両側検定と片側検定の違いが生じるわけです。

13

#統計こういうことは、

　複合仮説としての対立仮説

と

　検出力を高くしたいという要請

の関係について考察して初めて理解できることです。

両側検定の対立仮説をμ≠15と書かれる単独の仮説だと誤解させるような説明はやめるべきです。

14

#統計以上を読めば、

帰無仮説 μ=15
対立仮説 μ≠15

は、対立仮説が「μは15でない」という単独の仮説であることを意味せず、対立仮説は数値a≠15に関するμ=aという仮説全体であることを理解できると思う。

この辺は多くの人が誤解しており、そにせいで両側検定を理解できなくなっていると思う。

15

#統計以上で説明した複合仮説が出てくる仮説検定については、超有名な教科書の初版

Lehmann, Testing Statistical Hypotheses, 1959 (初版)

でクリアに説明されています。

twilog.org/genkuroki/sear…

16

#統計講義で「普通は両側検定を使う」「帰無仮説がμ=μ₀のとき両側検定の対立仮説はμ≠μ₀になる」(←不適切な説明)と習った人が、検出力では「帰無仮説μ=μ₀、対立仮説μ=μ₁の場合には～」と説明されて、最も普通の両側検定はどこに行ったんだとなる。😅

このスレッドでこの不満を解消したつもり。

17

#統計そういう概念的なことに限らず、正規分布モデルを使った検定や区間推定が、全然正規分布でない母集団分布にどれだけ適用可能かに一切触れていない点は、統計学の実践的な応用時には非常に困った状態を作り出すことに貢献していると思います。

View Tweet

18

#統計竹内啓『数理統計学−データ解析の方法』の第19章には添付画像のように「正規分布の仮定の意味」の簡単な説明があります。

しかしそこに書いてあることだけで実践に役に立つレベルに理解には至らないと思います。コンピュータを使って、非正規母集団の場合に関する数値実験の経験が必要。

19

#統計竹内啓『数理統計学−データ解析の方法』は古い本でかつ入門レベルの易しい本ではないのですが、色々面白く読めるように書かれていると個人的には思います。

20

#統計下から7行目【ところで，第1の議論は実際には危険である】について

例えば、正規分布から少し違う母集団分布に、正規分布モデルを使った分散の区間推定を適用すると誤差が大きくなり易く危険です。

それとは対照的に、正規分布モデルを使った平均の区間推定は誤差が小さくなり易いです。

View Tweet

21

#統計『統計学入門』p.217

最尤法の説明も酷いです。

尤度(ゆうど)は、データの数値と統計モデルの適合度(もしくは相性の良さ)の指標の1つとみなせる場合が多いのですが、オーバーフィッティングの問題を無視して尤度を「もっともらしさ」とみなすことは不適切です。続く

22

#統計『統計学入門』p.217

「現実の標本は確率最大のものが実現した」という仮定をすることがあたかもまともな行為であるかのように説明していることは非常識の極みで論外だと思います。続く

23

#統計例えば、現実でコインを2回投げてどちらの表面が出たとします。

そのとき、Bernoulli分布モデルの尤度函数(=モデル内での表の出る確率を意味するパラメータ0≤p≤1にモデル内で2回続けて表が出る確率を対応させる函数)はp↦p²です。

これを最大化するpはp=1になります。続く

24

#統計そういう理由で「この現実のコインでは表の出る確率は1だろう」などと言うことは非常識極まりないことでしょう。

仮に最尤法がそういうものなら、最尤法はクズ同然であり、存在意義はないと結論できます。続く

25

#統計もちろんそんなことはなくて、最尤法は単にデータの数値に(尤度の意味で)最も相性の良いパラメータ値を求めているだけだと解釈すれば、最尤法はクズではなく、特定の条件の下で強力な点推定の方法だと分かります。続く

26

#統計上での最尤法の結果を、「コインを2回投げたら2回とも表が出た」というデータの数値に最も相性が良いBernoulli分布モデルのパラメータ値はp=1になる、と解釈すれば非常識な話にならずに済みます。

これだけの話なのだから教科書でもそのように説明して欲しいものだと思います。続く

27

#統計データの数値に尤度の意味で最も相性が良いパラメータ値としてのモデル内で表が出る確率(数学的フィクション)と、現実のコインに関する表が出る確率が全然別物です。

その区別を明瞭にしていれば、非常識な考え方を受け入れる失敗を犯さずに済むと思います。

28

#統計あと、最尤法に限らず、点推定の結果だけを報告することは、通常は非常識な行為だとされています。

点推定は確率的に誤差を含むので、その誤差の程度が分かるような情報と合わせて報告することが普通です。多くの場面で、信頼区間も同時に報告する習慣になっています。

29

#統計 Bernoulli分布モデルでは「n回中k回成功」というデータの数値から得られる最尤推定値は p = k/n になります。すなわち、「n回中k回成功」というデータの数値に尤度の意味で最も相性が良いパラメータ値は「モデル内での成功確率はk/nである」になります。続く

30

#統計シンプルなモデルでの最尤推定はこういう自然な推定法を与えることが多いです。

正規分布モデルにおける平均μと分散σ²の最尤推定の結果=標本に尤度の意味で最も相性の良いパラメータ値は、μ=(標本平均)、σ²=(不偏補正無しの標本分散)になります。

@genkuroki: #統計東京大学出版会の『統計学入門』を警告抜きに他人に勧め...

You're reading 30 of 60 posts

Actions

What You Can Do