@genkuroki: #統計 1936年の米国大統領選挙における民主党のルーズベル...

1

#統計 1936年の米国大統領選挙における民主党のルーズベルトと共和党のランドンのどちらが勝つかの予測で、リテラリー・ダイジェスト誌は約238万人分のデータを得ていたにも関わらず見事に失敗してしまった。

失敗の理由は何だったのだろうか？

続く

View Tweet

2

#統計リテラリー・ダイジェスト氏は、主に自動車保有者と電話利用者の名簿から、1000万人程度のリストを作って郵便を送って、238万人弱の回答を得ました。その内訳は

57% ランドン
43% ルーズベルト

この結果を元にリテラリー・ダイジェスト誌はランドンが勝つと予想した。続く

3

#統計しかし、実際の大統領選挙の投票結果は

40% ランドン
60% ルーズベルト

でルーズベルト圧勝で終わりました。

238万人分のビッグデータ

アンケート調査
57% ランドン
43% ルーズベルト

を使ったにもかかわらず、リテラリー・ダイジェスト誌は予測の歴史的な大失敗を犯してしまった。続く

4

#統計リテラリー・ダイジェスト誌は、主に自動車保有者と電話利用者の名簿からアンケート送付先のリストを作りました。

1936年当時の話なので、そのリストはお金持ちに偏っていました。

そしてお金持ちはランドン側の保守党を推す傾向が強い。続く

5

#統計こういう理由で、

リテラリー・ダイジェスト誌が予測に失敗した理由は
アンケート送付先のリストがお金持ちに偏っていたからだ

という説が定説として広まってしまっていました。

しかし、その見方は誤りだったのです。続く

6

#統計大統領選挙の次の年の1937年にギャラップ社が実施した調査では、リテラリー・ダイジェスト誌からアンケートが送付されたか否かについて答える項目もあり、そのデータを使えば、リテラリー・ダイジェスト誌が作ったリストの全体の中でどちらがどれだけ支持されていたかを推測可能！続く

7

#統計それよれば、リテラリー・ダイジェスト誌がアンケートを送付した人達全体では、54%がルーズベルトを支持していたと推測される！

リテラリー・ダイジェスト誌のアンケート送付先の1000万人から無作為に238万人分の回答が得られていたならば、予測に成功していたはずなのです。続く

8

#統計アンケートに答えた集団と答えなかった集団でのそれぞれの支持割合の推定結果

アンケートに答えた集団(全体の24%)
57% ランドン
43% ルーズベルト

答えなかった集団(全体の76%)
39% ランドン
61% ルーズベルト

ランドン候補の支持者達は熱心にアンケートに回答した！続く

9

#統計要するに、リテラリー・ダイジェスト誌にとって真に致命的だったのは、偏ったリスト作成の段階ではなく、無回答バイアスの問題を無視してしまったことだったのです。

以上の話をもっと詳しく知りたい人はリンク先で紹介した論文を読んでください。音声概要を聴くだけでも楽しめます。

View Tweet

10

#統計脱線する。

以上のような話は所謂教養の典型例だと思います。

この手の教養は現代のビッグデータの時代での政治のあり方について考えるときにもそのまま役に立ちます。例えば、

アンケートに答えてくれた人達からの回答だけを元に
政策を決定してはいけない

ということが分かる。続く

11

#統計もしくは、

SNSやウェブページなどで発せられた意見だけを集約して
政策を決定してはいけない

ということも言えます。

リテラリー・ダイジェスト誌は大統領選挙の結果の予測の失敗をしただけなので大して迷惑じゃないのですが、国家的な政策ではただではすみません。

12

#統計「大規模に意見のデータを収集して政策決定の方向を決めるための参考にする」というような提案をした人物については、リテラリー・ダイジェスト誌と同様の失敗を犯さずに済むだけの教養の持ち主で実際に失敗を避けるための工夫をし、その限界を十分に認識しているかを確認する必要がある。続く

13

#統計データ分析の技術は得られたデータの値とコンピュータ上に実装されたモデルの相性の様子を見るだけの道具に過ぎないので、得られたデータ外の情報の重要性を認識できない無教養な人達による権威化・権力化を阻止する必要があります。

有名人の無教養ぶりを見抜くためには教養が必要。

14

#統計リーダーシップを取れそうな人自身が完璧な教養を身につけていなくても、応援団による批判がリーダーの無教養を補完するようになっていれば良いのですが、最近見た事例では全然そうなってなくて残念に思いました。

「支持しているからこそリーダーの無教養を厳しく批判する」であって欲しい。

15

#統計リテラリー・ダイジェスト誌の失敗について知って入れば、ある特定の現代の浅はかな人物から「これはAIを使って数百万人の意見を集約した結果です！」と言われても、「それがなにか？」と強く言い返せます。

リテラリー・ダイジェスト誌は238万人の回答結果を集約して予測に失敗している。

16

#統計以下のリンク先で、データ分析の技術は

得られたデータの値と
コンピュータ上に実装されたモデルの
相性の良さの様子を見るだけの道具

だとまとめたことにも意味があります。

この認識でデータ分析の技術を使えば安全で有用な技術だと分かる。有用なものを安全に有用にする説明の工夫は大事。

View Tweet

@genkuroki: #統計 1936年の米国大統領選挙における民主党のルーズベル...

Actions

What You Can Do