@genkuroki: #統計 P.D.Hoffさんの本(なぜか『標準ベイズ統計学』...
@genkuroki
26 views
Mar 03, 2025
1
#統計 P.D.Hoffさんの本(なぜか『標準ベイズ統計学』という挑発的な題で翻訳された)からの非ベイズ的方法との比較の節の引用。赤字は私によるコメント。
この部分はひどくミスリーディングなので、この本を読む人は騙されないように注意した方がよいと思いました。
よりにもよってWaldの信頼区間!😱
この部分はひどくミスリーディングなので、この本を読む人は騙されないように注意した方がよいと思いました。
よりにもよってWaldの信頼区間!😱
View Tweet
6
#統計 非ベイズ的方法との比較で、引用しているAgresti-Coull(1998)でお勧めになっているWilsonのスコア信頼区間を扱わずに、誤差の大きなWaldの信頼区間の誰も使っていない補正を取り上げていることが不可解に見える理由は添付画像を見れば一目でわかります!続く
github.com/genkuroki/publ…
github.com/genkuroki/publ…
7
#統計 添付画像は二項分布モデルでのP値函数のプロットです。
ベイズ信用区間も区間推定の一種なので、対応するP値函数を定義できます。それがグラフ中の橙色のdashdot line.
WilsonとBayesianがほぼぴったり一致しています!
補正されたWaldとの違いは非常に大きい。
github.com/genkuroki/publ…
ベイズ信用区間も区間推定の一種なので、対応するP値函数を定義できます。それがグラフ中の橙色のdashdot line.
WilsonとBayesianがほぼぴったり一致しています!
補正されたWaldとの違いは非常に大きい。
github.com/genkuroki/publ…
9
#統計 以下のようなことをやっているように見える!😱
* 誤差の大きなWaldの信頼区間を目立つように取り上げ、非ベイズ的方法に問題があることを印象付けようとしている。
* その非ベイズ的方法の補正方法がベイズ的な方法になっていることに言及し、ベイズ的方法の優位性を印象付けようとしている。
* 誤差の大きなWaldの信頼区間を目立つように取り上げ、非ベイズ的方法に問題があることを印象付けようとしている。
* その非ベイズ的方法の補正方法がベイズ的な方法になっていることに言及し、ベイズ的方法の優位性を印象付けようとしている。
12
2つ前のツイートの訂正
❌correst=F
⭕️correct=F
この連続性補正がデフォルトでオンになっている仕様の普及はかなり困ったことだと個人的に思っています。
連続性補正を入れて使うくらいなら、確率を正確に計算する方法を使った方がお得だと思い。
Agresti-Coull(1998)で勧めているのも補正無版。
❌correst=F
⭕️correct=F
この連続性補正がデフォルトでオンになっている仕様の普及はかなり困ったことだと個人的に思っています。
連続性補正を入れて使うくらいなら、確率を正確に計算する方法を使った方がお得だと思い。
Agresti-Coull(1998)で勧めているのも補正無版。
13
14
#統計 P値函数と信頼区間の関係については以下のリンク先を参照。
View Tweet
15
相互リンク
View Tweet
16
#統計
各種P値函数の実装は添付画像の通り。
WaldよりもWilson (score)の方がシンプルまたは同じ程度。
信頼区間を計算する函数の実装では、Wilsonの側は二次方程式を解く必要が生じるので、Waldよりも少しだけ面倒になる。
github.com/genkuroki/publ…
各種P値函数の実装は添付画像の通り。
WaldよりもWilson (score)の方がシンプルまたは同じ程度。
信頼区間を計算する函数の実装では、Wilsonの側は二次方程式を解く必要が生じるので、Waldよりも少しだけ面倒になる。
github.com/genkuroki/publ…
View Tweet
19
#統計 件の本の件の部分で引用されているAgresti-Coull 1998では、2次方程式を解いて求めるWilsonの信頼区間が優れていることを強調した上で、シンプルに計算できるWaldの信頼区間の補正を
中点(両端の値の平均)がWilsonの信頼区間と一致する
という条件でシンプルに定義しています。続く
中点(両端の値の平均)がWilsonの信頼区間と一致する
という条件でシンプルに定義しています。続く
20
#統計 z = quantile(Normal(0,1), 1-α/2)とおいたとき、n回中k回成功というデータに関するWilsonの信頼区間の中点は、
p̃ = (k + z²/2)/(n + z²) = mean(Beta(k+z²/2, n-k+z²/2))
になります。続く
p̃ = (k + z²/2)/(n + z²) = mean(Beta(k+z²/2, n-k+z²/2))
になります。続く
21
#統計 だから、αごとに、最尤推定p̂=k/nの代わりに、事前分布Beta(z²/2,z²/2)の事後分布の期待値p̃=(k+z²/2)/(n+z²)を使うように、Waldの信頼区間を修正すれば、修正版Waldの信頼区間(左右対称になる)の中点をWilsonの信頼区間の中点に一致させることができます。
α=5%ならz²/2≈2でシンプル。
続く
α=5%ならz²/2≈2でシンプル。
続く
22
#統計 通常のケースでこの修正版Waldの信頼区間を使いたい人はいないと思います。Wilsonの信頼区間をそのまま使った方がよいと普通は考える。
しかし、k/nが0または1に近いときに暗算で使える簡便法としては意味を持つかもしれない。
しかし、k/nが0または1に近いときに暗算で使える簡便法としては意味を持つかもしれない。
23
#統計 Wilsonの信頼区間はベイズ統計での信用区間に非常に近くなり、件の本が件の部分で引用している論文Agresti-Coull 1998でも勧めている。その論文では、Waldの信頼区間は非ベイズ的方法としても性能が低いので、シンプルな計算法である利点を殺さない修正法を考えた。続く
24
#統計 大部分の普通の一版読者は、二項分布モデルでの信頼区間には同値でない構成法が沢山あって、各々の構成法ごとにどのような利点と欠点があるかを知らないだろうし、引用されている論文も見ないと思います。
その結果、まんまと誤誘導されてしまうことになる。
そうならないように注意が必要。
その結果、まんまと誤誘導されてしまうことになる。
そうならないように注意が必要。
25
#統計 現実はさらに厳しくて、このスレッドのようにこれ以上ないくらい詳しく問題点を指摘しても、それを理解できる人は少数派で、このスレッドが目にとまっても、自分が誤誘導されているかどうかもわからないまま終わり、素晴らしい内容だったと思い続けるかもしれない。
26
訂正
❌一版読者
⭕️一般読者
書籍だけではなく、読者の側にも第一版、第二版、…とかあったらちょっと面白いかも。
❌一版読者
⭕️一般読者
書籍だけではなく、読者の側にも第一版、第二版、…とかあったらちょっと面白いかも。
27
#統計 『標準ベイズ統計学』の試し読み部分 asakura.tameshiyo.me/9784254122671 を確認してみた。
添付画像①は試し読み部分のスクショにコメントを入れたもので、②は原著の対応部分。
prior informationを「事前の信念」と訳していますが、これって大丈夫なのかな?
悪質な誤誘導になりかねない部分!続く
添付画像①は試し読み部分のスクショにコメントを入れたもので、②は原著の対応部分。
prior informationを「事前の信念」と訳していますが、これって大丈夫なのかな?
悪質な誤誘導になりかねない部分!続く
28
#統計 本のその部分では、
似たような町での有病率のデータがすでにある
という設定。その事前情報に基いて、町ごとの有病率のばらつき具合の分布がおおまかに分かっているので、「すべてのモデルは正しくない」という考え方に基いて大雑把にベータ分布で推定した状況ともみなせる。続く
似たような町での有病率のデータがすでにある
という設定。その事前情報に基いて、町ごとの有病率のばらつき具合の分布がおおまかに分かっているので、「すべてのモデルは正しくない」という考え方に基いて大雑把にベータ分布で推定した状況ともみなせる。続く
29
#統計 そうやって、得た有病率の分布をモデルに組み込んで、
異なる有病率を持つ町達から無作為に1つの町を選び、
選んだ町から無作為にn人選んで感染しているかを調べた
というモデルで有病率の分布の推定を普通に(ベイズ統計と言う必要無しに)行なっている状況だとみなせます。続く
異なる有病率を持つ町達から無作為に1つの町を選び、
選んだ町から無作為にn人選んで感染しているかを調べた
というモデルで有病率の分布の推定を普通に(ベイズ統計と言う必要無しに)行なっている状況だとみなせます。続く
30
#統計 似たような町での有病率のデータを使って、ざくっとベータ分布で有病率の分布を推定し、それをモデルに組み込んだとみなせる。
これを「事前情報(prior information)をベータ分布で表す」と説明しているのに、「事前の信念をベータ分布で表す」と翻訳すると意味が変わってしまうように思える。
これを「事前情報(prior information)をベータ分布で表す」と説明しているのに、「事前の信念をベータ分布で表す」と翻訳すると意味が変わってしまうように思える。



















