Hi,👋 we have updated the app and fixed multiple bugs. We are lacking funds, request to free user not to use Adblock. Ads are non intrusive. 😊

@genkuroki: #統計 議論「二項分布のベータ事前分布Beta(a,b)」の...

@genkuroki
36 views Mar 17, 2025
1
#統計 議論「二項分布のベータ事前分布Beta(a,b)」の解釈の仕方?

app.emuyn.net/stats/simulato… では

a=想定される成功数+1
b=想定される失敗数+1

と解釈しているのですが、「+1」は不要なのではないか?

これは事後分布と通常のP値の比較の仕方にもよる問題。続く
2
#統計 「+1」の有無は些細な問題。しかし、些細な話にも面白い部分があると思うので、自分で考えたことを書きます。

事前に本当に何も情報がない状況は期待値さえ不明になっていると考えられます。

そのような二項分布の事前分布はimproperであると考えられます。第一候補はBeta(0,0)です。続く
3
#統計 ベータ分布Beta(0,0)は確率分布としては定義されていません。∫₀¹ p⁰⁻¹(1-p)⁰⁻¹ dp=∞なので全確率=1となるように正規化できない。

しかし、kとn-kが共に正ならば、

∫₀¹ pᵏ(1-p)ⁿ⁻ᵏ×p⁰⁻¹(1-p)⁰⁻¹ dp=B(k, n-k)<∞

となり、事後分布はBeta(k,n-k)として構成可能。続く
4
#統計 そういう意味で使えるimproper事前分布としてなら、Beta(0,0)は意味を持ちます。

improperベータ事前分布Beta(0,0)は「事前に何も情報がないと事前には期待値も含めて本当に何もわからない」ということをうまく表現しているようにも見えます。続く
5
#統計 「事前に何も情報がないこと」を「事前に何のデータも得られていなかったこと」とも解釈すると、improperベータ事前分布Beta(0,0)は事前の成功回数aと失敗回数bのデータが何もなくて両方0の状況の数学的表現だとも解釈できます。続く
6
#統計 その立場では区間[0,1]上の一様事前分布Beta(1,1)は、事前に成功回数a=1、失敗回数b=1のデータがすでに得られていた状況を表現していると解釈されます。

その事前分布での成功率の期待値a/(a+b)=1/2は事前の最尤推定値に一致している。続く
7
#統計 一般にベータ事前分布Beta(a,b)は、事前に成功回数a、失敗回数bのデータが得られた状況(もしくはそれと同等な状況)の数学的表現になっていると考えられて、その期待値a/(a+b)は事前のデータからの最尤推定値に一致している。続く
8
#統計 p~Beta(a,b)の密度関数の対数オッズ座標x=log(p/(1-p))での表示は、p(x)=1/(1+e⁻ˣ)とおいたときのp(x)ᵃ(1-p(x))ᵇになり、指数の-1が消えます。

p(x)ᵃ(1-p(x))ᵇは

 p(x)=a/(a+b)=(p(x)の期待値)

で最大化されます。続く
9
#統計 improperベータ事前分布Beta(0,0)は、対数オッズ座標系x=log(p/(1-p))では、ℝ上のimproper一様分布に一致します。

improperベータ事前分布Beta(0,0)を事前に何もデータがない状況の表現だと解釈する流儀は、対数オッズx=log(p/(1-p))を座標系とする表示と相性が良いです。
10
#統計 対数オッズx=log(p/(1-p))ではなく、元のpで平坦な事前分布Beta(1,1)を事前に何もデータが得られていないことの表現とみなす立場もあり得ると思いますが、期待値がすでに定義されており、本当に何も情報がない状況の表現としては弱い感じがします。(注意!些細な問題!)
11
#統計 ベータ分布Beta(a,b)の座標pでの密度関数は(a-1)/(a+b-2)で最大化されるので、座標pでの密度関数の最大化でpの点推定値を得る立場での、事前に何も情報が無かった状況を表現する事前分布はBeta(1,1)になると考えられる。
12
#統計 事前分布から、事前の推定値を得る方法には以下がある。

①期待値を求める。

②密度関数を最大化する。これは座標系に依存する。(例えば元のpと対数オッズx=log(p/(1-p))では結果が異なる。対数オッズ座標系でのベータ分布の密度関数を最大化するpは期待値に一致)

③中央値を求める。
13
#統計 以上では、①期待値と②密度関数の最大化について少し述べた。③中央値の場合についてはどうなるか?

ベータ分布Beta(a,b)の中央値は(a-1/3)/(a+b-2/3)で近似されることが知られています。この立場での、事前に何も情報がない状況は近似的にBeta(1/3,1/3)に対応していると考ええられます。続く
14
#統計 ベイズ統計のソフトでは、点推定値として中央値を表示して、2.5%と97.5%分位点も合わせて表示して区間推定とするものが多い。

点推定値として中央値として採用する流儀での、事前に何も情報がない状況を近似的に表現する事前分布はBeta(1/3, 1/3)だと考えられます。
15
#統計 このように事前に何も情報が無かった状況を表現する事前分布の取り方は、点推定や区間推定をどのように行うとつもりかにも依存するので、一意的には決まらないと考えるのが妥当だと思います。

私はこういう些細な事柄に関する話も結構好きです。
16
#統計 注意警告1

密度関数は座標に依存して決まる関数なので、密度関数の最大化も座標の取り方に依存します。

密度関数の最大化による点推定の区間推定への自然な拡張は、最高密度区間(HDI)になります。HDIも座標の取り方に依存する点に注意しないと失敗します。
17
#統計 注意警告2

ベイズ統計について「事前の信念をデータによって更新する」という解釈で押し通すことは科学的に有害なのでやめた方がよいです。特に医学的には極めて有害だと思います。

「そのように解釈する人達がいる」という事実を説明して、科学研究には向かないと説明した方が無難。続く
18
#統計 Statistical Rethinking 2nd ed. p.35より【ベイズ推論には、分析者の個人的な信念に基づいて事前分布を選択することを重視する一派がある。この主観的ベイズのアプローチは、一部の統計学、哲学、経済学の分野では盛んに研究されているが、科学の分野ではあまり一般的ではない。】続く
Thread image
19
#統計 Statistical Rethinkingは主観的ベイズに明瞭に否定的な立場で、私は科学的に常識的な感覚を素直に述べていて好ましいと思います。これを言われたて困りそうな人にはベイズ統計について教わらない方が無難です。

添付画像部分は無料で読めます。

xcelab.net/rmpubs/sr2/sta… のp.35
Thread image
20
#統計 Statistical Rethinkingにも書いてあるように、事前分布もモデルの一部分です。科学的な研究者はデータを得た後にモデルを破棄することがよくあります。事前分布もモデルの一部分に過ぎず、破棄する可能性がある対象の1つとして扱われることになります。

これは科学的には当たり前の話です。
21
#統計 事前分布も含めてモデルが信用できない場合であっても通用する事後分布の安全牌的な解釈法は、事後分布を

データの数値
事前分布を構成要素として含むモデル
パラメータの値の設定

の3つのcompatibilityの様子を表していると解釈することです。

P値の場合とほぼ同様です。
22
#統計 例えば、二項分布モデルで事前分布がBeta(1,1)でデータが「n=10人中k=7人成功」の場合の事後分布のグラフ(添付画像)を見ると、座標pで見たとき、二項分布モデルの下で、データの数値と事前分布の組み合わせに最も相性が良いpの値は0.7だと分かる。これは最尤法の結果に一致する。続く
Thread image
23
#統計 別の例。二項分布モデルで事前分布がBeta(4,8)でデータが「n=10人中k=7人成功」の場合の事後分布のグラフ(添付画像)を見ると、座標pでの、二項分布モデルの下でデータの数値と事前分布の組み合わせに最も相性が良いpの値は0.5だと分かる。偏った事前分布も含めての相性の様子なので偏る。
Thread image
24
#統計 どちらの事後分布を見ても、二項分布モデルの下で、p=0.2という仮説と、データの数値「n=10人中k=7人成功」と事前分布(Beta(1,1)またはBeta(4,8))の組み合わせとの相性は悪そうに見える。

しかし、p=0.8との相性の良さは2つの場合で大きく違う。
Thread image
Thread image
25
#統計 事後分布のグラフを見れば、使用した特定の統計モデルの下での

モデルのパラメータの値に関する仮説



データの数値と事前分布の組み合わせ

の相性の良さ(compatibility)の様子が分かります。

これより強い結論が欲しいならば、モデルとデータの数値とは別の情報と専門知識が必要になる。
26
#統計 Greenlandさん達やStatistical RethinkingのMcElreathさんによる「データの数値とモデルのcompatibilityの様子を表している」という解釈の仕方について完全に無知なせいで、前世紀の時代遅れの主観ベイズ主義の解釈を振り回すことは、そろそろ、知的に恥ずかしいことだと認識されるべき。
27
#統計 ベイズの非ベイズの比較はP値関数で行うと楽。ベイズ側のP値関数の1つの作り方は事後分布でp以下になる確率とp以上になる確率の小さい方の2倍(これは中央値を点推定値とすることの拡張)。

事前分布がBeta(1/3,1/3)のとき、そのベイズ版P値とスコア法のP値は添付画像のようによく一致する。
Thread image
28
#統計 データのサイズを大きくすると、ベイズ版の両側P値と非ベイズ版の通常のスコア法によるP値はさらによく一致するようになる。

実践的にはここまで一致していれば区別する必要はないだろう。
Thread image
29
#統計 多くの人達が以上で示した「無情報事前分布の場合のベイズと非ベイズの近似的な一致」(非常にシンプル)に失敗している理由は、非ベイズ版の両側P値のベイズでの対応物が何であるかを理解していないからだと思われます。

片側P値の対応はもっとシンプル。続く
30
#統計 通常の「仮説p≤p₀の片側P値」のベイズ版は「事後分布でp≤p₀となる確率」です。無情報事前分布の下でそれらは添付画像のようによく一致します。

二項分布モデル程度のシンプルなモデルでベイズと非ベイズを違うものであるかのように語ることは酷くミスリーディングです。
Thread image
You're reading 30 of 72 posts

Create a free account to read the full thread.

Sign Up Free
Actions
Visual Editor
Update Thread
What You Can Do
  • Download as PDF
  • Save to Notion
  • Export as Markdown
  • Visual Editor
Create Free Account

Includes 7-day Premium trial