#統計 各科学者ごとの測定技術の違い(1/σ²の違い)をガンマ分布でモデル化して良さそうだという感触を得るためには、ガンマ分布達のpdf(密度函数)、cdf(累積分布函数)がどういう形をしているか知っておく必要がある。
例えばCauchy分布が出て来るΓ(shape=1/2, scale=200)では
#統計 t分布としてCauchy分布(をスケール変換したもの)が出て来るΓ(shape=1/2, scale=200)分布では平均100, 分散141になっており、添付画像のようになる。確率密度函数pdfは0で発散している。
科学者の測定技術が1/σ²=0であることは、完全に無能であることを意味している。
#統計 ガンマ分布の平均100を保ったままで、shape parameterを大きくして行ってみよう。
添付画像はshape=2の場合。自由度2shape=4のt分布が出て来る。
#統計 添付画像は、平均100、shape=10のガンマ分布。自由度2shape=20のt分布が出て来る。
shapeを大きくすると、平均を中心として左右に正規分布に近い分布をするようになる。
これは、科学者の測定技術の分布が正規分布に近いという想定のモデル化になっている。
#統計 平均100、shape=100のガンマ分布。shapeを大きくすると(対応するt分布の自由度2shapeを大きくすると)、平均の近くに分布が集中して来て、正規分布にさらに近付く。
科学者達の測定技術の質がかなり揃っているという想定のモデル化とみなされる。
#統計 平均100、shape=10000のガンマ分布。ほとんどの分布が平均のすぐそばに集中している。
科学者達の測定技術に違いはほとんどない場合のモデル化になっている。
以上のような感じでフィッティングがうまく行きそうなら、ガンマ分布は有力なモデル化であるということになる。
#統計 正規分布の分散の逆数がshape=α, scale=βのガンマ分布に従う確率変数だとすると、自由度2αのt分布が出て来る。
分散の逆数の確率変数としての平均はμ=αβになり、標準偏差はμ/√αになる。平均を保ったままαを大きくすると、分散の逆数の分布は正規分布に近付き、α=∞ではデルタ分布になる。
#統計 1/σ²がガンマ分布に従うことと、σ²が逆ガンマ分布に従うことは by definition で同値。こういう機会に逆ガンマ分布についても勉強してしまうとお得。
#統計 ガンマ分布には、正の実数上の確率分布の中で、平均E[X]と対数の平均E[log X]が指定されたときの「もっともありそうな」確率分布として特徴付けられます(本質的に統計力学でのカノニカル分布の導出のちょっとした拡張の特別な場合)。
#統計 Xが年収で、log X が年収から得られる効用であるとき、政府が平均年収だけではなく、平均効用をも目標とした政策(福祉政策)を実施していれば、年収Xの分布はガンマ分布に近くなる可能性が高くなることを証明できます。
ガンマ分布についてはこの理解も重要だと思う。
#統計 政府が、平均資産だけに配慮し、資産保有で得られる効用の平均に配慮しない政策を実施すると、簡単な統計力学的なモデルによれば、資産分布は指数分布(非常に不平等な分布)に近くなる可能性が高くなる。
現実の資産分布のヒストグラムをググって見ると実際にそうなっているように見える。
#統計 人間関係的に測定技術の良し悪しを気にしなければいけない知人がいても、学生時代に統計力学を勉強していても、富の分配や貧富の差に強い興味を持っていても、ガンマ分布について学ぶモチベーションが得られる。
入り口はたくさんあって、気楽に理解を深めて行くと楽しいと思う。
#統計 x_1,…,x_n>0の相乗平均の対数は対数の加法平均に等しい:
log (x_1…x_n)^{1/n} = (log x_1 + … + log x_n)/n.
だから、ガンマ分布は平均 (x_1+…+x_n)/n と相乗平均 (x_1…x_n)^{1/n} が与えられたときの「もっともありがちな」分布であるとも言える。
このようにして高校数学とも繋がる。
#統計 上で述べたことより、shape=n, scale=1のガンマ分布は平均n分散nの正規分布で近似されるので、確率密度函数の方では、
(n+√n x)^{n-1} e^{-n-√n x}/(n-1)!
≈ e^{-x²/2}/√(2π}.
x=0とおけばスターリングの公式
n! ≈ nⁿ e⁻ⁿ √(2π)
が得られる。これもよく使う。
#統計 普遍的によく出て来る連続的な確率分布として、平均と分散で決まる正規分布を最初に学ぶべきであることは間違いないと思う。
その次に学ぶべきなのは、
* 多次元の正規分布(多変量正規分布)
* カイ二乗分布
* その一般化であるガンマ分布
だと思う。