ベイズ推定量の性質と導出を例題を用いて解説

更新日

ベイズ推定量の性質と証明

ベイズ推定量は、事後分布の平均と一致するという重要な性質があります。

ここから、連続型確率変数の場合においてこの性質を証明します。

損失関数、危険関数(リスク関数)、平均リスクを以下のようにおきます。

・損失関数:L(θ,T)=(Tθ)2L(\theta,T)=(T-\theta)^2

・危険関数:R(θ,T)=E[L(θ,T)]R(\theta,T)=E[L(\theta,T)]

・平均リスク:r(π,t)=E[R(θ,T)]r(\pi,t)=E[R(\theta,T)]   (ただし、π(θ)\pi(\theta)は事前分布)

平均リスクを展開します。

r(π,t)=ΘR(θ,t)π(θ)dθr(\pi,t)=\int_{\Theta}R(\theta,t)\pi(\theta)d\theta

=ΘX(tθ)2f(xθ)dxπ(θ)dθ=\int_{\Theta}\int_{X}(t-\theta)^2f(x|\theta)dx\pi(\theta)d\theta

=XΘ(tθ)2f(xθ)π(θ)dθdx=\int_{X}\int_{\Theta}(t-\theta)^2f(x|\theta)\pi(\theta)d\theta dx

ここで、A=Θ(tθ)2f(xθ)π(θ)dθA=\int_{\Theta}(t-\theta)^2f(x|\theta)\pi(\theta)d\thetaとおくと、AAを最小にするようなT=t(x1,x2,...,xn)T=t(x_1,x_2,...,x_n)ベイズ推定量になります。

AAは、

A=t2Θf(xθ)π(θ)dθ2tΘθf(xθ)π(θ)dθ+Θθ2f(xθ)π(θ)dθA=t^2\int_{\Theta}f(x|\theta)\pi(\theta)d\theta-2t\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta+\int_{\Theta}\theta^2f(x|\theta)\pi(\theta)d\theta

平方完成して、

=Θf(xθ)π(θ)dθ[tΘθf(xθ)π(θ)dθΘf(xθ)π(θ)dθ]2[Θθf(xθ)π(θ)dθ]2Θf(xθ)π(θ)dθ+Θθ2f(xθ)π(θ)dθ=\int_{\Theta}f(x|\theta)\pi(\theta)d\theta[t-\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}]^2-\frac{[\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta]^2}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}+\int_{\Theta}\theta^2f(x|\theta)\pi(\theta)d\theta

となります。

AAt=Θθf(xθ)π(θ)dθΘf(xθ)π(θ)dθt=\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}のとき、最小値をとることがわかります。

これをTTとおくと、TTが事前分布π(θ)\pi(\theta)に対するベイズ推定量となります。

T=Θθf(xθ)π(θ)dθΘf(xθ)π(θ)dθT=\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}

ベイズの定理より、π(θx)=f(xθ)π(θ)Θf(xθ)π(θ)dθ\pi(\theta|x)=\frac{f(x|\theta)\pi(\theta)}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}であることを用いて、

=Θθπ(θx)dθ=\int_{\Theta}\theta\pi(\theta|x)d\theta

=E[θx]=E[\theta|x]

よって、事前分布π(θ)\pi(\theta)に対するベイズ推定量TTは事後分布π(θx)\pi(\theta|x)の平均に一致することがわかります。

二項分布とベイズ推定量

ベルヌーイ試行nn回行ったとき、成功回数をxx回とすると、xx二項分布に従います。このときのベイズ推定量を求めてみましょう。

二項分布の共役事前分布はベータ分布であるので、事前分布をベータ分布Beta(α,β)Beta(\alpha,\beta)と設定します。

f(xθ)=nCxθx(1θ)nxf(x|\theta)=_nC_x\theta^x(1-\theta)^{n-x}

であり、

π(θ)=1B(α,β)θα1(1θ)β1\pi(\theta)=\frac{1}{B(\alpha,\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}   0θ10\leq\theta\leq 1

であるから、

T=Θθf(xθ)π(θ)dθΘf(xθ)π(θ)dθT=\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}

=01θnCxθx(1θ)nx1B(α,β)θα1(1θ)β1dθ01nCxθx(1θ)nx1B(α,β)θα1(1θ)β1dθ=\frac{\int_0^1\theta{}_nC_x\theta^x(1-\theta)^{n-x}\frac{1}{B(\alpha,\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}{\int_0^1{}_nC_x\theta^x(1-\theta)^{n-x}\frac{1}{B(\alpha,\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}

=01θ×θx(1θ)nxθα1(1θ)β1dθ01θx(1θ)nxθα1(1θ)β1dθ=\frac{\int_0^1\theta×\theta^x(1-\theta)^{n-x}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}{\int_0^1\theta^x(1-\theta)^{n-x}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}

=01θ(x+α+1)1(1θ)(nx+β)1dθ01θ(x+α)1(1θ)(nx+β)1dθ=\frac{\int_0^1\theta^{(x+\alpha+1)-1}(1-\theta)^{(n-x+\beta)-1}d\theta}{\int_0^1\theta^{(x+\alpha)-1}(1-\theta)^{(n-x+\beta)-1}d\theta}

=B(x+α+1,nx+β)B(x+α,nx+β)=\frac{B(x+\alpha+1,n-x+\beta)}{B(x+\alpha,n-x+\beta)}

ここでベータ関数の性質を用いる

B(α,β)=Γ(α)Γ(β)Γ(α+β)B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

を利用する。ただしΓ\Gammaはガンマ関数。

=Γ(x+α+1)Γ(nx+β)Γ(n+α+β+1)×Γ(n+α+β)Γ(x+α)Γ(nx+β)=\frac{\Gamma(x+\alpha+1)\Gamma(n-x+\beta)}{\Gamma(n+\alpha+\beta+1)}×\frac{\Gamma(n+\alpha+\beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)}

=Γ(x+α+1)Γ(n+α+β+1)×Γ(n+α+β)Γ(x+α)=\frac{\Gamma(x+\alpha+1)}{\Gamma(n+\alpha+\beta+1)}×\frac{\Gamma(n+\alpha+\beta)}{\Gamma(x+\alpha)}

ここでガンマ関数の性質を用いる

Γ(α)=(α1)Γ(α1)\Gamma(\alpha)=(\alpha-1)\Gamma(\alpha-1)

=(x+α)Γ(x+α)(n+α+β)Γ(n+α+β)×Γ(n+α+β)Γ(x+α)=\frac{(x+\alpha)\Gamma(x+\alpha)}{(n+\alpha+\beta)\Gamma(n+\alpha+\beta)}×\frac{\Gamma(n+\alpha+\beta)}{\Gamma(x+\alpha)}

=x+αn+α+β=\frac{x+\alpha}{n+\alpha+\beta}

が得られます。

よって、ベータ分布に従う事前分布π(θ)\pi(\theta)に対するθ\thetaのベイズ推定量は

T=x+αn+α+βT=\frac{x+\alpha}{n+\alpha+\beta}

となります。

これは二項分布の事後分布の平均に一致します。

ベルヌーイ分布(二項分布)の事後分布に関しては、「ベルヌーイ分布の事後分布の平均と分散」をご確認ください。

最尤推定量とベイズ推定量を比較

例題を通して、最尤推定量とベイズ推定量を比較してみましょう。

最尤推定量について知りたい方は、「最尤推定量とは?初めての人にも分かりやすく解説」をご確認ください。

コイントスを5回行い、表が出た回数をxxとする。いま、表が出る確率をppとすると、xxBi(5,p)Bi(5,p)に従う。このとき、xxが0〜5の場合で次を考察せよ。

(1) 最尤推定量

(2) ppの事前分布がBeta(12,12)Beta(\frac{1}{2},\frac{1}{2})に従っているとしたときのベイズ推定量

(1)最尤推定量

最尤推定量p^\hat{p}は、xn\frac{x}{n}となるので、以下の表のようになります。

xx

0

1

2

3

4

5

p^\hat{p}

0

15\frac{1}{5}

25\frac{2}{5}

35\frac{3}{5}

45\frac{4}{5}

1

この両端を見てみると、荒い推定値のように思えます。

例えばx=5x=5なら、表が出る確率は1であると推定しています。つまり、「このコインは裏が絶対に出ない」と言っており、この推定値には信頼性がありません。

(2)ベイズ推定量

ベイズ推定量TTx+αn+α+β\frac{x+\alpha}{n+\alpha+\beta}となるので、n=5n=5α=12\alpha=\frac{1}{2}β=12\beta=\frac{1}{2}をそれぞれ代入すると、以下の表のようになります。

xx

0

1

2

3

4

5

TT

112\frac{1}{12}

14\frac{1}{4}

512\frac{5}{12}

712\frac{7}{12}

34\frac{3}{4}

1112\frac{11}{12}

事前に情報がある場合は両端の確率が0または1になることがありません。こちらの方が最尤推定量より信頼できます。

このように、確率が0と1を取らないとわかっているとき、つまり0<p<10 \lt p \lt 1のとき、最尤推定量ではなくベイズ推定量が使われます。

カテゴリ: ベイズ統計