有効推定量とは?

更新日

有効推定量とは

有効推定量とは、統計的推定の点推定の一種で、クラメール・ラオの下限を達成している不偏推定量のことです。

不偏推定量の成り立ち

有効推定量を理解するには、まず、不偏推定量を理解する必要があります。

不偏推定量は統計的推定で扱われる推定量の一つで、母集団の未知パラメータを推測するために使われます。推定値と真のパラメータの誤差が小さいほど、良い推定と言えます。

ここで、標本から得られた推定量θ^\hat{\theta}を母パラメータθ\thetaに確率的に近づけること考えます。

つまり、平均二乗誤差E[(θ^θ)2]E[(\hat{\theta}-\theta)^2]を最小にすることを考えます。

しかし、これを最小にするようなθ^\hat{\theta}の値を計算するのは困難です。

そこで、上の式を次のように分解します。

E[(θ^θ)2]=E[{(E[θ^]θ)+(θ^E[θ^])}2]=(E[θ^]θ)2+Var[θ^]E[(\hat{\theta}-\theta)^2]=E[\{(E[\hat{\theta}]-\theta)+(\hat{\theta}-E[\hat{\theta}])\}^2]=(E[\hat{\theta}]-\theta)^2+Var[\hat{\theta}]

この分解をバイアス-バリアンス分解と言います。右辺の第1項がバイアス(偏り)、第2項がバリアンス(分散)です。この分解は、機械学習を学ぶ際にも出てくるので覚えておきましょう。

左辺を最小にすることは、右辺を最小にすることと同じです。よって、バイアス(右辺第1項)とバリアンス(右辺第2項)の和を最小にすることを考えます。

しかし、両方ともθ^\hat{\theta}に対して決まる値であるため、最適なθ^\hat{\theta}を見つけるのはまたも困難です。

ですので、バイアスを0にするようなθ^\hat{\theta}、つまりE[θ^]θ=0E[θ^]=θE[\hat{\theta}]-\theta=0\Leftrightarrow E[\hat{\theta}]=\thetaを考えます。

これを満たすθ^\hat{\theta}θ\theta不偏推定量と言います。

不偏推定量の問題点

上記で説明した不偏推定量は、多くの場面で利用されています。しかし、この推定量には一意性がないという問題があります。

「平均μ\mu、分散σ2\sigma^2に従う母集団からデータを得たとき、その標本平均をxˉ\bar{x}とすると、E[xˉ]=μE[\bar{x}]=\muとなるため、xˉ\bar{x}μ\muの不偏推定量である」ということは有名ですね。

しかし、xˉ\bar{x}の他にも不偏推定量になるものがたくさんあります。

例えば、yの分布が平均0の分布に従っているとしましょう。

すると、

E[xˉ+y]=E[xˉ]+E[y]=E[xˉ]+0=μE[\bar{x}+y]=E[\bar{x}]+E[y]=E[\bar{x}]+0=\mu

となるため、xˉ+y\bar{x}+yμ\muの不偏推定量であるということになります。

このように、不偏推定量はパラメータに対して一意に存在するというわけではないのです。

有効推定量の考え方

不偏推定量には一意性がないため、より良いものを選ぶ必要があります。

θ^\hat{\theta}θ\thetaの不偏推定量であるとき、つまりE[θ^]θ=0E[\hat{\theta}]-\theta=0であるとき、平均二乗誤差は以下となります。

E[(θ^θ)2]=(E[θ^]θ)2+Var[θ^]=Var[θ^]E[(\hat{\theta}-\theta)^2]=(E[\hat{\theta}]-\theta)^2+Var[\hat{\theta}]=Var[\hat{\theta}]

目的はこの左辺をできるだけ小さくすることでしたので、θ^\hat{\theta}θ\thetaの不偏推定量であるという条件のもとでは、Var[θ^]Var[\hat{\theta}]を最小にすることを考えればいいわけです。

Var[θ^]Var[\hat{\theta}]θ\thetaの値によらないので、Var[θ^]Var[\hat{\theta}]を最小にするような不偏推定量θ^\hat{\theta}一様最小分散不偏推定量と言われています。

では、不偏推定量θ^\hat{\theta}が一様最小分散不偏推定量であるかどうかチェックするにはどうすればいいのでしょうか?

その方法の一つとしてクラメール・ラオの下限を用いる方法があります。

【クラメール・ラオの下限】

不偏推定量θ^\hat{\theta}に対して、以下を満たす。

V[θ^]Jn(θ)1V[\hat{\theta}]\geq J_n(\theta)^{-1}

ただし、Jn(θ)J_n(\theta)はフィッシャー情報量である。

上記は、どんな不偏推定量θ^\hat{\theta}を取ってきても、Var[θ^]Var[\hat{\theta}]は、フィッシャー情報量の逆数Jn(θ)1J_n(\theta)^{-1}より小さくはならないことを意味しています。

これは、クラメール・ラオの式のイコールが存在するならば、Var[θ^]Var[\hat{\theta}]の最小値がJn(θ)1J_n(\theta)^{-1}となる、と解釈することができます。

このように、V[θ^]=Jn(θ)1V[\hat{\theta}]=J_n(\theta)^{-1}という等式が成り立つとき、不偏推定量θ^\hat{\theta}クラメール・ラオの下限を達成しているといい、クラメール・ラオの下限を達成しているような不偏推定量を有効推定量と言います。

以上から、有効推定量は全て一様最小分散不偏推定量になります。また、クラメール・ラオの式のイコールが存在しない、つまり、

V[θ^]>Jn(θ)1 V[\hat{\theta}]\gt J_n(\theta)^{-1}

が成立しているとき、有効推定量は存在しません。

関連記事

不偏推定量とは?平均と分散を例に分かりやすく解説

クラメール・ラオの下限の解説と証明

カテゴリ: 統計的推定