有効推定量とは？

2024.3.05

2024.5.17

統計的推定

有効推定量とは
不偏推定量の成り立ち
不偏推定量の問題点
有効推定量の考え方
関連記事

有効推定量とは

有効推定量とは、統計的推定の点推定の一種で、クラメール・ラオの下限を達成している不偏推定量のことです。

不偏推定量の成り立ち

有効推定量を理解するには、まず、不偏推定量を理解する必要があります。

不偏推定量は統計的推定で扱われる推定量の一つで、母集団の未知パラメータを推測するために使われます。推定値と真のパラメータの誤差が小さいほど、良い推定と言えます。

ここで、標本から得られた推定量 $\hat{\theta}$ を母パラメータ $\theta$ に確率的に近づけること考えます。

つまり、平均二乗誤差 $E[(\hat{\theta}-\theta)^2]$ を最小にすることを考えます。

しかし、これを最小にするような $\hat{\theta}$ の値を計算するのは困難です。

そこで、上の式を次のように分解します。

$E[(\hat{\theta}-\theta)^2]=E[\{(E[\hat{\theta}]-\theta)+(\hat{\theta}-E[\hat{\theta}])\}^2]=(E[\hat{\theta}]-\theta)^2+Var[\hat{\theta}]$

この分解をバイアス-バリアンス分解と言います。右辺の第1項がバイアス（偏り）、第2項がバリアンス（分散）です。この分解は、機械学習を学ぶ際にも出てくるので覚えておきましょう。

左辺を最小にすることは、右辺を最小にすることと同じです。よって、バイアス（右辺第1項）とバリアンス（右辺第2項）の和を最小にすることを考えます。

しかし、両方とも $\hat{\theta}$ に対して決まる値であるため、最適な $\hat{\theta}$ を見つけるのはまたも困難です。

ですので、バイアスを0にするような $\hat{\theta}$ 、つまり $E[\hat{\theta}]-\theta=0\Leftrightarrow E[\hat{\theta}]=\theta$ を考えます。

これを満たす $\hat{\theta}$ を $\theta$ の不偏推定量と言います。

不偏推定量の問題点

上記で説明した不偏推定量は、多くの場面で利用されています。しかし、この推定量には一意性がないという問題があります。

「平均 $\mu$ 、分散 $\sigma^2$ に従う母集団からデータを得たとき、その標本平均を $\bar{x}$ とすると、 $E[\bar{x}]=\mu$ となるため、 $\bar{x}$ は $\mu$ の不偏推定量である」ということは有名ですね。

しかし、 $\bar{x}$ の他にも不偏推定量になるものがたくさんあります。

例えば、yの分布が平均0の分布に従っているとしましょう。

すると、

$E[\bar{x}+y]=E[\bar{x}]+E[y]=E[\bar{x}]+0=\mu$

となるため、 $\bar{x}+y$ も $\mu$ の不偏推定量であるということになります。

このように、不偏推定量はパラメータに対して一意に存在するというわけではないのです。

有効推定量の考え方

不偏推定量には一意性がないため、より良いものを選ぶ必要があります。

$\hat{\theta}$ が $\theta$ の不偏推定量であるとき、つまり $E[\hat{\theta}]-\theta=0$ であるとき、平均二乗誤差は以下となります。

$E[(\hat{\theta}-\theta)^2]=(E[\hat{\theta}]-\theta)^2+Var[\hat{\theta}]=Var[\hat{\theta}]$

目的はこの左辺をできるだけ小さくすることでしたので、 $\hat{\theta}$ が $\theta$ の不偏推定量であるという条件のもとでは、 $Var[\hat{\theta}]$ を最小にすることを考えればいいわけです。

$Var[\hat{\theta}]$ は $\theta$ の値によらないので、 $Var[\hat{\theta}]$ を最小にするような不偏推定量 $\hat{\theta}$ は一様最小分散不偏推定量と言われています。

では、不偏推定量 $\hat{\theta}$ が一様最小分散不偏推定量であるかどうかチェックするにはどうすればいいのでしょうか？

その方法の一つとしてクラメール・ラオの下限を用いる方法があります。

【クラメール・ラオの下限】
不偏推定量 $\hat{\theta}$ に対して、以下を満たす。
$V[\hat{\theta}]\geq J_n(\theta)^{-1}$
ただし、 $J_n(\theta)$ はフィッシャー情報量である。

上記は、どんな不偏推定量 $\hat{\theta}$ を取ってきても、 $Var[\hat{\theta}]$ は、フィッシャー情報量の逆数 $J_n(\theta)^{-1}$ より小さくはならないことを意味しています。

これは、クラメール・ラオの式のイコールが存在するならば、 $Var[\hat{\theta}]$ の最小値が $J_n(\theta)^{-1}$ となる、と解釈することができます。

このように、 $V[\hat{\theta}]=J_n(\theta)^{-1}$ という等式が成り立つとき、不偏推定量 $\hat{\theta}$ はクラメール・ラオの下限を達成しているといい、クラメール・ラオの下限を達成しているような不偏推定量を有効推定量と言います。

以上から、有効推定量は全て一様最小分散不偏推定量になります。また、クラメール・ラオの式のイコールが存在しない、つまり、

$V[\hat{\theta}]\gt J_n(\theta)^{-1}$

が成立しているとき、有効推定量は存在しません。

不偏推定量とは？平均と分散を例に分かりやすく解説

クラメール・ラオの下限の解説と証明

カテゴリ: 統計的推定

有効推定量とは？

有効推定量とは

不偏推定量の成り立ち

不偏推定量の問題点

有効推定量の考え方

関連記事