最尤推定量とは？初めての人にも分かりやすく解説

2024.3.05

2024.3.20

統計的推定

最尤推定量は点推定の一種で、重要な役割を果たしています。また、ベイズ推定との関係性においても議論されます。

事前の知識として、統計的推定の点推定という考え方を知っていると、理解しやすくなります。

最尤推定量とは？
最尤推定量の定義
コイン投げの例で最尤推定量を考える
最尤推定量の導出

最尤推定量とは？

最尤推定量とは、文字の如く、最も尤もらしい推定量のことです。

最尤推定量の定義

最尤推定量の定義は以下のようになります。

パラメータ $\theta$ に従う分布の密度関数を $f(x;\theta)$ とする。尤度関数を $L(\theta;x)=f(x;\theta)$ とすると、 $L(\theta;x)$ を最大にするような推定量 $\theta=\hat{\theta}$ を $\theta$ の最尤推定量という。

コイン投げの例で最尤推定量を考える

では「尤もらしい」というのはどういう意味なのでしょうか？例に沿って考えてみましょう。

【例題】
コインが1枚ある。このコインは"イカサマコイン"らしく、表の出る確率が $\frac{1}{2}$ ではないらしい。ここで表の出る確率を調べるために、このコインを10回投げたところ、8回表が出た。さて、このコインの表が出る確率はいくつだろうか？

コインの表が出る真の確率は分からないので、この値を推定しなければなりません。

10回中8回表が出ているという結果から、なんとなく $\frac{8}{10}=\frac{4}{5}$ と推定することが可能です。まさにこの値が最尤推定量になります。

しかし「なんとなく」では数学的、統計的に好ましくありません。統計学的には、 $\frac{4}{5}$ とした根拠を提示する必要があります。

最尤推定量とは、手元のデータが、どの母パラメータに従う分布から得られる確率が最も高いかに基づいて考えられる推定量です。上の例の場合ですと、「10回中8回出た」というデータが、表が出る（真の）確率がいくつのときに最も得られる確率が高いか、ということです。

具体的に、表が出る確率を変えていきながら今回のように10回中8回表が出る確率を確率を考えてみましょう。

(ⅰ) コインの表が出る真の確率が $\frac{1}{2}$ のとき、10回中8回表が出る確率

${}_{10}C_8(\frac{1}{2})^8(\frac{1}{2})^2\approx 0.0439=4.39\%$

(ⅱ) コインの表が出る真の確率が $\frac{2}{3}$ のとき、10回中8回表が出る確率

${}_{10}C_8(\frac{2}{3})^8(\frac{1}{3})^2\approx 0.195=19.5\%$

(ⅲ) コインの表が出る真の確率が $\frac{3}{4}$ のとき、10回中8回表が出る確率

${}_{10}C_8(\frac{3}{4})^8(\frac{1}{4})^2\approx 0.282=28.2\%$

(ⅳ)コインの表が出る真の確率が $\frac{4}{5}$ のとき、10回中8回表が出る確率

${}_{10}C_8(\frac{4}{5})^8(\frac{1}{5})^2\approx 0.302=30.2\%$

(ⅴ) コインの表が出る真の確率が $\frac{5}{6}$ のとき、10回中8回表が出る確率

${}_{10}C_8(\frac{5}{6})^8(\frac{1}{6})^2\approx 0.291=29.1\%$

このように、母パラメータの取りうる範囲で全て計算を行ったとき、「10回中8回表が出る」というデータが得られる確率が最も高くなるのが $\frac{4}{5}$ のときなのです。

こういった意味で、「尤もらしい=いかにも道理にかなっている」推定である $\frac{4}{5}$ が最尤推定量になります。

しかし、母パラメータの取りうる範囲で全て計算を行うのは事実上不可能です。そこで最尤推定量を計算で導出していくことにしましょう。

最尤推定量の導出

例題の数字の部分を文字式に置き換えて考えて見ましょう。これによって、二項分布の最尤推定量を一般化して導出できます。

【例題 - 文字式バージョン】
コインが1枚ある。このコインの表の出る真の確率をp(未知)とする。このコインをn回投げたところ、x回表が出た。このとき、pの最尤推定量を求めよ。

さて、このxは二項分布 $Bi(n,p)$ に従います。

二項分布の密度関数は

$f(x;\theta)={}_nC_x\theta^x(1-\theta)^{n-x}$

であるから、尤度関数は

$L(\theta;x)={}_nC_x\theta^x(1-\theta)^{n-x}$

となり、この $L(\theta;x)$ が最大になるような $\theta$ を考えます。

通常、最大値（極大値）を求めるときには微分します。

しかし、この関数を微分するのは少々面倒なので、対数尤度関数 $l(\theta)=logL(\theta;x)$ を微分し、最大値を考えます。

これは、対数関数が $(0,\infty)$ の範囲で単調に増加するため、 $L(\theta;x)$ が最大になるような $\theta$ と $l(\theta)$ が最大になるような $\theta$ が一致することを利用しています。また、尤度関数ではなく対数尤度関数を微分する理由は、logをとることで積の形から和の形にできるため、微分計算が楽になるからです。