ベイズの定理の導出と考え方をわかりやすく解説

[公開日]2017/06/25 [カテゴリー]ベイズ統計 Written by  masa

ベイズ統計学は、ベイズの定理から発展した統計学です。ここでは、ベイズの定理とその式から得られる重要な考え方について、初学者にもわかりやすく説明していきます。

ベイズ統計の超基本的な解説はこちら⇨ベイズ統計学とは?初心者向けのやさしい解説

 
 

ベイズの定理

まず、ベイズの定理とは以下のようなものです。

ベイズの定理

・離散型の場合

$$P(\theta_i|x)=\frac{P(x|\theta_i)P(\theta_i)}{\sum_{i=1}^{n}P(x|\theta_i)P(\theta_i)}$$

・連続型の場合

$$\pi(\theta|x)=\frac{f(x|\theta)\pi(\theta)}{\int_{\theta}f(x|\theta)\pi(\theta)d\theta}$$

ここで、\(x\)はデータ、\(\theta\)はパラメータを指します。
離散型の場合、\(P(\theta_i)\)を事前確率、\(P(\theta_i|x)\)を事後確率、\(P(x|\theta_i)\)を尤度、\(\sum_{i=1}^{n}P(x|\theta_i)P(\theta_i)\)を周辺尤度と言います。
連続型の場合、\(\pi(\theta)\)を事前分布、\(\pi(\theta|x)\)を事後分布、\(f(x|\theta)\)を尤度、\(\int_{\theta}f(x|\theta)\pi(\theta)d\theta\)を周辺尤度と言います。

ベイズの定理の導出

離散型の場合を証明します。
条件付き確率の式

\(P(Y|X)=\frac{P(X\cap Y)}{P(X)}\)

\(P(X|Y)=\frac{P(X\cap Y)}{P(Y)}\)

より、

\(P(X\cap Y)=P(Y|X)P(X)=P(X|Y)P(Y)\)

であるから、

\(P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}\)

が得られます。

ここで、\(X\)を\(x\)、\(Y\)を\(\theta\)にそれぞれ置き換えると、

\(P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}\)

となります。

次に、パラメータ\(\theta\)の取りうる値が複数あるとすると、\(\theta_i(i=1,2,...,n)\)が互いに独立である\(^{*1}\)という条件の下では

\(P(\theta_i|x)=\frac{P(x|\theta_i)P(\theta_i)}{P(x)}=\frac{P(x|\theta_i)P(\theta_i)}{\sum_{i=1}^{n}P(\theta_i\cap x)}=\frac{P(x|\theta_i)P(\theta_i)}{\sum_{i=1}^{n}P(\theta_i)P(x|\theta_i)}\)

となり、離散型のベイズの定理が得られます。

連続型は厳密な証明は省略しますが、手順は離散型と同じです。簡単に考えれば、事前確率\(P(\theta_i)\)を事前分布\(\pi(\theta)\)に、事後確率\(P(\theta_i|x)\)を事後分布\(\pi(\theta|x)\)に、尤度\(P(x|\theta_i)\)を\(f(x|\theta)\)に、周辺尤度\(\sum_{i=1}^{n}P(x|\theta_i)P(\theta_i)\)を\(\int_{\theta}f(x|\theta)\pi(\theta)d\theta\)に、それぞれ変換してあげれば連続型を得ることができます。

\(^{*1}\)ベイズ統計はほぼ全てベイズの定理を元に構築されています。したがって、ベイズ統計ではパラメータが全て独立であるということが大前提です。特に、ベイズ統計ではi.i.d(独立かつ同一分布)という条件が出てくるので、覚えておきましょう。

ベイズの定理から考えられること

以下、連続型で話を進めます。
連続型のベイズの定理の分母(周辺尤度)に注目すると、もともと\(x\)は定数であり、\(\theta\)で積分しているので、周辺尤度は定数になります。つまり、比例の記号\(\propto\)を用いて

$$\pi(\theta|x)\propto f(x|\theta)\pi(\theta)$$

と表すことができます。これを日本語でわかりやすく言い換えると、

$$事後分布\propto 尤度\times 事前分布$$

となります。これは、事後分布は尤度と事前分布によって与えられるということです。
このようにベイズ統計では、事前分布尤度関数事後分布と3つの分布が出てくることに注意してください。
そしてこの式は非常に重要です。この式の解釈を例を用いて考えていきます(厳密な計算はやりません)。

男性の身長の平均について考えます。いま事前情報として、男性の身長の母平均\(\mu\)が平均\(170\)、分散\(\tau^2\)の正規分布に従っている分布を持っているとします。いま、データとして、\(N(\mu,10^2)\)に従う母集団から標本\(175\)を得たとします。このとき、事後分布はどのようになるでしょうか。

ここで、事前分布は\(\mu〜N(170,\tau^2)\)ですね。例えば\(\pi(165)\)は、母集団の平均が\(165\)である確率をさします。では尤度はどうなるでしょうか?

尤度は\(f(x|\theta)\)、つまり、いまパラメータは\(\mu\)であるから、\(f(x|\mu)\)と表せられます。これを言葉で表すと、母平均\(\mu\)が与えられた上で、そのデータが得られる確率といえます。頻度論の考え方と似ていますね。

さて、『母平均\(\mu\)が与えられた上で』とあるので、変数\(\mu\)に値を与えなければいけません。例えば\(\mu=165\)を与えると、\(f(x=175|\mu=165)\)は、母平均が\(165\)である母集団分布からデータ\(175\)が得られる確率となります。例えば\(\mu=175\)を与えると、\(f(x=175|\mu=175)\)は、母平均が\(175\)である母集団分布からデータ\(175\)が得られる確率となります。このように、母数\(\mu\)によって尤度関数が動きます。この確率分布を当サイトでは『母数が規定する確率分布』という表現で表すことにします。

上に挙げた事前分布と尤度の積が事後分布に比例します。つまり、例えば、データが与えられた上での母集団の平均が\(165\)である確率\(\pi(\theta=165|x=175)\)は、事前情報(母集団の平均が\(165\)である確率)と尤度(母平均が\(165\)である母集団分布からデータ\(175\)が得られる確率)の積によって表すことができるのです。この\(\theta\)をパラメータの取り得る値全体で動かせば、事後分布が得られます。

 

  • スポンサーリンク

  • コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

    CAPTCHA