ベイズ統計学のわかりやすいまとめ

[公開日]2017/08/31[更新日]2017/10/13

ベイズ統計の考え方や特徴、定理などをわかりやすくまとめました。初心者でも、この記事を上から順に読むことで、ベイズ統計学にかなり詳しくなれるような構成にしてあります。

※当ページはまとめページなので、他ページへのリンクが随所に多数ございます。リンク先のページも合わせてお読みいただくことで、足りない情報を補いながら、より深い理解ができるかと思います。

ベイス統計の歴史

そもそも統計学は大きく二つに分かれます。一つがロナルド・フィッシャーを中心として発展した頻度論的統計、もう一つがトーマス・ベイズによって理論が確立されたベイズ統計です。ベイズ統計は20世紀半ばに発展した理論で、比較的新しい分野といえます。

しかし、ベイズ統計の考え方の基礎となるベイズの定理というものは、1700年中頃には存在していました。その後、しばらくの間、「主観確率を扱うのは科学的ではない」という理由で、日の目を見ることはありませんでしたが、近年ベイズ統計学が非常に実用的であることがわかり、様々なところで実用化されています。それについては、なぜいまベイズ統計学は注目されているのかでいくつか紹介しています。

また、統計学全体の歴史は、『統計学の歴史〜古代ローマから現代まで〜』で時代の流れにそって記載しました。

ベイズ統計とは?

ベイズ統計とは、事前確率を元に、得られたデータから新たな確率を導出する統計学です。そのため、確率の考え方が他と違って特殊です。特に、頻度論的統計(記述・推計統計学)とは大きく異なった考え方をします。以下に、それぞれの統計学の基本的な考え方を示します。

・記述統計学……標本に見られる特徴をわかりやすく表す。
・推計統計学……標本を分析して、母集団について推測する。
・ベイズ統計学……標本を必ずしも必要としない。データ不十分でも何とかして確率を導く。

ベイズ統計だけ、標本を必要としない点において大きく他と異なるということがお分かりでしょうか?このように異なった考え方をするため、ベイズ統計学を支持する人は特別に”ベイジアン”と呼ばれ、一部では推計統計学論者と激しく対立しているという話もあります。

ベイズ統計独特の考え方は、『ベイズ統計学とは?初心者向けのやさしい解説』で初心者にもわかりやすく解説しているので、ぜひご覧ください。

頻度論とベイズ論の違い

頻度論とベイズ統計の大まかな違いは、先ほど述べた通りですが、ここからはもっと具体的な話に入ります。

まず、頻度論とは、得られたデータが母集団からどれくらいの頻度(確率)で発生するのか、ということを基本的な考え方とする理論です。つまり、パラメータが定数、データが変数(確率変数)ということになります。それに対して、ベイズ統計の考え方は全くの逆です。つまり、パラメータが変数(確率変数)、データが定数となります。言い換えれば、いま手元にあるデータが、どのようなパラメータに基づく母集団から得られたのか、を考えるということです。

さらに詳しくは、『ベイズ統計学の考え方~ベイズ論と頻度論の違い~』をご覧ください。

ベイズの定理

ベイズ統計は、ベイズの定理を基盤として発展した理論です。そのベイズの定理とは次のようなものです。

ベイズの定理
$$P(A|X) = \frac{P(X|A)P(A)}{P(X)} =  P(A) × \frac{P(X|A)}{P(X)}$$
P(A|X):事象Xが起こった状況下で事象Aが起こる確率(事後確率)
P(A):事象Aが起こる確率(事前確率)
P(X):事象Xが起こる確率
P(X|A):事象Aが起こった状況下で事象Xが起こる確率

これを言葉で表すと次のようになります。

$$事後確率 = 事前確率 × \frac{ある場合においての、そのデータが得られる確率}{そのデータが得られる確率}$$

ベイズの定理の基本的な考え方は『ベイズ統計学とは?初心者向けのやさしい解説』で詳しく説明しています。ぜひご覧ください。

ここで、上記のベイズの定理に関して、\(A\)を複数のパラメータ\(\theta_i\)、\(X\)をデータ\(x\)として考えると以下のように書き換えることができます。

ベイズの定理

・離散型の場合

$$P(\theta_i|x)=\frac{P(x|\theta_i)P(\theta_i)}{\sum_{i=1}^{n}P(x|\theta_i)P(\theta_i)}$$

・連続型の場合

$$\pi(\theta|x)=\frac{f(x|\theta)\pi(\theta)}{\int_{\theta}f(x|\theta)\pi(\theta)d\theta}$$

離散型の場合、\(P(\theta_i)\)を事前確率、\(P(\theta_i|x)\)を事後確率、\(P(x|\theta_i)\)を尤度、\(\sum_{i=1}^{n}P(x|\theta_i)P(\theta_i)\)を周辺尤度と言います。
連続型の場合、\(\pi(\theta)\)を事前分布、\(\pi(\theta|x)\)を事後分布、\(f(x|\theta)\)を尤度、\(\int_{\theta}f(x|\theta)\pi(\theta)d\theta\)を周辺尤度と言います。

このベイズの定理は、連続型の場合、

$$\pi(\theta|x)\propto f(x|\theta)\pi(\theta)$$

と表すことができます。これを日本語でわかりやすく言い換えると、

$$事後分布\propto 尤度\times 事前分布$$

となります。これは、事後分布は尤度と事前分布によって与えられるということです。

ベイズの定理の導出と考え方をわかりやすく解説』で証明と、より統計的立場にたった考え方の解説を行なっています。

ベイズ推定とは?定義と性質

ベイズ統計には、点推定の一種としてベイズ推定量があります。

定義〜ベイズ推定量は平均リスクを最小にするような推定量〜

ベイズ推定には、決定理論という概念を使います。つまり、ベイズ推定を考えるためには、知識として決定理論を知っておかなければなりません。決定理論とは、得られた情報(データ)からどのような行動をとると決定するかを、数学・統計学的に行う理論のことです。

決定理論の超基本的な考え方はこの記事を参考にしてください⇨『決定理論とは?簡単にわかりやすく説明

ベイズ推定の定義は以下のようになります。

ベイズ推定量

平均リスク\(r(\pi,\delta)\)を最小にするような\(\theta\)の推定量\(T=\delta(x_1,x_2,...,x_n)\)があるとき、この\(T\)を事前分布\(\pi(\theta)\)に対するベイズ推定量という。

このベイズ推定量の定義とその考え方については『ベイズ推定の定義とその考え方をわかりやすく解説』をご覧ください。

性質〜ベイズ推定量は事後分布の平均と一致する

ベイズ推定量は次のような重要な性質があります。

ベイズ推定量の性質

ベイズ推定量は、事後分布の平均と一致する

この性質を利用することにより、ベイズ推定量を定義からではなく、事後分布の平均から求めることができるようになります。

上記の性質について、二項分布の場合で比較している二つの記事

・ベイズ推定量の定義から導出⇨『ベイズ推定量の導出!例題と解説(最尤推定量と比較)

・事後分布の平均から導出⇨『ベータ分布の事後分布の平均と分散【ベイズ】

を是非ご覧ください。

ベイズ推定量と最尤推定量の違い

最尤推定とベイズ推定はよく比較されることがあります。最尤推定量は頻度論の考え方に基づいた推定であるのに対し、ベイズ推定はベイズ論に基づいた推定です。

(最尤推定量に関する詳しい解説→『最尤推定量とは?初めての人にもわかる解説』)

この二つの推定量の違いは、最尤推定量は事前情報を使わないのに対し、ベイズ推定は事前情報を使うという点にあります。

このことについて、例題を交え詳しく解説している記事『ベイズ推定と最尤推定の違いを例題を用いて解説』、また、実際に最尤推定量とベイズ推定量を計算し比較している記事『ベイズ推定量の導出!例題と解説(最尤推定量と比較)』を是非ご覧ください。

共役事前分布とは?

ベイズ統計には、共役事前分布という概念が存在します。

共役事前分布とは、ベイズ統計を扱う際に、複雑な計算を回避するために考えられた事前分布です。共役事前分布に尤度をかけて事後分布を求めると、その関数形が同じ分布になります。つまり、共役事前分布を使えば、事前分布と事後分布は同じ形の分布になる、ということです。

共役事前分布母数が規定する確率分布事後分布
ベータ分布ベルヌーイ分布ベータ分布
ベータ分布二項分布ベータ分布
正規分布正規分布(\(σ^2\)既知)正規分布
逆ガンマ分布正規分布(\(σ^2\)未知)逆ガンマ分布
ガンマ分布ポアソン分布ガンマ分布
ディリクレ分布多項分布ディリクレ分布

共役事前分布に関して『【ベイズ統計】共役事前分布とは?わかりやすく解説』で詳しく解説しています。是非ご覧下さい。

ベイズ流の仮説検定

全6回にわたってベイズ流の仮説検定について解説致しました。題名がリンクになっていますので、是非ご覧になってください。

【第1回】ベイズ統計の仮説検定〜頻度論との違い〜

頻度論における仮説検定はP(X|Hi)を導出していたのに対し、ベイズ統計における仮説検定はP(Hi|X)を導出します。よって、従来の仮説検定とは違ったアプローチで検定を行う必要があります。

【第2回】ベイズ統計の仮説検定〜基本的な検定〜

P(Hi|X)はデータが与えられた上での仮説を満たす確率です。つまり、ベイズ統計の仮説検定では仮説が成り立つ確率を直接計算できます。そこで、帰無仮説が成り立つ確率と、対立仮説が成り立つ確率を算出し、大きい確率である方の仮説を受容する、という検定問題を考えました

【第3回】ベイズ統計の仮説検定〜頻度論の考え方に基づく検定〜

しかし、従来の仮説検定の考え方では、帰無仮説は安易に棄却してはいけないという考え方があります。そこで、その考え方を取り入れたベイズ流仮説検定を考えます。従来の仮説検定の「第1種の誤り確率を一定以下に抑える」という考え方に基づいて、事後オッズ比を一定以下に抑える検定問題を考えました

【第4回】ベイズ統計の仮説検定〜ベイズファクター〜

事前確率を含めた事前分布は、自分で設定する必要があります。その設定の仕方によって、仮説の棄却されやすさに差が生じてしまいます。そこで、ベイズファクターという指標を導入し、検定結果だけでなく、その検定の証拠の強さも評価することを考えました

【第5回】ベイズ統計の仮説検定〜点帰無仮説の場合〜

帰無仮説が点帰無仮説の場合、事前確率が0になってしまいます。そこで、事前確率を自分で割り当てた上で検定を行いました

【第6回】ベイズ統計の仮説検定〜問題点とまとめ〜

事前分布には非正則分布を使うことはできません。幅のある仮説を立てると、割り当てられる確率が無限になり、ベイズファクターに正当な解釈を与えないからです。また、頻度論の検定に比べると、ベイズ流仮説検定は帰無仮説が棄却されにくい傾向にあります

事後分布の平均、分散

正規分布(共役事前分布は正規分布)の事後分布

正規母集団からデータを取ってくるとき、共役事前分布が正規分布であるため、事前分布を正規分布に設定すると、事後分布は正規分布になります。よって、事前分布を正規分布としたとき、事後分布の平均、分散は次のようなことが言えます。

事後分布の平均、分散

母平均\(\mu\)、母分散\(\sigma^2\)に従う正規母集団から大きさ\(n\)の標本を抽出し、標本平均\(\overline{x}\)を得たとする。母平均\(\mu\)の事前分布として平均\(\eta\)、分散\(\tau^2\)の正規分布をとるとき、\(\mu\)の事後分布は

$$平均:\frac{n\tau^2\overline{x}+\sigma^2\eta}{n\tau^2+\sigma^2}=\frac{\frac{n}{\sigma^2}\overline{x}+\frac{1}{\tau^2}\eta}{\frac{n}{\sigma^2}+\frac{1}{\tau^2}}$$

$$分散:\frac{\tau^2\sigma^2}{n\tau^2+\sigma^2}=\frac{\frac{\sigma^2\tau^2}{n}}{\frac{\sigma^2}{n}+\tau^2}$$

の正規分布に従う

この事後分布の平均、分散の導出や考察に関しては『正規分布の事後分布の平均と分散【ベイズ】』で詳しく解説しています。是非ご覧ください。

ベータ分布(共役事前分布はベルヌーイ分布、二項分布)の事後分布

二項分布に従う母集団からデータを取ってくるとき、共役事前分布がベータ分布であるため、事前分布をベータ分布に設定すると、事後分布はベータ分布になります。よって、事前分布をベータ分布としたとき、事後分布の平均、分散は次のようなことが言えます。

事後分布の平均、分散

成功確率\(p\)の試行を\(1\)回行い、\(x\)回成功したとする(\(x\)は\(Bi(1,p)\)に従う)。この試行を\(n\)回行った。パラメータ\(p\)の事前分布として\(Beta(\alpha,\beta)\)のベータ分布をとるとき、\(p\)の事後分布は

$$平均:\frac{\alpha+\gamma}{\alpha+\beta+n}$$

$$分散:\frac{(\alpha+\gamma)(\beta+n-\gamma)}{(\alpha+\beta+n)^2(\alpha+\beta+n+1)}$$

のベータ分布\(Beta(\alpha+\gamma,\beta+(n-\gamma))\)に従う。ただし、\(\gamma\)は成功回数である。

この事後分布の平均、分散の導出や考察に関しては『ベータ分布の事後分布の平均と分散【ベイズ】』で詳しく解説しています。是非ご覧ください。