ベイズ統計学とは?初心者にもわかりやすく解説
この記事では、ベイズ統計学について初学者にわかりやすく解説します。
ベイズ統計学とは
ベイズ統計学とは、ベイズの定理をもとにした統計的な考え方の一種です。
記述統計学・推計統計学とは異なる考え方をします。
種別 | 説明 |
---|---|
記述統計学 | 標本に見られる特徴を分かりやすく表す。 |
推計統計学 | 標本を分析して、母集団について推測する。 |
ベイズ統計学 | 標本を必ずしも必要とせず、確率を導き出す。 |
客観確率と主観確率
確率には、「客観確率」と「主観確率」があります。
客観確率とは、「サイコロで6の目が出る確率は1/6である」というような、誰もが同一の答えを導き出せるような確率です。
主観確率とは、「人によって答えが違う確率」です。
例えば、「電車で隣の席に座っている社会人が転職を考えている確率は?」という問いに対して、皆さんが主観的に「これくらいか?」と導き出した確率が主観確率です。
ベイズ統計学が使う確率は主観確率になります。
事前確率と事後確率
ベイズ統計学は、事前確率(prior probability)と事後確率(posterior probability)を用いて計算を進めていきます。
ここでも、「電車で隣の席に座っている社会人が転職を考えている確率」を例にとって考えてみます。
ステップ1:何も分からない状態
隣に座ってきたばかりの社会人が転職を考えているかどうか分からないので、仮に、転職を考えている確率(主観確率)を50%に設定します。
(通常、何も情報がない段階で設定する確率は1/2とすることが多いです)
事前確率:50%
ステップ2:社会人の行動を観察
社会人は、席の正面にある転職に関する広告をずっと眺めています。転職を考えている確率が高そうだと思い、確率を70%に上げます。
事前確率:50%
事後確率:70%
このように、「転職に関する広告を眺めている」という事象が分かった後に設定した確率を事後確率といい、その前に設定していた確率を事前確率といいます。
事前確率を設定した後に、何か新たな情報を取得し、事後確率を更新していくという操作を繰り返していく仕組みです。
以上から、ベイズ統計学の考え方には学習能力があると言えます。
ベイズの定理
事前確率を設定した後のアップデートは、ベイズの定理に基づいて行います。式は以下のようになります。
:事象が起こった状況下で事象が起こる確率(事後確率)
:事象が起こる確率(事前確率)
:事象が起こる確率
:事象が起こった状況下で事象Xが起こる確率
数式を言葉で表現すると、以下のようになります。
参考記事:ベイズの定理の導出
ベイズ統計学が注目されている理由
ベイズ統計学の基になっているベイズの定理は1700年代から存在していました。古い歴史のあるこの領域が、今再注目されている理由を解説します。
ベイズ統計学の歴史
ベイズ統計学は、1700年中頃にトーマズベイズによる、ベイズの定理の発表により、産声をあげました。その後、1800年代後半に再び現在のベイズ統計の考え方の基礎となる考え方をする人々が現れました。
しかし、推計統計学論者のフィッシャーらが、「主観確率を扱うのは科学的でない」とし、ベイズ統計学は闇に葬り去られてしまったのです。
科学的であるかないかは別として、ベイズ統計学は現実に役に立つ学問であるということがが徐々に認められ、1950年代に入り再び研究され注目を浴びるようになりました。
機械学習とベイズ統計学の関係
機械学習とは、機械(コンピュータ)がデータからルールやパターンなどの法則性見つけ出し、その法則から将来を予測することです。
この機械学習にも、ベイズ統計が活用されています。
具体的に、迷惑メール判定の機械学習モデルには、ベイジアンフィルターと呼ばれるメールフィルターが採用されていることがあります。
事前に迷惑メールについての定義を作っておき、迷惑メールとして分別されたメール(または、ユーザーが迷惑メールフォルダーに移動したメール)から法則を見つけ、その法則を元に、新たに受信されるメールについて迷惑メール判定をします。
これにより、日々変化する迷惑メールに対応して、正しい判別をすることができるのです。
関連記事
カテゴリ: ベイズ統計
関連するサービス
記事の筆者
株式会社AVILEN マーケター
東北大学法学部卒業。ITインフラ業界で、モバイル・クラウドソリューションの法人セールス、プロダクト企画、マーケティング、カスタマーサクセスなどを経験。 2021年8月にAVILENに参画。AVILENでは人材育成事業部に所属し、BtoC、BtoB領域のマーケティング業務全般を担当する。