超幾何分布とは？期待値と分散の導出も解説

2024.3.17

2024.5.17

超幾何分布

超幾何分布とは（hypergeometric distribution）
超幾何分布の公式
期待値の導出
分散の導出

超幾何分布とは（hypergeometric distribution）

具体例として、箱の中からボールを取り出す試行を考えます。

箱の中に $N$ 個のボールがあり、 $k$ 個が赤いボール、 $N-k$ 個が青いボールです。箱の中から $n$ 個のボールを取り出したとき、その中に含まれる赤いボールの個数を $X$ 個とします。

このとき、 $X$ が従う確率分布が超幾何分布です。

超幾何分布の公式

超幾何分布の公式は以下となります。

確率密度関数	$p(x) = \displaystyle \begin{cases} \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} & (x = 0, 1, 2, \cdots , n) \\ 0 & (else) \end{cases}$
期待値	$E(X) = \displaystyle n \frac{k}{N}$
分散	$V(X) = \displaystyle \frac{nk(N-k)(N-n)}{N^2 (N-1)}$

期待値の導出

超幾何分布は離散型確率分布なので、期待値の定義（離散型確率変数の場合）から

$\begin{equation*}\begin{split} E(X) &= \displaystyle \sum_{x=0}^n x p(x) \\ &= \displaystyle \sum_{x=0}^n x \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} \end{split}\end{equation*}$

となります。

ここで、 $x = 0$ の時、 $E(X)$ の値は $0$ となることから、 $x = 1$ から $n$ までの総和として考えてもよいものとなります。さらに

$\begin{equation*}\begin{split} \frac{\left( \begin{array}{c} k \\ x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} &= \displaystyle \frac{\frac{k!}{x!(k-x)!}}{\frac{N!}{n!(N-n)!}} \\ &= \displaystyle n \frac{k}{N} \times \frac{\frac{(k-1)!}{(x-1)! \{ (k-1)-(x-1) \} ! }}{\frac{(N-1)!}{(n-1)! \{ (N-1)-(n-1) \} ! }} \end{split}\end{equation*}$

と表せることから

$E(X) = \displaystyle n \frac{k}{N} \sum_{x=1}^n \frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right) }$

となります。

ここで $\frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right) }$ は、パラメータが $N-1$ 、 $k-1$ 、 $n-1$ の超幾何分布の密度関数の形と一致しています。

上式ではこの確率密度関数について、とりうる値において全て足しあわせており、その値は１となります。（これは、ある事象における全ての確率を足すと１になることと同義です。）

したがって、期待値は以下の形で表されます。

$E(X) = \displaystyle n \frac{k}{N}$

分散の導出

分散の性質より

$\begin{equation*}\begin{split} V(X) &= \displaystyle E(X^2) -E(X)^2 \\ &= \displaystyle E(X(X-1)) + E(X) - E(X)^2 \end{split}\end{equation*}$

$E(X(X-1))$ を求めます。こちらについても、上記の期待値の定義から次のように求めます。

$\begin{equation*}\begin{split} E(X(X-1)) &= \displaystyle \sum_{x=0}^n x(x-1) p(x) \\ &= \displaystyle \sum_{x=0}^n x(x-1) \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &= \displaystyle n \frac{k}{N} \sum_{x=1}^n x(x-1) \frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} \sum_{x=2}^n x(x-2) \frac{\left( \begin{array}{c} k-2 \\ x-2 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-2 \\ n-2 \end{array} \right)} \\ &= \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} \end{split}\end{equation*}$

2行目から3行目の式展開については先程と同じく、 $x = 0$ の時、値は0をとりますので、 $x = 1$ から $n$ までの総和として考えるものとしています。

3行目から4行目の変形についても同様の理由です。さらに4行目ではパラメータが $N-2$ 、 $k-2$ 、 $n-2$ の超幾何分布の密度関数の総和をとっているので、その値は1となります。

よって、 $E(X(X-1)) = n(n-1) \frac{k(k-1)}{N(N-1)}$ となります。

したがって、上記の値を $V(X)$ に代入すると

$\begin{equation*}\begin{split} V(X) &= \displaystyle E(X(X-1)) + E(X) - E(X)^2 \\ &= \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} + n \frac{k}{N} - n^2 \frac{k^2}{N^2} \\ &= \displaystyle \frac{nk(N-k)(N-n)}{N^2 (N-1)} \end{split}\end{equation*}$

となります。

カテゴリ: 超幾何分布