超幾何分布とは?期待値と分散の導出も解説

更新日

超幾何分布とは(hypergeometric distribution)

具体例として、箱の中からボールを取り出す試行を考えます。

箱の中にNN個のボールがあり、kk個が赤いボール、NkN-k個が青いボールです。箱の中からnn個のボールを取り出したとき、その中に含まれる赤いボールの個数をXX個とします。

このとき、XXが従う確率分布が超幾何分布です。

超幾何分布の公式

超幾何分布の公式は以下となります。

確率密度関数

p(x)={(kx)(Nknx)(Nn)(x=0,1,2,,n)0(else)p(x) = \displaystyle \begin{cases} \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} & (x = 0, 1, 2, \cdots , n) \\ 0 & (else) \end{cases}

期待値

E(X)=nkNE(X) = \displaystyle n \frac{k}{N}

分散

V(X)=nk(Nk)(Nn)N2(N1)V(X) = \displaystyle \frac{nk(N-k)(N-n)}{N^2 (N-1)}

期待値の導出

超幾何分布は離散型確率分布なので、期待値の定義(離散型確率変数の場合)から

E(X)=x=0nxp(x)=x=0nx(kx)(Nknx)(Nn)\begin{equation*}\begin{split} E(X) &= \displaystyle \sum_{x=0}^n x p(x) \\ &= \displaystyle \sum_{x=0}^n x \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} \end{split}\end{equation*}

となります。

ここで、x=0x = 0の時、E(X)E(X)の値は00となることから、x=1x = 1からnnまでの総和として考えてもよいものとなります。さらに

(kx)(Nn) = k!x!(kx)!N!n!(Nn)! =nkN×(k1)!(x1)!{(k1)(x1)}!(N1)!(n1)!{(N1)(n1)}!\begin{equation*}\begin{split} \frac{\left( \begin{array}{c} k \\ x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)}  &= \displaystyle  \frac{\frac{k!}{x!(k-x)!}}{\frac{N!}{n!(N-n)!}} \\  &= \displaystyle n \frac{k}{N} \times \frac{\frac{(k-1)!}{(x-1)! \{ (k-1)-(x-1) \} ! }}{\frac{(N-1)!}{(n-1)! \{ (N-1)-(n-1) \} ! }} \end{split}\end{equation*}

と表せることから

E(X)=nkNx=1n(k1x1)(Nknx)(N1n1)E(X) = \displaystyle n \frac{k}{N} \sum_{x=1}^n \frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right) }

となります。

ここで( k1x1)( Nknx)( N1n1)\frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right) } は、パラメータがN1N-1k1k-1n1n-1の超幾何分布の密度関数の形と一致しています。

上式ではこの確率密度関数について、とりうる値において全て足しあわせており、その値は1となります。(これは、ある事象における全ての確率を足すと1になることと同義です。)

したがって、期待値は以下の形で表されます。

E(X)=nkNE(X) = \displaystyle n \frac{k}{N}

分散の導出

分散の性質より

V(X)=E(X2)E(X)2=E(X(X1))+E(X)E(X)2\begin{equation*}\begin{split} V(X) &= \displaystyle E(X^2) -E(X)^2 \\ &= \displaystyle E(X(X-1)) + E(X) - E(X)^2 \end{split}\end{equation*}

E(X(X1))E(X(X-1))を求めます。こちらについても、上記の期待値の定義から次のように求めます。

E(X(X1))=x=0nx(x1)p(x)=x=0nx(x1)(kx)(Nknx)(Nn) =nkNx=1nx(x1)(k1x1)(Nknx)(N1n1) =n(n1)k(k1)N(N1)x=2nx(x2)(k2x2)(Nknx)(N2n2) =n(n1)k(k1)N(N1) \begin{equation*}\begin{split} E(X(X-1)) &= \displaystyle \sum_{x=0}^n x(x-1) p(x) \\ &= \displaystyle \sum_{x=0}^n x(x-1) \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &= \displaystyle n \frac{k}{N} \sum_{x=1}^n x(x-1) \frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)}  \\ &= \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} \sum_{x=2}^n x(x-2) \frac{\left( \begin{array}{c} k-2 \\ x-2 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-2 \\ n-2 \end{array} \right)}  \\ &= \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} \end{split}\end{equation*}

2行目から3行目の式展開については先程と同じく、x=0x = 0の時、値は0をとりますので、x=1x = 1からnnまでの総和として考えるものとしています。

3行目から4行目の変形についても同様の理由です。さらに4行目ではパラメータがN2N-2k2k-2n2n-2の超幾何分布の密度関数の総和をとっているので、その値は1となります。

よって、E(X(X1))=n(n1)k(k1)N(N1)E(X(X-1)) = n(n-1) \frac{k(k-1)}{N(N-1)}となります。

したがって、上記の値をV(X)V(X)に代入すると

V(X)=E(X(X1))+E(X)E(X)2= n(n1)k(k1)N(N1)+nkNn2k2N2=nk(Nk)(Nn)N2(N1)\begin{equation*}\begin{split} V(X) &= \displaystyle E(X(X-1)) + E(X) - E(X)^2 \\ &= \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} + n \frac{k}{N} - n^2 \frac{k^2}{N^2} \\ &= \displaystyle \frac{nk(N-k)(N-n)}{N^2 (N-1)} \end{split}\end{equation*}

となります。

カテゴリ: 超幾何分布