適合度の検定をカイ二乗検定で実施する手順を例題でわかりやすく解説

更新日

適合度検定とは(goodness of fit test)

適合度検定とは、帰無仮説における期待度数に対して実際の観測データの当てはまりの良さを検定するための手法です。

今回は適合度の検定をカイ二乗検定で行う方法をご紹介いたします。

適合度のカイ二乗検定を例題で解説

次のような例題を考えます。

大人と子どもが同じ数だけいる、母集団からランダムに100人を選ぼうとしたところ、大人が60人、子供が40人選ばれた。

これはランダムに選んだ結果と言えるでしょうか?適合度のカイ二乗検定を用いて、有意水準α=0.05α = 0.05で評価しましょう。

まず帰無仮説H0H_0と対立仮説H1H_1をそれぞれ以下のように定義します。

H0H_0:100人はランダムに選ばれた。
H1H_1:100人はランダムではなかった。

今回の問題は母集団の大人と子どもの人数が同じなので、ランダムに選ぶ場合、大人を選ぶ確率と子どもを選ぶ確率は同じになります。

よって、100人を選ぶ場合、期待度数は50人ずつです。それを表にまとめると以下のようになります。

観測度数(人)

期待確率

期待度数(人)

大人

60

50%

50

子ども

40

50%

50

帰無仮説H0H_0の下で今回の結果を評価することにします。

適合度検定をカイ二乗検定によって行う場合、その式は、カテゴリナンバーii番目の観測度数をnin_{i}期待度数をEiE_{i}とすると、次のようになります。

χ2=i=1r(niEi)2Ei    〜χ2(r1)\chi^2 = \sum^{r}_{i=1}\frac{(n_{i}-E_{i})^2}{E_{i}}\ \ \ \ 〜\chi^2(r-1)

ここでrrはカテゴリー数であり、自由度がカテゴリーの数より1小さいのは、度数の合計が一定(既知)なので、カテゴリー数より一つ少ない個数分のセル情報が得られれば、残りの一つは、度数の合計から計算可能であることによります。

自由度の詳細は「カイ二乗検定の自由度(分割表の自由度)」をご確認ください。

上式を今回の例題に適用させると、自由度1のカイ二乗分布になり、カイ二乗値は4となります。

χ2=(6050)2+(4050)250=4    〜χ2(1)\chi^2 = \frac{(60-50)^2+(40-50)^2}{50} = 4 \ \ \ \ 〜\chi^2(1)

カイ二乗分布表により、p値は0.0455となるので、有意水準5%では、帰無仮説は棄却され、対立仮説が採択されます。

つまり、ランダムに選んだつもりだったが、ランダムに選べていなかったという結果になります。

 適合度の検定をカイ二乗検定で行う手順まとめ

適合度検定をカイ二乗検定で行う場合の流れは基本的に上記の例題で示した通りです。ここからは、話を一般化させて、その手順を示していきます。

観測度数と期待度数が下の表のようになっている場合を考えます。

観測度数と期待度数の表

このとき、カイ二乗の適合度検定は以下のような手順で行われます。

1.期待確率から期待度数を計算
2.カイ二乗値を計算。(これは、観測度数と期待度数の差の二乗を期待度数で割った値の和で計算される。)
3.カイ二乗分布表から、2で計算したカイ二乗値に基づくp値を求める。有意水準以下ならば帰無仮説を棄却。

上記の手順に解説を加えていきます。

1.期待確率から期待度数を計算

各属性の期待度数EiE_iはその属性の期待確率PiP_iを用いて、次のように表されます。

Ei=ni×PiE_i = n_i × P_i

2.カイ二乗値を計算

カイ二乗値は以下の式で計算されます。

χ2=i=1r(niEi)2Ei    〜χ2(r1)\chi^2 = \sum^{r}_{i=1}\frac{(n_{i}-E_{i})^2}{E_{i}}\ \ \ \ 〜\chi^2(r-1)

3.p値を求める

カイ二乗分布のパーセント点を示す表から、手順2で求めたカイ二乗値を見つけ出し、p値を求めます。

それがあらかじめ定められた、有意水準以下であれば、帰無仮説を棄却することになります。

カテゴリ: 仮説検定

関連サービス

講座一覧ページ

記事一覧はこちら

無料で統計学を学ぶ