2017/09/23
2020/04/14
カイ二乗検定のわかりやすいまとめ
当ページではカイ二乗検定について、わかりやすくまとめました。仮説検定については、仮説検定とは?初心者にもわかりやすく解説!で初心者向けの解説を行なっております。
目次
カイ二乗検定とは?
カイ二乗検定とは帰無仮説が正しいとしたもとで、検定統計量が(近似的に)カイ二乗分布に従うような仮説検定手法の総称です。代表的なものとして、ピアソンのカイ二乗検定、カイ二乗の尤度非検定、マンテル・ヘンツェルのカイ二乗検定、イェイツのカイ二乗検定などがあります。
独立性のカイ二乗検定
独立性の検定は、二つの変数に関連が言えるのか否かを判断するためのものです。よって、帰無仮説\(H_0\)と対立仮説\(H_1\)は以下のように定義されます。
\(H_0\):二つの変数は独立である。
\(H_1\):二つの変数は独立ではない(何らかの関連がある。)
次のような分割表を考えるとして、
先ほど立てた二つの仮説を、独立ならば同時の確率は確率の掛け算で表せることを利用して、数式化すると、
\(H_0\ \ \ \ p_{ij} = p_{i.}p_{.j}\)
\(H_1:not H_0\)
となります。ここで、帰無仮説が正しいときに、
\begin{eqnarray}
\chi^2 = \sum^{r}_{i=1}\sum^{c}_{j=1}\frac{(n_{ij}-E_{ij})^2}{E_{ij}}\ \ \ \ 〜\chi^2((r-1)(c-1))
\end{eqnarray}
はカイ二乗分布に従うことを利用して、行うのが独立性のカイ二乗検定です。ここでの期待度数の求め方は、独立性の検定 期待度数の最尤推定量の導出をご参照ください。
独立性のカイ二乗分布についてさらに詳しく⇨独立性のカイ二乗検定 例題を用いてわかりやすく解説
適合度のカイ二乗検定
適合度検定(goodness of fit test)とは、帰無仮説における期待度数に対して、実際の観測データの当てはまりの良さを検定するための手法です。
観測度数と期待度数が下の表のようになっているものを考えます。
このとき、カイ二乗の適合度検定は以下のような手順で行われます。
1.期待確率から期待度数を計算
2.カイ二乗値を計算。(これは、観測度数と期待度数の差の二乗を期待度数で割った値の和で計算される。)
3.カイ二乗分布表から、2で計算したカイ二乗値に基づくp値を求める。有意水準以下ならば帰無仮説を棄却。
この手順に解説を加えていきます。
1.期待確率から期待度数を計算
各属性の期待度数\(E_i\)はその属性の期待確率\(P_i\)を用いて、
\(E_i = n_i × P_i\)
と表されます。
2.カイ二乗値を計算
カイ二乗値は以下の式で計算されます。
\begin{eqnarray}
\chi^2 = \sum^{r}_{i=1}\frac{(n_{i}-E_{i})^2}{E_{i}}\ \ \ \ 〜\chi^2(r-1)
\end{eqnarray}
3.p値を求める
カイ二乗分布のパーセント点を示す表から、2で求めたカイ二乗値を見つけ出し、p値を求めます。それがあらかじめ定められた、有意水準以下であれば、帰無仮説を棄却することになります。
適合度のカイ二乗検定についてさらに詳しくは、 適合度検定をカイ二乗検定で行う例題と手順に記載しましたので、合わせてお読みいただければと思います。
カイ二乗検定の結果を残差分析
独立性のカイ二乗検定を行ない、二つの変数の関連が言えたとします。このときわかるのは、二つの変数に何らかの関係があると言うことだけで、具体的にどのような関係があるかはわかりません。そこで、残差分析によって具体的にどの項目に関連があったのか、調べることが大切です。
例えば、独立性のカイ二乗検定で、独立でないと言えたとき、調整済み残差\(d_{ij}\)を用いて、残差分析を行う図式は以下のようになります。
こちらについて詳しくは、 カイ二乗検定を残差分析で評価する方法に記載致しました。
統計ソフトRでカイ二乗検定
統計ソフトのRでカイ二乗検定を行う方法をご紹介いたします。
R言語では、カイ二乗検定を行うのに、あらかじめ”chisq.test()”という関数が用意されています。以下のように、分割表にしたデータフレームや行列を、引数に入れて使います。
a = matrix(c(10,47,18,15),2,2) #aという行列を作成
chisq.test(a) #カイ二乗検定を実施
Pearson’s Chi-squared test with Yates’ continuity correction
data: a
X-squared = 11.681, df = 1, p-value = 0.0006315
上記のプログラムではaという行列を引数にとって、カイ二乗検定を行なっています。この表示されている結果の見方は、
X-squared:カイ二乗統計量
df:自由度
p-value:p値
となります。p値があらかじめ設定していた、有意水準よりも小さければ、帰無仮説を棄却し、対立仮説である「二つの変数は独立ではない」という仮説を採択します。
Rによるカイ二乗検定の詳細な結果の見方や、csvファイルへの出力まで自動で行う自作関数はこちら⇨Rで独立性のカイ二乗検定 そのまま使える自作関数
カイ二乗検定の自由度
カイ二乗検定で使う分割表の自由度は、
$$自由度 = (r-1)(c-1)$$
で与えられます。これについて詳しくは、カイ二乗検定の自由度(分割表の自由度)をご参照ください。
Recommended