2017/09/02

2020/04/14

カイ二乗検定を残差分析で評価する方法

仮説検定

ライター:

分割表を用いた独立性のカイ二乗検定は、二つの変数の間に関連があるかどうかを検定するものです。この検定で、関連が言えたとき(p値が有意水準以下になったとき)、具体的にどのような関係があったのか評価したい、というような場合に使うのが残差分析です。ここで残差とは、「観測値\(-\)期待値」であり、残差分析を行うことで期待度数と観測値のずれが特に大きかったセルを発見することが出来ます。

そもそも独立性のカイ二乗検定って何?って方はこちら⇨独立性のカイ二乗検定 例題を用いてわかりやすく解説

調整済み残差を用いた、カイ二乗検定の残差分析

独立性のカイ二乗検定で、独立でないと言えたとき、調整済み残差\(d_{ij}\)を用いて、残差分析を行う図式は以下のようになります。

調整済み残差\(d_{ij}\)は標準正規分布に従う(理由は後ほど説明)ので、\(|d_{ij}|≧1.96\)のとき、そのセルを特徴的な部分であると見なすことができます。

では具体的に、次のようなを例題考えることにしましょう。

残差分析の例題

女性130人に対して、アンケート行い、女性の体型と自分に自信があるか否かの調査を行った。その結果が下図のような分割表で表されるとき、有意水準5%で独立性のカイ二乗検定を行い、有意だった場合には、調整済み残差を求めて、特徴的なセルを見つけなさい。

ここで独立性のカイ二乗検定を行うとp値は0.02です。よって、独立ではないという結論が得られたので、調整済み残差

\begin{eqnarray}
d_{ij} = \frac{f_{ij} – E_{ij}}{\sqrt{E_{ij}(1-r_i/n_i)(1-c_i/n_i)}}
\end{eqnarray}

を用いて、残差分析を行うと、

となるので、痩せてる人に自信がある人が特に多く、肥満型の人には自信がない人が多いという、特徴的なセルを発見することができます。普通の人は、正方向にも負方向にも1.96以上になっていないので、特に特徴はないということになりました。

調整済み残差の導出

調整済み残差\(d_{ij}\)は期待度数\(E_{ij}\)、周辺度数\(r_i\)、\(n_i\)と観測値\(f_{ij}\)を用いて、

\begin{eqnarray}
d_{ij} = \frac{f_{ij} – E_{ij}}{\sqrt{E_{ij}(1-r_i/n_i)(1-c_i/n_i)}}
\end{eqnarray}

で表されるのは、前の説でも述べた通りですが、ここからは、このような式になる理由について説明していきます。

 

まず、独立性のカイ二乗検定を行って、独立ではないという結論が得られたとします。ここで調整済み残差を求めたいのですが、調整済み残差を求める前の段階として、標準化残差を求める必要があります。ここで、残差とは「観測値\(-\)期待値」であり、それを標準偏差で割ったものが、標準化残差です。
\begin{eqnarray}
e_{ij} = \frac{n_{ij}-E_{ij}}{\sqrt{E_ij}}
\end{eqnarray}
この標準化残差というのは、近似的に正規分布\(N(0,v_{ij})\)に従うことが知られており。その分散は下式で表されます
\begin{eqnarray}
v_{ij} = (1-\frac{n_{i.}}{N})(1-\frac{n_{.j}}{N})
\end{eqnarray}
そして、調整済み残差というのは、標準化残差とその分散を用いて標準化変換を行うことによって、以下の式で表されます。
\begin{eqnarray}
d_{ij} = \frac{e_{ij}}{\sqrt{v_{ij}}}
\end{eqnarray}
したがって調整済み残差の分布は、近似的に平均0,標準偏差1の標準正規分布に従います。よって、有意水準α=0.05の検定の場合は\(|d_{ij}|\)が1.96以上であれば、特徴的な部分であるとみなすことが出来るのです。

(totalcount 46,710 回, dailycount 63回 , overallcount 16,393,319 回)

ライター:

仮説検定

single-banner

COMMENT

コメントを残す

メールアドレスが公開されることはありません。
*は必須項目です。




CAPTCHA