t検定とは?種類と手順を解説!

[記事公開日]2016/11/11[最終更新日]2017/07/29 [カテゴリー]仮説検定 Written by  IMIN

統計的仮説検定の中でも特によく用いられるのが、t検定と呼ばれる手法です。t検定は、母集団が正規分布に従うと仮定した上で行います。z検定との違いは、z検定が母分散が既知であるときに用いる検定手法であるのに対して、t検定は母分散未知の正規分布に従う場合の検定手法であることです。

現実では、母分散は未知なのが普通であり、z検定よりもt検定の方が有用な検定手法です。

仮説検定が初心者の方はまず、仮説検定とは?初心者にもわかりやすく解説のページで仮説検定の考え方の基礎や、用語について解説しているので、そちらをご覧下さい。

当ページは、R言語での実践のページに対応してもいます。t検定をRのプログラムで実践したい方はこちら⇨Rで3種のt検定行う方法とそのまま使える自作関数

 
 

母分散が未知の正規分布は標準化するとt分布に従う

正規分布に従うと仮定されたデータに対して仮説検定を行う場合、帰無仮説の下で標準化する必要があります。標準化する計算に母分散が必要になりますが、これが未知の場合、代わりに標本分散による推定値、標本不偏分散を使います。標本不偏分散を使って標準化した場合、標準正規分布ではなく、t分布に従うのです。

ここで、正規分布の標準化ってそもそもなんだっけ?というひとは、正規分布を標準化する方法と意味と例題と証明も併せてお読みください。

また、標準化によって得られた値をt値と言い、それとt分布表によって求められる値をp値(有意確率)と言います。これがあらかじめ定めた有意水準より小さい場合、帰無仮説を棄却します。t分布表はこちら→t分布表と見方 自由度1~240(片側)

t検定の種類

t検定は大きく次の3種類に分けられます。

1.正規分布に従う一つの母集団の、母平均が特定の値と等しいかの検定(1標本問題)

2.正規分布に従う、二つの母集団の母平均の差(有意差が認められるか否か)に関する検定(2標本問題)

  • 母分散が等しいと仮定した場合。2つに標本の母分散が等しいと仮定した上で行う検定
  • 母分散が違うと仮定した場合。2つの標本の等分散性を仮定出来ない時に行う検定。
  • 対応のある2標本の場合。検定の対象となる2つの標本において、標本の一つ一つが対になっている、もしくは何らかの関係が認められるときに行う検定。(例:受験者が同じのテストで2回調査するとき)

3.回帰分析における回帰直線の回帰係数が0であるかに関する検定

1標本問題の母平均に関するt検定

サンプルサイズ\(n\)の標本データ、\(x_1,....,x_n\)が独立に同じ正規分布\(N(μ,σ^2)\)(ただし\(σ^2\)は未知)に従うと仮定します。

また、

帰無仮説\(H_0:μ = μ_0\)
対立仮説\(H_1:μ ≠ μ_0\)

という仮説検定を考えます。

母分散が未知であるとき、\(σ^2\)の推定値として、不偏分散\(\hat{σ}^2=\frac{Σ(x_i-\bar{x})^2}{(n-1)}\)を使います。標本の平均値\(\bar{x}\)を用いて、帰無仮説のもとで、

$$ t = \frac{\bar{x}-μ_0}{\frac{\hat{σ}}{\sqrt{n}}} $$

とすると、tは自由度\(n-1\)のt分布に従います。また、実際の検定において得られたこの値を、t値と言います。この得られたt値と、t分布表を使ってp値(第一種の過誤の確率)を求め、あらかじめ定めた、有意水準以下(通常5%や1%が使われる)であれば、帰無仮説を棄却します。

このt検定の標準化の形は、以下のように正規分布の場合と比べれば、簡単に覚えることができます。

$$z= \frac{\bar{x}-μ_0}{\frac{σ}{\sqrt{n}}}~N(0,1)\longleftrightarrow t = \frac{\bar{x}-μ_0}{\frac{\hat{σ}}{\sqrt{n}}} ~t(n-1)$$

2標本問題の母平均の差に関するt検定(対応なし)

説明のための、サンプルサイズ\(n,m\)の二つの標本、\(x_1,....,x_m\)と\(y_1,....,y_n\)が正規分布\(N(μ_1,σ_1^2)\)と\(N(μ_2,σ_2^2)\)(ただし\(σ_1,σ_2\)は未知)に従うと仮定します。このときの、2標本の母平均の差、\(δ\)に関する検定を行い、仮説を次のようにおきます。

帰無仮説\(H_0:δ = μ_0\)
対立仮説\(H_1:δ ≠ μ_0\)

ここで、二つの標本の平均値\(\bar{x}~N(μ_1,\frac{σ_1^2}{m})\)と\(\bar{y}~N(μ_2,\frac{σ_2^2}{n})\)の差\(d = \bar{x} - \bar{y}\)も正規分布\(N((μ_1 - μ_2),σ^2(\frac{1}{m}+\frac{1}{n}))\)に従うことを利用します。

母分散が等しいと仮定したt検定

母分散が等しいと仮定すると、\(σ_1^2 = σ_2^2 = σ^2\)と置けます。その推定量を\(\hat{σ}^2\)とすると、\(x\)と\(y\)の不偏分散を自由度の重みをとした加重平均を用いると、

$$ \hat{σ}^2 = \frac{Σ(x_i-\bar{x})^2+Σ(y_j-\bar{y})^2}{m + n -2}$$

と推定できます。よって、帰無仮説のもとで\(d = \bar{x} - \bar{y}\)を標準化したものは下式です。

$$t = \frac{\bar{x} - \bar{y}}{\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{σ}}  ~t(m + n - 2)$$

これが、検定に使われるt値であり、t分布表と合わせて求めたp値(有意確率)が有意水準以下の場合、二つの母集団の平均には有意な差(有意差)が認められると言えます。

・解析ソフトRで、この検定を行う方法は、等分散仮定、sudentのt検定に記載しています。

母分散が違うと仮定したt検定(ウェルチの検定)

二つの標本の母分散が等しいと仮定出来ない場合、こちらの手法を使います。ここで紹介するのは、ウェルチの検定と呼ばれる方法です。\(σ_1 ≠ σ_2\)なので、その推定値\(\hat{σ_1}^2,\hat{σ_2}^2\)を別々に考えます。よって、dを標準化したtは

$$t = \frac{\bar{x} - \bar{y}}{\sqrt{\frac{\hat{σ_1}^2}{m} + \frac{\hat{σ_2}^2}{n}}} $$

となり、これは近似的にt分布に従うことが分かっているので、t値、p値を求められます。

さて、肝心の自由度ですが、これが少し複雑な式で、自由度\(f\)とすると、

$$f = \frac{(g_1+g_2)^2}{\frac{g_1^2}{m-1} + \frac{g_2^2}{n-1}}  \ \ \ \ \ \ ここでg_1 = \frac{\hat{σ_1}^2}{m}   ,\  g_2 = \frac{\hat{σ_2}^2}{n}$$

となります。(ただし、\(f\)は整数とは限らない)

・解析ソフトRで、この検定を行う方法は、不等分散仮定、ウェルチの検定に記載しています。

対応のあるt検定

2つの標本に対応があるというのは、例えば、同じ人に対して血圧を下げる薬を処方し、\(x_1,....,x_m\)が薬を処方する前の血圧、\(y_1,....,y_n\)が薬を服用し始めてから2週間後の血圧だとして検定する場合です。このように2つの標本の各データが1対1で対応したデータであるとき、普通に検定するよりも、その対応を考慮に入れ、対を作って検定をするのが好ましいとされます。また、このような標本を、対標本(paired sample)と呼びます。

対を作ることの有効性については、個体の観測値、\((x,y)\)が正の相関を持つとすると、その差\(d = x-y\)の分散は、\(σ_d^2 = σ_x^2 + σ_y^2 - 2σ_xy\)となり、\((x,y)\)が独立の場合よりも分散が小さくなることから確認できます。

帰無仮説\(H_0:μ_x = μ_y\)
対立仮説\(H_1:μ_x ≠ μ_y\)

の検定を行うとすると、対応のある標本であるので、

$$d_i = x_i -y_i $$

となる\(\lbrace d_i,i=1,...,n\rbrace\)について考えます。よって、問題は\(d\)の母平均\(μ_d\)についての帰無仮説\(H_0:μ_d = 0\)の1標本の検定と同じになります。 

この帰無仮説のもとで、\(d\)を標準化すると、

$$ t = \frac{\bar{d}}{\frac{\hat{σ}_d}{\sqrt{n}}} ~t(n-1)  $$

となり、t値が求められます。

・解析ソフトRで、この検定を行う方法は、対応のある通常のt検定に記載しています。

回帰分析の回帰係数に関するt検定

回帰分析を行うと、目的変数\(y\)を説明変数\(x_1,...,x_p\)と回帰係数\(β_0,...,β_p\)と誤差項\(ε\)を用いて、以下の式で表せます。

$$ y=β_0 + β_1x_1 + β_2x_2 +,...,+ β_px_p + ε$$

そして、\(y\)の期待値\(E(y)\)は、

$$ E(y) = β_0 + β_1x_1 + β_2x_2 +,...,+ β_px_p$$

となります。

このとき、それぞれの説明変数が目的変数を予測(説明)する上で役に立っているか、否かということについて強い関心が持たれます。つまり、\(β_i = 0\)であるかによって、その説明変数が目的変数を予測するのに有効であるかの判断をすることになります。よって、

帰無仮説\(H_0:β_i = 0 (i = 1,...,p)\)

とした仮説検定が行い、帰無仮説が棄却されなかった\(β_i\)を係数とする\(x_i\)は\(y\)を予測する上で役に立たない、と判断します。このとき、回帰係数\(β\)は正規分布に従うと仮定すると、t検定が行われることになります。

・R言語を用いた回帰分析は、R言語で線形モデルによる回帰分析に具体的な方法を記載しています。

  • スポンサーリンク

  • コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

    CAPTCHA