t検定とは？種類と手順を解説

2024.3.22

2024.3.27

仮説検定

このページでは統計的仮説検定の中で特に利用頻度の高い「t検定」について解説します。

t検定とは
母分散が未知の正規分布の性質
t検定の種類
1標本問題のt検定
2標本問題のt検定
回帰分析の回帰係数に関するt検定
関連記事

t検定とは

t検定は、母分散が未知の正規分布に従う場合に利用する検定手法です。

Z検定は、母分散が既知の正規分布に従う場合に利用する検定手法なので、t検定とZ検定の違いは母分散が未知であるか既知であるかという点になります。

現実では母分散が未知である場合が大多数なので、t検定のほうが有用な検定手法として利用されます。

母分散が未知の正規分布の性質

正規分布に従うと仮定したデータに対して仮説検定を行う場合、帰無仮説の下で標準化する必要があります。

標準化の計算過程に母分散が必要になりますが、母分散が未知の場合、代わりに標本分散による推定値「標本不偏分散」を使います。

標本不偏分散を使って標準化した場合、正規分布は標準正規分布ではなくt分布に従うことが知られています。

また、この操作によって得られた値をt値といい、t値とt分布表によって得られる値をp値（有意確率）といいます。

p値が有意水準より小さい場合、帰無仮説を棄却します。

t検定の種類

t検定は大きく分けて次の3種類に分けられます。

「正規分布に従う一つの母集団の母平均が、特定の値と等しいか」に関するt検定（1標本問題）
「正規分布に従う二つの母集団の母平均の差に有意差が認められるか」に関するt検定（２標本問題）
「回帰分析における回帰直線の回帰係数が0であるか」に関するt検定

以降で、それぞれについて解説します。

1標本問題のt検定

1標本問題のt検定とは、「正規分布に従う一つの母集団の母平均が、特定の値と等しいか」に関するt検定です。

サンプルサイズ $n$ の標本データ、 $x_1,....,x_n$ が独立に同じ正規分布 $N(μ,σ^2)$ （ただし $σ^2$ は未知）に従うと仮定します。

また、仮説を次のようにおきます。

帰無仮説 $H_0:μ = μ_0$
対立仮説 $H_1:μ ≠ μ_0$

母分散が未知であるとき、 $σ^2$ の推定値として、不偏分散 $\hat{σ}^2=\frac{Σ(x_i-\bar{x})^2}{(n-1)}$ を使います。

標本の平均値 $\bar{x}$ を用いて、帰無仮説のもとで、

$t = \frac{\bar{x}-μ_0}{\frac{\hat{σ}}{\sqrt{n}}}$

とすると、tは自由度 $n-1$ のt分布に従います。また検定で得られた値をt値といい、、t値とt分布表でp値を求め、あらかじめ定めた有意水準以下であれば帰無仮説を棄却します。

t検定の標準化の形は、正規分布の形と比べると覚えやすいです。

$z= \frac{\bar{x}-μ_0}{\frac{σ}{\sqrt{n}}}～N(0,1)\longleftrightarrow t = \frac{\bar{x}-μ_0}{\frac{\hat{σ}}{\sqrt{n}}} ～t(n-1)$

2標本問題のt検定

2標本問題のt検定とは、「正規分布に従う二つの母集団の母平均の差に有意差が認められるか」に関するt検定です。

サンプルサイズ $n,m$ の2つの標本、 $x_1,....,x_m$ と $y_1,....,y_n$ が正規分布 $N(μ_1,σ_1^2)$ と $N(μ_2,σ_2^2)$ （ただし $σ_1,σ_2$ は未知）に従うと仮定します。このときの、２標本の母平均の差、 $δ$ に関する検定を行い、仮説を次のようにおきます。

帰無仮説 $H_0:δ = μ_0$
対立仮説 $H_1:δ ≠ μ_0$

ここで、2つの標本の平均値 $\bar{x}～N(μ_1,\frac{σ_1^2}{m})$ と $\bar{y}～N(μ_2,\frac{σ_2^2}{n})$ の差 $d = \bar{x} - \bar{y}$ も正規分布 $N((μ_1 - μ_2),σ^2(\frac{1}{m}+\frac{1}{n}))$ に従うことを利用します。

2標本問題のt検定の場合、さらに3つのパターンに分けられれます。

母分散が等しいと仮定したt検定

２つに標本の母分散が等しいと仮定した上で行うt検定です。

母分散が等しいと仮定すると、 $σ_1^2 = σ_2^2 = σ^2$ と表せます。その推定量を $\hat{σ}^2$ とすると、 $x$ と $y$ の不偏分散を自由度の重みをとした加重平均を用いて、

$\hat{σ}^2 = \frac{Σ(x_i-\bar{x})^2+Σ(y_j-\bar{y})^2}{m + n -2}$

と推定できます。

よって、帰無仮説のもとで $d = \bar{x} - \bar{y}$ を標準化すると次のようになります

$t = \frac{\bar{x} - \bar{y}}{\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{σ}} ～t(m + n - 2)$

これがt値であり、t分布表と合わせて求めたp値(有意確率)が有意水準以下の場合、二つの母集団の平均には有意）が認められると言えます。

母分散が違うと仮定したt検定（ウェルチの検定）

２つの標本の母分散が等しいと仮定できない場合に行うt検定で、ウェルチの検定と呼ばれます。

$σ_1 ≠ σ_2$ なので、その推定値 $\hat{σ_1}^2,\hat{σ_2}^2$ を別々に考えます。

dを標準化した $t$ は

$t = \frac{\bar{x} - \bar{y}}{\sqrt{\frac{\hat{σ_1}^2}{m} + \frac{\hat{σ_2}^2}{n}}}$

となり、これは近似的にt分布に従うことが分かっているので、t値、p値を求められます。

自由度 $f$ とすると、次のようになります。（ただし、 $f$ は整数とは限りません）

$f = \frac{(g_1+g_2)^2}{\frac{g_1^2}{m-1} + \frac{g_2^2}{n-1}}$

$g_1 = \frac{\hat{σ_1}^2}{m} ,\ g_2 = \frac{\hat{σ_2}^2}{n}$

対応のある2標本のt検定

検定の対象となる２つの標本において、標本の一つ一つが対になっている、もしくは何らかの関係が認められるときに行うt検定です。

２標本に対応がある場合とは、例えば以下のようなケースです。

同じ人に対して血圧を下げる薬を処方し、 $x_1,....,x_m$ が薬を処方する前の血圧、 $y_1,....,y_n$ が薬を服用し始めてから２週間後の血圧として検定する。

このように２つの標本の各データが１対１で対応したデータであるとき、普通に検定するよりも、対応を考慮に入れて対を作って検定をするのが好ましいとされます。

また、このような標本を、対標本（paired sample）と呼びます。

対を作ることの有効性は、個体の観測値、 $(x,y)$ が正の相関を持つとすると、その差 $d = x-y$ の分散は、 $σ_d^2 = σ_x^2 + σ_y^2 - 2σ_xy$ となり、 $(x,y)$ が独立の場合よりも分散が小さくなる点です。

帰無仮説 $H_0:μ_x = μ_y$
対立仮説 $H_1:μ_x ≠ μ_y$

の検定を行うとすると、対応のある標本であるので、

$d_i = x_i -y_i$

となる $\lbrace d_i,i=1,...,n\rbrace$ について考えます。

よって、問題は $d$ の母平均 $μ_d$ についての帰無仮説 $H_0:μ_d = 0$ の１標本の検定と同じになります。

この帰無仮説のもとで、 $d$ を標準化すると、

$t = \frac{\bar{d}}{\frac{\hat{σ}_d}{\sqrt{n}}}　～t(n-1)$

となり、t値を求められます。

回帰分析の回帰係数に関するt検定

回帰分析を行うと、目的変数 $y$ を、説明変数 $x_1,...,x_p$ と回帰係数 $β_0,...,β_p$ と誤差項 $ε$ を用いて以下の式で表せます。

$y=β_0 + β_1x_1 + β_2x_2 +,...,+ β_px_p + ε$

そして、 $y$ の期待値 $E(y)$ は以下の式で表せます。

$E(y) = β_0 + β_1x_1 + β_2x_2 +,...,+ β_px_p$

このとき、それぞれの説明変数が目的変数を予測（説明）する上で役に立っているか、否かということについて強い関心が持たれます。

つまり、 $β_i = 0$ であるかによって、その説明変数が目的変数を予測するのに有効であるかの判断をすることになります。

帰無仮説 $H_0:β_i = 0 (i = 1,...,p)$

の仮説検定を行い、帰無仮説が棄却されなかった $β_i$ を係数とする $x_i$ は $y$ を予測する上で役に立たない、という判断をします。

このとき、回帰係数 $β$ が正規分布に従うと仮定すると、t検定が行われることになります。

仮説検定とは？初心者にもわかりやすく解説

Z検定とは？正規分布の母平均の検定手順を解説

t分布とは

片側t分布表と見方

カテゴリ: 仮説検定