線形単回帰分析の仕組みをわかりやすく解説!

 2018/12/14    回帰分析    

この記事では、回帰分析における基本である単回帰分析を用いて回帰分析の理解を深めることを目的とします。

単回帰分析に用いられる用語や手法を習得することは、より複雑な重回帰分析や非線形回帰への理解の助けになるでしょう。

回帰分析とは

回帰分析の目的は、目的変数を複数の説明変数を用いて予測、説明することです。

目的変数とは予測、分析したいデータ、説明変数はそのために用いるデータと考えるとイメージしやすいでしょう。

例えば、回帰分析を用いることでコンビニの一日の売上を予測、説明することができます。この時、目的変数はコンビニの一日の売り上げ、説明変数には駅からの距離、天気などを用いることができるでしょう。

今回は、回帰分析のなかで最もシンプルな単回帰分析について考えることで回帰分析への理解を深めます。

単回帰分析とは

単回帰分析では、目的変数に対して1つの説明変数を用います。

例えばある人の身長を体重から予測したい場合、身長を目的変数、体重を説明変数とします。体重が増えれば、身長も増えるという予測ができますね。では、体重が増えるとどれだけ身長が伸びると予想できるのでしょうか。

単回帰分析を用いて考えてみましょう。

身長を\(y\)と体重を\(x\)として以下の式を考えます。

\(  y = ax + b \)

 

この式の\( a\),\(b\)が分かれば、体重\(x\)を用いて身長\(y\)を予測することができます。この\( a\),\(b\)を回帰係数といいます。

この回帰係数\( a\)が大きければ大きいほど、目的変数に及ぼす説明変数の影響が大きくなるとわかりますね。

上記の図を用いて、イメージをつかみましょう。上記の図における青い点は、実際のデータを表しています。引かれている赤い直線は回帰直線と呼ばれていて、回帰式に基づいた予測の集合と考えるといいでしょう。また単回帰式では、\( a\)は回帰直線の傾き、\(b\)は\(y\)切片を表します。

では、どのようにしてこの\( a\),\(b\)を求めるのでしょうか。最小二乗法という手法を使ってこの\( a\),\(b\)を求めてみましょう。

最小二乗法を用いた回帰式の導出

\(S(a,b) = \sum_{i=1}^{n}(y_i - ax_i -b)^2\)

\(S(a,b)\)のことを残差平方和と言います。残差平方和とは、予測と実際の値のズレの和とイメージするとわかりやすいでしょう。以下の図における\(y_i\)と\(\hat{ y_i }\)の距離が予測と実際の値のズレです。

最小二乗法では、予測と実値のズレ、残差平方和を最小にするための\( a\),\(b\)を求めます。そのために残差平方和\(S(a,b)\) を\( a\),\(b\)に関して偏微分し、それが0となる\( a\),\(b\)を求めましょう。

 

\( a\)に関して偏微分し、\(\frac{ \partial S(a,b) }{ \partial a }\)を解くと

 

\(na +b\sum_{i=1}^{n}x_i = \sum_{i=1}^{n}y_i\) ... ①

 

\( b\)に関して偏微分し、\(\frac{ \partial S(a,b) }{ \partial b }\)を解くと

 

\(a\sum_{i=1}^{n}x_i + b\sum_{i=1}^{n}x_i^2 = \sum_{i=1}^{n}{x_iy_i}\) ... ②

と求めることができます。

 

この二つの①,②に関して連立方程式を解くと、

\(a = \bar{ y } - b \bar{ x }\)

\( b = \frac{ \sum_{i=1}^{n}(x_i-\bar{ x })(y_i-\bar{ y }) }{ \sum_{i=1}^{n}(x_i-\bar{ x })^2 } = \frac{ S_{xy} }{S_x^2} = r_{xy}\frac{ S_y }{ S_x } \)

と求めることができます。\(S_{xy}\)は共分散、\(S_x\),\(S_y\)はxとyの標準偏差、\(r_{xy}\)は相関係数を表します。

回帰式の評価

回帰係数について

回帰分析では、目的変数に対して説明変数が影響を及ぼしているかどうかをP値を用いて判断します。

以下、Rを用いた単回帰分析の結果を参考に回帰係数の評価を考えましょう。

Coefficients : に続く表が回帰係数の評価について示しています。

weightに対する回帰係数のP値は、weight のPrという部分を見るとわかります。0.0381となっていますね。

このP値が0.05より小さいときに説明変数が目的変数に対して影響を及ぼしていると考えられます。

P値が0.05より大きい場合は、「目的変数に対して説明変数が影響を及ぼしていない」という可能性を否定できません。

今回の分析結果で考えると身長に対して体重が影響を及ぼしていると言えます。

詳しくは仮説検定について学ぶとよいでしょう。

 

決定係数について

では、この回帰式はどれだけの予測、説明力があるのでしょうか。決定係数\( R^2 \)という値を用いて考えてみましょう。

 

決定係数は、 \( R^2 = \frac{S_r}{S_y}\) という形で表せます。

ここで、回帰変動\(  S_R = \sum_{i=1}^{n}(y_i-\bar{ y })^2 \)、全変動\(  S_y = \sum_{i=1}^{n}(y_i-\hat{ y })^2 \)とします。

回帰変動とは回帰式が予測、説明できている目的変数の動き、全変動とは目的変数の動きを意味します。

 

決定係数\(R^2\)は、回帰式でどれだけ目的変数の動きを説明できているかを意味します。

従って、回帰式の決定係数を見ることで、そのモデルの予測、説明力を測ることができます。

そのため決定係数が高ければ高いほど、目的変数の動きを予測、説明できているいいモデルといえます。

  • 人気の投稿とページ

  • コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です