ロジスティック回帰分析を簡単解説

更新日

ロジスティック回帰分析とは

ロジスティック回帰分析は、商品の購入確率、病気の発症確率といった二値判別問題に対して回帰分析を考えたいときに有用な手法です。

二値判別問題とは、0か1であるダミー変数を予想、分析するような問題です。

ロジスティック回帰分析を以下の式で表します。

 p= 11+ exp((a1x1  +  a2x2  +    +  anxn  +  b))  p = \frac{ 1 }{ 1 + \exp ( -(a_1x_1   +   a_2x_2   +   \cdots   +   a_nx_n   +   b) ) } ... ①

目的変数は確率であるため p pと置きました。

この式を見ると、xix_iがどんな値をとっても目的変数ppが0から1までの範囲に収まることが分かります。

aia_ixix_iに対する偏回帰係数です。

最小二乗法での偏回帰係数の導出

線形単回帰分析でも用いた最小二乗法を使って偏回帰係数aia_iを求めます。

①の式を変形し、以下の式②を導出します。

 p= 11+ exp((a1x1  +  a2x2  +    +  anxn  +  b))  p = \frac{ 1 }{ 1 + \exp ( -(a_1x_1   +   a_2x_2   +   \cdots   +   a_nx_n   +   b) ) }

 1p=  exp((a1x1  +  a2x2  +    +  anxn  +  b))1+ exp((a1x1  +  a2x2  +    +  anxn  +  b))  1-p = \frac{ \exp ( -(a_1x_1   +   a_2x_2   +   \cdots   +   a_nx_n   +   b) ) }{ 1 + \exp ( -(a_1x_1   +   a_2x_2   +   \cdots   +   a_nx_n   +   b) ) }

 p1p= exp(a1x1  +  a2x2  +    +  anxn  +  b)  \frac{ p }{ 1-p } = \exp(a_1x_1   +   a_2x_2   +   \cdots   +   a_nx_n   +   b)

ここで対数を取ると、

 lnp1p = a1x1  +  a2x2  +    +  anxn  +  b= l   ln\frac{ p }{ 1 - p }  = a_1x_1   +   a_2x_2   +   \cdots   +   a_nx_n   +   b =  l  ... ②

 lnp1p=y  ln\frac{ p }{ 1 - p } = y' とすれば、最小二乗法が使える形になっていると確認できます。

式②のl l のことをロジットと呼びます。ロジットに対して指数を取るとオッズが出てきます。

exp(l)=p1p  \exp(l) = \frac{ p }{ 1 - p } 

このオッズは、ある事象が発生する確率と発生しない確率の比になっています。

説明変数の解釈

目的変数に対して説明変数の影響度を比較する方法について説明します。

例として、健康である確率を、血圧、性別、年齢などのn個の要因から予測することを考えます。

まずは血圧の影響を考えましょう。

血圧が150の人をオッズA、180の人をオッズBとし、他の条件に関してすべて同じであるとします。

このとき、オッズ比は次のように表されます。(bp bp は血圧)

オッズA/オッズB=exp( abp150+asexxsex  +    +  anxn  + b) exp( abp180+asexxsex  +    +  anxn +b)=exp(30abp) オッズA / オッズB = \frac{ exp( a_{bp}150 +a_{sex}x_{sex}   +   \cdots   +   a_nx_n   +  b) }{ exp( a_{bp}180 + a_{sex}x_{sex}   +   \cdots   +   a_nx_n  + b) } = {exp(-30{a_{bp}})}

オッズ比、オッズA/オッズB  オッズA / オッズB が1より大きければ、血圧が150の人は血圧が180に人に比べ健康である確率が高いと分かります。

次に、性別の影響を考えましょう。

性別が男性の場合をオッズM、女性の場合をオッズWとし、ダミー変数をそれぞれ男性→1、女性→0とします。

このとき、オッズ比は次のように表されます。

オッズM/オッズW=exp(abpxbp+asex1  +    +  anxn  + b) exp( abpxbp+asex0  +    +  anxn +b)=exp(asex) オッズM / オッズW = \frac{ exp (a_{bp}x_{bp} +a_{sex}*1   +   \cdots   +   a_nx_n   +  b) }{ exp( a_{bp}x_{bp} + a_{sex}*0   +   \cdots   +   a_nx_n  + b) } = exp(a_{sex})

血圧のオッズ比exp(30abp)exp(-30{a_{bp}}) と性別のオッズ比exp(asex)exp(a_{sex}) を求めることができれば、健康である確率に対する血圧と性別の影響度を比較することができます。

この二つの偏回帰係数は、以下の式のabp,asex a_{bp},a_{sex} について考えることで求められます。

 lnp1p = abpxbp  +  asexxsex  +    +  anxn  +  b=l   ln\frac{ p }{ 1 - p }  = a_{bp}x_{bp}   +   a_{sex}x_{sex}   +   \cdots   +   a_nx_n   +   b = l 

これに対して最小二乗法を用いれば、偏回帰係数abp,asex a_{bp},a_{sex} が求めることができます。

この時exp(30abp)exp(-30{a_{bp}}) exp(asex)exp(a_{sex}) を比較し、例えばexp(asex)exp(a_{sex}) の方が大きかったとします。

その場合、性別の方が血圧よりも健康である確率に影響を及ぼすと説明できます。

このようにすることで、目的変数に対する説明変数の影響の大きさを比較することができます。

カテゴリ: 回帰分析

関連サービス

講座一覧ページ

記事一覧はこちら

無料で統計学を学ぶ