バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

多重共線性を回避するためのVIF基準の解釈について

前回、多重共線性の注意点を上げた後に、相関以外にも多変量での関係を見る必要があり、その方法の一つとしてVIF基準があるという話をしました。
www.bananarian.net


今回はそのVIF基準をどう解釈すべきかについて説明します。
ちなみに海外のサイトですが、下のページとpdfにより詳しい解説があるので、英語に抵抗の無い方はこちらも見るとためになると思います。
https://onlinecourses.science.psu.edu/stat501/node/347/

https://www.researchgate.net/publication/226005307_A_Caution_Regarding_Rules_of_Thumb_for_Variance_Inflation_Factors

単回帰

まず、説明変数 X_kと被説明変数 yに関する単回帰として次のようなものを考えることにします。

 y_i=\beta_0+\beta_kX_{ik}+\epsilon_i

ここで、上のような単回帰をした場合の \beta_kの推定量を b_k^{min}とおき、更にその推定量 b_k^{min}の分散を V[b_k^{min}]と置くことにします。


共線性を持つ変数の導入


前回の話で、適当な誤差が生じた上での共線性は、推定量の分散を大きくするという話をしました。

ここで、次のような関係を持つ説明変数を考えます。


 X_{ik}=a_kX_{ij}+(誤差)

もし、説明変数 X_{ik},X_{ij}を使って回帰したとすると、次のようになるはずですね。


 y_i=\beta_0+\beta_kX_{ik}+\beta_jX_{ij}+\epsilon_i

しかし X_{ik},X_{ij}が完全に線形独立では無い以上、共線性が発生し、 \beta_kの推定量 b_kの分散が大きくなります。
この時の分散を V[b_k]とおくことにすると、VIF(Variance Inflation Factor)は次のようになります。


 VIF=\frac{V[b_k]}{V[b_k^{min}]}


つまり、この式でのVIFの解釈は、他の変数を加えたことで単回帰をした場合の係数の推定量の分散が、何倍大きくなったかを表しているということになります。


その他の解釈

他にも、説明変数間の相関係数行列の逆行列の対角要素を取るとVIFが出てきます。
こちらの解釈は先ほどの解釈を逆から見た解釈になります。
このあたりの説明は解釈が少々高度になるので、詳しい説明は避けますが、下のサイトが詳しいです。
多重共線性


VIFはいくらぐらいが目安になるのか

一般的にはVIF≧10が多重共線性の目安です。分散が10倍に膨れ上がっていたら、流石にマズそうみたいな気はしてきますね。

少しシビアに見積もるとVIF≧4もよく目安にされますね。



注意してほしいのは、VIFは多変数における線形性度合を分散・決定係数の点から確認する手法であり、ある種の多重共線性の度合を測る手法ではないという点です。


多変数における線形性(確率的な誤差を含む)は、多重共線性を招く恐れがあるため、確認しているにすぎません。


だから、VIFが4以下だから絶対に深刻な多重共線性が発生していないかというと、そうとは限らない、あくまで可能性を排除するための指標であるという理解をするべきかと思います。