前回、多重共線性の注意点を上げた後に、相関以外にも多変量での関係を見る必要があり、その方法の一つとしてVIF基準があるという話をしました。
www.bananarian.net
今回はそのVIF基準をどう解釈すべきかについて説明します。
ちなみに海外のサイトですが、下のページとpdfにより詳しい解説があるので、英語に抵抗の無い方はこちらも見るとためになると思います。
https://onlinecourses.science.psu.edu/stat501/node/347/
単回帰
まず、説明変数と被説明変数に関する単回帰として次のようなものを考えることにします。
ここで、上のような単回帰をした場合のの推定量をとおき、更にその推定量の分散をと置くことにします。
共線性を持つ変数の導入
前回の話で、適当な誤差が生じた上での共線性は、推定量の分散を大きくするという話をしました。
ここで、次のような関係を持つ説明変数を考えます。
もし、説明変数を使って回帰したとすると、次のようになるはずですね。
しかしが完全に線形独立では無い以上、共線性が発生し、の推定量の分散が大きくなります。
この時の分散をとおくことにすると、VIF(Variance Inflation Factor)は次のようになります。
つまり、この式でのVIFの解釈は、他の変数を加えたことで単回帰をした場合の係数の推定量の分散が、何倍大きくなったかを表しているということになります。
その他の解釈
他にも、説明変数間の相関係数行列の逆行列の対角要素を取るとVIFが出てきます。
こちらの解釈は先ほどの解釈を逆から見た解釈になります。
このあたりの説明は解釈が少々高度になるので、詳しい説明は避けますが、下のサイトが詳しいです。
多重共線性
VIFはいくらぐらいが目安になるのか
一般的にはVIF≧10が多重共線性の目安です。分散が10倍に膨れ上がっていたら、流石にマズそうみたいな気はしてきますね。
少しシビアに見積もるとVIF≧4もよく目安にされますね。
注意してほしいのは、VIFは多変数における線形性度合を分散・決定係数の点から確認する手法であり、ある種の多重共線性の度合を測る手法ではないという点です。
多変数における線形性(確率的な誤差を含む)は、多重共線性を招く恐れがあるため、確認しているにすぎません。
だから、VIFが4以下だから絶対に深刻な多重共線性が発生していないかというと、そうとは限らない、あくまで可能性を排除するための指標であるという理解をするべきかと思います。