バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

最小二乗法による相関係数の導出~相関係数の意外な解釈法

前回は、相関係数って意外と難しいんだよーって話をしました。
相関係数の目安と解釈と注意点~舐めてかかると痛い目を見る話~ - バナナでもわかる話

この記事のコメント欄にて、id:unemployed-economics さんから反応を頂けまして、分析に関して質問を頂いたので、コメントもさせていただきました。
ケーススタディも結構勉強になるので、時間のある方はコメント欄を辿って読んでいただけると学べることがあるのかなと思います。
あと、それに関連して、線形回帰分析(相関分析 or 因果分析)で注意すべき点も記事にしたら需要があるのかな?と気付いたので、相関係数編が終わり次第書いていこうと思います。

回帰分析も、有名ですが注意すべき点が結構多くて、しっかりやろうとすると難しいんですよ~






さて。今回は、前回説明した最小二乗法による相関係数の導出を簡単にやってみます。


データ

まず、二種類のデータ X,Yが存在するとします。このデータの組をN個取ってくることにします。つまり、こんな感じです。

 (X_1,Y_1)
 (X_2,Y_2)

 (X_N,Y_N)

期待値を0にした方が後々計算がラクチンなので、前処理として平均を引いておきます。


仮定

次に、この X,Yは何かしらの形で線形関係があるが、誤差が混じっている状態にあると仮定します。
確率的な誤差を \epsilon_i,\nu_iとおくと、次のように表せます。

 Y_i=\beta_1X_i+\epsilon_i

 X_i=\beta_2Y_i+\nu_i


もし、確率的な誤差が全く無く、完全な線形関係にあるならば、 |\beta_1\beta_2|=1になるはずです。

しかしまあ、実際には確率的な誤差があるためそのようなことにはなっていません。

得られているデータに対して誤差が小さいという意味で尤もらしい \betaの推定値を与えることにしましょう。


そこで利用するのが最小二乗法です。


~ちなみに~
※切片は考えなくてよいのか!?と疑問に思った方。平均を引いた前処理がここで活きています。平均を引くというのは要は次のような処理になっています。
 Y=\alpha+\beta X+\epsilon
 \bar{Y}=\alpha+\beta\bar{X}+\bar{\epsilon}
普通仮定として \bar{\epsilon}=0があるが、それを抜きにしても、上式から下式を引けば

 Y-\bar{Y}=\beta(X-\bar{X})+(\epsilon-\bar{\epsilon})
文字を置きなおしてやれば
 Y_{new}=\beta X_{new}+\epsilon_{new}

というわけで前処理をしておけば切片は考えなくて良いのです。



最小二乗法

誤差はプラスであったりマイナスであったりするため、そのまま足すと誤差の合計がよくわからなくなります。かといって、絶対値を取ると、その後の計算が難しくなります。そこで誤差の二乗を考えて、それを最小にするような推定量を考えるのでした。
詳しくはこちら
基礎からイメージで学ぶ統計学~最小二乗推定量編~ - バナナでもわかる話

今回もこれを利用します。

まず
 \sum_{i=1}^{N}\epsilon_i^2=\sum_{i=1}^{N}(Y_i-\beta_1X_i)^2

を最小化する \beta_1の値、 b_1を考えます。 \beta_1に関して微分を施してやってイコール0と置くと....


 b_1=\frac{\sum_{i=1}^{N}X_iY_i}{\sum_{i=1}^{N}X_i^2}


次に
 \sum_{i=1}^{N}\nu_i^2=\sum_{i=1}^{N}(X_i-\beta_2Y_i)^2

を最小化する \beta_2の値、 b_2を考えるために同様にして、


 b_2=\frac{\sum_{i=1}^{N}X_iY_i}{\sum_{i=1}^{N}Y_i^2}


これで、各最小二乗法による推定量が得られました。


相関係数の導出

あとは簡単です。
 \sqrt{b_1 b_2}=\frac{\sum_{i=1}^{N}X_i Y_i} {\sqrt{\sum_{i=1}^{N}Y_i^2}\sqrt{\sum_{i=1}^{N}X_i^2}}


というわけで、相関係数が出てきました!

「僕らの知っている相関係数と違う!」という文句はちょっと待ってください。

一番初めに平均を引く前処理をしましたよね。つまり、 X Yも平均を引いて均しているので、平均値はどうせ0です。


つまり、平均値の部分が0になって消えている、相関係数が出てきました。
ちなみに前処理をせずにそのまま今の手順を踏むと、皆さんおなじみの相関係数がちゃんと出てきます。



というわけで、導出に正規分布必要ないですよね?

必要なのは線形の仮定だけなんです。