最小二乗法による相関係数の導出~相関係数の意外な解釈法

前回は、相関係数って意外と難しいんだよーって話をしました。
相関係数の目安と解釈と注意点~舐めてかかると痛い目を見る話~ - バナナでもわかる話

この記事のコメント欄にて、id:unemployed-economics さんから反応を頂けまして、分析に関して質問を頂いたので、コメントもさせていただきました。
ケーススタディも結構勉強になるので、時間のある方はコメント欄を辿って読んでいただけると学べることがあるのかなと思います。
あと、それに関連して、線形回帰分析(相関分析 or 因果分析)で注意すべき点も記事にしたら需要があるのかな？と気付いたので、相関係数編が終わり次第書いていこうと思います。

回帰分析も、有名ですが注意すべき点が結構多くて、しっかりやろうとすると難しいんですよ～

さて。今回は、前回説明した最小二乗法による相関係数の導出を簡単にやってみます。

データ

まず、二種類のデータ $X,Y$ が存在するとします。このデータの組をN個取ってくることにします。つまり、こんな感じです。

$(X_1,Y_1)$
$(X_2,Y_2)$
…
$(X_N,Y_N)$

期待値を0にした方が後々計算がラクチンなので、前処理として平均を引いておきます。

仮定

次に、この $X,Y$ は何かしらの形で線形関係があるが、誤差が混じっている状態にあると仮定します。
確率的な誤差を $\epsilon_i,\nu_i$ とおくと、次のように表せます。

$Y_i=\beta_1X_i+\epsilon_i$

$X_i=\beta_2Y_i+\nu_i$

もし、確率的な誤差が全く無く、完全な線形関係にあるならば、 $|\beta_1\beta_2|=1$ になるはずです。

しかしまあ、実際には確率的な誤差があるためそのようなことにはなっていません。

得られているデータに対して誤差が小さいという意味で尤もらしい $\beta$ の推定値を与えることにしましょう。

そこで利用するのが最小二乗法です。

~ちなみに~
※切片は考えなくてよいのか！？と疑問に思った方。平均を引いた前処理がここで活きています。平均を引くというのは要は次のような処理になっています。
$Y=\alpha+\beta X+\epsilon$
$\bar{Y}=\alpha+\beta\bar{X}+\bar{\epsilon}$
普通仮定として $\bar{\epsilon}=0$ があるが、それを抜きにしても、上式から下式を引けば

$Y-\bar{Y}=\beta(X-\bar{X})+(\epsilon-\bar{\epsilon})$
文字を置きなおしてやれば
$Y_{new}=\beta X_{new}+\epsilon_{new}$

というわけで前処理をしておけば切片は考えなくて良いのです。

最小二乗法

誤差はプラスであったりマイナスであったりするため、そのまま足すと誤差の合計がよくわからなくなります。かといって、絶対値を取ると、その後の計算が難しくなります。そこで誤差の二乗を考えて、それを最小にするような推定量を考えるのでした。
詳しくはこちら
基礎からイメージで学ぶ統計学~最小二乗推定量編~ - バナナでもわかる話

今回もこれを利用します。

まず
$\sum_{i=1}^{N}\epsilon_i^2=\sum_{i=1}^{N}(Y_i-\beta_1X_i)^2$