基礎からイメージで学ぶ統計学~最小二乗推定量編~

前回までで、不偏推定量とその評価軸として平均二乗誤差について学びました。
基礎からイメージで学ぶ統計学~不偏推定量編~ - バナナでもわかる話

今回は不偏推定量の一例として、最小二乗推定量について説明します。

線形回帰分析

今回は線形回帰分析の説明ではないので、ここは簡単に説明するにとどめておきます。

Rには次のようなcarsというデータが内蔵されているので、これを使います。

> head(cars)
  speed dist
1     4    2
2     4   10
3     7    4
4     7   22
5     8   16
6     9   10

これは、自動車の制動距離に関するデータで、要はspeedが車の速度、distはブレーキをかけてから止まるまでの距離です。

データをプロットするとこんな感じ。
f:id:bananarian:20181006233113p:plain

で、何か線形関係を持っていそうなので、こんな感じの直線を引きたいわけです。
f:id:bananarian:20181006233334p:plain

そこで次のような関係を仮定します。

$y_1,y_2,...y_nを被説明変数(dist),\\ X_1,X_2,...X_nを説明変数(speed)とおき、\\ 更に\varepsilon_1,\varepsilon_2,...\varepsilon_nを攪乱項(確率的な誤差)とする。つまり\\ y_i=\beta_1+\beta_2X_i+\varepsilon_i \hspace{10mm} for \hspace{2mm} i=1,2,...n$

このような仮定に基づき、データに当てはめるのに尤もらしい $\beta_1と\beta_2$ を考えたいわけです。

最小二乗推定量

攪乱項(確率的な誤差)の二乗和を最小にするような $\beta_1$ と $\beta_2$ を $b_1$ 、 $b_2$ と名付け、これを最小二乗推定量と呼びます。

簡単に導出してみます。

$S(\beta_1,\beta_2)=\sum_{i=1}^n(y_i-\beta_1-\beta_2X_i)^2=\sum_{i=1}^n\varepsilon_i^2$

誤差は当然小さい方が嬉しいので、これを最小にしたいわけです。

最適化の話が必要になるのですが、とりあえずその辺の話は省略して、とりあえず次のような条件が必要です。
$\frac{\partial S(\beta_1,\beta_2)}{\partial \beta_1}=0$
$\frac{\partial S(\beta_1,\beta_2)}{\partial \beta_2}=0$

これを計算していきます。

$\frac{\partial S(\beta_1,\beta_2)}{\partial \beta_1}=0$ より
$\beta_1=\frac{1}{n}\{\sum_{i=1}^ny_i-\beta_2\sum_{i=1}^nX_i\}$ …①

$\frac{\partial S(\beta_1,\beta_2)}{\partial \beta_2}=0$ より
$\sum_{i=1}^nX_i(y_i-\beta_1-\beta_2X_i)=0$
$\beta_1=\frac{1}{\sum_{i=1}^nX_i}\{\sum_{i=1}^nX_iy_i-\beta_2\sum_{i=1}^nX_i^2\}$ …②

①、②より

$b_2=\frac{\sum_{i=1}^n(X_i-\bar{X})(y_i-\bar{y})}{\sum_{i=1}^n(X_i-\bar{X})^2}$
$b_1=\bar{y}-b_2\bar{X}$

更に、
$E[\bar{y}]=\beta_1+\beta_2\bar{X}$
$E[y_i]=\beta_1+\beta_2X_i$
なので、
$E[(y_i-\bar{y})]=\beta_2(X_i-\bar{X})$

まず
$E[b_2]=\frac{\sum_{i=1}^n(X_i-\bar{X})E[(y_i-\bar{y})]}{\sum_{i=1}^n(X_i-\bar{X})^2}=\frac{\beta_2\sum_{i=1}^n(X_i-\bar{X})^2}{\sum_{i=1}^n(X_i-\bar{X})^2}=\beta_2$