バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

基礎からイメージで学ぶ統計学~平均二乗誤差編~

前回は推定量の話を簡単にした後に、不偏推定量についてやりました。
bananarian.hatenablog.com



不偏推定量の性質をより深く知るためには、誤差の概念を理解しなくてはなりません。
そこで今回は平均二乗誤差という誤差について説明します。


誤差

誤差というと、普通こんなのを思い浮かべるかなと思います。


 (誤差)=(実際に得られた値)-(真の値)

当然これも誤差なんですけど、次のようなケースだと少々まずいことがおこります。


5回実験を行って、各実験で欲しいパラメータに対する推定値を求めた。すると次のようになった。

あるパラメータの真の値が1(実際には不明)
得られた推定値1.2 , 1.1 , 0.8 , 0.9 , 1

この場合誤差の合計はいくらになるかというと
さっきの式に従ってしまうと

 (誤差)=(1.2-1)+(1.1-1)+(0.8-1)+(0.9-1)+(1-1)=0

誤差は0になってしまいます。

これは流石にマズいので、こういう場合は普通絶対値を取りますね。

 (誤差)=|(実際に得られた値)-(真の値)|

これだと
 (誤差)=|1.2-1|+|1.1-1|+|0.8-1|+|0.9-1|+|1-1|=0.6

誤差が出てきます。

でも、絶対値を扱ったことのある人ならわかると思うんですけど、絶対値って場合分けが発生して結構使いづらいんです。


そこで二乗を採用します。

 (誤差)=\{(実際に得られた値)-(真の値)\}^2

これを二乗誤差と呼びます。



更に、平均的に誤差はどれくらいになるのか考えたいときだってありますよね。そういうときは、このようにしてやります。

 E[\{(推定量)-(真の値)\}^2]

これを推定量の平均二乗誤差(MSE)と呼びます。



推定量の平均二乗誤差の性質

いちいち推定量と書くのが面倒くさいので S(x)とおきます。パラメータの真の値を \thetaとおくと、平均二乗誤差(MSE)は次のようになりますね。

 MSE=E[\{S(x)-\theta\}^2]

これをちょっと変形してやります。

 MSE=E[\{S(x)-\theta\}^2]=E[\{S(x)-E[S(x)]+E[S(x)]-\theta\}^2]
 =E[\{S(x)-E[S(x)]\}^2+\{E[S(x)]-\theta\}^2+2\{S(x)-E[S(x)]\}\{E[S(x)]-\theta\}]
 =E[\{S(x)-E[S(x)]\}^2]+E[\{E[S(x)]-\theta\}^2]+2E[\{S(x)-E[S(x)]\}\{E[S(x)]-\theta\}]


ここで最後の項は計算してやるとゼロになります。
 2E[\{S(x)-E[S(x)]\}\{E[S(x)]-\theta\}]
 =2\{E[S(x)E[S(x)]]-E[E[S(x)]^2]-E[S(x)\theta]+E[E[S(x)]\theta]\}
 =2\{E[S(x)]^2-E[S(x)]^2-E[S(x)]\theta+E[S(x)]\theta\}=0


よってMSEは次のようになります。
 MSE=E[\{S(x)-E[S(x)]\}^2]+E[\{E[S(x)]-\theta\}^2]
 =V[S(x)]+\{E[S(x)]-\theta\}^2


そういうわけで推定量のMSEは(推定量の期待値と真の値の二乗誤差)と推定量の分散の和で表せるわけです。

不偏推定量の平均二乗誤差の性質

 MSE=V[S(x)]+\{E[S(x)]-\theta\}^2

でした。ここで S(x) \thetaの不偏推定量であると仮定すると

 E[S(x)]=\theta

が成り立つので

 MSE=V[S(x)]


つまり、不偏推定量の場合、平均二乗誤差は分散さえ考えればよいということになります。


分散は結局、期待値を中心にどれくらいばらついているかを表す指標であり、不偏推定量は期待値と真の値が一致するので、分散が小さければ小さいほど優れた不偏推定量であるということになりますね。


ここで、前回の「不偏推定量って範囲広くない?」の話に繋がるわけです。
確かに、不偏推定量って探してみるといっぱいあるんですけど、


結局平均二乗誤差を小さくするような推定量を探したいなら、不偏推定量のクラスにしぼってしまうとバイアスが勝手にゼロになるからラクチン

しかも、不偏推定量同士なら分散を比較するだけなので比較が簡単で明確!!


という利点があるわけですね。