【初心者向け】推定値と推定量、真の値の区別は統計を勉強する上で重要です

統計カテゴリが現状マルコフ連鎖で埋まっていて、とっつきにくさがあるので、もう少し基本的な記事も書いていきます。この手の記事については統計学雑記カテゴリに入れていこうと思うので、ご覧ください。

統計学の最初の山

大学の講義、統計検定、職場で必要になった等々初めて統計学に出会った時に恐らく皆最初に読む手が止まるのは「推定量」「推定値」が出てきた辺りじゃないかな～と思います。

推定量を $f(X)$ 、推定値を $f(x)$ で書くだとか何やら区別して書いている割に、なんか実際に使われる場面では同じように使われている気もするし、何で大文字と小文字で区別しているんだ！！訳が分からん！となりませんか？僕は最初なりました笑。そして僕はこの時点で大学の統計学の講義を切りました(笑)
(よくハットを使って区別していることもあります)

今回は、そもそも推定量、推定値とは何なのか、何故わざわざ分けるのかを説明していこうと思います。

f:id:bananarian:20180829131135j:plain

統計学の目的

そもそも(伝統的な)統計学の目的は何でしょう。
それを理解せずして推定量推定値の区別はピンときません。

統計学の目的は、端的に言って「神様だけが知っている本当の値を見つけること」になります。

何を言っているんだと言われそうなのでもう少し説明します。

例えば道端に平たい石が落ちていたとします。この石の片面に0、その裏側に1と書いて投げてみて0と1、どちらが出るでしょうか。

実はこの石、神様が0が出る確率は $\frac{1}{3}$ 、1が出る確率は $\frac{2}{3}$ に設定しているのですが、人間がそんな裏設定知る由もありませんし、今一回投げて0が出るか1が出るかは投げるまでは絶対に分かりません。

要するに、人間は運否天賦に対してひたすら無力なわけです。

石だけでなく不確実な事象は何でもそうです。明日の株価が上がるか下がるか、トランプゲームをしたときに、自分の手元に何が来るか等々をコントロールしたり、予知したりすることは基本的には出来ません。

しかし、無力だからといって簡単には諦めないのが人間で、分からないのであれば、せめて過去に得られた情報を余すことなく使って、神様だけが知っている確率分布の性質について何かしらの意味で妥当な値を放り込むことで解析してしまおうと考えたわけです。

それが統計学になります。

神様だけが分かる石の性質

先ほどの石について整理して、その分布の性質について考えてみます。
まず、この石は神様が次のように設定しているとのことでした。

0が出る確率は $\frac{1}{3}$
1が出る確率は $\frac{2}{3}$

ここで期待値と分散は定義から次のように得られます。

$(期待値)=0×\frac{1}{3}+1×\frac{2}{3}=\frac{2}{3}≒0.67$
$(分散)=(0-\frac{2}{3})^2×\frac{1}{3}+(1-\frac{2}{3})^2×\frac{2}{3}≒0.23$

計算過程からわかるように、期待値や分散の計算には神様しか知らない確率を使っています。
つまり、確率を知らない以上私たちは期待値や分散も分からないわけです。
※期待値、分散のイメージについては下の記事の途中にも書いています。 bananarian.hatenablog.com

期待値に妥当な値を放り込む

このままでは、石を投げて0が出るか1が出るかという単純な物事に対して私たちは何の手立てもなくなってしまいます。それは非常に辛いので、とりあえず期待値は分からないけど、何らかの方法でそれに近い値を探そうと考えるわけです。

期待値は、「いっぱい投げた時に平均的にいくらぐらいの値が出るか」を表したものですので、まあとりあえず石をいっぱい投げてみて、その平均をとりますよね？

とりあえず石を30回くらい投げてみました。すると次のようになりました。

$1 1 0 0 1 1 1 0 1 0 1 0 1 1 1 1 0 1 1 0 0 1 1 0 1 1 0 1 1 0$

数えてみると1が19回出ています。

この時平均は $\frac{19}{30}≒0.63$ ですね。
この計算を文字に直してみると $\frac{1}{30}\sum_{i=1}^{30}x_i$ となります。

これ、つまり何をしているかというと期待値は分からんけど、とりあえず30回データを取ったら $\frac{1}{30}\sum_{i=1}^{30}x_i≒0.63$ になったから、期待値は0.63くらいだと目星をつけてみました！ということをしています。

実際の期待値は先ほど計算した通り0.67ですので、微妙にずれていますが、このズレは神様しかわからないのだから実際の現場ではわかりません。つまり平均なんぞ取っても本当の値がいくらかなんてわからないわけです。しかし、私たちは拠り所が現状この平均値しかないのでこの平均値にすがっていきます。

何故平均は妥当な値なのか

すがると言ったって、今までの話を信じるのなら、どうせ本当の値は分からないのだから平均にすがる必要はないわけです。

例えば歌舞伎町にいる有名な占い師に0と1のどちらが出やすいか聞いてそれを信じることもできるし、繰り返し取り出した0,1のデータのうち奇数回目だけ取り出して平均したものであっても、自分がこの結果と心中出来ると思えれば何でも良いような気がしてきます。

しかし、普通多くの人は全体平均を期待値に対して妥当な値と考えます。これは次のような根拠から成ります。

サンプルサイズを∞にすると、本当の値になる

これは大数法則と呼ばれる話ですが、 $\frac{1}{n}\sum_{i=1}^{n}x_i$ は、nを無限大に飛ばすと確率1で本当の値(0.67)になります。しかし、何回データをとったって∞になんてなりません。100回取ろうが100000回取ろうが∞じゃないです。そのため事実上気休めですが少なくともどんどん本当の値に近づいてくれるという保証にはなりますし、無いよりマシです。今回の石の例は話が単純なので恐らく300回くらいサンプルをとれば、かなり近い値が得られます。