バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

【初心者向け】推定値と推定量、真の値の区別は統計を勉強する上で重要です

統計カテゴリが現状マルコフ連鎖で埋まっていて、とっつきにくさがあるので、もう少し基本的な記事も書いていきます。この手の記事については統計学雑記カテゴリに入れていこうと思うので、ご覧ください。

統計学の最初の山

大学の講義、統計検定、職場で必要になった等々初めて統計学に出会った時に恐らく皆最初に読む手が止まるのは「推定量」「推定値」が出てきた辺りじゃないかな~と思います。

定量 f(X)、推定値を f(x)で書くだとか何やら区別して書いている割に、なんか実際に使われる場面では同じように使われている気もするし、何で大文字と小文字で区別しているんだ!!訳が分からん!となりませんか?僕は最初なりました笑。そして僕はこの時点で大学の統計学の講義を切りました(笑)
(よくハットを使って区別していることもあります)


今回は、そもそも推定量、推定値とは何なのか、何故わざわざ分けるのかを説明していこうと思います。

f:id:bananarian:20180829131135j:plain


統計学の目的

そもそも(伝統的な)統計学の目的は何でしょう。
それを理解せずして推定量推定値の区別はピンときません。

統計学の目的は、端的に言って「神様だけが知っている本当の値を見つけること」になります。

何を言っているんだと言われそうなのでもう少し説明します。


例えば道端に平たい石が落ちていたとします。この石の片面に0、その裏側に1と書いて投げてみて01、どちらが出るでしょうか。

実はこの石、神様が0が出る確率は \frac{1}{3}、1が出る確率は \frac{2}{3}に設定しているのですが、人間がそんな裏設定知る由もありませんし、今一回投げて0が出るか1が出るかは投げるまでは絶対に分かりません。

要するに、人間は運否天賦に対してひたすら無力なわけです。

石だけでなく不確実な事象は何でもそうです。明日の株価が上がるか下がるか、トランプゲームをしたときに、自分の手元に何が来るか等々をコントロールしたり、予知したりすることは基本的には出来ません。

しかし、無力だからといって簡単には諦めないのが人間で、分からないのであれば、せめて過去に得られた情報を余すことなく使って、神様だけが知っている確率分布の性質について何かしらの意味で妥当な値を放り込むことで解析してしまおうと考えたわけです。

それが統計学になります。


神様だけが分かる石の性質

先ほどの石について整理して、その分布の性質について考えてみます。
まず、この石は神様が次のように設定しているとのことでした。

0が出る確率は \frac{1}{3}
1が出る確率は \frac{2}{3}

ここで期待値と分散は定義から次のように得られます。

 (期待値)=0×\frac{1}{3}+1×\frac{2}{3}=\frac{2}{3}≒0.67
 (分散)=(0-\frac{2}{3})^2×\frac{1}{3}+(1-\frac{2}{3})^2×\frac{2}{3}≒0.23

計算過程からわかるように、期待値や分散の計算には神様しか知らない確率を使っています。
つまり、確率を知らない以上私たちは期待値や分散も分からないわけです。
※期待値、分散のイメージについては下の記事の途中にも書いています。 bananarian.hatenablog.com



期待値に妥当な値を放り込む

このままでは、石を投げて0が出るか1が出るかという単純な物事に対して私たちは何の手立てもなくなってしまいます。それは非常に辛いので、とりあえず期待値は分からないけど、何らかの方法でそれに近い値を探そうと考えるわけです。

期待値は、「いっぱい投げた時に平均的にいくらぐらいの値が出るか」を表したものですので、まあとりあえず石をいっぱい投げてみて、その平均をとりますよね?

とりあえず石を30回くらい投げてみました。すると次のようになりました。

 1 1 0 0 1 1 1 0 1 0 1 0 1 1 1 1 0 1 1 0 0 1 1 0 1 1 0 1 1 0

数えてみると1が19回出ています。

この時平均は \frac{19}{30}≒0.63ですね。
この計算を文字に直してみると \frac{1}{30}\sum_{i=1}^{30}x_iとなります。

これ、つまり何をしているかというと期待値は分からんけど、とりあえず30回データを取ったら \frac{1}{30}\sum_{i=1}^{30}x_i≒0.63になったから、期待値は0.63くらいだと目星をつけてみました!ということをしています。


実際の期待値は先ほど計算した通り0.67ですので、微妙にずれていますが、このズレは神様しかわからないのだから実際の現場ではわかりません。つまり平均なんぞ取っても本当の値がいくらかなんてわからないわけです。しかし、私たちは拠り所が現状この平均値しかないのでこの平均値にすがっていきます。


何故平均は妥当な値なのか

すがると言ったって、今までの話を信じるのなら、どうせ本当の値は分からないのだから平均にすがる必要はないわけです。

例えば歌舞伎町にいる有名な占い師に0と1のどちらが出やすいか聞いてそれを信じることもできるし、繰り返し取り出した0,1のデータのうち奇数回目だけ取り出して平均したものであっても、自分がこの結果と心中出来ると思えれば何でも良いような気がしてきます。

しかし、普通多くの人は全体平均を期待値に対して妥当な値と考えます。これは次のような根拠から成ります。


サンプルサイズを∞にすると、本当の値になる

これは大数法則と呼ばれる話ですが、 \frac{1}{n}\sum_{i=1}^{n}x_iは、nを無限大に飛ばすと確率1で本当の値(0.67)になります。 しかし、何回データをとったって∞になんてなりません。100回取ろうが100000回取ろうが∞じゃないです。そのため事実上気休めですが少なくともどんどん本当の値に近づいてくれるという保証にはなりますし、無いよりマシです。今回の石の例は話が単純なので恐らく300回くらいサンプルをとれば、かなり近い値が得られます。


期待値が本当の値になる

これ、初学者が混乱する場所第2位(僕調べサンプル1)がここです。

よく考えてみてほしいんですけど、確率的に変化する事象の平均を取るという行為もまた不確実な事象なのです。

例えば先ほど石を30回投げたら平均は0.67になりましたが、もう一回30回投げて平均をとっても大抵は0.67にはなりません。

つまりこの

 \frac{1}{30}\sum_{i=1}^{30}X_iという計算自体も確率的に変化する確率変数なわけなのです。

そこでこの30回の実験を一固まりにして神様だけが知っているこの実験の組の期待値を考えてやると、なんと最初に調べようとしていた期待値と一致するというわけです。式で表すと次のようになります。

 E[\frac{1}{n}\sum_{i=1}^{n}X_i ] = E[X_i ]


実はもう一個根拠があったりするのですが、それは今回混乱の元になりそうなので説明は省略します。


確率的なものと既に出たものを区別する

ここまでで統計学が何をしているか、何故期待値に対する妥当な値として平均値を使うのかを説明しました。それではここからが本題です。

今までの話から分かるように、確率的に変化するものは神様しか分からないわけですが、実際に実験をして出てきた値はもう神様しか分からない値ではなくなるんです。

実際に実験するまで、 \frac{1}{30}\sum_{i=1}^{30}X_i がどんな値を取るかなんてわかりません。一個のサンプル X_1だって、実際にデータを取るまでは神様しか分かりません。

しかし、実際に30回データを取った瞬間、少なくとも x_1 ,...x_{30}までの値は何が出たかわかるわけなので、もう神様しか知らない値ではなくなります。


このような状況があるわけなので統計学では、神様しか知らない値なのか、それとももう実現していて、値が神様以外にもわかるようになったのか区別することが非常に重要になるわけです。


整理

つまり次のようになります。


神様しかわからないもの
・確率的に動く全ての値( \frac{1}{30}\sum_{i=1}^{30}X_i  X_iなど)→推定量、確率変数
・確率の性質に関する本当の値(期待値や分散など)→真の値


神様ではなくともわかるもの
・実際に出てきた値→実現値
・実際に出てきた値をもとに行った計算→推定値


さらに、神様しか分からないもののうち、推定量については実際に実験を行うことで、推定値、つまり神様ではなくともわかるものに変えることが可能です。

そして、理論上、ウマイ推定量(全体平均など)は先ほど説明したような意味で真の値に近い妥当な値を取りやすいわけです。

まとめ

つまり、推定量と推定値の区別が何故行われているかに対する端的な回答は、統計学が「神様しか分からない値」と、「神様以外も分かる値」の両方を扱っているために、それを区別して考えないと訳が分からなくなるからということになりますね。

そして、理論上は神様しか知らない真の値に近づくような定量に対して、実際の実験で得られた実現値を当てはめることで推定値を導き、その推定値真の値の代わりとして使ってしまおうという一連の手順が伝統的な統計学の基本的な考え方になっています。