統計カテゴリが現状マルコフ連鎖で埋まっていて、とっつきにくさがあるので、もう少し基本的な記事も書いていきます。この手の記事については統計学雑記カテゴリに入れていこうと思うので、ご覧ください。
統計学の最初の山
大学の講義、統計検定、職場で必要になった等々初めて統計学に出会った時に恐らく皆最初に読む手が止まるのは「推定量」「推定値」が出てきた辺りじゃないかな~と思います。
推定量を、推定値をで書くだとか何やら区別して書いている割に、なんか実際に使われる場面では同じように使われている気もするし、何で大文字と小文字で区別しているんだ!!訳が分からん!となりませんか?僕は最初なりました笑。そして僕はこの時点で大学の統計学の講義を切りました(笑)
(よくハットを使って区別していることもあります)
今回は、そもそも推定量、推定値とは何なのか、何故わざわざ分けるのかを説明していこうと思います。
統計学の目的
そもそも(伝統的な)統計学の目的は何でしょう。
それを理解せずして推定量推定値の区別はピンときません。
統計学の目的は、端的に言って「神様だけが知っている本当の値を見つけること」になります。
何を言っているんだと言われそうなのでもう少し説明します。
例えば道端に平たい石が落ちていたとします。この石の片面に0、その裏側に1と書いて投げてみて0と1、どちらが出るでしょうか。
実はこの石、神様が0が出る確率は、1が出る確率はに設定しているのですが、人間がそんな裏設定知る由もありませんし、今一回投げて0が出るか1が出るかは投げるまでは絶対に分かりません。
要するに、人間は運否天賦に対してひたすら無力なわけです。
石だけでなく不確実な事象は何でもそうです。明日の株価が上がるか下がるか、トランプゲームをしたときに、自分の手元に何が来るか等々をコントロールしたり、予知したりすることは基本的には出来ません。
しかし、無力だからといって簡単には諦めないのが人間で、分からないのであれば、せめて過去に得られた情報を余すことなく使って、神様だけが知っている確率分布の性質について何かしらの意味で妥当な値を放り込むことで解析してしまおうと考えたわけです。
それが統計学になります。
神様だけが分かる石の性質
先ほどの石について整理して、その分布の性質について考えてみます。
まず、この石は神様が次のように設定しているとのことでした。
0が出る確率は
1が出る確率は
ここで期待値と分散は定義から次のように得られます。
計算過程からわかるように、期待値や分散の計算には神様しか知らない確率を使っています。
つまり、確率を知らない以上私たちは期待値や分散も分からないわけです。
※期待値、分散のイメージについては下の記事の途中にも書いています。 bananarian.hatenablog.com
期待値に妥当な値を放り込む
このままでは、石を投げて0が出るか1が出るかという単純な物事に対して私たちは何の手立てもなくなってしまいます。それは非常に辛いので、とりあえず期待値は分からないけど、何らかの方法でそれに近い値を探そうと考えるわけです。
期待値は、「いっぱい投げた時に平均的にいくらぐらいの値が出るか」を表したものですので、まあとりあえず石をいっぱい投げてみて、その平均をとりますよね?
とりあえず石を30回くらい投げてみました。すると次のようになりました。
数えてみると1が19回出ています。
この時平均はですね。
この計算を文字に直してみるととなります。
これ、つまり何をしているかというと期待値は分からんけど、とりあえず30回データを取ったらになったから、期待値は0.63くらいだと目星をつけてみました!ということをしています。
実際の期待値は先ほど計算した通り0.67ですので、微妙にずれていますが、このズレは神様しかわからないのだから実際の現場ではわかりません。つまり平均なんぞ取っても本当の値がいくらかなんてわからないわけです。しかし、私たちは拠り所が現状この平均値しかないのでこの平均値にすがっていきます。
何故平均は妥当な値なのか
すがると言ったって、今までの話を信じるのなら、どうせ本当の値は分からないのだから平均にすがる必要はないわけです。
例えば歌舞伎町にいる有名な占い師に0と1のどちらが出やすいか聞いてそれを信じることもできるし、繰り返し取り出した0,1のデータのうち奇数回目だけ取り出して平均したものであっても、自分がこの結果と心中出来ると思えれば何でも良いような気がしてきます。
しかし、普通多くの人は全体平均を期待値に対して妥当な値と考えます。これは次のような根拠から成ります。
サンプルサイズを∞にすると、本当の値になる
これは大数法則と呼ばれる話ですが、は、nを無限大に飛ばすと確率1で本当の値(0.67)になります。 しかし、何回データをとったって∞になんてなりません。100回取ろうが100000回取ろうが∞じゃないです。そのため事実上気休めですが少なくともどんどん本当の値に近づいてくれるという保証にはなりますし、無いよりマシです。今回の石の例は話が単純なので恐らく300回くらいサンプルをとれば、かなり近い値が得られます。
期待値が本当の値になる
これ、初学者が混乱する場所第2位(僕調べサンプル1)がここです。
よく考えてみてほしいんですけど、確率的に変化する事象の平均を取るという行為もまた不確実な事象なのです。
例えば先ほど石を30回投げたら平均は0.67になりましたが、もう一回30回投げて平均をとっても大抵は0.67にはなりません。
つまりこの
という計算自体も確率的に変化する確率変数なわけなのです。
そこでこの30回の実験を一固まりにして神様だけが知っているこの実験の組の期待値を考えてやると、なんと最初に調べようとしていた期待値と一致するというわけです。式で表すと次のようになります。
実はもう一個根拠があったりするのですが、それは今回混乱の元になりそうなので説明は省略します。
確率的なものと既に出たものを区別する
ここまでで統計学が何をしているか、何故期待値に対する妥当な値として平均値を使うのかを説明しました。それではここからが本題です。
今までの話から分かるように、確率的に変化するものは神様しか分からないわけですが、実際に実験をして出てきた値はもう神様しか分からない値ではなくなるんです。
実際に実験するまで、がどんな値を取るかなんてわかりません。一個のサンプルだって、実際にデータを取るまでは神様しか分かりません。
しかし、実際に30回データを取った瞬間、少なくともまでの値は何が出たかわかるわけなので、もう神様しか知らない値ではなくなります。
このような状況があるわけなので統計学では、神様しか知らない値なのか、それとももう実現していて、値が神様以外にもわかるようになったのか区別することが非常に重要になるわけです。