統計学は最初から占い師や予知能力者を排除して物を考えている

統計学を勉強すると、やはり最初に教わるのは

不偏推定量

ではないでしょうか。

※推定量等に関する解説記事はこちら

不偏推定量、まあ最近ではあまり重要な概念では無くなってきているんですが、個人的にこの概念は面白い意味合いがあるなと常々思っていたんです。

端的に言ってしまえば

統計学は、不偏推定量を考えることで、占い師や予知能力者、当たるも八卦当たらぬも八卦といった方たちとはそもそも土俵が違いますよーと宣言しているように思えるんです。

今回の記事で必要なので端的に説明してしまうと、

統計学では、事象の背後にある真の状態を推定量という道具を使ってうまい具合に推定したいと考えます。

その際に、推定量は色々考えられるけど、どんなものを使うのがいいのだろう？という基準を用意したうえで、有用な推定量を考えます。

その際の基準の一つに不偏性という概念があり、その性質を満たした推定量が不偏推定量です。

ところで、何か推定したいものがあったとして、どんな推定方法を取るのが望ましいのでしょうか。

例えばいびつなサイコロを投げるとして、出目の平均パラメータは一体いくらだろうかと言うことを考えるとします。

この場合、同じサイコロを使って300回投げて実験した結果得られた平均値を予想に使うのが一般的(当然300回でなくともよい)で、これは不偏推定量です。

しかし、一方で予想するだけなら、歌舞伎町にいる有名な占い師に依頼して、平均パラメータはいくらでしょうかと聞くこともできるし

はたまた、何が起きようとも何が起ころうともひたすら「平均パラメータは3だ」と言い続ける人に任せてみてもいいわけです。

ここで、平均的に当たる、つまり背後にどんな平均パラメータが控えていたとしても平均的にパフォーマンスが高い推定量は不偏推定量です。

しかし、一方で、もし背後にある平均パラメータが3だったとしたら、最後の「何故か平均パラメータは3だと言い続ける人」を信じるのが最も良い予想方法だということになってしまいます。

何が言いたいかというと、不偏推定量は平均的に優れているだけで、偶然一回まぐれ当たりする人には勝てないのです。

従来の統計学では、まず推定量は不偏推定量の中から選びましょうという手順が一般的でした。

※最近は実はそんなことはしないのですが、今回はその話は省略

つまり、最初から不偏推定量のクラス(集合)に範囲を絞っておいて、その中から最も優れたもの、又はより良いものを選んできましょうねという手順を取っていたわけです。

これは今回の文脈で考えれば

最初から占い師や一発屋のように、まぐれ当たりするような推定方法を排除して、平均的に当たる推定方法からより良い物を選んできましょうねと言っていることと同じです。

こういう意味で、統計学はまぐれ当たりする人たちとそもそも土俵分けをしているのです。勝ち負けではなく、端から勝負していない。

つまり一発屋が予想を的中させようがさせまいが、ノ〇トラダムスの大予言が的中しようがしまいが、どうでもいいのです。

そうではなく、どんな状況下でも平均的に良い提案が出来るということにフォーカスしてきたのが従来の統計学なのです。

※ただし、何度も言うように最近の統計学はもう少し的中させる方向にも注力してきています。しかし、やはり現在でも一発屋や予言者はそもそも眼中にありませんよという考え方が根底にあると私は思います。

最後に初心者向けに、統計学のイメージがわかる本を紹介しておきます。

実際私が読んでみて良いなあと思った本です。