バナナでもわかる話

計量経済学・統計学が専門の大学院生です。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

十分統計量に関する小話

ここ最近、統計検定関連の記事が続いていますね。

統計検定の範囲の中に「十分統計量」という単元があります。

前に2記事くらい練習問題記事を書きましたが、今回は十分統計量についてツラツラ思っていることを書いていきます。

完全に個人の感想です。


スポンサーリンク


そもそも統計検定の範囲になっているが

統計検定に関する勉強をしている受験生の方々は、当然今の時代に、統計学を必要としている方々のはずなので、「この十分統計量って何???」と立ち止まってしまったり、「わざわざこんなこと考える必要ある??」なんて感じる人も少なくないかと思います。


「何やら、十分統計量だなんだと難しい計算をわざわざゴリゴリやっていて、ラオブラックウェルの定理でMSEを小さくできる推定量を探せる!嬉しい!」と言われても(これが、統計検定1級の該当範囲)、


「うーん、そんな難しいことをせずとも、乱数を発生させて想定される推定量を比較してやれば良いんじゃないか」

と思う方も多いと思います。



そもそも、十分統計量の前に、不偏推定量についてもなんの意味があるんだろうと素朴な疑問を覚えた方も多いのではないでしょうか。


「わざわざUnbiassedな推定量を探して、そのクラスで分散小さい選手権を開催してる暇があったら、UnbiassedだろうがBiassedだろうが何でもいいから、想定される推定量を片っ端から集めてきて、乱数を100000個くらい発生させて、empiricalなバイアスと分散を推定して、使われる場面に最もフィットするであろう推定量を選べば良いではないか。」


なんて思いますよね。

また、「今の時代、ビッグデータの時代なのだから一致推定量のクラスで分散の小さいものを探したり、MSEが小さくなるようなものを探したほうがよっぽど建設的なのでは?」なんて疑問も持たれるかもしれません。



私も初めて不偏推定量について学んだとき思いましたし、前者については今もそう思っています。


今あげた疑問はコンピュータの計算技術が発展した現代においては(恐らく)真っ当な批判で、当然今はそういうシミュレーションが個人のPCレベルでも簡単に出来てしまうのだから、そうした環境にいる私たちは、小難しい計算を前に(面倒臭がって)そんな文句を言ってしまう訳です。


十分統計量が役に立っていた頃に思いを馳せる

コンピュータシミュレーションが簡単に行える今の時代においては、例えば大学院で指導教官に「僕は十分統計量の研究がしたい」なんて言っても、「うーん。まあ止やしないし、何も出てこないとまでは言わないけど、そこまで面白い話はないと思うよ〜。」と言われてしまうような分野です。

これは、「もうすでに一昔前に多くの研究者が議論し尽くした分野であり」「今や、十分統計量が役に立つ場面は少なくなってしまった」ためです。


そもそも、何で十分統計量や不偏推定量といった分野が、こうも厳密に議論される必要があったのでしょうか。
もう皆さん御察しの通りかと思いますが、これらの概念は、コンピュータで大規模なシミュレーションや計算を行うことが難しい時代に盛んに研究されていた概念で、要は陽に計算できる範疇で、理論上わかる範囲で如何に推定量に対して数学的な正当性を与えるか、妥当性を与えるかが研究されていた時代の考え方なのです。


だから「機械学習」「計算機統計学」「ニューラルネット」などと、どんどんコンピュータのスペックありきの手法が登場する現代で統計学を学ぼうとすると、どうにも十分統計量や不偏推定量のイメージが湧きにくい。この分野、なんか役に立つのか??なんて思ってしまうわけですね。


当然、役立つ分野は今でもあります。特に私の所属する経済学系の研究では、不偏性を持つことは非常に重要な意味を持ちますし、理論的な正当性を完備十分性の観点から考えることも理論研究では必要かもしれません。


ただ、そうした分野に属していないとどうしても「何のための理論なのかよくわからん?」となってしまいます。


統計検定、又は数理統計学の勉強をし始めているという方が本を開いてまず、詰まるのはここだと思いますので、とりあえずは研究の道に進む方以外は、「シミュレーションや大サンプルで正当化するのが難しかった時代は、こんなに細々と理論を積み上げていったのだなあ」と昔話でも読むように、大鏡や源氏物語を読んで、昔の日本人の生活に思いを馳せるかのように理解すれば十分かなと思います。


当然、俺は研究の道に進むので、あるいは教員の道に進むので、しっかり理解しなければならないんだという方であれば、過去の論文を遡ったり、昔から読まれてきている名著を読んで、じっくり格闘する必要はあるかと思います。


十分統計量についてしっかり理解するには、必然測度論が必要になってくるので、まずはそこからでしょうか。


でも、当然勉強し始めの段階では、そういった事情、背景を知らない方がほとんどのはずですので、

「どうか、ここの分野で挫折しないよう、時間との兼ね合いですが、あまり深入りしすぎないようにした方がいいですよ」

と勉強中の皆さんにはお伝えしておきたいです(昔、何も知らずに深入りしすぎて、ひどく時間を溶かした過去が....)