仮説検定の話に入ろうと思うのですが、
仮説検定については、僕の記事なんかよりも非常によくまとまっているサイトがあったので、とりあえず何も知らない方はこちらをご覧ください。
仮説検定とは?初心者にもわかりやすく解説! | 全人類がわかる統計学
私の記事では、同じ話をしてもしょうがないので、仮説検定にまつわる批判に関する話をします。
正規分布の期待値に関する検定
例えば、次のような例を考えます。
正規分布からのn個の標本を取ってきたとして、まずこの正規分布の期待値について帰無仮説を立てました。
つまり、このデータの背後には期待値が3の正規分布があるという帰無仮説を立てた上で、
もし適当な有意水準を設定した下で仮説検定を行って棄却されれば、背後にある正規分布の期待値はであると言うことは出来ます。
この検定問題の検定統計量は普通、次のような式になります。
ここではに関する推定量(普通は不偏推定量や一致推定量を採用します。)
は分散に関する推定量(同様に不偏推定量や一致推定量を採用)
で、この検定統計量を利用して、推定量に合わせて分布を仮定し、この統計量の値が極端に大きい値を取ったり小さい値を取った場合は、
もし、帰無仮説に従っているのであれば、出てくる可能性の低い値が出てきた。
それならば、この帰無仮説は間違えているのであろう。
と言うというのが仮説検定でしたね。
仮説を棄却するとは?
ここからが本題です。
仮説が間違えていた
とは実際の現場ではどういうことを指すのでしょうか。
例えば、新薬開発をしていたとします。
「従来の薬の効果が3だったとして、新薬は9になった」
として、3だったものが9になったのなら、何か良くなったように見えるので、仮説として効果が3だと仮定して、それを棄却することには意味がありそうです。
※(当然、実際はどんな効果かによって9が大きいのか小さいのかは変わりそうですが)
じゃあ、「従来の薬の効果が同じく3だったとして、新薬の効果が3.000001になった」
これは、意味のある差でしょうか?
仮説として効果が3だという仮説を立てて、新薬の効果が3.000001だった場合、仮説を棄却することに何か意味はありますかね。
いやいや、こんな小さい差、そもそも棄却出来ないのでは?と仰る方もいるかもしれませんが、棄却出来ます。
検定統計量をよくみてほしいんですけど、
こんな感じに変形できますね。
ここで、サンプルサイズをメチャメチャ大きく取ったとします。
は一致推定量のため、期待値3.000001の分布から取り出された標本である以上、一致性から3.000001に近づきます。
も一致推定量のため、背後にある分布の分散に収束します。仮に1.5としておきましょう。
そうすると、このってどんな値を取るかと言うとこうなりますよね。
をメチャメチャ大きく取れば、いくらでもを大きな値に出来ると思いませんか??
シミュレーション
あまりサンプルサイズが大きくすると計算に時間がかかるので、分散が小さい例で試してみます。
(分散が小さいと早く一致推定量が収束するため、必要サンプルサイズが少なくて済む)
真の分布が期待値、標準偏差の正規分布から出ているデータがあるとして
(当然、実際にはこの真の分布は分からない)
帰無仮説
対立仮説
の仮説検定を考えます。真の分布はほとんど3なわけですが、
ビミョーーーーーーに違う値です。
場面次第ではありますが、大抵は意味のない差だと思われます。
しかし、で検定統計量を50回出してみると、その散布図は次のようになりました。
縦軸が検定統計量が示した値です。
全て7以上の値を取っていて、メチャメチャ大きいです。
(標準正規分布の両側5%で1.645,片側5%で1.96。)
仮説検定の問題点
これが仮説検定の問題点です。
例えば、あなたが新薬開発を行っている企業の研究者だとして、ここで成果を出すと出世に繋がる!みたいな状況があったとします。
こんな時、あなたとしては「とにかく、新しく作った薬が従来のものより効果があると言いたい」わけです。
ここで、実験を1000回行って、有意水準5%を設定し、仮説検定を行い、従来の薬と効果に差が無いという帰無仮説を棄却することで、「仮説検定の結果、従来のものと比べて効果に差がある」と言ってみようと考えたとします。
しかし、実験を1000回行っても棄却出来ませんでした。
この時、真っ当に考えると「もう少し薬の改良を行ってみるか」という方向に向かうわけですが、今は出世がかかっています。
「とにかく今はコストが嵩んでも、追加で実験をして帰無仮説を棄却してやろう」という方向に向かうと最悪です。
10000回、100000回と追実験を行うことで、仕組み上いつか棄却出来ちゃいますね。
また、今回は紹介していませんが、一口で仮説検定と言っても色々な検定手法があって、
「棄却出来るまでいろいろな検定を試してみよう」とかいうことも出来てしまうわけです。
経済データだと?
ただ、経済学部でこの問題が話題になることはほぼありません。
これはデータのとられ方と性質に関する話が関係していて、
先ほど単純にデータの分散が小さいと、サンプルサイズが小さくて済むという話をしましたが、普通経済データの分散は、理系の実験室で取られるようなデータよりも大きいです。そのため、今回のような操作をやろうとすると、コスト的に非現実的な調査計画になります。
また、そもそも実験であれば金さえかければいくらでも出来るわけですが、経済データだと結構すぐ限界が来ます。母集団の数・調査規模的な意味でも非現実的な調査計画になるわけですね。