大数法則は有名ですね。
要は標本サイズをどんどん大きくしていくと、
標本平均が真の期待値に(確率的な意味で)収束するという定理です。
今回の記事は、大数法則を直感的に理解するということで、シミュレーションでの確認を行いましょう。
シミュレーション1
期待値10,分散15の正規分布から、標本を取り出していって、
その都度を計算してプロットしてみます。
大数法則が正しければ10に近づくはずですね。
というわけで10000個取り出してみました。
コードはこんな感じ
data=vector() sample_mean=vector() for(i in 1:10000){ data[i]=rnorm(1,10,sqrt(15)) sample_mean[i]=sum(data)/i } plot(1:10000,sample_mean,xlab="サンプルサイズ",ylab="標本平均",type="l") abline(10,0,col="red")
シミュレーション2
分散だって期待値でしたね。一応確認しておくと
でした。
ということはとしてやると、次のような現象が起きるはずです。
①まず、は標本平均なので、に収束します。
②になったとすると、をいっぱい取ってきて、平均していることになるので、分散に収束するはず。
試してみましょう。
コードはこんな感じ
data=vector() sample_mean=vector() sample_var=vector() for(i in 1:10000){ data[i]=rnorm(1,10,sqrt(15)) sample_mean[i]=sum(data)/i d=data-sample_mean[i] d2=d^2 sample_var[i]=sum(d^2)/i } plot(1:10000,sample_var,xlab="サンプルサイズ",ylab="標本分散",type="l") abline(15,0,col="red")
大数法則の数学的理解
大数法則については、丁寧に説明しているサイトや本が山ほどあって、この記事で解説する必要は恐らく無いのでURLを示して丸投げしておきます。
※記事書くのが面倒臭いわけではない(?)
弱法則だけですが、ここに詳しくのっているので気になる方はどうぞ
大数の法則の具体例と証明 | 高校数学の美しい物語
ということで、大数法則を確認することが出来ました。
確率的な誤差はあれど、ここまで近い値に収束するのであれば、仮に不偏推定量ではなかったとしても
サンプルサイズが大きい時に限り、適当な基準に基づく推定量として認めることが出来そうです。
次回はその話をします。