前回は正規分布について話しました。
bananarian.hatenablog.com
今回は二項分布です。
具体例
歪みのないコインをN回投げたとします。歪みがないので、コインを1回投げて「表」が出る確率も「裏」が出る確率も同じであるとします。
今回はN回投げています。表が回出る確率は一体いくらでしょうか。
これは、高校生の数学でもやった話ですが、要は全てのパターンの組み合わせを数えてしまえばよいという話でした。つまり
これが二項分布です。ただし、今回はゆがみのないコインで考えましたが、別にコインが歪んでても構いませんよね。なんなら、歪みのあるコインを考えることで、一般的な「A」か「B」かという二者択一の問題を二項分布に当てはめることが出来るようになるわけです。
「表」が出る確率をと文字でおいてやって、
これが二項分布の一般的な形です。
これによって例えば、試合の「勝ち」「負け」について、30試合やって、何回勝ったかとかいう話もモデル化することが出来るわけですね。
二項分布の性質
・まず、の時は特別にベルヌーイ分布という名前がついている。
・特殊な条件の下でポアソン分布という分布になる(ポアソンの定理)
これについては統計検定の記事で証明を行ったので、興味のある方はご覧ください。
【初心者向け】2017年統計検定1級数理問3の解説 - バナナでもわかる話
問3[1]ですね。
・Nが十分大きい場合に正規近似します。これは大事な性質で、同じような事情がポワソン分布でも成り立ちます。
・ちなみにこの分布の期待値は、分散はです。
主にどういう時に使うのか
よく使われるのはカウントデータ、つまり数を数えたいときです。1回、2回、3回、...といった値を取るデータを確率変数として考えたいときのモデルに使われます。
ただし、この分布の特徴として「Nが固定されている」という点に注意してください。
例えば、次のような場合は二項分布は使えません。
「何回試合をしたかはわからないが、〇〇球団は1年間で平均40試合勝つらしい。今年、この球団が50試合勝つ確率を知りたい。」
この場合、平均はわかるけども、何回試合をやったのかわからないので、二項分布は使えません。
一方で次のような場合は二項分布をモデルの候補として考えてもよいかもしれません。
「△球団は1年間で100回試合をしていて、平均勝率は3割らしい。この球団が今年、40回勝つ確率を知りたい。」
「考えてもよいかもしれません」とはなんだ!!
のらりくらりとした言い方だなと感じる方もいるかもしれません。
ただ、私の理解では、統計モデリングとはそういうものです。
モデリングはあくまで、現実のデータを、より尤もらしい分布に当てはめているだけであって、現実のデータが本当にその分布に従っているとは限らないのです。
というかそんな奇跡のデータはほとんどないと思います。
だから、こういうデータの時はこの分布だと決めつけてかかるのではなく、分布の性質を頭に入れておいた上で、今回のデータはあの分布の性質に近い性質を持っていそうだからあてはめてみようという姿勢でいるべきだと思います。
統計学を学ぶ上での分布の勉強は、その辺を念頭に置いて進めるかどうかでモチベーションに随分違いが出てくるだろうなあと考えています。
是非是非参考までに。。。