基礎からイメージで学ぶ統計学~ポワソン分布編~

前回、二項分布の話をして、一瞬出てきましたねポワソン分布。
bananarian.hatenablog.com

今回はポワソン分布の話をします。

ポワソン分布の例としてよくあがるのは、こんな感じのヒストグラムです。
f:id:bananarian:20180930220651p:plain

なんかほとんどゼロをとってますね。

よくポワソン分布の説明で、「ほとんど0なんだけど、稀に出てくるデータにあてはめる」なんていう説明を受けたりします。

これは間違いです

いや、正確には別に、稀に出てくるデータにあてはめることは出来るけど、ポワソン分布は稀に出るデータにあてはめるしか能の無い分布ではありません。説明していきます。

導出は前もリンクを貼った通り、統計検定記事でやっていますのでそちらをご覧ください。
【初心者向け】2017年統計検定1級数理問3の解説 - バナナでもわかる話

あと、この問題結構優秀で、ポワソン分布の正規近似だったり再生性だったりの話もあったりするので、この問題解くだけでポワソン分布にちょっと詳しくなれます。

とりあえず、数式わからんという方にイメージで導入しておくと、
前回やった二項分布のパラメータ $N$ と $\theta$ について、 $N$ をめちゃめちゃ大きくしたうえで、それと比較して $\theta$ が十分小さいような時、ポワソン分布になります。それがこれです。

$P(x|\lambda)=\frac{\lambda^xexp(-\lambda)}{x!}$

この分布は期待値も分散も $\lambda$ になります。

で、この導出を引き摺った結果、さっきの言説が出てきて、 $N$ がめちゃめちゃ大きいのに、 $\theta$ が小さい二項分布に従っているってことは、稀に出てくるデータなんだから、そういうデータにあてはめる分布だということになる(?)わけです。

確かにそういうデータに当てはめるモデリングはあります。

例えば、クレーム処理に関するデータとかモロですね。
パソコンを売るとします。パソコンはパソコンの型番と購入者が紐づけられているので、購入者がクレームの電話をした場合、その回数をデータとして記録することが出来ますね。

でも、正直購入者の5割やら6割の人がクレームの電話をしてくるような商品はそもそも欠陥商品なわけで、普通購入者のクレーム数は0であることが多いわけです。

だから例えばこんな感じのグラフが出来るかなと思います。
f:id:bananarian:20180930222429p:plain

ポワソン分布っぽい形ですね。この場合、標本平均と分散を計算して大体同じ値をとってるか見たり、検定を行ったりした後、妥当そうであればポワソン分布をあてはめます。

しかしですね、ポワソン分布って要は $\lambda$ が十分大きくなれば二項分布や正規分布に近似するので、ある一区間に何回か出るような事象に対しても当てはめることが出来るんです。

例えばこれは $\lambda=100$ の分布から取り出したデータのヒストグラムです。
f:id:bananarian:20180930222824p:plain

正規分布っぽい形をしているし、全然0はないですよね。

これはあくまで私の経験則ですが、「稀に出るときだけポワソン分布を使う！！」と決めつけるのは危うくて、

それよりも　正の整数値を取るデータ、つまりカウントデータに対して当てはめる一候補としての分布がポワソン分布だと覚える方が良いです。

カウントデータっていうのは１回２回と数を数えるようなデータのことです。さっきのクレームデータもそうですね。

どういうことかというと、カウントデータに対してモデリングをするとなったら、どういう分布を使おうかなーなんてことをまず考えるわけですが、その一つの候補としてポワソン分布を考慮に入れておいて、実際のデータの分布を見たうえで、分布を選べばいいんじゃないですか？ということです。

あと、もう一つ、この分布は $\lambda$ さえわかっていれば使えるというところも特徴の一つです。
これ、地味に強くて、例えば「平均でこれくらいってのはわかってるんだけど、何個のデータから得られた平均かはわかりませーん」っていうようなデータに対しても使うことが出来ます。

二項分布だと $N$ が必要なので、こういう時にポワソン分布は重宝しますね。

ちなみに、ポワソン分布に従う確率変数 $X$ にルートをかけたりゴチャゴチャしてやると、 $\lambda→\infty$ で分散 $\frac{1}{4}$ の正規分布に近似します。このあたりはマイナーな性質なのであまり知られていませんが

$\sqrt{X+(定数,当然0も可)}$

という変換で正規分布に向かうんですね。
更に $c=\frac{3}{8}$ はAnscombe(アンスコム)の分散安定化変換と呼ばれていて、定数を足してルートをかける他のどの変換よりも最も早く分散が収束します。

$\sqrt{X+\frac{3}{8}}$

こんな感じですね。

安定化変換については、そこそこ詳しいのでいずれまた記事にしますが、結構いろいろな変換があって面白いです。