統計学をやるとよくポアソン分布という分布を見かけます。
詳細はこちら
基礎からイメージで学ぶ統計学~ポワソン分布編~ - バナナでもわかる話
ただ、現実世界のデータ(特に経済データ)だと、
ポアソン分布っぽいんだけど、ゼロが出る割合だけ異様に多くない??
と思えるようなデータがあったりするんです。
ポアソン分布は前記事でも説明した通り、色々と便利な分布ではあるのですが、その反面パラメータがしかないので、
期待値と分散が(大よそ)等しくないと使えない
という欠点があるわけです。
そのため、ゼロが過剰に出ているデータを強引にポアソン分布に当てはめると、
本来の性質を過小に評価することになってしまいます。
※ちなみに、ゼロは過剰に出ていないけど、分散が大きい場合は負の二項分布を使うという選択肢もあります。
スポンサーリンク
具体例
こんなやつです。
ゼロは多めですが、ぱっと見ポワソン分布のようにも見えますね。
ちなみに、この図はRで作成していて、コードはこんな感じです。
> prob=0.3 > data=rpois(100000,lambda=1)*rbinom(100000,1,1-prob) > ZIPdata=table(data) > barplot(ZIPdata,main="Zero-Inflated-data")
ゼロ過剰ポアソン分布の乱数を直接発生させるコードは無いので、確率0.3で強制的に0になるようにしました。
モデル
ゼロ過剰ポアソン分布は次のような背景になっています。
ゼロのみが出力される空間、
パラメータのポワソン分布で分布している空間があるとします。
で、確率で、確率でから標本が取り出されます。
どういうデータに使うのか
例えば、動物の生息数や魚の回遊データなんかにはよくゼロ過剰ポアソン分布が使われます。
例えば、サメやイルカがある海域を縄張りにしているとして、その広い海域を回遊します。その海域内の同じ地点で観測を行った場合、彼らが群れてその地点を通過する場合はポアソン分布するかもしれませんが、普段はその地点には居ないので、ゼロしか出ない標本空間が発生します。
このように、データの形状だけでなく、ゼロ過剰になる仕組みも考えることで、より緻密な分析を行うことが出来ます。
負の二項分布のゼロ過剰データですが、このような論文もあります。
ゼロの多いデータの解析:負の2項回帰モデルによる傾向の過大推定
http://www.ism.ac.jp/editsec/toukei/pdf/61-2-271.pdf
で、実際にどういう推定や検定があるのかということが重要になってくるわけですが、それについてはまた次回の記事で!
※次回は少々数式がゴリゴリ出てくるかと思われます笑