バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

基礎からイメージで学ぶ統計学~正規分布編~

前回の記事で、確率変数の背後には確率密度関数があるという話をしました。
bananarian.hatenablog.com


これから何回かの記事では、その背後にある確率密度関数にはどのようなものがあるのかという話をしたいと思います。





正規分布の形

正規分布は例えば次のような形になります。
f:id:bananarian:20180927143916p:plain



正規分布は左右対称で、ボリューム層(一番確率が高くなっているところ)から離れると、緩やかに発生する確率が小さくなっていくことが特徴です。

ちなみに関数形はつぎのようになります。

 f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{1}{2}(\frac{x-\mu}{\sigma})^2)


なんかゴチャっとしたのが出てきましたが、これをそのまま図に描いたものがさっきの曲線です。

この関数の中に入っている \mu \sigmaがパラメータというやつで、


要はこの確率密度関数の形を決める値です。この2つのパラメータが決まることで、曲線の形が決まっています。



正規分布の特徴

範囲

まず、分布の範囲は -\inftyから \inftyです。
どういうことかというと、 f(x) xにどんな実数を入れても何かしらの値が返ってくるということです。何か初心者目線で考えると、

「そんなのあたりまえじゃないか」

というような気がしてきますが、これは大事な特徴で、密度関数の中にはたとえば0以上の実数しか定義されていない関数や、(これは密度関数ではありませんが)整数しか許されていない関数もあります。


そういうわけで、正規分布が実数範囲をとるというのは大事な特徴で、モデリングをする際に重要な考え方です。

対称性

先ほども書きましたが、対称性があります。つまり左右対称なわけです。
この性質も重要で、例えばこの正規分布を真ん中で真っ二つに切ったとしたら、片側の確率の和はいくらになりますかなんてことも考えやすくなります。
f:id:bananarian:20180927145909p:plain

この黄色い部分ですね。

確率は全部足すと1になるはずなので、半分だったら間違いなく0.5です。
つまり、半分に切ったという情報だけで、値を特定できるんですね。



裾が短い

さきほど、正規分布はボリューム層(一番確率が高くなっているところ)から離れると、緩やかに発生する確率が小さくなっていくと言いました。この性質を裾が短いと読んだりします。
ちなみに、本によっては裾が薄いとか裾が軽いとか書いてあったりしますが、


どれも違う概念なので、厳密には区別する必要があります。

しかし、この概念の区別は数式で説明しないと違いが判らないので、とりあえず今回は省略して、裾が短いといっておきます。


ちなみに標準正規分布(期待値が0、分散が1)は裾が短く、軽く、薄い分布です。


この性質も実は重要で、これ、要は

ボリューム層よりも著しく離れた値は出る確率がほとんど無いという性質なんですね。

もっと端的に言ってしまえば 外れ値が出にくいという性質です。


結構頻繁に外れ値が出るような分布は、その性質をとらえることが難しいため、これは重要だったりします。



ちなみに

ちなみに、現実のデータにこんな形をとるものがあるのか!!机上の空論じゃないか!?と思われる方もいらっしゃると思うので、お見せします。

実はかなり前の記事になりますが、ソフトバンクの株価分析の記事を書いていて、そこで実際のデータにおいて正規分布に近い分布が見つかりました。
ソフトバンクの株価の分析を簡単にやってみる - バナナでもわかる話


ソフトバンクの株を買った場合の過去のリターンの分布です。
f:id:bananarian:20180927151330p:plain


ボリューム層から離れると出現割合がかなり小さくなっていて、実データなので少しずれていますが、ほとんど左右対称です。



こんな感じの分布が正規分布です。当然ほかにも重要な性質があったりしますが、導入or入門なので、この辺で。