バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

統計検定1級対策問題集~十分統計量編2~

十分統計量に関する問題2記事目です。

目次


スポンサーリンク


ラオブラックウェルの定理

ラオブラックウェルの定理とは

初めに完備十分統計量を考える上で重要になってくる「ラオブラックウェルの定理」の証明についてやっておきます。

実際の数理統計の本であれば、ラオブラックウェルの定理を示した後、完備性について解説し、完備十分統計量について話が移ります。

ただ、統計検定1級公式参考書では完備十分統計量までは触れていません。
ラオブラックウェルの定理までの説明で終わっているので、とりあえずこの定理の証明までは確認しておきます。


次のような定理をラオブラックウェルの定理と呼びます。
 T \thetaの十分統計量とする。ここで、 \thetaのある推定量\delta(X)について、次のような推定量 \delta_1(T)をラオブラックウェル推定量と呼ぶことにする。

 \delta_1(T)=E_{\theta}[\delta(X)|T]

そして、ラオブラックウェル推定量が満たす次のような性質をラオブラックウェルの定理と呼ぶ。

 E_{\theta}[(\delta_1(T)-\theta)^2]≦E_{\theta}[(\delta(X)-\theta)^2]

不等式の両サイドは平均二乗誤差になっています。
つまり、この不等式からわかることは

「ある推定量 \deltaを考えた時に、それよりも平均二乗誤差を小さくする(又は同等)推定量を、十分統計量を条件付けることで考えることが出来る」

ということです。単純ですが強力な定理です。

ラオブラックウェルの定理証明

まず、 E_{\theta}[\delta_1(T)]=E_{\theta}[\delta(X)]であることを示します。

 E_{\theta}[\delta_1(T)]=\int_T \int_X \delta(X) dP(X|T) dP(T)

 =\int_X \delta(X) dP(X)=E_{\theta}[\delta(X)]


また、 E_{\theta}[\delta_1(T)^2]≦E_{\theta}[\delta(X)^2]であることも示します。

 E_{\theta}[\delta_1(T)^2]=E_{T;\theta}[ E_{\theta}[\delta(X)|T]^2]

 E_{\theta}[\delta(X)^2]=E_{T;\theta}[E_{\theta}[\delta(X)^2|T]]

更にイェンゼン不等式を用いて、
 E_{T;\theta}[ E_{\theta}[\delta(X)|T]^2]≦E_{T;\theta}[E_{\theta}[\delta(X)^2|T]]

以上より示せた。


最後にラオブラックウェルの定理を示します。
 E_{\theta}[(\delta_1(T)-\theta)^2]=E_{\theta}[\delta_1(T)^2]-2\theta E_{\theta}[\delta_1(T)]+\theta^2

 E_{\theta}[(\delta(X)-\theta)^2]=E_{\theta}[\delta(X)^2]-2\theta E_{\theta}[\delta(X)]+\theta^2


上二つの性質から
 E_{\theta}[(\delta_1(T)-\theta)^2]≦E_{\theta}[(\delta(X)-\theta)^2]

フィッシャーネイマンの分解定理

負の二項分布

負の二項分布の確率質量関数 f(x;p,r)は次のようになります。

 f(x;p,r)=\begin{eqnarray*}
  && {}_{r+x-1} C _x \\
\end{eqnarray*} p^r (1-p)^x


 x_1,\cdots,x_nのサンプルを独立同一に得たとすると、同時分布は

 P(x_1,\cdots,x_n ;n,p,r) = \prod_{i=1}^n \{ \begin{eqnarray*}
  && {}_{r+x_i-1} C _{x_i} \\
\end{eqnarray*} p^r (1-p)^{x_i} \}

 = \{ \prod_{i=1}^n  \begin{eqnarray*}
  && {}_{r+x_i-1} C _{x_i} \\
\end{eqnarray*} \} p^{nr} (1-p)^{ \sum_{i=1}^n x_i }

この時、 T(X)=\sum_{i=1}^n x_iがパラメータ pの十分統計量であることを示します。

フィッシャーネイマンの分解定理より、

 h(X)=\{\prod_{i=1}^n \begin{eqnarray*}
  && {}_{r+x_i-1} C _{x_i} \\
\end{eqnarray*} \}

 g(T(X),p)=p^{nr}(1-p)^{T(X)}

とみると、  T(X)=\sum_{i=1}^n x_iがパラメータ pの十分統計量であることがわかる。


ガンマ分布

ガンマ分布の確率密度関数 f(x;\alpha,\beta)は次のようになります。

 f(x;\alpha,\beta)=\frac{\beta^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}

 x_1,\cdots,x_nのサンプルを独立同一に得たとすると、

 T_{\alpha}(X)=\prod_{i=1}^n x_i \alphaの十分統計量
 T_{\beta}(X)=\sum_{i=1}^n x_i \betaの十分統計量です。これを示します。


同時分布は

 P(x_1,\cdots,x_n ;\alpha,\beta)=\frac{\beta^{n\alpha}}{\Gamma(\alpha)^n} \{\prod_{i=1}^n x_i\}^{\alpha-1} e^{-\beta\sum_{i=1}^n x_i}


よって、

 h_{\alpha}(X)=e^{-\beta\sum_{i=1}^n x_i}

 g(T_{\alpha}(X),\alpha)=\frac{\beta^{n\alpha}}{\Gamma(\alpha)^n} \{T_{\alpha}(X)\}^{\alpha-1}

とみると、フィッシャーネイマンの分解定理より、 T_{\alpha}(X)=\prod_{i=1}^n x_i \alphaの十分統計量。


また、 h_{\beta}(X)= \frac{1}{\Gamma(\alpha)^n} \{\prod_{i=1}^n x_i\}^{\alpha-1}

 g(T_{\beta}(X),\beta)=\beta^{n\alpha} e^{-\beta T_{\beta}(X)}

と見ると、フィッシャーネイマンの分解定理より、 T_{\beta}(X)=\sum_{i=1}^n x_i \betaの十分統計量


一様分布

下限が0,上限が未知パラメータ \thetaであるときの一様分布を考えます。この時、密度関数は次のようになります。

 f(x;\theta)=\frac{1}{\theta}   (0≦x≦\theta)

これは、見方を変えると次のように書くことも出来ます。

 f(x;\theta)=\frac{1_{\{0≦x≦\theta\}}}{\theta}

ここで、 x_1,\cdots,x_nのサンプルを独立同一に得たとすると、 \thetaの十分統計量は max\{x_1,\cdots , x_n\}となります。

これを示します。

同時分布は次のようになるので

 P(x_1,\cdots x_n;n,\theta)=\frac{1_{\{max\{x_1,\cdots , x_n\}≦\theta\}}}{\theta^n}

フィッシャーネイマンの分解定理より、 \thetaの十分統計量は max\{x_1,\cdots , x_n\}であることは明らか。

統計検定1級対策問題集~十分統計量編1~

今回は十分統計量に関する問題をまとめていきます。少し量が多いので、2回に分けます。
目次


スポンサーリンク


十分統計量とは

標本 Xとその分布のパラメータ \theta を考えます。この時、次の等式が成り立つ統計量 T(X)を十分統計量と呼びます。

 P(X=x|T(X)=t,\theta)=P(X=x|T(X)=t)

これは、どう解釈すれば良いかというと、

「パラメータ \thetaの情報を T(X)は十分に持っている」

と解釈出来ます。

等式を見ていただけるとわかるように \thetaがあろうと無かろうと、 Xの分布には変化がありません。

フィッシャーネイマンの分解定理

フィッシャーネイマンの分解定理

 T(X) \thetaの十分統計量であるとき、確率密度関数(確率質量関数)は次のように分解できる。

 f(x;\theta)=h(x)g(T(x),\theta)

これをフィッシャーネイマンの分解定理(factorization theorem)と呼びます。

この定理の証明は間違いなく出題されませんので、省略します。
というのも、この分解定理の証明には測度論を利用します。これは、1級範囲を逸脱していますし、実際公式教科書でも、しれっと証明を省略しています。

この定理を利用して、ある T(X)が十分統計量であることを証明します。

ベルヌーイ分布

ベルヌーイ分布の確率質量関数 f(x;p)は次のようでした。

 f(x;n,p)=p^x(1-p)^{1-x}

 x_1,\cdots,x_nのサンプルを独立同一に得たとすると、同時分布は

 P(x_1,\cdots,x_n ;n,p)=p^{\sum_{i=1}^n x_i}(1-p)^{n-\sum_{i=1}^n x_i}


ですが、この時、 T(X)=\sum_{i=1}^n x_iがパラメータ pの十分統計量であることを示します。

 P(x_1,\cdots,x_n ;n,p)=\frac{p}{1-p}^{\sum_{i=1}^n x_i} (1-p)^n=(\frac{p}{1-p})^{T(X)} (1-p)^n

この時 h(x)=1,g(T(x),p)=(\frac{p}{1-p})^{T(X)} (1-p)^nと見ると、フィッシャーネイマンの分解定理から、 T(X)=\sum_{i=1}^n x_iはパラメータ pの十分統計量です。


ポアソン分布

ポアソン分布の確率質量関数 f(x;p)は次のようでした。

 f(x;\lambda)=\frac{e^{-\lambda} \lambda^x}{x!}

 x_1,\cdots,x_nのサンプルを独立同一に得たとすると、同時分布は

 P(x_1,\cdots,x_n ;n,\lambda)=\frac{e^{-n\lambda} \lambda^{\sum_{i=1}^n x_i}}{\prod_{i=1}^n x_i}

ですが、この時、 T(X)=\sum_{i=1}^n x_iがパラメータ \lambdaの十分統計量であることを示します。

 P(x_1,\cdots,x_n ;n,\lambda)=\frac{1}{\prod_{i=1}^n x_i} e^{-n\lambda} \lambda^{\sum_{i=1}^n x_i}=\frac{1}{\prod_{i=1}^n x_i} e^{-n\lambda} \lambda^{T(X)}


 h(x)=\frac{1}{\prod_{i=1}^n x_i} ,g(T(x),\lambda)=e^{-n\lambda} \lambda^{T(X)}と見ると、フィッシャーネイマンの分解定理から T(X)=\sum_{i=1}^n x_iはパラメータ \lambdaの十分統計量です。


正規分布

正規分布の確率密度関数 f(x;\mu,\sigma)は次のようでした。

 f(x;\mu,\sigma)=\frac{1}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2\sigma^2})

 x_1,\cdots,x_nのサンプルを独立同一に得たとすると、同時分布は

 P(x_1,\cdots,x_n ;n,\mu,\sigma) = (2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{\sum_{i=1}^n (x_i-\mu)^2}{2\sigma^2})


この時、 T_{\mu}(X)=\sum_{i=1}^n x_iがパラメータ \muの十分統計量、 (T_{\mu}(X),T_{\sigma}(X))=(\sum_{i=1}^n x_i,\sum_{i=1}^n x_i^2)がパラメータ (\mu,\sigma)の十分統計量であることを示します。


 P(x_1,\cdots,x_n ;n,\mu,\sigma) = (2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{\sum_{i=1}^n x_i^2-2\mu \sum_{i=1}^n x_i+n\mu^2}{2\sigma^2})

まず、
 P(x_1,\cdots,x_n ;n,\mu,\sigma) =(2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{\sum_{i=1}^n x_i^2-2\mu T_{\mu}(X)+n\mu^2}{2\sigma^2})
 =(2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{\sum_{i=1}^n x_i^2}{2\sigma^2}) exp(-\frac{-2\mu T_{\mu}(X)+n\mu^2}{2 \sigma^2})

このように見ると、 h(x)=(2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{\sum_{i=1}^n x_i^2}{2\sigma^2})であり、
 g(T_{\mu}(X),\mu)=exp(-\frac{-2\mu T_{\mu}(X)+n\mu^2}{2 \sigma^2})のため、フィッシャーネイマンの分解定理から、 T_{\mu}(X) \muに関する十分統計量です。

また、
 P(x_1,\cdots,x_n ;n,\mu,\sigma) =(2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{T_{\sigma}(X)-2\mu T_{\mu}(X)+n\mu^2}{2\sigma^2})

であるので、

 h(x)=1,g(T_{\sigma}(X),T_{\mu}(X),\mu,\sigma)=(2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{T_{\sigma}(X)-2\mu T_{\mu}(X)+n\mu^2}{2\sigma^2})と見ると、 (T_{\mu}(X),T_{\sigma}(X))=(\sum_{i=1}^n x_i,\sum_{i=1}^n x_i^2)はパラメータベクトル (\mu,\sigma)の十分統計量ベクトルである。


分解定理を使わない例

当然、十分統計量かどうかは分解定理を使わずとも、定義から示すことも可能です。
ただ、計算がしんどいので、普通は分解定理で示します。

ベルヌーイ分布で考える場合、結構計算が簡単なのでこれで確認してみます。


ベルヌーイ分布の確率質量関数 f(x;p)は次のようでした。

 f(x;n,p)=p^x(1-p)^{1-x}

 x_1,\cdots,x_nのサンプルを独立同一に得たとすると、同時分布は

 P(x_1,\cdots,x_n ;n,p)=p^{\sum_{i=1}^n x_i}(1-p)^{n-\sum_{i=1}^n x_i}


ですが、この時、 T(X)=\sum_{i=1}^n x_iがパラメータ pの十分統計量であることを示します。


 P(x_1,\cdots,x_n |n,p)=p^{\sum_{i=1}^n x_i}(1-p)^{n-\sum_{i=1}^n x_i}=p^{T(X)}(1-p)^{n-T(X)}

ここで
 P(T(X)=t |n,p)=p^{t}(1-p)^{n-t} 1_{\{T(x)=t\}}

 P(x_1,\cdots,x_n,T(X)=t |n,p)= \sum_{x:\{T(x)=t\}} P(x_1,\cdots,x_n |n,p)=\begin{eqnarray*}
  && {}_n C _t \\
\end{eqnarray*} p^{T(X)}(1-p)^{n-T(X)}


以上より
 P(x_1,\cdots,x_n |n,p,T(X)=t)=\frac{P(T(X)=t |n,p)}{P(x_1,\cdots,x_n,T(X)=t |n,p)}=\frac{1}{\begin{eqnarray*}
  && {}_n C _t \\
\end{eqnarray*}} 1_{\{T(x)=t\}}=P(x_1,\cdots,x_n |n,T(X)=t)

確かに示せました。

統計検定1級対策問題集~ベータ分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回はベータ分布関連。
ガンマ分布の時と同様、部分積分をループさせる計算がいっぱい出てきます。
ベータ分布は部分積分ゲーなので、手を動かして慣れるのが良いかと思います。


スポンサーリンク


目次

ベータ分布の特徴

 f(x) =\frac{x^{\alpha-1} (1-x)^{\beta-1}}{B(\alpha,\beta)}
ただし B(\alpha,\beta)=\int_{0}^1 x^{\alpha-1} (1-x)^{\beta-1}dx

・連続値の分布
 0<x<1
 \alpha,\betaは正

非常にゴチャついていて、嫌になるかもしれませんが、よく見てください。
 B(\alpha,\beta)は単なる正規化定数(積分したらうまく1になるよう調整するための定数)に過ぎず、分布の本体は x^{\alpha-1} (1-x)^{\beta-1}であることがわかります。そう思うと、とっつきにくさは多少和らぐのではないでしょうか。

正規化定数の計算

ベータ分布の期待値や分散の導出、その他様々な計算で、次の性質を利用します。

 B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

 \Gamma()はガンマ関数です。ガンマ分布の記事で嫌というほど使いましたね笑

まず、この性質について確認します。

 B(\alpha,\beta)=\int_{0}^1 x^{\alpha-1} (1-x)^{\beta-1}dx

 =\int_{0}^1 (\frac{1}{\alpha})^{'} (1-x)^{\beta-1} dx

 =\int_{0}^1 \frac{\beta-1}{\alpha} x^{\alpha} (1-x)^{\beta-2}dx

=\int_{0}^1 \frac{(\beta-1)(\beta-2)}{\alpha(\alpha+1)} x^{\alpha+1}(1-x)^{\beta-3}dx

 \cdots

 =\int_{0}^1 \frac{ \Gamma(\beta) \Gamma(\alpha) }{ \Gamma(\alpha+\beta-1) }  x^{\alpha+\beta-2} dx

 =\frac{\Gamma(\beta) \Gamma(\alpha)}{\Gamma(\alpha+\beta)}

モーメント周りの計算

積率母関数は、存在するのですが導出しません。
というのも、ベータ分布の積率母関数はウィキか何かで調べてもらえればわかる通り、複雑すぎて役に立ちません。
実際公式テキスト(2015年出版時点)でも、ベータ分布の積率母関数は一切触れられず、スルーされています。
まあ、なので導出する必要もないだろうというわけで省略します。

期待値の導出

定義に従った計算

定義に従って期待値を求めてみます。
 E[x]=\frac{1}{B(\alpha,\beta)}\int_{0}^1 x^{\alpha} (1-x)^{\beta-1}dx

これも、さっき導出した B(\alpha,\beta)の計算と同様の手順をひたすら繰り返すと、

 = \frac{1}{B(\alpha,\beta)} \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \frac{\alpha}{\alpha+\beta}

 = \frac{\alpha}{\alpha+\beta}


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[x^2] -(E[x])^2

 E[x^2] =\frac{1}{B(\alpha,\beta)}\int_{0}^1 x^{\alpha+1} (1-x)^{\beta-1}dx

これも、次数がズレただけでさっきと同じ部分積分の繰り返しですね。打ち込むのが大変なので省略します笑
一回は出しておいた方が良いと思います。

計算してやると

 Var[x]=\frac{\alpha \beta}{(\alpha+\beta)^2 (\alpha+\beta+1)}

になるはずです。


ベータ分布の導出

実は、ベータ分布は2つの独立なガンマ分布に従う確率変数を用いて導出出来ます。
 x_1 ~ Ga(\alpha_1,\beta)
 x_2 ~ Ga(\alpha_2,\beta)

について、
 X=\frac{x_1}{x_1+x_2}

 Y=x_1+x_2

と置きます。

この時、逆変換した際のヤコビアンは Yなので


 f(X,Y) = Y \frac{\beta^{\alpha_1}}{\Gamma(\alpha_1)} (XY)^{\alpha_1-1}exp(-\beta (XY)) \frac{\beta^{\alpha_2}}{\Gamma(\alpha_2)} (Y(1-X))^{\alpha_2-1} exp(-\beta Y(1-X))

 = \frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)} X^{\alpha_1-1}(1-X)^{\alpha_2-1} Y^{\alpha_1+\alpha_2-1} exp(-\beta Y)

 \frac{\beta^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1+\alpha_2)}  Y^{\alpha_1+\alpha_2-1} exp(-\beta Y)   \frac{X^{\alpha_1-1}(1-X)^{\alpha_2-1}}{B(\alpha_1,\alpha_2)}

はい、見事にガンマ分布の密度関数とベータ分布の密度関数の積に分解することが出来ました。あとはXに関して周辺分布を考えてやればよく、ガンマ分布の密度関数は全範囲で積分すると1になるので

Xはベータ分布に従います。

ちなみに、Yがガンマ分布に従うのは、ガンマ分布の再生性からある意味で自明ですね。




ベータ分布と二項分布の関係

ベータ分布の上側確率は二項分布の確率関数の和と解釈出来ます。

 \int_{p}^{1} \frac{x^{k-1} (1-x)^{n-k}}{B(k,n-k+1)}dx =\begin{eqnarray*}
  && {}_n C _{k-1} \\
\end{eqnarray*} p^{k-1} (1-p)^{n-k+1} + \int_{p}^{1} \frac{x^{k-2}(1-x)^{n-k+1}}{B(k-1,n-k+2)} dx

 \cdots

=\sum_{z=0}^{k-1} \begin{eqnarray*}
  && {}_n C _{z} \\  \end{eqnarray*} p^z (1-p)^{n-z}


リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回はガンマ分布関連。
ガンマ関数の処理に慣れるまでは難しいかもしれません。


スポンサーリンク


目次

ガンマ分布の特徴

 f(x) =\frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}exp(-\beta x)

・連続値の分布
 x >0
 \alpha,\betaは正
 \Gamma(\alpha)=\int_{0}^{\infty} t^{\alpha-1}exp(-t) dt

ガンマ関数は、階乗を一般化したものです。


モーメント周りの計算

積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

計算していきます。

 E[exp(tx)]=\int_{0}^{\infty} \frac{\beta^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} exp(tx-\beta x) dx

 = \int_{0}^{\infty} \frac{\beta^{\alpha}}{\Gamma(\alpha) (\beta-t)^{\alpha-1}} ((\beta-t) x)^{\alpha-1} exp(tx-\beta x) dx

 = \frac{\beta^{\alpha}}{\Gamma(\alpha) (\beta-t)^{\alpha-1}} \int_{0}^{\infty}  ((\beta-t) x)^{\alpha-1} exp(-(\beta-t) x) dx

 =\frac{\beta^{\alpha}}{\Gamma(\alpha) (\beta-t)^{\alpha}}  \int_{0}^{\infty}  ((\beta-t) x)^{\alpha-1} exp(-(\beta-t) x) d((\beta-t)x)

 =\frac{\beta^{\alpha} \Gamma(\alpha)}{\Gamma(\alpha) (\beta-t)^{\alpha}}

 =(\frac{\beta}{\beta-t})^{\alpha}


期待値の導出

定義に従った計算

定義に従って期待値を求めてみます。
 E[x]=\int_{0}^{\infty} \frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{\alpha} exp(-\beta x) dx

 =\frac{1}{\Gamma(\alpha)} \int_{0}^{\infty} (\beta x)^{\alpha} exp(-\beta x) dx

 = \frac{1}{\beta \Gamma(\alpha)} \int_{0}^{\infty} (\beta x)^{\alpha} exp(-\beta x) d(\beta x)

 =\frac{\Gamma(\alpha+1)}{\Gamma(\alpha) \beta}

 =\frac{\alpha}{\beta}


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[x^2] -(E[x])^2

 E[x^2] =\int_{0}^{\infty} \frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{\alpha+1} exp(-\beta x) dx

 = \int_{0}^{\infty} \frac{1}{\beta \Gamma(\alpha)} (\beta x)^{\alpha+1} exp(-\beta x) dx

 = \frac{1}{\beta^2 \Gamma(\alpha)} \int_{0}^{\infty}  (\beta x)^{\alpha+1} exp(-\beta x) d(\beta x)

 = \frac{\Gamma(\alpha+2)}{\beta^2 \Gamma(\alpha)}

 \frac{\alpha(\alpha+1)}{\beta^2}

 Var[x] = \frac{\alpha(\alpha+1)}{\beta^2} - \frac{\alpha^2}{\beta^2}=\frac{\alpha}{\beta^2}


ガンマ分布の再生性について

 x_1 ~ Ga(\alpha_1,\beta)
 x_2 ~ Ga(\alpha_2,\beta)

に関して、ガンマ分布は再生性がある。これは先ほど導出した積率母関数を考えると明らかで、

 (\frac{\beta}{\beta-t})^{\alpha_1} (\frac{\beta}{\beta-t})^{\alpha_2}=(\frac{\beta}{\beta-t})^{\alpha_1+\alpha_2}

積率母関数と分布は1対1対応するため、 x_1+x_2もガンマ分布することがわかる。

ガンマ分布とポアソン分布の関係

ガンマ分布の上側確率は適当な仮定のもとでポアソン確率関数の和と解釈出来ます。
この性質はポアソン過程を考える際に用います。


まず、 \alphaを1以上の正整数とする。そして正の実数 \omegaを用意して、次のようなものを考える。

 \int_{\omega}^{\infty} f(x) dx =\int_{\omega}^{\infty} \frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}exp(-\beta x) dx

 = -\int_{\omega}^{\infty} \frac{1}{\Gamma(\alpha)} (\beta x)^{\alpha-1} (exp(-\beta x))^{'} dx

 =-\{ [ \frac{(\beta x)^{\alpha-1}}{ exp(\beta x)\Gamma(\alpha)} ]_{\omega}^{\infty} - \int_{\omega}^{\infty} \frac{\alpha-1}{\Gamma(\alpha)}  (\beta x)^{\alpha-2} exp(-\beta x) dx \}

 =\frac{(\beta \omega)^{\alpha-1}  exp(-\beta \omega)}{ (\alpha-1)!} + \int_{\omega}^{\infty} \frac{1}{\Gamma(\alpha-1)}  (\beta x)^{\alpha-2} exp(-\beta x) dx

 =\frac{(\beta \omega)^{\alpha-1}  exp(-\beta \omega)}{ (\alpha-1)!} + \frac{(\beta \omega)^{\alpha-2}  exp(-\beta \omega)}{ (\alpha-2)!} + \cdots +\frac{(\beta \omega)^{\alpha-\alpha}  exp(-\beta \omega)}{ (\alpha-\alpha)!}

 =\sum_{k=0}^{\alpha-1} \frac{(\beta \omega)^k  exp(-\beta \omega)}{ k!}

これはパラメータ \beta \omegaのポアソン確率関数の和。


リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は指数分布関連。
今回はそんなに難しい話はないです。



スポンサーリンク


目次

指数分布の特徴

 f(x) =\lambda exp(-\lambda x)

・連続値の分布
 x \in[0,\infty)


モーメント周りの計算

積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

計算していきます。

 E[exp(tx)]=\int_{0}^{\infty} \lambda exp(-\lambda x +tx ) dx

 =[\frac{\lambda}{t-\lambda} exp((t-\lambda)x) ]_{0}^{\infty}

ここで積率母関数のtは 0の近傍で定義されるため、
 t≦\lambda

 = \frac{\lambda}{\lambda-t}

期待値の導出

定義に従った計算

まず、定義に従って期待値を求めてみます。
 E[x]=\int_{0}^{\infty} \lambda x exp(-\lambda x) dx

 = -\int_{0}^{\infty} x (-\lambda exp(-\lambda x)) dx

 =-\{ [x exp(-\lambda x) ]_{0}^{\infty} - \int_{0}^{\infty}  exp(-\lambda x) dx \}

 =-\{0 -[ \frac{1}{-\lambda} exp(-\lambda x) ]_{0}^{\infty} \}

 =\frac{1}{\lambda}


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[x^2] -(E[x])^2

 E[x^2] = \int_{0}^{\infty} \lambda x^2 exp(-\lambda x) dx

 =-\{ [x^2 exp(-\lambda x) ]_{0}^{\infty} -2\int_{0}^{\infty}  x exp(-\lambda x) dx \}

 = -\{0-\frac{2}{\lambda} E[x] \}

 =\frac{2}{\lambda^2}

 Var[x]=\frac{2}{\lambda^2} -\frac{1}{\lambda^2}=\frac{1}{\lambda^2}



指数分布の無記憶性の証明

指数分布には、無記憶性という特殊な性質があります。これは、どういう性質かというと次のような性質を指します。

 Prob(x>M)=\int_{M}^{\infty} \lambda exp(-\lambda x)dx

というようなM以上になる確率があるとします。ここで、 M=m_1+m_2とし、

 Prob(x>m_1+m_2)

を考えます。

ここで、追加的にどうやら x m_2より大きいらしいということがわかったとします。

つまり、このような条件付確率を考えます。

 Prob(x>m_1+m_2| x>m_2)

感覚的には Prob(x>m_1) Prob(x>m_1+m_2| x>m_2)では異なっていそうですが、指数分布を仮定した場合、この二つは同値になります。このことを示します。

 Prob(x>m_1)=\int_{m_1}^{\infty} \lambda x exp(-\lambda x)dx

 =exp(-\lambda m_1)

更に、

 Prob(x>m_1+m_2| x>m_2)=\frac{Prob(x>M)}{Prob(x>m_2)}=\frac{exp(-\lambda (m_1+m_2) )}{exp(-\lambda m_2)}=exp(-\lambda m_1)=Prob(x>m_1)


リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は正規分布関連。
多変量正規分布はまた別記事でやるとして、今回は1変量の正規分布周りで必要な話を導出しておきます。



スポンサーリンク


目次

正規分布の特徴

 f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})

・連続値の分布
 x \in \mathbb{R}
 \sigma≧0


モーメント周りの計算

積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

計算していきます。

 E[exp(tx)]=\int_{-\infty}^{\infty} \frac{exp(tx)}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx

 =\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} exp(tx-\frac{(x-\mu)^2}{2 \sigma^2}) dx

 z=\frac{x-\mu}{\sigma}とおくと、

 =\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} exp(t\sigma z +t \mu-\frac{z^2}{2}) dz

 = exp(t\mu) \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} exp(-\frac{1}{2} \{ (z-t \sigma)^2 -t^2 \sigma^2\}) dz

 Z=z-t \sigmaとおくと、

 = exp(t\mu +\frac{t^2 \sigma^2}{2}) \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} exp(-\frac{1}{2}  Z^2 ) dZ

 = exp(t\mu +\frac{t^2 \sigma^2}{2})…(標準正規密度関数の和は1)

期待値の導出

定義に従った計算

まず、定義に従って期待値を求めてみます。
 E[x]=\int_{-\infty}^{\infty} \frac{x}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx

 =\int_{-\infty}^{\infty} \frac{(x-\mu+\mu}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx

 =\int_{-\infty}^{\infty} \frac{(x-\mu}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx +\mu

 z=\frac{x-\mu}{\sigma}とおくと、

 = \int_{-\infty}^{\infty} \frac{\sigma z}{\sqrt{2 \pi}} exp(-\frac{z^2}{2}) dz +\mu

 = -\frac{\sigma}{\sqrt{2 \pi}}\int_{-\infty}^{\infty} (-z) exp(-\frac{z^2}{2}) dz +\mu

 = -\frac{\sigma}{\sqrt{2 \pi}} [exp(-\frac{z^2}{2}) ]_{-\infty}^{\infty} +\mu

 =\mu



スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=\int_{-\infty}^{\infty} \frac{(x-\mu)^2}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx

ここで、 z=\frac{x-\mu}{\sigma}とおくと

 Var[x]=\sigma^2 \int_{-\infty}^{\infty} \frac{z^2}{\sqrt{2 \pi}} exp(-\frac{z^2}{2}) dz

 = -\sigma^2 \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \{z(-z exp(-\frac{z^2}{2}))\} dz

ここで \int f^{'} ・ g=[f ・ g] -\int f ・ g^{'}を用いて

 = -\sigma^2\{ \frac{1}{\sqrt{2 \pi}} [z exp(-\frac{z^2}{2})]_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\infty} exp(-\frac{z^2}{2}) dz \}

 =\sigma^2  \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} exp(-\frac{z^2}{2}) dz

 =\sigma^2

正規分布の再生性の証明

先ほど示したように、積率母関数は次のようでした。

 exp(t\mu +\frac{t^2 \sigma^2}{2})

異なる二つの正規分布の積率母関数の積は次のよう。

 exp(t(\mu_1+\mu_2) +\frac{t^2 (\sigma_1^2 +\sigma_2^2))}{2})

これはやはり正規分布。
積率母関数の一意性より、再生性が示せた。

リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は負の二項分布関連。
統計検定1級は、割と分布の畳み込みと、モーメント関連の計算、近似計算が出来ればそこそこいけるので、その辺の計算問題を一通り用意しました。



スポンサーリンク


目次

負の二項分布の特徴

 P(x) = \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

・離散値の分布
 x ≧0
 p \in [0,1]
 r≧0


モーメント周りの計算

確率母関数の導出

確率母関数の定義は次の通りでした。
 E[t^x]

これを計算します。
 E[t^x]=\sum_{x=0}^{\infty} t^x \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

 = \sum_{x=0}^{\infty} \frac{(x+r-1)!}{x!(r-1)!} p^{r} \{t(1-p)\}^{x}

 =p^r \sum_{x=0}^{\infty} \frac{(x+r-1)!}{x!(r-1)!} \{t(1-p)\}^{x}

 =p^r \{\frac{1}{1-t(1-p)} \}^{r-1+1}…(一般二項定理)

 = \{\frac{p}{1-t(1-p)} \}^r


積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

確率母関数の時と同様の計算で出来ます。
 E[e^{tx}]= \sum_{x=0}^{\infty} e^{tx} \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

 = \sum_{x=0}^{\infty} \frac{(x+r-1)!}{x!(r-1)!} p^{r} \{ e^t (1-p) \}^x

 = p^r \{\frac{1}{1-e^t(1-p)}\}^r…(一般二項定理)

 \{ \frac{p}{1-e^t(1-p)}\}^r



期待値の導出

定義に従った計算

まず、定義に従って期待値を求めてみます。
 E[x]= \sum_{x=0}^{\infty} x \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

 = r p^r (1-p) \sum_{x=1}^{\infty} \frac{(x+r-1)!}{(x-1)! r!} (1-p)^{x-1}

 =r p^r (1-p) \{\frac{1}{1-(1-p)}\}^{r+1} …(一般二項定理)

 =\frac{r(1-p)}{p}


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[(x-E[x])^2]=E[x^2-2xE[x]+E[x]^2]=E[x^2]-E[x]^2

ここで

 E[x(x-1)]= \sum_{x=0}^{\infty} x(x-1) \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

 = \sum_{x=2}^{\infty} \frac{x+r-1}{(x-2)! (r-1)!} p^r (1-p)^{x}

 = r(r+1) p^r (1-p)^2  \sum_{x=2}^{\infty} \frac{x+r-1}{(x-2)! (r+1)!}  (1-p)^{x}

 = r(r+1) p^r (1-p)^2 \{\frac{1}{1-(1-p)}\}^{r+2}

 =r(r+1) \{\frac{1-p}{p}\}^2

 Var[x]= r(r+1) \{\frac{1-p}{p}\}^2 + \frac{r(1-p)}{p} -\{\frac{r(1-p)}{p}\}^2

 =\frac{r(1-p)}{p^2}


ポアソン分布とガンマ分布を用いた負の二項分布の導出

ポアソン分布のパラメータ \lambdaの事前分布にガンマ分布を与えると、周辺分布が負の二項分布になります。
これを示します。

 x ~ Poi(\lambda) = \frac{e^{-\lambda} \lambda^x}{x!}

 \lambda ~ NB(\alpha,\beta) = \frac{\beta^{\alpha}}{\Gamma(\alpha)}\lambda^{\alpha-1} e^{-\beta \lambda}

 \int_0^{\infty}  \frac{e^{-\lambda} \lambda^x}{x!}  \frac{\beta^{\alpha}}{\Gamma(\alpha)}\lambda^{\alpha-1} e^{-\beta \lambda} d\lambda

 = \frac{\beta^{\alpha}}{x! \Gamma(\alpha)} \int_0^{\infty} \lambda^{x+\alpha-1} e^{-\lambda(1+\beta)} d\lambda

ここで、 \theta = \lambda(1+\beta)とおくと、

 =\frac{\beta^{\alpha}}{x! \Gamma(\alpha) (1+\beta)^{x+\alpha}} \int_0^{\infty} \theta^{x+\alpha-1} e^{-\theta} d\theta

 =\frac{\Gamma(x+\alpha)}{x! \Gamma(\alpha)} \{\frac{1}{1+\beta}\}^x \{ \frac{\beta}{1+\beta} \}^{\alpha}

これは負の二項分布。


負の二項分布の再生性の証明

先ほど示したように、積率母関数は次のようでした。

 \{ \frac{p}{1-e^t(1-p)}\}^r


 \{ \frac{p}{1-e^t(1-p)}\}^{r_1}\{ \frac{p}{1-e^t(1-p)}\}^{r_2}

 = \{\frac{p}{1-e^t(1-p)}\}^{r_1+r_2}

これはやはり負の二項分布。



積率母関数の一意性より、再生性が示せた。

リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回はポアソン分布関連。
統計検定1級は、割と分布の畳み込みと、モーメント関連の計算、近似計算が出来ればそこそこいけるので、その辺の計算問題を一通り用意しました。



スポンサーリンク


目次

ポアソン分布の特徴

 P(x) = \frac{e^{-\lambda} \lambda^x}{x!}

・離散値の分布
 x ≧0
 \lambdaは0以上の連続値


モーメント周りの計算

確率母関数の導出

確率母関数の定義は次の通りでした。
 E[t^x]

これを計算します。
 E[t^x]=\sum_{x=0}^{\infty} t^x \frac{e^{-\lambda} \lambda^x}{x!}

 = e^{-\lambda} \sum_{x=0}^{\infty} \frac{ (t \lambda)^x}{x!}

 =e^{-\lambda} e^{t \lambda}

 = e^{\lambda (t-1)}


積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

確率母関数の時と同様の計算で出来ます。
 E[e^{tx}]=\sum_{x=0}^{\infty} e^{tx} \frac{e^{-\lambda} \lambda^x}{x!}

 = e^{-\lambda} \sum_{x=0}^{\infty} \frac{ (e^t \lambda)^x}{x!}

 =e^{-\lambda} e^{e^t \lambda}

 = e^{\lambda (e^t-1)}

キュムラント母関数

後で使うのでついでにキュムラント母関数も定義しておきます。
これは、積率母関数に対して対数を取ったもので、次のように得られます。

積率母関数は e^{\lambda (e^t-1)}なので、

キュムラント母関数は \lambda (e^t-1)

期待値の導出

定義に従った計算

まず、定義に従って期待値を求めてみます。
 E[x]=\sum_{x=0}^{\infty} x \frac{e^{-\lambda} \lambda^x}{x!}

 = \sum_{x=1}^{\infty}  x \frac{e^{-\lambda} \lambda^x}{x!}

 =\lambda \sum_{x=1}^{\infty}  \frac{e^{-\lambda} \lambda^{x-1}}{(x-1)!}

 =\lambda e^{-\lambda} \sum_{x-1=0}^{\infty}  \frac{ \lambda^{x-1}}{(x-1)!}

 =\lambda e^{-\lambda} e^{\lambda}

 =\lambda

確率母関数を用いた導出

確率母関数は、微分して、tに1を代入することで、期待値が出ます。

ポアソン分布の確率母関数は
  e^{\lambda (t-1)}
でした。そこで、

 \frac{d e^{\lambda (t-1)}}{dt}=\lambda e^{\lambda (t-1)}

 t=1を代入すると期待値 \lambdaが得られる。

積率母関数を用いた導出

積率母関数は、微分して、tに0を代入することで、期待値が出ます。

ポアソン分布の積率母関数は、先ほど導出した通り
 e^{\lambda (e^t-1)}

そこで、
 \frac{d e^{\lambda (e^t-1)}}{dt} = \lambda  (e^t) e^{\lambda (e^t-1)}

 t=0を代入してやると期待値 \lambdaが得られる。

スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[(x-E[x])^2]=E[x^2-2xE[x]+E[x]^2]=E[x^2]-E[x]^2

 E[x(x-1)]=\sum_{x=0}^{\infty} x(x-1) \frac{e^{-\lambda} \lambda^x}{x!}

 = \lambda^2 \sum_{x=2}^{\infty} \frac{e^{-\lambda} \lambda^{x-2}}{(x-2)!}=\lambda^2

以上より、

 Var[x]=\lambda^2 +\lambda -\lambda^2=\lambda

確率母関数を用いた導出

確率母関数は二回微分することで次のような形になります。

 \frac{d^2E[t^x]}{dt^2}=E[x(x-1)t^{x-2}]

例のごとく t=1を代入すると

 E[x(x-1)]=E[x^2]-E[x]

この性質を利用します。

 \frac{d^2 e^{\lambda (t-1)}}{dt^2}=\lambda^2 e^{\lambda (t-1)}

 t=1を代入すると、 E[x(x-1)] = \lambda^2

以上より
 Var[x]=\lambda^2 +\lambda -\lambda^2=\lambda


積率母関数を用いた導出

積率母関数は二回微分することで次のようになります。

 \frac{d^2E[exp(tx)]}{dt^2}=E[x^2 exp(tx)]

 t=0を代入すると、 E[x^2]になりますね。この性質を利用します。

ポアソン分布の積率母関数は、先ほど導出した通り
 e^{\lambda (e^t-1)}

そこで、
 \frac{d^2 e^{\lambda (e^t-1)}}{dt^2} = \lambda  (e^t) e^{\lambda (e^t-1)}+\lambda^2 (e^t)^2 e^{\lambda (e^t -1)}

 t=0を代入すると、

 E[x^2] =\lambda^2 +\lambda



歪度の導出

歪度あたりから、定義通り計算するのも面倒になってくるので、積率母関数を利用することにします。

 E[\frac{(x-E[x])^3}{\sigma^3}] = \frac{E[x^3]-3E[x^2]E[x]+2E[x]^3}{\sigma^3}

 E[x^3]さえ求めればよいことがわかりますね。
積率母関数を3回微分してやって、

 \lambda e^t e^{\lambda (e^t-1)}+\lambda^2 (e^t)^2 e^{\lambda (e^t-1)}+2\lambda^2 e^t e^{\lambda (e^t -1)} + \lambda^3 (e^t)^3 (e^{\lambda (e^t-1)})^2

 t=0を代入すると

 E[x^3]=\lambda+3 \lambda^2 + \lambda^3

よって、歪度は次のように得られる。

 \frac{\lambda^3+3\lambda^2+\lambda-3\lambda(\lambda^2+\lambda)+2\lambda^3}{\lambda^3}=\lambda^{-\frac{1}{2}}


スポンサーリンク


二項分布を用いたポアソン分布の導出

二項分布に対して次のような仮定を施すとき、ポアソン分布が得られます。

 n\to \infty
 
  \lim_{n \to \infty} np
 =\lambda

これを示します。

ここで、二項分布の確率分布関数は次のようでした。
 P(x) = \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}


次のように変形していきます。
 P(x) = \frac{n!}{x!(n-x)!} p^x (1-p)^{n-x}

 =\frac{n \cdot (n-1) \cdots (n-x+1)}{x!} p^x (1-p)^{n-x}

 =\frac{np \cdot (n-1)p \cdots (n-x+1)p}{x!} \frac{ (1-p)^n}{(1-p)^x}

更に、
 
  \lim_{n \to \infty} np \cdot (n-1)p \cdots (n-x+1)p=\lambda^x

 
  \lim_{n \to \infty}  \frac{ (1-p)^n}{(1-p)^x} =  \lim_{n \to \infty} \frac{ (1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^x} =e^{-\lambda}

よって

  \lim_{n \to \infty} P(x) = \frac{e^{-\lambda} \lambda^x}{x!}



ポアソン分布の再生性の証明

 Z_1がポアソン分布 Pois(\lambda_1) Z_2がポアソン分布 pois(\lambda_2)に従うとする。

この時、次のようにおく。

 u=Z_1+Z_2,v=Z_2

ここで、
 Z_1=u-v,Z_2=v

ヤコビアン |J|は1なので、

この時 u,vの同時分布 f_{u,v}は次のよう

 f_{u,v}=\frac{e^{-\lambda_1} \lambda_1^{u-v}}{(u-v)!} \frac{e^{-\lambda_2} \lambda_2^{v}}{v!}

よって、周辺分布 f_{u}は次のよう。

 f_{u} = \sum_{v=0}^{\infty} f_{u,v} = \sum_{v=0}^{\infty} \frac{ \begin{eqnarray*}
  && {}_u C _v \\
\end{eqnarray*} \lambda_1^{u-v} \lambda_2^{v}}{u!} e^{-(\lambda_1+\lambda_2)}

 = \frac{e^{-(\lambda_1+\lambda_2)} (\lambda_1+\lambda_2)^u}{u!} …(二項定理より)

これは、ポアソン分布。

ポアソン分布の正規近似

n→∞のケース

 n→\inftyでポアソン分布は正規分布に近似します。
これを示します。中心極限定理まで証明している時間は無いはずなので、中心極限定理の証明まではしません。

 Yがポアソン分布に従うとする。
ポアソン分布には再生性があることを先ほど示したので、

 X_1,\cdots ,X_nが独立同一にポアソン分布 Pois(\frac{\lambda}{n})に従うものとして、

 Y=\sum_{i=1}^{n} X_iと書ける。

ここで、 Yの分布関数 P(Y≦y)について

 P(Y≦y)=P(\sum_{i=1}^{n} X_i ≦y)=P(\frac{\sum_{i=1}^{n} (X_i-\frac{\lambda}{n})}{\sqrt{n} \sqrt{\frac{\lambda}{n}}} ≦\frac{y-\lambda}{\sqrt{\lambda}})=P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-\frac{\lambda}{n})}{ \sqrt{\frac{\lambda}{n}}}  ≦\frac{y-\lambda}{\sqrt{\lambda}})

中心極限定理より、
 P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-\frac{\lambda}{n})}{ \sqrt{\frac{\lambda}{n}}}  ≦\frac{y-\lambda}{\sqrt{\lambda}})≃\Phi(\frac{y-\lambda}{\sqrt{\lambda}})

λ→∞のケース

ポアソン分布はλを無限に飛ばしても正規近似します。これは、過去問でも出題されていましたね。

標準正規分布のキュムラント母関数は
 \frac{t^2}{2!}
です。

キュムラント母関数は分布と1対1対応するので、ポアソン分布のキュムラント母関数が、λを無限に飛ばすことで正規分布のものと一致することを示せばよいということになります。

 X がポアソン分布に従うとする。ここで、標準化したものを Zとおく。

 Z=\frac{X-\lambda}{\sqrt{\lambda}}

この時 Zのキュムラント母関数は

 log(E[e^{tZ}]=log(E[ e^{\frac{tX}{\sqrt{\lambda}}} e^{\frac{-t\lambda}{\sqrt{\lambda}}} ]) =-t \sqrt{\lambda} +\lambda(e^{\frac{t}{\sqrt{\lambda}}}-1)

ここで、tに関してマクローリン展開すると

 log(E[e^{tZ}]) = \frac{t^2}{2!}+\frac{1}{\sqrt{\lambda}}\frac{t^3}{3!}+o(\frac{1}{\sqrt{\lambda}})

 \lambda \to \inftyの時、 \frac{t^2}{2!}

これは、標準正規分布のキュムラント母関数。

リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~二項分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は二項分布関連。
統計検定1級は、割と分布の畳み込みと、モーメント関連の計算、近似計算が出来ればそこそこいけるので、その辺の計算問題を一通り用意しました。



スポンサーリンク


目次

二項分布の特徴

 P(x) = \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

・離散値の分布
 x ≧0,n-x≧0
・nは正の整数
 p \in [0,1]


モーメント周りの計算

確率母関数の導出

確率母関数の定義は次の通りでした。
 E[t^x]

これを計算します。
 E[t^x]=\sum_{x=0}^{n} t^x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=0}^{n} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} (tp)^x (1-p)^{n-x}

 =(1-p+tp)^n…二項定理より


積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

確率母関数の時と同様の計算で出来ます。
 E[exp(tx)]=\sum_{x=0}^{n} exp(tx) \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=0}^{n} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} (exp(t)p)^x (1-p)^{n-x}

 =(1-p+exp(t)p)^n…二項定理より


期待値の導出

定義に従った計算

まず、普通に定義に従って導出してみます。

 E[x] = \sum_{x=0}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=1}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=1}^{n}  \frac{x n!}{x! (n-x)!} p^x (1-p)^{n-x}

 =np \sum_{x=1}^{n}  \frac{(n-1)!}{(x-1)! \{(n-1)-(x-1)\}!} p^{x-1} (1-p)^{\{(n-1)-(x-1)\}}

 =np \sum_{x-1=0}^{n-1}  \begin{eqnarray*}
  && {}_{n-1} C _{x-1} \\
\end{eqnarray*} p^{x-1} (1-p)^{\{(n-1)-(x-1)\}}

 =np (p+1-p)^{n-1} …二項定理より

 =np


確率母関数を用いた導出

確率母関数は、微分して、tに1を代入することで、期待値が出ます。つまり

 \frac{dE[t^x]}{dt}=E[xt^{x-1}]

これは、 t=1の時、 E[x]になりますよね。


二項分布の確率母関数は先ほど計算したように次のようでした。
 (1-p+tp)^n

そこで、
 \frac{d(1-p+tp)^n}{dt}=np(1-p+tp)^{n-1}より

 t=1を代入すると

 E[x]=np


積率母関数を用いた導出

積率母関数は、微分して、tに0を代入することで、期待値が出ます。つまり

 \frac{dE[exp(tx)]}{dt}=E[xexp(tx)]

これは、 t=0の時、 E[x]になりますよね。


二項分布の積率母関数は先ほど計算したように次のようでした。
 (1-p+exp(t)p)^n

そこで、
 \frac{d(1-p+exp(t)p)^n}{dt}=n exp(t)p(1-p+exp(t)p)^{n-1}より

 t=0を代入すると

 E[x]=np


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[(x-E[x])^2]=E[x^2-2xE[x]+E[x]^2]=E[x^2]-E[x]^2

 E[x]=npであることは、先ほどの計算で分かっているので、 E[x^2]を求めます。


 E[x^2] = \sum_{x=0}^{n} x^2 \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} \{x(x-1)+x\} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} x(x-1) \begin{eqnarray*}
  && {}_n C _x \\ \end{eqnarray*}
 p^x (1-p)^{n-x} +  \sum_{x=0}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} x(x-1) \frac{n!}{(n-x)! x!}
 p^x (1-p)^{n-x} +E[x]

 = \sum_{x=2}^{n} x(x-1) \frac{n!}{(n-x)! x!}
 p^x (1-p)^{n-x} +E[x]

 = n(n-1)p^2\sum_{x=2}^{n} \frac{(n-2)!}{(n-x)! (x-2)!}
 p^{x-2} (1-p)^{n-x} +E[x]

 = n(n-1)p^2 (p+1-p)^{n-2} + E[x]…二項定理(期待値の時のと同じ仕組み)

 = n(n-1)p^2+np


以上より、 Var[x]=np(1-p)


確率母関数を用いた導出

確率母関数は二回微分することで次のような形になります。

 \frac{d^2E[t^x]}{dt^2}=E[x(x-1)t^{x-2}]

例のごとく t=1を代入すると

 E[x(x-1)]=E[x^2]-E[x]

この性質を利用します。

二項分布の確率母関数は先ほど導出した通り次のようでした
 (1-p+tp)^n

 \frac{d^2 (1-p+tp)^n}{dt^2} = n(n-1)p^2 (1+tp-p)^{n-2}

 t=1を代入すると

 E[x^2]-E[x]=n(n-1)p^2

よって E[x^2]=n(n-1)p^2+np

以上より、 Var[x]=np(1-p)


積率母関数を用いた導出

積率母関数は二回微分することで次のようになります。

 \frac{d^2E[exp(tx)]}{dt^2}=E[x^2 exp(tx)]

 t=0を代入すると、 E[x^2]になりますね。この性質を利用します。


二項分布の積率母関数 (1-p+exp(t)p)^nを二回微分すると次のよう。


 \frac{d^2 (1-p+exp(t)p)^n}{dt^2}=npe^t (1-p+e^t p)^{n-1} + n(n-1) (e^t p)^2 (1-p+e^t p)^{n-2}

 t=0を代入すると

 E[x^2]=n(n-1)p^2+np

以上より、 Var[x]=np(1-p)


歪度の導出

歪度あたりから、定義通り計算するのも面倒になってくるので、積率母関数を利用することにします。

 E[\frac{(x-E[x])^3}{\sigma^3}] = \frac{E[x^3]-3E[x^2]E[x]+2E[x]^3}{\sigma^3}

 E[x^3]さえ求めればよいことがわかりますね。
積率母関数を3回微分してやって、

 \frac{d^3 (1-p+exp(t)p)^n}{dt^3}
 =npe^t (1-p+e^t p)^{n-1} +3n(n-1)(e^t p)^2 (1-p+e^t p)^{n-2} +n(n-1)(n-2) (e^t p)^3 (1-p+e^t p)^{n-3}

 t=0と置くと E[x^3]が次のように得られます。

 E[x^3]=np+3n(n-1)p^2+n(n-1)(n-2)p^3

以上より、 E[\frac{(x-E[x])^3}{\sigma^3}] =\frac{np(2p-1)(p-1)}{np(1-p) \sqrt{np(1-p)}}


スポンサーリンク


ベルヌーイ分布を用いた二項分布の導出

独立同一にベルヌーイ分布に従う確率変数 X_1,X_2,\cdots ,X_nの和

 S_n=\sum_{i=1}^{n} X_i

が二項分布に従うことを示します。


まず、 u_1 = X_1+X_2,v_1=X_2と置くことにします。
この時

 X_1=u_1-v_1,X_2=v_1より、

ヤコビアン |J|

 |J|=1

よって、 u_1,v_1の同時分布 f_{u_1,v_1}は次のよう

 f_{u_1,v_1}=|J| p^{X_1} (1-p)^{1-X_1} p^{X_2} (1-p)^{1-X_2}=p^{u_1}(1-p)^{2-u_1}

周辺分布 f_{u_1}は次のように得られる。

 f_{u_1}=\sum_{v_1=0}^{1} f_{u_1,v_1} = \begin{eqnarray*}
  && {}_2 C _{u_1} \\
\end{eqnarray*} p^{u_1}(1-p)^{2-u_1}

よって、 u_1は二項分布に従う。


更に、 u_2 = u_1 +X_3 , v_2=X_3とおき、

同様の計算を行う。 u_2の組を数え上げれば、

 f_{u_2}=\sum_{v_2=0}^{1} f_{u_2,v_2} = \begin{eqnarray*}
  && {}_3 C _{u_2} \\
\end{eqnarray*} p^{u_2}(1-p)^{3-u_2}

これを繰り返すことで、 S_nの分布 f_sは次のように得られる。

 f_s = \begin{eqnarray*}
  && {}_n C _{S_n} \\
\end{eqnarray*} p^{S_n}(1-p)^{n-S_n}

これは、二項分布。


二項分布の再生性の証明

 Z_1が二項分布 Bi(n_1,p) Z_2が二項分布 Bi(n_2,p)に従うとする。

この時、次のようにおく。

 u=Z_1+Z_2,v=Z_2

この時 u,vの同時分布 f_{u,v}は次のよう

 f_{u,v}= \begin{eqnarray*}
  && {}_{n_1} C _{Z_1} \\
\end{eqnarray*}  \begin{eqnarray*}
  && {}_{n_2} C _{Z_2} \\
\end{eqnarray*}  p^{Z_1+Z_2} (1-p)^{n_1+n_2-(Z_1+Z_2)}

この時、 uの密度関数 f_uは次のよう

 f_u=\sum_{v=0}^{1} f_{u,v} = \begin{eqnarray*}
  && {}_{\{n_1+n_2\}} C _{\{Z_1+Z_2\}} \\
\end{eqnarray*}  p^{Z_1+Z_2} (1-p)^{n_1+n_2-(Z_1+Z_2)}


二項分布の正規近似

 n→\inftyで二項分布は正規分布に近似します。
これを示します。中心極限定理まで証明している時間は無いはずなので、中心極限定理の証明まではしません。

 Yが二項分布に従うとする。
二項分布に従う確率変数は、独立同一なベルヌーイ分布の和と見なせることを先ほど示したので、

 X_1,\cdots ,X_nが独立同一にベルヌーイ分布に従うものとして、

 Y=\sum_{i=1}^{n} X_iと書ける。

ここで、 Yの分布関数 P(Y≦y)について

 P(Y≦y)=P(\sum_{i=1}^{n} X_i ≦y)=P(\frac{\sum_{i=1}^{n} (X_i-p)}{\sqrt{n} \sqrt{p(1-p)}} ≦\frac{y-np}{\sqrt{np(1-p)}})=P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-p)}{ \sqrt{p(1-p)}}  ≦\frac{y-np}{\sqrt{np(1-p)}})

中心極限定理より、
 P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-p)}{ \sqrt{p(1-p)}}  ≦\frac{y-np}{\sqrt{np(1-p)}})≃\Phi(\frac{y-np}{\sqrt{np(1-p)}})



リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

企業でのデータ解析は、「動くコードが書ける」だけではダメみたい

こんにちは!
最近ブログの更新が滞ってしまっていて申し訳ないです。

前にもお伝えしていた通り、某社で1か月ほどデータサイエンティストとしてインターンをさせていただいています。

今回は、そこで勤めてみて、初めて知ったことを雑記していこうと思います。


スポンサーリンク



界隈、機械学習屋さんが多い

まず、これについては就活をする中でも感じていましたが、データサイエンティスト界隈、機械学習屋さんが多いですね....

私は統計屋さんとして、インターンに参加したのですが、インターン生もほとんど機械学習屋、社内もほとんどが機械学習屋さんで、思っていたよりずっと比率が高い印象でした。

個人的には、言うて6:4くらいだろうと思っていたのですが、そんなもんじゃなさそうです。

まあ機械学習便利ですもんね。


引継ぎを意識して分析を整理しておく必要がある

これも、実際にお仕事をしてみて初めて知ったことなのですが、(というかまあ考えてみればそらそうだって感じですが)

”分析して、プレゼンして、面白い結果が出たので、実装しましょう終わり”

ではないんですね。その後、本人が居なくとも別の実装に活かせるように、引継ぎ資料を整理しておく必要があるようで、

今回のインターンで初めてmarkdownを書きました!一通りの分析を、書いてあるコードを実行することで試せるように、引継ぎ者に伝わるようにするためには資料作成の力もないといけないらしい。もう少しmarkdown資料、綺麗に作れるようになりたいなあ。


SQLも書ければ良いというわけでもない

SQL弄ってもらうから勉強してきてね~と事前に言われていたので、SQLもそれっぽく勉強していったのですが、

「うちの社内では、〇〇で規約を統一してるから、〇〇で動くコードをお願いね~」

とのこと。これも引継ぎのためでもあるのですが、やはりプロダクトにしやすくするために書き方も統一してるみたいで、その辺、自分勝手にコードを書いて、動けば良いじゃダメなんだ~!ってのも学びでした。プログラミング弱者の僕にとっては中々つらい事実ですが笑


分析関連の話や、データに関する話は多分言っちゃダメなのでその辺は控えておきますが、とにかく色々学びが多いです!
何かあまり書く時間もないので、雑な感じになっちゃいましたが、とりあえずこんな感じで!

また4月からはバリバリ書いてくんでよろしくお願いします~

そういえば、全然関係ないけど約束のネバーランド面白いですね!インターン終わりの本屋で手に取り、そこから一気に読んでしまいました!


最新刊

1巻