バナナでもわかる話

計量経済学・統計学が専門の大学院生です。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

統計検定1級対策問題集~二項分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は二項分布関連。
統計検定1級は、割と分布の畳み込みと、モーメント関連の計算、近似計算が出来ればそこそこいけるので、その辺の計算問題を一通り用意しました。



スポンサーリンク


目次

二項分布の特徴

 P(x) = \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

・離散値の分布
 x ≧0,n-x≧0
・nは正の整数
 p \in [0,1]


モーメント周りの計算

確率母関数の導出

確率母関数の定義は次の通りでした。
 E[t^x]

これを計算します。
 E[t^x]=\sum_{x=0}^{n} t^x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=0}^{n} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} (tp)^x (1-p)^{n-x}

 =(1-p+tp)^n…二項定理より


積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

確率母関数の時と同様の計算で出来ます。
 E[exp(tx)]=\sum_{x=0}^{n} exp(tx) \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=0}^{n} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} (exp(t)p)^x (1-p)^{n-x}

 =(1-p+exp(t)p)^n…二項定理より


期待値の導出

定義に従った計算

まず、普通に定義に従って導出してみます。

 E[x] = \sum_{x=0}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=1}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=1}^{n}  \frac{x n!}{x! (n-x)!} p^x (1-p)^{n-x}

 =np \sum_{x=1}^{n}  \frac{(n-1)!}{(x-1)! \{(n-1)-(x-1)\}!} p^{x-1} (1-p)^{\{(n-1)-(x-1)\}}

 =np \sum_{x-1=0}^{n-1}  \begin{eqnarray*}
  && {}_{n-1} C _{x-1} \\
\end{eqnarray*} p^{x-1} (1-p)^{\{(n-1)-(x-1)\}}

 =np (p+1-p)^{n-1} …二項定理より

 =np


確率母関数を用いた導出

確率母関数は、微分して、tに1を代入することで、期待値が出ます。つまり

 \frac{dE[t^x]}{dt}=E[xt^{x-1}]

これは、 t=1の時、 E[x]になりますよね。


二項分布の確率母関数は先ほど計算したように次のようでした。
 (1-p+tp)^n

そこで、
 \frac{d(1-p+tp)^n}{dt}=np(1-p+tp)^{n-1}より

 t=1を代入すると

 E[x]=np


積率母関数を用いた導出

積率母関数は、微分して、tに0を代入することで、期待値が出ます。つまり

 \frac{dE[exp(tx)]}{dt}=E[xexp(tx)]

これは、 t=0の時、 E[x]になりますよね。


二項分布の積率母関数は先ほど計算したように次のようでした。
 (1-p+exp(t)p)^n

そこで、
 \frac{d(1-p+exp(t)p)^n}{dt}=n exp(t)p(1-p+exp(t)p)^{n-1}より

 t=0を代入すると

 E[x]=np


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[(x-E[x])^2]=E[x^2-2xE[x]+E[x]^2]=E[x^2]-E[x]^2

 E[x]=npであることは、先ほどの計算で分かっているので、 E[x^2]を求めます。


 E[x^2] = \sum_{x=0}^{n} x^2 \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} \{x(x-1)+x\} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} x(x-1) \begin{eqnarray*}
  && {}_n C _x \\ \end{eqnarray*}
 p^x (1-p)^{n-x} +  \sum_{x=0}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} x(x-1) \frac{n!}{(n-x)! x!}
 p^x (1-p)^{n-x} +E[x]

 = \sum_{x=2}^{n} x(x-1) \frac{n!}{(n-x)! x!}
 p^x (1-p)^{n-x} +E[x]

 = n(n-1)p^2\sum_{x=2}^{n} \frac{(n-2)!}{(n-x)! (x-2)!}
 p^{x-2} (1-p)^{n-x} +E[x]

 = n(n-1)p^2 (p+1-p)^{n-2} + E[x]…二項定理(期待値の時のと同じ仕組み)

 = n(n-1)p^2+np


以上より、 Var[x]=np(1-p)


確率母関数を用いた導出

確率母関数は二回微分することで次のような形になります。

 \frac{d^2E[t^x]}{dt^2}=E[x(x-1)t^{x-2}]

例のごとく t=1を代入すると

 E[x(x-1)]=E[x^2]-E[x]

この性質を利用します。

二項分布の確率母関数は先ほど導出した通り次のようでした
 (1-p+tp)^n

 \frac{d^2 (1-p+tp)^n}{dt^2} = n(n-1)p^2 (1+tp-p)^{n-2}

 t=1を代入すると

 E[x^2]-E[x]=n(n-1)p^2

よって E[x^2]=n(n-1)p^2+np

以上より、 Var[x]=np(1-p)


積率母関数を用いた導出

積率母関数は二回微分することで次のようになります。

 \frac{d^2E[exp(tx)]}{dt^2}=E[x^2 exp(tx)]

 t=0を代入すると、 E[x^2]になりますね。この性質を利用します。


二項分布の積率母関数 (1-p+exp(t)p)^nを二回微分すると次のよう。


 \frac{d^2 (1-p+exp(t)p)^n}{dt^2}=npe^t (1-p+e^t p)^{n-1} + n(n-1) (e^t p)^2 (1-p+e^t p)^{n-2}

 t=0を代入すると

 E[x^2]=n(n-1)p^2+np

以上より、 Var[x]=np(1-p)


歪度の導出

歪度あたりから、定義通り計算するのも面倒になってくるので、積率母関数を利用することにします。

 E[\frac{(x-E[x])^3}{\sigma^3}] = \frac{E[x^3]-3E[x^2]E[x]+2E[x]^3}{\sigma^3}

 E[x^3]さえ求めればよいことがわかりますね。
積率母関数を3回微分してやって、

 \frac{d^3 (1-p+exp(t)p)^n}{dt^3}
 =npe^t (1-p+e^t p)^{n-1} +3n(n-1)(e^t p)^2 (1-p+e^t p)^{n-2} +n(n-1)(n-2) (e^t p)^3 (1-p+e^t p)^{n-3}

 t=0と置くと E[x^3]が次のように得られます。

 E[x^3]=np+3n(n-1)p^2+n(n-1)(n-2)p^3

以上より、 E[\frac{(x-E[x])^3}{\sigma^3}] =\frac{np(2p-1)(p-1)}{np(1-p) \sqrt{np(1-p)}}


スポンサーリンク


ベルヌーイ分布を用いた二項分布の導出

独立同一にベルヌーイ分布に従う確率変数 X_1,X_2,\cdots ,X_nの和

 S_n=\sum_{i=1}^{n} X_i

が二項分布に従うことを示します。


まず、 u_1 = X_1+X_2,v_1=X_2と置くことにします。
この時

 X_1=u_1-v_1,X_2=v_1より、

ヤコビアン |J|

 |J|=1

よって、 u_1,v_1の同時分布 f_{u_1,v_1}は次のよう

 f_{u_1,v_1}=|J| p^{X_1} (1-p)^{1-X_1} p^{X_2} (1-p)^{1-X_2}=p^{u_1}(1-p)^{2-u_1}

周辺分布 f_{u_1}は次のように得られる。

 f_{u_1}=\sum_{v_1=0}^{1} f_{u_1,v_1} = \begin{eqnarray*}
  && {}_2 C _{u_1} \\
\end{eqnarray*} p^{u_1}(1-p)^{2-u_1}

よって、 u_1は二項分布に従う。


更に、 u_2 = u_1 +X_3 , v_2=X_3とおき、

同様の計算を行う。 u_2の組を数え上げれば、

 f_{u_2}=\sum_{v_2=0}^{1} f_{u_2,v_2} = \begin{eqnarray*}
  && {}_3 C _{u_2} \\
\end{eqnarray*} p^{u_2}(1-p)^{3-u_2}

これを繰り返すことで、 S_nの分布 f_sは次のように得られる。

 f_s = \begin{eqnarray*}
  && {}_n C _{S_n} \\
\end{eqnarray*} p^{S_n}(1-p)^{n-S_n}

これは、二項分布。


二項分布の再生性の証明

 Z_1が二項分布 Bi(n_1,p) Z_2が二項分布 Bi(n_2,p)に従うとする。

この時、次のようにおく。

 u=Z_1+Z_2,v=Z_2

この時 u,vの同時分布 f_{u,v}は次のよう

 f_{u,v}= \begin{eqnarray*}
  && {}_{n_1} C _{Z_1} \\
\end{eqnarray*}  \begin{eqnarray*}
  && {}_{n_2} C _{Z_2} \\
\end{eqnarray*}  p^{Z_1+Z_2} (1-p)^{n_1+n_2-(Z_1+Z_2)}

この時、 uの密度関数 f_uは次のよう

 f_u=\sum_{v=0}^{1} f_{u,v} = \begin{eqnarray*}
  && {}_{\{n_1+n_2\}} C _{\{Z_1+Z_2\}} \\
\end{eqnarray*}  p^{Z_1+Z_2} (1-p)^{n_1+n_2-(Z_1+Z_2)}


二項分布の正規近似

 n→\inftyで二項分布は正規分布に近似します。
これを示します。中心極限定理まで証明している時間は無いはずなので、中心極限定理の証明まではしません。

 Yが二項分布に従うとする。
二項分布に従う確率変数は、独立同一なベルヌーイ分布の和と見なせることを先ほど示したので、

 X_1,\cdots ,X_nが独立同一にベルヌーイ分布に従うものとして、

 Y=\sum_{i=1}^{n} X_iと書ける。

ここで、 Yの分布関数 P(Y≦y)について

 P(Y≦y)=P(\sum_{i=1}^{n} X_i ≦y)=P(\frac{\sum_{i=1}^{n} (X_i-p)}{\sqrt{n} \sqrt{p(1-p)}} ≦\frac{y-np}{\sqrt{np(1-p)}})=P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-p)}{ \sqrt{p(1-p)}}  ≦\frac{y-np}{\sqrt{np(1-p)}})

中心極限定理より、
 P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-p)}{ \sqrt{p(1-p)}}  ≦\frac{y-np}{\sqrt{np(1-p)}})≃\Phi(\frac{y-np}{\sqrt{np(1-p)}})



リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net