バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

統計検定1級対策問題集~指数分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は指数分布関連。
今回はそんなに難しい話はないです。



スポンサーリンク


目次

指数分布の特徴

 f(x) =\lambda exp(-\lambda x)

・連続値の分布
 x \in[0,\infty)


モーメント周りの計算

積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

計算していきます。

 E[exp(tx)]=\int_{0}^{\infty} \lambda exp(-\lambda x +tx ) dx

 =[\frac{\lambda}{t-\lambda} exp((t-\lambda)x) ]_{0}^{\infty}

ここで積率母関数のtは 0の近傍で定義されるため、
 t≦\lambda

 = \frac{\lambda}{\lambda-t}

期待値の導出

定義に従った計算

まず、定義に従って期待値を求めてみます。
 E[x]=\int_{0}^{\infty} \lambda x exp(-\lambda x) dx

 = -\int_{0}^{\infty} x (-\lambda exp(-\lambda x)) dx

 =-\{ [x exp(-\lambda x) ]_{0}^{\infty} - \int_{0}^{\infty}  exp(-\lambda x) dx \}

 =-\{0 -[ \frac{1}{-\lambda} exp(-\lambda x) ]_{0}^{\infty} \}

 =\frac{1}{\lambda}


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[x^2] -(E[x])^2

 E[x^2] = \int_{0}^{\infty} \lambda x^2 exp(-\lambda x) dx

 =-\{ [x^2 exp(-\lambda x) ]_{0}^{\infty} -2\int_{0}^{\infty}  x exp(-\lambda x) dx \}

 = -\{0-\frac{2}{\lambda} E[x] \}

 =\frac{2}{\lambda^2}

 Var[x]=\frac{2}{\lambda^2} -\frac{1}{\lambda^2}=\frac{1}{\lambda^2}



指数分布の無記憶性の証明

指数分布には、無記憶性という特殊な性質があります。これは、どういう性質かというと次のような性質を指します。

 Prob(x>M)=\int_{M}^{\infty} \lambda exp(-\lambda x)dx

というようなM以上になる確率があるとします。ここで、 M=m_1+m_2とし、

 Prob(x>m_1+m_2)

を考えます。

ここで、追加的にどうやら x m_2より大きいらしいということがわかったとします。

つまり、このような条件付確率を考えます。

 Prob(x>m_1+m_2| x>m_2)

感覚的には Prob(x>m_1) Prob(x>m_1+m_2| x>m_2)では異なっていそうですが、指数分布を仮定した場合、この二つは同値になります。このことを示します。

 Prob(x>m_1)=\int_{m_1}^{\infty} \lambda x exp(-\lambda x)dx

 =exp(-\lambda m_1)

更に、

 Prob(x>m_1+m_2| x>m_2)=\frac{Prob(x>M)}{Prob(x>m_2)}=\frac{exp(-\lambda (m_1+m_2) )}{exp(-\lambda m_2)}=exp(-\lambda m_1)=Prob(x>m_1)


リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は正規分布関連。
多変量正規分布はまた別記事でやるとして、今回は1変量の正規分布周りで必要な話を導出しておきます。



スポンサーリンク


目次

正規分布の特徴

 f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})

・連続値の分布
 x \in \mathbb{R}
 \sigma≧0


モーメント周りの計算

積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

計算していきます。

 E[exp(tx)]=\int_{-\infty}^{\infty} \frac{exp(tx)}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx

 =\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} exp(tx-\frac{(x-\mu)^2}{2 \sigma^2}) dx

 z=\frac{x-\mu}{\sigma}とおくと、

 =\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} exp(t\sigma z +t \mu-\frac{z^2}{2}) dz

 = exp(t\mu) \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} exp(-\frac{1}{2} \{ (z-t \sigma)^2 -t^2 \sigma^2\}) dz

 Z=z-t \sigmaとおくと、

 = exp(t\mu +\frac{t^2 \sigma^2}{2}) \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} exp(-\frac{1}{2}  Z^2 ) dZ

 = exp(t\mu +\frac{t^2 \sigma^2}{2})…(標準正規密度関数の和は1)

期待値の導出

定義に従った計算

まず、定義に従って期待値を求めてみます。
 E[x]=\int_{-\infty}^{\infty} \frac{x}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx

 =\int_{-\infty}^{\infty} \frac{(x-\mu+\mu}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx

 =\int_{-\infty}^{\infty} \frac{(x-\mu}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx +\mu

 z=\frac{x-\mu}{\sigma}とおくと、

 = \int_{-\infty}^{\infty} \frac{\sigma z}{\sqrt{2 \pi}} exp(-\frac{z^2}{2}) dz +\mu

 = -\frac{\sigma}{\sqrt{2 \pi}}\int_{-\infty}^{\infty} (-z) exp(-\frac{z^2}{2}) dz +\mu

 = -\frac{\sigma}{\sqrt{2 \pi}} [exp(-\frac{z^2}{2}) ]_{-\infty}^{\infty} +\mu

 =\mu



スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=\int_{-\infty}^{\infty} \frac{(x-\mu)^2}{\sqrt{2 \pi \sigma^2}} exp(-\frac{(x-\mu)^2}{2 \sigma^2}) dx

ここで、 z=\frac{x-\mu}{\sigma}とおくと

 Var[x]=\sigma^2 \int_{-\infty}^{\infty} \frac{z^2}{\sqrt{2 \pi}} exp(-\frac{z^2}{2}) dz

 = -\sigma^2 \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \{z(-z exp(-\frac{z^2}{2}))\} dz

ここで \int f^{'} ・ g=[f ・ g] -\int f ・ g^{'}を用いて

 = -\sigma^2\{ \frac{1}{\sqrt{2 \pi}} [z exp(-\frac{z^2}{2})]_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\infty} exp(-\frac{z^2}{2}) dz \}

 =\sigma^2  \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} exp(-\frac{z^2}{2}) dz

 =\sigma^2

正規分布の再生性の証明

先ほど示したように、積率母関数は次のようでした。

 exp(t\mu +\frac{t^2 \sigma^2}{2})

異なる二つの正規分布の積率母関数の積は次のよう。

 exp(t(\mu_1+\mu_2) +\frac{t^2 (\sigma_1^2 +\sigma_2^2))}{2})

これはやはり正規分布。
積率母関数の一意性より、再生性が示せた。

リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は負の二項分布関連。
統計検定1級は、割と分布の畳み込みと、モーメント関連の計算、近似計算が出来ればそこそこいけるので、その辺の計算問題を一通り用意しました。



スポンサーリンク


目次

負の二項分布の特徴

 P(x) = \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

・離散値の分布
 x ≧0
 p \in [0,1]
 r≧0


モーメント周りの計算

確率母関数の導出

確率母関数の定義は次の通りでした。
 E[t^x]

これを計算します。
 E[t^x]=\sum_{x=0}^{\infty} t^x \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

 = \sum_{x=0}^{\infty} \frac{(x+r-1)!}{x!(r-1)!} p^{r} \{t(1-p)\}^{x}

 =p^r \sum_{x=0}^{\infty} \frac{(x+r-1)!}{x!(r-1)!} \{t(1-p)\}^{x}

 =p^r \{\frac{1}{1-t(1-p)} \}^{r-1+1}…(一般二項定理)

 = \{\frac{p}{1-t(1-p)} \}^r


積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

確率母関数の時と同様の計算で出来ます。
 E[e^{tx}]= \sum_{x=0}^{\infty} e^{tx} \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

 = \sum_{x=0}^{\infty} \frac{(x+r-1)!}{x!(r-1)!} p^{r} \{ e^t (1-p) \}^x

 = p^r \{\frac{1}{1-e^t(1-p)}\}^r…(一般二項定理)

 \{ \frac{p}{1-e^t(1-p)}\}^r



期待値の導出

定義に従った計算

まず、定義に従って期待値を求めてみます。
 E[x]= \sum_{x=0}^{\infty} x \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

 = r p^r (1-p) \sum_{x=1}^{\infty} \frac{(x+r-1)!}{(x-1)! r!} (1-p)^{x-1}

 =r p^r (1-p) \{\frac{1}{1-(1-p)}\}^{r+1} …(一般二項定理)

 =\frac{r(1-p)}{p}


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[(x-E[x])^2]=E[x^2-2xE[x]+E[x]^2]=E[x^2]-E[x]^2

ここで

 E[x(x-1)]= \sum_{x=0}^{\infty} x(x-1) \begin{eqnarray*}
  && {}_{x+r-1} C _x \\
\end{eqnarray*} p^{r} (1-p)^{x}

 = \sum_{x=2}^{\infty} \frac{x+r-1}{(x-2)! (r-1)!} p^r (1-p)^{x}

 = r(r+1) p^r (1-p)^2  \sum_{x=2}^{\infty} \frac{x+r-1}{(x-2)! (r+1)!}  (1-p)^{x}

 = r(r+1) p^r (1-p)^2 \{\frac{1}{1-(1-p)}\}^{r+2}

 =r(r+1) \{\frac{1-p}{p}\}^2

 Var[x]= r(r+1) \{\frac{1-p}{p}\}^2 + \frac{r(1-p)}{p} -\{\frac{r(1-p)}{p}\}^2

 =\frac{r(1-p)}{p^2}


ポアソン分布とガンマ分布を用いた負の二項分布の導出

ポアソン分布のパラメータ \lambdaの事前分布にガンマ分布を与えると、周辺分布が負の二項分布になります。
これを示します。

 x ~ Poi(\lambda) = \frac{e^{-\lambda} \lambda^x}{x!}

 \lambda ~ NB(\alpha,\beta) = \frac{\beta^{\alpha}}{\Gamma(\alpha)}\lambda^{\alpha-1} e^{-\beta \lambda}

 \int_0^{\infty}  \frac{e^{-\lambda} \lambda^x}{x!}  \frac{\beta^{\alpha}}{\Gamma(\alpha)}\lambda^{\alpha-1} e^{-\beta \lambda} d\lambda

 = \frac{\beta^{\alpha}}{x! \Gamma(\alpha)} \int_0^{\infty} \lambda^{x+\alpha-1} e^{-\lambda(1+\beta)} d\lambda

ここで、 \theta = \lambda(1+\beta)とおくと、

 =\frac{\beta^{\alpha}}{x! \Gamma(\alpha) (1+\beta)^{x+\alpha}} \int_0^{\infty} \theta^{x+\alpha-1} e^{-\theta} d\theta

 =\frac{\Gamma(x+\alpha)}{x! \Gamma(\alpha)} \{\frac{1}{1+\beta}\}^x \{ \frac{\beta}{1+\beta} \}^{\alpha}

これは負の二項分布。


負の二項分布の再生性の証明

先ほど示したように、積率母関数は次のようでした。

 \{ \frac{p}{1-e^t(1-p)}\}^r


 \{ \frac{p}{1-e^t(1-p)}\}^{r_1}\{ \frac{p}{1-e^t(1-p)}\}^{r_2}

 = \{\frac{p}{1-e^t(1-p)}\}^{r_1+r_2}

これはやはり負の二項分布。



積率母関数の一意性より、再生性が示せた。

リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回はポアソン分布関連。
統計検定1級は、割と分布の畳み込みと、モーメント関連の計算、近似計算が出来ればそこそこいけるので、その辺の計算問題を一通り用意しました。



スポンサーリンク


目次

ポアソン分布の特徴

 P(x) = \frac{e^{-\lambda} \lambda^x}{x!}

・離散値の分布
 x ≧0
 \lambdaは0以上の連続値


モーメント周りの計算

確率母関数の導出

確率母関数の定義は次の通りでした。
 E[t^x]

これを計算します。
 E[t^x]=\sum_{x=0}^{\infty} t^x \frac{e^{-\lambda} \lambda^x}{x!}

 = e^{-\lambda} \sum_{x=0}^{\infty} \frac{ (t \lambda)^x}{x!}

 =e^{-\lambda} e^{t \lambda}

 = e^{\lambda (t-1)}


積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

確率母関数の時と同様の計算で出来ます。
 E[e^{tx}]=\sum_{x=0}^{\infty} e^{tx} \frac{e^{-\lambda} \lambda^x}{x!}

 = e^{-\lambda} \sum_{x=0}^{\infty} \frac{ (e^t \lambda)^x}{x!}

 =e^{-\lambda} e^{e^t \lambda}

 = e^{\lambda (e^t-1)}

キュムラント母関数

後で使うのでついでにキュムラント母関数も定義しておきます。
これは、積率母関数に対して対数を取ったもので、次のように得られます。

積率母関数は e^{\lambda (e^t-1)}なので、

キュムラント母関数は \lambda (e^t-1)

期待値の導出

定義に従った計算

まず、定義に従って期待値を求めてみます。
 E[x]=\sum_{x=0}^{\infty} x \frac{e^{-\lambda} \lambda^x}{x!}

 = \sum_{x=1}^{\infty}  x \frac{e^{-\lambda} \lambda^x}{x!}

 =\lambda \sum_{x=1}^{\infty}  \frac{e^{-\lambda} \lambda^{x-1}}{(x-1)!}

 =\lambda e^{-\lambda} \sum_{x-1=0}^{\infty}  \frac{ \lambda^{x-1}}{(x-1)!}

 =\lambda e^{-\lambda} e^{\lambda}

 =\lambda

確率母関数を用いた導出

確率母関数は、微分して、tに1を代入することで、期待値が出ます。

ポアソン分布の確率母関数は
  e^{\lambda (t-1)}
でした。そこで、

 \frac{d e^{\lambda (t-1)}}{dt}=\lambda e^{\lambda (t-1)}

 t=1を代入すると期待値 \lambdaが得られる。

積率母関数を用いた導出

積率母関数は、微分して、tに0を代入することで、期待値が出ます。

ポアソン分布の積率母関数は、先ほど導出した通り
 e^{\lambda (e^t-1)}

そこで、
 \frac{d e^{\lambda (e^t-1)}}{dt} = \lambda  (e^t) e^{\lambda (e^t-1)}

 t=0を代入してやると期待値 \lambdaが得られる。

スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[(x-E[x])^2]=E[x^2-2xE[x]+E[x]^2]=E[x^2]-E[x]^2

 E[x(x-1)]=\sum_{x=0}^{\infty} x(x-1) \frac{e^{-\lambda} \lambda^x}{x!}

 = \lambda^2 \sum_{x=2}^{\infty} \frac{e^{-\lambda} \lambda^{x-2}}{(x-2)!}=\lambda^2

以上より、

 Var[x]=\lambda^2 +\lambda -\lambda^2=\lambda

確率母関数を用いた導出

確率母関数は二回微分することで次のような形になります。

 \frac{d^2E[t^x]}{dt^2}=E[x(x-1)t^{x-2}]

例のごとく t=1を代入すると

 E[x(x-1)]=E[x^2]-E[x]

この性質を利用します。

 \frac{d^2 e^{\lambda (t-1)}}{dt^2}=\lambda^2 e^{\lambda (t-1)}

 t=1を代入すると、 E[x(x-1)] = \lambda^2

以上より
 Var[x]=\lambda^2 +\lambda -\lambda^2=\lambda


積率母関数を用いた導出

積率母関数は二回微分することで次のようになります。

 \frac{d^2E[exp(tx)]}{dt^2}=E[x^2 exp(tx)]

 t=0を代入すると、 E[x^2]になりますね。この性質を利用します。

ポアソン分布の積率母関数は、先ほど導出した通り
 e^{\lambda (e^t-1)}

そこで、
 \frac{d^2 e^{\lambda (e^t-1)}}{dt^2} = \lambda  (e^t) e^{\lambda (e^t-1)}+\lambda^2 (e^t)^2 e^{\lambda (e^t -1)}

 t=0を代入すると、

 E[x^2] =\lambda^2 +\lambda



歪度の導出

歪度あたりから、定義通り計算するのも面倒になってくるので、積率母関数を利用することにします。

 E[\frac{(x-E[x])^3}{\sigma^3}] = \frac{E[x^3]-3E[x^2]E[x]+2E[x]^3}{\sigma^3}

 E[x^3]さえ求めればよいことがわかりますね。
積率母関数を3回微分してやって、

 \lambda e^t e^{\lambda (e^t-1)}+\lambda^2 (e^t)^2 e^{\lambda (e^t-1)}+2\lambda^2 e^t e^{\lambda (e^t -1)} + \lambda^3 (e^t)^3 (e^{\lambda (e^t-1)})^2

 t=0を代入すると

 E[x^3]=\lambda+3 \lambda^2 + \lambda^3

よって、歪度は次のように得られる。

 \frac{\lambda^3+3\lambda^2+\lambda-3\lambda(\lambda^2+\lambda)+2\lambda^3}{\lambda^3}=\lambda^{-\frac{1}{2}}


スポンサーリンク


二項分布を用いたポアソン分布の導出

二項分布に対して次のような仮定を施すとき、ポアソン分布が得られます。

 n\to \infty
 
  \lim_{n \to \infty} np
 =\lambda

これを示します。

ここで、二項分布の確率分布関数は次のようでした。
 P(x) = \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}


次のように変形していきます。
 P(x) = \frac{n!}{x!(n-x)!} p^x (1-p)^{n-x}

 =\frac{n \cdot (n-1) \cdots (n-x+1)}{x!} p^x (1-p)^{n-x}

 =\frac{np \cdot (n-1)p \cdots (n-x+1)p}{x!} \frac{ (1-p)^n}{(1-p)^x}

更に、
 
  \lim_{n \to \infty} np \cdot (n-1)p \cdots (n-x+1)p=\lambda^x

 
  \lim_{n \to \infty}  \frac{ (1-p)^n}{(1-p)^x} =  \lim_{n \to \infty} \frac{ (1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^x} =e^{-\lambda}

よって

  \lim_{n \to \infty} P(x) = \frac{e^{-\lambda} \lambda^x}{x!}



ポアソン分布の再生性の証明

 Z_1がポアソン分布 Pois(\lambda_1) Z_2がポアソン分布 pois(\lambda_2)に従うとする。

この時、次のようにおく。

 u=Z_1+Z_2,v=Z_2

ここで、
 Z_1=u-v,Z_2=v

ヤコビアン |J|は1なので、

この時 u,vの同時分布 f_{u,v}は次のよう

 f_{u,v}=\frac{e^{-\lambda_1} \lambda_1^{u-v}}{(u-v)!} \frac{e^{-\lambda_2} \lambda_2^{v}}{v!}

よって、周辺分布 f_{u}は次のよう。

 f_{u} = \sum_{v=0}^{\infty} f_{u,v} = \sum_{v=0}^{\infty} \frac{ \begin{eqnarray*}
  && {}_u C _v \\
\end{eqnarray*} \lambda_1^{u-v} \lambda_2^{v}}{u!} e^{-(\lambda_1+\lambda_2)}

 = \frac{e^{-(\lambda_1+\lambda_2)} (\lambda_1+\lambda_2)^u}{u!} …(二項定理より)

これは、ポアソン分布。

ポアソン分布の正規近似

n→∞のケース

 n→\inftyでポアソン分布は正規分布に近似します。
これを示します。中心極限定理まで証明している時間は無いはずなので、中心極限定理の証明まではしません。

 Yがポアソン分布に従うとする。
ポアソン分布には再生性があることを先ほど示したので、

 X_1,\cdots ,X_nが独立同一にポアソン分布 Pois(\frac{\lambda}{n})に従うものとして、

 Y=\sum_{i=1}^{n} X_iと書ける。

ここで、 Yの分布関数 P(Y≦y)について

 P(Y≦y)=P(\sum_{i=1}^{n} X_i ≦y)=P(\frac{\sum_{i=1}^{n} (X_i-\frac{\lambda}{n})}{\sqrt{n} \sqrt{\frac{\lambda}{n}}} ≦\frac{y-\lambda}{\sqrt{\lambda}})=P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-\frac{\lambda}{n})}{ \sqrt{\frac{\lambda}{n}}}  ≦\frac{y-\lambda}{\sqrt{\lambda}})

中心極限定理より、
 P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-\frac{\lambda}{n})}{ \sqrt{\frac{\lambda}{n}}}  ≦\frac{y-\lambda}{\sqrt{\lambda}})≃\Phi(\frac{y-\lambda}{\sqrt{\lambda}})

λ→∞のケース

ポアソン分布はλを無限に飛ばしても正規近似します。これは、過去問でも出題されていましたね。

標準正規分布のキュムラント母関数は
 \frac{t^2}{2!}
です。

キュムラント母関数は分布と1対1対応するので、ポアソン分布のキュムラント母関数が、λを無限に飛ばすことで正規分布のものと一致することを示せばよいということになります。

 X がポアソン分布に従うとする。ここで、標準化したものを Zとおく。

 Z=\frac{X-\lambda}{\sqrt{\lambda}}

この時 Zのキュムラント母関数は

 log(E[e^{tZ}]=log(E[ e^{\frac{tX}{\sqrt{\lambda}}} e^{\frac{-t\lambda}{\sqrt{\lambda}}} ]) =-t \sqrt{\lambda} +\lambda(e^{\frac{t}{\sqrt{\lambda}}}-1)

ここで、tに関してマクローリン展開すると

 log(E[e^{tZ}]) = \frac{t^2}{2!}+\frac{1}{\sqrt{\lambda}}\frac{t^3}{3!}+o(\frac{1}{\sqrt{\lambda}})

 \lambda \to \inftyの時、 \frac{t^2}{2!}

これは、標準正規分布のキュムラント母関数。

リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

統計検定1級対策問題集~二項分布編~

統計検定1級対策のために役立ちそうな計算問題をまとめるやつやっていきます。
統計検定前の最終チェックや、統計検定の勉強何をすれば分からないという場合に活用ください。


今回は二項分布関連。
統計検定1級は、割と分布の畳み込みと、モーメント関連の計算、近似計算が出来ればそこそこいけるので、その辺の計算問題を一通り用意しました。



スポンサーリンク


目次

二項分布の特徴

 P(x) = \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

・離散値の分布
 x ≧0,n-x≧0
・nは正の整数
 p \in [0,1]


モーメント周りの計算

確率母関数の導出

確率母関数の定義は次の通りでした。
 E[t^x]

これを計算します。
 E[t^x]=\sum_{x=0}^{n} t^x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=0}^{n} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} (tp)^x (1-p)^{n-x}

 =(1-p+tp)^n…二項定理より


積率母関数の導出

積率母関数の定義は次の通りでした。
 E[exp(tx)]

確率母関数の時と同様の計算で出来ます。
 E[exp(tx)]=\sum_{x=0}^{n} exp(tx) \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=0}^{n} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} (exp(t)p)^x (1-p)^{n-x}

 =(1-p+exp(t)p)^n…二項定理より


期待値の導出

定義に従った計算

まず、普通に定義に従って導出してみます。

 E[x] = \sum_{x=0}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=1}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 =\sum_{x=1}^{n}  \frac{x n!}{x! (n-x)!} p^x (1-p)^{n-x}

 =np \sum_{x=1}^{n}  \frac{(n-1)!}{(x-1)! \{(n-1)-(x-1)\}!} p^{x-1} (1-p)^{\{(n-1)-(x-1)\}}

 =np \sum_{x-1=0}^{n-1}  \begin{eqnarray*}
  && {}_{n-1} C _{x-1} \\
\end{eqnarray*} p^{x-1} (1-p)^{\{(n-1)-(x-1)\}}

 =np (p+1-p)^{n-1} …二項定理より

 =np


確率母関数を用いた導出

確率母関数は、微分して、tに1を代入することで、期待値が出ます。つまり

 \frac{dE[t^x]}{dt}=E[xt^{x-1}]

これは、 t=1の時、 E[x]になりますよね。


二項分布の確率母関数は先ほど計算したように次のようでした。
 (1-p+tp)^n

そこで、
 \frac{d(1-p+tp)^n}{dt}=np(1-p+tp)^{n-1}より

 t=1を代入すると

 E[x]=np


積率母関数を用いた導出

積率母関数は、微分して、tに0を代入することで、期待値が出ます。つまり

 \frac{dE[exp(tx)]}{dt}=E[xexp(tx)]

これは、 t=0の時、 E[x]になりますよね。


二項分布の積率母関数は先ほど計算したように次のようでした。
 (1-p+exp(t)p)^n

そこで、
 \frac{d(1-p+exp(t)p)^n}{dt}=n exp(t)p(1-p+exp(t)p)^{n-1}より

 t=0を代入すると

 E[x]=np


スポンサーリンク


分散の導出

定義に従った計算

 Var[x]=E[(x-E[x])^2]=E[x^2-2xE[x]+E[x]^2]=E[x^2]-E[x]^2

 E[x]=npであることは、先ほどの計算で分かっているので、 E[x^2]を求めます。


 E[x^2] = \sum_{x=0}^{n} x^2 \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} \{x(x-1)+x\} \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} x(x-1) \begin{eqnarray*}
  && {}_n C _x \\ \end{eqnarray*}
 p^x (1-p)^{n-x} +  \sum_{x=0}^{n} x \begin{eqnarray*}
  && {}_n C _x \\
\end{eqnarray*} p^x (1-p)^{n-x}

 = \sum_{x=0}^{n} x(x-1) \frac{n!}{(n-x)! x!}
 p^x (1-p)^{n-x} +E[x]

 = \sum_{x=2}^{n} x(x-1) \frac{n!}{(n-x)! x!}
 p^x (1-p)^{n-x} +E[x]

 = n(n-1)p^2\sum_{x=2}^{n} \frac{(n-2)!}{(n-x)! (x-2)!}
 p^{x-2} (1-p)^{n-x} +E[x]

 = n(n-1)p^2 (p+1-p)^{n-2} + E[x]…二項定理(期待値の時のと同じ仕組み)

 = n(n-1)p^2+np


以上より、 Var[x]=np(1-p)


確率母関数を用いた導出

確率母関数は二回微分することで次のような形になります。

 \frac{d^2E[t^x]}{dt^2}=E[x(x-1)t^{x-2}]

例のごとく t=1を代入すると

 E[x(x-1)]=E[x^2]-E[x]

この性質を利用します。

二項分布の確率母関数は先ほど導出した通り次のようでした
 (1-p+tp)^n

 \frac{d^2 (1-p+tp)^n}{dt^2} = n(n-1)p^2 (1+tp-p)^{n-2}

 t=1を代入すると

 E[x^2]-E[x]=n(n-1)p^2

よって E[x^2]=n(n-1)p^2+np

以上より、 Var[x]=np(1-p)


積率母関数を用いた導出

積率母関数は二回微分することで次のようになります。

 \frac{d^2E[exp(tx)]}{dt^2}=E[x^2 exp(tx)]

 t=0を代入すると、 E[x^2]になりますね。この性質を利用します。


二項分布の積率母関数 (1-p+exp(t)p)^nを二回微分すると次のよう。


 \frac{d^2 (1-p+exp(t)p)^n}{dt^2}=npe^t (1-p+e^t p)^{n-1} + n(n-1) (e^t p)^2 (1-p+e^t p)^{n-2}

 t=0を代入すると

 E[x^2]=n(n-1)p^2+np

以上より、 Var[x]=np(1-p)


歪度の導出

歪度あたりから、定義通り計算するのも面倒になってくるので、積率母関数を利用することにします。

 E[\frac{(x-E[x])^3}{\sigma^3}] = \frac{E[x^3]-3E[x^2]E[x]+2E[x]^3}{\sigma^3}

 E[x^3]さえ求めればよいことがわかりますね。
積率母関数を3回微分してやって、

 \frac{d^3 (1-p+exp(t)p)^n}{dt^3}
 =npe^t (1-p+e^t p)^{n-1} +3n(n-1)(e^t p)^2 (1-p+e^t p)^{n-2} +n(n-1)(n-2) (e^t p)^3 (1-p+e^t p)^{n-3}

 t=0と置くと E[x^3]が次のように得られます。

 E[x^3]=np+3n(n-1)p^2+n(n-1)(n-2)p^3

以上より、 E[\frac{(x-E[x])^3}{\sigma^3}] =\frac{np(2p-1)(p-1)}{np(1-p) \sqrt{np(1-p)}}


スポンサーリンク


ベルヌーイ分布を用いた二項分布の導出

独立同一にベルヌーイ分布に従う確率変数 X_1,X_2,\cdots ,X_nの和

 S_n=\sum_{i=1}^{n} X_i

が二項分布に従うことを示します。


まず、 u_1 = X_1+X_2,v_1=X_2と置くことにします。
この時

 X_1=u_1-v_1,X_2=v_1より、

ヤコビアン |J|

 |J|=1

よって、 u_1,v_1の同時分布 f_{u_1,v_1}は次のよう

 f_{u_1,v_1}=|J| p^{X_1} (1-p)^{1-X_1} p^{X_2} (1-p)^{1-X_2}=p^{u_1}(1-p)^{2-u_1}

周辺分布 f_{u_1}は次のように得られる。

 f_{u_1}=\sum_{v_1=0}^{1} f_{u_1,v_1} = \begin{eqnarray*}
  && {}_2 C _{u_1} \\
\end{eqnarray*} p^{u_1}(1-p)^{2-u_1}

よって、 u_1は二項分布に従う。


更に、 u_2 = u_1 +X_3 , v_2=X_3とおき、

同様の計算を行う。 u_2の組を数え上げれば、

 f_{u_2}=\sum_{v_2=0}^{1} f_{u_2,v_2} = \begin{eqnarray*}
  && {}_3 C _{u_2} \\
\end{eqnarray*} p^{u_2}(1-p)^{3-u_2}

これを繰り返すことで、 S_nの分布 f_sは次のように得られる。

 f_s = \begin{eqnarray*}
  && {}_n C _{S_n} \\
\end{eqnarray*} p^{S_n}(1-p)^{n-S_n}

これは、二項分布。


二項分布の再生性の証明

 Z_1が二項分布 Bi(n_1,p) Z_2が二項分布 Bi(n_2,p)に従うとする。

この時、次のようにおく。

 u=Z_1+Z_2,v=Z_2

この時 u,vの同時分布 f_{u,v}は次のよう

 f_{u,v}= \begin{eqnarray*}
  && {}_{n_1} C _{Z_1} \\
\end{eqnarray*}  \begin{eqnarray*}
  && {}_{n_2} C _{Z_2} \\
\end{eqnarray*}  p^{Z_1+Z_2} (1-p)^{n_1+n_2-(Z_1+Z_2)}

この時、 uの密度関数 f_uは次のよう

 f_u=\sum_{v=0}^{1} f_{u,v} = \begin{eqnarray*}
  && {}_{\{n_1+n_2\}} C _{\{Z_1+Z_2\}} \\
\end{eqnarray*}  p^{Z_1+Z_2} (1-p)^{n_1+n_2-(Z_1+Z_2)}


二項分布の正規近似

 n→\inftyで二項分布は正規分布に近似します。
これを示します。中心極限定理まで証明している時間は無いはずなので、中心極限定理の証明まではしません。

 Yが二項分布に従うとする。
二項分布に従う確率変数は、独立同一なベルヌーイ分布の和と見なせることを先ほど示したので、

 X_1,\cdots ,X_nが独立同一にベルヌーイ分布に従うものとして、

 Y=\sum_{i=1}^{n} X_iと書ける。

ここで、 Yの分布関数 P(Y≦y)について

 P(Y≦y)=P(\sum_{i=1}^{n} X_i ≦y)=P(\frac{\sum_{i=1}^{n} (X_i-p)}{\sqrt{n} \sqrt{p(1-p)}} ≦\frac{y-np}{\sqrt{np(1-p)}})=P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-p)}{ \sqrt{p(1-p)}}  ≦\frac{y-np}{\sqrt{np(1-p)}})

中心極限定理より、
 P(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}  \frac{ (X_i-p)}{ \sqrt{p(1-p)}}  ≦\frac{y-np}{\sqrt{np(1-p)}})≃\Phi(\frac{y-np}{\sqrt{np(1-p)}})



リンク

統計学を勉強するためのオススメ本

www.bananarian.net

2017年数理1級の解説記事

www.bananarian.net

その他の問題記事

統計検定1級対策問題集~二項分布編~

www.bananarian.net

統計検定1級対策問題集~ポアソン分布編~

www.bananarian.net

統計検定1級対策問題集~負の二項分布編~

www.bananarian.net

統計検定1級対策問題集~正規分布編~

www.bananarian.net

統計検定1級対策問題集~指数分布編~

www.bananarian.net

統計検定1級対策問題集~ガンマ分布編~

www.bananarian.net

【初心者向け】2017年統計検定1級数理問5の解説

前回問4までやりました。
bananarian.hatenablog.com


今回で2017年の統計数理は最後ですね。
2017年 統計検定1級 統計数理 問5 対策用解説 を始めていきます。

スポンサーリンク


問5の概要

f:id:bananarian:20180921155941p:plain

標準正規分布に従う確率変数の二乗和はカイ二乗分布に従うという話について、確認したことはありますか?
という話ですね。ちなみに[2]はそこから更にF分布の導出を要求しており、[3]は多少マイナーですが、コーシー分布の密度関数の導出ですね。

こうしてみてみると、統計検定、各分布の導出が多い印象がありますね~。



問5[1]

f:id:bananarian:20180921160618p:plain

やはり、統計検定で変数変換は必須ですね~。この手の問題については問3でも問4でもやりましたね。
 V=Z^2

という形で変数変換をしていますので、今回使う変数 Z
 Z=V^{\frac{1}{2}}となります。

よって
 f(v)=\varphi(v^{\frac{1}{2}})\frac{dZ}{dv}.....!!

とすると間違いになります。何故なら、 v^{\frac{1}{2}}≧0であるわけですが、 \varphi(・) ・の範囲は -\inftyから \inftyです。よって、条件付分布で考えなければなりません。

ここで \varphi(x|x≧0)=\frac{Prob(x,(x≧0))}{Prob(x≧0)}であり

※これは直感的にわかりますかね。要は x≧0の範囲で全体の和が1にならなければならないので、標準化しています。

 Prob(x≧0)=(標準正規分布の丁度半分)=\frac{1}{2}

よって \varphi(x|x≧0)=2Prob(x,(x≧0))


以上より、
 f(v)=\varphi(v^{\frac{1}{2}}|x≧0)\frac{dZ}{dv}=2\varphi(v^{\frac{1}{2}})\frac{dZ}{dv}=\frac{1}{\sqrt{2\pi}}\frac{1}{\sqrt{v}}e^{-\frac{v}{2}}



問5[2]

次行きます。
f:id:bananarian:20180921181107p:plain

F分布ですね。もう方針は変数変換一本です。
 s=\frac{x}{y}
 u=x
とおくことにしましょう。

この時、
 x=u
 y=\frac{u}{s}

であるが、

 \frac{\partial x}{\partial u}=1
 \frac{\partial x}{\partial s}=0
 \frac{\partial y}{\partial u}=\frac{1}{s}
 \frac{\partial y}{\partial s}=-\frac{u}{s^2}

なので、

 g(s)=\int_{0}^{\infty}|-\frac{u}{s^2}|f(u)f(\frac{u}{s})du


はい。あとは頑張って積分するだけです。計算間違いに気を付けてください。
私も今回の記事を書くにあたって、積分ミスって結構詰まりました(笑)
一応計算プロセスを書いておきます。

 g(s)=\frac{1}{2\pi}\int_{0}^{\infty}\frac{\frac{u}{s^2}}{\frac{u}{\sqrt{s}}}exp(-\frac{1}{2}u(1+\frac{1}{s}))du
 =\frac{1}{\pi\sqrt{s}(1+s)}\int_{0}^{\infty}\frac{1+s}{2s}exp(-\frac{u}{2}(1+\frac{1}{s}))du
 =\frac{1}{\pi\sqrt{s}(1+s)}\int_{0}^{\infty}\frac{1}{2}(1+\frac{1}{s})exp(-\frac{u}{2}(1+\frac{1}{s}))du
 =\frac{1}{\pi\sqrt{s}(1+s)} [-exp(-\frac{u}{2}(1+\frac{1}{s}))]_{0}^{\infty}
 =\frac{1}{\pi\sqrt{s}(1+s)}(0-(-1))=\frac{1}{\pi\sqrt{s}(1+s)}


はい。出てきました。どうせたどり着くべき式がわかっているので、強引に外に出してしまえば、後は積分さえ間違わなければ1になって消えるよねって感じで出せます。

試験時間は短いので、当然こういうプロセスを経るべきです。



問5[3]

最後ですね。
f:id:bananarian:20180921190242p:plain

何やらヒントがあるので使っていきましょう。

 \frac{x}{y}=tan^2\theta=\frac{sin^2\theta}{cos^2\theta}

つまり
 x=sin^2\theta
 y=cos^2\theta
と置くことにします。

ここで
 x-y=sin^2\theta-cos^2\theta=-cos 2\theta
 xy=(cos^2\theta)(sin^2\theta)=(cos\theta sin\theta)^2=(\frac{1}{2}sin2\theta)^2

よって
 t= \frac{cos2\theta}{sin2\theta}=-\frac{1}{tan2\theta}

ここで[2]より、sは g(s)に従うので変数変換で....と行こうとすると出来ません!!やってみたらわかりますが、うまく変形できません。

そこで次のようなものを考えることにします。

 g(s)ds

これは、要はsが微小に変化した部分と密度部分の積で、要は面積を出す形になり、微小な確率を表します。

密度関数は1点を取ってくると0ですが、微小に変化させた部分の面積を取ってくることで確率を求めることができるわけでしたね。

これを変形していきます。

 g(s)ds=g(s)\frac{ds}{d\theta}d\theta=\frac{2}{\pi}\frac{d\theta}{dt}dt=h(t)dt
これで、tが微小に変化した場合の式に変換できたので、 h(t)さえわかればそれがtの確率密度になります。

というわけで、ここで知りたいのは \frac{d\theta}{dt}です。


 t=-\frac{1}{tan2\theta}であったので、
 \frac{dt}{d2\theta}=\frac{1}{(cos^22\theta)(tan^22\theta)}=\frac{1}{sin^2 2\theta}ですね。

更にこれを利用すると
 \frac{dt}{d\theta}=\frac{dt}{2\theta}\frac{2\theta}{d\theta}=\frac{2}{sin^22\theta}

最後に逆数を取ってやれば
 \frac{d\theta}{dt}=\frac{sin^22\theta}{2}

つまり、
 g(s)ds=\frac{2}{\pi}\frac{d\theta}{dt}dt=\frac{2}{\pi}\frac{sin^22\theta}{2}dt=h(t)dt


よって h(t)=\frac{2}{\pi} \frac{sin^22\theta}{2}です。


あれ?求めたい答えにまだたどり着いていませんね。もし、この計算が間違っていなければ
頑張って計算してやれば \frac{sin^22\theta}{2} \frac{1}{2(1+t^2)}が同じになるはずですね。

 (1+t^2)=1+\frac{1}{tan^22\theta}=\frac{1+tan^22\theta}{tan^2 2\theta}=\frac{cos^22\theta}{tan^22\theta}=\frac{1}{sin^22\theta}

はい、求まりました。


以上より
 h(t)=\frac{1}{ \pi(1+t^2)}


これで2017年数理終わりですね~お疲れさまでした。
問5については、簡単そうに見えて意外と[3]辺りは初見だと詰まりそうですよね。
あと、一般化して証明しているばかりだと、このような具体的な計算で詰まる人も出てきそうですね。

具体的にこういう分布の時はどうやって導出するんだろう?といったことを疑問に思って訓練する必要がありそうです。

【初心者向け】2017年統計検定1級数理問4の解説

前回までで問3までやりましたね。

bananarian.hatenablog.com


で、同じ要領で問4やっていきます。

そういうわけで今回も2017年 統計検定1級 統計数理 問4 対策用解説 を始めていきます。

スポンサーリンク



問4の概要

今回のセットアップはこんな感じです。
f:id:bananarian:20180918101918p:plain

二種類の標準正規分布に従う確率変数を線形の形でくっつけてます。
変数変換からの分布の導出はやはり頻出ですね。

正規分布には面白い性質があって、多変量同時分布の条件付き分布は正規分布になるし、再生性もあるので、和をとってもやっぱり正規分布になるんです。今回の問題でそこまで証明するか、この辺の話は既知として問に答えるかは時間との相談ということになりそうです。

今回は面倒なのでその辺は既知のこととして話を進めていきます。
まあ別に既知としなくても、いうてそこまで手間ではないので、時間的な余裕があれば、再生性に関してはヤコビアン使って分布を求めてやって、条件付分布に関してはベイズルールに従って条件付き分布をうまく正規分布の形にもっていってください。


問4[1]

f:id:bananarian:20180918102447p:plain

これは正規分布の再生性に関する問ですね。サクっと解いていきましょう。

正規分布の再生性から、Zも正規分布に従う。更に期待値と分散は次のよう

 E[Z]=a+kE[X]+E[Y]=a
 V[Z]=k^2V[X]+V[Y]+Cov[X,Y]=k^2+1

よって期待値 a、分散 k^2+1の正規分布に従う。


※もし時間があれば本当に正規分布に従うか分布を出してやった方が、安全かもしれません。



問4[2]

f:id:bananarian:20180918105218p:plain
相関係数は、共分散を標準化してやればよいので、とりあえず共分散を出しましょう。


 Cov(X,Z)=Cov(X,a+kX+Y)=kCov(X,X)=kV(X)=k

よって相関係数 \rho(X,Z)
 \rho(X,Z)=\frac{Cov(X,Z)}{\sqrt{V(X)V(Z)}}=\frac{k}{\sqrt{k^2+1}}


問4[3]

f:id:bananarian:20180918105231p:plain

正規分布の条件付き分布も正規分布っていうのはよく知られた事実なので、まあ時間が余るようなら証明を加えれば良いような気がします。

とりあえず条件付期待値と条件付分散を出してみますか。

 E[Z|X=x]=a+kx
 V[Z|X=x]=1

よって、期待値 a+kx、分散 1の正規分布である。

※正直再生性は既知のものとしているのに、こっちは既知としないのはよくわからないわけですが、一応指定教科書には再生性に関する記述はあれど、条件付分布が正規分布になるとは書いていないので、心配ならば分布を求めてやればよいと思います。


問4[4]

f:id:bananarian:20180918105805p:plain

最後ですね。
 f(x|Z=z)f(z)=f(z|X=x)f(x)なので

 f(z|X=x)f(x)=N(a+kx,1)×N(0,1)
 f(x|Z=z)=\frac{N(a+kx,1)×N(0,1)}{N(a,k^2+1)}

ですね。なんか非常に投げやりなノーテーションですが、正規分布の式を一々書くのが記事上だととても面倒くさいので、まあ許してください(笑)

あとはゴリゴリ正規分布の形に直すだけです。

計算してやると

 f(x|Z=z)=\frac{1}{\sqrt{2\pi(\frac{1}{k^2+1})^2}}exp(-\frac{(x-\frac{k(z-a)}{(k^2+1)})^2}{2(\frac{1}{k^2+1})})

ということで、正直正規分布をイロイロ組み合わせて出来るものは正規分布であるということは、分かっているので、
正規分布の形になるように意識して変形していけば、問題なく計算できると思います。


以上から期待値 \frac{k(z-a)}{(k^2+1)}、分散 k^2+1の正規分布に従うことが分かります。




以上です。次は問5ですね。

問4については、多変量正規分布の計算に慣れ親しんでいる人ならばすぐ解けるといった問題ですね。再生性に関しても証明を施すかどうかは迷いどころです。

【初心者向け】2017年統計検定1級数理問3の解説

前回は問2を解説しました。
bananarian.hatenablog.com

前回の記事の感想としては、問2は[1]と[3]さえ乗り切れば大したことない問題かなーとは思いましたが、完答はかなり勉強してる人じゃないとしんどそうですね。

2017年 統計検定1級 統計数理 問3 対策用解説 を始めていきます。

スポンサーリンク



あと、この統計検定カテゴリーですが、少しずつ遡っていって、過去問の解説を全部のっけていけるといいなーと思ってます。

個人的に統計検定について調べていて感じたことなんですが、
特に1級の解答解説については、正確なものがネットに殆ど転がっていないなーと思いました。
(何やら怪しげな計算をしている解答記事は多々ありましたが)

というわけで、解答をボチボチあげてくことも、世間に需要があるんじゃないかなーと思っている次第です。
あ、おかしな証明は書いていないつもりですが、もしツッコミがあれば当然歓迎です。



問3の概要

問3のセットアップを見ていきましょう。
f:id:bananarian:20180916190802p:plain

標準的なポアソン分布ですね。ポアソン分布は結構色々な性質があって、問題にしやすい分布かなーとは思います。
今回の[1]から[4]も標準な問題が多いですね。


問3[1]

f:id:bananarian:20180916191255p:plain

ポアソン分布は二項分布から導出されます。その導出がしっかり出来ますかという問題ですね。

まず、ポアソン分布の密度関数 f(x)は問題にもある通り次の通り

 f(x)=\begin{eqnarray*}
{}_n \mathrm{C} _x
\end{eqnarray*}p^x(1-p)^{n-x}=\frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}

ちょっと式をいじってみましょう。


 f(x)=\frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}=\frac{\{np(n-1)p...(n-x+1)p\}(n-x)!}{x!(n-x)!}(1-p)^{n-x}
 =\frac{\{np(n-1)p...(n-x+1)p\}}{x!}\frac{(1-p)^{n}}{(1-p)^x}


では、nを極限に飛ばしてみましょう。
 \displaystyle \lim_{n \to \infty} f(x)=\displaystyle \lim_{n \to \infty} \frac{\{np(n-1)p...(n-x+1)p\}}{x!}\frac{(1-p)^{n}}{(1-p)^x}
 =\displaystyle \lim_{n \to \infty} \frac{(np)^x}{x!}\frac{(1-p)^{n}}{(1-p)^x}


ここで、仮定より、 \displaystyle \lim_{n \to \infty} (np)^x=\lambda^x

更に、

 \displaystyle \lim_{p \to 0}  (1-p)^x=1
であることはすぐわかりますし、 exp(x)の定義から、次のことも分かります。

 \displaystyle \lim_{n \to \infty} (1-p)^{n}= \displaystyle \lim_{n \to \infty} (1-\frac{\lambda}{n})^{n} =e^{-\lambda}


以上より、


 \displaystyle \lim_{n \to \infty} f(x)=\frac{\lambda^x e^{-\lambda}}{x!}



問3[2]

f:id:bananarian:20180916194940p:plain

まず、モーメント母関数の定義は次のようになります。

 E[exp(tX)]


実際に計算していきます。

 E[exp(tx)]=\sum_{x=0}^{\infty}e^{tx}p(x)=\sum_{x=0}^{\infty}e^{tx}\frac{\lambda^x e^{-\lambda}}{x!}=e^{-\lambda}\sum_{x=0}^{\infty}\frac{(e^{t}\lambda)^x}{x!}


ここで一旦 e^sについて考えてみます。これについてマクローリン展開をしてみると


 e^s=\sum_{i=0}^{\infty} \frac{s^i}{i!}


よって
 E[exp(tx)]=e^{-\lambda}e^{e^{t}\lambda}=e^{\lambda(e^{t}-1)}

モーメント母関数はtで一回微分して、t=0を入れれば期待値が、二回微分してt=0を入れれば二乗の期待値が出てきます。

 E[X]=\frac{\partial M_x(t)}{\partial t}|_{t=0}=\lambda
 E[X^2]=\frac{\partial^2 M_x(t)}{\partial t^2}|_{t=0}=\lambda(\lambda+1)

よって
 V[X]=E[X^2]-E[X]^2=\lambda


問3[3]

f:id:bananarian:20180916201239p:plain


分布の畳み込みに関する問題ですね。ポワソン分布には再生性があるので、和をとってもポワソン分布になります。
それを示せという問題です。


 u=X_1, v=Y=X_1+X_2

とおくことにします。


ここで X_2=v-uであるので、

 \frac{\partial X_1}{\partial u}=1
 \frac{\partial X_1}{\partial v}=0
 \frac{\partial X_2}{\partial u}=-1
 \frac{\partial X_2}{\partial v}=1

以上より u vの同時分布から vに関する周辺分布を求めればよく、

 Prob(Y=v)=\sum_{u=0}^{v}\frac{1}{1}Prob(X_1=u)Prob(X_2=v-u)
 =\sum_{u=0}^{v}\frac{exp(-(\lambda_1+\lambda_2))\lambda_1^u\lambda_2^{v-u}}{u!(v-u)!}
 =exp(-(\lambda_1+\lambda_2))\sum_{u=0}^{v} \lambda_1^u\lambda_2^{v-u} \begin{eqnarray*}
{}_v \mathrm{C} _u
\end{eqnarray*}\frac{1}{v!}
 =\frac{exp(-(\lambda_1+\lambda_2))}{v!} \sum_{u=0}^{v} \lambda_1^u\lambda_2^{v-u} \begin{eqnarray*}
{}_v \mathrm{C} _u
\end{eqnarray*}

二項定理より、

 Prob(Y=v)=\frac{exp(-(\lambda_1+\lambda_2))}{v!} (\lambda_1+\lambda_2)^v

このことより、 Yもポアソン分布に従うことが分かりますね。



問3[4]

f:id:bananarian:20180916214340p:plain

最後ですね。ポワソン分布は \lambda→\inftyにおいて漸近的に正規近似します。
色々と証明方法はありますが

今回はせっかくモーメント母関数を出したので、それを利用してモーメント母関数を対数変換したキュムラント母関数が標準正規分布のキュムラント母関数に収束することを示すことで証明します。

ただ、今回は長くなるので母関数と分布の1対1対応することについては既知のこととして証明することとします。


[2]より
 Z=\frac{X-\lambda}{\sqrt{\lambda}}

このZのモーメント母関数 M_z(t)

 M_z(t)=E[e^{tZ}]=E[e^{\frac{tX-t\lambda}{\sqrt{\lambda}}}]=E[e^{\frac{tX}{\sqrt{\lambda}}}e^{\frac{-t\lambda}{\sqrt{\lambda}}}]=e^{-t\sqrt{\lambda}}E[e^{\frac{tX}{\sqrt{\lambda}}}]=e^{-t\sqrt{\lambda}} e^{\lambda(e^{\frac{t}{\sqrt{\lambda}}}-1)}


ここでキュムラント母関数は
 \log{M_z(t)}=-t\sqrt{\lambda}+(\lambda(e^{\frac{t}{\sqrt{\lambda}}}-1)

これについてテイラー展開を施すために次の計算を行っておく。

 \log{M_z(0)=0}
 \frac{\partial \log{M_z(t)}}{\partial t}|_{t=0}=0
 \frac{\partial^2 \log{M_z(t)}}{\partial t^2}|_{t=0}=1
 \frac{\partial^3 \log{M_z(t)}}{\partial t^3}|_{t=0}=\frac{1}{\sqrt{\lambda}}

これを元にテイラー展開を行えば

 \log{M_z(t)}=\frac{t^2}{2!}+\frac{1}{\sqrt{\lambda}}\frac{t^3}{3!}+o(\frac{1}{\sqrt{\lambda}})

よって \lambda→\inftyのもとで、キュムラント母関数は \frac{t^2}{2!}に収束することが分かる。

これは標準正規分布のキュムラント母関数である。


よって母関数と分布の1対1対応の関係から \lambda→\inftyのもとで Zの分布は標準正規分布に収束する。



以上でした。内容自体は標準的ですが、制限時間内で解くとなると少し時間がかかりそうですね。



次は問4ですね。

      • キーワード---

統計検定1級 解説 数理 統計数理 2017年 解答 

【初心者向け】2017年統計検定1級数理問2の解説

前回は問1の解説を行いましたが、次は問2をやっていきます。
bananarian.hatenablog.com

スポンサーリンク



2017年 統計検定1級 統計数理 問2 対策用解説 を始めていきます。

問2の概要

まず、問2のセットアップから確認します。
f:id:bananarian:20180916102856p:plain

要は一様分布ですね。

なんだ、一様分布なら簡単そうじゃないか!!と思いきや、意外と詰まった受験生もいらっしゃったのではないかなあと思います。

意外と盲点になるところですが、一様分布の同時分布における最尤推定量って思考停止でやろうとすると、おかしなことになるんですね。



問2[1]

f:id:bananarian:20180916103243p:plain

これ、詰まった人いるんじゃないですかねえ。どうでしょうか。
一様分布のパラメータにおける最尤推定量に関する問題ですね。



色々考え方はありますが、今回はKKT条件を使って解いてみようかと思います。
KKT条件については前に書いた下の記事の真ん中あたりにあるので参考にしてみてください。
bananarian.hatenablog.com



まず、計画問題を考えることにします。今回は、独立に一様分布に従っていることから同時分布は次のようになります。

 \frac{1}{\theta^n}

しかし、ここで一つ問題があって、得られた全ての X_i 0より大きくて、\theta以下でなければならないという制約が発生します。そこで次のように考えます。

 X_1≦\theta
 X_2≦\theta
...
 X_n≦\theta

ということは結局、 X_{max}≦\thetaだということ!!

つまり、制約として X_{max}≦\thetaが存在します。


以上より計画問題は次のようになります。


目的  \frac{1}{\theta^n} を最大化する
制約  X_{max}≦\theta



別にこの作業はしてもしなくてもどっちでもいいんですが、目的の見方を変えると、

 \theta^n を最小化する

と見ることもできますね。


ここまで来たらもう難しくありません。ラグランジュ乗数 \lambda≧0を用意してやり、次のようなラグランジュ関数 Lを考えます。


 L(\theta,\lambda)=\theta^n-\lambda (\theta-X_{max})

このラグランジュ関数は、KKT条件より、次の制約を満たす必要があります。

 \frac{\partial L(\theta,\lambda)}{\partial \theta}=0…①
  \frac{\partial L(\theta,\lambda)}{\partial \lambda}≦0…②
  \lambda (\theta-X_{max})=0⇔(\lambda=0) or (\theta=X_{max})…③


まず、②についてですが、
②⇔ X_{max}≦\theta
ですね。


更に①は
①⇔ \lambda=n\theta^{n-1}

であり、 0<\thetaであることに注意すると、 \lambda>0ですね。



 \lambda>0であることがわかったので、これを考慮した上で③をみてやると、

 (\lambda=0)は成り立ちませんよね。よって (\theta=X_{max})です。



つまり \thetaの最尤推定量 \hat{\theta}

 \hat{\theta}=X_{max}

となります。



問2[2]

[2]いきます。
f:id:bananarian:20180916142111p:plain



まず、 Xの期待値を出せないとお話にならないので出してみましょう。
 E[X]=\int_0^{\theta}\frac{X}{\theta}dX=\frac{1}{\theta}[\frac{X^2}{2}]_0^{\theta}=\frac{\theta}{2}


 E[\theta']=E[2\bar{X}]=\frac{2}{n}\sum_{i=1}^{n}E[X]=\theta

不偏推定量であることが確認できました。



問2[3]

f:id:bananarian:20180916142213p:plain


順序統計量に関する密度関数の問題です。

 X_{max}は要はこういう状況ですよね。
 (X_1≦X_{max})\&(X_2≦X_{max})\&....\&....\&(X_n≦X_{max})


つまり Xの分布関数を F(x)とおくこととすると、
 X_{max}の分布関数 G(x)は次のようになりますね。


 G(x)=Prob(X_1≦X_{max})Prob(X_2≦X_{max})....Prob(X_n≦X_{max})={F(x)}^n


これを微分してやれば密度関数が出てきますね。ただその前に F(x)を求めておきましょう。


 F(x)=\int_0^x \frac{1}{\theta} dX=\frac{x}{\theta}


 G(x)=(\frac{x}{\theta})^n


 (密度関数)=f_{max}(x)=\frac{\partial G(x)}{\partial x}=\frac{n}{\theta}(\frac{x}{\theta})^{n-1}


次に X_{max}の期待値を求めてみます。

 E[X_{max}]=\int_0^{\theta}x f_{max}(x)dx=\int_0^{\theta} \frac{nx}{\theta}(\frac{x}{\theta})^{n-1} dx=\frac{n}{\theta^n}\int_0^{\theta}x^ndx=\frac{n \theta}{n+1}


以上より、 E[\theta'']=\theta



問2[4]

f:id:bananarian:20180916142612p:plain


最後ですね。[2]と[3]で2種類の \thetaに関する不偏推定量を導きました。
しかし、その中でもより分散の小さい推定量、つまり有効推定量であることが重要でした。


分散ですが、普通に分散の定義に従っても良いのですが、ちょっと面倒なので次の公式を利用します。導出は容易なので省略します。

 V[X]=E[X^2]-(E[X])^2


つまり、 E[X^2] E[X_{max}^2]を導出すればよいということになります。

[tex: E[X^2]=\int_0^{\theta}\frac{X^2}{\theta}dX=\frac{\theta^2}{3}

 E[X_{max}^2]=\int_0^{\theta} \frac{nx^{n+1}}{\theta^n}dx=\frac{n}{\theta^n}\int_0^{\theta}x^{n+1}dx=\frac{n\theta^2}{n+2}


よって、分散は

 V[X]=\frac{\theta^2}{3}-\frac{\theta^2}{4}=\frac{\theta^2}{12}
 V[X_{max}]=\frac{n\theta^2}{n+2}-\frac{n^2 \theta^2}{(n+1)^2}=\frac{n\theta^2}{(n+2)(n+1)^2}


更に各推定量の分散は次のようになりますね。

 V[\theta']=\frac{4}{n} \frac{\theta^2}{12}=\frac{\theta^2}{3n}
 V[\theta'']=\frac{(n+1)^2}{n^2} \frac{n\theta^2}{(n+2)(n+1)^2} =\frac{\theta^2}{n(n+2)}



 nをどんどん大きくしていった時に、 \theta''の分散の方が早く0になるのはわかりますか?
更にもう少し考えてみると
 V[\theta']-V[\theta'']=\frac{\theta^2}{3n}-\frac{\theta^2}{n(n+2)}=\frac{n(n+2)\theta^2-3\theta^2}{3n(n+2)}=\frac{(n+3)(n-1)\theta^2}{3n(n+2)}

これは n≧1より、常に正です。

よって

 V[\theta']-V[\theta'']≧0
 V[\theta']≧V[\theta'']


 \theta'の方がより効率的な推定量であることが分かりました!


よって、どちらの推定量 \theta', \theta''であっても不偏性、効率性はありますが、 \theta''が有効性の点で優れているため、良い推定量であるといえます。


次回は問3についてやります。



      • キーワード---

統計検定1級 解説 数理 統計数理 2017年 解答 

純文系の私がガチガチの統計学を習熟した方法と経緯

結構ブログ記事ではゴリゴリ統計学や機械学習の話を記事にしている私ですが、実は生粋の文系でして、数学も大学入学時点で数学ⅠAⅡBまでしかやっていませんでした。

 

今回はそんな私が一体どんな本を読んで勉強してきたら、こんな記事を書くまでになったのかを振り返るとともに、その際使った統計学・数学本を紹介していきたいと思います。



スポンサーリンク


 

【大学入学時】

能力的には数学ⅠAⅡBはある程度分かっているというレベルでした。数ⅢCは知りません。

 

まず、そんな状態でやったのはこれです。個人的にはド定番だと思ってます。

・コアテキスト

文系高校生レベルの数学的な知識のみで読みきることが出来て、かつ具体的にどう使うのかといった方面に着目した本です。大屋先生という日本でも有数の計量経済学者が書いた本なので、中身も信用できます。また、この本の演習本も出版されていて、それが下の本です。

 

・基本演習 統計学

大学レベルの数学・統計学で演習本は中々少ないので貴重ですね。


 





【統計検定を受けてみた】

コアテキストを一通り読みきるとどれくらいのレベルになるかというと、統計検定2級を受かる程度の力がつきます。実際私の大学では、コアテキストを終えた後に統計検定2級に関する広告が配られます。そこで私も受けてみました。その際に使用したテキストがこちらです。

 

・統計学基礎

ここまでやれば文系としては十分なくらい統計学の知識が身につきます。ついでに演習もはかどり、統計検定にも合格できるというオマケ付き。

 

 



【理系統計学に片足を突っ込む】

そろそろ文系レベルの統計学は卒業です。卒業にあたってどうしても数学的な知識をもう少しつける必要が生じました。しかし、数ⅢCをやっていない私はいきなり理系大学生用の数学本に手を出すことは出来ませんでした。そこで使用した本がこちらです。

 

・経済数学教室 確率論

この本は、読者の想定が文系であるにもかかわらず、全て読み切れば相当高度なレベルまで確率論を学ぶことが出来ます。名著です。普通に買うと高いのですが、中古だとそこそこの額でおさまります。また、恐らく大学の図書館であれば絶対に置いてありますので借りるのもよいかと。



 スポンサーリンク




もしくはこれですね


・確率論入門Ⅰ

確率論について基礎から丁寧に学ぶことが出来、こちらも大学レベルの確率論のそこそこのレベルまで到達できます。





その後に読んだ本がこちらです。

・統計学入門

理系用統計学の入門書です。ここまで読み進めてきた私としては平易でした。理系の大学生はこの本が統計学の勉強のスタートかなとは思います。ちなみにアクチュアリ試験公認会計士試験の統計学もこのレベルです(公認会計士試験は、この本がオススメとは言われているけども、正直もう少し簡単なレベルで良いとは思う)。

 

 


【数理統計学の名著をあさる】

そろそろ本格的に統計学を学んでいく素地が出来上がっているはずです。そこで、少し数理的な側面の多い本を読んでいきました。

 

・明快演習数理統計学

この本は数理統計学とは書いてありますが、そこまで難しい内容ではありません。今まで固めた基礎の復習といった感じです。

 


・数理統計学

これは中々重たいですが、読み切れば力がつく名著です。有名なので、大学生であれば大学の図書館に行けば山ほどおいてあると思いますし、理系向けの中級レベルの統計学の講義では恐らくこの本が使われています。この時点で私は大学3年生でした。




・統計学

ちなみに、この時点で統計検定1級の勉強に突入出来るくらいの力はついているはずです。次に紹介する本も読んでしまえば、かなり統計検定1級は合格圏内だと思います。 

 





【そろそろガチめの統計学の勉強をはじめる】

大学4年生になった私はそろそろ、ガチめに勉強してみるかあと奮起し、洋書にも手を出すことにしました。洋書と聞くとハードルが高そうに感じますが、読み始めてみると、所詮専門書なので、難しい英語も無く、結構難なく読めちゃったりします

 

・Statistical Inference

古い本ですが、これが一番おすすめです。体型的に伝統的な数理統計学の発展経緯を学ぶことが出来ます。

 

さらに次の本もオススメです。


・Theory of point estimation

世界的に有名なレーマンという統計学者の名著です。大学院レベルの統計学(点推定)を学ぶ上で定番の教科書です。

 


スポンサーリンク




・統計的検定論

同じくレーマンの名著で、統計的検定について一通り書いてある本の和訳本です。中古で買えば意外と安いですね。

 



【ベイズ統計学を学ぶ】
古い数理統計学から最近話題の機械学習へ学びを進めるにはベイズ統計学を学ばなければなりません。
さきほど紹介したS.D.Silveyのstatistical inferenceにもベイズの項目はサックリ書いていますが、あれだけでは流石に足りないので、補完する必要があります。

ベイズ入門の入門

・図解ベイズ統計学超入門

メチャメチャサックリ読めます。普通に1日で読み切れます。


ベイズ入門

・基礎からのベイズ統計学

難しい話はほとんどカットしているので非常に簡単です。読みやすいのでお勧め。これだけでベイズ統計学の基礎的な話はおしまいです。それだけベイズは簡単でとっつきやすいということですかね。



・ベイジアン計量経済学

これは完全に経済学部向けですが、この本も個人的にはオススメです。
特に序盤のベイズの説明がわかりやすいうえにそこそこ高度な内容までやるので、深く理解することが出来ます。






【数理統計学の流れを踏まえた上で機械学習にも足を踏み入れる】

ここまでやって、やっと今の時代のトピックスに移れますね。


・computer age statistical inference

現代統計学の有名人、Efron先生が書いた最新本です。最新のトピックス(SVMやニューラルネット等)も取り扱っているうえに、どういう歴史的な経緯をもって伝統的な数理統計学がここまで発展してきたのか時系列にそってじっくり書いてあります。




これで、過去のトピックスから現在のトピックスまでザックリ統計学の素地が身につくはずです!

私はそこそこ身につきました。
あとは、自分の興味に合わせて色々な分野の本を読んでみると更に補完することが出来ますし、ここまで読み進めて、最早読めない本などそうそうありませんし、もしあっても自ら掘り進める素地も出来ています。


こんな感じですね。
個別トピックの勉強プロセスについてはまたの機会にするとして、今回は統計学の素地をしっかり身に着けるために私が読んだ本について紹介しました。


何やらいっぱい紹介しましたが、いうてこれらの本は大学1年生から大学4年生までの4年間で読んだ本ですし、【理系に足突っ込んでみた】からここまでで約2年です。そう考えると、意外とそこまで量は無いのかな?とは思います。

追記

追加でオススメ本記事書きました!興味があればご覧ください。

計量経済学に関するオススメ本
www.bananarian.net

ミクロ経済学に関するオススメ本
www.bananarian.net

SQLに関するオススメ本
www.bananarian.net