バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

統計検定1級対策問題集~最尤推定量編~

統計検定1級では、最尤推定量を求める問題が頻出しています。そこで、最尤推定量を求める問題についてまとめました。

目次


スポンサーリンク


一様分布

パラメータ1つの場合

最大値が未知パラメータの次のような一様分布を考えます。

 f(x)=\frac{1}{\theta}

 0<x≦\theta

この時の、パラメータ \thetaの最尤推定量を求めます。


n個のサンプルが得られたとして、その同時尤度 l(\theta)

 l(\theta)=\frac{1}{\theta^n}

この尤度 l(\theta)を最大化する推定量 \hat{\theta}を考えます。
ただし、暗黙の条件に次の条件があることに注意します。

 max\{x_1,\cdots,x_n\}≦\theta


不等式制約があるので、正の変数 \lambdaを用いて、次のようなKKT条件を考える。

 L(\theta,\lambda)=\frac{1}{\theta^n}-\lambda (\theta-x_{\{max\}})

 \frac{\partial L(\theta,\lambda)}{\partial \theta} =-\frac{n}{\theta^{n+1}}-\lambda=0…①

 \frac{\partial L(\theta,\lambda)}{\partial \lambda} =-(\theta-x_{\{max\}})≦0…②

 \lambda (\theta-x_{\{max\}})=0…③

 \lambda=0であるとすると、①の等式が成り立たない。

よって \hat{\theta}=x_{\{max\}}


ちなみに、この問題は実際の試験で出題されています。
また、最大値ではなく最小値が未知パラメータである場合も同様の方法で \hat{\theta}=x_{\{min\}}と得られます。


パラメータが2つの場合

最大値も最小値も未知パラメータであるような一様分布として、次のようなものを考えます。

 f(x)=\frac{1}{\theta_2-\theta_1}

 \theta_1<x<\theta_2

この時、n個サンプルを得た時の同時尤度 l(\theta_1,\theta_2)は次のようになります。

  l(\theta_1,\theta_2)=\frac{1}{(\theta_2-\theta_1)^n}

更に、暗黙的に次の条件があることがわかります。

 \theta_1≦x_{\{min\}}

 x_{\{max\}}≦\theta_2

不等式制約なので、正の変数 \lambda_1,\lambda_2を用いて次のようなKKT条件を考えます。

 L(\theta_1,\theta_2,\lambda_1,\lambda_2)=\frac{1}{(\theta_2-\theta_1)^n}-\lambda_1(x_{\{min\}}-\theta_1)-\lambda_2(\theta_2-x_{\{max\}})

 \frac{\partial L(\theta_1,\theta_2,\lambda_1,\lambda_2)}{\partial \theta_1}=\frac{n}{(\theta_2-\theta_1)^{n+1}} +\lambda_1=0…①

 \frac{\partial L(\theta_1,\theta_2,\lambda_1,\lambda_2)}{\partial \theta_2}=\frac{-n}{(\theta_2-\theta_1)^{n+1}} -\lambda_2=0…②

 \frac{\partial L(\theta_1,\theta_2,\lambda_1,\lambda_2)}{\partial \lambda_1}=(x_{\{min\}}-\theta_1)≦0…③

 \frac{\partial L(\theta_1,\theta_2,\lambda_1,\lambda_2)}{\partial \lambda_2}=(\theta_2-x_{\{max\}})≦0…④

 \lambda_1(x_{\{min\}}-\theta_1)=0…⑤

 \lambda_2(\theta_2-x_{\{max\}})=0…⑥

⑤、⑥について、もし \lambda_1=0,\lambda_2=0であったとすると、①、②の等式は成り立たない。

よって、それぞれのパラメータの最尤推定量は

 \hat{\theta_1}=x_{\{min\}}

 \hat{\theta_2}=x_{\{max\}}


ベルヌーイ分布

ベルヌーイ分布の確率質量関数 f(x)は次のよう。

 f(x)=p^x(1-p)^{1-x}

ここで、n個のサンプルを考えた場合の同時尤度 l(p)

 l(p)=p^{\{\sum_{i=1}^n x_i\}} (1-p)^{\{n-\sum_{i=1}^n x_i\}}

ここで、 l(p)の対数を取ると次のよう。

 ln(p)=(\sum_{i=1}^n x_i) log(p) +(n-\sum_{i=1}^n x_i) log(1-p)

ここで pの最尤推定量 \hat{p}は次の等式を満たす pに等しい。

 \frac{\partial ln(p)}{\partial p}=\frac{\sum_{i=1}^n x_i}{p}-\frac{n-\sum_{i=1}^n x_i}{1-p}=0

よって
 \hat{p}=\frac{\sum_{i=1}^n x_i}{n}


ポアソン分布

ポアソン分布の確率質量関数 f(x)は次の通り。

 f(x)=\frac{e^{-\lambda} \lambda^{x}}{x!}

サンプルをn個取り出したとすると同時尤度 l(\lambda)は次のよう。

 l(\lambda)=\frac{e^{-n\lambda} \lambda^{\sum_{i=1}^n x_i}}{\prod_{i=1}^n (x_i !)}

ここで、対数を取ってやると

 ln(\lambda)=-log(\prod_{i=1}^n (x_i !))-n\lambda +(\sum_{i=1}^n x_i)log(\lambda)

よって \lambdaの最尤推定量 \hat{\lambda}は次の等式を満たす \lambdaに等しい。

 \frac{\partial ln(\lambda)}{\partial \lambda}=-n+\frac{\sum_{i=1}^n x_i}{\lambda}=0

以上より

 \hat{\lambda}=\frac{\sum_{i=1}^n x_i}{n}


正規分布

正規分布の確率密度関数は次の通り。

 f(x)=\frac{1}{\sqrt{2\pi \sigma^2}} exp(-\frac{((x-\mu)^2)}{2\sigma^2})

同時尤度は
 l(\mu,\sigma)=(2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{\sum_{i=1}^n (x_i-\mu)^2}{2 \sigma^2})

ここで対数を取ると

 ln(\mu,\sigma)=\frac{-n}{2} log(2 \pi \sigma^2)-\frac{\sum_{i=1}^n (x_i-\mu)^2}{2 \sigma^2}


この時、 \mu,\sigmaの最尤推定量 \hat{\mu},\hat{\sigma}は次の等式から得られる。


 \frac{\partial ln(\mu,\sigma)}{\partial \mu}=\frac{\sum_{i=1}^n (x_i-\mu)}{\sigma^2}=0

 \frac{\partial ln(\mu,\sigma)}{\partial \sigma}=\frac{-n}{\sigma}+\frac{\sum_{i=1}^n (x_i-\mu)^2}{\sigma^3}=0

よって、

 \hat{\mu}=\frac{\sum_{i=1}^n x_i}{n}

 \hat{\sigma}=\sqrt{\frac{\sum_{i=1}^n (x_i-\hat{\mu})^2}{n}}


指数分布

指数分布の確率密度関数は次の通り

 f(x)=\lambda exp(-\lambda x)

この時同時尤度は

 l(\lambda)=\lambda^n exp(-\lambda \sum_{i=1}^n x_i)

ここで、対数を取ると

 ln(\lambda)=n log(\lambda) -\lambda \sum_{i=1}^n x_i

この時、 \lambdaの最尤推定量 \hat{\lambda}は次の等式から得られる。

 \frac{\partial ln(\lambda)}{\partial \lambda}=\frac{n}{\lambda}-\sum_{i=1}^n x_i=0

よって、

 \hat{\lambda}=\frac{n}{\sum_{i=1}^n x_i}