統計検定1級対策問題集~最尤推定量編~

統計検定1級では、最尤推定量を求める問題が頻出しています。そこで、最尤推定量を求める問題についてまとめました。

一様分布
- パラメータ1つの場合
- パラメータが2つの場合
ベルヌーイ分布
ポアソン分布
正規分布
指数分布

一様分布

パラメータ1つの場合

最大値が未知パラメータの次のような一様分布を考えます。

$f(x)=\frac{1}{\theta}$

$0＜x≦\theta$

この時の、パラメータ $\theta$ の最尤推定量を求めます。

n個のサンプルが得られたとして、その同時尤度 $l(\theta)$ は

$l(\theta)=\frac{1}{\theta^n}$

この尤度 $l(\theta)$ を最大化する推定量 $\hat{\theta}$ を考えます。
ただし、暗黙の条件に次の条件があることに注意します。

$max\{x_1,\cdots,x_n\}≦\theta$

不等式制約があるので、正の変数 $\lambda$ を用いて、次のようなKKT条件を考える。

$L(\theta,\lambda)=\frac{1}{\theta^n}-\lambda (\theta-x_{\{max\}})$

$\frac{\partial L(\theta,\lambda)}{\partial \theta} =-\frac{n}{\theta^{n+1}}-\lambda=0$ …①

$\frac{\partial L(\theta,\lambda)}{\partial \lambda} =-(\theta-x_{\{max\}})≦0$ …②

$\lambda (\theta-x_{\{max\}})=0$ …③

$\lambda=0$ であるとすると、①の等式が成り立たない。

よって $\hat{\theta}=x_{\{max\}}$

ちなみに、この問題は実際の試験で出題されています。
また、最大値ではなく最小値が未知パラメータである場合も同様の方法で $\hat{\theta}=x_{\{min\}}$ と得られます。

パラメータが2つの場合

最大値も最小値も未知パラメータであるような一様分布として、次のようなものを考えます。

$f(x)=\frac{1}{\theta_2-\theta_1}$

$\theta_1＜x＜\theta_2$

この時、n個サンプルを得た時の同時尤度 $l(\theta_1,\theta_2)$ は次のようになります。

$l(\theta_1,\theta_2)=\frac{1}{(\theta_2-\theta_1)^n}$

更に、暗黙的に次の条件があることがわかります。

$\theta_1≦x_{\{min\}}$

$x_{\{max\}}≦\theta_2$

不等式制約なので、正の変数 $\lambda_1,\lambda_2$ を用いて次のようなKKT条件を考えます。

$L(\theta_1,\theta_2,\lambda_1,\lambda_2)=\frac{1}{(\theta_2-\theta_1)^n}-\lambda_1(x_{\{min\}}-\theta_1)-\lambda_2(\theta_2-x_{\{max\}})$

$\frac{\partial L(\theta_1,\theta_2,\lambda_1,\lambda_2)}{\partial \theta_1}=\frac{n}{(\theta_2-\theta_1)^{n+1}} +\lambda_1=0$ …①

$\frac{\partial L(\theta_1,\theta_2,\lambda_1,\lambda_2)}{\partial \theta_2}=\frac{-n}{(\theta_2-\theta_1)^{n+1}} -\lambda_2=0$ …②

$\frac{\partial L(\theta_1,\theta_2,\lambda_1,\lambda_2)}{\partial \lambda_1}=(x_{\{min\}}-\theta_1)≦0$ …③

$\frac{\partial L(\theta_1,\theta_2,\lambda_1,\lambda_2)}{\partial \lambda_2}=(\theta_2-x_{\{max\}})≦0$ …④

$\lambda_1(x_{\{min\}}-\theta_1)=0$ …⑤

$\lambda_2(\theta_2-x_{\{max\}})=0$ …⑥

⑤、⑥について、もし $\lambda_1=0,\lambda_2=0$ であったとすると、①、②の等式は成り立たない。

よって、それぞれのパラメータの最尤推定量は

$\hat{\theta_1}=x_{\{min\}}$

$\hat{\theta_2}=x_{\{max\}}$

ベルヌーイ分布

ベルヌーイ分布の確率質量関数 $f(x)$ は次のよう。

$f(x)=p^x(1-p)^{1-x}$

ここで、n個のサンプルを考えた場合の同時尤度 $l(p)$ は

$l(p)=p^{\{\sum_{i=1}^n x_i\}} (1-p)^{\{n-\sum_{i=1}^n x_i\}}$

ここで、 $l(p)$ の対数を取ると次のよう。

$ln(p)=(\sum_{i=1}^n x_i) log(p) +(n-\sum_{i=1}^n x_i) log(1-p)$

ここで $p$ の最尤推定量 $\hat{p}$ は次の等式を満たす $p$ に等しい。

$\frac{\partial ln(p)}{\partial p}=\frac{\sum_{i=1}^n x_i}{p}-\frac{n-\sum_{i=1}^n x_i}{1-p}=0$

よって
$\hat{p}=\frac{\sum_{i=1}^n x_i}{n}$

ポアソン分布

ポアソン分布の確率質量関数 $f(x)$ は次の通り。

$f(x)=\frac{e^{-\lambda} \lambda^{x}}{x!}$

サンプルをn個取り出したとすると同時尤度 $l(\lambda)$ は次のよう。

$l(\lambda)=\frac{e^{-n\lambda} \lambda^{\sum_{i=1}^n x_i}}{\prod_{i=1}^n (x_i !)}$

ここで、対数を取ってやると

$ln(\lambda)=-log(\prod_{i=1}^n (x_i !))-n\lambda +(\sum_{i=1}^n x_i)log(\lambda)$

よって $\lambda$ の最尤推定量 $\hat{\lambda}$ は次の等式を満たす $\lambda$ に等しい。

$\frac{\partial ln(\lambda)}{\partial \lambda}=-n+\frac{\sum_{i=1}^n x_i}{\lambda}=0$

以上より

$\hat{\lambda}=\frac{\sum_{i=1}^n x_i}{n}$

正規分布

正規分布の確率密度関数は次の通り。

$f(x)=\frac{1}{\sqrt{2\pi \sigma^2}} exp(-\frac{((x-\mu)^2)}{2\sigma^2})$

同時尤度は
$l(\mu,\sigma)=(2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{\sum_{i=1}^n (x_i-\mu)^2}{2 \sigma^2})$

ここで対数を取ると

$ln(\mu,\sigma)=\frac{-n}{2} log(2 \pi \sigma^2)-\frac{\sum_{i=1}^n (x_i-\mu)^2}{2 \sigma^2}$

この時、 $\mu,\sigma$ の最尤推定量 $\hat{\mu},\hat{\sigma}$ は次の等式から得られる。

$\frac{\partial ln(\mu,\sigma)}{\partial \mu}=\frac{\sum_{i=1}^n (x_i-\mu)}{\sigma^2}=0$

$\frac{\partial ln(\mu,\sigma)}{\partial \sigma}=\frac{-n}{\sigma}+\frac{\sum_{i=1}^n (x_i-\mu)^2}{\sigma^3}=0$

よって、

$\hat{\mu}=\frac{\sum_{i=1}^n x_i}{n}$

$\hat{\sigma}=\sqrt{\frac{\sum_{i=1}^n (x_i-\hat{\mu})^2}{n}}$

指数分布

指数分布の確率密度関数は次の通り

$f(x)=\lambda exp(-\lambda x)$

この時同時尤度は

$l(\lambda)=\lambda^n exp(-\lambda \sum_{i=1}^n x_i)$

ここで、対数を取ると

$ln(\lambda)=n log(\lambda) -\lambda \sum_{i=1}^n x_i$

この時、 $\lambda$ の最尤推定量 $\hat{\lambda}$ は次の等式から得られる。

$\frac{\partial ln(\lambda)}{\partial \lambda}=\frac{n}{\lambda}-\sum_{i=1}^n x_i=0$

よって、

$\hat{\lambda}=\frac{n}{\sum_{i=1}^n x_i}$