基礎からイメージで学ぶ統計学~最尤推定量編~

ここで一致推定量の一例として最尤推定量について解説します。

最尤推定量についても色々と面白い性質があるわけですが、初心者向け記事ということで一致性に主眼をおいて、最尤推定量の導出法の説明で終わります。

まず、最尤推定量を導出するために必要な概念として、尤度関数について説明しておきます。

まず、確率変数を $x$ 、パラメータを $\theta$ とし、 $x$ の確率密度関数(確率質量関数)を $p(x;\theta)$ と置くことにします。

普通、この関数はデータを取る前に考えるので、 $x$ は未知の値、背後に真の値 $\theta$ が固定された値として与えられています。

しかし、尤度関数を考える際は見方を逆転させ、 $x$ を既知、 $\theta$ を変数と考えます。
要は、データとして $x$ が与えられた後で、確率密度関数(確率質量関数)の中の $\theta$ を変数とみて、 $\theta$ の関数として考えてやろうというわけです。

意味が良く分からないという人は、事実上尤度関数と確率密度関数(確率質量関数)は関数形として一緒だと考えてもらって問題ありません。

例えば、ポワソン分布の確率質量関数は
$\frac{e^{-\lambda}\lambda^x}{x!}$

尤度関数も
$\frac{e^{-\lambda}\lambda^x}{x!}$
です。

一緒です。ただ、違いは尤度関数の方はxがデータとして与えられていて、例えば $x=5$ というデータが得られていたとしたら、
尤度関数は
$\frac{e^{-\lambda}\lambda^5}{5!}$

となります。

後は尤度関数 $p(\theta;x)$ を最大化する $\theta$ を導いてやれば、それが最尤推定量です。
よく、計算のしやすさから対数を取ってから微分をすることで求めることが多いです。
※一部の関数で例外があります。

① $L(\theta;x)=log\{p(\theta;x)\}$ を対数尤度関数と呼びます。

②対数尤度関数を $\theta$ について微分してやります。
※本当は最適化理論に基づいて微分を行うことが適当か調べる必要があるわけですが、その辺の話は省略

③(微分した結果)=0と置いて、 $\theta$ について解く

基本的にこれで最尤推定量が出ます。

※ただ、何でもかんでも出せるわけではなくて、解けない場合もあり、その場合は探索的な方法(ニュートン法など)で近似解を探すことになります。

で、何で今回最尤推定量の話をしたのかというと、
最尤推定量は一致推定量なので、サンプルサイズが十分に大きい場合には良い推定量と言えるわけです。

何故、数ある一致推定量の内、最尤推定量が良いとされているかというと、

端的に言ってしまえばアルゴリズムに一貫性があるからです。

今回確認したように、要は確率密度関数の関数形がわかったら、後はそれの対数をとって微分して解いてやるだけで出てくるという簡潔さ。
それがこの最尤法の魅力です。

※後は、漸近的に最小分散不偏推定量に近似するからという理由もあります。