バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

統計検定1級対策問題集~フィッシャー情報量編~

統計検定1級では、フィッシャー情報量を求める問題が頻出しています。そこで、フィッシャー情報量についてまとめました。

目次


スポンサーリンク


フィッシャー情報量とは


尤度関数 p(x;\theta)を考えます。
この時、この尤度関数について対数を取った対数尤度をパラメータ(ベクトル)について1階微分し、二乗して期待値を取ったものをフィッシャー情報量(行列) I(\theta)と呼びます。つまり

 I(\theta)= E[\{\frac{\partial}{\partial \theta} log( p(x;\theta) ) \}^2]


フィッシャー情報量(行列)は様々な場面で利用されますが、もっとも有名なのはクラメルラオの下限です。

あるパラメータ(ベクトル)における不偏推定量の分散の下限はフィッシャー情報量(行列)の逆数(逆行列)に等しくなります。これをクラメルラオの下限と呼びます。


不偏推定量は、バイアス0の推定量でしたので、不偏推定量のクラスで推定量を考える場合、MSEを最小にするような推定量を考えるには分散を小さくすることだけを考えれば良いので、その下限がわかるのは非常に強力です。


フィッシャー情報量の第二の導出

フィッシャー情報量は定義通り1階微分の二乗の期待値でも求めることは出来ますが、次の計算も適当な正則条件の下で同値になります。


 I(\theta)=E[-\frac{\partial^2}{\partial \theta^2} log(p(x;\theta))]

場合によっては二乗するより二回微分した方が簡単になることもあるので、この関係を知っておくことは重要です。一応簡単に証明しておきます。


 \frac{\partial^2}{\partial \theta^2} log(p(x;\theta))=\frac{\partial}{\partial \theta} \frac{1}{p}\frac{\partial p}{\partial \theta}

 =-\frac{1}{p^2} (\frac{\partial p}{\partial \theta})^2 + \frac{1}{p} \frac{\partial^2 p}{\partial \theta^2}

 =-(\frac{\partial logp}{\partial \theta})^2 +\frac{1}{p} \frac{\partial^2 p}{\partial \theta^2}


ここで E[ \frac{1}{p} \frac{\partial^2 p}{\partial \theta^2} ]=0…(微分と積分の交換が成り立てば)

よって E[- \frac{\partial^2}{\partial \theta^2} log(p(x;\theta)) ]=I(\theta)であることがわかります。


だんだんこの公式で慣れてくると、


「んんん??二乗したやつにマイナスつけるんだっけ?二回微分した奴にマイナスつけるんだっけ??」と混乱してくるかもしれませんが、その時はクラメルラオの下限を思い出すと良いかと思います。

分散の下限になるってことは、値は正になるはずってのが感覚的に普通ですよね。だから二乗したやつにマイナスがつくことなんてあり得ません。

フィッシャー情報量(行列)の具体例


具体的な計算が無いとよくわからないと思うので、1変量の場合と多変量の場合をそれぞれ具体例で確認してみようと思います。

ベルヌーイ分布

独立同一にベルヌーイ分布に従うサンプルを考えた場合、その同時尤度は次のよう。

 p^{\sum x_i}(1-p)^{n-\sum x_i}

そこで、対数を取ってやると

 log(p) \sum x_i + log(1-p) ( n-\sum x_i)

これを pについて二回微分すると次のようになりますね。

 -\frac{\sum x_i}{p^2}-\frac{n-\sum x_i}{(1-p)^2}

ここで、ベルヌーイ分布の期待値は pなので、期待値を取ってマイナスをとるとフィッシャー情報量 I(p)

 I(p)=\frac{n}{p}+\frac{n}{1-p}=\frac{n}{p(1-p)}


正規分布

パラメータが2つあるので、フィッシャー情報行列になります。


 \theta=(\mu,\sigma^2)とおく。

ここで、同時尤度は次のようになります。

 (2 \pi \sigma^2)^{\frac{-n}{2}} exp(-\frac{\sum (x_i-\mu)^2}{2\sigma^2})

ここで、対数を取ると

 \frac{-n}{2} log(2\pi \sigma^2)-\frac{\sum (x_i-\mu)^2}{2\sigma^2}


さて、ここで \muに関して2回微分してやると

 \frac{-n}{\sigma^2}

これについてマイナスをつけて期待値を取ると

 \frac{n}{\sigma^2}

また \sigma^2に関して2階微分してやると

 \frac{n}{2 \sigma^4}-\frac{\sum (x_i-\mu)^2}{\sigma^6}

これについてマイナスをつけて期待値を取ると

 \frac{n}{2 \sigma^4}


 \mu, \sigma^2で1回ずつ微分してやると

 \frac{-\sum (x_i-\mu)}{\sigma^4}

これについてマイナスをつけて期待値を取ると

0


以上より、フィッシャー情報行列 I(\theta)は次のようになります。


 I(\theta)=\begin{pmatrix}
\frac{n}{\sigma^2} & 0 \\
0 & \frac{n}{2 \sigma^4} \\
\end{pmatrix}



ポアソン分布の場合や指数分布の場合も練習になるのでやってみると良いかと思います。