バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

一様分布の上限の推定量の比較

さて、今回は一様分布の上限の推定方法の比較を行います。

初めに簡単に問題設定から。
 x_1,x_2,...,x_nが独立に、範囲 0 x_i \thetaの一様分布に従うような状況を考えます。
この時、最尤推定法を用いて、 \thetaの推定量 \hat{\theta}を考えると、 \hat{\theta}=max\{x_1,...x_n\}=x_{max}になるのでした。

ここまでの内容に関しては、既に以下の記事で触れていますので、初耳!という方は以下をご覧ください。
www.bananarian.net

今回は、 \thetaの推定量は本当に x_{max}で良いのか。もっとよりよい推定量は存在しないのかについて検討をします。

目次


スポンサーリンク



最大値の分布の導出

まず、 x_{max}は一体どんな分布をしていて、期待値や分散はいくらなのでしょうか。まずはそれらを計算します。

 M=max(X_1,...X_n)とします。この時 Mの分布関数は定義から、以下のように書けますね。

 P(M≦m)=P(max(X_1,...X_n)≦m)

ここで、 max(X_1,...X_n)≦mとは、全ての X_i m以下であることと同値であり、更に X_iは互いに独立であるため、

 P(M≦m) = P(X_1≦m)×P(X_2≦m)×…×P(X_n≦m)
 = (\int^{m}_{0} \frac{1}{\theta} dx)^n

が成り立ちますね。 \frac{1}{\theta}は一様分布の密度関数です。

これを計算すると、 P(M≦m)=(\frac{m}{\theta})^nとなります。

よって、 mについて微分を施すと、 M=x_{max}の密度関数 f(m)が得られ、

 f(m) = \frac{n}{\theta} (\frac{m}{\theta})^{n-1}とわかります。

最大値の期待値と分散の導出

密度関数がわかると、勿論期待値や分散を計算することが出来ます。

 E[x_{max}] = \int^{\theta}_0 x \frac{n}{\theta} (\frac{x}{\theta})^{n-1} dx = \frac{n}{n+1} \theta
 E[x_{max}^2] = \int^{\theta}_0 x^2 \frac{n}{\theta} (\frac{x}{\theta})^{n-1} dx = \frac{n}{n+2} \theta^2

よって、分散は以下のようになります。
 V[x_{max}] = E[x_{max}^2] - E[x_{max}]^2 = \frac{n}{n+2} \theta^2 - \frac{n^2}{(n+1)^2} \theta^2 = \frac{n}{(n+2)(n+1)^2} \theta^2

一様分布の上限値の不偏推定量

期待値を導出してみると、どうやら x_{max}の期待値は \thetaではないということに気付くかと思います。
最尤推定量は必ずしも不偏性を持つわけではないので、このような状況は多々あります。

そこで不偏性を持たせるために以下のような修正を施してみます。
 \hat{\theta}_2 = \frac{n+1}{n} x_{max}

これは、先ほどの計算から明らかですが、以下のようになるため不偏推定量です。
 E[\hat{\theta}_2] = E[\frac{n+1}{n} x_{max}] = \frac{n+1}{n} E[x_{max}] = \theta

分散に関しても先ほどの計算から簡単に計算することが出来ます。
 V[\hat{\theta}_2]= V[\frac{n+1}{n} x_{max}] = \frac{(n+1)^2}{n^2} V[x_{max}] = \frac{1}{n(n+2)} \theta^2

一様分布の上限値の不偏推定量 part2

そもそも x_{max}に縛られずとも、一様分布の期待値は E[x_i] = \frac{\theta}{2}ですから、 \thetaの推定量として次のようなものを考えることも出来ますね。

 \hat{\theta}_3 = \frac{2}{n} \sum_{i=1}^n x_i

この推定量の期待値と分散を計算すると以下のようになります。

 E[\hat{\theta}_3]=\theta
 V[\hat{\theta}_3] = \frac{1}{12n} \theta^2

一様分布の上限値の不偏推定量まとめ

以上3種類の推定方法を紹介しました。まとめると以下のようになります。

 \hat{\theta}=max\{x_1,...x_n\}=x_{max}
 \hat{\theta}_2 = \frac{n+1}{n} x_{max}
 \hat{\theta}_3 = \frac{2}{n} \sum_{i=1}^n x_i


さて、色々と出てきましたが、じゃあどれを使うべきかについて考えてみます。

n→∞のケース

nを無限に飛ばした場合、まず最尤推定量である \hat{\theta}は一致性を持つので、真のパラメータ \thetaへ収束します。
更に、 \hat{\theta}_2も、nを無限に飛ばせば \hat{\theta}と等しいため、真のパラメータへ収束します。
 \hat{\theta}_3も、大数法則から真のパラメータへ収束します。

では、分散はどうでしょう。
 V[\hat{\theta}] = \frac{n}{(n+2)(n+1)^2} \theta^2
 V[\hat{\theta}_2]= \frac{1}{n(n+2)} \theta^2
 V[\hat{\theta}_3] = \frac{1}{12n} \theta^2

nを無限に飛ばした場合、 \hat{\theta} \hat{\theta}_2は分母に n^2があるので、分母が n \hat{\theta}_3よりもはやい速度で値が収束することが直感的に分かるかと思います。

よって、nがある程度大きい場合は \hat{\theta} \hat{\theta}_2を使うのが良さそうです。

nが小サンプルのケース

さて、データの状況しだいではnを無限とみなしてよいほどnが大きくないということもあるかと思います。

その場合、まず最尤推定量である \hat{\theta}を使うとバイアスが生じます。
また、 V[\hat{\theta}] - V[\hat{\theta}_2] = \frac{2n+1}{n(n+2)(n+1)^2}>0であることを考えると、
分散の観点からも \hat{\theta}よりは、 \hat{\theta}_2を使う方が良さそうです。

より良い推定量を考えるのだから、分散は小さい方が良いですよね。

では、 \hat{\theta}_3はどうでしょう。
 V[\hat{\theta}_2] V[\hat{\theta}_3] を比較してみると、一概にどちらが大きいとはいえなさそうですが、
 n>10 \hat{\theta}_2の分散が小さくなることが分かります。上記二つはどちらも不偏推定量ですので、

 n≦10では \hat{\theta}_3
 n>10では \hat{\theta}_2

を使うのが良さそうです。

まとめ

以上まとめると、次のようになるかと思います。

 \hat{\theta}=max\{x_1,...x_n\}=x_{max}
n→∞と見なせる場合に使用可能。

 \hat{\theta}_2 = \frac{n+1}{n} x_{max}
n>10でよりよい推定が可能。 \hat{\theta}よりも分散が小さい。

 \hat{\theta}_3 = \frac{2}{n} \sum_{i=1}^n x_i
n≦10で \hat{\theta}_2よりも良い推定が可能。


今回、最尤推定量は惨敗でしたね。
最近はビッグデータ時代で兎にも角にも最尤法や最適化で推定を行いがちですが、小サンプル下ではもっと良い推定がたくさんありますよという話でした。

※コメント欄にて、どうやら小サンプルの所で計算間違いがありそうとのことでご指摘いただきました。今しっかり確認出来ない状況なのですが、後日確認し、修正させていただきます。