ベイズ統計学入門の入門 - バナナでもわかる話

少し前の記事で

ベイズ統計学っていうのはどういうものなのかという説明をしました。
bananarian.hatenablog.com

でも、そういえばこのブログではベイズ統計学の解説記事を書いたことがないなあと思ったので、ちょっと続き物で書いていきます。

一応、用語の説明がしんどいので、今回の記事に関しては統計学を触ったことがある人を対象に書いていきます。

ベイズの道具

ベイズの分析で使う道具はたった一つ。

ベイズルールです。統計学を勉強したことのある人であれば見たことがあると思います。

$P(X|Y)=\frac{P(Y|X)P(X)}{P(Y)}$

これです。要は条件付き確率のことです。

使う道具は本当にこれだけ。ベイズではこれを使って分析を行っていきます。

もう少し詳しく

これを使ってどう分析するかというと、

まず、知りたい現象の性質を、 $\theta$ とおきます。要はパラメータのことです。

更に今回の分析で使うデータを $D$ と置きます。

そうしたら、今どういう状況かというと

分析で使うデータ $D$ はもうすでに分かっている情報ですよね。

分かってる情報がDだということは、さっきのベイズルールの左側、 $P(\theta|D)$ みたいなものを考えることが出来ますよね。

これは $D$ がわかってる時の $\theta$ の確率分布なので、

この $\theta$ の確率分布がわかれば、そこから $\theta$ は「この値を取る確率が一番高いなあ。」とか「平均はこれくらいだなあ」とか、逆に「この値を取る確率は小さい」とか考えることが出来るわけです。

これがベイズ流の分析になります。

ベイズ流線形回帰分析

それでは、まだイメージが沸かないと思うので、ベイズ流の回帰分析をやってみましょう。

$y=aX+\epsilon$

統計学を学ぶものであればおなじみの線形回帰式です。今回は単回帰(説明変数が1個のケース)でやってみます。

データとしてXとyが与えられているとします。この時のパラメータは $a$ ですね。

更に、誤差項 $\epsilon$ は分散1、期待値0の正規分布に従うと仮定しておきましょう。

そうすると、 $y$ は期待値 $aX$ 、分散1の正規分布に従うことがわかりますね。ここまでは通常の線形回帰分析と同じです。

さてここでベイズルールを再度確認してやると

$P(a|y)=\frac{P(y|a)P(a)}{P(y)}$ でした。ここからがベイズ流の分析になります。

ここで出てくるP(y|a)は、要はyの分布なので期待値 $aX$ 、分散1の正規分布です。

yの周辺分布であるP(y)は解釈が難しいですが、これ、 $y$ の値がわかっている以上定数になるはずですよね。

ベイズ分析では定数はとりあえずシカトします。
※当然理由がありますがまた今度説明します

シカトした書き方は次のようになります。

$P(a|y)\propto P(y|a)P(a)$

まだ、 $P(a)$ がわかっていません。この $P(a)$ ですが、分析者が仮定します。どうやって仮定するかはとりあえず今度説明するとして、ある程度妥当な分布を与えてやります。

この $P(a)$ を事前分布と呼びます。

今回はとりあえず事前分布として分散が100、期待値0の正規分布を与えておくことにします。

これで準備は整いました。というか計算をしておしまいです。

$P(a|y)$ は $P(y|a)$ と事前分布によって決まるわけなので、この二つの正規分布の積を計算してやると、ちゃんと $P(a|y)$ が導ける、導けたということは、分布がわかったわけなので、あとは分析者がその分布を観察して、色々と判断しようじゃないかというわけです。

今回であれば、例えば $P(a|y)$ の期待値を $a$ の推定値として利用するとか、 $P(a|y)$ の95％区間を導くことで、 $a$ は0を取らないかどうか考察するといった分析を行うことが出来ます。

「えー、なんか正規分布の積を計算するの？」「もしかして、鬼のように計算しなきゃいけない分析方法ですか～？」

という声が聞こえてきそうですが、

実際に我々がベイズを使う上で、ここの計算をゴリゴリ計算することはまあありません。

というか、むしろ難しすぎて手計算では計算不可能なケースが多々あるんです。

そこでここの計算は全てMCMCという手法を使って、端的に言ってしまうとパソコンに丸投げします！！！！！
※ちなみにMCMCについては完成済みのカテゴリーがあるのでこちらもどうぞ
MCMC カテゴリーの記事一覧 - バナナでもわかる話

そういうわけなので、むしろややこしい手計算は行いません！

ベイズ分析を行う上で私たちが行うことは次の3つです。

１．モデルを決める
２．事前分布を決める
３．MCMCで事後分布を出す(ここの作業はパソコンがやってくれる)

あとは、分布を観察して煮るなり焼くなりしてやるだけです。

簡単ですね。

というわけで、以上がベイズの入門の入門になります。

次回はこのベイズ分析を行う上での道具Rstanのインストール方法と、これを使った実際の分析をお見せしたいと思います。