前回までで、MCMCの話に必要な基礎的な話は大体終わりです。
bananarian.hatenablog.com
細かく見てくとまだまだ話はあるわけですが、その辺は触っているとキリがないので触りません。
今回は知っていなくてもまあMCMCの話は雰囲気で理解出来るけども、知ることでMCMCをより深く理解できるカップリングという概念を説明するために、一旦寄り道して分布の距離の概念と混合時間という概念の説明をします。少々込み入った話になりますので苦しい方は飛ばしてもらってもMCMCを理解するうえで支障はありません。
全変動ノルム
まず、可測空間上の二種類の確率分布として
を考えます。何を言っているか分からんという方のために例をあげると
を考えると、これはどういう状況かというと
の分布に従っている時、1が出る確率が0.8,2が出る確率は0.2ということを意味します。
今回は、この2つの分布の何らかの意味での距離、もしくは違いを数値的に評価したいとします。この時に考えられる評価方法の一つに全変動ノルムという概念があります。の全変動ノルム
は次のようになります。
まさに分布の違いを表していますね。
次のように連続の分布を二つ書いてみるとわかりやすいです。
この絵の二つの分布における全変動ノルムは黄色の部分と緑の部分を足したものを2で割ったものになります。共通部分は紫色の部分なので、まさに違いを表したものになりますね。
混合時間
・全変動ノルムを用いて2つの分布の距離を評価することが出来る
・は
に収束する
ここから、どれくらいnを大きく取るとおおよそ収束したとみなせるかという考え方が必要になってきます。
これが混合時間です。
数式で表してみます。のx行を
と書くことにします。また、
の収束先を
と書くことにします。
更に、全てののうち、ある
において
とおくことにします。
そしてなるεを用意してやると、
この時混合時間は次のようになります。
例えばεにを入れるとこのようになります。
正直に意味はありません。別に4じゃなくて3や2でも良いわけですが、評価精度に合わせていじります。
カエルの例でチェック
毎度おなじみのカエルの例です。
石1,石2があって、どちらかの石の上にカエルが乗っています。そして、1秒後に
・石1にいて石2に乗り移る確率が50%
・石1にいてそのまま石1に居続ける確率が50%
・石2にいて石1に移る確率を80%
・石2にいてそのまま石2に居続ける確率が20%
であるとします。この時推移確率行列Pは次のようになる。
そしてチャップマンコルモゴロフ方程式から、n秒後の推移確率行列はでした。
更にはnを十分大きく取った下では下のような値に収束する。
という話でした。
この時、例えばとしてやると計算するとわかりますが、混合時間は1です。
このカエルの例は非常に単純な例なので、をかなり小さくしないと評価できません。
しかし、もっと複雑なマルコフ連鎖の例であればであってもかなり収束を評価できます。
次回はカップリングについて簡単に説明します。