今回は、
(実は違いと書くと怒られるのですが、これも後述)
をしようと思います。
私事ですが、今私は愛知観光を終えたバスの中でスマホから記事を書いています。よって数式等は書くのが面倒なので一切使いません笑
あ、愛知は初めてだったのですが味噌カツもモーニングも味噌煮込みうどんも手羽先もおいしかったです。皆さんも機会があれば是非是非!
伝統的な統計学
まず、よく一般に言われるところの統計学から話します。統計学と言われると、一般の統計学について勉強したことのない方々は次のようなものを思い浮かべるかと思います。
1年A組クラスのテストの平均はいくらでしょう。
とか
I社の5年間の売上推移は?
とかとか。
このような、データを要約するような統計を記述統計と呼びます。生のデータだとその性質が分かりにくいので、統計手法を用いて要約するわけです。
今回はこの記述統計の話はしません。
統計学を少し勉強したことがあれば次のようなものを思い浮かべるかと思います。
I社が売り出した製品のターゲットとなる顧客集団には、何かしらの性質があって、その性質の本当の値はわからないんだけど、何らかの意味で近い値をデータからうまく導いてやろう。
統計学についてよく知らない人から見ると、この話と記述統計学の違いがわからん、なぜ分けたのか、と文句が飛んできそうです。もう少し詳しく説明します。
推測統計学は普通、次のように考えます。
まず、データが取られた背後に、真の値を備えた集団が存在すると仮定します。真の値とは、もし想定される集団に該当する全てのデータを取ってくることが出来ればわかる値です。
例えばもし自分が神様だとして、過去から未来全ての状態における全ての生物の死因に関するデータを取ってくることが出来れば、爬虫類の死因のうち、病死する確率を求めることができるし、死因の分布を得ることができて、その分布の期待値や分散の真の値を得ることができます。
知りたい情報に関する全てのデータを母集団と呼びますが、この母集団の性質、つまり期待値や分散などなど真の値は、今の例からわかるように、神様しかわかりません。
つまり再度確認しておきますが、推測統計学では、まずこの母集団と真の値の存在を仮定するわけです。
そして、次に下のように考えます。
「真の値は神様しかわからないが、何らかの意味で真の値に近い値を探してきて代用しよう」
ここで何らかの意味に関する説明は避けますが、これから勉強する方の指針として言葉だけ書いておくと
・一致性
・不偏性
・有効(効率)性
のことです。
しかし、近い値を探してこようにも探す方法を考えなければなりません。この方法はデータや前提知識等々の関係から様々考えられ、どのように探してくるかは腕の見せ所というわけです。
これが伝統的な統計学の概要になります。
ベイズ統計学
ベイズ統計学は考え方の違いにより、現在議論が紛糾しているので、主流である二つの考え方を紹介します。
1個目
ベイズはデータの背後に真の値と母集団を仮定するとこまでは、伝統的なものと同じですが、ベイズでは更に事前確率というものも仮定してやります。
例えば
サッカーの試合を観ているとして、Aチームが勝つかどうかは五分五分だなあとか考えることありますよね。
これはつまり、あなたは事前の信念としてAチームが勝利する確率は50%だと考えていたことになりますよね。
この事前の信念を事前確率と呼びます。
事前確率は、個人的になにかを考えたい場合はこのように自分が妥当だと思う確率を与えれば良いし、誰かを説得したいのならば、客観的に多くの人が妥当だと納得できる確率を与えれば良いわけです。
このようなセットアップのもとでベイズでは、得られたデータに従ってこの事前確率を修正します。
この修正は、数学的な定理に基づいた方法で行われますが、直感的には次のようなものです。
先ほどのサッカーの例で、はじめはAチームの勝率は五分五分だと思っていたんだけども、10回試合を観戦してみたら、このAチーム、8回も試合に負けました。
そうしたら皆さんも普通は
「Aチームの勝つ確率は50%よりも小さいんじゃないか??」
とか考えたりしますよね。これと同じです。この自然な予想を数学的に行うわけです。
この得られたデータに基づく修正された確率を事後確率と呼びます。
つまり、ベイズでは、
データが得られるたびに、事前の信念を事後確率として修正していくことで、
「現状のデータをもとに考えられる分布はこんな感じです」
と提案します。当然もし神様であれば全知全能のため、真の分布と事後分布は確実に一致します。
しかし、神様ではなくともたくさんデータが集まれば、事前の信念によるバイアスはほとんど無くなりますよね?
2個目
よく、ベイズの本では次のように書かれています。
「伝統的な統計学では真の値の存在を仮定するが、ベイズでは仮定しない」
1個目考え方では一応真の値を仮定していましたね。仮定しないという考え方が2個目のベイズの解釈です。
この考え方は1個目の解釈を信じる方々からは批判の対象となるのですが、敢えて書いていきます。
基本的には1個目の解釈と同じなのですが、2個目の解釈ではまず、真の分布の存在を仮定せず、事後確率を、ある意味で手持ちのデータが従う確率であると解釈します。
意味がわからんという方のためにもう少し説明すると、
1個目の解釈では、事後確率とは、あくまで事前確率が元のデータに基づいて更新された結果であり、データが従う真の分布は神様しかわからないが、少なくとも事後確率とは別に存在すると考えます。
一方で2個目の解釈では、真の分布なんぞそもそも存在するのかわからないので、仮定しないし、データから得られた以上、現状のデータは事後確率に従っていると考えるのが良いとしています。
違い、わかりますかね。
つまり手法や操作自体は全く変わらないが、前提と、事後確率の解釈が異なると言う話になります。
何故この2つの解釈があるのでしょうか。
よくよく1個目でのベイズ統計学の手順を読み直してみてほしいのですが、
真の値と母集団の概念自体を、分析のなかで使っていますか??
まあ厳密に言うと使っているのですが、基本的な計算プロセスでは使っていないですよね。つまり、前提が違ってもそのプロセスは変わらないわけです。
更に、最後の解釈が致命的に異なる問題については、基本的にベイズ統計学では
事後分布はこのような形になりました。
という宣言にしか使わないため、事後分布の解釈にまでは踏み込みません。
そういうわけで、簡単な分析フローに限っては、両者は共に成り立ちうるわけです。
1個目の解釈だと、仮定が伝統的なものと同じであるため、ベイズは伝統的な統計学の一つの拡張にすぎないと言うことも出来るかもしれません。
しかし2個目の解釈だと、前提が違うので伝統的なものとは区別する必要がありますね。
そのためベイズと伝統的な統計学の違いは○○です。なんて言うと一個目の解釈をしている人に
「ベイズは伝統的なものの拡張にすぎないのだから、違いではなく新規性だ。そもそも区別をしている時点で間違いだ。」
と怒られます。
しかし、ここでは言葉チョイスの都合上便利なので、以後伝統的なものとベイズを区別するわけではないけども、ベイズと従来の統計学の違いについてお話しします。
ベイズと従来のものの違い
まず、大きな違いはベイズであれば個人的な信念や、定量化されていない情報も事前確率という形で扱えるという点に有ります。
更に、ベイズはどんなデータであっても「事前確率→事後確率」という同じアルゴリズムを使うわけですが、従来型は自分でアルゴリズムを選択する必要があります。
しかし、一方でベイズは事前確率の選択次第では「客観性にかける分析だ」と批判の対象になるというデメリットもあります。
イメージ位はつかめましたか?
ところで、愛知旅行ですが、B'zのライブもみてきました~。私はB'zファンでは無いニワカなのですが、迫力あってとてもよかったです!皆さんも機会があれば是非!!