バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

【初心者向け】スピアマンの2因子説って何?

最近大学の講義で因子分析について学んでいるので、そのノートもかねて説明していこうと思います。
まず、因子分析の最古典であるスピアマンの2因子説の話から説明します。

 X_1国語」「 X_2英語」「 X_3日本史」「 X_4数学」「 X_5科学」「 X_6物理」についてテストを行ったとします。点数を記録して、その点数の相関係数をまとめてみたというものを考えます。この時、次のようになりました。
f:id:bananarian:20180901102952p:plain

この時よくよく見てみると次のような事が分かります。
 X_1,X_2,X_3相関係数が高い。
 X_4,X_5,X_6相関係数が高い。
・全て相関係数が正


そこでスピアマンは次のように考えました。
全ての変数が強弱はあれど皆正の相関をしている、ということはこの変数達の背後には何かしら共通の要因が影響を与えているに違いない

スピアマンの二因子説のイメージ図

イメージとしては次のようになります。
f:id:bananarian:20180901105914p:plain

 e_iはそれぞれの変数に対する独自の因子です。また、 λ_iは要因 F_1からどれくらいの大きさで影響を与えられているかを表します。

回帰分析との違い

ここで、この関係、どこか回帰分析と似てない?となるわけです。
というのもこれを式に直すと次のようになることがわかります。
 X_1=λ_1 F_1 +e_1
 X_2=λ_2 F_2 +e_2
などなど。。。

これは線形回帰分析に似てますね。線形回帰分析の形としてはこんな感じでした
 Y=a+bX+ε

似てますね。というか一緒ですね。

じゃあ回帰分析で良いじゃないかとなるわけですが、決定的に異なる点が一個あって、

回帰分析はYとXがわかっているけども、因子説のモデルの方は X_iしかわかっていないという点です。

機械学習の言葉で言うと因子説の方は教師なし学習、回帰分析の方は教師あり学習となります。

因子分析

しかしここで色々疑問が生じてきます。本当に共通要因は一個か??とか共通要因は全ての変数に影響を与えているのか??とか要因が複数あるならその要因同士の相関があるんじゃないか等々様々考えられます。


ここからこのモデルが発展し、因子分析なるものが発展していきます。