バナナでもわかる話

計量経済学・統計学が専門の大学院生です。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

因子分析におけるスクリープロットの意味と解釈

今回はスクリープロットに関する話をします。
前記事でも書きましたが、探索的因子分析を行うにあたっては構造に特定の仮定を置かず全ての因子から全ての項目に対しての関係を想定し、そこから探索的に構造を見つけていく必要がありました。
【初心者向け】因子分析とは何か - バナナでもわかる話


ただ、因子の数さえ決めていないのは少々不便ですので、普通スクリープロットという手法で因子の個数を評価します。
前の記事でも使いましたね。詳しい使い方はこの記事を参照していただけるとわかるかと。
【初心者向け】Rで因子分析をやってみる - バナナでもわかる話

スポンサーリンク



スクリープロットの例

スクリープロットっていうのはこういうやつです。
f:id:bananarian:20180906074623p:plain

横軸が因子の個数で、縦軸が分散共分散行列の固有値です。
目安としては固有値がガクッと下がった1から2を因子数として取ります。


固有値

固有値ってなんだ??って人がいると思うので簡単に解説しておくと、

行列っていうのは「固有値」と「固有ベクトル」という二つの概念に分解することが出来るんですね。
どういうことかというと、結局行列っていうのはベクトルの集まりであり、ベクトルっていうのは高校の数学でやったかと思いますが、座標のことなので、行列っていうのも要は座標です。

で、座標って何で決まるかというと、適当な基準から方向と大きさを決めてやれば決まります。
例えば(0,0)という座標を基準にしたとして、(1,1)っていう座標を考えたいのであれば、(1,1)へ向かうように方向を決めてやって、大きさ \sqrt{2}の矢印を引けば(1,1)になりますね。(2,2)であれば、方向はそのままで大きさを 2\sqrt{2}にすれば考えることが出来ます。

つまり、まあ基準はどうにでも変更出来るわけなので、座標、つまりベクトルや行列は「大きさ」と「方向」さえ決めてやれば定まると言えます。

この「大きさ」が固有値、「方向」が固有ベクトルです。


で、今回考えているのは分散共分散行列の固有値なので、ざっくり言ってしまうと「スクリープロットで固有値を見ている」とは「分散の大きさを見ている」ことに該当します。

因子が増えると、それだけ因子によって表せる部分(情報)が増えて、誤差が小さくなります。
そして、一定量因子を増やすと、もうこれ以上の因子は無駄な情報ですよーということで誤差の減少がゆるやかになります。
そのため、プロットでは因子を増やすとある段階から固有値の減少が緩やかになるわけですね


因子数

さて、スクリープロットでは因子の分散(又は翻って誤差の分散)を見ているということまではわかりました。
でも、誤差なんて小さい方が良いに決まっているのだから、因子で表せている分散部分を増やして誤差は極力小さくすればいいはずです。

でも、実際は小さい所ではなく、ガクッと下がったところを選びます。これは何をしているのでしょう。

因子分析において、因子数が多いと解釈が難しくなります。事前に理論やモデルがあって検証的因子分析を行うのであれば、そんな心配する必要ありませんが、探索的因子分析では、事前に解釈しやすいモデルがあるわけではありません。それなのに因子をポコポコ増やしては何が何やらわからなくなります。

そのため、極力固有値が小さくなるような因子数を選ぶのではなく、十分情報が取れたと判断できる「ガクッと下がった場所」で打ち切るわけです。

スクリープロットの解釈

つまり、以上の話をまとめると、次のようなトレードオフ関係をスクリープロットは示していることになります。

全体の分散に対する因子の分散(情報)は極力大きく取りたい(誤差の分散は小さくしたい) VS 因子数が多いのはダルい

そこで、これ以上因子を増やしても、情報が増えない(にくい)ようになった段階で因子数を決定するわけです。

これがスクリープロットです。