今回も因子分析をやります。前回までで、Rでの分析方法をざっと確認しました。
bananarian.hatenablog.com
今回は質問用紙によるアンケート調査を行った場合の想定で因子分析を行う場合を考えます。
例
今回も架空のデータでやります。
人間がストレスによって受ける効果を分析したいとします。そこで、次のような質問票を作成しました。
・ちょっとしたことでイライラする
・見知らぬ人が自分を笑っていると感じることがある
などなど
ストレスにより生じそうな項目38個を並べた質問票について、1点(全く当てはまらない)から5点(良くあてはまる)で自己評価してもらった。
調査対象は4000人ほどとってきたとします。
今回はそのデータを使用します。
天井効果と床効果
まず、各質問項目の値における平均を確認してみましょう。平均は次のようになりました。
> colMeans(data) C1 C2 D1 A1 C3 F1 C4 C5 2.846154 3.283654 3.406250 2.872596 2.877404 2.882212 2.862981 2.841346 F2 A2 F3 A3 F4 D2 F5 A4 2.846154 2.701923 2.497596 2.944712 3.146635 2.872596 2.461538 2.826923 D3 B1 A5 F6 D4 D5 E1 B2 3.274038 2.485577 2.502404 3.091346 2.725962 2.538462 3.091346 2.394231 E2 E3 A6 E4 F7 B3 F8 B4 2.533654 3.572115 2.401442 3.072115 2.680288 2.307692 2.319712 2.069712 F9 F10 B5 C6 C7 X1 X2 2.620192 2.084135 2.086538 3.235577 2.175481 1.139215 4.981944
ここでまず注目してほしいのは、質問X1と質問X2です。質問X1は平均値が1に極端に近い値をとっていますし、質問X2は極端に5に近い値をとっています。
極端に1や5に近いということは、質問に答えた人のほとんどが1又は5を選んでいると言うことになります。皆が偏った値を選んでいると言うことは、1を選ぶ要因と5を選ぶ要因の差が、このデータに基づいても分からないということを意味します。
そのため、このようなデータは分析前に省いておくのが普通です。
というのもこのようなデータが混ざっているとバイアスが生じてしまうからです。
これを床効果・天井効果と呼びます。
信頼性係数
共通要因(今回であればストレス要因)によって、得点をどれだけ説明することが出来ているかを信頼性係数によって評価することが出来ます。
一般にはα信頼性係数という指標を用います。α信頼性係数はltmライブラリのcronbach.alpha関数で簡単に求めることが出来ます。
> cronbach.alpha(data)$alpha [1] 0.8655356
この指標はあくまで目安であり、明確な基準があるわけではありませんが、おおよそ0.8は欲しいところです。0.7を切っている場合は使用する質問項目を考え直した方が良いかもしれません。
質問用紙を使った因子分析では、最低限床効果・天井効果が発生していないか、α信頼性係数は高い値を持つかを確認するということをおさえておいてください。
※当然、α信頼性係数以外にも様々な信頼性係数が提案されていますが、それについてはまたいつか別の記事で。