【初心者向け】質問用紙から要因を分析する場合の項目の妥当性評価

今回も因子分析をやります。前回までで、Rでの分析方法をざっと確認しました。
bananarian.hatenablog.com

今回は質問用紙によるアンケート調査を行った場合の想定で因子分析を行う場合を考えます。

例

今回も架空のデータでやります。
人間がストレスによって受ける効果を分析したいとします。そこで、次のような質問票を作成しました。

・ちょっとしたことでイライラする
・見知らぬ人が自分を笑っていると感じることがある
などなど

ストレスにより生じそうな項目38個を並べた質問票について、1点(全く当てはまらない)から5点(良くあてはまる)で自己評価してもらった。
調査対象は4000人ほどとってきたとします。

今回はそのデータを使用します。

天井効果と床効果

まず、各質問項目の値における平均を確認してみましょう。平均は次のようになりました。

> colMeans(data)
      C1       C2       D1       A1       C3       F1       C4       C5 
2.846154 3.283654 3.406250 2.872596 2.877404 2.882212 2.862981 2.841346 
      F2       A2       F3       A3       F4       D2       F5       A4 
2.846154 2.701923 2.497596 2.944712 3.146635 2.872596 2.461538 2.826923 
      D3       B1       A5       F6       D4       D5       E1       B2 
3.274038 2.485577 2.502404 3.091346 2.725962 2.538462 3.091346 2.394231 
      E2       E3       A6       E4       F7       B3       F8       B4 
2.533654 3.572115 2.401442 3.072115 2.680288 2.307692 2.319712 2.069712 
      F9      F10       B5       C6       C7       X1       X2
2.620192 2.084135 2.086538 3.235577 2.175481 1.139215 4.981944

ここでまず注目してほしいのは、質問X1と質問X2です。質問X1は平均値が1に極端に近い値をとっていますし、質問X2は極端に5に近い値をとっています。

極端に1や5に近いということは、質問に答えた人のほとんどが1又は5を選んでいると言うことになります。皆が偏った値を選んでいると言うことは、1を選ぶ要因と5を選ぶ要因の差が、このデータに基づいても分からないということを意味します。

そのため、このようなデータは分析前に省いておくのが普通です。

というのもこのようなデータが混ざっているとバイアスが生じてしまうからです。

これを床効果・天井効果と呼びます。

信頼性係数

共通要因(今回であればストレス要因)によって、得点をどれだけ説明することが出来ているかを信頼性係数によって評価することが出来ます。

一般にはα信頼性係数という指標を用います。α信頼性係数はltmライブラリのcronbach.alpha関数で簡単に求めることが出来ます。

> cronbach.alpha(data)$alpha
[1] 0.8655356

この指標はあくまで目安であり、明確な基準があるわけではありませんが、おおよそ0.8は欲しいところです。0.7を切っている場合は使用する質問項目を考え直した方が良いかもしれません。

質問用紙を使った因子分析では、最低限床効果・天井効果が発生していないか、α信頼性係数は高い値を持つかを確認するということをおさえておいてください。

※当然、α信頼性係数以外にも様々な信頼性係数が提案されていますが、それについてはまたいつか別の記事で。