高级心理统计7-探索性因素分析
探索性因素分析的原理与步骤知识讲解

探索性因素分析的原理与步骤知识讲解探索性因素分析(Exploratory Factor Analysis,EFA)是一种多变量分析方法,旨在确定观察数据中潜在的结构或维度。
它可以帮助研究者发现数据中隐藏的模式和关联,进而减少数据的复杂性,并起到简化和理解数据的作用。
以下是探索性因素分析的原理与步骤的知识讲解。
原理:探索性因素分析基于统计原理,假设观察数据是由一组潜在变量(即因素)决定的。
每个因素代表一组具有内在关联的观察变量,它们共同解释了数据中的方差。
因此,探索性因素分析的目标是找出这些潜在因素的数量和结构,并确定它们与观察变量之间的关系。
步骤:1.确定分析目标:在进行探索性因素分析之前,需要明确分析的目标和研究问题。
明确问题有助于选择适当的分析方法和解释结果。
2.数据准备与预处理:将需要分析的数据整理为适合因素分析的格式。
常见的预处理包括数据标准化、缺失值处理和异常值处理等。
4.因素提取:在这一步骤中,通过计算特征值、特征向量或因子载荷来确定潜在因素的数量和结构。
特征值表示一个因素解释的方差比例,而特征向量是表示潜在因素之间关系的向量。
因子载荷是观察变量与潜在因素之间的相关系数。
5. 因子旋转:在因子提取之后,因子结构可能并不是直观和可解释的。
因此,需要进行因子旋转以改善因子解释性和解释因素的意义。
常见的因子旋转方法包括正交旋转(如Varimax)和斜交旋转(如Promax)等。
6.因子解释和命名:根据提取的因子载荷和因子旋转结果,解释每个因素所代表的观察变量的意义。
通过命名每个因素,以增加对潜在因素结构的理解和解释。
7.评估因子模型:对于确定的因子结构,需要进行信度和效度分析来评估模型的质量和适用性。
信度分析衡量因子和观察变量之间的内部一致性,而效度分析衡量因子与其他变量之间的关系。
8.结果解释与报告:根据分析结果进行解释和报告。
包括提取的因子数目、每个因子的载荷、因子间的关系、因子的解释以及模型的信度和效度指标。
探索性因素分析

4. 根据以上三方面的信息将可能的因素个数压 缩到一个比较小的范围内
5. 根据4 分别抽取不同个数的因素比较旋转后 因素负荷的可解释性以作出最终决定
这是一个相对比较全面的程序。研究者可以 批判性地采用总之因素个数的确定并不存在 着唯一 正确 客观的答案
最大似然法的模型拟合度
由因素个数从多到少考察最大似然法的 模型拟合度
当拟合度由不显著变为显著时,此时的 因素数目即合适的因素抽取个数
因素所能解释方差的百分比
所有因素所能解释方差的累计百分比应 超过40%。
Browne 提出了以下的程序
1. 考虑研究者在理论中是否事先假设了因素个 数
2. 考虑一些简单方法如Kaiser 法,Scree Test 所提供的信息
最大似然法 (maximum-likelihood method)
–相关系数经变项的残差 (uniqueness)加权后,利用参数 估计(paratemer estimation)原 理,估计出最可能出现的相关矩阵 的方法 。
主成分分析 (PCA) 与 主因素分析 (PFA) 的适用条件
目的方面:PCA用于分类; PFA用于探讨结构 PCA
PCA 特征值 > 1 的规则抽取 直交旋转 因素负载只显示>.40的,整齐结构
1.因素的抽取 2. 因素个数的确定 3. PCA结构矩阵所包含的信息 4. 因素的命名 5. 因素转轴 6. 因素分析的统计假定 7. 主成分分析和因素分析 8. 探索性因素分析和验证性因素分析
1.因素的抽取 (factor extraction)
解释一组变量的总方差 (独特方差+共同方差 ) 可用于对一组变量进行分类 是最常用的因素分析选择。
探索性因素分析

确定因素个数(如Kaiser法或统计软件上预设的某个“统计分析键”),因为这时研究者将至为宝贵的“控制权”、“思想权”让给了“死”的规则或电脑软件。
2.2 关于因素的旋转因素个数确定之后,就要进行因素旋转。
文献中出现了很多种因素旋转的方法,这些方法总体上可以分为两大类,即正交旋转和斜交旋转。
正交旋转假设各个因素之间是相互独立的,没有相关,而斜交旋转则没有这一假设。
很多研究者采用正交旋转,因为他们认为正交旋转比较简单,概念上也比较清晰。
有些研究者甚至认为因素分析的结果就是抽取m个相互独立的因素。
这些看法是片面的[1]。
首先因素分析模型并没有规定因素之间必须独立。
其次,心理学研究中很多概念或范畴(construct)之间是相关的,硬性将它们限制成相互独立的因素不见得符合事实。
再次,正交旋转人为地设置了多余的限制,导致了旋转后的因素负荷矩阵的“简单性”、“清晰性”、“易解释性”,以及整个模型的拟合度都要比相同条件下斜交旋转的结果要差。
Fabrigar及其同事[3]在最近的一篇文章中用具体的数据清楚地显示了这一点。
最后斜交旋转比正交旋转能提供更多的信息,即因素之间的相关矩阵。
这一信息很可能与研究者的理论是密切相关的。
另外如果因素之间相关较高的话,还意味着可能存在着“高阶”因素,因此还可以进行更高阶的因素分析。
这一点正交旋转是办不到的,因为它已事先限制了因素之间是互相独立的。
因此,在绝大多数情况下,因素旋转时采用斜交旋转是更好的选择。
2.3 关于简单结构因素旋转的目的是将初始因素负荷矩阵旋转至“简单结构”以便于解释。
现在占统治地位的“简单结构”是由Thurstone于1947年提出的[5]。
Thurstone的这一定义常常被研究者误解,其中最流行的误解是,不少研究者认为每一观察变量只能有一个大的因素负荷,同一行的其它负荷必须为0(注:0指的是那些数值小,接近于0的负荷。
)。
这种理解的错误在于(1)因素分析模型完全允许一个观察变量受多个因素影响;(2)Thurstone的定义只不过指出,对于旋转后的因素负荷矩阵中,一个观察变量受多个因素影响的情况不能多次出现。
探索性因素分析

10一、主ຫໍສະໝຸດ 份分析的基本概念(2/2) 主成份分析除了用來簡化變數間之關係外,可用 來縮減某一組欲進行多變量分析之變數的數目。
主成份分析也可將各變數的原始分數轉為主成份 分數,以供進一步的統計分析。
主成份分析還可用來建構多種具有不同衡量單位 變數之綜合指標。
假設有p個數字變數,則可計算出p個主成份。
共同性會等於1,亦即沒有誤差項,故此公式 不寫出誤差項。
主成份分析重視的是「變異數」,因素分析 重視的則是「共變異數」。
主成份分析使觀察值在這些主成份乃顯示出 最大的個別差異。因素分析的目的是找出共 同性。
13
主成份萃取的運算原理
使組合
3、只取同一個主成份時,所能解釋各變數的共同性總和為 i p
h
2 ji
h
2 j1
h
2 j2
........
h
2 jp
h
2 j
j
i 1
28
6
進行因素分析前資料的檢視
1. 檢視資料的相關係數矩陣,相關係數須顯著的大於0.3。
2. Bartlett的球型檢定(Bartlett test of sphericity),此種統 計檢定主要是用來檢定變數間的相關係數是否顯著,核定 結果若p值小於0.05即代表顯著。
3. 取樣適切性量數(KMO),其值介於0到1之間,若KMO等於 1表示每一變數均可被其他變數完全的預測,若KMO≧0.9, 表示資料非常適合做因素分析;0.9>KMO≧0.8,表示很適 合;0.8>KMO≧0.7,表示還不錯;0.6>KMO≧0.5,表示不 太適合;KMO<0.5,表示資料不適合做因素分析。
探索性因素分析讲解

二、探索性因素分析的原理
1、因素分析模型 K个观测变量,分别为x1,x2,…,xk, xi为具有零均值, 单位方差的标准化变量。 因子模型的一般表达式为:
因子负载(Factor loadings) 特殊因子 (Ufacotor)
xi ai1 f 1 ai 2 f 2 ... aimfm ui (i 1, 2,..., k )
因子之间彼此独立 特殊因子和公因子之间彼此独立
二、探索性因素分析的原理
a11 .
二、探索性因素分析的原理
2、因素分析中的有关概念 (1)因子负载(loading):当公因子之 间完全不相关时,aij等于第i个变量和第j个 因子之间的相关系数。 反映了因子和变量之间的相关程度 大多数情况下,人们往往假设公因子之间 时彼此正交的(Orthogonal),即不相关。
三、探索性因素分析的步骤
判断是否适合做因素分析的方法:
(2)巴特利特球体检验(Bartlett test of sphericity) 差异显著——适合做因素分析
三、探索性因素分析的步骤
(3)KMO(Kaiser-Meyer-Olkin Measure of Sampling Adequacy)测度 比较观测变量之间的简单相关系数和偏相 关系数的相对大小出发,其值的变化范围 从0到1 KMO<0.5肯定不适合做因素分析,最好大 于0.8
四、求解初始因子
2、公因子分析法 公因子方差的估计
用主成分分析的结果作为公因子方差的初始估计值 把每个变量和其余变量的相关系数中绝对值最大的, 作为该变量的公因子方差的初始估计值 用每个变量和剩下的其他变量的复相关系数的平方, 即R2作为该变量的公因子方差的初始估计值。
心理统计学 探索性因素分析共66页文档

16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。
谢谢
11、越是没有本领的就越加自命不凡。——邓拓 12、越是无能的人,越喜欢挑剔别人的错儿。——爱尔兰 13、知人者智,自知者明。胜人者有力,自胜者强。——老子 14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。——歌德 15、最具挑战性的挑战莫过于提升自我。——迈克尔·F·斯特利
05.探索性因素分析

• 理解性
– 因素的可解释性和实际意义
• 强制抽取不同个数以综合比较
2015-2016学年第二学期 高级心理统计 14
因素旋转 (1/3)
• 旋转前后,各个因素的特征值以及观测变量的因 素载荷发生变化
• 特征值总和不变,即公因子所能够解释的总方差 比例不变 • 实际应用中多采用正交中的方差最大旋转(varimax), 即直交旋转 • 旋转使得因素分析的结果更清晰,但也更容易受 到研究者主观倾向的影响
hi ai1 ai 2 aim
2
2
2
2
2015-2016学年第二学期
高级心理统计
9
基本原理 (4/5)
• 特征值 (eigenvalue)
– 被某因素所解释的所有变量的方差,可以用所有变量在该因 素上载荷的平方和来计算
k
V p aip
i 1
2
– 如果一个因素的特征值较低,说明它对于变量方差解释的贡 献很小,可以忽略
xi ai1 f1 ai 2 f 2 aim f m ui
– 总体方差不变,f1抽取方差最大 (即主成分1),依次递减,直 到方差解释完。
• 主轴分析法 (Principal Axis Factor Analysis, PFA)
– 采用与PCA类似的策略,但目标是解释公因子方差 (所有方 差-独特方差)
05. 探索性因素分析
(Exploratory Factor Analysis)
胡天翊 tianyihutt@ 上海师范大学教育学院心理系
2015-2016学年第二学期 高级心理统计 1
基本思想
• 将一系列 变量归结为较少变量,以揭示其潜在结 构(维度) • 考察被试对哪些变量的反应具有相近的反应模式
探索性因素分析

一行(或每一列)绝对值最大的一个元 素作为该行(或该列)变量共同度的估 计。
复相关系数平方估计法
Z J变量的复相关系数的平方为:
1 SMC j 1 Rjj
其中 RJJ 为对角线元素为 1 的相关矩阵 R 的 逆矩阵中第j个变量对角线的元素,SMC 是共同度估计的下限。
公共因素个数的确定
准
特征值大于等于1的选为共因素,小于1
的不选。
碎石检验(screen test)
以特征值为纵坐标,以因素个数为横坐
标,按照因子被提取的顺序,画出因子 的特征值随因子个数变化的散点图,根 据图的形状来判断抽取因子的个数。从 第一个因子开始,曲线逐渐下降,然后 变得平缓,最后近似于一条直线,曲线 变平的前一点被认为是提取的最大因子 数。
对观测变量的加权系数 jk 。一般情况 下,称共因素的系数为因素载荷。即因 素分析模型中的系数。将所有的因素载 荷以矩阵的形式表示即为因素载荷以矩 阵。
公共因素方差
公 共 因 素 方 差 一 般 用 h2 表 示 , 又 称 作
“共同度”或“公共性”,公共因素方 差是指被公共因素所决定的方差在观测 变量总方差中所占的比例。 在对观测数据进行标准化的情况下,一 个观测变量的总方差Sj2为:
Q bij Max
2 i 1 j 1 k m
②方差最大法(VARIMAX)
四次方最大法的不同是它从简化因子负荷 矩阵的每一列出发,使和每个因子有关 的负荷平方的方差最大。方差最大法通 过使下式达到最大求得因子解:
V (k bij ( bij ) ) / k 2
4 2 2 j 1 i 1 i 1 m k k
因素分析中的基本概念
因素载荷(Factor loading) 公共因素方差(Communality)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.检查载荷矩阵
2.找到每个变量在所 有因子中最高的载荷
3.评估变量的共同度
4.是否需要重设 模型
5.因子命名
• 共同度通常应该达到0.50以上才能被接受
4.4 解释因素
因子矩阵解释步骤:
1.检查载荷矩阵
2.找到每个变量在所 有因子中最高的载荷
3.评估变量的共同度
4.是否需要重设 模型
5.因子命名
3.1 明确目的
因子分析分类
探索性因素分析
验证性因素分析
是否有理论依据,可以对潜在结构做出假设?
3.1 明确目的
因素分析目的
数据汇总:生成潜在维 度,从而用比原始数据 更少的变量去描述数据
数据缩减:在数据汇总 的基础上,给每个潜在 维度赋予分值从而代替 原始数据
语言能力
语文 数学
1
90 60
2.4 基本步骤
明确因素分析 目的
效度检验
因素分析结果 的其他用途
因素分析设 计
因子解释和命 名
判断数据是否 符合因素分析
假设
抽取因子并计 算模型拟合程
度
3.探索性因素分析前的准备
明确目的 设计分析 检验假设
3.1 明确目的
分析是探索性的还是验证的? 数据总结 and/or 数据简化?
x1 = 0.95*f1 + 0.22*f2 + u1 x2 = 0.45*f1 + 0.52*f2 + u2 x3 = 0.15*f1 + 0.92*f2 + u3
因子f1的贡献 = 0.95²+ 0.45²+ 0.15²= 1.1275
2.2 基本概念
贡献度
指各因素的特征值在总的公共因素方差(或总的特征值)中所 占的比例。贡献率反映了该因素对所有观测变量变异的贡献程 度。
Stage 2
验证性
结构方程模型
探索性
选择因子分析的类型
分析单元:变量/个案?
3.2 设计分析
数据计算方法: R分析:针对变量的因素分析 Q分析:针对个案的因素分析
通常的因素分析都是R分析 Q分析≠聚类分析
3.2 设计分析
Q分析≠聚类分析
Q分析:反应模式相似性 聚类分析:因子水平相似性
3.2 设计分析
Stage 1
研究问题
• 探索性/验证性? • 因子分析目的:
• 数据汇总&识别结构 • 数据简化
验证性
结构方程模型
探索性
Stage 2
个案 Q分析,聚类
分析
选择因子分析的类型
分析单元:变量/个案?
研究设计
• 加入哪些变量 • 变量是如何测量的 • 样本量
变量 R分析
3.3 检验假设
1
90
60
89
55
2
45
90
66
100
3
88
66
85
70
4
88
77
95
56
……
……
……
……
……
2.因素分析的模型、假设及基本步骤
模型及原理 基本概念 前提假设 基本步骤
2.1模型及原理
观测数据 公因子
特殊因子
xi = ai1 fi1 + ai2 fi2 + …+ aim fim + ui (i=1, 2, …, k)
3. 因子旋转的类型: 正交旋转:旋转轴保持90度 斜交旋转:旋转轴不保持90度
4.3 因素旋转
• 正交旋转
• 默认各因子之间不存在相关
• 正交旋转使用最为广泛 • 目的为数据简化时使用正交旋转
4.3 因素旋转
• 斜交旋转
• 允许因子之间存在相关 • 比正交旋转更加灵活
• 目的为得到有理论意义的因子 和结构时使用斜交旋转
理论问题
所选的一组变量中,确实存在某种潜在结构 样本是同质的,有相同的潜在结构
例如:
X1 X2 X3 X4 X5 X6
F
F
1
2
男性
X1 X2 X3 X4 X5 X6
F
F
1
2
女性
3.3 检验假设
实践问题
不要求正态性、方差齐性、线性 识别变量的内部相关 → 某种程度的共线性
相关
KMO值
当所有变量都只在某一个因子上有 高载荷时,得到的结构最优
交叉载荷的变量通常要删除,除非 有理论支持或目的只是简化数据。
4.4 解释因素
因子矩阵解释步骤
1.检查载荷矩阵
2.找到每个变量在所 有因子中最高的载荷
3.评估变量的共同度
4.是否需要重设 模型
5.因子命名
4.4 解释因素
因子矩阵解释步骤
(取决于具体研究) 碎石图拐点 被试不同质时应抽取更多的因子
4.2 公共因素数目的确定
Stage 3 Stage 4
总方差 主成分分析
Stage 2
前提假设
• 对正态性、方差齐性 、线性的统计考虑
• 样本同质性 • 概念上的联系
选择因素分析方法
• 要分析的是总方差 还是共同方差?
设定因子矩阵
3.3 检验假设
3.3 检验假设
Stage 1 Stage 2? • 因子分析目的:
• 数据汇总&识别结构 • 数据简化
结构方程模 型
探索性
选择因子分析的类型
个案 Q分析, 聚类分析
分析单元:变量/个案?
研究设计
• 加入哪些变量 • 变量是如何测量的 • 样本量
Stage 3
2
46 90
3
88 66
4
88 77
…… …… ……
理科思 维
英语 科学
89 55 66 100 85 70 95 56 …… ……
语言能力 理科思维
89.5 57
56
95
86
68
91
65
……
……
3.1 明确目的
Stage 1
研究问题
• 探索性/验证性? • 因子分析目的:
• 数据汇总&识别结构 • 数据简化
因子载荷
…… ……
……
2.1模型及原理
f1
a11
a21 ak1
a12
f2
a22
ak2
a1m
a2m
fm
akm
x1
u1
x2
u2
xk
uk
2.1模型及原理
观测变量的方差可以分为三部分
观测变量方差
公因子方差
Common variance
特殊因子方差 Specific variance
误差方差 Error variance
4.4 解释因素
因子载荷
载荷显著需要的样本量*
.30
350
.35
250
.40
200
.45
150
.50
120
.55
100
.60
85
.65
70
.70
60
.75
50
*显著是基于0.05的显著性水平,80%的检验力,假定标准误是一般相关系数标准误的两倍
4.4 解释因素
变量数量增加,达到显著的载荷临界值减小 → 更小的载荷就可能显著 因子数量增加,达到显著的载荷临界值增大 → 更大的载荷才可能显著
当公因子间不相关时,公因子方差等于和该变量有关的因子载荷的平方和 hi2 = ai12 + ai22 + … + aim2
eg. x1 = 0.95*f1 + 0.22*f2 + u1
h12 =0.9509
• 作用:如果用公因子替代观测变量后,原来每个变量的信息被保留的程度
2.2 基本概念
特征根
每个公因子对数据变异的解释能力;该因子所解释的总方差 计算:与该因子有关的因子载荷的平方和
删除了变量 使用了不同的旋转方法 需要抽取不同数量的因子 改变抽取因子的方法
4.4 解释因素
因子矩阵解释步骤:
1.检查载荷矩阵
2.找到每个变量在所 有因子中最高的载荷
3.评估变量的共同度
4.1 选择抽取因素的方法
主成分分析法
从原始变量的总体方差变异出发,尽量使原始变量的方差能够被主成分所解释
公因子分析法
重在解释变量的相关性,确定内在结构,而对于变量的方差的解释相对不太重视 当研究的目的重在确定结构时,可以使用此方法
4.2 公共因素数目的确定
决定因子个数
先验标准:结合前人研究结果 因子的特征根大于1 因子的变异总解释率大于60%
4.3 因素旋转
正交 斜交
4.3 因素旋转
4.4 解释因素
因子矩阵解释步骤
1.检查载荷矩阵
2.找到每个变量在所 有因子中最高的载荷
3.评估变量的共同度
4.是否需要重设 模型
5.因子命名
因子载荷多大才算显著: • 至少大于0.30 • 一般应该大于0.40
在预设检验力水平下,样本量会影响统计显著性 • 样本量增大,判断载荷显著的临界值水平降低(更小的载荷就有可能显著)
前提假设
• 对正态性、方差齐性、线性的统计考虑 • 样本同质性 • 概念上的联系
变量 R分析
Stage 4
4. 因素的抽取和旋转
选择抽取因素的方法 公共因素数目的确定 因素旋转 解释因素
4.1 选择抽取因素的方法
提取因子
全分量模型 公共因素模型
主轴因素法 最小二乘法 极大似然法 Alpha因子提取法 映像分析法 最大相关法 形心心素法 参照析因迭代法 复相关平方法