第8讲因子分析与对应分析优秀课件

合集下载

因子分析 PPT课件

同时假定随机向量 X 满足以下模型： X 1 a11F1 a12 F2 a1m Fm 1 X a F a F a F 2 12 1 22 2 2m m 2 X p a p1 F1 a p 2 F2 a pm Fm P 则称模型(3.1)为正交因子模型。
设 X ( X1 , X 2 ,
E( F ) 0 ， Cov( F ) I m （即 F 的各分量方差为 1，且互不相关）。又设 (1, 2 , , p ) 与 F 互不相关，且
2 E ( ) 0 ， Cov( ) diag(12 ,2 , 2 , p )。
之因子分析
SPSS软件
• 因子分析（Factor Analysis）是多元统计分析中处理降维问题的一种重要方法。变量的共线性很多是都对分析结果具有显著的影响。所谓降维，就是独钓共线性，剩下的，或者合并的都是线性无关的，或者正交的，或者垂直的。
一、什么是主成分分析和因子分析？
• 主成分分析（Principal Components Analysis）也是多元统计分析中简化数据结构（降维问题）的一种重要方法。简化数据结构是指将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的；或把高维空间的数据投影到低维空间，使问题得到简化而损失的信息市的实证设施建设情况。
案例1
• 中国统计年鉴，2005，各地区城市市政设施数据。变量有： • City—城市名称； • X1—年末实有道路长度（公里）； • X2—年末实有道路面积（万平方公里）； • X3—城市桥梁（座）； • X4—城市排水管道长度（公里）； • X5—城市污水日处理能力（万立方米）； • X6—城市路灯（盏）；

因子分析方法ppt课件

10
因子分析数学模型中几个相关概念
举例说明：
11
12
因子分析的五大基本步骤
第一步：因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩，即将原有变量中的信息重叠部分提取和综合成因子，进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则，如果原有变量相互独立，相关程度很低，不存在信息重叠，它们不可能有共同因子，那么也就无法将其综合和浓缩，也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系，是否适合进行因子分析。
2
因子分析的基本模型
因子分析模型中，假定每个原始变量由两部分组成：共同因子和唯一因子。共同因子是各个原始变量所共有的因子，解释变量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子，表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷表示。
18
第四步：决定因素与命名
• 转轴后，要决定因素数目，选取较少因素层面，获得较大的解释量。在因素命名与结果解释上，必要时可将因素计算后之分数存储，作为其它程序分析之输入变量。
19
第五步：计算各样本的因子得分
• 因子分析的最终目标是减少变量个数，以便在进一步的分析中用较少的因子代替原有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分，为进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念就是在尽可能不损失信息或少损失信息的情况下，将多个变量减少为少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子来反映原资料的大部分信息的统计学分析方法主成分分析（Principal component analysis）：是因子分析的一个特例，是使用最多的因子提取方法。它通过坐标变换手段，将原有的多个相关变量，做线性变化，转换为另外一组不相关的变量。选取前面几个方差最大的主成分，这样达到了因子分析较少变量个数的目的，同时又能与较少的变量反映原有变量的绝大部分的信息。两者关系：主成分分析（PCA）和因子分析（FA）是两种把变量维数降低以便于描述、理解和分析的方法，而实际上主成分分析可以说是因子分析的一个特例

因子分析ppt课件

（2）因子提取研究如何在样本数据的基础上提取综合因子。
（3）因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解释性。
（4）计算因子得分
通过各种方法求解各样本在各因子上的得分，为进一步分析奠定基础。
❖ 2、因子分析前提条件——相关性分析：
分析方法主要有：
（1）计算相关系数矩阵(correlation coefficients matrix)
1 2 为p的特0 征根，
标准化特征向量，则
为u对1 , 应u2 的,, up
1
Σ = U
2
U AA + D
p
u1 u2
up
1
0
1u1u1 2u2u2
0
u1 u2
p
up
mumum m1um1um1
1u1
2u2
pu p
1u1
2
u2
p
（4）方差贡献率----指公共因子对实测变量的贡献，又称变异量方差贡献率=特征值G/实测变量数p，是衡量公共因子相对重要性的指标，Gi越大，表明公共因子Fj对X*的贡献越大，该因子的重要程度越高如因子分析案例中 F1的贡献率为3.113/5=62.26%
因子的基本内容
❖ 1、因子分析的基本步骤：
如果相关系数矩阵中的大部分相关系数值均小于0.3，即各变量间大多为弱相关，原则上这些变量不适合进行因子分析。
（2）计算反映象相关矩阵（Anti-image correlation matrix)
（3）巴特利特球度检验（Bartlett test of sphericity )
该检验以原有变量的相关系数矩阵为出发点，其零假设H0是：相关系数矩阵为单位矩阵，即相关系数矩阵主对角元素均为1，非主对角元素均为0。（即原始变量之间无相关关系）。

第八章因子分析PPT课件

9 11 5 20
11 27 17 42

Σ
5 17 52 5

20

42

5
86

则Σ可分解为
Σ=AA′+D
其中
2 1
4 0 0 0
4 3
0 2 0 0
, B

A
1 7
0 0 2 0

9 2
都称为一个因子。十项得分与这四个因子之间的关系可以描
述为如下的因子模型：
xi=μi+fi1+fi2+fi3+fi4+εi, i=1,2,⋯,10
其中f1, f2, f3, f4表示四个因子，称为公共因子(common factor)
，aij称为xi在因子fj上的载荷(loading)，μi是xi的均值，εi是xi不
x*=μ*+A*f+ε*
这个模型能满足类似于前述因子模型的假定，即
第12页/共48页
E f 0

*
E
ε
0

V f I
V ε * D*

Cov f , ε * Cov f , ε C 0

D* diag( 1*2 , 2*2 ,
1.A的元素a ij
•
x i =μ i +a i1 f 1 +a i2 f 2 +⋯+a im f m +ε i
Cov xi , f j ai Cov f , f j Cov i , f j aij
m

因子分析与聚类分析ppt课件

图8-6 Fac精to选rPPST课c件ores 对话框
23
（1）Save as variables 复选项，将因子得分作为新变量保存在数据文件中。
（2） Method 栏，指定计算因子得分的方法。其中， Regression 选项为回归法，Bartlett 选项为巴特利特法，Anderson-Rubin 选项是为了保证因子的正交性而对Bartlett 因子得分的调整。
（3）Display factor score coefficient matrix 复
选项，选择此项将在输出窗中显示因子得分系数矩
阵，是标准化的得分系数。原始变量值进行标准化
后，可以根据该矩阵给出的系数计算各观测量的因
子得分，还显示协方差精选矩PP阵T课件。
24
8、单击“Options”按钮，进入Options对话框，可以进一步选择各种输出项。如图8-7 所示。
数目。（5）Maximum iterations for Convergence 参数框，
指定因子分析收敛的最大迭代次数。
精选PPT课件
20
6、单击“Rotation”按钮，展开Rotation对话框，如图8-5 所示，可以选择因子旋转方法。
精选PPT课件
21
图8-5 Rotation 对话框
（1）Method 框，选择旋转方法。其中，None 表示不进行旋转，Varimax为方差最大旋转法，Direct Oblilmin为直接斜交旋转法，Quartmax为四次最大正交旋转法，Equamax为平均正交旋转法，Promax 为斜交旋转法。
2、 KMO 检验
KMO检验统计量是用于比较变量间简单相关系数和偏相
关系数的指标，取值在0和1之间。值越接近于1，意味着变

因子分析因子分析PPT课件

1/ 5 2 / 5
1/ 5 2 / 5
1
21
第21页/共96页
特征根为： 1 1.55 2 0.85 3 0.6
0.475 0.883 0
U
0.629
0.331 0.707
0.629 0.331 0.707
0.475 1.55 0.883 0.85
A 0.629 1.55 0.331 0.85
因子分析：潜在的假想变量和随机影响变量的线性组合表示原始变量。
因子分析（探索）与结构方程模型（验证）
3
第3页/共96页
第二节因子分析的数学模型
一、数学模型 1.R型因子分析数学模型（按列）
设 X i (i 1,2,, p) p 个变量，如果表示为
X i ai1F1 aimFm i (m p)
X1 11 12
或
X
2
21
22
X
p
p1
p2
1m F1 1
2m
F2
2
pm
Fm
p
或X AF
4
第4页/共96页
称为 F1, F2,, Fm公共因子，是不可观测的变量，
他们的系数称为因子载荷。i 是特殊因子，是不能被
前m个公共因子包含的部分。并且满足：
3、公共因子Fj方差贡献的统计意义
因子载荷矩阵中各列元素的平方和
Sj
a p i 1
2 ij
p
r
i 1
2
(
xi
,
Fj
)
称为Fj ( j 1,, m) 对 X i 的方差贡献和。衡量Fj的相对重
要性。
12
第12页/共96页
（三）因子分析模型的性质

第八章因子分析

对 x i 所特有的，即每门课程的考试成绩可以
看作由一个公因子(与智力相一致)和一个特殊因子之和组成。
例2 考虑人的五个生理指标：收缩压(x 1 )，舒张压( x 2 )，心跳间隔( x 3 )，呼吸间隔( x 4 )，舌下温度( x 5 )。从生理学的知识知道这五个指标
是受植物神经的交感神经和副交感神经这两个
（8.1）
神经和副交感神经，那么可以设想变量
xp ap1F1 ap2F2 apmFm p
用矩阵表示：
x1 a11 a12 a1m F1 1
x2
a21
a22
a2m
F2
2
x
p
a
p1
ap2
a
pm
Fm
p
X AF ε
高维空间中的互相垂直的m个坐标
例1
1
2
3
4
5
6
1.古典语 1
2.法语 0.83
1
3.英语 0.78 0.67
1
4.数学 0.70 0.67 0.64
1
5.判别 0.66 0.65 0.54 0.54 1
6.音乐 0.63 0.57 0.51 0.51 0.4 1
表中课程是按照相关系数从上到下递减排列的。 Spearman注意到相关矩阵中一个有趣的规律：如果不考虑对角元素的话，任意两列的元素大致
Y1 11X1 12X2 Y2 21X1 22X2
1p X p 2pXp
Yp p1X1 p2X2 pp X p
（8.2）
其中， i j 为随机向量 X 的相关矩阵的特征值所对应的特征向量的分量，因为特征向量之间彼此正交，从X 到 Y 的转换关系是可逆的，即有

因子分析 PPT

aij j l ji
i 1, 2,..., p; j 1, 2,..., m
每一个公共因子的载荷系数之平方和等于对应的特征根，即该公共因子的方差。
p
j
ai2j
g
2 j
i1
• 极大似然法（maximum likelihood factor）
假定原变量服从正态分布，公共因子和特殊因子也服从正态分布，构造因子负荷和特殊方差的似买的VIP时长期间，下载特权不清零。
ቤተ መጻሕፍቲ ባይዱ
100W优质文档免费下载
VIP有效期内的用户可以免费下载VIP免费文档，不消耗下载特权，非会员用户需要消耗下载券/积分获取。
部分付费文档八折起 VIP用户在购买精选付费文档时可享受8折优惠，省上加省；参与折扣的付费文档均会在阅读页标识出折扣价格。
谢谢！
特权福利
特权说明
VIP用户有效期内可使用VIP专享文档下载特权下载或阅读完成VIP专享文档（部分VIP专享文档由于上传者设置不可下载只能阅读全文），每下载/读完一篇VIP专享文档消耗一个VIP专享文档下载特权。
年VIP
月VIP
连续包月VIP
VIP专享文档下载特权
享受60次VIP专享文档下载特权，一次发放，全年内有效。
档消耗一个共享文档下载特权。
年VIP
月VIP
连续包月VIP
享受100次共享文档下载特权，一次发放，全年内有效
赠每的送次VI的发P类共放型的享决特文定权档。有下效载期特为权1自个V月IP，生发效放起数每量月由发您放购一买次，赠 V不我I送清的P生每零设效月。置起1自随5每动时次月续取共发费消享放，。文一前档次往下，我载持的特续账权有号，效-自

因子分析ppt课件

因子分析的类型：
1、探索性因子分析（exploratory)
2、验证性因子分析（confirmatory）
EFA：事先对观测数据背后的因子个数一无所知，用于探索因子的维度；
CFA：研究者根据某种理论或先验知识对因子个数或结构提出Hale Waihona Puke 假设，研究是作为检验假设的工具；
一、因子分析原理
1、因子分析模型
因子抽取方法的选择一般考虑因子分析的目的和对变量方差的了解程度:
如果因子分析的目的是用最少的因子最大程度地解释原始数据中的方差,或特殊因子、误差带来的方差很小，则用主成分分析法。
如果目的是确定数据结构，但不了解变量方差的情况，则用公因子分析法。
五、解释因子(rotation)
初始因子很难解释，大多数因子都和很多变量有关，因子的实际意义难以理解和把握。因子旋转使因子结构更简单、更易于理解。
了变量之间的相关分。析中最重要的统计量，相当于回归系
数，是连接观测变量与公因子的纽带，
如果公因子间不相关（常作为假设），
它反映了因子与变量间线性相关程度。
公因子方差(communality)也称共同度，指观测变量方差中由公因子决定的比例，它说明了如果以公因子替代观测变量，原来每个变量的信息被保留的程度。
因子分析的应用：主要目的是浓缩数据
1、寻求基本结构（summarization) 2、数据化简（data reduction）
观测变量很多且相互存在高相关时，描述和分析问题存在困难，进一步统计分析受到限制；
将大量的观测变量化为少数的几个因子，建立简洁的概念系统，并可用因子值进行进一步的统计分析；
当公因子间不相关时，某变量 xi 的公因子方差

对应分析课件.ppt

优秀课件，精彩无限！
13
表中的术语
Inertia－惯量, 为每一维到其重心的加权距离的平方。它度量行列关系的强度。
Singular Value－奇异值（是惯量的平方根），反映了是行与列各水平在二维图中分量的相关程度，是对行与列进行因子分析产生的新的综合变量的典型相关系数。
Chi Square－就是关于列联表行列独立性c2检验的c2统计量的值，和前面表中的相同。其后面的Sig为在行列独立的零假设下的p-值，注释表明自由度为(4-1)×(3-1)=6， Sig.值很小说明列联表的行与列之间有较强的相关性。
优秀课件，精彩无限！
4
例子（数据ChMath.txt )
该数据关于汉字读写能力的变量有三个水平：
“纯汉字”意味着可以完全自由使用纯汉字读写，
“半汉字”意味着读写中只有部分汉字（比如日文），
而“纯英文”意味着只能够读写英文而不会汉字。而数学成绩有4个水平（A、B、C、 D）。
虽然对不同数据类型所产生结果的解释有所不同，数学的原理是一样的。下面通过对ChMath.txt数据的计算和结果分析来介绍对应分析。
优秀课件，精彩无限！
10
首先看对应分析结果的一个主要SPSS展示，然后再解释该图的来源和解释。
运用纯汉字的点和最好的数学成绩A最接近，而不会汉字只会英文的点与最差的数学成绩F（或者D，虽然在纵坐标稍有差距）最接近，而优用秀课件部，精彩分无限！汉字的和数学成绩B接11近。
优秀课件，精彩无限！
17
SPSS的实现
打开ChMath.sav数据，其形式和本章开始的列联表有些不同。其中ch列代表汉字使用的三个水平；而math列代表数学成绩的四个水平；第一列count实际上是ch和math两个变量各个水平组合的出现数目，也就是列联表中间的数目。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

8、因子得分的协方差矩阵
反映各因子间的联系程度。
注：本例只提取了一个公共因子，故表格内容无实际意义。
例2 利用因子分析过程分析一年内各个城市的日照情况。数据文件：“主要城市日照数.sav” 。
【Analyze】/【Data Reduction】/【Factor】要求：选入分析变量
要求：输出因子分析适用条件的检验
Descriptives：选择需要输出的统计量
要求：输出相关系数矩阵；进行因子分析适用条件的检验
所有变量间的相关系数矩阵显著性水平
相关系数矩阵的行列式值 KMO 检验和Bartlett球形检验
（统计量）
单变量描述统计量：各分析变量的均值、标准差及观测数原始分析结果：原变量的公因子方差、与变量相同个数的因子、各因子的特征根及其所占总方差的百分比和累计百分比
要求：用均值代替缺失值
（选择缺失值处理方法）
因子载荷矩阵和结构矩阵按数值大小排序不显示绝对值小于指定数的载荷系数
（选择系数的输出方式）
结果解读：
1、相关系数矩阵表
变量间相关性很高
2、 KMO检验和Bartlett球形检验结果表
接近0.9，适合做因子分析
拒绝原假设，认为各变量之间不独立
注： KMO检验用于检验变量间的偏相关系数是否过小，一般，
输出主成分转换矩阵
（设置旋转解的输出）
输出二维或三维的因子载荷图
Factor Scores：因子得分
要求：输出因子得分系数矩阵
回归法巴特列特法安德森-鲁宾法
（在数据文件中建立一个新变量，用于保存各观测量的因子得分）（因子得分计算方法）
（输出因子得分系数矩阵及因子协方差矩阵）
Options对话框
（2）然后，根据相关性（或相似性）的大小把变量（或样品）分组，使得同组内的变量（或样品）之间的相关性（或相似性）较高，但不同组的变量相关性（或相似性）较低。
依据处理的对象不同，可以分为两类： R型因子分析，对变量做降维处理 Q型因子分析，对样本做降维处理
•R型因子分析
因子分析的几个概念： • 1、因子载荷
第8讲因子分析与对应分析
主成分分析——【Factor】过程
对观测量数目没有严格要求
主成分分析是将多个指标化为少数相互无关的综合指标的统计方法，通常数学上的处理就是将原来的p个指标做线性组合，作为新的综合指标，记第一个综合指标为F1。
选取这个线性组合的原则是令F1的方差最大，称F1为第一主成分；然后选取第二主成分 F2，且F1与F2的协方差为0，类似构造其余的主成分。
第一节因子分析——【Factor】过程
主成分分析的推广和发展，对观测量数目要求至少是变量的5倍以上，且越多越好
一、因子分析简介
• 做什么？因子分析是多元统计分析中处理降维的一种统计方法，它主要将具有错综复杂关系的变量或者样品综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系。
• 基本思想：（1）首先，通过变量（或样品）的相关系数矩阵（或相似系数矩阵）内部结构的研究，找出能控制所有变量（或样品）的少数几个随机变量（常称为因子）去描述多个变量（或样品）之间的相关（相似）关系；
4、主成分表
列出了所有的主成分，且按照特征根从大到小次序排列。
说明：第一主成分特征根为5.280，方差贡献率为88.001%，前两个主成分的累计贡献率为94.504%，根据提取因子的条件——特征值大于1，本例只选出一个因子。
5、碎石图
按照特征根大小排列的主成分散点图。纵坐标为特征值，横坐标为因子数。
提取一个主成分即可
6、因子负荷矩阵
用来反映各个变量的变异主要由哪些因子解释。
X 1 0 . 9 7 7 F 1 1 ,,X 6 0 . 9 2 7 F 1 6
7、因子得分系数矩阵
得出用各个变量的线性组合表达的主成分。
F 1 0 . 1 8 5 X 1 0 . 1 8 2 X 2 0 . 1 6 3 X 3 0 . 1 8 2 X 4 0 . 1 7 8 X 5 0 . 1 7 6 X 6
• 2、变量共同度
• 3、公因子Fj的方差贡献
• 4、因子旋转
因子旋转的目的是为了使得因子载荷阵的结构简化，便于对公共因子进行解释。
这里所谓的结构简化是使每个变量仅在一个公共因子上有较大的载荷，而在其余公共因子上载荷比较小。
这种变换因子载荷阵的方法称为因子轴的旋转。旋转的方法有很多种，如正交旋转，斜交旋轴等。
• 5、因子得分
• 因子分析的一般步骤
二、引例（练习一）
例1 利用因子分析过程分析各个城市的市政设施建设情况。数据文件：“各地区城市市政设施.sav”，下表是部分数据。
【Analyze】/【Data Reduction】/【Factor】要求：选入分析变量
（因子分析的变输出碎石图
要求：输出因子得分系数阵
要求：采用方差最大化正交旋转；输出因子载荷图
KMO大于0.9时效果最佳，小于0.5时不适宜做因子分析。 Bartlett球形检验用于检验相关系数矩阵是否是单位阵，如果
结论是不拒绝该假设，则表示各个变量都是各自独立的。
3、变量共同度表
给出了提取公共因子前后各变量的共同度（衡量公共因子的相对重要性指标）
该变量95.4％的信息已经被提取
说明：比如变量X1的共同度位0.954，即提取的公共因子对变量X1的方差做出了95.4%的贡献。
（相关矩阵）
相关系数矩阵的逆矩阵再生相关系数矩阵
反映像协方差阵和相关阵
Extraction：选择因子提取的方法
要求：输出碎石图
（选择公共因子的提取方法）
相关矩阵协方差矩阵
（设定公共因子提取标准）
显示未经旋转变换的因子提取结果显示碎石图，体现各因子重要程度
以特征根大于指定数值为提取标准
自定义提取因子的数量
（收敛时的最大迭代次数）
公共因子的提取方法：（1）主成分分析法（默认）；（2）不加权最小二乘法；（3）广义最小二乘法；（4）极大似然法；（5）主轴因子法；（6）因子法；（7）影像因子法
Rotation：选择因子旋转的方法
方差最大化正交旋转斜交旋转法
（因子旋转的方法）
四分旋转法平均正交旋转法斜交旋转法