第8讲 因子分析与对应分析
因子分析与对应分析

.0 .S 4
.0 .0 .4
专等 总 . 00o总 . 01 中
. 17 总
1. 63 专
. 82 中 . 4 ig总
. 8中
30 总 . 07 专
. 07 中
校人 .9 10r .1 00 .0 52 .5 99
1 .1 62 .0 8 . .3 8
返回
因子分析简单实例输出1
i
a
n
c
e
E
m
E
ig
s
e
n
o
v
f
a
lu
%
m
C
u% uo m
la f
t
uo
iv
la f
e
Co r
Vo t ia T %am a n o r l c t iap % e a no
l cn
5 7.1 463 7 . 8 66 . 47 6
4 63
66
6
9 5.2 337 3 . 7 93 . 99 9
xx32
21 31
f1 f1
22 32
f2 f2
2k 3k
fk fk
e2 e3
xm m1 f1 m2 f2 mk fk em
其中 x1 ~ xm 是对原始变量进行均值为0,标准差为1标准化后的变量。
特性方差V(e)
前k个因子,共性方差为:
k
Vc(xi)
2 ij
j 1
m
Vc(xi)
2 ij
j 1
返回
因子分析菜单
返回标的调查数据进行因子分析为例,本数据是美 国洛杉矶标准大城市统计区中的12个人口调查区的五个经济学变量的数据。
对应分析

p12 / p1. p22 / p2. p n 2 / pn .
p1 p / p1. p 2 p / p 2. pnp / pn.
pij n pij E ( ) = ∑ . pi. = p. j , j = 1,2,, p pi. i =1 pi.
因为原始变量的数量等级可能不同,所以为了尽 量减少各变量尺度差异,将行轮廓中的(各列元素) 均除以其期望的平方根.得矩阵D(R)
32 6
15 1
62 8
11 1
40 8
58 6
35 10
58 67
21 23
70 95
17 25
70 71
62 89
83 91
American European Japanese Large Medium Small Family Sporty Work 1 Income 2 Incomes Own Rent Married Married with Kids Single
变量的叉积矩阵
∑ R = (X* )′X* ( p × p)
样品的叉积矩阵
∑ Q = X* ( X* )′ ( n × n)
显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 他们的非零特征根也不一样,那么能否将观测值做变换. 他们的非零特征根也不一样,那么能否将观测值做变换.
含义 雪糕 纯水 碳酸饮料 果汁饮料 保健食品 空调 洗衣机 毛毯
代码 Feel1 Feel2 Feel3 Feel4 Feel5 Feel6 Feel7 Feel8
含义 清爽 甘甜 欢快 纯净 安闲 个性 兴奋 高档
name1
product1 product2 product3 product4 product5 product6 product7 product8 feel1 feel2 feel3 feel4 feel5 feel6 feel7 feel8 50 508 55 109 34 11 30 2 368 217 19 142 16 2 4 3
对应分析

可见 λk 也是ZZ’的特征根,相应的特征向量是 Zu k
因此将原始数据矩阵X变换成矩阵Z,则变量和 样品的协差阵分别可表示为 A = Z ′Z 和B=ZZ′ ,A和 B具有相同的非零特征值,相应的特征向量有很密 切的关系。 这样就可以用相同的因子轴去同时表示变量 和样品,把变量和样品同时反映在具有相同坐标 轴的因子平面上。
= ∑ z ak z aj
a =1
n
pak − pa. p.k xak − xa. x.k = z ak = pa. p.k xa. x.k
令Z为zij所组成的矩阵,则 A = Z′Z
p1 j 称 p. j
p2 j p. j
L
pnj x1 j = p. j x. j
L
第i个行变量的期望:
E( pij p. j )=∑
j =1 p
pij p. j
. p. j = pi.
因为原始变量的数量等级可能不同,所以为了尽量 减少各变量尺度差异,将列形象中的各行元素均除以 其期望的平方根。得矩阵D(Q)
p11 p.1 p1. p21 D (Q ) = p.1 p2. M p n1 p.1 pn. p12 p.2 p1. p22 p.2 p2. M pn 2 p.2 pn.
X ⋅ X*
*
′
x11 − x1 x21 − x1 L xn1 − x1 x11 − x1 x12 − x2 L x1p − xp x12 − x2 x22 − x2 L xn2 − x2 x21 − x1 x22 − x2 L x2 p − xp = × M M M M M M x − x x − x L x − x x −x x − x L x − x np p n1 1 n2 2 np p 1p p 2 p p
因子分析与对应分析

【Analyze】/【Data Reduction】/【Factor】 要求:选入分析变量
(因子分析得变量)
(定义记录旋转条件)
Descriptives:选择需要输出得统计量
要求:输出相关系数矩阵;进行因子分析适用条件得检验
所有变量间得相关系数矩阵 显著性水平
相关系数矩阵得行列式值 KMO 检验和Bartlett球形检验
(统计量)
单变量描述统计量:各分析变量得均值、标准差及观测数 原始分析结果:原变量得公因子方差、与变量相同个数得因子、 各因子得特征根及其所占总方差得百分比和累计百分比
(相关矩阵)
相关系数矩阵得逆矩阵 再生相关系数矩阵
反映像协方差阵和相关阵
Extraction:选择因子提取得方法
要求:输出碎石图
(选择公共因子得提取方法)
相关矩阵 协方差矩阵
(设定公共因子提取标准)
显示未经旋转变换得因子提取结果 显示碎石图,体现各因子重要程度
以特征根大于指定数值为提取标准
自定义提取因子得数量
(收敛时得最大迭代次数)
公共因子的提取方法: (1)主成分分析法(默认); (2)不加权最小二乘法; (3)广义最小二乘法; (4)极大似然法; (5)主轴因子法; (6) 因子法; (7)影像因子法
因子分析与对应分析
第一节 因子分析——【Factor】过程
主成分分析得推广和发展,对观测量数目要求至少就是变量得5倍以上, 且越多越好
一、因子分析简介
• 做什么? 因子分析就是多元统计分析中处理降维得一种统计方法,她主要将 具有错综复杂关系得变量或者样品综合为数量较少得几个因子,以 再现原始变量与因子之间得相互关系。
拒绝原假设,认为各 变量之间不独立
因子分析及对应分析

2012-12-13 2012-12-13
5 5
在满足以上假定的条件下,就有:
cov( X i , X j ) E (ai F gi )(a j F g j ) ai a j var F ai a j
于是,有
cov( X i , X j ) cov( X i , X k )
aj ak
2012-12-13 2012-12-13
6 6
因为 a i 是一个常数,与 gi 相互独立且 F 与 X i 的方差均被假定为1。 F 于是有 1 ai2 var( gi )
因此,常数a i 的意义就在于其平方表示了公共因子F 解释X i 的方 2 差的比例,因此被称之为因子载荷,而 a i 被称作共同度。 对Spearman的例子进行推广,假定每一门科目的考试成绩都受 到 m个公共因子的影响及一个特殊因子的影响,于是上式就变 成了如下因子分析模型的一般形式:
x* a 1 1 f 1 a 1 2 f 2 a 1 p f p c 1 g 1 1 * x 2 a 2 1 f 1 a 2 2 f 2 a 2 p f p c 2 g2 x* a f a f a f c g , m1 1 m2 2 m p p m m m where E ( f j ) 0 , D( f j ) 1, E ( g i ) 0 , D( g i ) 1
X i ai 1 F1 ai 2 F2 aim Fm gi
2012-12-13 2012-12-13
7 7
X 式中, i为标准化后的第 i 门科目的考试成绩,均值为0,方差为 1。F1 , F2 , , Fm 是彼此独立的公共因子,都满足均值为0,方差 为1。gi为特殊因子,与每一个公共因子均不相关且均值为0。 则ai 1 , ai 2 , , aim 为对第 i 门科目考试成绩的因子载荷。对该模型, 有: 2 2 2
R语言版应用多元统计分析对应分析

应用多元统计分析第8章 对应分析- 1-对应分析(Correspondence Analysis)是在因子分析的基础上发展起来的一种视觉化的数据分析方法,目的是通过定位点图直观地揭示样品和变量之间的内在联系。
R型因子分析是对变量(指标)进行因子分析,研究的是变量之间的相互关系;Q型因子分析是对样品作因子分析,研究的是样品之间的相互关系。
但无论是R型或Q型分析都不能很好地揭示变量和样品之间的双重关系。
而在许多领域错综复杂的多维数据分析中,经常需要同时考虑三种关系,即变量之间的关系、样品之间的关系以及变量与样品之间的交互关系。
法国学者苯参次(J.P.Benzecri)于1970年提出了对应分析方法,这个方法对原始数据采用适当的标度化处理,把R型和Q型分析结合起来,通过R型因子分析直接得到Q型因子分析的结果,同时把变量和样品反映到同一因子平面上,从而揭示所研究的样品和变量之间的内在联系。
在因子分析中,R型因子分析和Q型因子分析都是从分析观测数据矩阵出发的,它们是反映一个整体的不同侧面,因而它们之间一定存在内在联系。
对应分析就是通过某种特定的标准化变换后得到的对应变换矩阵Z将两者有机地结合起来。
具体地,就是首先给出变量的R型因子分析的协方差阵 和样品的Q型因子分析的协方差阵 。
由于矩阵 和 有相同的非零特征值,记为 ,如果 的对应于特征值 的标准化特征向量为 ,则容易证明, 的对应于同一特征值的标准化特征向量为当样本容量n很大时,直接计算矩阵 的特征向量会占用相当大的容量,也会大大降低计算速度。
利用上面关系式,很容易从 的特征向量得到 的特征向量。
并且由 的特征值和特征向量即可得到R 型因子分析的因子载荷阵A和Q型因子分析的因子载荷阵B,即有由于 和 具有相同的非零特征值,而这些特征值又是各个公因子的方差,因此设有p个变量的n个样品观测矩阵 ,这里要求所有元素 ,否则对所有数据同时加上一个适当的正数,以使它们满足以上要求。
主成分与因子分析-新版分解

x11 x12 x x21 x22
x1 p x2 p =(X1,X2,…,Xp)
xn1 xn2
xnp
则因子分析的一般数学模型为
X1 a11F1 a12 F2 X 2 a21F1 a22 F2 X p ap1F1 ap2 F2
a1m Fm 1
a2m Fm
2
apm Fm
p
矩阵形式为
X AF
F (F1, F2 , , Fm )T 称为公共因子
8.2 因子分析
8.2.1 因子分析的数学模型 1.因子分析的含义 因子分析是主成分分析的推广,它是探讨存在相关关系的 变量之间,是否存在不能直接观测到但对可观测指标的变 化起支配作用的潜在因子(factor)的分析方法。 2.因子分析的基本原理 因子分析就是通过变量的相关系数矩阵内部结构的研究, 找出能控制所有变量的少数几个公共因子去描述多个变量 之间的相关关系,然后根据相关性的大小把变量分组.
这样,二维问题即可以降为一维问题,只取一个综合变量
P1(主成分)即可。
X2
F1
F2
**
*
**
**
**
** θ
X1
相当于在平面上做一个坐标变换,即按逆时针方向旋转角 度θ,根据旋转变换公式,新旧坐标之间有如下关系
P1 X1 cos X 2 sin u11 X1 u12 X 2
P2
X1 sin X 2 cos u21 X1 u22 X 2
u1p X p u2 p X p
u pp X p
若令式中U=(u1,u2,…,up)T, X=(X1,X2,…,XP)T
模型可简写为
P=u1X1+u2X2+…+upXp =UTX
第8讲因子分析与对应分析

第8讲因子分析与对应分析因子分析和对应分析是多元统计分析的两个重要方法,可以用于探索和解释多个变量之间的关系。
本文将详细介绍因子分析与对应分析的原理、应用以及在研究中的注意事项。
一、因子分析1.概念与原理因子分析是一种用于降维和检验构念的统计方法,通过分析变量之间的共同变异性,将一组相关变量归纳为几个相互独立的因子。
通过因子分析,可以减少变量的数量,提取出变量集合的共同因素,并进一步应用这些因子进行研究。
2.过程与步骤因子分析的步骤主要包括:确定因子数量、提取因子、旋转因子和解释因子。
首先,需要根据研究的目的和理论基础确定因子的数量;然后,通过主成分分析、最大似然法等方法提取因子;接着,对提取的因子进行旋转,以便更好地解释因子的含义;最后,根据提取和旋转的因子来解释因子的含义和解释力,进行结果的解释。
3.应用与示例因子分析可以应用于研究心理学、社会学、经济学等多个领域。
例如,在心理学中,可以通过因子分析提取出代表不同人格特征的因子,从而研究不同因素对人格的影响。
在市场研究中,可以通过因子分析分析顾客对不同产品特征的偏好,从而为产品定位和市场推广提供参考。
二、对应分析1.概念与原理对应分析是一种描绘和解释两个或多个表格之间关系的统计方法,通过计算表格中元素之间的关联性,找出表格之间的对应关系。
对应分析基于数学原理,可以识别表格中的模式和趋势,并提供对表格元素之间关系的可视化展示。
2.过程与步骤对应分析的过程主要包括:计算对应坐标、分析对应方向和解释对应结果。
首先,通过降维技术(如主成分分析)计算表格中每个元素的对应坐标,即将高维表格转化为低维坐标。
其次,通过对应方向的分析,找出表格之间的对应关系。
最后,根据对应结果,解释表格之间的关联性和趋势。
3.应用与示例对应分析可以应用于研究多个变量之间的关系,如消费者对产品特征的偏好、不同地区的经济发展等。
例如,在市场研究中,可以通过对应分析识别消费者对不同产品特征的偏好,并据此进行市场推广策略。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4、主成分表
列出了所有的主成分,且按照特征根从大到小次序排列。
说明:第一主成分特征根为5.280,方差贡献率为88.001%,前两个主成 分的累计贡献率为94.504%,根据提取因子的条件——特征值大于1, 本例只选出一个因子。
5、碎石图
按照特征根大小排列的主成分散点图。纵坐标为特征值,横坐标为因子数。
8、因子得分的协方差矩阵
反映各因子间的联系程度。
注:本例只提取了一个公共因子,故表格内容无实际意义。
例2 利用因子分析过程分析一年内各个城市的日照情况。 数据文件:“主要城市日照数.sav” 。
【Analyze】/【Data Reduction】/【Factor】 要求:选入分析变量
要求:输出因子分析适用条件的检验
(2)然后,根据相关性(或相似性)的大小把变量(或样品)分 组,使得同组内的变量(或样品)之间的相关性(或相似性)较 高,但不同组的变量相关性(或相似性)较低。
依据处理的对象不同,可以分为两类: R型因子分析,对变量做降维处理 Q型因子分析,对样本做降维处理
•R型因子分析
因子分析的几个概念: • 1、因子载荷
Plots:设置需要输出图形
(输出对应分析图) 双变量散点图
行点图 列点图
限制标签长度
输出各行变量分类对应于行得分的散点图 输出各列变量分类对应于列得分的散点图
(图形维度)
输出分析结果的所有维度 限制输出维度的数目
结果解读:
1、对应分析表
给出不同年龄阶段的人群分别投票给三位总统候选人的人数。
2、结果汇总表
第一节 因子分析——【Factor】过程
主成分分析的推广和发展,对观测量数目要求至少是变量的5倍以上, 且越多越好
一、因子分析简介
• 做什么? 因子分析是多元统计分析中处理降维的一种统计方法,它主要将 具有错综复杂关系的变量或者样品综合为数量较少的几个因子, 以再现原始变量与因子之间的相互关系。
• 基本思想: (1)首先,通过变量(或样品)的相关系数矩阵(或相似系数矩 阵)内部结构的研究,找出能控制所有变量(或样品)的少数几 个随机变量(常称为因子)去描述多个变量(或样品)之间的相 关(相似)关系;
提取一个主成分即可
6、因子负荷矩阵
用来反映各个变量的变异主要由哪些因子解释。
X1 0.977F1 1,L , X 6 0.927F1 6
7、因子得分系数矩阵
得出用各个变量的线性组合表达的主成分。
F1 0.185X1 0.182X 2 0.163X3 0.182X 4 0.178X5 0.176X6
(维度对点惯量的贡献量)
5、对应分析图
首先看同一变量的不同分组在某一侧维度上靠的远近程度,较近表示这些分组在该 维度上区别不大,比如第二维度;然后看不同变量的各分组间的位置,从图形中心 (0,0)出发,相同方位上大致相同的区域内的不同变量的分组彼此有联系。
说明:可看出45~64岁这个阶段的选民都倾向于克林顿,其他的 没有明显的倾向性。
说明:第一主因子主要由前5个 变量决定,第二主因子主要由 中间4个变量决定,第三主因子 主要由最后3个变量决定。
7、因子转换矩阵
旋转前的因子载荷矩阵乘以因子转换矩阵等于旋转后的因子载荷矩阵。
8、因子旋转后的因子载荷图
图中的坐标轴就是各个主因子。
9、因子得分系数矩阵
得到因子得分表达式。
F1 0.195X1 0.229X 2 0.252X 3 L 0.169X12 F 2 0.142X1 0.126X 2 0.048X 3 L 0.100X12 F3 0.081X1 0.015X 2 0.086X 3 L 0.516 X12
6、旋转后因子载荷矩阵
经过正交旋转后的因子载荷矩阵,给出旋转后的各变量的因子表达式。
X1 0.837F1 0.014F 2 0.463F3 X 2 0.882F1 0.013F 2 0.375F3 L X12 0.140F1 0.018F 2 0.913F3
KMO大于0.9时效果最佳,小于0.5时不适宜做因子分析。 Bartlett球形检验用于检验相关系数矩阵是否是单位阵,如果
结论是不拒绝该假设,则表示各个变量都是各自独立的。
3、变量共同度表
给出了提取公共因子前后各变量的共同度(衡量公共因子的相对重要性指标)
该变量95.4%的 信息已经被提取
说明:比如变量X1的共同度位0.954,即提取的公共因子对变量X1的 方差做出了95.4%的贡献。
第三节 最优尺度分析 ——【Optimal Scaling】过程初步认识
【Analyze】/【Dimension Reduction】/【Optimal Scaling】
分析变量中存在无序多分类变量时 (确定是在不同变量间分析还是在几组变量间分析)
(当数据中存在复选集变量时) (分析方法) 多元对应分析 分类变量主成分分析 非线性典型相关分析
第12章 因子分析与对应分析
主成分分析——【Factor】过程
对观测量数目没有严格要求
主成分分析是将多个指标化为少数相互无 关的综合指标的统计方法,通常数学上的处理 就是将原来的p个指标做线性组合,作为新的综 合指标,记第一个综合指标为F1。
选取这个线性组合的原则是令F1的方差最 大,称F1为第一主成分;然后选取第二主成分 F2,且F1与F2的协方差为0,类似构造其余的 主成分。
3、主成分表
说明:第一主成分特征根为6.854,方差贡献率为57.041%,前3个 主成分的累积贡献率为84.421%,根据提取因子的条件——特征值 大于1,本例选出3个因子。
4、碎石图
说明:前3个主成分的特征根都在1以上。
5、因子载荷矩阵
给出各变量的因子表达式。
X1 0.852F1 0.435F 2 0.015F3 X 2 0.854F1 0.419F 2 0.115F3 L X12 0.562F1 0.164F 2 0.715F3
要求:用均值代替缺失值
(选择缺失值处理方法)
因子载荷矩阵和结构矩阵按数值大小排序 不显示绝对值小于指定数的载荷系数
(选择系数的输出方式)
结果解读:
1、相关系数矩阵表
变量间相关性很高
2、 KMO检验和Bartlett球形检验结果表
接近0.9,适合 做因子分析
拒绝原假设,认为 各变量之间不独立
注: KMO检验用于检验变量间的偏相关系数是否过小,一般,
(收敛时的最大迭代次数)
公共因子的提取方法: (1)主成分分析法(默认); (2)不加权最小二乘法; (3)广义最小二乘法; (4)极大似然法; (5)主轴因子法; (6) 因子法; (7)影像因子法
Rotation:选择因子旋转的方法
方差最大化正交旋转 斜交旋转法
(因子旋转的方法)
四分旋转法 平均正交旋转法 斜交旋转法
当一些变量为有序分类或者连续性变量时使用,该方法使用主成分 提取方式,以尽量稍等主成分解释尽量多的原始信息。
输出主成分转换矩阵
(设置旋转解的输出)
输出二维或三维的因子载荷图
Factor Scores:因子得分
要求:输出因子得分系数矩阵
回归法 巴特列特法 安德森-鲁宾法
(在数据文件中建立一个新变量,用于保存各观测量的因子得分) (因子得分计算方法)
(输出因子得分系数矩阵及因子协方差矩阵)
Options对话框
(相关矩阵)
相关系数矩阵的逆矩阵 再生相关系数矩阵
反映像协方差阵和相关阵
Extraction:选择因子提取的方法
要求:输出碎石图
(选择公共因子的提取方法)
相关矩阵 协方差矩阵
(设定公共因子提取标准)
显示未经旋转变换的因子提取结果 显示碎石图,体现各因子重要程度
以特征根大于指定数值为提取标准
自定义提取因子的数量
要求:输出碎石图
要求:输出因子得分系数阵
要求:采用方差最大化正交旋转;输出因子载荷图
结果解读:
1、 KMO检验和Bartlett球形检验结果表
说明: KMO检验结果为0.798,大于0.5,比较适合作因子分析; Bartlett球形检验的Sig.值为0,各变量不独立。
2、变量共同度表
说明:变量“Jan”的共同度为0.915,即选取的公共因子提取了变量 “Jan”91.5%的信息。
Descriptives:选择需要输出的统计量
要求:输出相关系数矩阵;进行因子分析适用条件的检验
所有变量间的相关系数矩阵 显著性水平
相关系数矩阵的行列式值 KMO 检验和Bartlett球形检验
(统计量)
单变量描述统计量:各分析变量的均值、标准差及观测数 原始分析结果:原变量的公因子方差、与变量相同个数的因 子、各因子的特征根及其所占总方差的百分比和累计百分比
列出维数、奇异值(惯量的平方根)、惯量(又指特征根)、总的卡方检验及Sig.值
维数
奇异值
特征根 总的卡方检验
注:惯量用于说明对应分析各个维度的结果能够解释列联表中两个变量 联系的程度。
说明:表中两个维度分别解释了总信息量的99.6%和0.4%,说明二维 图形完全可以表示两个变量间的信息,且观察时以第一维度为主。
Model:模式子对话框
(设置分析结果维数) (选择距离测量方式) 卡方距离 欧氏距离,主要用于连续变量
(变量的标准化方式)
对称法(默认)
(正则化方法)
Satistics:设置需要输出的统计量
输出对应分析表(列联表) 输出行点概述表 输出列点概述表 指定的前n个维度输出基于行列得分的原始表格
输出行轮廓表 输出列轮廓表 (输出行点和列点的标准差、以及各维度坐标间的相关系数)
例2 利用简单对应分析过程分析不同年龄段选民的倾向。 数据文件:voter.sav