第六章因子分析.

合集下载

因子分析方法ppt课件

10
因子分析数学模型中几个相关概念
举例说明：
11
12
因子分析的五大基本步骤
第一步：因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩，即将原有变量中的信息重叠部分提取和综合成因子，进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则，如果原有变量相互独立，相关程度很低，不存在信息重叠，它们不可能有共同因子，那么也就无法将其综合和浓缩，也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系，是否适合进行因子分析。
2
因子分析的基本模型
因子分析模型中，假定每个原始变量由两部分组成：共同因子和唯一因子。共同因子是各个原始变量所共有的因子，解释变量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子，表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷表示。
18
第四步：决定因素与命名
• 转轴后，要决定因素数目，选取较少因素层面，获得较大的解释量。在因素命名与结果解释上，必要时可将因素计算后之分数存储，作为其它程序分析之输入变量。
19
第五步：计算各样本的因子得分
• 因子分析的最终目标是减少变量个数，以便在进一步的分析中用较少的因子代替原有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分，为进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念就是在尽可能不损失信息或少损失信息的情况下，将多个变量减少为少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子来反映原资料的大部分信息的统计学分析方法主成分分析（Principal component analysis）：是因子分析的一个特例，是使用最多的因子提取方法。它通过坐标变换手段，将原有的多个相关变量，做线性变化，转换为另外一组不相关的变量。选取前面几个方差最大的主成分，这样达到了因子分析较少变量个数的目的，同时又能与较少的变量反映原有变量的绝大部分的信息。两者关系：主成分分析（PCA）和因子分析（FA）是两种把变量维数降低以便于描述、理解和分析的方法，而实际上主成分分析可以说是因子分析的一个特例

06 第六章 R-Q型因子分析

X = nW
于是有
（6.24）
F=
nWU
∧−1 2
=
nF R
∧−1 2
即
（6.24）
FR =
1
F
∧−1 2
n
（6.25）
其中各记号同前文一致。现在用图 4-9 中汇水盆地的样本为例说明R-Q型因子分析的计算与应用。由样本中 25
个样品 6 个变量作R型因子分析后得因子负载矩阵A于表 5-2。它就是R-Q型因子分析中要求的R型负载AR。表 5-2 对应的R型因子得分矩阵F列表 5-3，由（6.25）式可求得R-Q型因子分析中要求的Q型的负载AQ=FR，所得结果列于表 6-1。
三、R-Q 型因子分析的图示
矩阵AR和AQ都是p列的，这意味着m维变量空间和n维样品空间样品都可用一p维因子空
3
间代替，因为p＜＜min(n，m)，故原始空间维数约简了许多。由于下面的关系成立
AR ARΤ = W ΤW
AQ AQΤ = WW Τ
可见，变量间关系完全保留在ARARΤ中，样品间关系完全保留在AQAQΤ中。
一、R-Q 型因子分析的相似性矩阵
我们考虑用相关系数作为变量间相似性的度量，用欧氏距离作为样品间的相似性度量，并
以此建立起变量间相似性矩阵与样品间相似性矩阵的联系。设原始数据矩阵为如下的形式：
Xn×m=(xij)n×m 其中xij为样品i变量j的观测值；并对数据作如下变换，即类似与标准化变换：
（6.1）
n
j =1
j =1
∑ (xij − x j )2
i =1
(6.8)
∑m
=
(xkj − xLj ) 2
n
= hkk + hLL − 2hkL

第六章因子分析

因此：因子也是综合变量；因子具有更明确的指标意义；具有不同意义的因子便于揭示事物变化的内在结构；提取少量重要因子可以达到降维和简化分析的作用。
（二）因子分析的一般模型：
令因子为 F(factor)，当我们研究 m 个因子对实际问题的影响时可以建立因子模型，即
X i ai1F1 ai 2 F2 aim Fm + i 。其中的 F 是对所有
（三）基本思想：

基于对因子的认识，因子分析的基本思想就是通过变量（或样品）的相关系数矩阵（或相似系数矩阵）内部结构的研究，找出能控制所有变量（或样品）的少数几个随机变量去描述多个变量（或样品）之间的相关（或）相似关系。在分解原始变量的基础上，从中归纳出潜在的“类别”，相关性较强的变量归为一类，不同类间变量的相关性则较低。从而实现因子分析的两个目的：一简化分析，二将原变量分类，对公因子的意义作出合理可信的解释。

而进行因子分析的起点就是因子模型，我们通过估计因子模型中的参数即因子负荷和方差对各因子的重要程度进行衡量，并利用因子负荷矩阵所体现的各变量或样品之间的相关程度提取出具有明确意义的公因子F，赋予其有实际背景的解释进而给以命名，从而达到降维和分类的目的。
三、因子分析的数学原理。
因R型因子分析应用广泛，故本章的解释均是以R型因子分析为对象。（一）正交因子模型：因子分析的一般模型为：

X 1 a11F1 a12 F2 a1m Fm 1 X 2 a21F1 a22 F2 a2 m Fm 2 X p a p1F1 a p 2 F2 a pm Fm p
i

可将上式写成简单的矩阵形式

因子分析ppt课件剖析

L 1L 为一个对角阵，使L得以很好的确定。
样本总方差
归因于第个j =
因子的比例
lˆ12j lˆ22j s11 s22
lˆp2j s pp
*因子旋转
为什么要旋转因子？建立因子分析模型的目的不仅是找出公共因子，
更重要的是知道每个公共因子的意义，以便对实际问题进行分析。如果求出因子解后，各个因子的典型代表变量不很突出，还需要进行因子旋转，通过适当的旋转得到比较满意的公共因子。
假设公共因子F和特殊因子是正态分布的，则可以根
据极大似然的思想得到因子载荷和特殊方差的极大似然估计。
当 Fj 和 j 是联合正态时，观测值 X j LFj j
就是正态的。它通过 LL 依赖于 L 和。
**正因为正交变化而使 Lˆ 的多重选择成为可能，仍然不
能很好的确定这个模型。施加可方便计算的唯一性条件
因子分析的思想和目的：
把每个研究变量分解为几个影响因素变量，将每个原始变量分解成两部分因素，一部分是由所有变量共同具有的少数几个公共因子组成的，另一部分是每个变量独自具有的因素，即特殊因子。
因子分析的目的之一，简化变量维数。即要使因素结构简单化，希望以公共因子，能对总信息量作最大的解释，因而抽取得因子愈少愈好，但抽取因子的累积解释的信息量愈大愈好。
利用谱分解，令有特征值-特征向量 i,ei ，且
1 2 p 0 则
1e1e1 2e2e2
p
ep
e
p
=
1 e1 2 e2
p
ep
1 e1
2 e2
p ep
令 m p是公共因子的个数，则所估计的因子载荷矩
阵 l为ij
L [ ˆ1eˆ1 ˆ2 eˆ2

第六章因子分析 (2)

第五章主成分分析clearset more offcd"C:\Users\zhou\OneDrive\Lectures_ebook\multivariate_statistics\labora tory\03principal"use data*定义变量的标签label var area "省份"label var x1 "GDP(亿元）"label var x2 "居民消费水平(元）"label var x3 "固定资产投资(亿元)"label var x4 "职工平均工资（元）"label var x5 "货物周转量(亿吨公里)"label var x6 "居民消费价格指数(上年100)"label var x7 "商品零售价格指数(上年100)"label var x8 "工业总产值(亿元)"describesumcorr//findit factortest//ssc install factortest//check the datafactortest x1-x8pca x1-x8, correlation /*主成分估计*/pca x1-x8, covariance component(3) /*主成分估计*///testestat kmo /*KMO检验，越高越好*/estat smc /*SMC检验，值越高越好*/screeplot /* 碎石图（特征值等于1处的水平线标示保留主成分的分界点）*/ loadingplot , yline(0) xline(0)/*载荷图 */loadingplot , combined factors(3) yline(0) xline(0)/*载荷图 */predict f1 f2 f3 /*预测变量得分*/scoreplot,mlabel(area) yline(0) xline(0) /*得分图*/scoreplot,xtitle("经济社会总量") ytitle("人民生活水平") mlabel(area) yline(0) xline(0) /*得分图*/scatter f2 f3,xtitle("人民生活水平") ytitle("物价水平") mlabel(area) yline(0) xline(0) /*得分图*/scoreplot, factors(3) mlabel(area) /*得分图*/scoreplot,combined factors(3) mlabel(area) yline(0) xline(0) /*得分图*///ranking by scoredescribe f1-f3sort f1 //sortinggen rank_nature=_n //rankingbrowse area f1 rank_nature // show datgsort -f1 //generalized sortinggen rank_nature1=_n //rankingbrowse area f1 rank_nature rank_nature1 // show datcor x1-x8matrix CM=r(C) //define covariance matrixpcamat CM, comp(3) n(1000) names(a1 a2 a3 a4 a5 a6 a7 a8)//rotate /*旋转*/。

第六章因子分析

第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想：根据相关性的大小将变量分组，使得同组内变量间的相关性较高，不同组间的相关性较低。

每组变量代表一个基本结构，并用一个不可观测的综合变量形式表示，这个基本结构成为公共因子。

此时的原始变量就可以分解成两部分之和的形式，一部分是少数几个不可测的所谓公共因子的线性函数，另一部分是与公共因子无关的特殊因子。

目的：从一些有错综复杂的问题中找出几个主要因子，每个主要因子代表原始变量间相互依赖的一种作用。

二、因子分析的基本模型常用的因子分析模型：R型因子分析和Q 型因子分析（一）R型因子分析模型R型因子分析是对变量作因子分析。

R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素，每一个变量都可以表示成公共因子的线性函数与特殊因子之和，即:其中：称为公共因子，称为的特殊因子矩阵表达式：且满足：（1）（2），即公共因子与特殊因子是不相关的（3），即各公共因子不相关且方差为1（4），即各个特殊因子不相关，方差不要求相等模型中称为因子载荷，是第个变量在第个因子上的负荷，如果把变量看成维空间中的一个点，则表示它在坐标轴上的投影，因此矩阵称为因子载荷矩阵。

（二）Q型因子分析Q型因子分析是对样品作因子分析。

模型同上注：主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换，是将原始坐标变换到变异程度大的方向上去，相当于从空间上转换观看数据的的角度，突出数据变异的方向，归纳重要信息。

因子分析与主成分分析一样都属降低变量维数的方法。

但因子分析的本质是从显在变量去“提炼”潜在因子的过程。

模型中应注意的问题：（1）变量的协方差阵的分解式为即（2）因子载荷不是唯一的。

三、因子载荷阵的统计意义（一）因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理，的标准差为1，且的标准差为1则（相关系数）综上可知：对于标准化后的，是的相关系数，一方面表示的依赖程度，绝对值越大，密切程度越高；另一方面也反映了变量对公共因子的相对重要性。

第六章因子分析

9
寻找基本结构
在多元统计中，经常遇到诸多变量之间存在强相关的问题，它会对分析带来许多困难。通过因子分析，可以找出几个较少的有实
际意义的因子，反映出原来数据的基本结构。
例如：调查汽车配件的价格中，通过因子分析从 20 个指标中概括出原材料供应商、配件厂商、新进入者、后市场零部件厂商、整车厂和消费者6个基本指标。从而找出对企业配件价格起决定性作用的几个指标。
本包含了原来变量的所有信息。
12
主成分分析的数学模型
13
主成分分析与因子分析公式上的区别
y1 a11 x1 a12 x2 a1 p x p
主成分分析
y2 a21 x1 a22 x2 a2 p x p y p a p1 x1 a p 2 x2 a pp x p
由于umn为随机向量X的相关矩阵的特征值对应的特征向量的分量，特征向量之间彼此正交，实际上从X到F的转换关系是可逆的，即：
x1 11 F1 21 F2 p1 Fp x2 12 F1 22 F2 p 2 Fp x F F F 1p 1 2p 2 pp p p
1、因子分析的核心：用较少的、相互独立的因子反映原有变量的绝大部分信息。因子分析的数学模型：设有p个变量，每个变量的均值为0，标准差为1。将每个原有变量用k个（k<p）因子f1,f2,…,fk 的线性组合表示，即
x1 a11 f1 a12 f 2 a1k f k 1 x2 a21 f1 a22 f 2 a2 k f k 2 x p a p1 f1 a p 2 f 2 a pk f k p

第六讲因子分析

第五讲因子分析在许多实际问题中，涉及的变量众多，各变量间还存在错综复杂的相关关系，这时最好能从中提取少数综合变量，这些综合变量彼此不相关，而且包含原变量提供的大部分信息。

因子分析就是为解决这一问题提供的统计分析方法。

以后，如无特别说明，都假定总体是一个p 维变量：),...,,(21'=p X X X x它的均值向量μ=)(x E ，协方差矩阵V =(σij )p ⨯p 都存在。

第一节正交因子模型1．1 公共因子与特殊因子从总体中提取的综合变量：F 1, F 2, … , F m (m <p )称为（总体的）公共因子。

一般来说，公共因子不可能包含总体的所有信息，每个变量X i 除了可以由公共因子解释的那部分外，总还有一些公共因子解释不了的部分，称这部分为变量X i 的特殊因子，记为：εi 。

于是，我们有：变量X i 的信息＝公共因子可以表达部分+公共因子不可表达部分这就是所谓因子模型。

目前，公共因子可以表达的部分由公共因子的线性组合表示。

即上面的因子模型可以写成以下的形式：p i F a F a F a X i m im i i i i ,...,2,1,2211=++++=-εμ1．2 正交因子模型设总体),...,,(21'=pX X X x ，均值向量μ=)(x E ，协方差矩阵p p V x Va r ⨯=)( 。

因子模型有形式：其中m<p ，F 1,F 2,…,F m 称为所有变量的公共因子；εi 称为变量X i 的特殊因子。

如果引入以下向量与矩阵：),...,,(,),...,,(2121'='=p m F F F F εεεε⎪⎪⎪⎪⎪⎭⎫⎝⎛=pm p p m m a a a a a a a a a A212222111211则因子模型的矩阵形式为：εμ+=-F A x 对于正交的因子模型，还要进一步要求：z 1. m m I F Var F E ⨯==)(,0)(。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。
（一）正交因子模型：因子分析的一般模型为：
X1 a11F1 a12F2 a1mFm 1 X 2 a21F1 a22F2 a2mFm 2
X p ap1F1 ap2F2 apmFm p
i
可将上式写成简单的矩阵形式
X AF
因子。
（1） m p ；（2） Cov(F, ε) 0 ，即公共因子与特殊因子是不相关的；
1

（3）
DF

D(F )

1
0
关且方差为 1；
0

Im
，即各个公共因子不相
1
12
（4）D

D(ε)

2 2
0
方差不要求相等。
0

，即各个特殊因子不相关，
第六章因子分析
因子分析简介因子分析过程
问题思考
主成分分析和因子分析的联系与区别因子分析模型需要满足哪些条件变量共同度的定义及统计意义因子分子中的因子载荷矩阵A矩阵和主成
分分析中的U矩阵是什么关系
内容和要求：
本章内容：因子分析的基本思想和原理、相关重要概念及统计解释、因子分析过程及结果解释。
X 共有的因子，通常称为公共因子或共同因子，其系数 aij 称为因子载荷，表示第 i 个变量或样品在第
j 个公因子的负荷，即相对重要程度。 i 称为特殊
因子，即未被公因子包含的其他因子。
因子分析一般有两种情况，一种是对变量作因子分析，我们称为R型因子分析，该分析较为常见，因为我们通常是为了简化分析变量进行因子分析；另一种是对样品作因子分析，我们称为Q型因子分析，该分析的原理与R型因子分析完全一致，只是应用较少
E( X i Fj ) ai1E(F1Fj ) ai2E(F2Fj ) aimE(FmFj ) E(iFj )
在标准化条件下，有 E(XiFj ) rxiFj
E(Fi Fj ) rFiFj
故上式可以写成：
1Fj ai r2 F2Fj a r im FmFj riFj aij

2 p

因子分析模型要求满足模型基本假定并
且 m p 。其中重要条件是各因子之
间彼此不相关，且各因子方差同等散布，均为1（因此称为正交模型）。
因此，因子分析就是想利用公因子去代替原来的X以达到简化分析和寻找变量内部结构的目的。
（二）重要概念的统计意义：因子载荷、变量共同度、公因子方差贡献
学习要求：熟练掌握因子分析的基本思想和基本原理。熟练掌握公共因子、因子载荷、共同度、因子旋转等
重要概念及其相应统计意义。能熟练使用软件进行因子分析，并能对因子分析结果
进行准确合理的解释。能结合实际经济和社会问题利用因子分析考察事物内
部结构。
第一节、因子分析简介
一、什么是因子分析？
（三）基本思想：
基于对因子的认识，因子分析的基本思想就是通过变量（或样品）的相关系数矩阵（或相似系数矩阵）内部结构的研究，找出能控制所有变量（或样品）的少数几个随机变量去描述多个变量（或样品）之间的相关（或）相似关系。在分解原始变量的基础上，从中归纳出潜在的“类别”，相关性较强的变量归为一类，不同类间变量的相关性则较低。从而实现因子分析的两个目的：一简化分析，二将原变量分类，对公因子的意义作出合理可信的解释。
假定因子模型中各变量及公因子和特殊因子均为标准化变量，即均值为0，方差为1的变量
1、因子载荷的统计意义。
已知因子模型为 X i ai1F1 ai2F2 aimFm
将两端右乘 Fj
X i Fj ai1F1Fj ai2F2Fj aimFmFj i Fj
对上式两边同时求期望值有
其中，( X1, X 2 , X p )为实测变量。aij
为因子载荷，表示第i个变量在第j个公因子上的负荷，因子载荷越大，则说明第i个变量与第j个因子的关系越密切。该结论将在后面的分析中得到证明，A矩阵即为因子载荷矩阵。F向量为不可观测的变量，即为X
的公共因子，是一种综合变量。 i 为特殊
因此：因子也是综合变量；因子具有更明确的指标意义；具有不同意义的因子便于揭示事物变化的内在结构；提取少量重要因子可以达到降维和简化分析的作用。
（二）因子分析的一般模型：
令因子为 F(factor)，当我们研究 m 个因子对实际问题的影响时可以建立因子模型，即
X i ai1F1 ai2F2 aimFm + i 。其中的 F 是对所有
因此因子载荷的统计意义就是第i个变量与第j个公共因子的相关系数，表示 X i依赖 Fj 的份量，即是统计学中的权数，心理学上叫
而进行因子分析的起点就是因子模型，我们通过估计因子模型中的参数即因子负荷和方差对各因子的重要程度进行衡量，并利用因子负荷矩阵所体现的各变量或样品之间的相关程度提取出具有明确意义的公因子F，赋予其有实际背景的解释进而给以命名，从而达到降维和分类的目的。
三、因子分析的数学原理。
因R型因子分析应用广泛，故本章的解释均是以R型因子分析为对象。

二、因子分析的基本思想
（一）什么是因子？
因子与主成分相似，也是一种综合变量，即对原变量进行线性组合而形成的新变量。但它比主成分有着更为明确的含义，表现为具有强烈倾向性的综合变量，其倾向性取决于变量或样品间的相关系数或相似系数的大小。
因子集中表现影响某现象变化的某类因素，它是一个较抽象的概念，由一系列具有相同影响方向的具体因素所构成，因此我们有时也称它为共同因子，代表同一类变量的影响，提取的多个共同因子可以揭示系统变化的内在结构，并可以使大量变量得到简化。

第六章 因子分析.

因子分析方法ppt课件

06 第六章 R-Q型因子分析

第六章 因子分析

因子分析ppt课件剖析

第六章 因子分析 (2)

第六章因子分析

第六章 因子分析

第六讲 因子分析

第六章因子分析.

第六章因子分析

第六章因子分析 (2)

第六章因子分析

第六讲因子分析