第13章 主成分分析和因子分析 stata统计分析与应用
因子分析︱使用Stata做主成分分析

因子分析︱使用Stata做主成份分析因子分析是一种常用的多变量数据分析方法,可以用于降维、变量筛选和构建综合指标等方面。
在实际应用中,Stata是一款功能强大的统计软件,可以方便地进行因子分析。
本文将介绍如何使用Stata进行主成份分析。
首先,我们需要准备好需要进行因子分析的数据。
假设我们有一份包含10个变量的数据集,每一个变量都代表了某种特征或者指标。
我们希翼通过因子分析来找出这些变量的共同因素,并将其转化为更少的几个主成份。
在Stata中,我们可以使用“factor”命令来进行主成份分析。
首先,我们需要加载数据集。
假设我们的数据集名为“data”,我们可以使用以下命令加载数据:```use data```接下来,我们可以使用“factor”命令进行主成份分析。
以下是一个示例命令:```factor var1-var10, pcf```在上述命令中,“var1-var10”表示我们要进行因子分析的变量范围,而“pcf”表示使用主成份法进行因子分析。
执行该命令后,Stata会输出一份关于因子分析结果的报告。
报告中的一项重要指标是共同度(communality),它表示每一个变量与所有因子的相关程度。
共同度越高,说明变量与因子之间的关联越强。
我们可以根据共同度来判断每一个变量对应的主成份是否合适。
此外,报告还会给出每一个主成份的解释方差比例(proportion of variance explained)。
解释方差比例表示每一个主成份能够解释原始数据中的多少方差。
通常,我们希翼选择解释方差比例较高的主成份,以便更好地代表原始数据。
在进行因子分析后,我们还可以使用“rotate”命令对主成份进行旋转,以便更好地解释数据。
Stata提供了多种旋转方法,如方差最大旋转(varimax rotation)和直角旋转(orthogonal rotation)等。
我们可以根据需要选择合适的旋转方法。
除了使用命令行进行因子分析,Stata还提供了可视化工具来匡助我们更好地理解和解释数据。
因子分析在STATA中实现和案例

第13章因子分析因子分析始于1904年CharsSpearman对学生成绩的分析,在经济领域有着极为广泛的用途。
在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。
因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。
这些共同因素称为公因子,特殊因素称为特殊因子。
因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。
因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。
给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再现它们之间的内在联系。
二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。
p个变量X的因子模型表达式为:'X=fef称为公因子,称为因子载荷。
X的相关系数矩阵分解为:'对于未旋转的因子,1。
称为特殊度,即每个变量中不属于共性的部分。
13.1因子估计Stata可以通过变量进行因子分析,也可以通过矩阵进行。
命令为factor或factormat。
webusebg2,cleardescribefactorbg2cost1-bg2cost6factorbg2cost1-bg2cost6,factors(2)*pf主因子方法,用复相关系数的平方作为因子载荷的估计量(默认选项)factorbg2cost1-bg2cost6,factors(2)pcf*pcf主成分因子,假定共同度=1factorbg2cost1-bg2cost6,factors(2)ipf*ipf迭代主因子,重复估计共同度factorbg2cost1-bg2cost6,factors(2)ml*ml极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法13.2预测Stata可以通过predict预测变量得分、拟合值和残差等。
主成分和因子分析S

将原始数据投影到选定的主成分 上,得到主成分得分。
主成分分析的应用场景
01
02
03
04
数据降维
当数据集维度过高时,主成分 分析可用于降低数据维度,减 少计算复杂度和存储空间。
数据可视化
主成分分析可将高维数据降至 低维空间,便于进行数据可视
化展示和分析。
特征提取
主成分分析可用于提取数据中 的主要特征,用于后续的分类
因子载荷
公共因子对原始变量的影响程度用因子载荷来表示,因子载荷矩阵是因子分析的核心。
因子分析的步骤
数据预处理
包括数据标准化、缺失值处理等,以消除量纲 影响和异常值影响。
01
确定公共因子数量
通过特征值、碎石图、平行分析等方 法确定公共因子的数量。
03
因子旋转
为了使公共因子的解释更加清晰,可以对因 子载荷矩阵进行旋转,如方差最大化旋转、
四次方最大化旋转等。
05
02
构造因子模型
根据研究目的和专业知识,选择合适的因子 模型,如正交因子模型、斜交因子模型等。
04
求解因子载荷矩阵
通过主成分法、主轴因子法、极大似 然法等求解因子载荷矩阵。
06
计算因子得分
通过回归法、Bartlett法等计算每个样本在各 个公共因子上的得分。
因子分析的应用场景
01 02
降维
主成分分析是一种降维技术,通过线性变换将原始数据变换为一组各维 度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据 的降维。
去除冗余
主成分分析能去除原始数据中的冗余信息,使得新生成的主成分变量之 间相互独立,减少信息的重叠和冗余。
03
最大化方差
CHAP13主成分分析与因子分析

02
通过对历史金融数据的主成分或因子分析,预测未来市场走势
和风险。
信用评估
03
通过分析借款人的多方面数据,利用主成分或因子分析评估借
款人的信用风险。
06 主成分分析与因子分析的 局限性与发展趋势
存在的局限性
依赖样本量
主成分分析和因子分析的结果对样本量 较为敏感,样本量过小可能导致分析结
果不稳定。
市场细分
利用主成分或因子分析,将市场 按照消费者特征、需求、行为等 因素进行细分,以便更好地制定 营销策略。
产品组合优化
通过分析消费者对不同产品属性 的偏好,利用主成分或因子分析 优化产品组合,提高市场竞争力。
在社会调查中的应用
1 2
社会问题研究
利用主成分或因子分析,对社会问题进行分类和 解释,深入了解问题的本质和原因。
对异常值敏感
主成分分析和因子分析对异常值较为 敏感,异常值可能对分析结果产生较
大影响。
变量选择主观性
在确定主成分或因子个数时,往往需 要主观判断,这可能影响结果的客观 性和准确性。
难以解释
对于一些复杂的数据集,主成分和因 子的实际意义可能不明确,导致解释 困难。
未来的发展趋势和研究方向
改进算法
进一步优化主成分分析和因子分析的算法,提高分析的稳定性和准确 性。
THANKS FOR WATCHING
感谢您的观看
特征值分解通过计算原始变量的协方 差矩阵的特征值和特征向量,得到主 成分向量和因子载荷矩阵。
主成分的几何解释
主成分的几何解释是通过投影的方式将原始变量空间投影到低维的主成分空间, 从而实现降维。
主成分可以理解为原始变量在主成分空间中的坐标轴,通过这些坐标轴可以解释 原始变量的变异性。
stata 主成分 提取公因子 cfa

文章题目:深度探讨Stata中主成分分析和提取公因子的应用和理解1. 引言在社会科学研究中,主成分分析(PCA)和确认性因子分析(CFA)是常用的数据分析方法。
本文将深入探讨Stata中主成分分析和提取公因子的应用和理解,帮助读者更全面地掌握这两种方法的使用。
2. Stata中的主成分分析(PCA)主成分分析即PCA是一种用于降维和发现变量间相关性的方法。
在Stata中,我们可以使用“factor”命令进行主成分分析。
我们需要加载数据集并选择感兴趣的变量,然后使用“factor”命令进行主成分分析。
得到主成分之后,我们可以根据主成分载荷来解释每个主成分所代表的变量间关系。
在解释主成分时,我们需要关注载荷大小和方向,以确定不同变量之间的相关性和主成分的解释性。
3. Stata中的确认性因子分析(CFA)确认性因子分析即CFA是一种用于验证构念和测量模型的方法,常用于问卷调查和心理学领域。
在Stata中,我们可以使用“sem”命令进行CFA。
我们需要构建测量模型,并指定潜在变量和观测变量之间的关系。
我们可以使用“sem”命令进行模型拟合和参数估计。
得到CFA模型之后,我们可以通过拟合指标和因子载荷来评估模型的拟合度和测量指标的效度。
4. 应用实例分析以一个实际的研究案例为例,我们将结合主成分分析和确认性因子分析,探讨如何使用Stata进行数据分析和模型验证。
我们将使用实际数据集,并按照从简到繁的方式,逐步进行主成分分析和CFA。
通过具体的数据分析过程,读者可以更加直观地了解这两种方法的应用和解释。
5. 总结与展望主成分分析和确认性因子分析是重要的数据分析工具,对于研究者来说具有重要的实用价值。
通过本文的讨论,读者可以更深入地理解Stata中主成分分析和提取公因子的方法和意义。
未来,我们可以进一步探讨如何结合主成分分析和CFA,做出更加全面和深入的数据分析和模型验证。
6. 个人观点和理解个人认为,主成分分析和确认性因子分析是研究中不可或缺的方法,能够帮助我们更好地理解变量之间的关系和构念的测量。
卫生统计学:主成分分析与因子分析

通常先对x作标准化处理,使其均值为 零,方差为1.这样就有
x i a i1 f1 a i2 f2 a im fm e i
假定〔1〕fi的均数为 i22 0,方差为1; 〔2〕ei的均数为0,方差为δi; 〔3〕 fi与ei相互独立.
那么称x为具有m个公共因子的因子模型
〔2〕δi称为特殊方差〔specific variance〕,是不能由公共因子解 释的局部
▪ 因子载荷〔负荷〕aij是随机变量xi与 公共因子fj的相关系数。
▪设
p
g
2 j
a
2 ij
i1
j 1, 2 ,..., m
▪ 称gj2为公共因子fj对x的“奉献〞, 是衡量公共因子fj重要性的一个指标。
根本思想:使公共因子的相对负荷 〔lij/hi2〕的方差之和最大,且保持 原公共因子的正交性和公共方差总和 不变。
可使每个因子上的具有最大载荷的变量 数最小,因此可以简化对因子的解释。
〔2〕斜交旋转〔oblique rotation〕
因子斜交旋转后,各因子负荷发生 了较大变化,出现了两极分化。各 因子间不再相互独立,而彼此相关。 各因子对各变量的奉献的总和也发 生了改变。
ai2j
g
2 j
i1
▪ 极大似然法〔maximum likelihood factor〕
▪ 假定原变量服从正态分布, 公共因子和特殊因子也服从正态分 布,构造因子负荷和特殊方差的似 然函数,求其极大,得 factor〕
▪ 设原变量的相关矩阵为 R=(rij),其逆矩阵为R-1=(rij)。 各变量特征方差的初始值取为逆 相关矩阵对角线元素的倒数, δi’=1/rii。那么共同度的初始值 为(hi’) 。
数据分析中的因子分析和主成分分析

数据分析中的因子分析和主成分分析在数据分析领域,因子分析和主成分分析是两种常用的多变量分析方法。
它们可以用来处理大量的数据,找出数据的内在规律,并将数据简化为更少的变量。
本文将介绍因子分析和主成分分析的定义、应用以及它们在数据分析中的区别和联系。
一、因子分析因子分析是一种用于研究多个变量之间的潜在因素结构及其影响的统计方法。
它通过将多个观测变量转化为少数几个无关的因子,来解释变量之间的相关性。
因子分析的基本思想是将多个相关观测变量归因于少数几个潜在因子,这些潜在因子不能被观测到,但可以通过观测变量的变化来间接地推断出来。
因子分析通常包括两个主要步骤:提取因子和旋转因子。
提取因子是指确定能够解释原始变量方差的主要共性因子,常用的方法有主成分分析法和最大似然估计法。
旋转因子是为了减少因子之间的相关性,使得因子更易于解释。
常用的旋转方法有正交旋转和斜交旋转。
因子分析的应用非常广泛,可以用于市场研究、社会科学调查、心理学、金融等领域。
例如,在市场研究中,因子分析可以用来确定消费者购买行为背后的潜在因素,从而更好地理解市场需求。
二、主成分分析主成分分析是一种通过线性变换将原始变量转化为一组线性无关的主成分的统计方法。
主成分是原始变量的线性组合,具有较大的方差,能够尽可能多地解释原始数据。
主成分分析的主要思想是将原始变量投影到一个新的坐标系中,使得新坐标系上的第一主成分具有最大方差,第二主成分具有次最大方差,以此类推。
通过选择解释原始数据方差较多的前几个主成分,我们可以实现数据的降维和主要信息提取。
主成分分析在数据降维、特征提取和数据可视化等领域有广泛的应用。
例如,在图像处理中,主成分分析可以用来压缩图像数据、提取重要特征,并且可以在保留图像主要信息的同时减少存储空间的需求。
三、因子分析和主成分分析的区别和联系因子分析和主成分分析在某些方面有相似之处,但也存在明显的区别。
首先,因子分析是用于研究多个观测变量之间的潜在因素结构,而主成分分析是通过线性变换将原始变量转化为一组线性无关的主成分。
主成分分析、因子分析

主成分分析在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。
多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。
如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。
盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。
主成分分析与因子分析就属于这类降维的方法。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
predict
Page 20
STATA从入门到精通
本章结束,谢谢观看!
21
Page 4
STATA从入门到精通
主成分分析的数学模型
数学上的处理是将原始的 p个变量作线性组合,作为新的 变量 ,x p ,新的变量(即主成分)为 设p个原始变量为 x1,x 2, y1,y 2, ,y p ,主成分和原始变量之间的关系表示为
y1 a11 x1 a12 x 2 a1 p x p y 2 a 21 x1 a 22 x 2 a 2 p x p y a x a x a x p1 1 p2 2 pp p p
主成分分析的数学模型
Page 5
aij 为第 i 个主成分 yi 和原 来的第 j 个变量 xj 之间的 线性相关系数,称为载 荷(loading)。比如,a11 表示第1主成分和原来的 第1个变量之间的相关系 数, a21 表示第 2 主成分 和原来的第1个变量之间 的相关系数
STATA从入门到精通
Page 12
STATA从入门到精通
根据什么选择主成分? (Scree Plot)
Stata 还提供了一个更为 直观的图形工具来帮助选 择主成分,即碎石图 (Scree Plot) 从碎石图可以看到 9 个主 轴长度变化的趋势 实践中,通常结合具体情 况,选择碎石图中变化趋 势出现拐点的前几个主成 分作为原先变量的代表, 该例中选择前 3 个主成分 即可
Page 17
STATA从入门到精通
因子分析的数学模型
原始的p个变量表达为k个因子的线性组合变量 ,x p,要寻找的k个因子(k<p) 设p个原始变量为 x1,x 2, 为 f1,f 2, ,f k ,主成分和原始变量之间的关系表示为
aij为第个i变量与第k个 x1 a11 f1 a12 f 2 a1k f k 1 系数 因子之间的线性相关系数, x a f a f a f 反映变量与因子之间的相 2 21 1 22 2 2k k 2 关程度,也称为载荷 (loading) 。由于因子出现 在每个原始变量与因子的 x p a p1 f1 a p 2 f 2 a pk f k p 线性组合中,因此也称为 公因子。 为特殊因子,代
Page 13
STATA从入门到精通
怎样解释主成分?
主成分的因子载荷矩阵
表1中的每一列表示一个主成分作为原来变量线性组 合的系数,也就是主成分分析模型中的系数aij 比如,第一主成分所在列的系数 -0.0364 表示第 1 个 主成分和原来的第一个变量 (ROA) 之间的线性相关 系数。这个系数越大,说明主成分对该变量的代表 性就越大
ห้องสมุดไป่ตู้ 主成分分析的步骤
对原来的p个指标进行标准化,以消除变量在水平和量纲 上的影响 根据标准化后的数据矩阵求出相关系数矩阵 求出协方差矩阵的特征根和特征向量 确定主成分,并对各主成分所包含的信息给予适当的解 释
Page 6
STATA从入门到精通
Stata命令
pca、pcamat
estat screeplot scoreplot、loadingplot rotate
i 1
比如,第一个主成分的特征根为3.54354,占总特征 根的的比例 ( 方差贡献率 ) 为 39.37% ,这表示第一个 主成分解释了原始9个变量39.37%的信息,可见第一 个主成分对原来的9个变量解释的还不是很充分
Page 11
STATA从入门到精通
根据什么选择主成分?
根据主成分贡献率 一般来说,主成分的累计方差贡献率达到 80%以上的 前几个主成分,都可以选作最后的主成分 比如表中前3个主成分的累计方差贡献率为78.13% 根据特特征根的大小 一般情况下,当特征根小于1时,就不再选作主成分 了,因为该主成分的解释力度还不如直接用原始变 量解的释力度大 比如表中除前 3 个外,其他主成分的特征根都小于 1 。所以只选择了3个主成分
0.822 0.709
0.284 0.983 7.144 -2.376 2.101 0.058
0.258 0.143
0.107 0.209 0.367 0.251 -0.148 0.113
Page 8
0.009 0.006
0.003 0 0.025 -0.005 0.012 0.02
0.01 0.006
公司股本扩张能力指标
每股净资产 每股公积金 总资产增长率
禾嘉股份 亚盛集团
冠农股份 St中农 敦煌种业 新农开发 香梨股份 新赛股份
0.063 -0.008
0.438 -0.02 0.112 0.277 0.107 0.82
0.232 0.161
0.755 -0.421 -0.158 0.041 -0.054 0.194
Page 15
STATA从入门到精通
13.2 因子分析
13.2.1
13.2.2 13.2.3 13.2.4
因子分析的基本原理
因子分析的数学模型 因子分析的步骤 因子分析的Stata命令
Page 16
STATA从入门到精通
什么是因子分析? (factor analysis)
因子分析可以看作是主成分分析的推广和扩展,但它对 问题的研究更深入、更细致一些。实际上,主成分分析 可以看作是因子分析的一个特例 简言之,因子分析是通过对变量之间关系的研究,找出 能综合原始变量的少数几个因子,使得少数因子能够反 映原始变量的绝大部分信息,然后根据相关性的大小将 原始变量分组,使得组内的变量之间相关性较高,而不 同组的变量之间相关性较低。因此,因子分析属于多元 统计中处理降维的一种统计方法,其目的就是要减少变 量的个数,用少数因子代表多个原始变量
主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性一种多元统计方法 研究如何通过少数几个主成分(principal component)来 解释多个变量间的内部结构。即从原始变量中导出少数 几个主分量,使它们尽可能多地保留原始变量的信息, 且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释 常被用来寻找判断事物或现象的综合指标,并对综 合指标所包含的信息进行适当的解释
因子的方差贡献率
2 g2 a 2, ,p) ij (i 1, j j 1 k
第 j 个公因子对变量 xi 的 提供的方差总和,反映 第 j个公因子的相对重要 程度
STATA从入门到精通
Page 19
Stata命令
factor
estat screeplot scoreplot、loadingplot rotate
predict
Page 7
STATA从入门到精通
主成分分析 (实例分析)
【例】根据2008年一季度沪深两市农业板上市公司的9项主要指标数据,
进行主成分分析,找出主成分并进行适当的解释
基本情况
公司名称
ROA
公司成长性指标
主营收入增长率 净利润增长率
公司盈利能力性指标
主营业务利润率 ROE EPS
0.004 0 0.077 -0.016 0.03 0.101
1.11 1.144
1.621 1.565 3.096 3.46 2.51 3.83
0.05 0.006
0.421 0.757 1.988 1.86 1.516 2.285
0 0.047
0.096 -0.206 -0.057 0.392 -0.234 0.392
STATA 从入门到精通
第13章 主成分分析和因子分析
13.1 主成分分析
13.1.1
13.1.2 13.1.3 13.1.4
主成分分析的基本原理
主成分分析的数学模型 主成分分析的步骤 主成分分析的Stata命令
Page 2
STATA从入门到精通
什么是主成分分析?
(principal component analysis)
因子分析的数学模型
Page 18
表公因子以外的因素影响
STATA从入门到精通
因子分析的数学模型
(共同度量Communality和公因子的方差贡献率 ) 共同度量(Communality)
2 hi2 aij ( j 1, 2, ,k ) i 1 p
变量 xi 的信息能够被 k个 公因子解释的程度,用 k个公因子对第i个变量xi 的方差贡献率表示
Page 3
STATA从入门到精通
主成分分析的基本思想
(以两个变量为例)
对这两个相关变量所携带的信息 ( 在统计上信息往往是指 数据的变异)进行浓缩处理 假定只有两个变量 x1 和 x2 ,从散点图可见两个变量存在相 关关系,这意味着两个变量提供的信息有重叠
如果把两个变量用一 个变量来表示,同时 这一个新的变量又尽 可能包含原来的两个 变量的信息,这就是 降维的过程
Page 14
STATA从入门到精通
怎样解释主成分? (Loading Plot)
载荷图(Loading Plot)直观显示主 成分对原始9变量的解释情况 图中横轴表示第一个主成分与原始 变量间的相关系数;纵轴表示第二 个主成分与原始变量之间的相关系 数 每一个变量对应的主成分载荷就对 应坐标系中的一个点 第一个主成分很充分地解释了原始 的后4个变量(与每个原始变量都有 较强的正相关关系 ) ,第二个主成 分 则 较 好 地 var2,var3,var5,var6 这2个变量(与它们的相关关系较高 ),而与其他变量的关系则较弱(相 关系数的点靠近坐标轴)