第13章 主成分分析和因子分析 stata统计分析与应用.
因子分析︱使用Stata做主成分分析

因子分析︱使用Stata做主成份分析因子分析是一种常用的多变量数据分析方法,可以用于降维、变量筛选和构建综合指标等方面。
在实际应用中,Stata是一款功能强大的统计软件,可以方便地进行因子分析。
本文将介绍如何使用Stata进行主成份分析。
首先,我们需要准备好需要进行因子分析的数据。
假设我们有一份包含10个变量的数据集,每一个变量都代表了某种特征或者指标。
我们希翼通过因子分析来找出这些变量的共同因素,并将其转化为更少的几个主成份。
在Stata中,我们可以使用“factor”命令来进行主成份分析。
首先,我们需要加载数据集。
假设我们的数据集名为“data”,我们可以使用以下命令加载数据:```use data```接下来,我们可以使用“factor”命令进行主成份分析。
以下是一个示例命令:```factor var1-var10, pcf```在上述命令中,“var1-var10”表示我们要进行因子分析的变量范围,而“pcf”表示使用主成份法进行因子分析。
执行该命令后,Stata会输出一份关于因子分析结果的报告。
报告中的一项重要指标是共同度(communality),它表示每一个变量与所有因子的相关程度。
共同度越高,说明变量与因子之间的关联越强。
我们可以根据共同度来判断每一个变量对应的主成份是否合适。
此外,报告还会给出每一个主成份的解释方差比例(proportion of variance explained)。
解释方差比例表示每一个主成份能够解释原始数据中的多少方差。
通常,我们希翼选择解释方差比例较高的主成份,以便更好地代表原始数据。
在进行因子分析后,我们还可以使用“rotate”命令对主成份进行旋转,以便更好地解释数据。
Stata提供了多种旋转方法,如方差最大旋转(varimax rotation)和直角旋转(orthogonal rotation)等。
我们可以根据需要选择合适的旋转方法。
除了使用命令行进行因子分析,Stata还提供了可视化工具来匡助我们更好地理解和解释数据。
主成分分析与因子分析法

主成分分析与因子分析法主成分分析(PCA)是一种无监督的降维技术,通过将原始数据投影到新的正交坐标系上,使得投影后的数据具有最大的方差。
具体而言,PCA根据数据的协方差矩阵或相关矩阵生成一组称为主成分的新变量,其中每个主成分都是原始数据的线性组合。
这些主成分按照方差递减的顺序排列,因此前几个主成分能够解释原始数据中大部分的方差。
通过选择保留的主成分数量,可以将数据集的维度降低到较低的维度,从而更容易进行进一步的分析和可视化。
PCA的主要应用有:数据预处理(如去除冗余信息和噪声)、特征提取、数据可视化和模式识别等。
在特征提取中,选择前k个主成分可以将原始数据变换到一个k维的子空间中,实现数据降维的目的。
此外,PCA还可以通过计算原始数据与主成分之间的相关性,识别出数据中的关键特征。
因子分析法(Factor Analysis)是一种用于探索多个观测变量之间潜在因子(Latent Factor)的关系的统计方法。
潜在因子是无法直接观测到的,但是可以通过多个相关变量的共同变异性来间接测量。
因子分析的目标是找到最小数目的潜在因子,以解释原始数据中的共同变化。
与PCA不同,因子分析法假设观测变量与潜在因子之间存在线性关系,并且观测变量之间的相关性可以被这些潜在因子所解释。
通过因子载荷矩阵,我们可以了解每个观测变量与每个潜在因子之间的相关性大小。
而通过解释因子的方差贡献率,我们可以了解每个因子对数据变异性的解释程度。
因子分析方法还可以用于探索主要的潜在因素,并构建潜在因子模型,以便进行进一步分析和预测。
因子分析的主要应用有:确认性因子分析(Confirmatory Factor Analysis,CFA)用于检验理论模型的拟合度;在心理学和教育领域中,用于构建潜在因子模型并验证心理学量表的可信度和效度;在市场研究中,用于构建品牌形象的因子模型,分析消费者对不同品牌特征的感知。
总的来说,主成分分析和因子分析法都是多变量分析方法,用于探索和减少数据集的维度。
CHAP13主成分分析与因子分析

02
通过对历史金融数据的主成分或因子分析,预测未来市场走势
和风险。
信用评估
03
通过分析借款人的多方面数据,利用主成分或因子分析评估借
款人的信用风险。
06 主成分分析与因子分析的 局限性与发展趋势
存在的局限性
依赖样本量
主成分分析和因子分析的结果对样本量 较为敏感,样本量过小可能导致分析结
果不稳定。
市场细分
利用主成分或因子分析,将市场 按照消费者特征、需求、行为等 因素进行细分,以便更好地制定 营销策略。
产品组合优化
通过分析消费者对不同产品属性 的偏好,利用主成分或因子分析 优化产品组合,提高市场竞争力。
在社会调查中的应用
1 2
社会问题研究
利用主成分或因子分析,对社会问题进行分类和 解释,深入了解问题的本质和原因。
对异常值敏感
主成分分析和因子分析对异常值较为 敏感,异常值可能对分析结果产生较
大影响。
变量选择主观性
在确定主成分或因子个数时,往往需 要主观判断,这可能影响结果的客观 性和准确性。
难以解释
对于一些复杂的数据集,主成分和因 子的实际意义可能不明确,导致解释 困难。
未来的发展趋势和研究方向
改进算法
进一步优化主成分分析和因子分析的算法,提高分析的稳定性和准确 性。
THANKS FOR WATCHING
感谢您的观看
特征值分解通过计算原始变量的协方 差矩阵的特征值和特征向量,得到主 成分向量和因子载荷矩阵。
主成分的几何解释
主成分的几何解释是通过投影的方式将原始变量空间投影到低维的主成分空间, 从而实现降维。
主成分可以理解为原始变量在主成分空间中的坐标轴,通过这些坐标轴可以解释 原始变量的变异性。
主成分分析与因子分析

1
2
主成分分析
SPSS实现(因子分析与主成分分析)
拿student.sav为例,选Analyze-Data Reduction-Factor进入主对话框; 把math、phys、chem、literat、history、english选入Variables,然后点击Extraction, 在Method选择一个方法(如果是主成分分析,则选Principal Components), 下面的选项可以随意,比如要画碎石图就选Scree plot,另外在Extract选项可以按照特征值的大小选主成分(或因子),也可以选定因子的数目; 之后回到主对话框(用Continue)。然后点击Rotation,再在该对话框中的Method选择一个旋转方法(如果是主成分分析就选None), 在Display选Rotated solution(以输出和旋转有关的结果)和Loading plot(以输出载荷图);之后回到主对话框(用Continue)。 如果要计算因子得分就要点击Scores,再选择Save as variables(因子得分就会作为变量存在数据中的附加列上)和计算因子得分的方法(比如Regression);之后回到主对话框(用Continue)。这时点OK即可。
年度工作 总结汇报
主成分分析和因子分析
假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。
如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?
当然不能。
计算因子得分
STEP1
STEP2
STEP3
STEP4
因子分析和主成分分析的一些注意事项
卫生统计学:主成分分析与因子分析

通常先对x作标准化处理,使其均值为 零,方差为1.这样就有
x i a i1 f1 a i2 f2 a im fm e i
假定〔1〕fi的均数为 i22 0,方差为1; 〔2〕ei的均数为0,方差为δi; 〔3〕 fi与ei相互独立.
那么称x为具有m个公共因子的因子模型
〔2〕δi称为特殊方差〔specific variance〕,是不能由公共因子解 释的局部
▪ 因子载荷〔负荷〕aij是随机变量xi与 公共因子fj的相关系数。
▪设
p
g
2 j
a
2 ij
i1
j 1, 2 ,..., m
▪ 称gj2为公共因子fj对x的“奉献〞, 是衡量公共因子fj重要性的一个指标。
根本思想:使公共因子的相对负荷 〔lij/hi2〕的方差之和最大,且保持 原公共因子的正交性和公共方差总和 不变。
可使每个因子上的具有最大载荷的变量 数最小,因此可以简化对因子的解释。
〔2〕斜交旋转〔oblique rotation〕
因子斜交旋转后,各因子负荷发生 了较大变化,出现了两极分化。各 因子间不再相互独立,而彼此相关。 各因子对各变量的奉献的总和也发 生了改变。
ai2j
g
2 j
i1
▪ 极大似然法〔maximum likelihood factor〕
▪ 假定原变量服从正态分布, 公共因子和特殊因子也服从正态分 布,构造因子负荷和特殊方差的似 然函数,求其极大,得 factor〕
▪ 设原变量的相关矩阵为 R=(rij),其逆矩阵为R-1=(rij)。 各变量特征方差的初始值取为逆 相关矩阵对角线元素的倒数, δi’=1/rii。那么共同度的初始值 为(hi’) 。
数据分析中的因子分析和主成分分析

数据分析中的因子分析和主成分分析在数据分析领域,因子分析和主成分分析是两种常用的多变量分析方法。
它们可以用来处理大量的数据,找出数据的内在规律,并将数据简化为更少的变量。
本文将介绍因子分析和主成分分析的定义、应用以及它们在数据分析中的区别和联系。
一、因子分析因子分析是一种用于研究多个变量之间的潜在因素结构及其影响的统计方法。
它通过将多个观测变量转化为少数几个无关的因子,来解释变量之间的相关性。
因子分析的基本思想是将多个相关观测变量归因于少数几个潜在因子,这些潜在因子不能被观测到,但可以通过观测变量的变化来间接地推断出来。
因子分析通常包括两个主要步骤:提取因子和旋转因子。
提取因子是指确定能够解释原始变量方差的主要共性因子,常用的方法有主成分分析法和最大似然估计法。
旋转因子是为了减少因子之间的相关性,使得因子更易于解释。
常用的旋转方法有正交旋转和斜交旋转。
因子分析的应用非常广泛,可以用于市场研究、社会科学调查、心理学、金融等领域。
例如,在市场研究中,因子分析可以用来确定消费者购买行为背后的潜在因素,从而更好地理解市场需求。
二、主成分分析主成分分析是一种通过线性变换将原始变量转化为一组线性无关的主成分的统计方法。
主成分是原始变量的线性组合,具有较大的方差,能够尽可能多地解释原始数据。
主成分分析的主要思想是将原始变量投影到一个新的坐标系中,使得新坐标系上的第一主成分具有最大方差,第二主成分具有次最大方差,以此类推。
通过选择解释原始数据方差较多的前几个主成分,我们可以实现数据的降维和主要信息提取。
主成分分析在数据降维、特征提取和数据可视化等领域有广泛的应用。
例如,在图像处理中,主成分分析可以用来压缩图像数据、提取重要特征,并且可以在保留图像主要信息的同时减少存储空间的需求。
三、因子分析和主成分分析的区别和联系因子分析和主成分分析在某些方面有相似之处,但也存在明显的区别。
首先,因子分析是用于研究多个观测变量之间的潜在因素结构,而主成分分析是通过线性变换将原始变量转化为一组线性无关的主成分。
主成分与因子分析

聚类分析一、分类俗语说,物以类聚、人以群分。
当有一个分类指标时,分类比较容易。
但是当有多个指标,要进行分类就不是很容易了。
比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标。
二、聚类分析概述由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。
所以需要进行多元分类,即聚类分析。
最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。
这两种聚类在数学上是对称的,没有什么不同。
三、聚类中选择变量的要求1.和聚类分析的目标密切相关2.反映了要分类对象的特征3.变量之间不应该高度相关。
四、如何聚类?聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。
这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。
第一节 距离和相似系数一、 距离什么是距离?{}个样品之间的距离个样品与第表示第j ij i 设:d x ,即X x x x x x x x x x X p n ij np n2n12p 22211p 1211⨯=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡= 首先我们看样本数据:一般满足以下四个条件时,就称为聚类:0i,j;0;i,j;,,ij ij ij ji ij ik kj d d i j d d d d d i j k ≥===≤+,对一切,等价于,对一切,对一切。
1. 常用距离——明氏距离Minkowski 距离:q 1qp1k jk ik ij )x x ((q)d ∑=-=当q=1时:(Block)x x (1)d p1k jk ik ij ,称为绝对距离∑=-=当q=2时:(Eudidem)x x (2)d 212p1k jk ik ij ,称为欧氏距离)(∑=-=当q=∞时:,称为切比雪夫距离k j ik pk 1ij x x m ax )(d -=∞≤≤2. 明氏距离的缺点距离的大小与各指标的观测单位有关,具有一定的人为性。
主成分分析、因子分析

主成分分析在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。
多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。
如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。
盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。
主成分分析与因子分析就属于这类降维的方法。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第13章 主成分分析和因子分析
13.1 主成分分析
13.1.1
13.1.2 13.1.3 13.1.4
主成分分析的基本原理
主成分分析的数学模型 主成分分析的步骤 主成分分析的Stata命令
Page 2
STATA从入门到精通
什么是主成分分析?
(principal component analysis)
主成分分析的数学模型
Page 5
aij 为第 i 个主成分 yi 和原 来的第 j 个变量 xj 之间的 线性相关系数,称为载 荷(loading)。比如,a11 表示第1主成分和原来的 第1个变量之间的相关系 数, a21 表示第 2 主成分 和原来的第1个变量之间 的相关系数
STATA从入门到精通
0.004 0 0.077 -0.016 0.03 0.101
1.11 1.144
1.621 1.565 3.096 3.46 2.51 3.83
0.05 0.006
0.421 0.757 1.988 1.86 1.516 2.285
0 0.047
0.096 -0.206 -0.057 0.392 -0.234 0.392
predict
Page 7
STATA从入门到精通
主成分分析 (实例分析)
【例】根据2008年一季度沪深两市农业板上市公司的9项主要指标数据,
进行主成分分析,找出主成分并进行适当的解释
基本情况
公司名称
ROA
公司成长性指标
主营收入增长率 净利润增长率
公司盈利能力性指标
主营业务利润率 ROE EPS
Page 12
STATA从入门到精通
根据什么选择主成分? (Scree Plot)
Stata 还提供了一个更为 直观的图形工具来帮助选 择主成分,即碎石图 (Scree Plot) 从碎石图可以看到 9 个主 轴长度变化的趋势 实践中,通常结合具体情 况,选择碎石图中变化趋 势出现拐点的前几个主成 分作为原先变量的代表, 该例中选择前 3 个主成分 即可
0.822 0.709
0.284 0.983 7.144 -2.376 2.101 0.058
0.258 0.143
0.107 0.209 0.367 0.251 -0.148 0.113
Page 8
0.009 0.006
0.003 0 0.025 -0.005 0.012 0.02
0.01 0.006
Page 4
STATA从入门到精通
主成分分析的数学模型
数学上的处理是将原始的 p个变量作线性组合,作为新的 变量 ,x p ,新的变量(即主成分)为 设p个原始变量为 x1,x 2, y1,y 2, ,y p ,主成分和原始变量之间的关系表示为
ቤተ መጻሕፍቲ ባይዱ
y1 a11 x1 a12 x 2 a1 p x p y 2 a 21 x1 a 22 x 2 a 2 p x p y a x a x a x p1 1 p2 2 pp p p
公司股本扩张能力指标
每股净资产 每股公积金 总资产增长率
禾嘉股份 亚盛集团
冠农股份 St中农 敦煌种业 新农开发 香梨股份 新赛股份
0.063 -0.008
0.438 -0.02 0.112 0.277 0.107 0.82
0.232 0.161
0.755 -0.421 -0.158 0.041 -0.054 0.194
主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性一种多元统计方法 研究如何通过少数几个主成分(principal component)来 解释多个变量间的内部结构。即从原始变量中导出少数 几个主分量,使它们尽可能多地保留原始变量的信息, 且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释 常被用来寻找判断事物或现象的综合指标,并对综 合指标所包含的信息进行适当的解释
Page 3
STATA从入门到精通
主成分分析的基本思想
(以两个变量为例)
对这两个相关变量所携带的信息 ( 在统计上信息往往是指 数据的变异)进行浓缩处理 假定只有两个变量 x1 和 x2 ,从散点图可见两个变量存在相 关关系,这意味着两个变量提供的信息有重叠
如果把两个变量用一 个变量来表示,同时 这一个新的变量又尽 可能包含原来的两个 变量的信息,这就是 降维的过程
主成分分析的步骤
对原来的p个指标进行标准化,以消除变量在水平和量纲 上的影响 根据标准化后的数据矩阵求出相关系数矩阵 求出协方差矩阵的特征根和特征向量 确定主成分,并对各主成分所包含的信息给予适当的解 释
Page 6
STATA从入门到精通
Stata命令
pca、pcamat
estat screeplot scoreplot、loadingplot rotate
STATA从入门到精通
Stata的输出结果
estat smc
变量之间的存在较强的相关关系,适合作主成分分析
Page 9
STATA从入门到精通
Stata的输出结果 (选择主成分)
该表是选则主成分的主要依据
Page 10
STATA从入门到精通
根据什么选择主成分?
“Initial Eigenvalues”(初始特征根) 实际上就是本例中的9个主轴的长度 特征根反映了主成分对原始变量的影响程度,表示 引入该主成分后可以解释原始变量的信息 特征根又叫方差,某个特征根占总特征根的比例称 为主成分方差贡献率 p 设特征根为,则第i个主成分的方差贡献率为 i i
i 1
比如,第一个主成分的特征根为3.54354,占总特征 根的的比例 ( 方差贡献率 ) 为 39.37% ,这表示第一个 主成分解释了原始9个变量39.37%的信息,可见第一 个主成分对原来的9个变量解释的还不是很充分
Page 11
STATA从入门到精通
根据什么选择主成分?
根据主成分贡献率 一般来说,主成分的累计方差贡献率达到 80%以上的 前几个主成分,都可以选作最后的主成分 比如表中前3个主成分的累计方差贡献率为78.13% 根据特特征根的大小 一般情况下,当特征根小于1时,就不再选作主成分 了,因为该主成分的解释力度还不如直接用原始变 量解的释力度大 比如表中除前 3 个外,其他主成分的特征根都小于 1 。所以只选择了3个主成分