第八讲SPSS主成分分析和因子分析

合集下载

主成分分析和因子分析的SPSS实现比较

主成分分析和因子分析的SPSS实现比较

主成分分析和因子分析的SPSS实现比较主成分分析和因子分析是多元统计方法中关系密切的两种方法,应用范围十分广泛,可以解决经济、教育、科技、社会等领域中的综合评价问题。

主成分分析采用降维的思想,将研究对象的多个相关变量(指标)综合为少数几个不相关的变量,反映原变量提供的主要信息。

因子分析是主成分分析的推广和发展,它将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它属于多元分析中处理降维的一种统计方法。

但是,在许多论文中用SPSS进行综合分析时,出现这两种方法运用混淆的错误。

比如,主成分分析中对变量进行了因子旋转,因子分析的公因子系数错误等问题。

本文就此对主成分分析和因子分析的异同进行比较,并在SPSS和DPS软件上如何实现给予说明。

一、主成分分析与因子分析的异同点两者的相同点:1、思想一致:都是降维的思想;2、应用范围一致:都要求变量之间具有不完全的相关性;3、数据处理过程一致:数据的无量纲化,求相关系数矩阵的特征值和特征向量,通过累计贡献率确定主成分个数、因子个数;4、合成方法一致:都没有考虑原始变量之间的关系,直接用线性关系处理变量与主成分和因子之间的关系。

两者的不同点:1、方差损失上:主成分解释了原始变量的全部方差,无方差损失;因子模型中除了有公因子外还有特殊因子,公因子只解释了部分信息,有方差损失;2、唯一性:主成分分析不存在因子旋转,主成分是唯一的;因子分析进行因子旋转,解不唯一;3、实际意义:主成分没有实际意义;公因子有实际意义;4、应用:主成分侧重信息贡献、影响力综合评价;因子分析侧重成因清晰性的综合评价。

二、SPSS上的实现1、主成分分析在SPSS上的实现(1)将原始数据无量纲化。

传统主成分分析进行无量纲化处理的方法是“中心标准化”,这在SPSS中通过Analyse-DescriptiveStatistics-Descriptive中Save standardized values as variables执行。

spss第8章主成分分析与因子分析

spss第8章主成分分析与因子分析
意的 i, j (1 ≤ i ≤ m,1 ≤ j ≤ n) , Cov(xi , x j ) 都存在,则称矩阵
, yn ) 是 n 维随机向量. 若对任
⎛ Cov(x1, y1) Cov(x1, y2 )
⎜ ⎜
Cov(
x2
,
y1
)
Cov(x2 , y2 )

⎜ ⎝ Cov(xm , y1) Cov( xm , y2 )
⎟ ⎟

xpn ⎟⎟⎠
(σ ij ) p× p
, F = AX
Cov(F) = Cov(AX, AX) = ACov(X)A′ V (F)
由于 Cov(X) 是非负定对称矩阵,所以存在正交矩阵 U ,使得
⎡λ1 0
0⎤
U−1Cov(X)U
=
⎢ ⎢ ⎢
0
λ2
0
⎥ ⎥

⎢ ⎣
0
0
λ
p
⎥ ⎦
其中 λ1, λ2, ,λp 为 Cov(X) 的特征根,不妨假设 λ1 ≥ λ2 ≥
(5)若 X 是随机向量, Cov(X) 存在,则 Cov(X) 是非负定矩阵.
后面的推导过程中用到两个线性代数中的 2 个重要结论. 定理 7-2 (1)若 A 是 p 阶实对称阵,则一定可以找到正交阵 U ,使
⎡λ1 0
0⎤
U−1AU
=
⎢ ⎢ ⎢
0
λ2
0
⎥ ⎥

⎢ ⎣
0
0
λp
⎥ ⎦
其中 λi ,i = 1.2. p 是 A 的特征根.
(3)对任何向量 a = (a1, a2 , , am )′ , b = (b1,b2 , , bn )′ ,有 Cov(a′X, b′Y) = a′Cov(X, Y)b . (4)对任何 p × m 阶矩阵 A , q × n 阶矩阵 B ,有 Cov(AX, BY) = ACov(X, Y)B′

SPSS主成分分析与因子分析

SPSS主成分分析与因子分析

参考文献
6、甘肃省区域综合经济实力变动分析 作者:魏奋子《开发研究》2003年第3期P43~45 7、江苏省区域经济实力的综合评价与实证分析 作者:门可佩《江苏统计》2001年第12期P15~17 8、数理统计方法在河南经济发展水平和分区研究中
的应用 作者:刘钦普《数理统计与管理》 2002年第3期
X1
cos2 sin2 1
(
sin
)
2
cos2
1
cos ( sin ) sin cos 0
Y1 Y2
cos sin
s in cos
X1 X2
U
X
§8.1.2主成分分析的基本概念
主成分分析(Principle Component Analysis) 也称主分量分析,是一种将多个指标化为少数几个综合指 标的统计分析方法。
2.Y1是X1、X2、…、X p的一切线性组合中方差最大的; Y2是与Y1不相关的X1、X2、…、X p的一切线性组合 中方差最大的;( Y2的方差小于Y1的方差); Y p是与Y1、Y2、…、Yp-1都不相关的X1、X2、…、X p的一切线性组合中方差最大的( Y p的方差小于 Y1 、Y2 、 … 、 Yp-1的方差)。 这样确定的综合指标就称为原变量的第一主成分, 第二主成分,第p主成分。
二、几个重要的概念
1.因子载荷
在因子分析模型中,a i j称为因子载荷,它反应了第i个原始 变量Xi在第j个公因子F j上的相对重要性。可以证明原始 变量Xi与公因子F j之间的相关系数等于a i j ,即
rYk ,Xi aij k eki
k, i 1,2,, p
a i j的绝对值越大,表示原始变量Xi与公因子F j之间 关系越密切。

基于SPSS的主成分分析与因子分析的辨析

基于SPSS的主成分分析与因子分析的辨析

基于SPSS的主成分分析与因子分析的辨析主成分分析和因子分析是两种常用的多元统计分析方法,用于处理多个变量之间的关系和结构。

尽管它们在一些方面相似,但它们有着不同的目标、假设和应用领域。

主成分分析(PCA)是一种降维技术,旨在将多个相关的变量转化为较少数量的互相无关的新变量,称为主成分。

主成分是原始变量线性组合的结果,它们按照方差的大小递减排序,第一个主成分解释了尽可能多的方差,第二个主成分解释了剩余的方差,依此类推。

主成分分析的目标是找到最重要的成分,以减少数据维度并保留尽可能多的信息。

因子分析(FA)是一种探索性分析方法,旨在找到观察到的变量背后潜在的隐藏因子及其之间的关系。

它假设每个观察到的变量受到几个潜在因子的影响,并通过解释方差-共方差矩阵来确定这些因子。

因子分析的目标是解释数据的系统结构,并识别变量之间的潜在关系。

下面是主成分分析和因子分析的几个区别:1.假设:主成分分析假设所有的变量都是线性相关的,而因子分析假设变量之间存在潜在的隐藏因子。

2.目标:主成分分析的目标是减少数据的维度,使用少量的主成分来解释尽可能多的方差。

因子分析的目标是找出潜在因子,并解释数据的结构。

3.变量解释:在主成分分析中,每个主成分解释了数据中的方差,而在因子分析中,每个因子代表了一个潜在原因,描述了观察到的变量之间的共同性。

4.变换:在主成分分析中,通过线性组合原始变量来创建主成分。

在因子分析中,每个观察到的变量都被假设为由潜在因子和特定的误差项组合而成。

5.前提要求:主成分分析对变量之间的线性关系没有特定的要求,可以处理混合类型的数据。

因子分析假设线性关系是必需的,且数据应满足正态分布。

尽管主成分分析和因子分析在一些方面不同,但它们也有一些共同之处。

它们都可以用于数据降维和构建新的变量,以更好地解释和理解数据。

此外,它们都是无监督学习方法,不需要以前的假设。

在实际应用中,选择主成分分析还是因子分析取决于具体的研究目标和数据属性。

spss课件主成分分析与因子分析

spss课件主成分分析与因子分析

由此可得 Yi 与X j 的相关系数为
Y , X
i j
Cov(Yi , X j ) Var (Yi ) Var ( X j )

i eij i jj

i jj
eij .
注意:此公式的记忆,应根据实际含义,即第i个主成分的标准差除以第j个原变量 的标准差,然后乘以第i个特征向量的第j个分量
Yi (e ) X e
* * T i *
* i1
X 1 1
11
* i
e
p
* i2
X 2 2
22
p
e
* ip
X p p
pp
, i 1, 2, , p.
(4.6)
并且
Var (Y
i 1
p
) i* Var ( X i* ) p,

用为数较少的互不相关的新变量来反映原变量所提供 的绝大部分信息
引言
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
总体主成分

X 设 1 , X 2 , , X p为某实际问题所涉及的 p 个随机变量。 X ( X 1 , X 2 , , X p )T 记 ,其协方差矩阵为
( ij ) p p E ( X E ( X ))( X E ( X ))T
它是一个 p 阶负定矩阵。设 l (l , l ,, l ) 为 p 个常数向量,考虑如下线性组合:
i i1 i2 ip
T
(i 1, 2,, p)
Y1 l1T X l11 X 1 l12 X 2 l1 p X p , T Y2 l2 X l21 X 1 l22 X 2 l2 p X p , Y l T X l X l X l X . p1 1 p2 2 pp p p p

基于SPSS的主成分分析与因子分析的辨析

基于SPSS的主成分分析与因子分析的辨析

基于SPSS的主成分分析与因子分析的辨析一、本文概述随着统计学的快速发展和广泛应用,主成分分析(Principal Component Analysis, PCA)和因子分析(Factor Analysis, FA)作为两种重要的降维和变量整合技术,在社会科学、医学、经济学等众多领域得到了广泛应用。

SPSS作为一款强大的统计分析软件,为这两种分析方法提供了便捷的操作平台和丰富的功能支持。

然而,尽管PCA和FA在理论上具有一定的相似性,但它们的核心理念、适用场景、解释方式等方面都存在显著差异。

因此,本文旨在通过辨析基于SPSS的主成分分析与因子分析的不同点,帮助研究者更加准确地理解和运用这两种方法,以便更有效地提取信息、简化数据结构,并提升研究的科学性和准确性。

本文首先将对主成分分析和因子分析的基本概念进行简要介绍,明确它们各自的核心思想和理论基础。

随后,将重点分析这两种方法在SPSS软件中的实现过程,包括数据准备、参数设置、结果解读等关键步骤。

在此基础上,文章将详细比较PCA和FA在SPSS应用中的不同点,包括适用范围、前提条件、分析结果解释等方面。

本文还将结合实例分析,展示如何在具体研究问题中选择合适的方法,并对分析结果进行有效解读和应用。

通过本文的辨析和讨论,期望能够帮助研究者更深入地理解主成分分析和因子分析的基本原理及其在SPSS中的应用方法,从而为实证研究提供有力的统计工具和方法支持。

二、主成分分析(PCA)主成分分析(Principal Component Analysis,简称PCA)是一种广泛应用的多元统计方法,其目标是通过降维技术来揭示数据中的内部结构。

PCA通过将多个原始变量转换为少数几个主成分,这些主成分能够最大限度地保留原始数据中的变异信息,并且彼此之间互不相关。

PCA的基本原理是通过对原始变量的协方差矩阵或相关矩阵进行特征值分解,得到一系列的主成分。

每个主成分都是原始变量的线性组合,其权重由特征向量决定。

SPSS 因子分析和主成分分析

SPSS   因子分析和主成分分析

实验课:因子分析实验目的理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。

因子分析一、基础理论知识1 概念因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。

从数学角度来看,主成分分析是一种化繁为简的降维处理技术。

主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。

它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。

选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。

两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。

2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。

(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。

(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。

(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。

显然,在一个低维空间解释系统要比在高维系统容易的多。

3 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。

当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。

但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。

实验:SPSS主成分分析和因子分析

实验:SPSS主成分分析和因子分析

实验:SPSS主成分分析和因子分析实验:SPSS主成分分析和因子分析实验目的:1、掌握如何确定主成分的个数;2、熟练解释主成分分析的结果:载荷矩阵、共同度、方差贡献率等;3、掌握应用主成分分析进行数据降维和综合评价的方法。

4、了解因子分析法的应用条件5、掌握因子分析法的应用;6、掌握因子分析法输出结果的解释。

实验内容:1、(主成分分析)P253见实验数据8-1 PCA20.sav某公司有20个工厂,现在要对每个工厂作经济效益分析。

从所取得的生产成果和所消耗的人力、物力、财力的比率等指标中,选取5个指标(变量)进行分析。

X1——固定资产的产值率;X2——净产值的劳动生产率;X3——百元产值的流动资金占用率;X4——百元产值的利润率;X5——百元资金的利润率。

现在对这20个工厂同时按照这5项指标收集数据,然后找出1个综合指标对它们的经济效益进行排序,找出经济效益较高的工厂。

应用主成分分析法,要求主成分只要能够反映出全部信息的85%就可以了。

2、(主成分分析)实验数据8-2 给出了中国历年国民经济主要指标统计(2005-2012)。

试用主成分分析法对这些指标提取主成分并写出提取的主成分与这些指标之间的表达式。

3、(因子分析)P281见实验数据8-3 cereals.sav 某市场调查项目需要了解消费者是否偏爱某个谷物品牌。

现有117个受访者对12个销量比较好的谷物产品的25个属性进行评分。

现在用因子分析法对消费者的偏好习惯进行分析。

哪些品牌的谷物产品易受消费者青睐?消费者喜欢哪些属性?这些属性之间有什么关系?4、(因子分析)见实验数据8-4给出了中国历年国民经济主要指标统计(2004-2012)。

试用因子分析法对这些指标提取公因子并写出提取的公因子与这些指标之间的表达式。

实验要求:题目1写一份实验报告;题目3写一份实验报告。

实验数据:见实验八数据文件夹实验步骤、结论:学生填写实验成绩:教师填写。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

F2
F1
沿长、短轴方向设 定新坐标系,长轴
变量承载大部分变
异信息,短轴变量
承载少量变异信
息.
一就个 可长以轴代新表变原量来两F1 个变量的主要信息, 从而起到降维作用
在主成分分析中, 提取出的每个新变
F1与F2不相关 量(主成分)都是原 来多个变量的线性 组合
➢如由两个原始变量X1和X2,可提取两个主成分:
➢方差贡献率:数值越大,表明该因子对原来变 量信息的综合能力越强。
➢累计贡献率
➢变量Xi的变量共同度:也称公因子方差比,是 提取公因子后,各变量中信息被提取出的比例, 或者说原变量的信息量(方差)由公因子决定的比 例
➢旋转前/后因子载荷:反映因子和各个变量间的 密切程度的指标,实质是两者间的相关系数
F1 =a11X1 +a21X2
F2 =a12X 1 +a22X2 依次类推:由N个原始变量可提取N个主成分, 但如果将它们全部提取出来就失去了该方法简 化数据的实际意义.
➢一般情况下按贡献率由大到小,取累计贡献率 达到85%的前2~3个主成分,其他的忽略不计。
➢在进行主成分回归时,提取出的主成分能包含 主要信息即可,不一定要有准确的实际含义。
➢在SPSS中的实现:
分析(Analyze)---数据降维(Data Reduction)---因子 分析(Factor Analyze) 在因子分析对话框中,将原变量选入“变量”列表
框中 在“描述”按钮对话框,在“相关矩阵”部分选择
“系数”和“KMO和Bartlett球形度检验”
在“抽取”按钮对话框,“方法”设定 为“主成分”
第八讲 主成分分析和因子分析
一、概述
意义和作用: ➢ 解决变量间多重共线性。在社会经济研究
工作中经常会遇到多指标的问题,这些指 标间往往存在一定的相关,直接纳入分析 不仅复杂,变量间难以取舍,而且由于分 析前提不满足,得出错误结论。
➢ 变量压缩。主成分分析通过线性变换,在尽可 能保留原始变量的信息的基础,降低维度,将 原来的多个变量组合成相互独立的少数的、新 的综合变量。
行检验,若变量间相互独立(Sig.大于 0.05),因子分析无效
3、步骤
➢判断数据是否符合要求,是否有必要进行主
成分/因子分析
➢对原有变量标准化,以消除计量单位和数据
基数的影响(SPSS会自动对原始变量标准化)
➢根据标准化数据计算相关矩阵或协方差矩阵,
及其特征根和特征向量
➢进行分析,按一定标准确定提取的主成分/因
子数
➢如果进行的是主成分分析,步骤到此结束 ➢如果进行的是因子分析,则考察因子的可解
释性,并在必要时进行因子旋转,使因子载 荷向0、1分化,以寻求最佳解释
➢如有必要,计算因子得分等中间指标供进一
步分析使用
4、输出统计量
➢特征根(Eigenvalue ):是因子影响力度的指标, 其数值代表因子相当于原始变量平均解释力的 多少。特征根大于1,表示引入的因子解释力度 大于一个原始变量平均解释力度。因此往往将 特征根大于1作为抽取因子的标准。
➢ 变量解释。利用新变量进一步探讨变量内在联 系和结构,利于简化和解释问题。
因子分析和主成分分析方法,往往是更复杂的 统计分析方法的基础。
Factor1.sav 、 Factor2.sav
二、主成分分析
1、基本原理
统计信息实际上是 指数据变异信息
右图中,在椭圆的 长轴方向数据变异 明显大于短轴方向
维技术。
➢在主成分分析时,要求提取出的主成分能包含
主要信息即可,不一定要有准确的实际含义。 但在因子分析中,目的是分解原始变量,从中 归纳出潜在的“类别”,相关性较强的指标归 为一类,每一类变量代表了一个“共同因子”, 即一种内在结构。因子分析就是要寻找该结构。
➢在实际应用中,有时两者不加区分
2、适用条件
➢因子得分函数系数
5、公因子数的确定
公因子数量的确定
➢主成分的累积贡献率:85%以上 ➢ 特征根:大于1 ➢ 综合判断。 因子分析时更重要的是因子的
可解释性,必要时保留特征根小于1的因子
➢利用碎石图帮助确定因子数量
6、在SPSS中的实现
例:在Factor2.sav中,有重庆市40个区县的GDP、工业总 产值等九个指标数据,试根据这些指标对各区县经济发 展状况进行综合评价。
回归估计方法求出因子得分数学模型(在因 子分析中,不能直接由载荷矩阵按列得到因 子的表达式)
上机习题
某市15个大中型企业经济效益数据见 “某市工业企业效益指标.sav”,利用因 子分析方法对企业经济效益进行综合评 价及分析。
为了找出变量间内在结构,要求因子分析满足 以下条件:
➢样本量 样本量与变量数的比例应在5: 1以上 总样本量最好大于100,而且原则上越大越

➢各变量间必须有相关性 KMO统计量:在(0,1)之间,大于0.9最佳,
0.9-0.7尚可, 0.7-0.6很差,0.5以下放弃
Bartlett’s球形检验:对变量间的独立性进
在“旋转”按钮对话框,“方法”设定 为“最大方差法”
在“得分”按钮对话框,选择“保存为 变量”、“方法”设定为“回归”,选 择“显示因子得分系数矩阵”
输出结果阅读
➢说明的总方差表:包括特征根,旋转前/后的
方差贡献率、累计贡献率
➢变量共同度 ➢旋转前/后因子载荷矩阵 ➢因子得分模型系数:求出公因子后,可以用
2、应用
➢利用主成分进行综合评价:当进行多指标的 综合评价时,应用主成分方法将多指标中的 信息集中为若干个主成分,然后加权求和, 得到综合评价指数。
➢利用主成分进行回归分析:通过对存在共线 性的自变量进行主成分分析,从而在提取多 数信息的同时解决共线性问题。
三、因子分析
1、概述 ➢与主成分分析相同,也是一种多变量化简、降
相关文档
最新文档