第九讲SPSS主成分分析和因子分析

合集下载

主成分分析和因子分析的SPSS实现比较

主成分分析和因子分析的SPSS实现比较

主成分分析和因子分析的SPSS实现比较主成分分析和因子分析是多元统计方法中关系密切的两种方法,应用范围十分广泛,可以解决经济、教育、科技、社会等领域中的综合评价问题。

主成分分析采用降维的思想,将研究对象的多个相关变量(指标)综合为少数几个不相关的变量,反映原变量提供的主要信息。

因子分析是主成分分析的推广和发展,它将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它属于多元分析中处理降维的一种统计方法。

但是,在许多论文中用SPSS进行综合分析时,出现这两种方法运用混淆的错误。

比如,主成分分析中对变量进行了因子旋转,因子分析的公因子系数错误等问题。

本文就此对主成分分析和因子分析的异同进行比较,并在SPSS和DPS软件上如何实现给予说明。

一、主成分分析与因子分析的异同点两者的相同点:1、思想一致:都是降维的思想;2、应用范围一致:都要求变量之间具有不完全的相关性;3、数据处理过程一致:数据的无量纲化,求相关系数矩阵的特征值和特征向量,通过累计贡献率确定主成分个数、因子个数;4、合成方法一致:都没有考虑原始变量之间的关系,直接用线性关系处理变量与主成分和因子之间的关系。

两者的不同点:1、方差损失上:主成分解释了原始变量的全部方差,无方差损失;因子模型中除了有公因子外还有特殊因子,公因子只解释了部分信息,有方差损失;2、唯一性:主成分分析不存在因子旋转,主成分是唯一的;因子分析进行因子旋转,解不唯一;3、实际意义:主成分没有实际意义;公因子有实际意义;4、应用:主成分侧重信息贡献、影响力综合评价;因子分析侧重成因清晰性的综合评价。

二、SPSS上的实现1、主成分分析在SPSS上的实现(1)将原始数据无量纲化。

传统主成分分析进行无量纲化处理的方法是“中心标准化”,这在SPSS中通过Analyse-DescriptiveStatistics-Descriptive中Save standardized values as variables执行。

spss课件主成分分析与因子分析

spss课件主成分分析与因子分析

由此可得 Yi 与X j 的相关系数为
Y , X
i j
Cov(Yi , X j ) Var (Yi ) Var ( X j )

i eij i jj

i jj
eij .
注意:此公式的记忆,应根据实际含义,即第i个主成分的标准差除以第j个原变量 的标准差,然后乘以第i个特征向量的第j个分量
Yi (e ) X e
* * T i *
* i1
X 1 1
11
* i
e
p
* i2
X 2 2
22
p
e
* ip
X p p
pp
, i 1, 2, , p.
(4.6)
并且
Var (Y
i 1
p
) i* Var ( X i* ) p,

用为数较少的互不相关的新变量来反映原变量所提供 的绝大部分信息
引言
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
总体主成分

X 设 1 , X 2 , , X p为某实际问题所涉及的 p 个随机变量。 X ( X 1 , X 2 , , X p )T 记 ,其协方差矩阵为
( ij ) p p E ( X E ( X ))( X E ( X ))T
它是一个 p 阶负定矩阵。设 l (l , l ,, l ) 为 p 个常数向量,考虑如下线性组合:
i i1 i2 ip
T
(i 1, 2,, p)
Y1 l1T X l11 X 1 l12 X 2 l1 p X p , T Y2 l2 X l21 X 1 l22 X 2 l2 p X p , Y l T X l X l X l X . p1 1 p2 2 pp p p p

如何利用SPSS进行因子分析(九)

如何利用SPSS进行因子分析(九)

SPSS(Statistical Package for the Social Sciences)是一种专业的统计软件,广泛应用于各种学术研究和商业分析中。

其中的因子分析是一种常用的数据分析方法,用于发现数据中的潜在因子结构。

本文将介绍如何利用SPSS进行因子分析,并且探讨因子分析的一些相关概念和技巧。

1. 数据准备在进行因子分析之前,首先需要进行数据准备。

这包括数据的清洗、变量的选择和数据的标准化。

清洗数据是为了去除异常值和缺失值,以保证数据的质量。

选择变量是为了确定需要进行因子分析的变量,通常选择相关性较高的变量。

标准化数据是为了使不同变量之间的数值具有可比性,通常采用z-score标准化方法。

2. 进行因子分析在SPSS中进行因子分析非常简单。

首先打开SPSS软件,导入需要进行因子分析的数据文件。

然后依次点击“分析”→“数据降维”→“因子”,在弹出的对话框中选择需要进行因子分析的变量,设置因子提取方法和旋转方法,最后点击“确定”按钮即可进行因子分析。

3. 因子提取与旋转在因子分析中,因子提取是指从原始变量中提取出潜在因子,常用的方法有主成分分析和最大方差法。

而因子旋转是为了使因子更易于理解和解释,常用的旋转方法有方差最大旋转和极大似然旋转。

在SPSS中,可以根据具体的研究目的选择不同的因子提取和旋转方法。

4. 结果解释进行因子分析后,SPSS会输出一些统计指标和结果数据,如特征值、因子载荷矩阵等。

特征值是衡量因子解释变量方差的指标,通常选择特征值大于1的因子作为潜在因子。

因子载荷矩阵则显示了每个变量对于每个因子的贡献程度,可以根据载荷大小解释因子的含义。

5. 结果验证进行因子分析后,还需要对结果进行验证。

通常可以采用内部一致性分析、重测信度分析和因子有效性分析等方法进行结果验证。

在SPSS中,可以利用内部一致性分析来检验因子的稳定性和一致性,重测信度分析可用来检验因子的可靠性,因子有效性分析可用来检验因子的有效性。

基于SPSS的主成分分析与因子分析的辨析

基于SPSS的主成分分析与因子分析的辨析

基于SPSS的主成分分析与因子分析的辨析一、本文概述随着统计学的快速发展和广泛应用,主成分分析(Principal Component Analysis, PCA)和因子分析(Factor Analysis, FA)作为两种重要的降维和变量整合技术,在社会科学、医学、经济学等众多领域得到了广泛应用。

SPSS作为一款强大的统计分析软件,为这两种分析方法提供了便捷的操作平台和丰富的功能支持。

然而,尽管PCA和FA在理论上具有一定的相似性,但它们的核心理念、适用场景、解释方式等方面都存在显著差异。

因此,本文旨在通过辨析基于SPSS的主成分分析与因子分析的不同点,帮助研究者更加准确地理解和运用这两种方法,以便更有效地提取信息、简化数据结构,并提升研究的科学性和准确性。

本文首先将对主成分分析和因子分析的基本概念进行简要介绍,明确它们各自的核心思想和理论基础。

随后,将重点分析这两种方法在SPSS软件中的实现过程,包括数据准备、参数设置、结果解读等关键步骤。

在此基础上,文章将详细比较PCA和FA在SPSS应用中的不同点,包括适用范围、前提条件、分析结果解释等方面。

本文还将结合实例分析,展示如何在具体研究问题中选择合适的方法,并对分析结果进行有效解读和应用。

通过本文的辨析和讨论,期望能够帮助研究者更深入地理解主成分分析和因子分析的基本原理及其在SPSS中的应用方法,从而为实证研究提供有力的统计工具和方法支持。

二、主成分分析(PCA)主成分分析(Principal Component Analysis,简称PCA)是一种广泛应用的多元统计方法,其目标是通过降维技术来揭示数据中的内部结构。

PCA通过将多个原始变量转换为少数几个主成分,这些主成分能够最大限度地保留原始数据中的变异信息,并且彼此之间互不相关。

PCA的基本原理是通过对原始变量的协方差矩阵或相关矩阵进行特征值分解,得到一系列的主成分。

每个主成分都是原始变量的线性组合,其权重由特征向量决定。

聚类分析、对应分析、因子分析、主成分分析spss操作入门

聚类分析、对应分析、因子分析、主成分分析spss操作入门
• • • •

Within-group linkage:组内平均连接法
• • • •

Байду номын сангаас
以两类个体两两之间距离的平均数作为类间距离。 d (d1 d 2 d 3 d 9 ) 9
将两类个体合并为一类后,以合并后类中所有个体之间的 平均距离作为类间距离。 d (d1 d 2 d 3 d 4 d 5 d 6 ) 6
输出结果
当采用“特征根大于1”的 方法提取因子时,所有变 量的共同度过均较高,各 变量的丢失信息较少,效 果理想。
此操作目的在于检验原始变量之 间是否存在一定线性关系,若线性 关系不显著,则不适合做因子分析
20
输出结果
看correlation矩阵,若对角线上元素的值较接近1,其 他大多数元素的绝对值均较小,说明变量之间相关性较 强,适合做因子分析。
因子 编号 特征 根值 方差 贡献率 累积方差 贡献率
23
软件操作
Method:因子旋转的方法,Varimax—方差最大 法, Quartimax— 四次方最大法, Equamax— 等量 最大法, Display:输出与因子旋转相关的信息,Rotated solution— 旋 转 后 的 因 子 载 荷 矩 阵 , Loading plot(s)—旋转后的因子载荷散点图

聚类输出结果
初始类中心情况 中心点偏移情况

最终类中心情况

最终类成员情况
15

基本介绍: 一种数据简化的技术; 将原有变量中的信息重叠部分提取并综合成因子,实现减少变量个数的目的; 提取出来的因子能够反映原来众多变量的主要信息; 原始的变量是可观测的显在变量,而提取因子是不可观测的潜在变量;

聚类分析对应分析因子分析主成分分析spss操作入门课件

聚类分析对应分析因子分析主成分分析spss操作入门课件

因子分析
主要步骤
前提条件
因子提取
因子命名 可解释性
计算 因子得分
观测变量间有较 强的相关性; 若变量之间无相 关性或相关性较 小的,则不会有 公共因子;
根据因子方差的大 小:只取方差大于1( 或特征值大于1)的那 些因子; 按照因子方差累积 贡献率大于80%的原 则;
坐标变换使每个 原始变量在尽可能 少的因子之间有密 切的关系; 这样因子的实际 意义更容易解释;
聚类分析
聚类主要步骤
选择变量
• 和聚类分析的目的密切相关 ;
• 反映要分类变量的特征; • 不同研究对象上的值有明显
的差异; • 变量之间不能高度相关;
结果的 解释和证实
• 结果的解释是希望对各个类 的特征进行准确的描述;
• 给每类起一个合适的名称; • 通常的做法是计算各类在各
聚类变量上的均值,对均值 进行比较;
中心点偏移情况
最终类成员情况
因子分析
基本介绍: 一种数据简化的技术; 将原有变量中的信息重叠部分提取并综合成因子,实现减少变量个数的目 的; 提取出来的因子能够反映原来众多变量的主要信息; 原始的变量是可观测的显在变量,而提取因子是不可观测的潜在变量;
基本思想: 把每个研究变量分解为几个影响因素变量; 将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数 几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子 ; 因子分析特点:
聚类分析、
对应分析、
因子分析、
主成分分析 spss操作入

聚类分析
基本思想:根据所研究的样本或变量在观测数据上表现的不 同亲疏程度,采用不同的聚类方法将亲疏程度较大的样本/ 变量聚合为一类,把另外一些亲疏程度较大的样本/变量聚 合为一类,直到把所有的样本/变量都聚合完毕,形成一个 由小到大的分类系统 。

SPSS主成分分析教程)

SPSS主成分分析教程)

• 这里的 Initial Eigenvalues 就是这里的六个 主轴长度,又称特征值(数据相关阵的特 征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。
因子分析
主成分分析从原理上是寻找椭球的所有主轴。因此, 原先有几个变量,就有几个主成分。 而因子分析是事先确定要找几个成分,这里叫因子型上,因子分析和主成分分析有不少 区别。而且因子分析的计算也复杂得多。根据因子分 析模型的特点,它还多一道工序:因子旋转( factor rotation);这个步骤可以使结果更好。 当然,对于计算机来说,因子分析并不比主成分分析 多费多少时间。 从输出的结果来看,因子分析也有因子载荷( factor loading)的概念,代表了因子和原先变量的相关系数。 但是在输出中的因子和原来变量相关系数的公式中的 系数不是因子载荷,也给出了二维图;该图虽然不是 载荷图,但解释和主成分分析的载荷图类似。
主成分分析
选择越少的主成分,降维就越好。什么是 标准呢?那就是这些被选的主成分所代表 的主轴的长度之和占了主轴长度总和的大 部分。有些文献建议,所选的主轴总长度 占所有主轴长度之和的大约 85% 即可, 其实,这只是一个大体的说法;具体选几 个,要看实际情况而定。
• 对于我们的数据,SPSS输出为
主成分分析与因子分析是将多个实测变 量转换为少数几个不相关的综合指标的 多元统计分析方法 直线综合指标往往是不能直接观测到的, 但它更能反映事物的本质。因此在医学、 心理学、经济学等科学领域以及社会化 生产中得到广泛的应用。
主成分分析与因子分析的概念(续)
由于实测的变量间存在一定的相关关系, 因此有可能用较少数的综合指标分别综 合存在于各变量中的各类信息,而综合 指标之间彼此不相关,即各指标代表的 信息不重叠。综合指标称为因子或主成 分(提取几个因子),即成为主因子

主成分分析和因子分析的spss操作

主成分分析和因子分析的spss操作

一、参考文献:主成分分析在SPSS中的操作应用张文霖理论与方法2005利用SPSS进行主成分分析佚名计量经济分析方法与建模高铁梅2009二、数据选用张文霖文中的数据GDP PGDP NYZJZ GYZJZ DSCY GDZCTZ JBJSTZ SHXF HGCK DFCZSR 5458.2 13000 14883.3 1376.2 2258.4 1315.9 529 2258.4 123.7 399.7 10550 11643 1390 3502.5 3851 2288.7 1070.7 3181.9 211.1 610.2 6076.6 9047 950.2 1406.7 2092.6 1161.6 597.1 1968.3 45.9 302.3 2022.6 22068 83.9 822.8 960 703.7 361.9 941.4 115.7 171.8 10636 14397 1122.6 3536.3 3967.2 2320 1141.3 3215.8 384.7 643.7 5408.8 40627 86.2 2196.2 2755.8 1970.2 779.3 2035.2 320.5 709 7670 16570 680 2356.5 3065 2296.6 1180.6 2877.5 294.2 566.9 4682 13510 663 1047.1 1859 964.5 397.9 1663.3 173.7 272.9 11770 15030 1023.9 4224.6 4793.6 3022.9 1275.5 5013.6 1843.7 1202 2437.2 5062 591.4 367 995.7 542.2 352.7 1025.5 15.1 186.7三、首先,在SPSS中操作3.1 操作步骤第1步选择【Analyze】下拉菜单,并选择【Data Reduction-Factor】,进入主对话框第2步在主对话框中将所有原始变量选入【Variables】第3步点击【Descriptives】,在【correlation Matrix】下选择【Coefficients】,点击【Continue】回到主对话框第4步点击【Extraction】,在【Display】下选择【ScreePlot】,点击【Continue】回到主对话框第5步点击【Rotation】,在【方法】下选择【无】,点击【Continue】回到主对话框第6步点击【得分】,在【保存为变量】前打勾,在【方法】中选择【回归】,在【显示因子得分系数矩阵】前打勾3.2 步骤结果解释第3步的结果变量之间的存在较强的相关关系,适合作主成分分析是以自变量X 作为被解释变量,对应的公共因子载荷平方之和。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

因子分析得到的是什么?

医学:一位研究者对山东某县 2000 ~ 2002 年 3 年 的全死因调查资料中不同地区各恶性肿瘤标化死 亡率进行因子分析后发现,该县居民恶性肿瘤的 发病和死亡具有明显的地区分布。在地区分布中 ,各种恶性肿瘤的死亡具有一定程度的聚集性。 经因子分析得到的 4 个主因子可以解释 10 种恶性 肿瘤死亡率的74.54%;10种恶性肿瘤中,被解释 的比例最小也在62%以上;而胃癌、白血病、膀 胱癌、乳腺癌、结肠癌死亡率被解释的比例均在 77%以上,表明这10种恶性肿瘤之间存在中等偏 强的内在联系和地区分布特点
因子分析的基本原理
因子分析有探索性因子分析和验证性因 子分析两种。其中探索性因子分析的主 要作用是简化数据和探索数据结构;验 证性因子分析的作用是对数据结构的先 在假设进行检验。 因子分析使用的方法是分解原始变量, 通过相关找出潜在的“类别”,把每一 类变量看作一个共同因子,从此确定数 据结构。
选择最常用的方差最大 法进行正交旋转。
呈现因子负荷图
旋转前的因子载荷矩阵
旋转后的因子载荷矩阵
因子旋转的转换矩阵
因子转换矩阵就是旋转前的公因子与旋转后的公因 子之间的相关矩阵
旋转前
旋转后
因子分析的一般步骤
KMO与Bartlett`s球型检验 进行分析,按一定标准提取公因子 如果进行主成分分析则将主成分存为新 变量用于继续分析;如果进行因子分析 则考察公因子的实际意义,如有必要还 需要进行因子旋转,以寻求对因子的最 佳解释。 如有必要可以计算因子得分等中间指标 供进一步分析使用。

主成分分析的基本原理
严格来说,主成分分析只是一种中间手 段,其作用为简化数据。主成分分析不 能作为研究结果,应该在进行主成分分 析之后继续使用其他多元统计方法进行 分析。 主成分分析所使用的方法是通过线性变 换将原来的多个指标组合成相互独立的 少数几个能够反映出大部分信息的指标。

spss的实现
主成分分析和因子分析
(Principal Component Analysis & Factor Analysis) 在研究实际问题时,往往需要收集多个变量。 但这样会使多个变量间存在较强的相关关系, 即这些变量间存在较多的信息重复,直接利用 它们进行分析,不但模型复杂,还会因为变量 间存在多重共线性而引起较大的误差。 为能够充分利用数据,通常希望用较少的新变 量代替原来较多的旧变量,同时要求这些新变 量尽可能反映原变量的信息。 主成分分析和因子分子正式解决这类问题的有 效方法。它们能够提取信息,使变量简化降维 ,从而使问题更加简单直观。
验证性因子分析简介

在寻找公共因子的过程中,是否利用先验信息,产生 了探索性因子分析和确定性因子分析的区别。探索性 因子分析是在事先不知道影响因素的基础上,完全依 据资料数据,以一定的原则进行因子分析,最后得出 因子的过程。而验证性因子分析充分利用了先验信息, 是在已知因子的情况下检验所搜集的数据资料是否按 事先预定的结构方式产生作用。因此探索性因子分析 主要是为了找出影响观测变量的因子个数,以及各个 因子和各个观测变量之间的相关程度;而验证性因子 分析的主要目的是决定事前定义因子的模型拟合实际 数据的能力。
截取公因子的标准

特征根大于1
公因子累积贡献率达到一定水平
碎石图的拐点

去掉因子负荷大于0.5非常少的因子
如果想把因子分存储下 来用于进一步分析,可 以把这个选项选上
在数据文件中新生成的两 个变量就是提取出的公因 子的因子分
选择是否进行因子旋转的菜单 ,这里面提供了三种正交旋转 和两种斜交旋转的方法,默认 值为不进行旋转。做主成分分

主成分因子分析 Analyze→Dimention Reduction →Factor
KMO和 Bartlett球 形检验是分 辨数据能否 进行因子分 析的一个重 要指标
KMO取值范围从 0到1,值越大越 适合进行因子分 析,一般>0.7
P<0.05
公因子方差:观测 变量能够被公因子 所解释的变异占总 变异的百分比
因子分析中的正交旋转方法



Varimax 方差最大法 只有少数几个变量在某个因子上有较高的负载, 其他变量在这个因子上的负载尽可能低。该方 法强调对因子的解释的简洁性。 Quartimax 四次方最大法 每个变量只在某一个因子上有较高的负载,在 其他的因子上有尽可能低的负载。该方法强调 了对变量解释的简洁性。 Equamax 等量最大法 等量最大法是上面两种方法的加权平均。
公因子贡献率指一个 公因子能够解释所有 观测变量总变异的百 分比
特征根的含义是公因子 能够解释的变异是一个 观测变量变异的多少倍
因子负荷 矩阵,也 就是公因 子与观测 变量的相 关矩阵
提取公共因子的 方式
默认主成分分析
根据特征根的值提取公共 因子,一般要求特征根>1 固定公共因子的个数
碎石图可以 作为截取公 因子时的重 要参照
第七讲 因子分析与主成分分析
统计名言
模型选择是艺术,而不是科学。
——William Navidi
因子分析得到的是什么?

因子分析方法在部分领域应用的一些例子 心理学:心理学家瑟斯登对 56项测验的得分进 行因子分析,得出了7中主要智力因子:词语理 解能力,语言流畅能力、计数能力、空间能力 、记忆力、知觉速度和推理能力

选上后,因子负荷矩阵按照 负荷大小排序 低于特定值的因子负荷不 显示
排序、旋转后、不显示比较 不排序并显示所有因子负荷 小的因子负荷
删除题目的原则

1.删除在两个或两个以上的公共因子上具 有接近因子载荷的题目 2.某个公因子下只有1个题目 3.删除在公共因子上的最大载荷小于0.35, 共同度小于0.4
两种因子分析的比较Fra bibliotek 在实际求解过程中,因子分析和主成分 分析都有着一定的区别,计算上因子分 析更为复杂。 但对于计算机,因子分析并不费事。因 子分析比主成分分析多了“因子旋转 (factor rotation)”这样一个步骤。
对样本量的要求
主成分分析对于样本量没有严格的要求, 只要把需要进行分析的样本都用于进行 主成分分析即可。 因子分析理想的样本量是样本数为变量 数的10~25倍,考虑到因子分析时的变量 数通常很多,5~10倍的样本量也可以使 用。
相关文档
最新文档