spss主成分分析.ppt
主成分分析(spss)操作详细步骤

主成分分析在SPSS中的操作应用SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。
图表 3 相关系数矩阵图表 4 方差分解主成分提取分析表主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。
可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。
主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。
注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。
通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。
所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。
但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。
用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。
spss第8章主成分分析与因子分析

, yn ) 是 n 维随机向量. 若对任
⎛ Cov(x1, y1) Cov(x1, y2 )
⎜ ⎜
Cov(
x2
,
y1
)
Cov(x2 , y2 )
⎜
⎜ ⎝ Cov(xm , y1) Cov( xm , y2 )
⎟ ⎟
⎟
xpn ⎟⎟⎠
(σ ij ) p× p
, F = AX
Cov(F) = Cov(AX, AX) = ACov(X)A′ V (F)
由于 Cov(X) 是非负定对称矩阵,所以存在正交矩阵 U ,使得
⎡λ1 0
0⎤
U−1Cov(X)U
=
⎢ ⎢ ⎢
0
λ2
0
⎥ ⎥
⎥
⎢ ⎣
0
0
λ
p
⎥ ⎦
其中 λ1, λ2, ,λp 为 Cov(X) 的特征根,不妨假设 λ1 ≥ λ2 ≥
(5)若 X 是随机向量, Cov(X) 存在,则 Cov(X) 是非负定矩阵.
后面的推导过程中用到两个线性代数中的 2 个重要结论. 定理 7-2 (1)若 A 是 p 阶实对称阵,则一定可以找到正交阵 U ,使
⎡λ1 0
0⎤
U−1AU
=
⎢ ⎢ ⎢
0
λ2
0
⎥ ⎥
⎥
⎢ ⎣
0
0
λp
⎥ ⎦
其中 λi ,i = 1.2. p 是 A 的特征根.
(3)对任何向量 a = (a1, a2 , , am )′ , b = (b1,b2 , , bn )′ ,有 Cov(a′X, b′Y) = a′Cov(X, Y)b . (4)对任何 p × m 阶矩阵 A , q × n 阶矩阵 B ,有 Cov(AX, BY) = ACov(X, Y)B′
spss学习系列30.主成份分析

S P S S学习系列30.主成份分析-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN30. 主成份分析一、基本原理主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。
其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。
在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。
如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。
为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0. 依此类推可以构造出第三、第四、…、第p个主成分。
主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。
设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,…,X p,得到原始数据资料阵:其中,X i = (x1i,x2i,…,x ni)T,i = 1, …, p.用数据矩阵X的p个列向量(即p个指标向量)X1,…,X p作线性组合,得到综合指标向量:简写成:F i = a1i X1 + a2i X2+…+a pi X p i = 1, …, p限制系数a i = (a1i,a2i,…,a pi)T为单位向量,即且由下列原则决定:(1)F i与F j互不相关,即COV(F i, F j)= a i T∑a i=0,其中∑为X 的协方差矩阵;(2)F1是X1,X2,…,X p的所有满足上述要求的线性组合中方差最大的,即F2是与F1不相关的X1,…,X p所有线性组合中方差最大的,…,F p 是与F1,…,F p-1都不相关的X1,…,X p所有线性组合中方差最大的。
满足上述要求的综合指标向量F1,F2,…,F p就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数a i = (a1i,a2i,…,a pi)T就是特征值λi所对应的单位特征向量。
spss主成分分析(PCA)PPT课件

2
p
F1、F2….Fp分别称为原变量的第一、第二….第p个主成分。
zf
10
5.2 数学模型与几何解释-几何解释
❖ 为了方便,我们在二维空间中讨论主成分的几 何意义: 设有n个样品,每个样品有两个观测变量xl和x2, 在由变量xl和x2 所确定的二维平面中,n个样本 点所散布的情况如椭圆状。由图可以看出这n个 样本点无论是沿着xl 轴方向或x2轴方向都具有 较大的离散性,其离散的程度可以分别用观测 变量xl 的方差和x2 的方差定量地表示。显然, 如果只考虑xl和x2 中的任何一个,那么包含在 原始数据中的经济信息将会有较大的损失。
zf
18
❖ 由此可概括出主成分分析的几何意义:
主成分分析的过程也就是坐标旋转的过程,各主 成分表达式就是新坐标系与原坐标系的转换关 系,新坐标系中各坐标轴的方向就是原始数据 方差最大的方向。
zf
19
❖ 了解了主成分分析的基本思想、数学和几何意义后,问 题的关键:
1、如何进行主成分分析?(主成分分析的方法) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。
zf
4
❖ 主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法。
❖ 主成分:由原始指标综合形成的几个新指标。 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等。
zf
5
❖ 主成分分析得到的主成分与原始变量之间的关 系: 1、主成分保留了原始变量绝大多数信息。
2、主成分的个数大大少于原始变量的数目。
3、各个主成分之间互不相关。
4、每个主成分都是原始变量的线性组合。
zf
6
❖ 主成分分析的运用: 1、对一组内部相关的变量作简化的描述
《主成分分析》幻灯片PPT

PCA的实质——简化数据
用尽可能少的变量〔主成分〕反映原始数据中尽 可能多的信息,以简化数据,突出主要矛盾。
反映原始数据特征的指标:方差-离散度 主成分:原始变量的最优加权线性组合 最优加权:
第一主成分:寻找原始数据的一个线性组合,使 之具有最大方差〔数据离散度最大的方向〕
第二主成分:寻找原始数据的一个线性组合,使 之具有次大方差,且与第一主成分无关
12.00
14.00
16.00
run100m
18.00
20.00
二、PCA的模型与算法
设:x为标准化变量, 原始数据阵 X s [x 1 ,x 2 , x p ] PCA目标:找到原始数据方差最大的线性组合
❖设:线性组合系数为p×1=[1, 2, … p]T
❖即:要找一个 使z=Xs= 1x1+ 2x2 +…+ pxp具有
What does PCA do?
Original data matrix, say n by p 正交旋转
New data matrix, say n by q, with q < p:
例:研究55个国家运发动径赛 能力,用8项径赛成绩
经PCA得到新数据阵: z55×2:选取2个主成分, 其中第一主成分表示综合
0.0
1
第一主成分-1.0包0 含的信0.0息0 量显然1.00
-21..000
售 电 量
Z2
大于第二主成分,因而忽略s 第
二主成分信息损失不大 -2.0
-2
-1
Ma Xin, North China Electric Power University
0
1
2
3
spss主成分分析(PCA)PPT课件

0.924 u30.383
0.000
zf
26
(3)主成分:
F 10 .38 x 1 3 0 .92 x 24
F2 x3 F 30.92x1 40.38x23
(4)各主成分的贡献率及累计贡献率: 第一主成分贡献率: 5.8/35 (.8 320.1)7 0.72875 第二主成分贡献率: 2/5 (.8 3 20.1)7 0.25 第三主成分贡献率:0.1/75 (.8 320.1)7 0.02125
zf
23
(二) 第二主成分
coF 1,v F 2)(0 F 2 u 1X 2 1 u p 2 X p
F 2 u 1 X 2 1 u 2 X 2 2 u p 2 X p
在约束条件 下,寻找第二主成分
zf
24
例:设 x(x1,x2,x3)' 的协方差矩阵为:
1 2 0
2
5
0
当分析中所选择的变量具有不同的量纲,变量水平差异 很大,应该选择基于相关系数矩阵的主成分分析。 2、如何确定主成分个数? 主成分分析的目的是简化变量,一般情况下主成分的个数 应该小于原始变量的个数。关于保留几个主成分,应该 权衡主成分个数和保留的信息。
zf
20
5.3 总体主成分的求解及其性质
❖ 主成分分析的目标:
U为旋转变换正 矩交 阵矩 ,阵 它, 是即有 U U 1,U U I
zf
16
❖ 旋转变换的目的:为了使得n个样品点在Fl 轴方向上的离散程度最大,即Fl的方差最大。
❖ (变量Fl代表了原始数据的绝大部分信息,在 研究某问题时,即使不考虑变量F2也无损大 局)。经过上述旋转变换原始数据的大部分 信息集中到Fl轴上,对数据中包含的信息起 到了浓缩作用。
SPSS主成分分析1

主成分分析
例中的的数据点是六维的;也就是说,每个观 测值是6维空间中的一个点。我们希望把6维空 间用低维空间表示。 先假定只有二维,即只有两个变量,它们由横 坐标和纵坐标所代表;因此每个观测值都有相 应于这两个坐标轴的两个坐标值;如果这些数 据形成一个椭圆形状的点阵(这在变量的二维 正态的假定下是可能的) 那么这个椭圆有一个长轴和一个短轴。在短轴 方向上,数据变化很少;在极端的情况,短轴 如果退化成一点,那只有在长轴的方向才能够 解释这些点的变化了;这样,由二维到一维的 降维就自然完成了。
主成分分析
正如二维椭圆有两个主轴,三维椭球有三 个主轴一样,有几个变量,就有几个主成 分。 选择越少的主成分,降维就越好。什么是 标准呢?那就是这些被选的主成分所代表 的主轴的长度之和占了主轴长度总和的大 部分。有些文献建议,所选的主轴总长度 占所有主轴长度之和的大约85%即可, 其实,这只是一个大体的说法;具体选几 个,要看实际情况而定。
主成分分析实例-不旋转
默认为主成分分析法:Principal 使用默认值进行最简单的主成分分析(默认为主成分分析法 默认为主成分分析法 components) 对美国洛杉矶12个人口调查区的 个经济学变量的数据进行因子分析, 个人口调查区的5个经济学变量的数据进行因子分析 对美国洛杉矶 个人口调查区的 个经济学变量的数据进行因子分析, 菜单:Analyze-Data Reduction-Factor Variables :pop,School,employ,Services, house 其他使用默认值(主成分分析法Principal components,选取特征值>1, 不旋转)
• 这里的Initial Eigenvalues就是这里的六个 这里的 就是这里的六个 主轴长度, 又称特征值( 主轴长度 , 又称特征值 ( 数据相关阵的特 征值) 征值 ) 。 头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 差的 。 少。
SPSS进行主成分分析(PCA)

利用SPSS进行主成分分析【例子】以全国31个省市的8项经济指标为例,进行主成分分析。
第一步:录入或调入数据(图1)。
图1 原始数据(未经标准化)第二步:打开“因子分析”对话框。
沿着主菜单的“Analyze→Data Reduction→Factor ”的路径(图2)打开因子分析选项框(图3)。
图2 打开因子分析对话框的路径图3 因子分析选项框第三步:选项设置。
首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。
在本例中,全部8个变量都要用上,故全部调入(图4)。
因无特殊需要,故不必理会“Value ”栏。
下面逐项设置。
图4 将变量移到变量栏以后⒈设置Descriptives选项。
单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。
图5 描述选项框在Statistics 栏中选中Univariate descriptives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial solution 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。
在Correlation Matrix 栏中,选中Coefficients 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant 复选项,则会给出相关系数矩阵的行列式,如果希望在Excel 中对某些计算过程进行了解,可选此项,否则用途不大。
其它复选项一般不用,但在特殊情况下可以用到(本例不选)。
设置完成以后,单击Continue 按钮完成设置(图5)。
⒉ 设置Extraction 选项。
打开Extraction 对话框(图6)。
因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(∏ρινχιπαλ χομπονεντσ),因此对此栏不作变动,就是认可了主成分分析方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•§2.1 主成分分析的基本思想与理论 •§2.2 主成分分析的上机实 现
2020/4/21
1
目录 上页 下页 返回 结束
第二章 主成分分析
主成分分析(principal components analysis)。主成分分 析是利用降维的思想,在损失很少信息的前提下把多个指标 转化为几个综合指标的多元统计方法。通常把转化生成的综 合指标称之为主成分,其中每个主成分都是原始变量的线性 组合,且各个主成分之间互不相关,这就使得主成分比原始 变量具有某些更优越的性能。这样在研究复杂问题时就可以 只考虑少数几个主成分而不至于损失太多信息,从而更容易 抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问 题得到简化,提高分析效率。
【例5.2】 数据集Employee data为Midwestern银行在1969-
1971年之间雇员情况的数据,共包括474条观测及如下10个变
量:Id(观测号)、Gender(性别)、Bdate(出生日期)、
Educ(受教育程度(年数))、Jobcat(工作种类)、Salary
(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime
1.每一个主成分都数目大大少于原始变量的数目
2020/4/21
3
目录 上页 下页 返回 结束
3.主成分保留了原始变量绝大多数信息
4.各主成分之间互不相关
通过主成分分析,可以从事物之间错综复杂的 关系中找出一些主要成分,从而能有效利用大量 统计数据进行定量分析,揭示变量之间的内在关 系,得到对事物特征及其发展规律的一些深层次 的启发,把研究工作引向深入。
步; 5.得到主成分的表达式并确定主成分个数,选取主成分; 6.结合主成分对研究问题进行分析并深入研究。
2020/4/21
7
目录 上页 下页 返回 结束
主成分分析 的逻辑框图见
图:
主成分分析的逻辑框图
选择初始变量
度量或取值
否
范围相同?
是 分析协方差阵
对比 (否)
分析相关阵
其他处理
2020/4/21
2020/4/21
4
目录 上页 下页 返回 结束
§2.2 主成分分析的基本理论
设对某一事物的研究涉及个 p 指标,分别用 X1, X 2, , X P 表 示,这个 p 指标构成的 p维随机向量为 X (X1, X 2 , , X p )'。设随 机向量X的均值为 μ ,协方差矩阵为 Σ。
对 X 进行线性变换,可以形成新的综合变量,用 Y 表示, 也就是说,新的综合变量可以由原来的变量线性表示,即满 足下式:
2020/4/21
2
目录 上页 下页 返回 结束
§2.1 主成分分析的基本思想
既然研究某一问题涉及的众多变量之间有一定的相关性, 就必然存在着起支配作用的共同因素,根据这一点,通过 对原始变量相关矩阵或协方差矩阵内部结构关系的研究, 利用原始变量的线性组合形成几个综合指标(主成分), 在保留原始变量主要信息的前提下起到降维与简化问题的 作用,使得在研究复杂问题时更容易抓住主要矛盾。一般 地说,利用主成分分析得到的主成分与原始变量之间有如 下基本关系:
Y1 u11X1 u12 X 2 u1p X p Y2 u21X1 u22 X 2 u2 p X p Yp u p1X1 u p2 X 2 u pp X p
(5.1)
2020/4/21
5
目录 上页 下页 返回 结束
§2.3注意的问题
1. 首先应当认识到主成分分析方法适用于变量之间存在较强 相关性的数据,如果原始数据相关性较弱,运用主成分分析后 不能起到很好的降维作用,即所得的各个主成分浓缩原始变量 信息的能力差别不大。一般认为当原始数据大部分变量的相关 系数都小于0.3时,运用主成分分析不会取得很好的效果。
特征值
标准正交特征向量
是
是否有接近0
的情况
否
主成分
对主成分进行分析
深入分析
8
目录 上页 下页 返回 结束
§2.5主成分分析的上机实现
SPSS软件FACTOR模块提供了主成分分析的功能。下面先以 SPSS软件包自带的数据Employee data.sav为例介绍主成分分 析的上机实现方法,在SPSS软件的安装目录下可以找到该数 据集;然后,我们举一个实际的例子介绍主成分分析的具体 应用。
2020/4/21
10
目录 上页 下页 返回 结束
§主成分分析的上机实现
输出结果5-1(1)
Co mm una lit ie s
Educational Level (years)
Initial Extraction
2 主成分分析不能有效地剔除重叠信息,但它至少可以发现原 始变量是否存在着重叠信息,这对我们减少分析中的失误是有 帮助的。
2020/4/21
6
目录 上页 下页 返回 结束
§2.4 主成分分析步骤
1.根据研究问题选取初始分析变量; 2.根据初始变量特性判断由协方差阵求主成分还是由相关
阵求主成分; 3.求协差阵或相关阵的特征根与相应标准特征向量; 4.判断是否存在明显的多重共线性,若存在,则回到第一
(受雇时间(月))、Prevexp(受雇以前的工作时间
(月))、Minority(是否少数民族)。下面我们用主成分分
析方法处理该数据,以期用少数变量来描述该地区居民的雇佣
情况。
2020/4/21
9
目录 上页 下页 返回 结束
§主成分分析的上机实现
进入SPSS软件,打开数据集Employee data.sav。依次点 选Analyze→Data Reduction→Factor….进入Factor Analysis(因子分析)对话框。(在SPSS软件中,主成分分 析与因子分析均在Factor Analysis模块中完成。此时,数 据集Employee data.sav中的变量名均已显示在左边的窗口 中,依次选中变量educ、salary、salbegin、jobtime、 prevexp并点向右的箭头按钮,这五个变量便进入variables 窗口(此时若选中variables窗口中的变量,则窗口左侧的 箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点 击右侧的OK按钮,即可得到如下输出结果5-1。