第七章主成分分析

合集下载

主成分分析

主成分分析
看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有 较 方大的离散性,其离散的程度可以分别用的X1方差和X2的
差 在测定。如果仅考虑X1或X2中的任何一个分量,那么包含
另一分量中的信息将会损失,因此,直接舍弃某个分量 不是“降维”的有效办法。
图6.1 主成分的几何意义
如 标果 系我y1们Oy将2 ,该这坐里标y系1 是按椭逆圆时的针长方轴向方旋向转,某y2个是角椭度圆的变短成轴新方坐向。
主要内容
主成分分析的基本思想 主成分分析的基本理论 主成分分析的几何意义 主成分的性质
引言
例子
如何评价一个学生在大学期间的表现
◦ 课程考试成绩 ◦ 社会工作 ◦ 科研
为了尽可能全面地评价,我们会引入很 多变量,目的是通过这些变量将学生的 差异显示出来
最终需要提供一种方法能够简单地概括 学生的特点和相对排名
所以
p
p
i ii
i 1
i 1
p
p
或 D(Yi ) D( X i )
i 1
i 1
性质 3 主成分 Yk 与原始变量 X i 的相关系数为
(6.20) (6.21)
(Yk , Xi )
k ii
tki
并称之为因子负荷量(或因子载荷量)。
(6.22)
证明:事实上
(Yk , Xi )
Cov(Yk , Xi ) Cov(TkX, eiX)
◦ 另条一线种,是第椭 一圆 主扁 成平 分到 包了 含极 有限二,维变空成间点y1轴的上全的部一信 息,仅用这一个综合变量代替原始数据不会有 任何的信息损失,此时的主成分分析效果是非 常理想的,其原因是,第二主成分不包含任何 信息,舍弃它当然没有信息损失。

主成分分析原理

主成分分析原理

第七章主成分分析(一)教学目的通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。

(二)基本要求了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。

(三)教学要点1、主成分分析基本思想,数学模型,几何解释2、主成分分析的计算步骤及应用(四)教学时数3课时(五)教学内容1、主成分分析的原理及模型2、主成分的导出及主成分分析步骤在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。

由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。

如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。

第 - 213 - 页第一节 主成分分析的原理及模型一、主成分分析的基本思想及数学模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。

这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。

通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。

因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。

如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21 F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。

第七章 主成分分析

第七章 主成分分析

a1 a1 a1 a1 1
(1)
欲使方程组(3)有非零解,其充要条件是 I 0 是协方差阵 的特征根。又由 由此可见, a (2)式知,欲使 1 a1 的值最大,就是要 的 值最大。也就是说, 应取为 的最大的特 征根 1 。再由(1)式知,我们所要求的 a1 , 应该是 的最大的特征根 1所对应的单位化 特征向量。这样,我们就求得第一个综合 指标 ( a1 a1 1) y1 a1 X , 并称y1为第一个主成分。
a1 X , , a k X
就分别是第一,…,第k个主成分。
由于协方差阵 是对称阵,根据线性代数知,
的不同特征根所对应的特征向量是正交的。 所以,如果上面求得的k个特征根全不相同 时,则它们所对应的特征向量a1 ,… ak ,是相 互正交的,于是有 cov(ai X , a j X ) ai a j ai j a j j ai a j 0 这表明上面所求得的主成分y1,…,yk之间互 不相关。
y1,…,yq既能充分反映原来p个指标x1,…,xp所反
映的信息,又能使这q个综合指标之间互不相关。
首先,考虑第一个综合指标y1如何求得。它应该
是由原来p个指标x1,…,xp综合而成的,通常将其 取为原来p个指标的线性组合: y1 a1 X a11 x1 a1 p x p 其中a1 (a11 ,, a1 p ) ,是一个p维非零常向量。我
即 a2 也是协方差阵 的特征根所对应的单 位化特征向量。
a 2 a 2 1
为了使y2的方差尽量地大,自然a2 应为 的仅次于 1第二大特征根2 所对应的单位化 特征向量。这样,我们也求得了第二个综 合指标

sas主成分分析

sas主成分分析

sas主成分分析sas主成分分析第七章主成分分析实验目的:熟悉并掌握主成分分析和因子分析的原理和在变量分类、综合评价、主成分回归等几个方面的应用,以及相应的SAS程序实现。

实验内容:对我国钢铁行业上市公司的财务绩效状况进行主成分分析,选择的财务指标共有以下几个:流动比率,速动比率,存货周转率,总资产周转率,净资产收益率,经营净利率,每股收益,净资产收益率增长率,股东权益增长率。

数据如下:完成以下工作:(1)选取累积贡献率>85%的前几个主成分,分别计算得分;并对选取的主成分进行解释;(2)对各上市公司的财务绩效进行综合评价;(3)利用选取的主成分得分,借助聚类分析过程对钢铁行业上市公司进行分类。

datazcf;inputname$x1-x9;cards;邯郸钢铁1.5510.9717.1650.88910.7689.2680.451-16.0246.122武钢股份2.1921.828.0880.97515.05411.1140.336-3.0392.588钢联股份1.2860.9418.0441.1247.3894.5990.205-59.988122.041宝钢股份0.9790.5718.130.6019.7428.780.205-17.6853.989莱钢股份1.3640.4975.0780.9314.1039.1370.523-24.26114.16西宁特钢1.4330.6721.4620.4716.4297.2680.1559.3493.027杭钢股份2.1081.4988.3731.41816.7567.9370.531-18.72513.662邢台轧辊2.11.5951.8830.3966.4848.9810.1325.275-1.061宁夏恒力1.3641.0641.8680.2787.46919.8420.201-35.19455.428凌钢股份1.7721.0617.8411.11912.8838.8040.5285.34310.107南钢股份1.8181.3928.8661.54612.8855.1530.409-7.0286.131酒钢宏兴1.4410.88410.1681.07112.8317.8250.36744.0376.686抚顺特钢0.9550.6523.4160.5097.1476.8510.193-8.0741.93安阳钢铁1.8931.3335.1070.9810.9497.9150.3500上海科技1.3131.1824.6430.5689.5499.4230.19935.6353.582沪昌特钢10.8139.536.5850.5671.1031.6560.01915.031-7.171山川股份1.2520.5851.4850.45110.34414.6930.209-1.6159.799浦东不锈6.1865.1212.3630.2650.7542.5130.013-45.439-1.176新华股份1.8171.3143.2910.7469.9249.0280.137-3.5771.985工益股份1.8091.2674.0460.8280.6950.450.011104.419-4.714马钢股份1.5841.0694.3180.5692.0032.1830.03235.279-12.487宝信软件3.5943.2015.0140.82114.669.7210.147126.91123.243北特钢1.3851.0922.6910.467-11.21-7.917-0.14853.839-11.058广钢股份0.8590.513.8840.7224.2472.6850.096-32.409-4.004;procprincompn=9out=prin;varX1-x9;run;procprintdata=prin;varprin1-prin9;run;主要输出结果:相关阵的特征值和特征向量EigenvalueDifferenceProportionCumulative13.626730451.710877240.40300.403021.915853210.519337180.21290.615831.396516020.349008540.15520.771041.047507480.371047740.11640.887450.676459740.478913290.07520.962660.197546440.106501190.02190.984570.091045260.044878480.01010.994680.046166770.043992140.00510.999890.002174630.00021.0000EigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6Prin7Prin8Prin9x1-.2632570.5528190.3251720.0999320.0123340.1292890.077190-.0215500.697189x2-.2696730.5512290.3176490.0909930.0600930.065411-.0196680.049407-.709595x30.3207430.454750-.227474-.1958410.013020-.7729000.0382700.0086860.033825x40.3790330.331485-.342911-.1840840.0144020.490904-.3231210.4986720.026498x50.4608530.1052280.1235360.3670920.0903870.094185-.486791-.610331-.003691x60.308953-.1918380.4762280.4505290.202663-.228562-.0285870.5848690.042126x70.4802260.1255120.0219100.155827-.2454280.2558630.762567-.122168-.082054x8-.1693840.077314-.5106640.4440140.6759650.0353110.220767-.0214310.005659x90.210440-.0652010.347445-.5918860.6553280.1132300.140544-.1355950.001607由输出特征值可知,第一主成分的贡献率为40.30%,第二个主成分的.贡献率为61.58%,第三个主成分的贡献率为77.10%,前四个主成分累计贡献率为88.74%。

主成分分析【可编辑全文】

主成分分析【可编辑全文】
沿着xl轴方向或x2轴方向都具有较大的离散性,其离散 的程度可以分别用观测变量xl的方差和x2的方差定量地 表示。显然,如果只考虑xl和x2中的任何一个,那么包 含在原始数据中的经济信息将会有较大的损失。
• 如果我们将xl 轴和x2轴先平移,再同时 按逆时针方向旋转角度,得到新坐标轴Fl和 F2。Fl和F2是两个新变量。
• 如果变量分组较有规则,则从特征向量各 分量数值作出组内组间对比分析。
主成分分析的一般步骤
6. 解释各个主成分的含义 7. 进行其他分析
利用SPSS进行主成分分析的步骤
1. 指标数据的标准化。
可以利用“Descriptive statistics” 中的“Descriptives”进行标准化。
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合Fi。其中, Xi 是经过标准化后的变量。
F1 u11X1 u21X 2 u p1X p F2 u12 X1 u22 X 2 u p2 X p
Fp u1p X1 u2 p X 2 u pp X p
4. 确 定 主 成 分 Fi 的 表 达 式 : 将 表 “Component Matrix”(初始因子载荷 阵)中的第i列向量除以第i个特征根的平方 根,得到第i个主成分Fi的变量系数向量。
5. 对主成分Fi进行解释。
• x1:数学 • x2:物理 • x3:化学 • x4:语文 • x5:历史 • x6:英语
满足如下的条件:
每个主成分的系数平方和为1。即
u2 1i
u2 2i
u
2 pi
1
主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p 主成分的方差依次递减,重要性依次递减,即

主成分分析PPT

主成分分析PPT


p

1

a1 u1,u2 ,
,
up


2


p
p
ia1uiuia1 1 a1uiuia1
i 1
i 1
1a1UUa1 1a1a1 1
u1


u2

a1

p

up

下面证明,由U的第一列元素所构成的原始变量的 线性组合有最大的方差。
设有P维单位向量 a1 a11, a21,
, a p1
y1 a11 x1 a21 x2 a p1 x p a1 x
1

D(
y1 )

a1a1

a1U

2





Ua1
主成分分析通常的做法,是寻求原指标的 线性组合yi:
y1 u11 x1 u21 x2 up1 x p y2 u12 x1 u22 x2 up2 x p
y p u1 p x1 u2 p x2
满足如下的条件:
upp x p
(1) 每个主成分的系数平方和为1(否则其方差可 能为无穷大),即
标。在实际工作中,主成分个数的选取通常有两个标准 一个是按累积贡献率达到一定的程度(如 70%或 80%
以上)来确定 m;另一个先计算协方差矩阵或相关矩阵
的特征值的均值 ,取大于 的特征值的个数作为 m.
大量实践表明,当 p 20时,第一个标准容易取太 多的主成分,第二个标准容易取太少的主成分,故最好 将两者结合起来使用,并考虑m 个主成分对 xi 的贡献率。

多元统计分析第七章主成分分析习题答案

多元统计分析第七章主成分分析习题答案

7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。

解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。

解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。

《主成分分析》幻灯片PPT

《主成分分析》幻灯片PPT

PCA的实质——简化数据
用尽可能少的变量〔主成分〕反映原始数据中尽 可能多的信息,以简化数据,突出主要矛盾。
反映原始数据特征的指标:方差-离散度 主成分:原始变量的最优加权线性组合 最优加权:
第一主成分:寻找原始数据的一个线性组合,使 之具有最大方差〔数据离散度最大的方向〕
第二主成分:寻找原始数据的一个线性组合,使 之具有次大方差,且与第一主成分无关
12.00
14.00
16.00
run100m
18.00
20.00
二、PCA的模型与算法
设:x为标准化变量, 原始数据阵 X s [x 1 ,x 2 , x p ] PCA目标:找到原始数据方差最大的线性组合
❖设:线性组合系数为p×1=[1, 2, … p]T
❖即:要找一个 使z=Xs= 1x1+ 2x2 +…+ pxp具有
What does PCA do?
Original data matrix, say n by p 正交旋转
New data matrix, say n by q, with q < p:
例:研究55个国家运发动径赛 能力,用8项径赛成绩
经PCA得到新数据阵: z55×2:选取2个主成分, 其中第一主成分表示综合
0.0
1
第一主成分-1.0包0 含的信0.0息0 量显然1.00
-21..000
售 电 量
Z2
大于第二主成分,因而忽略s 第
二主成分信息损失不大 -2.0
-2
-1
Ma Xin, North China Electric Power University
0
1
2
3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
各主成分的累积方差贡献率>80%或85%(根据 实验结果和要求可以自己调整)或特征根>1。
上机操作流程
主成分分析的前提条件:原始变量之间有一定的相关

检验方法 (1)Kaiser-Meyer-Olkin(KMO)检验:抽样充足量的测度, 检验变量之间的偏相关系数是否过小。 (2)Bartlett’s 检验:该检验的原假设是相关矩阵为单位阵(不 相关),如果不能拒绝原假设,则不适合进行主成分分析。
主成分分析
什么是主成分分析
主成分分析(Principal Components Analysis ,PCA)也称为主分量分析,是一种通过 降维来简化数据结构的方法,即如何把多个变量(变 量)转化为少数几个综合变量(综合变量),而这几 个综合变量可以反映原来多个变量的大部分信息。
基本思想
主成分分析就是设法将原来众多具有一定相关性的 变量(如p个变量),重新组合成一组新的相互无关的 综合变量来代替原来变量。怎么处理?
第七章 主成分分析
1、主成分分析 2、SPSS上机实现过程
主成分分析
❖ 每个人都会遇到,在如此多的变量 之中,有很多是相关的。人们希望能够找出它们的 少数“代表”来对它们进行描述。
❖ 本章就介绍两种把变量维数降低以便于描述、理解 和 分 析 的 方 法 : 主 成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子分析 的一个特例。
通常数学上的处理就是将原来p个变量作线性组合 作为新的综合变量。如何选择?
如果将选取的第一个线性组合即第一个综合变量记 为F1,自然希望F1尽可能多的反映原来变量的信息。 怎样反映?
基本思想
最经典的方法就是用方差来表达,即var(F1)越大, 表示F1包含的信息越多。因此在所有的线性组合中所 选取的F1应该是方差最大的,故称之为第一主成分 (principal component I)。
写出主成分模型
前面的表给出的因子载荷矩阵,主成分系数应该 为特征向量,其换算方法为:用主成分载荷矩阵 中的数据除以主成分相对应的特征值开平方根便 得到两个主成分中每个指标所对应的系数。
ei
i i
第一主成分的特征值
第二主成分的特征值
主成分模型为:
F1=0.337X1+0.34X2+0.347X3+0.22X4+0.1 02X5+0.084X6+0.156X7+0.322X8+0.344X 9+0.34X10+0.328X11+0.337X12
综合 变量 (主 成分) 之间 互不 相关
计算主成分特征根及贡献率和累积贡献率
如果想选取 累积贡献率 >95%,
则需要重 新选择因子数
确定主成分
本操作是选择以特征根大于1为标准提取主成分,提取了2个主成分。按照累积方差的 观点,应该提取>80%或>85%的值,本例题提取2个主成分,其累积方差贡献率为 94.99%,应该提取2个应该提取前两个主成分。
F1主要表示X1、X2、X3、X8、X9、X10、X11、 X12的信息(冬半年的信息)
F2=-0.134X1 - 0.114X2+0.016X3+0.384X4+ 0.507X5+0.519X6+0.457X7+0.034X8-0.064X90.136X10-0.195X11-0.157X12
F1主要表示X4、X5、X6、X7的信息(夏半年的信息)
如果第一主成分不足以代表原来p个变量的信息, 再考虑选取F2即第二个线性组合。F2称为第二主成 分(principal component II)。F1和F2的关 系?
基本思想
为了有效地反映原来信息,F1已有的信息就不再 出现在F2中,即cov(F1,F2)=0。依此类推,可 以获得p个主成分。因此,这些主成分之间是互不相 关的,而且方差依次递减。在实际中,挑选前几个最 大主成分来表征。标准?
相关文档
最新文档