第5章 主成分分析
主成分分析法PPT课件

6
3.832E-16
2.017E-15 100.000
7
3.351E-16
1.764E-15 100.000
8
2.595E-16
1.366E-15 100.000
000
10
1.683E-16
8.860E-16 100.000
11
7.026E-17
3.698E-16 100.000
• 因子分析是要利用少数几个公共因子去解释较多个要观测 变量中存在的复杂关系,它不是对原始变量的重新组合,而 是对原始变量进行分解,分解为公共因子与特殊因子两部分. 公共因子是由所有变量共同具有的少数几个因子;特殊因 子是每个原始变量独自具有的因子.
3、应用中的优缺点比较
• 主成分分析 优点:首先它利用降维技术用少数几个综合变量来代替 原始多个变量,这些综合变量集中了原始变量的大部分信 息.其次它通过计算综合主成分函数得分,对客观经济现象 进行科学评价.再次它在应用上侧重于信息贡献影响力综 合评价. 缺点:当主成分的因子负荷的符号有正有负时,综合评价 函数意义就不明确.命名清晰性低.
12
2.750E-19
1.447E-18 100.000
13
-7.503E-17 -3.949E-16 100.000
14
-1.291E-16 -6.794E-16 100.000
15
-1.742E-16 -9.168E-16 100.000
16
-2.417E-16 -1.272E-15 100.000
四、主成分分析法的步骤
1数据归一化处理:数据标准化Z 2计算相关系数矩阵R: 3计算特征值;
特征值越大说明重要程度越大.
4计算主成分贡献率及方差的累计贡献率; 5计算主成分载荷与特征向量:
主成分分析法全

• 如果我们将xl 轴和x2轴先平移,再同时 按逆时针方向旋转角度,得到新坐标轴Fl和 F2。Fl和F2是两个新变量。
根据旋转变换的公式:
y y1 1 x1xc1soin sx2 xs2cio ns
y y 1 2 cs o in sc si o n s x x 1 2 U x
设有P维正交向量 a1 a11, a21,, ap1
F1 a11X1 L ap1X p aX
1
V
(F1)
a1a1
a1U
2
Ua1
p
1
a1
u1
,
u2
,L,
up
2
O
u1
u2 M
a1
p
up
p
iauiuia i1
p
i (aui )2 i1
1ip1(aui )2
1)贡献率:第i个主成分的方差在全部方差中所占
比重
i
p
i 1
i
,称为贡献率
,反映了原来P个指标多大
的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力, 用这k个主成分的方差和在全部方差中所占比重
k
p
i i
i1
i1
来描述,称为累积贡献率。
我们进行主成分分析的目的之一是希望用尽可能 少的主成分F1,F2,…,Fk(k≤p)代替原来的P个指 标。到底应该选择多少个主成分,在实际工作中,主 成分个数的多少取决于能够反映原来变量80%以上的信 息量为依据,即当累积贡献率≥80%时的主成分的个数 就足够了。最常见的情况是主成分为2到3个。
F 1
主 成
F2
•• • • •
分 分 析 的 几 何
主成分分析

一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则系数l ij 的确定原则:①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关;②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。
新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X ΛM M M ΛΛ212222111211⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p pp x l x l x l z x l x l x l z x l x l x l z ΛΛΛ22112222121212121111............p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。
主成分分析

引言:主成分分析也称主分量分析,是由霍特林于1933 年首先提出的。
主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。
通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。
这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使得问题得到简化,提高分析效率。
本文用主成分分析的方法对某市14 家企业的经济效益进行分析。
[1] 在处理涉及多个指标问题的时候,为了提高分析的效率可以不直接对p 个指标构成的P维随机向量X=(X1, X2, X3, , Xp)进行分析,而是先对向量x进行线性变换,形成少数几个新的综合变量,使得个综合变量之间相互独立且能解释原始变量尽可能多的信息,这样在意损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。
主成分的基本思想就是在保留原始变量尽可能多的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。
而这里对于随机变量X1,X2,X3,……,Xp而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵我们所说的保留原始变量尽可能多的信息,也就是指生成的较少的综合变量 (主成分)的方差和尽可能接近原始变量方差的总和。
因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。
一般来说从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的本文我们用从原始变量的相关矩阵出发求得的主成分进行分析。
[5]一、材料与方法1.1数据材料表1 14 家企业的利润指标的统计数据1.2分析方法本文采用多元统计学方法,选取14家企业作为样本收集每家企业的8个不同的利润指标,利用spss统计软件做主成分分析,给出载荷阵,并通过载荷阵给出主成分系数表,写出主成分表达式以此给出14个企业的得分值,最后根据主成分构造一个综合性评价指标,对14个企业进行综合排名。
主成分分析(数学建模)

主成分分析
每个人都会遇到有很多变量的数据。
比如全国或各个地区的带有许多经济和社会变 量的数据;各个学校的研究、教学等各种变量 的数据等等。
这些数据的共同特点是变量很多,在如此多的 变量之中,有很多是相关的。人们希望能够找 出它们的少数“代表”来对它们进行描述。
本章就介绍两种把变量维数降低以便于描述、 理 解 和 分 析 的 方 法 : 主 成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子 分析的一个特例。在引进主成分分析之前,先 看下面的例子。
• 这里的Initial Eigenvalues就是这里的六个
主轴长度,又称特征值(数据相关阵的特
征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。
• 特征值的贡献还可以从SPSS的所谓碎石图看出
Scree Plot
4
3
2
1
0
1
2
3
4
5
6
Component Number
现:
1.analyze-description statisticdescription-save standardized as variables
2.analyze-data reduction-factor 3.指定参与分析的变量 4.运行factor 过程
• 对于我们的数据,SPSS输出为
成绩数据(student.sav)
100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
从本例可能提出的问题
目前的问题是,能不能把这个数据的6 个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信 息呢? 能不能利用找到的综合变量来对学生排 序呢?这一类数据所涉及的问题可以推 广到对企业,对学校进行分析、排序、 判别和分类等问题。
主成分分析法

设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 二、主成分分析的基 Nhomakorabea思想及步骤
1、基本思想
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2、步骤
Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。 A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。 进行主成分分析主要步骤如下: 1. 指标数据标准化(SPSS软件自动执行); 2. 指标之间的相关性判定; 3. 确定主成分个数m; 4. 主成分Fi表达式; 5. 主成分Fi命名;
第五章 因子分析和主成分分析

3. 子得分
计算因子得分的途径是用原有变量来描述因子, 第j个因子在第i个样本上的值可表示为: Fji = j1xi1 + j2xi2 +…+ jpxip (j = 1,2,…,k) 式中,xi1,xi2,…,xip分别是第1,2,…,p个原 有变量在第i个样本上的取值,j1,j2,…,jp分别 是第j个因子和第1,2,…,k个原有变量间的因子值 系数。可见,它是原有变量线性组合的结果(与因子 分析的数学模型正好相反),因子得分可看作各变量 值的加权(j1,j2,…,jp)总和,权数的大小表示了 变量对因子的重要程度。
用数据矩阵X的p个列向量(即p个指标向量)X1, X2,…,Xp作线性组合,得综合指标向量: F1 a11 X 1 a21 X 2 ... a p1 X p F a X a X ... a X 2 12 1 22 2 p2 p ...... Fp a1 p X 1 a2 p X 2 ... a pp X p 简写成: Fi = a1iX1 + ai2X2 +…+apiXp i = 1,2,…,p
2. 因子旋转(正交变换)
所谓因子旋转就是将因子载荷矩阵A右乘一个正交 矩阵T后得到一个新的矩阵A*。它并不影响变量Xi的 共同度hi2,却会改变因子的方差贡献qj2。因子旋转 通过改变坐标轴,能够重新分配各个因子解释原始 变量方差的比例,使因子更易于理解。
设p维可观测向量X满足因子模型:X = AF +ε。T为 正交阵,则因子模型可写为 X = ATT'F +ε = A*F* +ε 其中A* = AT,F* = T'F。 易知,∑ = AA' + D = A*A*' + D(其中A* = AT)。这 说明,若A,D是一个因子解,任给正交阵T,A* = AT, D也是因子解。在这个意义下,因子解是不惟一的。 由于因子载荷阵是不惟一的,所以可对因子载荷 阵进行旋转。目的是使因子载荷阵的结构简化,使 载荷矩阵每列或行的元素平方值向0和1两极分化, 这样的因子便于解释和命名。
主成分分析

一
主成分的定义
例4.1 对某小学10名9岁男学生六个项目的智力测量的得分 如表,习惯用各项目得分之和来表示学生的智力,这种做法
由上可见,主成分 实际上是原变量
的线性组合或综合变量,它们彼此是相
互独立的,且所有的主成分包含了原变量的所有的信息 。
二
Part 1 主成分的计算
主成分是原变量的一个线性组合,要求出主成分,
只要求出线性组合的系数即可。 (1)首先计算原变量m个指标的相关系数矩阵。
二
Part 1 主成分的计算
主成分是原变量的一个线性组合,要求出主成分,
研究项目的某个中间环节中。
如,它用在多元回归中,便产生了主成分回归;它还 用于聚类、判别分析等。 下面介绍主成分评价和主成分回归。
主成分评价
医学研究中常需对患者的健康状况、医院的效益、
卫生资源的利用进行评价,而这类评价总是要求比较
全面的,从各个方面用多个指标进行测量,最后进行
综合以便得到较为客观的评价。会产生问题: 各指标量纲不同,不可直接加起来,需消除量纲影响; 各指标往往不独立,直接加起来会有信息重叠; 在相加时如何确定各指标的权重系数。
(1)标准化数据。
(2)计特征和特征向量。 (3)计算主成分
(4)用第一主成分进行分析。
(5)用前两个主成分进行分析。
(6)用前k个主成分进行分析。将它们按相应主成分
的贡献加权求和,得到主成分综合值,进行综合评价。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 主成分分析 一、填空题
1.主成分分析就是设法将原来众多 的指标,重新组合成一组新的 的综合指标来代替原来指标。
2.主成分分析的数学模型可简写为 ,该模型的系数要求 。
3.主成分分析中,利用 的大小来寻找主成分。
4.第k 个主成分k y 的贡献率为 ,前k 个主成分的累积贡献率为 。
5.确定主成分个数时,累积贡献率一般应达到 ,在spss 中,系统默认为 。
6.主成分的协方差矩阵为_________矩阵。
7.原始变量协方差矩阵的特征根的统计含义是________________。
8.原始数据经过标准化处理,转化为均值为__ __,方差为__ __的标准值,且其________矩阵与相关系数矩阵相等。
9.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为________。
10.SPSS 中主成分分析采用______________命令过程。
二、判断题
1.主成分分析就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。
( )
2.主成分y 的协差阵为对角矩阵。
( ) 3.p x x x ,,,21 的主成分就是以∑的特征向量为系数的一个组合,它们互不相关,其方差为
∑的特征根。
( ) 4.原始变量i x 的信息提取率()m i V 表示这m 个主成分所能够解释第i 个原始变量变动的程度。
( )
5.在spss 中,可以直接进行主成分分析。
( ) 6.主成分分析可用于筛选回归变量。
( )
7.SPSS 中选取主成分的方法有两个:一种是根据特征根≥1来选取; 另一种是按照累积贡献率≥85%来选取。
( ) 8.主成分方差的大小说明了该综合指标反映p 个原始观测变量综合变动程度的能力的大小。
( )
9.主成分表达式的系数向量是协方差矩阵∑的特征向量。
( )
10.主成分k y 与原始变量i x 的相关系数()i k x y ,ρ反映了第k 个公共因子对第i 个原始变量的解释程度。
( ) 三、简答题
1.简述主成分的概念及几何意义。
2.主成分分析的基本思想是什么? 3.简述主成分分析的计算步骤。
4.主成分有哪些性质?
5.主成分主要应用在哪些方面? 四、计算题
1.假设3个变量1x 、2x 和3x 的协方差矩阵为:
⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡--=∑20
05
3
032 要求用此协差阵和相应的相关阵对这3个变量进行主成分分析,根据计算结果说明应选取多
少个主成分以代表原来的3个变量,并说明理由。
2.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:
(2)计算前三个主成分各自的贡献率和累积贡献率。
(3)对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断。
3.假设某商场棉鞋1x 、凉鞋2x 、布鞋3x 三种商品销售量的协方差矩阵如下:
⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡--=∑20
05
2
021 试求各主成分,并对各主成分的贡献率和各个原始观测变量的信息提取率进行讨论。
4.对某市15个大中型工业企业进行经济效益分析,经研究确定,从有关经济效益指标中选取7个指标作分析,即固定资产产值率(X1),固定资产利税率(X2),资金利润率(X3),资金利税率(X4),流动资金周转天数(X5),销售收入利税率(X6)和全员劳动生产率(X7)。
数据资料如下:
根据下面SPSS 软件的输出信息,回答:
(1)这个数据的7个变量可以用几个综合变量(主成分)来表示? (2)这几个综合变量(主成分)包含有多少原来的信息? (3)写出这几个综合变量(主成分)的模型。
Total Variance Explained
Component Matrix(a)
a 2 components extracted.
五、证明题
主成分有三个重要性质: ⑴F 的协差阵为对角阵Λ; ⑵
1
1
p
p
ii
i i i σ
λ===∑∑;
⑶(),k i F X ρ=
;
试分别加以证明。
六、SPSS 操作题
1.下面是8个学生两门课程的成绩表:
(1)求出两个特征根及其对应的单位特征向量;
(2)求出主成分,并写出表达式;
(3)求出主成分的贡献率,并解释主成分的实际意义;
(4)求出两个主成分的样本协方差矩阵;
(5)第1个样本主成分与第2个变量样本之间的相关系数为多少
(6)求出8个学生第一主成分得分并进行排序
2.某中学十二名女生的身高x1,体重x2的数据如下:
(1)两个变量的协方差矩阵与相关系数阵;
(2)两个特征根及其对应的单位特征向量;
(3)主成分的表达式并解释各贡献率的大小意义和主成分的实际意义;(4)如果舍弃主成分y2,则哪一个原变量的信息损失量最大;
(5)画出全部样本的主成分散点图。
3.根据下列某地区11年数据
(2)求特征根及其对应的特征向量。
(3)求出主成分及每个主成分的方差贡献率;
(4)利用主成分方法建立y与x1,x2,x3的回归方程(取两个主成分)。