主成分分析法教案

主成分分析法

一、主成分分析（principal components analysis ）也称为主分量分析，是由Holtelling 于1933年首先提出的。主成分分析是利用降维的思想，把多指标转化为少数几个综合指标的多元统计分析方法。

二、应用背景：对同一个体进行多项观察时，必定涉及多个随机变量X1，X2，…，Xp ，它们都是相关的, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息，而且希望综合指标互相独立地各代表某一方面的性质。

任何一个度量指标的好坏除了可靠、真实之外，还必须能充分反映个体间的变异。如果有一项指标，不同个体的取值都大同小异，那么该指标不能用来区分不同的个体。由这一点来看，一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。

例1、考察对象股票业绩（这里单个股票为观察个体）。（1）确定影响股票业绩主要因素：主营业务收入（X1），主营业务利润（X2）利润总额（X3），净利润（X4），总资产（X5），净资产（X6），净资产收益率（X7），每股权益（X8），每股收益（X9），每股公积金（X10），速动比率（X11）作为变量。

因此对单个股票来说，用11个随机变量综合刻化。但这些因素过多，各因素区别不明显，有交叉反映。通过主成分分析，可降为少数几个综合指标加以刻化。

（2）考察20支不同的股票。从数学角度看，每种影响因素是随机变量（X i ），观察一支股票便得到影响该股票的11个随机变量取值；观察20支股票，便得到了20×11的原始数据阵X20×11（略）。三、问题：作为主成分？严格的数学定义？相应的性质有哪些？主成分取多少？

1、主成分的一般定义

设有随机变量X1，X2，…，Xp ，其样本均数记为1X ，2X ，…，p X

，样本标准差记为S1，S2，…，Sp 。首先作标准化变换

S X X x -=

我们有如下的定义：

(1) 若Y1=a11x1+a12x2+ … +a1pxp ，1

21212211=+++p a a a ，且使 Var(Y1)最大，则称Y1为第一主成分；

(2) 若Y 2=a21x1+a22x2+…+a2pxp，122222221=+++p a a a ，(a21，a22，…，

a2p)垂直于(a11，a12，…，a1p)，且使Var(Y2)最大，则称Y2为第二主成分；

(3) 类似地，可有第三、四、五…主成分，至多有p 个。

2、主成分的性质：Y1，Y2，…，Yp 具有如下几个性质

(1) 主成分间互不相关，即对任意i 和j ，Yi 和Yj 的相关系数

Corr(Yi ，Yj)=0 i ≠ j

(2) 组合系数(ai1，ai2，…，aip)构成的向量为单位向量，

2221=+++ip i i a a a

(3) 各主成分的方差是依次递减的，即

Var(Y1)≥Var(Y2)≥…≥Var(Yp)

(4) 总方差不增不减，即

Var(Y1)+Var(Y 2)+ … +Var(Yp)

=Var(x1)+Var(x2)+ … +Var(xp)

这一性质说明：主成分是原变量的线性组合，是对原变量信息的一种改组，主成分不增加总信息量，也不减少总信息量。

(5) 主成分和原变量的相关系数 Corr(Yi ，

i λ

(6) 令X1，X2，…，Xp 的相关矩阵为R, (ai1，ai2，…，aip)则是相关矩阵R 的第i 个特征向量(eigenvector)。而且，特征值λi 就是第i 主成分的方差，即

Var(Yi)= λi

其中λi 为相关矩阵R 的第i 个特征值(eigenvalue)

λ1≥λ2≥…≥λp ≥0

3、主成分的数目的选取

前已指出，设有p 个随机变量，便有p 个主成分。由于总方差不增不减，Y1，Y2等前几个综合变量的方差较大,而Yp ，Yp-1等后几个综合变量的方差较小, 严格说来，只有前几个综合变量才称得上主(要)成份，后几个综合变量实为“次”(要)成份。实践中总是保留前几个，忽略后几个。

保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率)，它标志着前几个主成分概括信息之多寡。实践中，粗略规定一个百分比（一般为80%）便可决定保留几个主成分；如果多留一个主成分，累积方差增加无几，便不再多留。

四、主成分分析的一般步骤

1、设观察个体的变量指标为x 1，x 2，…，x p ，它们的综合指标——主成分为z 1，z 2，…，z m （m≤p ），则

111112211122

p p

m m m mp p z l x l x l x z l x l x l x

?=+++?

??=+++?

z 1，z 2，…，z m 分别称为原变量指标x 1，x 2，…，x 6的第一，第二，…，第m 主成分。

设有随机变量x 1，x 2，…，x p ，其样本均数记为1x ，2x ，…，p x ，样本标准差记为S 1，S 2，…，S p 。首先作标准化变换

S X X x -=

3、计算相关系数矩阵，对应的特征值1p λλ (按从大到小排列)及其对应的特征向量

Matlab 命令：

(1)R= corrcoef(X) (2)[b,c]=eigs(R)

4．计算主成分贡献率及累计贡献率

类似形式结果：

5．计算主成分载荷

(,1,26)ij ij l i j ==

ij i e λ为对应的标准化的特征向量的第j 分量

类似形式结果：

6．进行结果分析类似形式：

▲ 第一主成分z1与x1，x3，x4，x5，x8，x9有较大的正相关，可以看作是流域盆地规模的代表；

▲ 第二主成分z2与x2有较大的正相关，与x7有较大的负相关，分可以看作是流域侵蚀状况的代表；

▲ 第三主成分z3与x6有较大的正相关，可以看作是河系形态的代表；

▲ 根据主成分载荷，该流域系统的9项要素可以被归纳为三类，即流域盆地的规模，流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表，则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。

例2、主成分分析方法应用实例

1) 实例1: 流域系统的主成分分析（张超，1984）

表3.5.1（点击显示该表）给出了某流域系统57个流域盆地的9项变量指标。其中，x1代表流域盆地总高度（m），x2代表流域盆地山口的海拔高度（m），x3代表流域盆地周长（m），x4

代表河道总长度（m），x5代表河道总数，x6代表平均分叉率，x7代表河谷最大坡度（度），x8代表河源数，x9代表流域盆地面积（km2）。

注：表中数据详见书本87和88页。

(1) 分析过程：

①将表3.5.1中的原始数据作标准化处理，然后将它们代入相关系数公式计算，得到相关系数矩阵（表3.5.2）。

②由相关系数矩阵计算特征值，以及各个主成分的贡献率与累计贡献率（见表3.5.3）。由表3.5.3可知，第一，第二，第三主成分的累计贡献率已高达86.5%，故只需求出第一、第二、第三主成分z1，z2，z3即可。

z3上的载荷

（表3.5.4）。

(2) 结果分析：

▲ 第一主成分z1与x1，x3，x4，x5，x8，x9有较大的正相关，可以看作是流域盆地规模的代表；

▲ 第二主成分z2与x2有较大的正相关，与x7有较大的负相关，分可以看作是流域侵蚀状况的代表；

▲ 第三主成分z3与x6有较大的正相关，可以看作是河系形态的代表；

(2) 实例之二：

中国大陆31个省（市、区）第三产业综合发展水平的主成分分析与评估

聚类分析

聚类分析就是用数学方法对事物进行分类，如（1）我们可以根据学校的师资、设备、学生的情况，将大学分成一流大学，二流大学等；（2）国家之间根据其发展水平可以划分为发达国家、发展中国家；环境优劣分类等。聚类分析一种多元统计方法。

基本思想：

（1）确定观察个体的观测指标，找出能够度量相似程度的统计量；

（2）建立相似关系矩阵R。

（3）把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，关系密切的聚

合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到

把所有的样品（或指标）聚合完毕。

（4）分类结果可以用聚类谱系图表现，非常清楚直观。

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是最有活力的软件。它起源于矩阵运算，并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 （1）在（3.5.3）式中，r ij （i ，j=1，2，…，p ）为原变量的xi 与xj 之间的相关系数，其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( （2）因为R 是实对称矩阵（即r ij =r ji ），所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量首先解特征方程0=-R I λ，通常用雅可比法（Jacobi ）求出特征值 ),,2,1(p i i =λ，并使其按大小顺序排列，即0,21≥≥≥≥p λλλ ；然后分别求出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1，即112 =∑=p j ij e ，其中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二，…，第m （m ≤p ）个主成分。 ④ 计算主成分载荷其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ （3）

主成分分析法总结

主成分分析法总结在实际问题研究中，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，人们会很自然地想到，能否在相关分析的基础上，用较少的新变量代替原来较多的旧变量，而且使这些较少的新变量尽可能多地保留原来变量所反映的信息？一、概述在处理信息时，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠，例如，高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性；学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。为了解决这些问题，最简单和最直接的解决方案是削减变量的个数，但这必然又会导致信息丢失和信息不完整等问题的产生。为此，人们希望探索一种更为有效的解决方法，它既能大大减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数，并已得到广泛应用的分析方法。主成分分析以最少的信息丢失为前提，将众多的原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点： ↓主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后，因子将可以替代原有变量参与数据建模，这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍，而是原有变量重组后的结果，因此不会造成原有变量信息的大量丢失，并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关通过主成分分析得出的新的综合指标（主成分）之间互不相关，因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性总之，主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子，如何使因子具有一定的命名解释性的多元统计分析方法。主成分分析的具体步骤如下：（1）计算协方差矩阵计算样品数据的协方差矩阵：Σ=(s ij )p ?p ，其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ，j=1，2，…，p （2）求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差，i λ对应的单位特征向量 i a 就是主成分Fi 的关于原变量的系数，则原变量的第i 个主成分Fi 为：

主成分分析法精华讲义及实例

主成分分析类型：一种处理高维数据的方法。降维思想：在实际问题的研究中，往往会涉及众多有关的变量。但是，变量太多不但会增加计算的复杂性，而且也会给合理地分析问题和解释问题带来困难。一般说来，虽然每个变量都提供了一定的信息，但其重要性有所不同，而在很多情况下，变量间有一定的相关性，从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”，用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息，通过对新变量的分析达到解决问题的目的。一、总体主成分 1.1 定义设 X 1，X 2，…，X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1，X 2，…,Xp)T ，其协方差矩阵为 ()[(())(())], T ij p p E X E X X E X σ?∑==-- 它是一个 p 阶非负定矩阵。设 1111112212221122221122T p p T p p T p p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X ?==+++? ==+++?? ??==+++? （1）则有 ()(),1,2,...,, (,)(,),1,2,...,. T T i i i i T T T i j i j i j V ar Y V ar l X l l i p C ov Y Y C ov l X l X l l j p ==∑===∑= （2）第 i 个主成分：一般地，在约束条件 1T i i l l =

及 (,)0,1,2,..., 1.T i k i k C ov Y Y l l k i =∑==- 下，求 l i 使 Var(Y i )达到最大，由此 l i 所确定的 T i i Y l X = 称为 X 1，X 2，…，X p 的第 i 个主成分。 1.2 总体主成分的计算设 ∑是12(,,...,) T p X X X X =的协方差矩阵，∑的特征值及相应的正交单位化特征向量分别为 120p λλλ≥≥≥≥ 及 12,,...,, p e e e 则 X 的第 i 个主成分为 1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= （3）此时 (),1,2,...,,(,)0,. T i i i i T i k i k V ar Y e e i p C ov Y Y e e i k λ?=∑==??=∑=≠?? 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差记 12(,,...,) T p Y Y Y Y = 为主成分向量，则 Y=P T X ，其中12(,,...,)p P e e e =，且 12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ= 由此得主成分的总方差为 1 1 1 ()()()()(),p p p T T i i i i i i V ar Y tr P P tr P P tr V ar X λ ==== =∑=∑=∑= ∑∑∑ 即主成分分析是把 p 个原始变量 X 1，X 2，…，X p 的总方差

主成分分析-实例

§8 实例实例1 计算得 1x =71.25，2x =67.5 分析1：基于协差阵∑ 求主成分。 369.6117.9117.9214.3S ?? = ??? 特征根与特征向量（Ｓ无偏，用SPSS ） Factor 1 Factor 2 11x x - 0.880 -0.474 22x x - 0.474 0.880 特征值 433.12 150.81 贡献率 0.7417 0.2583 注：样本协差阵为无偏估计11(11)1n n n S X I X n n ''= --，所以，第一、二主成分的表达式为 112212 0.88(71.25)0.47(67.5) 0.47(71.25)0.88(67.5)y x x y x x =-+-?? =--+-? 第一主成分是英语与数学的加权和（反映了综合成绩），且英语的权数要大于数学的权数。1y 越大，综合成绩越好。（综合成分）第二主成分的两个系数异号（反映了两科成绩的均衡性）。不妨将英语称为文科，数学称为理科。2y 越大，说明偏科（文、理成绩不均衡），2y 越小，越接近于零，说明不偏科（文、理成绩均衡）。（结构成分）

问题：英语的权数为何大？如何解释？分析2：基于相关阵R 求主成分。因为 1x =71.25，2x =67.5 所以相关阵 11R ? =? ? ? 解得R 的特征根为：1λ=1.419，2λ=0.581，对应的单位特征向量分别为： Factor 1 Factor 2 11 1x x s - 0.707 0.707 22 2 x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率 0.709 0.291 所以，第一、二主成分的表达式为 12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --? =+=+?? ? --?=-=-?? 1122120.039(71.25)0.052(67.5) 0.039(71.25)0.052(67.5)y x x y x x =-+-?? =---? 112212 0.0390.052 6.273 0.0390.0520.671y x x y x x =+-?? =-+? * 2*11707.0707.0x x y += *2*12707.0707.0x x y -= 基于相关阵的更说明了：第一主成分是英语与数学的加权总分。第二主成分是对两科成绩均衡性的度量。此例说明：基于协差阵与基于相关阵的主成分分析的结果不一致。结合此例的实际背景，经对比分析可知，基于协差阵的主成分分析更符合实际。

主成分分析法实例

1、主成分法：用主成分法寻找公共因子的方法如下：假定从相关阵出发求解主成分，设有p 个变量，则可找出p 个主成分。将所得的p 个主成分按由大到小的顺序排列，记为1Y ，2Y ，…，P Y ，则主成分与原始变量之间存在如下关系： 11111221221122221122....................p p p p p p p pp p Y X X X Y X X X Y X X X γγγγγγγγγ=+++?? =+++??? ?=+++? 式中，ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量，因为特征向量之间彼此正交，从X 到Y 得转换关系是可逆的，很容易得出由Y 到 X 得转换关系为： 11112121212122221122....................p p p p p p p pp p X Y Y Y X Y Y Y X Y Y Y γγγγγγγγγ=+++?? =+++??? ?=+++? 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替，则上式变为： 111121211 2121222221122................. ...m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++??=++++????=++++? 上式在形式上已经与因子模型相一致，且i Y （i=1,2，…，m ）之间相互独立，且i Y 与i ε之间相互独立，为了把i Y 转化成合适的公因子，现在要做的工作只是把主成分i Y 变为方差为1的变量。为完成此变换，必须将i Y 除以其标准差，由主成分分析的知识知其标准差即为特征根的平方根 i λ/i i i F Y λ=， 1122m m λγλγλγ，则式子变为：

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理概念：主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看，这是一种降维处理技术。思路：一个研究对象，往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性，利用原变量之间的相关关系，用较少的新变量代替原来较多的变量，并使这些少数变量尽可能多的保留原来较多的变量所反应的信息，这样问题就简单化了。原理：假定有n 个样本，每个样本共有p 个变量，构成一个n ×p 阶的数据矩阵，记原变量指标为x 1，x 2，…，x p ，设它们降维处理后的综合指标，即新变量为 z 1，z 2，z 3，… ，z m (m ≤p)，则系数l ij 的确定原则： ①z i 与z j （i ≠j ；i ，j=1，2，…，m ）相互无关； ②z 1是x 1，x 2，…，x P 的一切线性组合中方差最大者，z 2是与z 1不相关的x 1，x 2，…，x P 的所有线性组合中方差最大者； z m 是与z 1，z 2，……，z m －1都不相关的x 1，x 2，…x P ，的所有线性组合中方差最大者。新变量指标z 1，z 2，…，z m 分别称为原变量指标x 1，x 2，…，x P 的第1，第2，…，第m 主成分。从以上的分析可以看出，主成分分析的实质就是确定原来变量x j （j=1，2 ，…， p ）在诸主成分z i （i=1，2，…，m ）上的荷载 l ij （ i=1，2，…，m ； j=1，2 ，…，p ）。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

主成分分析案例

姓名：XXX 学号：XXXXXXX 专业：XXXX 用SPSS19软件对下列数据进行主成分分析： ……

一、相关性通过对数据进行双变量相关分析，得到相关系数矩阵，见表1。表1 淡化浓海水自然蒸发影响因素的相关性由表1可知：辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。分析：各变量之间存在着明显的相关关系，若直接将其纳入分析可能会得到因多元共线性影响的错误结论，因此需要通过主成份分析将数据所携带的信息进行浓缩处理。二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性，取值范围是0～1。KMO的结果越接近1，表示变量之间的偏相关性越好，那么进行主成分分析的效果就会越好。实际分析时，KMO统计量大于0.7时，效果就比较理想；若当KMO统计量小于0.5时，就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵，在主成分分析中，若拒绝各变量独立的原假设，则说明可以做主成分分析，若不拒绝原假设，则说明这些变量可能独立提供一些信息，不适合做主成分分析。

由表2可知： 1、KMO=0.631＜0.7，表明变量之间没有特别完美的信息的重叠度，主成分分析得到的模型又可能不是非常完善，但仍然值得实验。 2、显著性小于0.05，则应拒绝假设，即变量间具有较强的相关性。三、公因子方差公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。由表3可知：几乎所有变量共同度都达到了75%，可认为这几个提取出的主成分对各个变量的阐释能力比较强。四、解释的总方差解释的总方差给出了各因素的方差贡献率和累计贡献率。

主成分分析法PCA的原理

主成分分析法原理简介 1.什么是主成分分析法主成分分析也称主分量分析，是揭示大样本、多变量数据或样本之间内在关系的一种方法，旨在利用降维的思想，把多指标转化为少数几个综合指标，降低观测空间的维数，以获取最主要的信息。在统计学中，主成分分析（principal components analysis, PCA）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。 2.主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。对同一个体进行多项观察时必定涉及多个随机变量X1，X2，…，X p，它们之间都存在着相关性，一时难以综合。这时就需要借助主成分分析来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息，而且希望综合指标互相独立地各代表某一方面的性质。

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中，我们经常会遇到研究多个变量的问题，而且在多数情况下，多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性，势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量，既能够代表原始变量的绝大多数信息，又互不相关，并且在新的综合变量基础上，可以进一步的统计分析，这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型（一）主成分分析的基本思想主成分分析是采取一种数学降维的方法，找出几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是设法将原来众多具有一定相关性的变量，重新组合为一组新的相互无关的综合变量来代替原来变量。通常，数学上的处理方法就是将原来的变量做线性组合，作为新的综合变量，但是这种组合如果不加以限制，则可以有很多，应该如何选择呢？如果将选取的第一个线性组合即第一个综合变量记为1F ，自然希望它尽可能多地反映原来变量的信息，这里“信息”用方差来测量，即希望)(1F Var 越大，表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的，故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息，再考虑选取2F 即第二个线性组合，为了有效地反映原来信息，1F 已有的信息就不需要再出现在2F 中，用数学语言表达就是要求 0),(21=F F Cov ，称2F 为第二主成分，依此类推可以构造出第三、四……第p 个主成分。（二）主成分分析的数学模型对于一个样本资料，观测p 个变量p x x x ,,21，n 个样品的数据资料阵为： ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在统计学中，主成分分析（ principal components analysis,PCA ）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。 [ 编辑 ] ， PCA ）又称：主分量分析，主成分回归分析法主成分分析（ principal components analysis

主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。同样，在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。如上所述，主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。上述想法可进一步概述为：设某科普效果评估要素涉及个指标，这指标构成的维随机向量为。对作正交变换，令，其中为正交阵，的各分量是不相关的，使得的各分量在某个评估要素中的作用容易解释，这就使得我们有可能从主分量中选择主要成分，削除对这一要素影响微弱的部分，通过对主分量的重点分析，达到对原始变量进行分析的目的。的各分量是原始变量线性组合，不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系，主成分分析使我们能从错综复杂的科普评估要素的众多指标中，找出一些主要成分，以便有效地利用大量统计数据，进行科普效果评估分析，使我们在研究科普效果评估问题中，可能得到深层次的一些启发，把科普效果评估研究引向深入。例如，在对科普产品开发和利用这一要素的评估中，涉及科普创作人数百万人、科普作品发行量百万人、科普产业化（科普示范基地数百万人）等多项指标。经过主成分分析计算，最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标，变量数减少，并达到一定的可信度，就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

主成分分析计算方法和步骤

主成分分析计算方法和步骤：在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。结合数据进行分析本题分析的是全国各个省市高校绩效评价，利用全国2014年的相关统计数据(见附录)，从相关的指标数据我们无法直接评价我国各省市的高等教育绩效，而通过表5-6的相关系数矩阵，可以看到许多的变量之间的相关性很高。如：招生人数与教职工人数之间具有较强的相关性，教育投入经费和招生人数也具有较强的相关性，教工人数与本科院校数之间的相关系数最高，到达了0.963，而各组成成分之间的相关性都很高，这也充分说明了主成分分析的必要性。表5-6 相关系数矩阵本科院校数招生人数教育经费投入相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

主成分分析法介绍.doc

主成分分析方法我们进行系统分析评估或医学上因子分析等时，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，我们就会很自然地想到，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上，这种想法是可以实现的，本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。假定有 n 样本，每个样本共有 p 个变量描述，这样就构成了一个 n×p阶的数据矩阵： x 11 x 12 ... x 1 p x 21 x 22 ... x 2 p X ... ... ... ????(1) ... x n1 x n 2 ... x np

如何从这么多变量的数据中抓住事物的内在规律性呢要解决这一问题，自然要在 p 维空间中加以考察，这是比较麻烦的。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标来代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息，同时它们之间又是彼此独立的。那么，这些综合指标（即新变量 )应如何选取呢显然，其最简单的形式就是取原来变量指标的线性组合，适当调整组合系数，使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为 x 1 , x 2 , x p ，它们的综合指标 —— 新变量指标为 z 1 , z 2 ， z m （ m ≤p)。则 z 1 l 11x 1 l 12 x 2 l 1 p x p z 2 l 21 x 1 l 22 x 2 l 2 p x p (2) z m l m1x 1 l m2 x 2 l mp x p 在（ 2)式中，系数 l ij 由下列原则来决定：（ 1)z i 与 z j （ i ≠j；i ，j=1，2，， m)相互无关；（ 2)z 1 是 x 1，x 2，?，x p 的一切线性组合中方差最大者； z 2 是与 z 1 不相关的 x 1， x 2，?，x p 的所有线性组合中方差最大者；；z m 是与 z 1，z 2，??z m-1 都不相关的 x 1， x 2， ?， x p 的所有线性组合中方差最大者。

主成分分析方法及matlab运用解释

主成分分析方法在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，我们就会很自然地想到，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上，这种想法是可以实现的，这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。一、主成分分析的基本原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。假定有n 个地理样本，每个样本共有p 个变量描述，这样就构成了一个n×p 阶的地理数据矩阵： 11 12121 2221 2 p p n n np x x x x x x X x x x ???=? ???（1）如何从这么多变量的数据中抓住地理事物的内在规律性呢要解决这一问题，自然要在p 维空间中加以考察，这是比较麻烦的。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标来代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息，同时它们之间又是彼此独立的。那么，这些综合指标（即新变量)应如何选取呢显然，其最简单的形式就是取原来变量指标的线性组合，适当调整组合系数，使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为x 1，x 2，…，x p ，它们的综合指标——新变量指标为z 1，z 2，…，zm （m≤p)。则 11111221221122221122 ,,.........................................,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++?? =+++?? ??=+++?（2）在（2)式中，系数l ij 由下列原则来决定：

主成分分析计算方法和步骤

在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。结合数据进行分析本题分析的是全国各个省市高校绩效评价，利用全国2014年的相关统计数据(见附录)，从相关的指标数据我们无法直接评价我国各省市的高等教育绩效，而通过表5-6的相关系数矩阵，可以看到许多的变量之间的相关性很高。如：招生人数与教职工人数之间具有较强的相关性，教育投入经费和招生人数也具有较强的相关性，教工人数与本科院校数之间的相关系数最高，到达了，而各组成成分之间的相关性都很高，这也充分说明了主成分分析的必要性。表5-6 相关系数矩阵本科院校数招生人数教育经费投入相关性师生比重点高校数教工人数本科院校数招生人数教育经费投入

师生比重点高校数教工人数相关性师生比重点高校数教工人数本科院校数招生人数教育经费投入（元）表5-7给出的是各主成分的方差贡献率和累计贡献率，我们选取主成分的标准有两个：第一，特征根大于1，因为，如果特征根小于1，说明该主成分的解释力度太弱，还比不上直接引入一个原始变量的平均解释力度大；第二，方差贡献率大于85%，如果这两个标准不能同时符合要求,则往往是因为选择的指标不合理或者样本容量太小,应继续调整。表5-7还显示，只有前2个特征根大于1，因此SPSS只提取了前两个主成分，而这两个主成分的方差贡献率达到了%，因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。

主成分分析法概念及例题

主成分分析法主成分分析（principal components analysis，PCA）又称：主分量分析，主成分回归分析法 [编辑] 什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。同样，在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。如上所述，主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。上述想法可进一步概述为：设某科普效果评估要素涉及个指标，这指标构成的维随机向量为。对作正交变换，令，其中为正交阵，的各分量是不相关的，使得的各分量在某个评估要素中的作用容易解释，这就使得我们有可能从主分量中选择主要成分，削除对这一要素影响微弱的部分，通过对主分量的重点分析，达到对原始变量进行分析的目的。的各分量是原始变量线性组合，不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系，主成分分析使我们能从错综复杂的科普评估要素的众多指标中，找出一些主要成分，以便有效地利用大量统计数据，进行科普效果评估分析，使我们在研究科普效果评估问题中，可能得到深层次的一些启发，把科普效果评估研究引向深入。例如，在对科普产品开发和利用这一要素的评估中，涉及科普创作人数百万人、科普作品发行量百万人、科普产业化（科普示范基地数百万人）等多项指标。经过主成分分析计算，最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标，变量数减少，并达到一定的可信度，就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

主成分分析分析法

第四节主成分分析方法地理环境是多要素的复杂系统，在我们进行地理系统分析时，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，我们就会很自然地想到，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息？事实上，这种想法是可以实现的，本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。假定有n 个地理样本，每个样本共有 p 个变量描述，这样就构成了一个 n xp 阶的地理数据矩阵：如何从这么多变量的数据中抓住地理事物的内在规律性呢？要解决这一问题，自然要在p 维空间中加以考察，这是比较麻烦的。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标来代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息，同时它们之间又是彼此独立的。那么，这些综合指标(即新变量 )应如何选取呢？显然，其最简单的形式就是取原来变量指标的线性组合，适当调整组合系数，使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为X i ，为 X i ，X 2，…，zm (mep)。贝U 坷"】內+G 衍++l]p% X 2，…，X P ，它们的综合指标新变量指标

在(2)式中，系数l j由下列原则来决定: (1)乙与z j (i工j ；i , j=1 , 2,…,m)相互无关; (2) ............................................................................................................... z i是x i，X2，…，X P的一切线性组合中方差最大者；Z2是与z i不相关的X i, X2，…，X P的所有线性组合中方差最大者；；Z m是与Z i，乙， ..................................... Z m-1都不相关的X i, X2，…，X P的所有线性组合中方差最大者。这样决定的新变量指标z i, Z2，…，zm分别称为原变量指标X i, X2,…，X P 的第一，第二，…，第m主成分。其中，乙在总方差中占的比例最大，z2,Z3,…, z m的方差依次递减。在实际问题的分析中，常挑选前几个最大的主成分，这样既减少了变量的数目，又抓住了主要矛盾，简化了变量之间的关系。从以上分析可以看出，找主成分就是确定原来变量X j (j=i , 2,…，P)在诸主成分Z i (i=i , 2,…，m)上的载荷l j (i=i , 2,…，m j=i , 2,…，p)，从数学上容易知道，它们分别是X i, X2,…，X P的相关矩阵的m个较大的特征值所对应的特征向量。第二节主成分分析的解法主成分分析的计算步骤通过上述主成分分析的基本原理的介绍，我们可以把主成分分析计算步骤归纳如下： (i) 计算相关系数矩阵 IP J 在公式(3)中，九(i , j=i , 2,…，p)为原来变量X i与X j的相关系数，其计算公式为因为R是实对称矩阵(即r j=r j),所以只需计算其上三角元素或下三角元素即可。 (2) 计算特征值与特征向量

主成分分析法的原理应用及计算步骤

一、概述在处理信息时，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠，例如，高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性；学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。为了解决这些问题，最简单和最直接的解决方案是削减变量的个数，但这必然又会导致信息丢失和信息不完整等问题的产生。为此，人们希望探索一种更为有效的解决方法，它既能大大减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数，并已得到广泛应用的分析方法。主成分分析以最少的信息丢失为前提，将众多的原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点： ↓主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后，因子将可以替代原有变量参与数据建模，这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍，而是原有变量重组后的结果，因此不会造成原有变量信息的大量丢失，并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关通过主成分分析得出的新的综合指标（主成分）之间互不相关，因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性总之，主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子，如何使因子具有一定的命名解释性的多元统计分析方法。二、基本原理主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1，X2，…，XP （比如p 个指标），重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取，使其既能最大程度的反映原变量Xp 所代表的信息，又能保证新指标之间保持相互无关（信息不重叠）。设F1表示原变量的第一个线性组合所形成的主成分指标，即 11112121...p p F a X a X a X =+++,由数学知识可知，每一个主成分所提取的信息量可用其方差来度量，其方差Var(F1)越大，表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大，因此在所有的线性组合中选取的F1应该是X1，X2，…，XP 的所有线性组合中方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息，再考虑选取第二个主成分指标F2，为有效地反映原信息，F1已有的信息就不需要再出现在F2中，即F2与F1要保持独立、不相关，用数学语言表达就是其协方差Cov(F1, F2)=0，所以F2是与F1不