主成分分析法总结

合集下载

主成分分析法全

• 如果我们将xl 轴和x2轴先平移，再同时按逆时针方向旋转角度，得到新坐标轴Fl和 F2。Fl和F2是两个新变量。
根据旋转变换的公式：
y y1 1 x1xc1soin sx2 xs2cio ns
y y 1 2 cs o in sc si o n s x x 1 2 U x
设有P维正交向量 a1 a11, a21,, ap1
F1 a11X1 L ap1X p aX
1
V
(F1)
a1a1
a1U
2
Ua1
p
1
a1
u1
,
u2
,L,
up
2
O
u1
u2 M
a1
p
up
p
iauiuia i1
p
i (aui )2 i1
1ip1(aui )2
1）贡献率：第i个主成分的方差在全部方差中所占
比重
i
p
i 1
i
，称为贡献率
，反映了原来P个指标多大
的信息，有多大的综合能力。
2）累积贡献率：前k个主成分共有多大的综合能力，用这k个主成分的方差和在全部方差中所占比重
k
p
i i
i1
i1
来描述，称为累积贡献率。
我们进行主成分分析的目的之一是希望用尽可能少的主成分F1，F2，…，Fk（k≤p）代替原来的P个指标。到底应该选择多少个主成分，在实际工作中，主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据，即当累积贡献率≥80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。
F 1
主成
F2
•• • • •
分分析的几何

主成分分析法

主成分分析法一、主成分分析（principal components analysis ）也称为主分量分析，是由Holtelling 于1933年首先提出的。

主成分分析是利用降维的思想，把多指标转化为少数几个综合指标的多元统计分析方法。

二、应用背景：对同一个体进行多项观察时，必定涉及多个随机变量X1，X2，…，Xp ，它们都是相关的, 一时难以综合。

这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。

我们希望有一个或几个较好的综合指标来概括信息，而且希望综合指标互相独立地各代表某一方面的性质。

任何一个度量指标的好坏除了可靠、真实之外，还必须能充分反映个体间的变异。

如果有一项指标，不同个体的取值都大同小异，那么该指标不能用来区分不同的个体。

由这一点来看，一项指标在个体间的变异越大越好。

因此我们把“变异大”作为“好”的标准来寻求综合指标。

例1、考察对象股票业绩（这里单个股票为观察个体）。

（1）确定影响股票业绩主要因素：主营业务收入（X1），主营业务利润（X2）利润总额（X3），净利润（X4），总资产（X5），净资产（X6），净资产收益率（X7），每股权益（X8），每股收益（X9），每股公积金（X10），速动比率（X11）作为变量。

因此对单个股票来说，用11个随机变量综合刻化。

但这些因素过多，各因素区别不明显，有交叉反映。

通过主成分分析，可降为少数几个综合指标加以刻化。

（2）考察20支不同的股票。

从数学角度看，每种影响因素是随机变量（X i ），观察一支股票便得到影响该股票的11个随机变量取值；观察20支股票，便得到了20×11的原始数据阵X20×11（略）。

三、问题：作为主成分？严格的数学定义？相应的性质有哪些？主成分取多少？1、主成分的一般定义设有随机变量X1，X2，…，Xp ，其样本均数记为1X ，2X ，…，p X，样本标准差记为S1，S2，…，Sp 。

主成分分析概要

什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

[编辑]主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

如上所述，主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。

根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。

这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。

主成分分析法

主成分分析法什么事主成分分析法:主成分分析（principal components analysis , PCA 又称：主分量分析，主成分回归分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

主成分分析的基本思想：在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

如上所述，主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。

根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。

主成分分析法总结

主成分分析法：简介在用统计分析方法研究多变量的课题时，变量个数太多就会增加课题的复杂性。

人们自然希望变量个数较少而得到的信息较多。

在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

原理设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上用来降维的一种方法。

应用学科主成分分析作为基础的数学分析方法，其实际应用十分广泛，比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用，是一种常用的多变量分析方法。

基本思想主成分分析基本思想：主成分分析是数学上对数据降维的一种方法。

其基本思想是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

主成分分析法

主成分分析法1. 主成份分析：主成份分析是最经典的基于线性分类的分类系统。

这个分类系统的最⼤特点就是利⽤线性拟合的思路把分布在多个维度的⾼维数据投射到⼏个轴上。

如果每个样本只有两个数据变量，这种拟合就是其中和分别是样本的两个变量，⽽和则被称为loading,计算出的P值就被称为主成份。

实际上，当⼀个样本只有两个变量的时候，主成份分析本质上就是做⼀个线性回归。

公式本质上就是⼀条直线。

插⼊⼀幅图（主成份坐标旋转图，来⾃：PLS⼯具箱参考⼿册）如果⼀个样本有n个变量，那主成份就变为：其中PC1 称为第⼀主成份，⽽且，我们还可以获得⼀系列与PC这个直线正交的其它轴，如：被称为第⼆主成份以此类推，若令，此时向量A称为主成份的载荷(loading)，计算出的主成份的值PC称为得分(score)。

1. 主成份分析举例作为⼀个典型的降维⽅法，主成份分析在数据降维⽅⾯⾮常有⽤,⽽且也是所有线性降维⽅法的基础。

很多时候，如果我们拿着⼀个⾮常复杂的数据不知所措的话，可以先考虑⽤主成份分析的⽅法对其进⾏分解，找出数据当中的种种趋势。

在这⾥，我们利⽤数据挖掘研究当中⾮常常见的⼀个数据集对主成份分析的使⽤举例如下：1996年，美国时代周刊（Times）发表了⼀篇关于酒类消费，⼼脏病发病率和平均预期寿命之间关系的科普⽂章，当中提到了10个国家的烈酒，葡萄酒和啤酒的⼈均消费量（升/年）与⼈均预期寿命（年）⼀级⼼脏病发病率（百万⼈/年）的数据，这些数据单位不⼀，⽽且数据与数据之间仅有间接关系。

因此直接相关分析不能获得重要且有趣的结果。

另外⼀⽅⾯，总共只有10个国家作为样本，各种常见的抽样和假设检验在这⽅⾯也没有⽤武之地，我们看看⽤何种⽅法能够从这个简单的数据表中获得重要知识作为数据挖掘的第⼀步，⾸先应该观察数据的总体分布情况。

⽆论是EXCEL软件，还是R语⾔，我们都能够很⽅便的从下表中获得表征数据分布的条形图。

从图中可以看出，总共10个国家，有5类数据，由于各类数据性质各不相同，因此数值上⼤⼩也很不相同。

主成分分析法

主成分分析法1 引言对于整个数据，我们把对社区的满意度作为因变量，把年龄、性别、婚姻、文化、是否有未成年的孩子、是否有老人、家庭月均收入、经常居住的房屋类型、物业费这九个因素作为自变量，我们希望可以得到一个因变量和自变量的映射关系，使得我们可以通过确定自变量的值得出对应因的变量的值。

但是由于自变量的个数过多，映射会变得非常复杂，而且有很多的重复信息，我们希望可以通过某种方法找出最具代表性的少数自变量，可以通过较少的自变量就能确定因变量的值。

采用主成分分析法可以帮助我们解决这一问题。

2 原理主成分分析法即对原变量进行适当的变换，得到一组新的互相无关的几个综合变量，使数据都分布在新的变量组成的坐标系上，可以通过坐标系上的坐标确定原变量中的任意一个。

简而言之，就是将原变量的维数降低，利用低维数坐标表示高维数变量。

设代表原变量的矩阵为X ，为m n ⨯阶，每列代表每次实验产生的同一类数据，每行代表每次试验产生的各个种类的数据。

(考虑一般数据试验实验次数远远大于数据种类，我们认为m 远远大于n )例如对于某个实验，总共进行3次，每次试验将进行长度和重量两项测试，得到的数据矩阵为122431⎛⎫ ⎪ ⎪ ⎪⎝⎭其中第2行第三列数值为4，就说明第二次实验中的测得的重量为4。

对X 利用奇异值分解，可以得到TX WSV =其中，m m ⨯阶矩阵W 为T XX 的特征向量矩阵，而且是正交矩阵（T XX 为实对称矩阵，其特征向量矩阵一定为正交阵），n n ⨯阶矩阵V 为T X X 的特征向量矩阵，也是正交矩阵。

S 是半正定m n ⨯阶对角矩阵，对角线上的元素是X 的奇异值，S 被称为奇异矩阵，设S 中对角元素中非0的个数为k ，显然k n ≤ 令()TY XV W S V V W S ===由于S 是对角阵，则Y 只有前k 列为线性无关非o 向量，后面的列全部为0，则可以利用Y 的前k 列元素线性表示X 中所有列的元素，从而完成了对X 的降维。

主成分分析方法

主成分分析方法主成分分析方法是常用的一种统计分析方法,主要用于进行数据压缩或减少数据的维数[2]。

它是对一组相关的变量进行线性变换,得到一组维数不变但彼此互不相关的变量,亦即一组主成分。

由于各主成分是不相关的,因此可以认为它们是一组独立变量。

一般图像的线性变换可用下式表示:Y=TX (1)式中:X为待变换图像数据矩阵,Y为变换后的数据矩阵;T为实现这一线性变换的变换矩阵。

如果变换矩阵T是正交矩阵,并且它是由原始图像数据矩阵X的协方差矩阵S的特征向量所组成,则(1)式的线性变换称为主成分分析,并且变换后的数据矩阵的每一行矢量为主成分分析的一个主成分。

主成分分析的优点是消除了波段间的相互关系,减少了各波段提供信息的交叉和冗余,有利于分析。

同时,在分析过程中得到主要波段的合理权重,具有很好的客观性。

主成分分析法的主要步骤如下:(1)根据原始图像数据矩阵X,求出它的协方差矩阵S 以矩阵的形式表示多波段图像的原始数据如下:X=x11x12,x1nx21x22,x2ns s s sxn1xn1,xnn=[xij]m@n(2)矩阵X中,m,n分别为波段数和每幅图像中的像元数,矩阵中的每一行矢量表示一个波段的图像。

矩阵X的协方差矩阵S为:S=1n[X-Xl][X-Xl]T(3)式中:l=[1 1 , 1]1@n(4)X=[x1 x2 , x3]T(5)xi=1nEnk=1xik(第i波段的均值) (6)(2)求协方差矩阵S的特征值Ki和特征向量Ui,并组成变换矩阵T 求解特征方程(KI-S)U=0; 然后将特征值Ki按由小到大的顺序排列,求出对应特征值的单位特征向量Ui,以Ui为列构成矩阵U,U矩阵的转置矩阵,即UT为所求的变换矩阵T。

经过主成分变换后得到的新变量的各个行向量依次被称为第一主成分、第二主成分,,第m主成分,这时将新变量恢复为二维图像,便得到m个主成分图像。

主成分分析法

4，主成分分析法主成分分析（Principal Component Analysis，PCA），是一种统计方法。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

主成分分析首先是由K.皮尔森（Karl Pearson）对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。

信息的大小通常用离差平方和或方差来衡量。

②主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。

因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

③当主成分的因子负荷的符号有正有负时，综合评价函数意义就不明确。

4.4主成分分析法的运用叶晓枫，王志良,【2】在介绍主成分分析方法的基本思想及计算方法基础上,对水资源调配评价指标进行了降维计算. 结果显示筛选出的指标对原指标具有较好的代表性,简化了水资源评价问题的难度。

傅湘，纪昌明【3】，针对模糊综合评判法在综合评价中存在的主观随意性问题，提出采用主成分分析法进行区域水资源承载能力综合评价。

对各区域的灌溉率、水资源利用率、水资源开发程度、供水模数、需水模数、人均供水量和生态环境用水率达七个主要因索进行了分析；根据主成分分析法的原理，运用少数几个新的综合指标对原来的七个指标所包含的信息进行最佳综合与简化，研究其在各区域水资源开发利用过程中的不同贡献及综合效应。

周莨棋，徐向阳等【4】，针对传统主成分分析法用于水资源综合评价中存在一些问题，包括指标评价中的“线性”问题、无法体现评价指标主观重要性以及评价范围无法确定。

进行了改进，采用改进的极差正规方法对数据进行规格化，用规格化后的数据加入了主观重要性权进行协方差计算，对协方差特征向量采用正负理想点进行检验。

陈腊娇，冯利华等【5】，将主成分分析方法引入到水资源承载力研究中，并以浙江省为例，在现有资料的基础上，利用主成分分析的方法，定量分析影响水资源承载力变化的最主要的驱动因子。

主成分分析法总结

主成分分析法总结在实际问题研究中，多变量问题是经常会遇到的。

变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。

因此，人们会很自然地想到，能否在相关分析的基础上，用较少的新变量代替原来较多的旧变量，而且使这些较少的新变量尽可能多地保留原来变量所反映的信息？一、概述在处理信息时，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠，例如，高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性；学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。

而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。

为了解决这些问题，最简单和最直接的解决方案是削减变量的个数，但这必然又会导致信息丢失和信息不完整等问题的产生。

为此，人们希望探索一种更为有效的解决方法，它既能大大减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。

主成分分析正式这样一种能够有效降低变量维数，并已得到广泛应用的分析方法。

主成分分析以最少的信息丢失为前提，将众多的原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点：↓主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后，因子将可以替代原有变量参与数据建模，这将大大减少分析过程中的计算工作量。

↓主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍，而是原有变量重组后的结果，因此不会造成原有变量信息的大量丢失，并能够代表原有变量的绝大部分信息。

↓主成分之间应该互不相关通过主成分分析得出的新的综合指标（主成分）之间互不相关，因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。

↓主成分具有命名解释性总之，主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子，如何使因子具有一定的命名解释性的多元统计分析方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

主成分分析法总结在实际问题研究中，多变量问题是经常会遇到的。

变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。

而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。

为了解决这些问题，最简单和最直接的解决方案是削减变量的个数，但这必然又会导致信息丢失和信息不完整等问题的产生。

为此，人们希望探索一种更为有效的解决方法，它既能大大减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。

主成分分析正式这样一种能够有效降低变量维数，并已得到广泛应用的分析方法。

主成分分析的具体步骤如下：（1）计算协方差矩阵计算样品数据的协方差矩阵：Σ=(s ij )p ⨯p ，其中11()()1nij ki i kj j k s x x x x n ==---∑ i ，j=1，2，…，p（2）求出Σ的特征值iλ及相应的正交化单位特征向量iaΣ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差，iλ对应的单位特征向量ia 就是主成分Fi 的关于原变量的系数，则原变量的第i 个主成分Fi 为：Fi ='i a X主成分的方差（信息）贡献率用来反映信息量的大小，i α为：1/mi i ii αλλ==∑（3）选择主成分最终要选择几个主成分，即F1,F2,……,Fm 中m 的确定是通过方差（信息）累计贡献率G(m)来确定11()/pm i ki k G m λλ===∑∑当累积贡献率大于85%时，就认为能足够反映原来变量的信息了，对应的m 就是抽取的前m 个主成分。

（4）计算主成分载荷主成分载荷是反映主成分Fi 与原变量Xj 之间的相互关联程度，原来变量Xj （j=1，2 ，…， p ）在诸主成分Fi （i=1，2，…，m ）上的荷载 lij （ i=1，2，…，m ； j=1，2 ，…，p ）。

：(,)(1,2,,;1,2,,)i j ij l Z X i m j p ===在SPSS 软件中主成分分析后的分析结果中，“成分矩阵”反应的就是主成分载荷矩阵。

（5）计算主成分得分计算样品在m 个主成分上的得分：1122...i i i pi pF a X a X a X =+++ i = 1，2，…，m实际应用时，指标的量纲往往不同，所以在主成分计算之前应先消除量纲的影响。

消除数据的量纲有很多方法，常用方法是将原始数据标准化，即做如下数据变换：*1,2,...,;1,2,...,ij jij jx x x i n j ps -===其中：11n j ij i x x n ==∑，2211()1n j ij j i s x x n ==--∑根据数学公式知道，①任何随机变量对其作标准化变换后，其协方差与其相关系数是一回事，即标准化后的变量协方差矩阵就是其相关系数矩阵。

②另一方面，根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数，亦即，标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。

也就是说，在标准化前后变量的相关系数矩阵不变化。

根据以上论述，为消除量纲的影响，将变量标准化后再计算其协方差矩阵，就是直接计算原变量的相关系数矩阵，所以主成分分析的实际常用计算步骤是： ☆计算相关系数矩阵 ☆求出相关系数矩阵的特征值iλ及相应的正交化单位特征向量ia☆选择主成分☆计算主成分得分总结：原指标相关系数矩阵相应的特征值λi 为主成分方差的贡献，方差的贡献率为1/pi i ii αλλ==∑，i α越大，说明相应的主成分反映综合信息的能力越强，可根据λi 的大小来提取主成分。

每一个主成分的组合系数（原变量在该主成分上的载荷）ia 就是相应特征值λi 所对应的单位特征向量。

主成分分析法的计算步骤1、原始指标数据的标准化采集p 维随机向量x = (x 1,X 2,...,X p )T )n 个样品x i =(x i 1,x i 2,...,x ip)T，i=1,2,…,n ，n ＞p ，构造样本阵，对样本阵元进行如下标准化变换：其中，得标准化阵Z 。

2、对标准化阵Z 求相关系数矩阵其中, 。

3、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按确定m 值，使信息的利用率达85%以上，对每个λj , j=1,2,...,m, 解方程组Rb = λj b 得单位特征向量。

4、将标准化后的指标变量转换为主成分U 1称为第一主成分,U 2称为第二主成分,…,U p称为第p 主成分。

5 、对m 个主成分进行综合评价对m 个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率二、主成分分析的计算步骤 1、计算相关系数矩阵r ij （i ，j =1，2，…，p ）为原变量x i 与x j 的相关系数， r ij =r ji ，其计算公式为2、计算特征值与特征向量解特征方程，常用雅可比法（Jacobi ）求出特征值，并使其按大小顺序排列；分别求出对应于特征值的特征向量，要求 =1，即其中表示向量的第j 个分量。

3、计算主成分贡献率及累计贡献率贡献率：累计贡献率：一般取累计贡献率达85%-95%的特征值，所对应的第1、第2、…、第m （m ≤p ）个主成分。

4、计算主成分载荷⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=pp p p p p r r r r r r r r r R 212222111211∑∑∑===----=nk nk jkj i kink j kj i kiij x xx xx x x xr 11221)()())((0=-R I λ021≥≥≥≥p λλλ i λ),,2,1(p i e i L =i e 112=∑=pj ij e ij e i e ),,2,1(1p i pk kiL =∑=λλ),,2,1(11p i pk kik kL =∑∑==λλm λλλ,,,21L5、各主成分得分三、主成分分析法在SPSS 中的操作 1、指标数据选取、收集与录入（表1）2、Analyze →Data Reduction →Factor Analysis ，弹出Factor Analysis 对话框：3、把指标数据选入Variables 框，Descriptives: Correlation Matrix 框组),,2,1,(),(p j i e x z p l ij i j i ij L ===λ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nm n n m m z z z z z z z z z Z 212222111211中选中Coefficients,然后点击Continue, 返回Factor Analysis 对话框，单击OK。

注意：SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。

从表3 可知GDP 与工业增加值, 第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系, 与海关出口总额存在着显著关系。

可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。

主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。

特征值在某种程度上可以被看成是表示主成分影响力度大小的指标, 如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大, 因此一般可以用特征值大于1作为纳入标准。

通过表4( 方差分解主成分提取分析) 可知, 提取2个主成分, 即m=2, 从表5( 初始因子载荷矩阵) 可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 人均GDP 和农业增加值指标在第二主成分上有较高载荷, 说明第二主成分基本反映了人均GDP 和农业增加值两个指标的信息。

所以提取两个主成分是可以基本反映全部指标的信息, 所以决定用两个新变量来代替原来的十个变量。

但这两个新变量的表达还不能从输出窗口中直接得到, 因为“Component Matrix”是指初始因子载荷矩阵, 每一个载荷量表示主成分与对应变量的相关系数。

用表5( 主成分载荷矩阵) 中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。

将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为变量B1、B2) , 然后利用“Transform→Compute Variable”, 在Compute Variable对话框中输入“A1=B1/SQR(7.22)”[注: 第二主成分SQR后的括号中填1.235, 即可得到特征向量A1(见表6)。

同理, 可得到特征向量A2。

将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分表达式[注: 因本例只是为了说明如何在SPSS 进行主成分分析, 故在此不对提取的主成分进行命名, 有兴趣的读者可自行命名。

标准化：通过Analyze→Descriptive Statistics→Descriptives 对话框来实现: 弹出Descriptives 对话框后, 把X1～X10选入Variables 框, 在Savestandardized values as variables 前的方框打上钩, 点击“OK”, 经标准化的数据会自动填入数据窗口中, 并以Z开头命名。