主成分分析

合集下载

主成分分析

但是这种线性组合，如果丌加限制，则可以有很多，应该如何去选取呢？
对a加以限制
对组合系数ai' = (a1i，a2i，…，api)作如下要求：
a a ... a
2 1i 2 2i
2 pi
1,
i 1, 2 ,..., p
即：ai为单位向量。此外，
对F限制
1) Fi不Fj（i≠j, i, j = 1, …, p）互丌相关，即协方差:Cov(Fi，Fj) = 0
2) F1是X1，X2，…，Xp的一切线性组合（系数满足上述要求）中方差最大的，即
Var ( F1 ) max Var ( c i X i )
c ' c 1 i 1 p
其中c = (c1，c2，…，cp)' 3)F2是不F1丌相关的X1，X2，…，Xp一切线性组合中方差最大的，…，Fp是不F1，F2，…，Fp-1都丌相关的X1，X2，… ，Xp的一切线性组合中方差最大的。满足上述要求的综合指标向量F1，F2，…，Fp就是主成分。
i 1 k 1
达到足够大（一般在85%以上）为原则。
3.5 计算主成分得分
计算n个样品在m个主成分上的得分：
Fi a1i X 1 a 2 i X 2 ... a pi X p
i = 1，2，…，m
主成分分析程序代码
例输出原始数据矩阵x x=[7.47,1.73,7.20,0.13,0.40,1.33,1.07,36.05;6.67,1.67,18.00,0.67,4.67,19. 00,5.50,26.00;3.32,2.48,36.43,2.17,7.15,22.99,11.95,60.95;3.00,2.29,19.0 2,1.62,6.90,3.57,18.50,49.14;1.67,3.08,48.98,3.69,29.66,31.50,65.53,272. 23;1.96,3.23,14.44,1.64,18.02,33.12,33.10,68.73;1.25,3.69,42.00,4.25,22. 22,19.94,53.50,70.00;1.47,9.87,49.15,3.48,4.11,22.37,19.92,67.10;2.02,0. 97,16.99,12.29,18.00,17.36,3.66,16.59;2.41,1.56,2.81,15.79,3.42,21.61,2. 44,24.26;1.00,2.15,40.16,14.27,5.74,53.90,9.24,27.90;1.70,0.77,3.13,5.00, 6.32,11.48,10.23,30.77;0.97,0.12,2.39,21.16,8.08,16.21,41.26,18.84;2.86, 3.29,29.70,1.91,17.04,41.90,12.05,31.90;1.41,5.58,44.18,6.51,10.88,31.98 ,12.92,31.69;1.02,0.86,13.08,1.59,11.15,21.91,26.67,22.28;0.84,0.24,2.16, 21.14,3.56,24.94,18.73,25.61;1.00,0.23,6.11,13.95,4.59,17.19,26.95,18.01 ;0.74,1.39,14.21,20.55,4.29,15.54,54.11,38.96;0.49,0.83,9.03,13.69,1.39,2 4.35,59.15,49.86;1.20,0.23,2.01,20.99,1.06,25.23,23.84,52.05;1.38,0.31,0. 71,5.27,0.98,3.97,68.88,33.79;1.79,0.63,8.00,4.67,4.58,6.92,65.92,61.50;1. 53,2.84,17.27,3.06,18.51,11.59,19.65,49.50;0.78,2.33,33.11,2.78,18.17,7. 28,75.46,51.56;3.83,1.00,53.83,3.53,3.50,0.17,52.67,111.67;2.50,2.67,49. 88,3.14,3.83,8.33,48.33,43.33;1.48,4.32,27.61,1.68,47.29,1.81,69.42,443. 10]

主成分分析

一、主成分分析基本原理概念：主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。

从数学角度来看，这是一种降维处理技术。

思路：一个研究对象，往往是多要素的复杂系统。

变量太多无疑会增加分析问题的难度和复杂性，利用原变量之间的相关关系，用较少的新变量代替原来较多的变量，并使这些少数变量尽可能多的保留原来较多的变量所反应的信息，这样问题就简单化了。

原理：假定有 n 个样本，每个样本共有p 个变量，构成一个n ×p 阶的数据矩阵，x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1，x2，,，xp ，设它们降维处理后的综合指标，即新变量为 z1，z2，z3，,，zm(m ≤p)，则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则：①zi 与zj （i ≠j ；i ，j=1，2，,，m ）相互无关；②z 是x 1 ，x ，,，x 的一切线性组合中方差最大者，z 是与z 不相关的x ，x ，,，1 2P2 1 1 2 xP 的所有线性组合中方差最大者；zm 是与z1，z2，,,， zm －1都不相关的x1，x ，,x P ，的所有线性组合中方差最大者。

2新变量指标z1，z2，,，zm 分别称为原变量指标x1，x2，,，xP 的第1，第2，,，第m 主成分。

从以上的分析可以看出，主成分分析的实质就是确定原来变量xj （j=1，2 ，,，p ）在诸主成分zi （i=1，2，,，m ）上的荷载lij （i=1，2，,，m ；j=1，2，,，p ）。

从数学上可以证明，它们分别是相关矩阵m个较大的特征值所对应的特征向量。

二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij（i，j=1，2，,，p）为原变量xi与xj的相关系数，rij=rji，其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0，常用雅可比法（Jacobi）求出特征值，并使其按大小顺序排列1 2 p0；p 分别求出对应于特征值i的特征向量e i(i1,2,L,p)，要求ei=1，即e ij21j1其中e ij表示向量e i的第j 个分量。

主成分分析法

主成分分析法什么事主成分分析法:主成分分析（principal components analysis , PCA 又称：主分量分析，主成分回归分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

主成分分析的基本思想：在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

如上所述，主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。

根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。

什么是主成分分析

主成分分析（principal component analysis, PCA）如果一组数据含有N个观测样本，每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点？这种情况下，任何选择其中单个变量指标对本进行分析的方法都会失之偏颇，无法反映样本综合特征和特点。

这就需要多变量数据统计分析。

多变量数据统计分析中一个重要方法是主成份分析。

主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型，N个观测样本分布在这个模型中。

从数据分析的本质目的看，数据分析目标总是了解样本之间的差异性或者相似性，为最终的决策提供参考。

因此，对一个矩阵数据来说，在K维空间中，总存在某一个维度的方向，能够最大程度地描述样品的差异性或相似性(图1)。

基于偏最小二乘法原理，可以计算得到这个轴线。

在此基础上，在垂直于第一条轴线的位置找出第二个最重要的轴线方向，独立描述样品第二显著的差异性或相似性；依此类推到n个轴线。

如果有三条轴线，就是三维立体坐标轴。

形象地说，上述每个轴线方向代表的数据含义，就是一个主成份。

X、Y、Z轴就是第1、2、3主成份。

由于人类很难想像超过三维的空间，因此，为了便于直观观测，通常取2个或者3个主成份对应图进行观察。

图（1）PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。

即，主成分上所有观测值的坐标投影方差最大。

从理论上看，主成分分析是一种通过正交变换，将一组包含可能互相相关变量的观测值组成的数据，转换为一组数值上线性不相关变量的数据处理过程。

这些转换后的变量，称为主成分（principal component, PC）。

主成分的数目因此低于或等于原有数据集中观测值的变量数目。

PCA最早的发明人为Karl Pearson，他于1901年发表的论文中以主轴定理（principal axis theorem）衍生结论的形式提出了PCA的雏形，但其独立发展与命名是由Harold Hotelling于1930年前后完成。

主成分分析

Extraction Method: Principal Component Analysis. Component Scores.
主成分系数矩阵，从而得出各主成分的表达式，主成分系数矩阵，从而得出各主成分的表达式，注意在表达式中各变量已经不是原始变量，而是标准化变量。式中各变量已经不是原始变量，而是标准化身高（X1,cm）、头围（X2,cm）、体重（X3,g）的数据。
实验报告
写出X1，，的相关矩阵的相关矩阵。写出，X2，X3的相关矩阵。写出KMO与球形检验的结果（P值），与球形检验的结果（值写出与球形检验的结果并做出判断，并做出判断，该数据是否适合主成分分析。写出3个主成分的贡献率个主成分的贡献率。写出个主成分的贡献率。写出3个主成分关于个主成分关于X1，，的标准写出个主成分关于，X2，X3的标准化的数值的线性组合。化的数值的线性组合。
Rotation子对话框：用于因子分析。子对话框：用于因子分析。子对话框 Score子对话框子对话框
选择是否将因子得分存入文件，以及具体的得分计算方法。（1）Save as Variables：将计算出的因子得分作为新变量加入数据文件，注意此处加入的是经过标准化的因子得分。（2）Method单选框组：用于选择计算因子得分用的方法，使用默认的回归法即可。（3）Display factor score coefficient maxtrix：很重要。显示因子得分系数阵，通过该系数阵就可以将所有公因子表示为各个变量的线性组合，也就是我们所需要的主成分分析的结果，系统同时会给出因子得分的协方差阵。
主成分分析
主成分分析
每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据；各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多，在如此多的变量之中，有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。主成分分析（principal component analysis）就是把变量维数降低以便于描述、理解和分析的方法。

主成分分析

1 主成分分析定义在许多实际问题中，我们经常用多个变量来刻画某一事物，但由于这些变量之间往往具有相关性，很多变量带有重复信息，这样就给分析问题带来了很多不便，同时也使分析结论不具有真实性和可靠性，因此，人们希望寻找到少量几个综合变量来代替原来较多的变量，使这几个综合变量能较全面地反映原来多项变量的信息，同时相互之间不相关。

主成分分析正是满足上述要求的一种处理多变量问题的方法。

主成分分析（Principal Component Analysis，PCA），将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。

又称主分量分析。

2 主成分分析基本思想主成分分析是考察多个变量间相关性的一种多元统计方法。

它是研究如何通过少数几个主分量来解释多个变量间的内部结构。

也就是说，从原始变量中导出少数几个主分量，使它们尽可能多地保留原始变量的信息，且彼此间互不相关。

主成分分析的应用目的可以被简单归结为两句话:数据的压缩、数据的解释。

它常被用来寻找判断某种事物或现象的综合指标，并且给综合指标所包含的信息以适当的解释，从而更加深刻的揭示事物的内在规律。

但是在实际应用中，主成分分析更多的只是一种达到目的的中间手段，而并非目的本身，它往往会被作为许多大型研究的中间步骤，在对数据进行浓缩后继续采用其他多元统计方法以解决实际问题。

主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。

假定有n个地理样本，每个样本共有p个变量描述，这样就构成了一个n×p阶的地理数据矩阵：如何从这么多变量的数据中抓住地理事物的内在规律性呢？要解决这一问题，自然要在p维空间中加以考察，这是比较麻烦的。

为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标来代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息，同时它们之间又是彼此独立的。

主成分分析

2.主成分的总方差由于
tr ( A ) = tr ( T′ΣT ) = tr ( ΣTT′ ) = tr ( Σ )
故
∑ λ = ∑σ
i =1 i i =1
p
p
ii
或
∑V ( y ) = ∑V ( x )
i =1 i i =1 i
p
p
总方差中属于第 i 主成分 yi（或被 yi 所解释)的比例为
ˆ 三、从R 出发求主成分
ˆ ˆ* ˆ* ˆ R 的 p 个特征值为λ1* ≥ λ2 ≥ L ≥ λ p，设样本相关阵 ˆ* ˆ 2 ˆ t1 , t * ,L , t *p 为相应的正交单位特征向量，则第 i 样本
主成分
ˆ ˆi yi* = t*x* , i = 1, 2,L , p
其中 x* 是各分量经（样本）标准化了的向量，即
S
主成分得分在实际应用中，我们常常让 x j 减去 x ，使样本数据中心化。这不影响样本协差阵 S ，在前面的论述中惟一需要变化的是，将第 i 主成分改写成中心化的形式，即
ˆ ˆi yi = t′ ( x − x ) , i = 1, 2,L , p 若将各观测值 x j 代替上式中的观测值向量 x ，则第i
现比较本例中从R 出发和例7.2.2中从 Σ 出发的主成分计算结果。从R 出发的 y1* 的贡献率0.705明显小于从 Σ 出发的 y1的贡献率0.938，事实上，原始变量方差之间的差异越大，这一点也就倾向于越明显， * * * （7.2.15）式有助于我们理解之。 y1 , y2 , y3 可用标准化前的原变量表达如下： x3 − µ3 x1 − µ1 x2 − µ2 *
主成分的值
ˆi ˆ y ji = t′ ( x j − x ) , i = 1, 2,L , p

主成分分析

2、主成分分析的数学模型及几何解释
（1 ）、数学模型
设有 n 个样品，每个样品观测p项指标(变量), X1,
X2，202…0/7/7，Xp，得到原始数据资料阵：
5
其中
用数据矩阵X的p个向量(即p个指标向量)X1，…，Xp作线
性组合(即综合指标向量)为：
2020/7/7
6
简写成
(注意：Xi是n维向量，所以Fi也是 n 维向量) 上述方程组要求：
主成分分析
2020/7/7
1
一、什么是主成分分析及基本思想
1 、什么是主成分分析
主成分概念首先由Karl parson在1901年引进，不过当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机向量：
在实际问题中，研究多指标(变量)问题是经常遇到的，
然而在多数情况下，不同指标之间是有一定相关性。由于
一般情况，p个变量组成p维空间，n个样本就是p维空间的n个点，对p元正态分布变量来说，找主成分的问题就是找p维空间中椭球体的主轴问题。
3 主成分的推导及性质
在下面推导过程中，要用到线性代数中的两个定理先作一下复习：
定理一若矩阵A是p阶实对称阵，则一定可以找到正交阵
定理二若上述矩阵A的特征根所对应的单位特征向量
X1，…，Xp构成的坐标系旋转产生的新坐标系，新坐标轴使之通过样品变差最大的方向(或说具有最大的样品
方差)。下面以最简单的二元正态变量来说明主成分的
几何202意0/7/7义。
9
设有 n 个样本，每个样本有p个变量记为X1，…，Xp，
它们的综合变量记为F1，F2，…，Fp。当p＝2时，原变
量是X1，X2，设
指标较多再加上指标之间有一定的相关性，势必增加了分

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、举例：
例2-1 测得10名幼儿的身高、体重如下表第（2）、（3）列，试作主成分分析。
1、对指标x1，x2作标准化变换：
2、求相关系数矩阵R：
3、求R的特征根：
4、解方程组求特征向量lij
（2）第二主成分：
第三节主成分个数的确定及其实际意义的解释
一、主成分个数的确定：
（1）考察z1所提供的信息量sz12
互垂直。
（２）各Zi互不相关。
（３）这些Zi提供原指标所含有的全部信息，且Z１提供的信息量最多，Z２其次，，Zp最少。称Zi为原指标x1，，xp的第 i 主成分（i＝１，２，，p）。
主成分分析和聚类分析
都可以减少原有指标（样品）的个数，但主成分分析是从原有指标出发，寻找几个综合指标（或样品）来减少指标（或样品）个数；而聚类
主成分分析
Principle component analysis
第一节
概述
当指标之间有一定的相关关系时，
如果用较少的指标来代替较多的指标，
而这些较少的指标既综合反映了原来较
多的信息，相互之间又是无关联的。这
些少数综合的指标就是原来多数指标的主要成分。这种处理问题的方法称主成分分析（principle
Z2为x1和x2的第二主成分（second principal
component），这就是主成分分析的基本思想。
一般地，对N个对象观察p个指标，可以得到Np 个数据。见表1-1。
当p个指标间存在相关关系时，可以通过一定的数学方法找到一组新指标Z1，，Zp，
它们满足：
（１）各Zi是原指标的线性函数，且它们相
第四节主成分分析的一般步骤
步骤：
提示：
主成分分析整个过程的第二、三、四、五
步，一般由计算机执行，人工做的是第一、六
步，即定观察指标、观察对象，收集数据、录
入数据，最后决定选取的主成分个数，解释主
成分的实际意义，并用主成分解决具体问题。
第五节主成分分析的应用
一、综合评价
表5-1 主成分体型分类表
component analysis）
N对数据的分布示意图
主成分分析的基本思想
据数学知识可得，Z1、Z2与x1、x2有关系式 Z1=l11x1+l12x2 ， Z2=l12x1+l22x2 即新指标是Z1、Z2原指标x1、x2的线性函数； Z2 轴垂直于Z1轴，且Z1、Z2不相关。统计学上称Z1 为x1和x2的第一主成分（first principal component），
二、主成分回归
（一）主成分回归的步骤 1、求自变量的主成分； 2、舍去贡献率近似为0的主成分；
3 、将留下的主成分替代原自变量，用最
小二乘法建立与目标变量的回归方程；
4 、将主成分表达式代入回归方程，得到
原自变量与目标变量的回归方程。
例5-2
例5-2 实测得到13名儿童的性别（X1）（男取 1 ，女取 2 ）、月龄（ X2 ）、身高（ X3 ）、体重（ X4 ）、胸围（ X5 ）、心象面积（X6）见表5-2，作主成分回归。
分析是先把原有指标（或样品）聚成几类，再在
某一类指标（或样品）中各挑选一个典型指标（或样品）来减少指标（或样品）个数，两者是
不同的。由于两者都可以减少指标（或样品）各
数，因此两者都可以和其它统计分析方法（如判别分析、回归分析法）结合使用。
第二节主成分的求法

一、由样本资料求主成分的一般步骤：
（2）考察z2所提供的信息量sz22
2、主成分的贡献率：
3、主成分个数的确定：
（1）根据累计贡献率
（ 2 ）根据特征根 i 的大小，保留 >1的主成分一般将两者结合使用。
二、主成分实际意义的解释：
一般可根据主成分表达式中系数lij（j=1,2,…,p）的符号和绝对值大小，结合各观察指标的意义，根据专业知识加以解释。 Zi=li1y1+…+lipyp，i=1,2,…,p 例2-1 10名幼儿身高、体重资料求主成分一例中，已求得1=1.9547，2=0.0543，1+2=2。第一主成分的贡献率=1/（1+2）=1.9547/2=97.7% 第二主成分的贡献率=2/（1+2）=0.0543/2=2.3% 若以Z1代替原来两个指标，仅损失2.3%的信息。由表达式 Z1=0.7071y1+0.7071y2 Z2=-0.7071y1+0.7071y2
表5-2
多元回归结果
（1）求主成分
（2）舍去贡献率近似为0的主成分，产生被保留的主成分变量
（3）
（4）
Thanks!