系统工程主成分分析
主成分分析的概念及基本思想主成分分析PrincipleComponent

1、主成分分析的概念及基本思想主成分分析(Principle Component Analysis, PCA)是最为常用的特征提取方法,被广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。
它通过对原始数据的加工处理,简化问题处理的难度并提高数据信息的信噪比,以改善抗干扰能力。
主成分概念首先由Karl parson在1901年引进,不过当时只是对非随机变量进行讨论,1933年Hotelling将这个概念推广到随机向量。
在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。
由于指标较多并且指标之间有一定的相关性,势必增加了分析问题的复杂性。
主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。
通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0 ,称F2为第二主成分,依此类推可以构造出第三,四,…,第p个主成分。
不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。
因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。
因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
主成分分析【可编辑全文】

• 如果我们将xl 轴和x2轴先平移,再同时 按逆时针方向旋转角度,得到新坐标轴Fl和 F2。Fl和F2是两个新变量。
• 如果变量分组较有规则,则从特征向量各 分量数值作出组内组间对比分析。
主成分分析的一般步骤
6. 解释各个主成分的含义 7. 进行其他分析
利用SPSS进行主成分分析的步骤
1. 指标数据的标准化。
可以利用“Descriptive statistics” 中的“Descriptives”进行标准化。
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合Fi。其中, Xi 是经过标准化后的变量。
F1 u11X1 u21X 2 u p1X p F2 u12 X1 u22 X 2 u p2 X p
Fp u1p X1 u2 p X 2 u pp X p
4. 确 定 主 成 分 Fi 的 表 达 式 : 将 表 “Component Matrix”(初始因子载荷 阵)中的第i列向量除以第i个特征根的平方 根,得到第i个主成分Fi的变量系数向量。
5. 对主成分Fi进行解释。
• x1:数学 • x2:物理 • x3:化学 • x4:语文 • x5:历史 • x6:英语
满足如下的条件:
每个主成分的系数平方和为1。即
u2 1i
u2 2i
u
2 pi
1
主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p 主成分的方差依次递减,重要性依次递减,即
系统工程

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。
综合指标即为主成分。
所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。
二、基本思想的异同(一) 共同点主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。
并且新的变量彼此间互不相关,消除了多重共线性。
这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。
在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。
在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。
公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。
对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。
系统工程主成分分析。

主成分分析法通过研究指标体系的内在结构关系,从而 将多个指标转化为少数几个相互独立且包含原来指标大 部分信息(80%或85%以上)的综合指标。其优点在于 它确定的权数是基于数据分析而得出的指标之间的内在 结构关系,不受主观因素的影响,有较好的客观性,而 且得出的综合指标(主成分)之间相互独立,减少信息 的交叉,这对分析评价极为有利。
5
基本思想
如果用x1, x2 , …, xn表示n门课程, a1, a2 ,…, an表
示各门课程的权重,且满足 ai21 ai22 ai2n 1
,那么加权之和就是:
s= a1x1+ a2x2+…+ anxn
我们希望选择适当的权重能更好地区分学生的成
绩,每个学生都对应一个这样的综合成绩。记为
4
一个简单的例子 成绩的评估可以用下面的综合成绩来体现: a1×数学+a2×语文+a3×英语+a4×体育 确定权重系数的过程就可以看作是主成分分析的过
程,得到的加权成绩总和就相对于新的综合变量 ——主成分
当某一问题需要同时考虑好几个因素时,我们并不 对这些因素个别处理而是将它们综合起来处理, 这就是主成分分析
2)累积贡献率:前k个主成分共有多大的综合能力,
用
k
n
i j
i 1
j 1
来描述,称为第k个主成分的累积贡献率。
我们进行主成分分析的目的之一是希望用尽可 能少的主成分Z1,Z2,…,Zp(p≤n)代替原来 的n个指标。到底应该选择多少个主成分,在实 际工作中,主成分个数的多少取决于能够反映 原来变量80%以上的信息量为依据,即当累积 贡献率≥80%时的主成分的个数就足够了。
13
(3)计算特征值和特征向量
系统工程课件 系统工程-主成分分析

数学模型与几何解释-数学模型
满足如下的条件: 每个主成分的系数平方和为1。即
u 1 2 i u 2 2 i u 2 p i1 主成分之间相互独立,即无重叠的信息。即
C ( F i , F j ) o 0 , i j , v i , j 1 , 2 , , p
数学模型与几何解释-几何解释
Fl、 F2除了可以对包含在Xl,X2中的信息起着浓缩 作用之外,还具有不相关的性质,这就使得在研究 复杂的问题时避免了信息重叠所带来的虚假性。二 维平面上的个点的方差大部分都归结在Fl轴上,而 F2轴上的方差很小。Fl和F2称为原始变量x1和x2的 综合变量。F简化了系统结构,抓住了主要矛盾。
主成分分析的基本思想
在进行主成分分析后,竟以97.4%的精度,用三个 新变量就取代了原17个变量。根据经济学知识,斯 通给这三个新变量分别命名为总收入F1、总收入变 化率F2和经济发展或衰退的趋势F3。更有意思的是, 这三个变量其实都是可以直接测量的。斯通将他得 到的主成分与实际测量的总收入I、总收入变化率 I以及时间t因素做相关分析,得到下表:
U为旋转变换正 矩交 阵矩 ,阵 它, 是即 U U 1,U U I
数学模型与几何解释-几何解释
旋转变换的目的:为了使得n个样品点在Fl轴方向上 的离散程度最大,即Fl的方差最大。
(变量Fl代表了原始数据的绝大部分信息,在研究 某经济问题时,即使不考虑变量F2也无损大局)。经 过上述旋转变换原始数据的大部分信息集中到Fl轴 上,对数据中包含的信息起到了浓缩作用。
数学模型与几何解释-数学模型
这种由讨论多个指标降为少数几个综合指标的过程 在数学上就叫做降维。主成分分析通常的做法是, 寻求原指标的线性组合Fi。
【笔记】主成分分析法PCA的原理及计算

【笔记】主成分分析法PCA的原理及计算主成分分析法PCA的原理及计算主成分分析法主成分分析法(Principal Component Analysis),简称PCA,其是⼀种统计⽅法,是数据降维,简化数据集的⼀种常⽤的⽅法它本⾝是⼀个⾮监督学习的算法,作⽤主要是⽤于数据的降维,降维的意义是挺重要的,除了显⽽易见的通过降维,可以提⾼算法的效率之外,通过降维我们还可以更加⽅便的进⾏可视化,以便于我们去更好的理解数据,可以发现更便于⼈类理解,主成分分析其⼀个很重要的作⽤就是去噪,有的时候,经过去噪以后再进⾏机器学习,效果会更好我们可以基于主成分分析法的降维来理解其原理原理及计算我们设⼀个⼆维的坐标系,横轴为特征⼀,纵轴为特征⼆,相应的存在⼀些样本,其对应相应的点,既然是⼆维的,那么我们就可进⾏降维那么降维到⼀维的具体操作是什么呢?⼀个很明显的⽅案就是对这两个特征选⼀个特征,将另⼀个特征去除掉,如果说我们将特征⼆扔掉保留特征⼀的话,那么全部的点就会相应的全部映射到横轴上,相反,我们选择特征⼆的话,所有的点就会映射到纵轴上这就是对应的两种降维的⽅案,这两个⽅案哪⼀个是更好的呢,我们将所有的点映射到了横轴以后,点和点之间距离是相对⽐较⼤的的⽅案就是更好的⽅案,为什么呢,点和点之间的距离⼤,即点和点之间有着更⾼的可区分度,这样也更好的保持了原来的点和点之间的距离,虽然也不同,但是也相应的更⼩的还有⼀种更好的⽅案,我们可以选取⼀条直线,将所有的点都映射到这根直线上,使⽤这种⽅式,所有的点更趋近于原来的分布情况,区分度也⽐映射到横纵轴上更加明显那么如何找到这个让样本间间距最⼤的轴?为了找到这个轴,我们先使⽤⽅差来定义⼀下这个样本间间距这样这个问题就变成了,我们需要找到⼀个轴(直线),使得样本空间中的所有点在映射到这个轴以后,⽅差是最⼤的那么怎么操作呢?⾸先,我们将样本的均值归0,即所有的样本都减去这批样本的均值,这样就相当于让坐标轴进⾏了移动,使得样本在每个维度上均值都为0,这样我们就可以将⽅差的式⼦变成(xi是已经映射到新的轴上的新的样本)然后我们要求这个轴的⽅向w=(w1,w2)(此处⽤⼆维来表⽰),使得我们所有的样本,在映射到w以后,有使映射以后的样本Xproject的⽅差值最⼤,式⼦展开如下需要注意的是:对于这个X来说,可能有多个维度,因此每⼀个X都是⼀个有多个元素的向量,因此更准确的式⼦应该是其均值等依然是含有多个内容的向量,为什么呢,因为虽然映射到了这个轴上,但是本⾝这个轴还是处在这个n维的坐标系中,那么这实际上就是这两个向量相减之后的模的平⽅,⼜因为我们之前对样本进⾏了demean处理(均值取0),因此,这个式⼦化简以后为,即为映射完的点的模的平⽅和再除以m最⼤那么这个Xprojecti到底是要怎么表⽰呢?我们设这个轴为w,样本点为Xi,其也是⼀个向量,那么现在这个Xi要映射到w轴上的话,可以向w轴做⼀个垂直的直线,那么其与w轴的交点就是我们对应的Xproject这⼀点,那么说⽩了我们要求的模的平⽅就是指向交点的这个直线,相当于我们要求将⼀个向量映射到另⼀个向量上对应的映射的长度是多少实际上这种映射就是点乘的定义我们知道现在这个w轴是⼀个⽅向向量,所以其模为1,那么式⼦就化简成运⽤数学定理,很明显可以得出那么我们带⼊之前的式⼦就可以得到我们真正要求的式⼦,即Xi与w点乘完以后的平⽅和再除以m以后的结果最⼤这样我们的主成分分析法就是要求⼀个w轴,使得映射上去的点与w点乘完以后的平⽅和再除以m以后的结果最⼤,这样主成分分析法就变成了⼀个⽬标函数的最优化问题,求⼀个函数的最⼤值,我们就可以使⽤梯度上升法来解决线性回归和这个是不⼀样的,最直观的不同在于线性回归的样本是关于这个新的垂直的⽅向是关于特征的⽅向,并不是垂直于这根直线的⽤梯度上升法来求解PCA问题我们说可以使⽤梯度上升法来解决主成分分析问题,那么怎么⽤梯度上升法来求解此类问题呢?那么我们知道,求⼀个函数的最⼤值,关键是我们要求这个函数的梯度,对于上⾯最终的式⼦来说,除了w以外就没有未知数了,那么对应的梯度就是函数对w求偏导,整理合并以后可以写成对这个式⼦进⾏向量化的处理,我们观察这个式⼦,我们可以发现其中的式⼦就是点乘的形式,其实际上每⼀项就是Xw这个向量和X中的第n列中的每⼀个元素相乘再相加,Xw可以写成这种⾏向量的形式⽽上⾯的计算过程计算下来就是Xw和⼀个矩阵相乘,这个矩阵可以写成(其就是X这个矩阵,有m个样本,n个特征)其最后将梯度的计算的向量化的结果就可以写成(经过转置之后符合要求的)介就是最后的计算公式啦我们可以在直接使⽤这个公式来进⾏计算,最后得到需要的结果。
(完整版)主成分分析法的原理应用及计算步骤...doc

zm
lm1x1
lm 2x2
lmpxp
系数lij的确定原 :
①zi与zj(i≠j;i,j=1,2,⋯,m)相互无关;
②z1是x1,x2,⋯,xP的一切 性 合中方差最大者,z2是与z1不相关的x1,x2,⋯,xP的所有 性 合中方差最大者;zm是与z1,z2,⋯⋯,zm-1都不相关的x1,x2,⋯xP, 的所有 性 合中方差最大者。
标准化后的变量的协方差矩阵就是原变量的相关系数矩阵 。 也就是说, 在标准化前后变量的相关系数矩阵不变化。
根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:☆计算相关系数矩阵
☆求出相关系数矩阵的特征值i及相应的正交化单位特征向量ai
与原 量Xj之 的相互
关 程度:
( ,
xi
)
(
, 1,2,
L
, ;
1,2,
L
, )
P Zk
kakii
p k
m
三、主成分分析法的计算步骤
主成分分析的具体步 如下:
(1) 算 方差矩
算 品数据的 方差矩 :Σ=(sij)pp,其中
1
n
i,j=1,2,⋯,p
sij
( xki
xi)( xkj
xj)
n
1k 1
解特征方程
I
R 0
,常用雅可比法(Jacobi)求出特征 ,并使其按大
小 序排列1
2
p
0;
p
1,2, L , p)
2
e ( i
分 求出 于特征
i
的特征向量
主成分分析原理及详解

第14章主成分分析1 概述1.1 基本概念1.1.1 定义主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。
1.1.2 举例为什么叫主成分,下面通过一个例子来说明。
假定有N 个儿童的两个指标x1与x2,如身高和体重。
x1与x2有显著的相关性。
当N较大时,N观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体x1与x2的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1,在此轴的原点取一条垂直于Z1的直线定为新坐标轴的Z2,于是这N个点在新坐标轴上的坐标位置发生了改变;同时这N个点的性质也发生了改变,他们之间的关系不再是相关的。
很明显,在新坐标上Z1与N个点分布的长轴一致,反映了N个观测量个体间离差的大部分信息,若Z1反映了原始数据信息的80%,则Z2只反映总信息的20%。
这样新指标Z1称为原指标的第一主成分,Z2称为原指标的第二主成分。
所以如果要研究N个对象的变异,可以只考虑Z1这一个指标代替原来的两个指标(x1与x2),这种做法符合PCA提出的基本要求,即减少指标的个数,又不损失或少损失原来指标提供的信息。
1.1.3 函数公式通过数学的方法可以求出Z1和Z2与x1与x2之间的关系。
Z1=l11x1+ l12x2Z2=l21x1+ l22x2即新指标Z1和Z2是原指标x1与x2的线性函数。
在统计学上称为第一主成分和第二主成分。
若原变量有3个,且彼此相关,则N个对象在3维空间成椭圆球分布,见图14-1。
通过旋转和改变原点(坐标0点),就可以得到第一主成分、第二主成分和第三主成分。
如果第二主成分和第三主成分与第一主成高度相关,或者说第二主成分和第三主成分相对于第一主成分来说变异很小,即N个对象在新坐标的三维空间分布成一长杆状时,则只需用一个综合指标便能反映原始数据中3个变量的基本特征。
1.2 PCA满足条件1.2.1 一般条件一般来说,N个对象观察p个指标,可以得到N*p个数据(矩阵)。