主成分分析

合集下载

主成分分析方法

主成分分析方法

主成分分析方法主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维技术,它可以通过线性变换将原始数据转换为一组各维度之间线性无关的表示,从而实现数据的降维和特征提取。

在实际应用中,主成分分析方法被广泛应用于数据预处理、特征提取、模式识别和数据可视化等领域。

主成分分析的基本思想是通过寻找数据中的主要信息,并将其转化为一组新的互相无关的变量,即主成分,以达到降维的目的。

在进行主成分分析时,我们首先需要计算数据的协方差矩阵,然后对协方差矩阵进行特征值分解,得到特征值和特征向量。

特征向量构成的矩阵即为数据的主成分矩阵,而特征值则代表了数据在各个主成分方向上的方差大小。

通过主成分分析,我们可以将原始数据映射到主成分空间中,从而实现数据的降维。

在降维后的主成分空间中,我们可以选择保留的主成分数量,以达到对数据特征的提取和压缩。

同时,主成分分析还可以帮助我们发现数据中的内在结构和模式,从而更好地理解数据的特性和规律。

在实际应用中,主成分分析方法有着广泛的应用。

例如,在图像处理领域,主成分分析可以用于图像压缩和特征提取;在金融领域,主成分分析可以用于资产组合的风险分析和优化;在生物信息学领域,主成分分析可以用于基因表达数据的分析和分类等。

需要注意的是,在应用主成分分析方法时,我们需要考虑数据的标准化和中心化处理,以避免不同量纲和尺度对主成分分析结果的影响。

此外,我们还需要注意选择合适的主成分数量,以保留足够的数据信息同时实现降维的效果。

总之,主成分分析方法是一种强大的数据分析工具,它可以帮助我们实现数据的降维和特征提取,发现数据中的内在结构和模式,从而更好地理解和利用数据。

在实际应用中,我们可以根据具体问题和需求,灵活运用主成分分析方法,从而实现更加有效的数据分析和应用。

主成分分析

主成分分析

但是这种线性组合,如果丌加限制,则可以有很多,应 该如何去选取呢?
对a加以限制
对组合系数ai' = (a1i,a2i,…,api)作如下要求:
a a ... a
2 1i 2 2i
2 pi
1,
i 1, 2 ,..., p
即:ai为单位向量。 此外,
对F限制
1) Fi不Fj(i≠j, i, j = 1, …, p)互丌相关,即 协方差:Cov(Fi,Fj) = 0
2) F1是X1,X2,…,Xp的一切线性组合(系数满足上述要 求)中方差最大的,即
Var ( F1 ) max Var ( c i X i )
c ' c 1 i 1 p
其中c = (c1,c2,…,cp)' 3)F2是不F1丌相关的X1,X2,…,Xp一切线性组合中方差最 大的,…,Fp是不F1,F2,…,Fp-1都丌相关的X1,X2,… ,Xp的一切线性组合中方差最大的。 满足上述要求的综合指标向量F1,F2,…,Fp就是主成分。
i 1 k 1
达到足够大(一般在85%以上)为原则。
3.5 计算主成分得分
计算n个样品在m个主成分上的得分:
Fi a1i X 1 a 2 i X 2 ... a pi X p
i = 1,2,…,m
主成分分析程序代码
例 输出原始数据矩阵x x=[7.47,1.73,7.20,0.13,0.40,1.33,1.07,36.05;6.67,1.67,18.00,0.67,4.67,19. 00,5.50,26.00;3.32,2.48,36.43,2.17,7.15,22.99,11.95,60.95;3.00,2.29,19.0 2,1.62,6.90,3.57,18.50,49.14;1.67,3.08,48.98,3.69,29.66,31.50,65.53,272. 23;1.96,3.23,14.44,1.64,18.02,33.12,33.10,68.73;1.25,3.69,42.00,4.25,22. 22,19.94,53.50,70.00;1.47,9.87,49.15,3.48,4.11,22.37,19.92,67.10;2.02,0. 97,16.99,12.29,18.00,17.36,3.66,16.59;2.41,1.56,2.81,15.79,3.42,21.61,2. 44,24.26;1.00,2.15,40.16,14.27,5.74,53.90,9.24,27.90;1.70,0.77,3.13,5.00, 6.32,11.48,10.23,30.77;0.97,0.12,2.39,21.16,8.08,16.21,41.26,18.84;2.86, 3.29,29.70,1.91,17.04,41.90,12.05,31.90;1.41,5.58,44.18,6.51,10.88,31.98 ,12.92,31.69;1.02,0.86,13.08,1.59,11.15,21.91,26.67,22.28;0.84,0.24,2.16, 21.14,3.56,24.94,18.73,25.61;1.00,0.23,6.11,13.95,4.59,17.19,26.95,18.01 ;0.74,1.39,14.21,20.55,4.29,15.54,54.11,38.96;0.49,0.83,9.03,13.69,1.39,2 4.35,59.15,49.86;1.20,0.23,2.01,20.99,1.06,25.23,23.84,52.05;1.38,0.31,0. 71,5.27,0.98,3.97,68.88,33.79;1.79,0.63,8.00,4.67,4.58,6.92,65.92,61.50;1. 53,2.84,17.27,3.06,18.51,11.59,19.65,49.50;0.78,2.33,33.11,2.78,18.17,7. 28,75.46,51.56;3.83,1.00,53.83,3.53,3.50,0.17,52.67,111.67;2.50,2.67,49. 88,3.14,3.83,8.33,48.33,43.33;1.48,4.32,27.61,1.68,47.29,1.81,69.42,443. 10]

主成分分析

主成分分析

一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。

从数学角度来看,这是一种降维处理技术。

思路:一个研究对象,往往是多要素的复杂系统。

变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。

原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。

2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。

从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。

二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。

主成分分析法

主成分分析法

主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是,这也不是一定的,要视具体应用而定。

主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。

如上所述,主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。

根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。

什么是主成分分析

什么是主成分分析

主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。

这就需要多变量数据统计分析。

多变量数据统计分析中一个重要方法是主成份分析。

主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。

从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。

因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。

基于偏最小二乘法原理,可以计算得到这个轴线。

在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。

如果有三条轴线,就是三维立体坐标轴。

形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。

X、Y、Z轴就是第1、2、3主成份。

由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。

图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。

即,主成分上所有观测值的坐标投影方差最大。

从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。

这些转换后的变量,称为主成分(principal component, PC)。

主成分的数目因此低于或等于原有数据集中观测值的变量数目。

PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。

主成分分析

主成分分析

Extraction Method: Principal Component Analysis. Component Scores.
主成分系数矩阵,从而得出各主成分的表达式, 主成分系数矩阵,从而得出各主成分的表达式,注意在表达 式中各变量已经不是原始变量,而是标准化变量。 式中各变量已经不是原始变量,而是标准化 身高(X1,cm)、头围(X2,cm)、 体重(X3,g)的数据。
实验报告
写出X1, , 的相关矩阵 的相关矩阵。 写出 ,X2,X3的相关矩阵。 写出KMO与球形检验的结果(P值), 与球形检验的结果( 值 写出 与球形检验的结果 并做出判断, 并做出判断,该数据是否适合主成分分 析。 写出3个主成分的贡献率 个主成分的贡献率。 写出 个主成分的贡献率。 写出3个主成分关于 个主成分关于X1, , 的标准 写出 个主成分关于 ,X2,X3的标准 化的数值的线性组合。 化的数值的线性组合。
Rotation子对话框:用于因子分析。 子对话框:用于因子分析。 子对话框 Score子对话框 子对话框
选择是否将因子得分存入文件,以及具体的得分计算方法。 (1)Save as Variables:将计算出的因子得分作为新变量 加入数据文件,注意此处加入的是经过标准化的因子得分。 (2)Method单选框组:用于选择计算因子得分用的方法, 使用默认的回归法即可。 (3)Display factor score coefficient maxtrix:很重要。显 示因子得分系数阵,通过该系数阵就可以将所有公因子表示 为各个变量的线性组合,也就是我们所需要的主成分分析的 结果,系统同时会给出因子得分的协方差阵。
主 成 分 分 析
主成分分析
每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量 的数据;各个学校的研究、教学等各种变量的数 据等等。 这些数据的共同特点是变量很多,在如此多的变 量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 主成分分析(principal component analysis) 就是把变量维数降低以便于描述、理解和分析的 方法。

主成分分析

主成分分析

2.主成分的总方差 由于
tr ( A ) = tr ( T′ΣT ) = tr ( ΣTT′ ) = tr ( Σ )

∑ λ = ∑σ
i =1 i i =1
p
p
ii

∑V ( y ) = ∑V ( x )
i =1 i i =1 i
p
p
总方差中属于第 i 主成分 yi(或被 yi 所解释)的比例 为
ˆ 三、从R 出发求主成分
ˆ ˆ* ˆ* ˆ R 的 p 个特征值为λ1* ≥ λ2 ≥ L ≥ λ p, 设样本相关阵 ˆ* ˆ 2 ˆ t1 , t * ,L , t *p 为相应的正交单位特征向量,则第 i 样本
主成分
ˆ ˆi yi* = t*x* , i = 1, 2,L , p
其中 x* 是各分量经(样本)标准化了的向量,即
S
主成分得分 在实际应用中,我们常常让 x j 减去 x ,使样本数据 中心化。这不影响样本协差阵 S ,在前面的论述中 惟一需要变化的是,将第 i 主成分改写成中心化的 形式,即
ˆ ˆi yi = t′ ( x − x ) , i = 1, 2,L , p 若将各观测值 x j 代替上式中的观测值向量 x ,则第i
现比较本例中从R 出发和例7.2.2中从 Σ 出发的主成 分计算结果。从R 出发的 y1* 的贡献率0.705明显小于 从 Σ 出发的 y1的贡献率0.938,事实上,原始变量方 差之间的差异越大,这一点也就倾向于越明显, * * * (7.2.15)式有助于我们理解之。 y1 , y2 , y3 可用标准 化前的原变量表达如下: x3 − µ3 x1 − µ1 x2 − µ2 *
主成分的值
ˆi ˆ y ji = t′ ( x j − x ) , i = 1, 2,L , p

主成分分析

主成分分析
2、主成分分析的数学模型及几何解释
(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1,
X2,202…0/7/7,Xp,得到原始数据资料阵:
5
其中
用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线
性组合(即综合指标向量)为:
2020/7/7
6
简写成
(注意:Xi是n维向量,所以Fi也是 n 维向量) 上述方程组要求:
主成分分析
2020/7/7
1
一、什么是主成分分析及基本思想
1 、什么是主成分分析
主成分概念首先由Karl parson在1901年引进,不 过当时只对非随机变量来讨论的。1933年Hotelling将 这个概念推广到随机向量:
在实际问题中,研究多指标(变量)问题是经常遇到的,
然而在多数情况下,不同指标之间是有一定相关性。由于
一般情况,p个变量组成p维空间,n个样本就是p维 空间的n个点,对p元正态分布变量来说,找主成分的问 题就是找p维空间中椭球体的主轴问题。
3 主成分的推导及性质
在下面推导过程中,要用到线性代数中的两个定理先 作一下复习:
定理一 若矩阵A是p阶实对称阵,则一定可以找到 正交阵
定理二 若上述矩阵A的特征根所对应的单位特征向量
X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品
方差)。下面以最简单的二元正态变量来说明主成分的
几何202意0/7/7义。
9
设有 n 个样本,每个样本有p个变量记为X1,…,Xp,
它们的综合变量记为F1,F2,…,Fp。当p=2时,原变
量是X1,X2,设
指标较多再加上指标之间有一定的相关性,势必增加了分
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

确定权重方法之一:主成分分析
什么是权重呢?所谓权重,是指某指标在整体评价中的相对重要程度。

权重越大则该指标的重要性越高,对整体的影响就越高。

权重要满足两个条件:每个指标的权重在0、1之间。

所有指标的权重和为1。

权重的确定方法有很多,这里我们学习用主成分分析确定权重。

一、主成分基本思想:
图1 主成分基本思想的问与答
二、利用主成分确定权重
如何利用主成分分析法确定指标权重呢?现举例说明。

假设我们对反映某卖场表现的4项指标(实体店、信誉、企业形象、服务)进行消费者满意度调研。

调研采取4级量表,分值越大,满意度越高。

现回收有效问卷2000份,并用SPSS 录入了问卷数据。

部分数据见下图(详细数据见我的微盘,下载地址为
/s/yR83T)。

图2 主成分确定权重示例数据(部分)
1、操作步骤:
Step1:选择菜单:分析——降维——因子分析
Step2:将4项评价指标选入到变量框中
Step3:设置选项,具体设置如下:
2、输出结果分析
按照以上操作步骤,得到的主要输出结果为表1——表3,具体结果与分析如下:表1 KMO 和Bartlett 的检验
表1是对本例是否适合于主成分分析的检验。

KMO的检验标准见图3。

图3 KMO检验标准
从图3可知,本例适合主成分分析的程度为…一般‟,基本可以用主成分分析求权重。

表2 解释的总方差
从表2可知,前2个主成分对应的特征根>1,提取前2个主成分的累计方差贡献率达到94.513% ,超过80%。

因此前2个主成分基本可以反映全部指标的信息,可以代替原来的4个指标(实体店、信誉、企业形象、服务)。

表3 成份矩阵
从表3可知第一主成分与第二主成分对原来指标的载荷数。

例如,第一主成分对实体店的载荷数为0.957。

3、确定权重
用主成分分析确定权重有:指标权重等于以主成分的方差贡献率为权重,对该指标在各主成分线性组合中的系数的加权平均的归一化
因此,要确定指标权重需要知道三点:
A 指标在各主成分线性组合中的系数
B 主成分的方差贡献率
C 指标权重的归一化
(1)指标在不同主成分线性组合中的系数
这个系数如何求呢?
用表3中的载荷数除以表2中第1列对应的特征根的开方。

例如,在第一主成分F1的线性组合中,实体店的系数=0.957/(2.775)1/2≈0.574。

按此方法,基于表2和表3的数据,在excel中可分别计算出各指标在两个主成分线性组合中的系数(见图4,其中SQRT表示开方)
图4 各指标在两个主成分线性组合中的系数
由此得到的两个主成分线性组合如下:
F1=0.574χ1-0.019χ2+0.574χ3+0.583χ4
F2=-0.048χ1+0.996χ2+0.010χ3+0.070χ4
(2)主成分的方差贡献率
表2中“初始特征值”的“方差%”表示各主成分方差贡献率,方差贡献率越大则该主成分的重要性越强。

因此,方差贡献率可以看成是不同主成分的权重。

由于原有指标基本可以用前两个主成分代替,因此,指标系数可以看成是以这两个主成分方差贡献率为权重,对指标在这两个主成分线性组合中的系数做加权平均。

说得有些晦涩,我们来举个例子。

按上述思路,实体店χ1这个指标的系数为:
这样,我们可以用excel计算出所有指标的系数(见图5)
图5 所有指标在综合得分模型中的系数
由此得到综合得分模型为:
Y=0.409χ1+0.251χ2+0.424χ3+0.446χ4
(3)指标权重的归一化
由于所有指标的权重之和为1,因此指标权重需要在综合模型中指标系数的基础上归一化(见图6)
图6 指标权重的确定。

相关文档
最新文档