主成分分析原理
主成分分析法原理

主成分分析法原理
主成分分析法是一种常用的降维技术,可以用来发现数据中最重要的模式和关系。
其原理是通过线性变换将原始数据映射到一个新的坐标系统中,新坐标系的选择是按照数据方差最大的优先原则进行的。
换句话说,主成分分析法试图找到能够最大程度解释原始数据方差的一组新的变量,这些新变量称为主成分。
在主成分分析中,第一主成分是能够最大程度解释原始数据方差的变量。
第二主成分则是在第一主成分已经解释了最大方差后,能够解释剩余方差最大的变量。
依此类推,可以得到一系列依次解释方差递减的主成分。
主成分分析的关键思想是将原始数据转化为一组新的变量,使得这些新变量之间相互独立,并且每个新变量都能够最大程度地解释数据方差。
通过将数据映射到新的坐标系中,主成分分析可以有效地降低数据的维度,减少不必要的冗余信息。
主成分分析法在数据处理和分析中广泛应用,例如在多变量统计分析、模式识别、数据可视化等领域。
它可以帮助我们得到更简洁、更具有解释性的数据表示,提取出隐藏在数据背后的重要特征和规律,为后续分析和决策提供有效支持。
主成分分析

一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。
2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。
主成分分析法原理

主成分分析法原理主成分分析法原理(PrincipleComponentAnalysis,简称PCA)是一种分析数据变量间关系强度的有效统计方法。
其基本思想是,通过正交变换将多个变量转换为一组线性无关的新变量,从而对数据进行分析。
PCA具有良好的统计性质,是近几十年来最热门的统计学方法之一。
PCA方法可以将数据集中的变量分解为一组新的、无关的变量,这组新变量称为主成分(Principal Components)。
在统计学中,主成分分析的主要目的是探索数据的隐含结构、分解数据的复杂性,从而减少变量的数量,减少计算量。
PCA方法对原始数据进行正交变换,将原始数据的一组维度投影到一组新的维度。
正交变换可以有效提取数据的能量分布特性,提出新的变量,使数据具有统一性、一致性和高效性。
在PCA方法中,数据可以分为两类:原始数据,以及变换后的数据。
原始数据是观察样本而获得的数据,而变换后的数据是通过PCA 变换得到的新变量。
PCA方法可以通过两种方式来确定变换后的数据:(1)使用方差最大化方法:此方法使用每个变量的方差来衡量变换后的数据的相关性,并建立方差最大的变量的集合;(2)使用协方差最小化方法:此方法使用各个变量之间的协方差来衡量其变换后的数据的相关性,并建立协方差最小的变量集合。
PCA方法非常有用,因为它可以提高算法的性能,有助于减少计算量,并提高算法的准确性。
与其他分析方法相比,PCA方法的优势在于它的算法实现简单,可以有效解决多变量间的相关性,有助于减少数据量,提高算法的准确性,并可以用于识别数据中的模式。
PCA方法在许多研究领域有着广泛的应用,如:机器学习、计算机视觉、推荐系统等。
PCA方法是一种非常有效的可视化方法,能有效提高数据分析的准确性,了解数据间的关系,获得更多信息。
PCA 方法还可以用于从大量数据中提取有用的特征,在降维和特征选择上有很强的能力。
总之,PCA方法是一种有效的统计学方法,它可以用于数据和信息的统计分析,从而帮助我们提高数据分析的准确度,实现有效的可视化,提取有用的特征,改善算法的性能,并减少计算量。
主成分分析(主元分析,PCA)原理

PCA原理1因为经常做一些图像和信号处理的工作,要用到主元分析(Principal Components Analysis)作为工具。
写出来供自己和朋友参考。
PCA是一种统计技术,经常应用于人面部识别和图像压缩以及信号去噪等领域,是在高维数据中提取模式的一种常用技术。
要了解PCA首先要了解一些相关的数学知识,这里主要介绍协方差矩阵、特征值与特征矢量的概念。
1、协方差矩阵协方差总是在两维数据之间进行度量,如果我们具有超过两维的数据,将会有多于两个的协方差。
例如对于三维数据(x, y, z维),需要计算cov(x,y),cov(y,z)和cov(z,x)。
获得所有维数之间协方差的方法是计算协方差矩阵。
维数据协方差矩阵的定义为(1)这个公式告诉我们,如果我们有一个n维数据,那么协方差矩阵就是一个n行n 列的方矩阵,矩阵的每一个元素是两个不同维数据之间的协方差。
对于一个3维数据(x,y,z),协方差矩阵有3行3列,它的元素值为:(2)需要注意的是:沿着主对角线,可以看到元素值是同一维数据之间的协方差,这正好是该维数据的方差。
对于其它元素,因为cov(a,b)=cov(b,a),所以协方差矩阵是关于主对角线对称的。
2、特征值和特征矢量只要矩阵大小合适,就可以进行两矩阵相乘,特征矢量就是其中的一个特例。
考虑图2.1中两个矩阵和矢量乘法。
图2.1 一个非特征矢量和一个特征矢量的例子图2.2 一个缩放的特征矢量仍然是一个特征矢量在第一个例子中,结果矢量不是原来因子矢量与整数相乘,然而在第二个例子中,结果矢量是原来因子矢量的4倍,为什么会这样呢?该矢量是一个2维空间矢量,表示从原点(0,0)指向点(3,2)的箭矢。
方矩阵因子可以看作是转换矩阵,一个矢量左乘该转换矩阵,意味着原始矢量转换为一个新矢量。
特征矢量来自于转换特性。
设想一个转换矩阵,如果用其左乘一个矢量,映射矢量是它自身,这个矢量(以及它的所有尺度缩放)就是该转换矩阵的特征矢量。
主成分分析(PCA)数学原理详解

主成分分析(PCA)数学原理详解PCA的数学原理可以分为以下几个步骤:1.数据中心化PCA首先将原始数据进行中心化处理,即将每个特征的均值减去相应特征的平均值,这是因为PCA假设数据围绕着原点分布,中心化可以消除数据的平移影响。
2.协方差矩阵的计算PCA的关键是计算数据的协方差矩阵。
协方差矩阵描述了不同特征之间的相关性。
对于一个n维的数据集,协方差矩阵是一个n×n的矩阵,其中第(i,j)个元素表示第i个特征和第j个特征的协方差。
协方差矩阵的计算公式如下:$C = \frac{1}{n-1} \sum _{i=1}^{n}(X_i - \overline{X})(X_i - \overline{X})^T$其中,X是一个n×m的矩阵,表示n个样本的m个特征,$\overline{X}$ 表示特征均值向量协方差矩阵是一个对称矩阵,通过对协方差矩阵的特征值分解,可以得到特征值和特征向量。
3.特征值和特征向量的计算对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。
特征值代表了数据在特征向量方向上的方差,而特征向量表示了数据的主成分方向。
设协方差矩阵为C,有如下特征值方程:$Cv = \lambda v$其中,v是特征向量,λ是特征值。
将特征值按从大到小的顺序排序,选择前k个最大的特征向量,即主成分,作为新的基向量。
这些特征向量构成了一个新的坐标系,用于表示原始数据的新坐标。
4.数据转换将原始数据投影到新的坐标系上,得到降维后的数据。
设原始数据集为X,新的基向量为V(由前k个特征向量组成),降维后的数据集为Y,可以通过如下公式计算:$Y=XV$其中,X是一个n×m的矩阵,表示n个样本的m个特征,V是一个m×k的矩阵,Y是一个n×k的矩阵。
通过PCA降维,可以获得降维后的数据集Y,它是一个n×k的矩阵。
总结:主成分分析(PCA)通过计算数据的协方差矩阵,得到协方差矩阵的特征值和特征向量。
主成分分析完整版

主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
主成分分析的原理是

主成分分析的原理是
主成分分析(Principal Component Analysis, PCA)是一种常用的
数据降维和特征提取方法。
其原理基于找到一组新的特征向量,使得通过投影数据到这些特征向量上可以尽可能保留数据集的方差。
具体而言,PCA将原始的高维数据映射到一个低维的空间,
使得新空间下的数据能够最大程度地保留原始数据的信息。
这实际上是通过在新特征向量上选择投影方向,使得投影后的数据方差最大化。
这些新特征向量被称为主成分,按照方差的大小排序。
主成分分析的计算过程首先将原始数据去均值,然后计算协方差矩阵。
协方差矩阵可以表达不同特征之间的相关性。
接下来,通过对协方差矩阵进行特征分解,得到特征值和特征向量。
特征值表示对应特征向量的重要性,而特征向量则表示新的特征空间轴。
在选择主成分时,可以根据特征值的大小选择保留哪些主成分,以达到降维的目的。
通常,选择保留的主成分个数可以通过保留足够的累计方差来确定。
一般来说,前几个主成分可以解释数据中大部分的方差,因此保留这些主成分可以减少数据的维度同时保留较多的信息。
最后,可以利用投影矩阵将原始数据映射到新的特征空间,实现数据的降维。
通过主成分分析,可以更好地理解数据的结构
和特征之间的关系,并在数据处理和可视化等领域中发挥重要作用。
主成分分析原理及详解

主成分分析原理及详解PCA的原理如下:1.数据的协方差矩阵:首先计算原始数据的协方差矩阵。
协方差矩阵是一个对称矩阵,描述了不同维度之间的相关性。
如果两个维度具有正相关性,协方差为正数;如果两个维度具有负相关性,协方差为负数;如果两个维度之间没有相关性,协方差为0。
2.特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
特征值表示该特征向量对应的主成分的方差大小。
特征向量表示数据中每个维度的贡献程度,也即主成分的方向。
3.选择主成分:根据特征值的大小选择前k个主成分,使其对应的特征值之和占总特征值之和的比例达到预定阈值。
这些主成分对应的特征向量构成了数据的新基。
4.数据映射:将原始数据投影到新基上,得到降维后的数据。
投影的方法是将数据点沿着每个主成分的方向上的坐标相加。
PCA的步骤如下:1.数据预处理:对原始数据进行预处理,包括去除均值、缩放数据等。
去除均值是为了消除数据的绝对大小对PCA结果的影响;缩放数据是为了消除数据在不同维度上的量纲差异。
2.计算协方差矩阵:根据预处理后的数据计算协方差矩阵。
3.特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
4.选择主成分:根据特征值的大小选择前k个主成分,其中k是满足预设的方差百分比的最小主成分数量。
5.数据映射:将原始数据投影到前k个主成分上,得到降维后的数据。
PCA的优缺点如下:2.缺点:PCA是一种线性方法,无法处理非线性数据;PCA对异常值敏感,可能会导致降维后的数据失去重要信息;PCA的解释性较差,不易解释主成分和原始数据之间的关系。
综上所述,PCA是一种常用的数据降维方法,通过保留数据的最大方差,将高维数据映射到低维空间。
它的原理基于协方差矩阵的特征值分解,步骤包括数据预处理、计算协方差矩阵、特征值分解、选择主成分和数据映射。
PCA具有很多优点,如无监督学习、重要特征提取和数据压缩等,但也存在一些缺点,如无法处理非线性数据和对异常值敏感。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析原理(一)教学目的通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。
(二)基本要求了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。
(三)教学要点1、主成分分析基本思想,数学模型,几何解释2、主成分分析的计算步骤及应用(四)教学时数3课时(五)教学内容1、主成分分析的原理及模型2、主成分的导出及主成分分析步骤在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。
由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。
如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。
第一节主成分分析的原理及模型一、主成分分析的基本思想与数学模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。
这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。
通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。
因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。
如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。
(二)主成分分析的数学模型对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为:⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p x x x x x x x x x X 212222111211()p x x x ,,21=其中:p j x x x x nj j j j ,2,1,21=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量),即⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=ppp p p p pp pp x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为:p jp j j j x x x F ααα+++= 2211p j ,,2,1 =要求模型满足以下条件:①j i F F ,互不相关(j i ≠,p j i ,,2,1, =) ②1F 的方差大于2F 的方差大于3F 的方差,依次类推 ③.,2,1122221p k a a a kp k k ==+++于是,称1F 为第一主成分,2F 为第二主成分,依此类推,有第p 个主成分。
主成分又叫主分量。
这里ij a 我们称为主成分系数。
上述模型可用矩阵表示为:AX F =,其中⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=p F F F F 21 ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=p x x x X 21⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=p pp p p p p a a a a a a a a a a a a A 21212222111211 A 称为主成分系数矩阵。
二、主成分分析的几何解释假设有n 个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。
设n 个样品在二维空间中的分布大致为一个椭园,如下图所示:图7.1 主成分几何解释图将坐标系进行正交旋转一个角度θ,使其椭圆长轴方向取坐标1y ,在椭圆短轴方向取坐标2y ,旋转公式为⎩⎨⎧+-=+=θθθθcos )sin (sin cos 212211j j jj j j x x y x x y n j 2,1=写成矩阵形式为:⎥⎦⎤⎢⎣⎡=n n y y y y y y Y 2222111211X U x x x x x x n n ⋅=⎥⎦⎤⎢⎣⎡⋅⎥⎦⎤⎢⎣⎡-=2222111211cos sin sin cos θθθθ 其中U 为坐标旋转变换矩阵,它是正交矩阵,即有I U U U U ='='-,1,即满足1cos sin 22=+θθ。
经过旋转变换后,得到下图的新坐标:图7.2 主成分几何解释图新坐标21y y -有如下性质:(1)n 个点的坐标1y 和2y 的相关几乎为零。
(2)二维平面上的n 个点的方差大部分都归结为1y 轴上,而2y 轴上的方差较小。
1y 和2y 称为原始变量1x 和2x 的综合变量。
由于n 个点在1y 轴上的方差最大,因而将二维空间的点用在1y 轴上的一维综合变量来代替,所损失的信息量最小,由此称1y 轴为第一主成分,2y 轴与1y 轴正交,有较小的方差,称它为第二主成分。
三、主成分分析的应用主成分概念首先是由Karl parson 在1901年引进,但当时只对非随机变量来讨论的。
1933年Hotelling 将这个概念推广到随机变量。
特别是近年来,随着计算机软件的应用,使得主成分分析的应用也越来越广泛。
其中,主成分分析可以用于系统评估。
系统评估是指对系统营运状态做出评估,而评估一个系统的营运状态往往需要综合考察许多营运变量,例如对某一类企业的经济效益作评估,影响经济效益的变量很多,很难直接比较其优劣,所以解决评估问题的焦点是希望客观、科学地将一个多变量问题综合成一个单变量形式,也就是说只有在一维空间中才能使排序评估成为可能,这正符合主成分分析的基本思想。
在经济统计研究中,除了经济效益的综合评价研究外,对不同地区经济发展水平的评价研究,不同地区经济发展竞争力的评价研究,人民生活水平、生活质量的评价研究,等等都可以用主成分分析方法进行研究。
另外,主成分分析除了用于系统评估研究领域外,还可以与回归分析结合,进行主成分回归分析,以及利用主成分分析进行挑选变量,选择变量子集合的研究。
第二节 主成分的导出及主成分分析的步骤一、主成分的导出根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据,以及模型的三个条件的要求,如何求出主成分系数,以便得到主成分模型。
这就是导出主成分所要解决的问题。
1、根据主成分数学模型的条件①要求主成分之间互不相关,为此主成分之间的协差阵应该是一个对角阵。
即,对于主成分,AX F =其协差阵应为,A X AX AX AX AX Var F Var ''='⋅==)()()()( =⎪⎪⎪⎪⎪⎭⎫⎝⎛=Λp λλλ212、设原始数据的协方差阵为V ,如果原始数据进行了标准化处理后则协方差阵等于相关矩阵,即有,X X R V '==3、再由主成分数学模型条件③和正交矩阵的性质,若能够满足条件③最好要求A 为正交矩阵,即满足I A A ='于是,将原始数据的协方差代入主成分的协差阵公式得Λ='=''=A AR A X AX F Var )(Λ'='Λ='A A R A AR展开上式得⎪⎪⎪⎪⎪⎭⎫⎝⎛⋅⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛⋅⎪⎪⎪⎪⎪⎭⎫⎝⎛p pp p p p p pp p p p p pp p p p p a a aa a a a a a a a a a a a a a a r r rr r r r r r λλλ 21212221212111212221212111212222111211展开等式两边,根据矩阵相等的性质,这里只根据第一列得出的方程为:()⎪⎪⎩⎪⎪⎨⎧=-+++=++-+=+++-0)(0)(0111221111212122112111121211111p pp p p pp p p a r a r a r a r a r a r a r a r a r λλλ 为了得到该齐次方程的解,要求其系数矩阵行列式为0,即0121212221112111=---λλλpp p pp p r r r r r r r r r01=-I R λ显然,1λ是相关系数矩阵的特征值,()p a a a a 112111,, =是相应的特征向量。
根据第二列、第三列等可以得到类似的方程,于是i λ是方程0=-I R λ的p 个根,i λ为特征方程的特征根,j a 是其特征向量的分量。
4、下面再证明主成分的方差是依次递减设相关系数矩阵R 的p 个特征根为p λλλ≥≥≥ 21,相应的特征向量为j a⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=p pp p p p p a a a a a a a a a a a a A 21212222111211 相对于1F 的方差为111111)(λ='=''=a R a a X X a F Var 同样有:i i F Var λ=)(,即主成分的方差依次递减。
并且协方差为:j i j i Ra a X a X a Cov '=''),(j pi a a a a )(1∑=''=ααααλ j i a a a a j i p≠=''=∑=,0))((1ααααλ综上所述,根据证明有,主成分分析中的主成分协方差应该是对角矩阵,其对角线上的元素恰好是原始数据相关矩阵的特征值,而主成分系数矩阵A 的元素则是原始数据相关矩阵特征值相应的特征向量。
矩阵A 是一个正交矩阵。
于是,变量()p x x x ,,21经过变换后得到新的综合变量⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=ppp p p p pp pp x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 新的随机变量彼此不相关,且方差依次递减。
二、主成分分析的计算步骤样本观测数据矩阵为:⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p x x x x x x x x x X 212222111211第一步:对原始数据进行标准化处理。
)var(*j j ij ijx x x x -=),,2,1;,,2,1(p j n i ==其中 ∑==ni ij j x n x 1121)(11)var(j ni ij j x x n x --=∑= ),,2,1(p j =第二步:计算样本相关系数矩阵。