主成分分析数据的标准化与非标准化的对比分析
主成分分析方法及其应用效果评估

主成分分析方法及其应用效果评估主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据降维技术,被广泛应用于数据分析、模式识别和机器学习等领域。
本文将介绍主成分分析的基本原理、具体方法以及其在实际应用中的效果评估。
一、主成分分析的基本原理主成分分析是一种统计分析方法,旨在将具有相关性的多个变量转化为一组线性无关的新变量,称为主成分。
通过降维,主成分分析可以有效减少数据的维度,并保留原始数据中的大部分信息。
主成分分析的基本原理是通过找到数据中的最大方差方向来构建主成分。
具体步骤如下:1. 标准化数据:对原始数据进行标准化处理,使得每个变量具有相同的尺度。
2. 计算协方差矩阵:计算标准化后数据的协方差矩阵。
3. 计算特征值与特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4. 选择主成分:根据特征值的大小排序,选择前k个特征值对应的特征向量作为主成分。
5. 构建主成分:将选择的主成分按权重线性组合,得到原始数据的主成分。
二、主成分分析的具体方法主成分分析可以通过多种计算方法实现,其中最常用的是基于特征值分解的方法。
下面介绍主成分分析的具体计算步骤:1. 标准化数据:对原始数据进行标准化处理,使得每个变量具有均值为0、方差为1的特性。
2. 计算协方差矩阵:将标准化后的数据计算协方差矩阵。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4. 选择主成分:根据特征值的大小选择前k个特征向量作为主成分。
5. 构建主成分:将选择的主成分按权重线性组合,得到原始数据的主成分。
三、主成分分析在实际应用中的效果评估在应用主成分分析时,我们需要对其效果进行评估,以确保选择的主成分能够充分保留原始数据的信息。
常用的效果评估方法有以下几种:1. 解释方差比(Explained Variance Ratio):解释方差比可以衡量每个主成分对原始数据方差的贡献程度。
主成分分析数据的标准化与非标准化的对比分析

主成分分析的基本理论假设我们所讨论的实际问题中有p 个指标,我们把这p 个指标看作p 个随机变量,记为12,,P X X X 。
这p 个指标构成的p 维随机向量为12(,,)'P X X X X =.设随机向量X 的均值为μ,协方差为∑。
对X 进行线性转换,可以形成新的综合变量,用Y 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足11112121212122221122p pp p p p p pp pY u X u X u X Y u X u X u X Y u X u X u X =+++=+++=+++由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y 的统计特征也不尽相同。
因此为了取得较好的效果,我们总是希望'i i Y u X =的方差尽可能大且各j Y 之间互相独立,由于var()var(')'i i i i Y u X u u ==∑而对任给的常数c ,有2var(')''i i i i i cu X cu u c c u u =∑=∑因此对i u 不加限制时,可使var()i Y 任意增大,问题将变得没有意义。
我们将线性变换约束在下面原则下:1. 每个主成分的系数平方和为1,'1i i u u =即222121i i pi u u u +++=2. 主成分之间相互独立,即无重叠的信息。
即012)i j Cov F F i j i j p =≠=(,),(;,,,,3. 主成分的方差依次递减,重要性依次递减,1Y 是12,,P X X X 所有线性组合中方差最大者;即2Y 是与1Y 不相关的12,,P X X X 所有线性组合中方差最大者;1p Y -是与121,,,p Y Y Y -不相关的12,,P X X X 所有线性组合中方差最大者。
12()()p VarF Var F Var F ≥≥≥()基于以上三条原则决定的综合变量12,,,p Y Y Y 分别为原始变量的第一、二、第p 主成分。
主成分分析的原理与方法

主成分分析的原理与方法主成分分析(Principal Component Analysis, PCA)是一种常用的降维技术,用于数据的降维和特征提取。
它通过线性变换将原始数据映射到新的特征空间,使映射后的数据在新的特征空间中具有最大的方差。
一、主成分分析的原理主成分分析的核心思想是将高维数据映射到低维空间,同时保留最重要的信息。
具体而言,将原始数据映射到新的特征空间后,希望得到的新特征具有以下特性:1. 最大化方差:在新的特征空间中,希望找到使数据方差最大化的方向。
这样做的目的是将数据的主要变化方向保留下来,有利于更好地区分不同的样本。
2. 无相关性:希望得到的新特征之间是相互独立的,即它们之间没有任何相关性。
这样可以减少数据中的冗余信息,提取出更具代表性的特征。
二、主成分分析的方法主成分分析通常分为以下几个步骤:1. 标准化数据:由于主成分分析是基于数据的协方差矩阵进行计算的,所以首先需要将数据进行标准化处理,使各个维度的数据具有相同的尺度。
2. 计算协方差矩阵:通过计算标准化后的数据的协方差矩阵,可以得到各个维度之间的相关性。
3. 计算特征值和特征向量:对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量,其中特征值表示对应特征向量方向上的方差。
4. 选择主成分:根据特征值的大小,选择方差解释最大的前k个特征向量作为主成分。
5. 数据映射:将原始数据映射到选择的主成分上,得到降维后的数据。
三、主成分分析的应用主成分分析在数据分析和特征工程中有广泛的应用,可以用于数据降维、数据可视化和去除数据冗余等方面。
1. 数据降维:主成分分析可以将高维数据映射到低维空间,减少数据的维度,降低计算复杂度,并且保留了大部分的数据信息。
2. 数据可视化:通过将数据映射到二维或三维空间,可以将高维数据可视化,更好地观察数据的分布和结构。
3. 特征提取:主成分分析可以提取出数据中最具代表性的特征,对于后续的模型建立和训练有重要的意义。
主成分分析(PCA)原理详解

主成分分析(PCA)原理详解PCA的基本原理如下:1.数据标准化:对数据进行标准化处理,使得每个特征的均值为0,方差为1、这一步骤是为了保证不同特征的量纲一致,避免一些特征因数值过大而对分析结果造成影响。
2.计算协方差矩阵:协方差矩阵描述了数据特征之间的相关性。
通过计算标准化后的数据的协方差矩阵,可以得到不同特征之间的相关性信息。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
特征向量表示了数据在各个方向上的投影情况,特征值则表示了各个特征向量的重要程度。
4.选择主成分:根据特征值的大小,选择最重要的K个特征向量作为主成分。
特征值越大,表示该特征向量所代表的特征在数据中的方差越大,所能解释的信息也越多。
5.构造降维后的数据集:将选取的K个特征向量组合成一个转换矩阵,将原始数据映射到新的K维空间中。
通过这个转换过程,可以实现降维并且保留较多的信息。
总结起来,PCA的主要思想是通过计算特征向量和特征值,找到数据中最重要的方向(主成分),然后通过投影到这些主成分上实现数据的降维。
PCA的应用包括数据可视化、特征选择、噪声过滤等。
例如,在数据可视化中,将高维数据降至二维或三维空间,有助于观察数据之间的分布情况。
在特征选择中,选择最能代表数据信息的主成分可以减少特征的数量,并且仍能保留较多的重要信息。
在噪声过滤中,提取数据中的主成分,滤除噪声成分,能够提高数据的质量和可靠性。
需要注意的是,PCA的有效性依赖于数据之间存在线性关系的假设。
对于非线性关系较强的数据,PCA不一定能够有效降维,这时可以采用核主成分分析等非线性降维方法。
以上是对PCA原理的详细解析。
通过PCA,我们能够将高维数据转换为一组更易理解和处理的低维特征,从而发现数据中的潜在结构、关系和模式,为后续分析和建模提供有益的信息。
主成分分析完整版

主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。
欧阳学文求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;3.主成分分析不要求数据来源于正态分布;4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。
优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。
目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
常用聚类方法:系统聚类法,K均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
注意事项:1. 系统聚类法可对变量或者记录进行分类,K均值法只能对记录进行分类;2. K均值法要求分析人员事先知道样品分为多少类;3. 对变量的多元正态性,方差齐性等要求较高。
主成分分析方法
主成分分析方法主成分分析(Principal Component Analysis,PCA)是一种常用的多变量统计分析方法,它可以帮助我们发现数据中的主要模式和结构。
主成分分析的基本思想是通过线性变换将原始变量转换为一组新的互相无关的变量,这些新变量被称为主成分,它们能够尽可能多地保留原始数据的信息。
在实际应用中,主成分分析通常用于降维和数据可视化,以及发现变量之间的潜在关联。
主成分分析的数学原理比较复杂,但是在实际应用中,我们只需要了解其基本步骤和注意事项即可进行分析。
下面我们将介绍主成分分析的基本方法及其应用。
1. 数据标准化。
在进行主成分分析之前,我们首先需要对数据进行标准化处理,以消除变量之间的量纲差异对分析结果的影响。
通常采用的标准化方法包括Z-score标准化和min-max标准化。
Z-score标准化将原始数据转换为均值为0,标准差为1的标准正态分布,而min-max标准化将原始数据缩放到一个特定的区间内,通常是[0, 1]或[-1, 1]。
2. 计算协方差矩阵。
在数据标准化之后,我们需要计算变量之间的协方差矩阵。
协方差矩阵可以反映变量之间的线性关系,它是主成分分析的基础。
通过对协方差矩阵进行特征值分解,我们可以得到特征值和特征向量,进而求得主成分。
3. 提取主成分。
根据特征值的大小,我们可以选择保留的主成分个数。
一般来说,我们会选择特征值较大的前几个主成分,因为它们能够较好地保留原始数据的信息。
通过将原始数据投影到所选择的主成分上,我们可以得到新的主成分得分,从而实现数据的降维。
4. 解释主成分。
在主成分分析的结果中,我们通常会对每个主成分进行解释,以了解它们所代表的含义。
通过观察主成分的载荷(即主成分与原始变量之间的相关系数),我们可以发现主成分与原始变量之间的关系,从而解释主成分所反映的数据模式。
5. 应用主成分分析。
主成分分析可以应用于各种领域,如金融、生物、地理等。
在金融领域,主成分分析常用于股票投资组合的优化和风险管理;在生物领域,主成分分析常用于基因表达数据的分析和分类;在地理领域,主成分分析常用于气候数据的降维和可视化。
主成分分析的原理与方法
主成分分析的原理与方法主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维和特征提取方法。
它通过提取数据中的主要特征,将高维数据转化为低维表示,从而简化数据分析和可视化过程。
本文将介绍主成分分析的原理与方法,并对其在实际应用中的一些注意事项进行探讨。
一、主成分分析的原理主成分分析的基本原理是通过线性变换将原始数据映射到一组新的正交变量上,这些新的变量被称为主成分。
主成分的生成过程为以下几个步骤:1. 数据标准化在进行主成分分析之前,首先要对原始数据进行标准化处理,确保数据在不同维度上具有相同的尺度,避免因为尺度不同而影响主成分的提取。
2. 计算协方差矩阵计算标准化后的数据的协方差矩阵,协方差矩阵反映了不同维度之间的相关性。
通过协方差矩阵,可以确定数据中的主要方向和相关性强弱。
3. 特征值分解对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
特征值表示了每个主成分所解释的方差比例,而特征向量则是对应于特征值的主成分。
4. 选择主成分根据特征值的大小,选择前k个最大的特征值对应的特征向量作为主成分,其中k是用户预设的维度。
二、主成分分析的方法主成分分析一般可以通过以下几个步骤来完成:1. 数据准备首先,需要准备原始数据集,并对数据进行标准化处理,使得数据在不同维度上具有相同的尺度。
2. 计算协方差矩阵根据标准化后的数据,计算协方差矩阵,可以使用公式进行计算,也可以使用相关的库函数进行计算。
3. 特征值分解对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。
4. 选择主成分根据特征值的大小,选择前k个最大的特征值对应的特征向量作为主成分。
5. 数据转换将原始数据通过选取的主成分进行线性变换,得到在主成分上的投影值,即将高维数据转化为低维表示。
三、注意事项与应用场景在进行主成分分析时,需要注意以下几个事项:1. 数据的线性关系主成分分析假设数据具有线性关系,如果数据之间的关系是非线性的,主成分分析可能无法提取到有效的信息。
主成分分析实例和含义讲解
主成分分析实例和含义讲解1.数据标准化:对原始数据进行标准化处理,使得每个变量的均值为0,方差为1、这一步是为了将不同量级的变量进行比较。
2.计算协方差矩阵:根据标准化后的数据,计算协方差矩阵。
协方差矩阵反映了各个变量之间的线性关系。
3.特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
特征值表示了各个特征向量的重要程度。
4.选择主成分:根据特征值的大小,选择前k个特征向量作为主成分,k通常是根据主成分所解释的方差比例进行确定。
5.数据投影:将原始数据投影到选取的主成分上,得到降维后的数据。
主成分分析的含义可以从两个方面来解释。
一方面,主成分分析表示了原始数据在新坐标系下的投影,可以帮助我们理解数据的结构和变化。
通过选择前几个主成分,我们可以找到最能够代表原始数据的几个因素,从而实现数据的降维。
例如,在一个包含多个变量的数据集中,如果我们选择了前两个主成分,那么我们可以通过绘制数据在这两个主成分上的投影,来理解数据的分布和变化规律。
同时,主成分的累计方差贡献率可以帮助我们评估所选择的主成分对原始数据方差的解释程度,从而确定降维的精度。
另一方面,主成分分析还可以用于数据的预处理和异常值检测。
通过计算每个变量在主成分上的权重,我们可以判断每个变量对主成分的贡献大小。
如果一些变量的权重很小,那么可以考虑将其从数据集中剔除,从而减少数据的维度和复杂度。
此外,主成分分析还可以检测数据集中的异常值。
在降维的过程中,异常值对主成分的计算结果会产生较大的影响,因此可以通过比较各个主成分的方差贡献率,来识别可能存在的异常值。
总之,主成分分析是一种常用的数据降维方法,它能够帮助我们理解数据集的结构,并鉴别对数据变化影响最大的因素。
通过选择适当的主成分,我们可以实现数据的降维和可视化,并对异常值进行检测。
在实际应用中,主成分分析常常与其他数据挖掘和机器学习方法结合使用,从而发现数据的隐藏模式和关联规则,提高数据分析的效果和准确性。
浅析主成分分析法及案例分析
浅析主成分分析法及案例分析主成分分析的原理:主成分分析的目标是找到一组线性变量,它们能够最大程度地解释原始数据中的变化。
第一个主成分与数据具有最大的差异,而随后的主成分则与第一个主成分正交(即无相关性),并且在特征解释方面具有最大的差异。
主成分是对原始数据的线性组合,其中具有最大方差的成分被称为第一个主成分,次大方差的成分被称为第二个主成分,依此类推。
主成分分析的步骤:1.标准化数据:如果原始数据的变量具有不同的单位和尺度,我们需要对数据进行标准化,以确保每个变量对主成分的贡献是公平的。
2.计算协方差矩阵:协方差矩阵显示了原始数据中变量之间的相关性。
它可以通过计算每个变量之间的协方差来得到。
3.计算特征向量和特征值:通过对协方差矩阵进行特征分解,我们可以得到一组特征向量和特征值。
特征向量表示主成分的方向,而特征值表示每个主成分的解释方差。
4.选择主成分:根据特征值的大小,我们可以选择前k个主成分作为降维后的新变量,其中k是我们希望保留的维度。
这样就可以将原始数据投影到所选的主成分上。
主成分分析的案例分析:假设我们有一份包含多个变量的数据集,例如身高、体重、年龄和收入。
我们希望通过主成分分析来降低数据的维度,以便更好地理解数据集。
首先,我们需要标准化数据,以确保每个变量具有相同的权重。
接下来,我们计算协方差矩阵,得到变量之间的相关性。
然后,我们进行特征值分解,得到一组特征向量和特征值。
通过观察特征值的大小,我们可以选择前几个主成分,例如前两个主成分。
最后,我们将原始数据集投影到选定的主成分上,得到降维后的数据集。
这样,我们可以用两个主成分来表示原始数据集的大部分变异,并且可以更容易地分析数据集中的模式和关系。
总结:通过主成分分析,我们可以将高维度的数据转换为更低维度的数据,从而更好地理解和分析数据集。
它可以帮助我们发现数据中的隐藏模式和关系,提取出对数据变异具有最大贡献的特征。
在实际应用中,主成分分析常用于数据降维、数据可视化、特征选择等领域。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析的基本理论假设我们所讨论的实际问题中有p 个指标,我们把这p 个指标看作p 个随机变量,记为12,,P X X X 。
这p 个指标构成的p 维随机向量为12(,,)'P X X X X =.设随机向量X 的均值为μ,协方差为∑。
对X 进行线性转换,可以形成新的综合变量,用Y 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足11112121212122221122p pp p p p p pp pY u X u X u X Y u X u X u X Y u X u X u X =+++=+++=+++由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y 的统计特征也不尽相同。
因此为了取得较好的效果,我们总是希望'i i Y u X =的方差尽可能大且各j Y 之间互相独立,由于var()var(')'i i i i Y u X u u ==∑而对任给的常数c ,有2var(')''i i i i i cu X cu u c c u u =∑=∑因此对i u 不加限制时,可使var()i Y 任意增大,问题将变得没有意义。
我们将线性变换约束在下面原则下:1. 每个主成分的系数平方和为1,'1i i u u =即222121i i pi u u u +++=2. 主成分之间相互独立,即无重叠的信息。
即012)i j Cov F F i j i j p =≠=(,),(;,,,,3. 主成分的方差依次递减,重要性依次递减,1Y 是12,,P X X X 所有线性组合中方差最大者;即2Y 是与1Y 不相关的12,,P X X X 所有线性组合中方差最大者;1p Y -是与121,,,p Y Y Y -不相关的12,,P X X X 所有线性组合中方差最大者。
12()()p VarF Var F Var F ≥≥≥()基于以上三条原则决定的综合变量12,,,p Y Y Y 分别为原始变量的第一、二、第p 主成分。
其中,各综合变量在总方差中占得比重依次递减。
主成分分析基本思想是在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化。
对于随机变量12,,,P X X X 而言,其协方差矩阵或相关矩阵正是对个变量离散程度与变量之间的相关程度的信息的反映,而相关矩阵是将原始变量标准化后的协方差矩阵。
本文所要讨论的主成分分析数据的标准化与非标准化的对比分析本质上就是对原始变量的协方差矩阵以及相关矩阵求解主成分进行对比分析。
下面就对二者进行讨论。
主成分求解一、从协方差矩阵出发求解主成分(一)第一主成分:设X 的协方差阵为: 111212122212P P X P P PP σσσσσσσσσ⎡⎤⎢⎥⎢⎥∑=⎢⎥⎢⎥⎣⎦由于x ∑为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U ,使得 100p λλ⎡⎤⎢⎥'=⎢⎥⎢⎥⎣⎦X U ΣU 其中12,,,p λλλ⋅⋅⋅为x ∑的特征根,不妨假设12p λλλ≥≥⋅⋅⋅≥。
而U 恰好是由特征根相对应的特征向量所组成的正交阵。
111212122212(,,)p p p p pp u u u u u u u u u ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦1p U u u ()121,2,,i i pi u u u i P '==i U ,,,下面我们来看,是否由U 的第一列元素所构成为原始变量的线性组合是否有最大的方差。
设有P 维正交向量()111211,,,p a a a '=a11111'p p Y a X a X a X =++⋅⋅⋅+=1211111()p V Y λλλ⎡⎤⎢⎥'''=∑=⎢⎥⎢⎥⎣⎦a a a U U a12121111111()()pi i i i pi i i pi i pi i i λλλλλλλ====''='='≤''='''===∑∑∑∑a u u aa u a u a u u aa UU a a a当且仅当11a u =时,即11111p p Y u X u X =++时,有最大的方差1λ。
因为1111()'Var F U xU λ=∑=如果第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分在约束条件12cov(,)0Y Y =下,寻找第二主成分 21212p p Y u X u X =++因为121221121cov(,)cov(,)0Y Y u x u x u u u u λ''''==∑== 所以210u u '=则,对p 维向量2u ,有222222211()()p pi i i i i i i V Y u u λλ==''''=∑==∑∑u u u u u u 22222221pi i i λλλλ='''''====∑222u u u u u UU u u u所以如果取线性变换:21212222p p Y u X u X u X =+++则2Y 的方差次大。
类推11112121212122221122p pp p p p p pp pY u X u X u X Y u X u X u X Y u X u X u X=+++=+++=+++写为矩阵形式:Y '=U X111212122212(,,)p p p p pp u u u u u u u u u ⎡⎤⎢⎥==⎢⎥⎢⎥⎣⎦1p U u u12(,,,)p X X X '=X上述推导表明:变量x 的主成分y 是以∑的特征向量为系数的线性组合,它们互不相关,方差为∑的特征根。
而∑得特征根120p λλλ≥≥⋅⋅⋅≥>,所以12()()()0p Var y Var y Var y ≥≥⋅⋅⋅≥>。
二、由相关系数矩阵求解主成分当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。
量纲对于主成分分析的影响及消除方法——对数据进行标准化处理,以使每一个变量的均值为0,方差为1。
()*()i i i i X E X X D X -=数据标准化后,总体的协方差矩阵与总体的相关系数相等。
********121**1221212112212cov(,)(())(())(())11cov(,)1111i j i i j j i j p p ij i j p p p p p p X X E X E X X E X E X X X X ρρρρρρρρρρρρρ'=--=⎡⎤⎢⎥===⎢⎥⎢⎥⎣⎦⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦案例背景根据35个主要城市2001年关于年底总人口数、国内生产总值、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工人数总额10个指标的数据,分别用原始变量的协方差矩阵和相关矩阵求解主成分。
(数据见附页)数据来源及说明采用的数据主要是中华人民共和国统计局网上搜集的,关于35个主要城市2001年年底总人口数、国内生产总值、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工人数总额10个指标的数据。
分析样例分别从协方差矩阵和相关矩阵出发对求解主成分(对比)的步骤: 根据原始数据计算协方差矩阵 命令代码:得到原始数据协方差矩阵是:利用标准化数据求解的协方差矩阵(原始数据的相关矩阵)的命令代码就只需将上面的代码中b=cov(a);改为b=corrcoef(zscore(a));即可。
得到原始数据相关矩阵是:由上面的协方差矩阵可以看出各个变量之间的离散程度很大,说明变量之间相关程度不大。
然而在相关矩阵中可以看出除了第四个变量与其他变量离散程度大,其余变量之间都有很强的相关性,相关系数在0.7以上。
这个结果与协方差矩阵有截然不同的解释。
这是因为原始数据各项指标的受不同度量尺度的影响。
由原始数据协方差出发求解主成分,得到如下结果:特征根解释方差比例累积比例2.32E+14 0.92807854916 0.928078549161.75E+13 0.070005925045 0.998084474213.58E+11 0.0014321212095 0.999516595428.76E+10 0.00035042965908 0.999867025073.31E+10 0.0001324112068 0.999999436281.17E+08 4.6803961315E-07 0.999999904322.39E+07 9.5608091918E-08 0.9999999999313259 5.3040489152E-11 0.999999999984326.9 1.7309064976E-11 187.357 3.4945757681E-13 1其对应特征值的标准正交特征向量见下表:特征根1 特征根2 特征根3 特征根4 特征根5 1.47E-05 1.43E-05 -8.70E-05 -0.0001590.0005036 6.09E-05 1.12E-05 -8.71E-05 -0.000267-0.000159 0.85463 -0.50078 0.13407 -0.0035160.029032 9.71E-05 0.0008170-0.004133-0.018148 0.012006 0.0005517 0.0001702-0.001924-0.0061540.015777 0.081264 0.039067 -0.19233 0.61971 -0.75514 0.23758 0.16555 -0.90746 -0.30384 0.015577 0.44485 0.83641 0.29955 -0.094259 -0.062501 3.66E-06 8.62E-06 -6.56E-06 2.97E-05 0.0001047 0.093096 0.14387 -0.17836 0.7172 0.65145 特征根6 特征根7 特征根8 特征根9 特征根10 0.0023663 -0.009481-0.82762 0.55588 0.077126 -0.001383-0.008246-0.55461 -0.83118 0.038452 0.00026260.0007210 1.60E-05 1.91E-05 -9.78E-070.9531 0.30182 -0.002622-0.002828-1.21E-05 0.30157 -0.95321 0.01229 0.0007504-8.25E-05 0.023198 -0.008721-0.0002620.0001939-2.37E-05 -0.010379 0.00093730.00018939.05E-05 -1.63E-05 -0.000248-0.000702 1.37E-05 5.30E-05 -2.41E-06 9.31E-05 -0.000976-0.085475 0.010953 -0.99628 0.0022321 0.0072965 -3.98E-05 -0.0003748.50E-05 因此所得的主成分的表达式是))(0550.8())(0778.9())(038452.0())(077126.0()(14387.0)(50078.0))(0512.1)()(0543.1()(093096.0)(85463.0))(0509.6())(0547.1(1010332211101010332211210103322111X X E X X E X X X X Y X X X X X X E X X E Y X X X X X X E X X E Y --++----+-=-++------=-++-+--+--=其中第一主成分保留了原有变量的92.8%的信息,所以在分析中可以把第二主成分舍掉,这样就达到了简化问题的目的。