Principal Component Analysis (主成份分析)
主成分分析 ( Principal Component Analysis , PCA )

主成分分析(Principal Component Analysis ,PCA )主成分分析(Principal Component Analysis ,PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。
计算主成分的目的是将高维数据投影到较低维空间。
给定n 个变量的m 个观察值,形成一个n ′m 的数据矩阵,n 通常比较大。
对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。
但是,在一般情况下,并不能直接找出这样的关键变量。
这时我们可以用原有变量的线性组合来表示事物的主要方面,PCA 就是这样一种分析方法。
PCA 主要用于数据降维,对于一系列例子的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的例子中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。
所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是“精品”,而且计算量也变小了。
对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。
例如,一个45度倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好!所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。
主成分分析报告

主成分分析报告第一点:主成分分析的定义与重要性主成分分析(Principal Component Analysis,PCA)是一种统计方法,它通过正交变换将一组可能相关的变量转换为一组线性不相关的变量,这组变量称为主成分。
这种方法在多变量数据分析中至关重要,尤其是在数据的降维和可视化方面。
在实际应用中,数据往往包含多个变量,这些变量可能存在一定的相关性。
这样的数据集很难直接进行分析和理解。
主成分分析通过提取数据中的主要特征,将原始的多维数据转化为少数几个互相独立的主成分,使得我们能够更加清晰地看到数据背后的结构和模式。
主成分分析的重要性体现在以下几个方面:1.降维:在数据集中存在大量变量时,通过PCA可以减少数据的维度,简化模型的复杂性,从而降低计算成本,并提高模型的预测速度。
2.去除相关性:PCA能够帮助我们识别和去除变量间的线性相关性,使得我们分析的是更加纯净的独立信息。
3.数据可视化:通过将多维数据映射到二维或三维空间中,PCA使得数据的可视化成为可能,有助于我们直观地理解数据的结构和模式。
4.特征提取:在机器学习中,PCA可以作为一种特征提取工具,提高模型的性能和泛化能力。
第二点:主成分分析的应用案例主成分分析在各个领域都有广泛的应用,下面列举几个典型的案例:1.图像处理:在图像处理领域,PCA被用于图像压缩和特征提取。
通过将图像转换到主成分空间,可以大幅度减少数据的存储空间,同时保留图像的主要信息。
2.金融市场分析:在金融领域,PCA可以用来分析股票或证券的价格动向,通过识别影响市场变化的主要因素,帮助投资者做出更明智的投资决策。
3.基因数据分析:在生物信息学领域,PCA被用于基因表达数据的分析。
通过识别和解释基因间的相关性,PCA有助于揭示生物过程中的关键基因和分子机制。
4.客户细分:在市场营销中,PCA可以用来分析客户的购买行为和偏好,通过识别不同客户群的主要特征,企业可以更有效地制定市场策略和个性化推荐。
主成分分析法

主成分分析法一、主成分分析(principal components analysis )也称为主分量分析,是由Holtelling 于1933年首先提出的。
主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。
二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp ,它们都是相关的, 一时难以综合。
这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。
我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。
任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。
如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。
由这一点来看,一项指标在个体间的变异越大越好。
因此我们把“变异大”作为“好”的标准来寻求综合指标。
例1、考察对象股票业绩(这里单个股票为观察个体)。
(1)确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。
因此对单个股票来说,用11个随机变量综合刻化。
但这些因素过多,各因素区别不明显,有交叉反映。
通过主成分分析,可降为少数几个综合指标加以刻化。
(2)考察20支不同的股票。
从数学角度看,每种影响因素是随机变量(X i ),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20×11的原始数据阵X20×11(略)。
三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?1、主成分的一般定义设有随机变量X1,X2,…,Xp , 其样本均数记为1X ,2X ,…,p X,样本标准差记为S1,S2,…,Sp 。
主成分分析法及其应用

主成分分析法及其应用一、本文概述主成分分析法(Principal Component Analysis,简称PCA)是一种广泛应用于数据降维和特征提取的统计方法。
它通过正交变换将原始数据集中的多个变量转换为少数几个互不相关的主成分,这些主成分能够最大程度地保留原始数据集中的信息。
本文旨在全面介绍主成分分析法的基本原理、实现步骤以及在各个领域中的应用案例。
我们将详细阐述主成分分析法的数学基础和算法流程,包括协方差矩阵、特征值、特征向量等关键概念的计算方法。
然后,我们将通过实例演示如何使用主成分分析法进行数据降维和特征提取,以及如何通过可视化工具展示降维后的数据效果。
我们将探讨主成分分析法在机器学习、图像处理、生物信息学、社会科学等多个领域中的实际应用,展示其在数据分析和处理中的重要价值和潜力。
二、主成分分析法的基本原理主成分分析法(Principal Component Analysis,简称PCA)是一种在多个变量中找出主要影响因素,并通过降维技术把多个变量转化为少数几个互不相关的综合变量的统计方法。
这种方法在保持数据信息损失最小的原则下,通过正交变换将原始数据转化为一个新的坐标系统,使得在这个新的坐标系统中,任何数据的最大方差都投影在第一主成分上,第二大的方差都投影在第二主成分上,以此类推。
变量降维:在多数情况下,原始数据集中可能存在多个变量,这些变量之间可能存在相关性。
主成分分析通过构造新的变量(即主成分),这些新变量是原始变量的线性组合,并且新变量之间互不相关,从而将原始的高维数据空间降维到低维空间,实现数据的简化。
方差最大化:主成分分析的另一个重要原理是方差最大化。
这意味着,第一个主成分将捕获数据中的最大方差,第二个主成分捕获第二大方差,以此类推。
通过这种方式,主成分分析能够识别出数据中的主要变化方向和模式。
数据解释性:主成分分析生成的主成分是对原始数据的线性变换,因此,每个主成分都可以被解释为原始变量的某种组合。
什么是主成分分析

主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析 因子分析

主成分分析 因子分析主成分分析和因子分析是很重要的统计分析方法。
两者都是用于对一组同质或异质的变量进行数据探索研究的技术,它们都可以提供有价值的结论,增强数据有意义的理解。
1. 主成分分析主成分分析(Principal Component Analysis,简称PCA)是从一大组变量中提取具有代表性的正交变量,组成一个新的变量集合。
PCA通过减少变量数量,减少多变量间相关性带来的重复性,从而提升数据分析的准确性和有效性。
注意减少变量数量不是减少观测样本数量,而是把原先高维度的变量合并成一组较低维度的变量。
PCA算法的基本思想是:它分析原始数据集中的变异,并从中提取主要的变量,然后将这些变量的组合(叫做主成分)用推断法来重新构建原来的数据集,最后能够说明原始变量的结构,对被研究的变量结构有系统的解释。
2. 因子分析因子分析(Factor Analysis,简称FA)是一种用来探索相关变量之间潜在关系的统计分析方法。
这一方法注重的是把一系列的变量映射到一个尽可能少的多个隐变量的过程。
其中,这些隐变量就是“因子”,它们是原来变量的代表性变量,且变量之间有因果或相关的结构关系。
FA的基本思想是,将一组变量之间的复杂的相关关系映射到一组基本关系,即因子上。
然后,当每个变量映射到一个或几个因子上后,只需要解释因子就能够完全解释自变量变化的原因。
常用的因子模型有因子旋转、因子分层、因子波动等。
相比较,主成分分析和因子分析都有各自的专业领域,它们都有不同的数据需求和分析方法,在不同的数据处理中也表现出各自的优势和劣势。
主成分分析处理比较复杂的数据,可以根据原始变量的关系构建视图,但不涉及因果关系的推断;而因子分析可以推导出被研究的变量之间的关系,进而探索或验证其原因。
主成分分析
Extraction Method: Principal Component Analysis. Component Scores.
主成分系数矩阵,从而得出各主成分的表达式, 主成分系数矩阵,从而得出各主成分的表达式,注意在表达 式中各变量已经不是原始变量,而是标准化变量。 式中各变量已经不是原始变量,而是标准化 身高(X1,cm)、头围(X2,cm)、 体重(X3,g)的数据。
实验报告
写出X1, , 的相关矩阵 的相关矩阵。 写出 ,X2,X3的相关矩阵。 写出KMO与球形检验的结果(P值), 与球形检验的结果( 值 写出 与球形检验的结果 并做出判断, 并做出判断,该数据是否适合主成分分 析。 写出3个主成分的贡献率 个主成分的贡献率。 写出 个主成分的贡献率。 写出3个主成分关于 个主成分关于X1, , 的标准 写出 个主成分关于 ,X2,X3的标准 化的数值的线性组合。 化的数值的线性组合。
Rotation子对话框:用于因子分析。 子对话框:用于因子分析。 子对话框 Score子对话框 子对话框
选择是否将因子得分存入文件,以及具体的得分计算方法。 (1)Save as Variables:将计算出的因子得分作为新变量 加入数据文件,注意此处加入的是经过标准化的因子得分。 (2)Method单选框组:用于选择计算因子得分用的方法, 使用默认的回归法即可。 (3)Display factor score coefficient maxtrix:很重要。显 示因子得分系数阵,通过该系数阵就可以将所有公因子表示 为各个变量的线性组合,也就是我们所需要的主成分分析的 结果,系统同时会给出因子得分的协方差阵。
主 成 分 分 析
主成分分析
每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量 的数据;各个学校的研究、教学等各种变量的数 据等等。 这些数据的共同特点是变量很多,在如此多的变 量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 主成分分析(principal component analysis) 就是把变量维数降低以便于描述、理解和分析的 方法。
主成分分析的基本原理
主成分分析的基本原理主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维技术,用于在数据集中找到最具代表性的特征。
它通过线性变换将原始数据投影到一个新的坐标系中,使得新坐标系下的特征具有最大的方差。
本文将介绍主成分分析的基本原理及其应用。
一、基本原理主成分分析的目标是找到能够最大化数据方差的投影方向。
设有一个包含n个样本的m维数据集X,其中X={x1,x2,…,xn},每个样本包含m个特征。
首先对数据进行中心化处理,即将每个维度的特征减去该维度在整个数据集上的均值,得到新的数据集X'={x'1,x'2,…,x'n}。
通过求解数据集X'的协方差矩阵C,可得到该矩阵的特征向量和特征值。
特征向量表示了数据在各个主成分上的投影方向,特征值表示了数据在该方向上的方差。
为了实现降维,需要选择前k个最大特征值对应的特征向量作为新的投影方向。
这些特征向量构成了数据集在新坐标系上的主成分,并且它们是两两正交的。
将原始数据集X投影到这k个主成分上,即可得到降维后的数据集Y={y1,y2,…,yn}。
其中,每个样本yi={yi1,yi2,…,yik},表示样本在新坐标系上的投影结果。
二、应用场景主成分分析在数据分析和模式识别中有广泛的应用。
以下是几个常见的应用场景:1. 数据可视化主成分分析可以将高维数据降低到二维或三维空间,使得数据可以被可视化展示。
通过可视化,可以更好地理解数据之间的关系,发现隐藏在数据中的模式和规律。
2. 特征选择在机器学习和数据挖掘中,特征选择是一个重要的任务。
通过主成分分析,可以选择最具代表性的特征,减少特征的维度,并保留数据中的关键信息。
这有助于提高模型的性能和减少过拟合的风险。
3. 去除冗余当数据集中存在冗余特征时,主成分分析可以帮助我们发现这些特征,并将其去除。
剩下的主成分可以更好地表示数据集,减少数据的冗余信息,提高数据的效率和精确性。
什么是PCA
PCA(Principal Component Analysis),称主成分分析,从统计学的角度来说是一种多元统计方法。
PCA通过将多个变量通过线性变换以选出较少的重要变量。
它往往可以有效地从过于“丰富”的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,将原来复杂的数据降维,揭示隐藏在复杂数据背后的简单结构。
近年来,PCA方法被广泛地运用于计算机领域,如数据降维、图像有损压缩、特征追踪等等。
PCA方法是一个高普适用方法,它的一大优点是能够对数据进行降维处理,我们通过PCA方法求出数据集的主元,选取最重要的部分,将其余的维数省去,从而达到降维和简化模型的目的,间接地对数据进行了压缩处理,同时很大程度上保留了原数据的信息,就如同人脑在感知神经处理时进行了降维处理。
所以在机器学习和模式识别及计算机视觉领域,PCA方法被广泛的运用。
在人脸识别中,假设训练集是30幅不同的N×N大小的人脸图像。
把图像中每一个像素看成是一维信息,那么一副图像就是N2维的向量。
因为人脸的结构有极大的相似性,如果是同一个人脸的话相似性更大。
而我们的所希望能够通过人脸来表达人脸,而非用像素来表达人脸。
那么我们就可以用PCA方法对30幅训练集图像进行处理,寻找这些图像中的相似维度。
我们提取出最重要的主成份后,让被识别图像与原图进行过变化后的主元维度进行相似度比较,以衡量两幅图片的相似性。
在图像压缩方面,我们还可以通过PCA方法进行图像压缩,又称Hotelling或者Karhunen and Leove变换。
我们通过PCA提取出图像的主分量,去除掉一些次分量,然后变换回原图像空间,图像因为维数的降低得到了很大程度上的压缩,同时图像还很大程度上保留了原图像的重要信息。
PCA方法其实就是将数据空间通过正交变换映射到低维子空间的过程。
而相应的基向量组应满足正交性且由基向量组构成的地位子空间最优地考虑了数据的相关性。
在原数据集变换空间后应使单一数据样本的相互相关性降低到最低点。
主成分分析(principal component analysis)
一、主成分分析的思想主成分分析是数据处理中常用的降维方法。
我们需要处理的数据往往是高维数据,把它看成是由某个高维分布产生。
高维分布的不同维之间可能具有较强的相关性,这也就为数据降维提供了可能。
为了叙述清楚主成分分析的思想,我们通过二维数据进行叙述,即数据是由随机向量 (X_1,X_2) 产生,并假设X_1=X_2 。
通过该分布得到的样本点如图下所示:如果我们把每个数据点用 (x_1,x_2) 表示,那么,每个数据是二维的。
实际上,容易发现,我们只需要将坐标系进行旋转,旋转到红色坐标系位置,此时,每个数据点在新坐标系下的表示形式为为 (x_1^{'},0) ,由于每个数据点的第二维坐标都是 0 ,所以每个数据点只需要用一个数表示就行了,这样就把数据的维数从二维降到了一维。
接下来考虑不是完全线性关系,但是具有强相关性的情况,如下图所示:在这种情况下,我们不可能通过坐标系的平移与旋转,使所有点都落在一根轴上,即不可能精确地把数据用一维表示。
但是注意到 (X_1,X_2) 仍然有强相关性,我们仍然将坐标轴旋转到红色位置,可以看出,将数据在 x_1^{'} 上的投影近似代表原数据,几乎可以完全反映出原数据的分布。
直观看,如果要将数据投影到某根轴,并用投影来表示原数据,将数据压缩成一维,那么投影到 x_1^{'} 是最好的选择。
因为投影到这跟轴,相比于投影到其他轴,对原数据保留的信息量最多,损失最小。
如何衡量保留的信息量呢?在主成分分析中,我们用数据在该轴的投影的方差大小来衡量,即投影后方差越大(即投影点越分散),我们认为投影到该轴信息保留量最多。
从这种观点看,投影到 x_1^{'} 确实是最好的选择,因为投影到这根轴,可使得投影点最分散。
我们将数据的中心平移到原点(即新坐标轴的原点在数据的中心位置),为了消除单位的影响,我们将数据的方差归一化。
进一步考虑如下数据分布:根据上述,如果要将数据压缩为一维的,那么应该选择 F_1 轴进行投影,如果用该投影表示原数据的损失过大,我们可以再选择第二根轴进行投影,第二根轴应该与 F_1 垂直(保证在两根轴上的投影是不相关的)并且使得数据在该轴上投影方差最大,即图中的 F_2 轴(如果是二维情况,第一根轴确定后,第二根轴就确定了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
資料分析 (第九週) 9 - 1Principal Component Analysis (主成份分析)目的:Data reduction (summarizing data and reducing number of variables in regression analysisand clustering analysis)步驟:將response variables (,,21X X …,p X )轉換成()2()1(,PC PC …,)(m PC ) :)(k PC k th Principal component linear combination of s X i '看data 的變化來自什麼樣的線性組合有最大變異,m< k (1) 'X =(,,21X X …,p X ) var-cov matrix ∑, w.l.o.g assume ~X E =~Find (')1(=r ,,)1(2)1(1r r …)1(p r ) such that maximize var(X r ')1() over all linear combination of X subject to 1)1(')1(=r r ( direction of )1(r , not length of )1(r )⇔ m aximize )1(')1(r r ∑ subject to 1)1(')1(=r r . Use Lagrange method L=)1(')1(r r ∑)1()1(')1()1(--r r λ)1(r satisfies 2 (∑-I )1(λ))1(r =0)1()1(')1(λ=∑⇒r r 即)1()1()1(r r λ=∑故 |∑-I )1(λ|=0)1(λ: largest eigenvalue of ∑)1(r : eigenvector corresponding to )1(λ first principal component X r PC ')1()1(=(2) Find )2(r maximize var(X r ')2() subject to )2(')2(r r =1 and )1()1(')2(r r λ=)1(')2(r r ∑=0 ( i.e,')1(X r X r ')2( uncorrelated ) Use Lagrange method)1(')2()2(')2()2()2(')2(2)1(r vr r r r r L ∑---∑=λ 可得0222)1()2()2()2(=∑--∑r v r r λ0)1(')1()2(')1()2()2(')1(=∑--∑⇒r vr r r r r λ(又 )1()1(')2()1(')2(r r r r λ=∑, 故0)1(')2(=r r ) 0=⇒v')2(r eigenvector corresponding to )2(λ: 2nd largest value且 var(X r ')2()=)2(λ(3) 同理可得對應k -th X r PC k k ')()(=)(k r orthogonal to )1(r ,)2(r ,…, )1(-k r上面的導証實際上是 diagonalize var-cov matrix ∑ procedure∑ eigenvalues : 1λ≥2λ≥……≥p λ>0資料分析 (第九週) 9 - 2∃P orthogonal matrix s.t.Λ=∑P P '=⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡p λλλ..00.21 P = [1)1(⨯p r ,1)2(⨯p r ,…, 1)(⨯p p r ]X P Y '==⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛X r X r X r p ')(')2(')1(.. principal component 且 var (Y )=Λ=∑P P ' i.e. var (i Y ) =i λ & cov(i Y ,j Y )=0PY X ==⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡)()2()1()(2)2(2)1(2)(1)2(1)1(1................p p p p p p r r r r r r r r r ⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡p Y Y Y ..21 ⇒ i X =1)1(Y r i +2)2(Y r i +…………+j j i Y r )(+………+p p i Y r )(⇒ cov (i X ,j Y )=j j i r λ)(Total variance of original variables = total variance of PC = sum of eigen-values即tr(∑) =∑2jj σ= tr('P P Λ)= tr(ΛP P ') = tr (Λ) =∑j λLoading of i th variable i X on the j th principal component Y j )(j PC = = corr (i X , Y j ) =)*()(ii j j j i r σλλ =ii jj i r σλ)(Principal component is NOT scale invariant !i.e 用var-cov matrix 與 correlation matrix 所得到的結果不同一般而言,用var-cov matrix 且各 1X ,2X ,……….. p X var order 不相同,則前面幾個PC 會被variance 大的variances dominate ,故最好使用correlation matrix 。
在 principal component 中, Λ=∑P P ',(稱為Spectral decomposition')()(')2()2(2')1()1(1p p p r r r r r r λλλ+++=∑ )資料分析 (第九週) 9 - 3另一種分解: 'P P Λ=∑=P ⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡p λλλ..21⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡p λλλ..21'P ='LL相當於將∑ ""factor 成為 'LL ,而在因子分析(factor analysis)中,∑='LL +I , 故主成份分析為因子分析之一特例主成份分析/*Principal Component Analysis*/ (利用原始資料) options nodate nonotes ps=60; data a;infile 'c:\ex7a.txt';input x1 1-4 x2 6-9 x3 11-14 x4 16-20 x5 22-25 x6 27-31 x7 33-37 x8 39-42; id=_n_; run;proc princomp out=b; var x1-x8; proc sort; by prin1; proc print; id id;var prin1 prin2 x1-x8; proc plot;plot prin2*prin1=id; run;The SAS SystemPrincipal Component Analysis26 Observations 8 VariablesSimple StatisticsX1(頭圍) X2(頭長) X3(肩寬) X4(胸圍)Mean 58.17307692 21.96153846 44.82692308 91.23076923 StD 1.38522423 1.64269947 1.81627260 4.40279631X5(腰圍) X6(腳長) X7(身高) X8(大腿寬)Mean 79.82692308 103.1923077 171.8076923 54.40384615 StD 5.66911335 3.5498646 5.5643093 3.91157061Correlation MatrixX1 X2 X3 X4 X5 X6 X7 X8 X1 1.0000 -.0321 0.2310 0.2162 0.1568 0.0641 0.1135 0.0493 X2 -.0321 1.0000 0.2725 -.0955 -.0501 0.2911 0.1458 0.3340 X3 0.2310 0.2725 1.0000 0.4516 0.3388 0.4536 0.5170 0.4438 X4 0.2162 -.0955 0.4516 1.0000 0.8386 0.3982 0.5023 0.4119 X5 0.1568 -.0501 0.3388 0.8386 1.0000 0.2442 0.3172 0.5755 X6 0.0641 0.2911 0.4536 0.3982 0.2442 1.0000 0.8221 0.3377資料分析(第九週) 9 - 4 X7 0.1135 0.1458 0.5170 0.5023 0.3172 0.8221 1.0000 0.4145 X8 0.0493 0.3340 0.4438 0.4119 0.5755 0.3377 0.4145 1.0000Eigenvalues of the Correlation MatrixEigenvalue Difference Proportion CumulativePRIN1 3.46221 2.04995 0.432777 0.43278PRIN2 1.41227 0.41145 0.176533 0.60931PRIN3 1.00081 0.05425 0.125102 0.73441PRIN4 0.94657 0.43680 0.118321 0.85273PRIN5 0.50977 0.08920 0.063721 0.91645PRIN6 0.42057 0.26381 0.052571 0.96902PRIN7 0.15676 0.06572 0.019595 0.98862PRIN8 0.09104 . 0.011380 1.00000The SAS SystemPrincipal Component AnalysisEigenvectorsPRIN1 PRIN2 PRIN3 PRIN4 PRIN5 PRIN6 PRIN7PRIN8X1 0.134094 -.244340 0.673740 0.607883 0.297010 -.101523 -.018331 0.003284 X2 0.140363 0.619320 -.238490 0.460180 0.224242 0.491223 0.186569 0.041287 X3 0.389674 0.138018 0.147259 0.223117 -.858464 0.008631 -.121305 0.076738 X4 0.423744 -.412422 -.058424 -.111490 -.000322 0.429641 0.256850 -.619630 X5 0.386389 -.455414 -.335190 0.055209 0.149263 0.209101 -.216128 0.644350 X6 0.393557 0.338902 0.255318 -.369017 0.262702 0.072272 -.660067 -.137743 X7 0.427763 0.205136 0.268907 -.381773 0.110742 -.210165 0.632957 0.315925 X8 0.379140 0.057115 -.462869 0.267448 0.144859 -.686011 -.033684 -.272919The SAS SystemID PRIN1 PRIN2 X1 X2 X3 X4 X5 X6 X7X820 -3.23769 0.10303 56.5 22.0 44.0 86.5 73.0 97.0 158 52.0 4 -2.09310 -1.79796 58.0 19.5 43.0 89.5 81.0 97.5 165 52.01 -1.89366 -0.02107 59.0 21.0 45.0 84.0 75.5 100.5 164 54.05 -1.75401 -0.04949 58.0 20.0 43.0 86.0 75.5 104.0 170 51.0 24 -1.53488 -0.12488 60.0 22.0 44.0 89.0 74.5 100.0 172 48.0 12 -1.44800 0.37781 55.0 21.5 43.5 89.0 79.0 102.5 170 51.0 23 -1.25313 0.06020 59.0 23.0 46.5 89.0 77.0 98.5 165 51.02 -1.18803 0.44317 60.0 23.0 44.0 89.5 74.0 103.0 169 49.53 -1.12742 0.37074 58.5 23.5 43.5 89.0 79.0 102.0 167 52.0 16 -1.12217 0.31769 56.5 23.0 41.5 91.5 79.0 103.0 168 54.5 8 -0.95920 -0.33075 59.5 22.0 42.0 89.0 79.0 102.0 170 55.07 -0.91921 -0.23917 58.0 21.0 44.0 89.5 78.0 102.5 170 53.0 10 -0.72535 -0.92254 57.0 20.0 43.0 93.5 80.0 104.0 170 52.0 15 -0.65426 0.69707 56.5 21.5 45.0 89.5 75.0 102.0 176 52.5 25 -0.50914 0.80539 57.5 22.0 46.0 88.5 75.5 102.5 174 52.0 9 0.03683 -0.44553 58.0 20.0 45.0 91.0 77.5 102.0 175 57.0 26 0.04811 2.80558 57.0 25.0 44.5 85.0 72.5 104.0 175 62.0 13 1.07167 -0.50047 58.5 20.0 46.0 92.5 81.5 106.0 177 54.5 21 1.25285 0.86577 60.0 23.0 46.5 93.0 77.0 108.0 177 51.5 6 1.57109 -3.42795 59.0 20.0 44.0 100.0 96.5 100.0 170 58.0 17 1.72805 1.33473 57.5 24.5 44.5 93.5 83.5 109.0 178 55.0 22 2.49536 -0.97625 57.5 21.0 46.5 100.0 86.5 105.0 180 56.0 19 2.62725 0.32168 59.5 24.5 46.5 92.5 88.5 103.5 175 64.0資料分析(第九週) 9 - 5 14 2.89408 -1.56786 60.0 22.0 48.0 101.0 88.0 103.0 172 60.0 11 3.33911 0.11757 60.0 21.0 47.0 96.0 82.5 112.0 183 57.5 18 3.35487 1.78349 56.5 25.0 49.0 94.5 86.5 109.5 177 59.5The SAS SystemPlot of PRIN2*PRIN1. Symbol is value of ID.3 +| 2|||||2 +|| 1||| 1|1 +| 2 2| 1PRIN2 || 1 23| 1 1| 2 10 + 15 2| 2| 87| 9| 1|| 1-1 + 2|||| 1|| 4-2 +||||||-3 +||| 6|||資料分析(第九週) 9 - 6 -4 +---+---------+---------+---------+---------+---------+---------+---------+---------+---4 -3 -2 -1 0 1 2 3 4PRIN1/*Principal Component Analysis*/options nonotes nodate ps=60; (利用相關係數) data turtle(type=corr);_type_='corr';input _name_$ length width height;cards;length 1.0 0.974 0.973width . 1.0 0.966height . . 1.0;proc princomp data=turtle;run; options nonotes nodate ps=60; (利用變異數-共變異數) data turtle1(type=cov);_type_='cov';input _name_$ length width height;cards;length 451.39 271.17 168.70width . 171.73 103.29height . . 66.65;proc princomp data=turtle1 cov;run;The SAS SystemPrincipal Component Analysis24 Observations3 VariablesEigenvalues of the Correlation MatrixEigenvalue Difference Proportion Cumulative PRIN1 2.94200 2.90797 0.980668 0.98067 PRIN2 0.03403 0.01007 0.011344 0.99201 PRIN3 0.02396 . 0.007988 1.00000EigenvectorsPRIN1 PRIN2 PRIN3 LENGTH 0.578339 -.046726 -.814457WIDTH 0.576955 -.682397 0.448840HEIGHT 0.576756 0.729487 0.367698The SAS SystemPrincipal Component Analysis24 Observations3 VariablesTotal Variance = 689.77Eigenvalues of the Covariance MatrixEigenvalue Difference Proportion Cumulative PRIN1 680.411 673.909 0.986432 0.98643 PRIN2 6.502 3.644 0.009426 0.99586 PRIN3 2.857 . 0.004142 1.00000Eigenvectors資料分析(第九週) 9 - 7PRIN1 PRIN2 PRIN3LENGTH 0.812643 -.545418 -.205257WIDTH 0.495495 0.832072 -.249282HEIGHT 0.306752 0.100874 0.946429。