主成分分析解析
解读文献里的那些图——主成分分析图(PCA)

解读⽂献⾥的那些图——主成分分析图(PCA)PCA全名principal component analysis,即主成分分析,看到这个名字的时候,第⼀次深刻的体会到了什么是每个字都认识,合在⼀起却不知道是什么意思……看⼀下主流的解释:主成分分析是⼀组变量通过正交变换转变成另⼀组变量的分析⽅法,来实现数据降维的⽬的。
转换后得到的这⼀组变量,即是我们所说的主成分。
Emmmm,还是不懂……拆开了,⼀个字⼀个词的来看:主成分分析的字⾯意思就是⽤主成分来分析数据呗!⾸先,什么是主成分?举两个简单的例⼦:①评价⼀个研究⽣的综合能⼒有哪些指标呢:绩点、考研分数、科研能⼒、笔试成绩、⾯试表现、英语⽔平、奖学⾦等等等等……②评价⼀座城市的发展⽔平有哪些指标呢:⼈⼝、GDP、⾯积、⼈均寿命、⼈均⼯资、⼈均受教育年份、性别⽐例、宗教⼈⼝、汽车保有量、⼈均住房⾯积等等等等……⼀个指标就是⼀个变量⼀个维度啊,把他们画在图上直观的表⽰⼀下吧……好家伙,超过三个我就画不出来了,那些基因、蛋⽩成千上万的,咋办?怎样⽤简单的⽅法来表⽰复杂的数据呢?降维!降维是通过减少数据中的指标(或变量)以化简数据的过程。
这⾥的减少指标,并不是随意加减,⽽是⽤复杂的数理知识,得到⼏个“综合指标”来代表整个数据。
⽽这⾥的综合指标就是所谓的主成分!它不是原来的指标中的任何⼀个,⽽是由所有原有指标数据线性组合⽽来。
为什么主成分可以代表这些指标呢?其实我们仔细看⼀下,这⾥的许多指标是有相关性的,⽐如绩点与奖学⾦、考研分数等有关联性,通过降维就可以帮助我们去除这些指标中重叠、多余的信息,把数据最本质和关键的信息提取出来。
那么我们就可以表⽰为:将n个指标降维成r个主成分(r<n)后,这些个主成分会依据⽅差的⼤⼩进⾏排序,称作主成分(PC)1、主成分2、……主成分r。
⽽每个主成分的⽅差在这⼀组变量中的总⽅差中所占的⽐例,即是主成分的贡献度。
通常来说,我们仅考察贡献度前2或者前3的主成分,经过可视化后,即得到了⼆维或三维PCA散点图。
什么是主成分分析

主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析(主元分析,PCA)原理

PCA原理1因为经常做一些图像和信号处理的工作,要用到主元分析(Principal Components Analysis)作为工具。
写出来供自己和朋友参考。
PCA是一种统计技术,经常应用于人面部识别和图像压缩以及信号去噪等领域,是在高维数据中提取模式的一种常用技术。
要了解PCA首先要了解一些相关的数学知识,这里主要介绍协方差矩阵、特征值与特征矢量的概念。
1、协方差矩阵协方差总是在两维数据之间进行度量,如果我们具有超过两维的数据,将会有多于两个的协方差。
例如对于三维数据(x, y, z维),需要计算cov(x,y),cov(y,z)和cov(z,x)。
获得所有维数之间协方差的方法是计算协方差矩阵。
维数据协方差矩阵的定义为(1)这个公式告诉我们,如果我们有一个n维数据,那么协方差矩阵就是一个n行n 列的方矩阵,矩阵的每一个元素是两个不同维数据之间的协方差。
对于一个3维数据(x,y,z),协方差矩阵有3行3列,它的元素值为:(2)需要注意的是:沿着主对角线,可以看到元素值是同一维数据之间的协方差,这正好是该维数据的方差。
对于其它元素,因为cov(a,b)=cov(b,a),所以协方差矩阵是关于主对角线对称的。
2、特征值和特征矢量只要矩阵大小合适,就可以进行两矩阵相乘,特征矢量就是其中的一个特例。
考虑图2.1中两个矩阵和矢量乘法。
图2.1 一个非特征矢量和一个特征矢量的例子图2.2 一个缩放的特征矢量仍然是一个特征矢量在第一个例子中,结果矢量不是原来因子矢量与整数相乘,然而在第二个例子中,结果矢量是原来因子矢量的4倍,为什么会这样呢?该矢量是一个2维空间矢量,表示从原点(0,0)指向点(3,2)的箭矢。
方矩阵因子可以看作是转换矩阵,一个矢量左乘该转换矩阵,意味着原始矢量转换为一个新矢量。
特征矢量来自于转换特性。
设想一个转换矩阵,如果用其左乘一个矢量,映射矢量是它自身,这个矢量(以及它的所有尺度缩放)就是该转换矩阵的特征矢量。
主成分分析(PCA)原理详解

主成分分析(PCA)原理详解PCA的基本原理如下:1.数据标准化:对数据进行标准化处理,使得每个特征的均值为0,方差为1、这一步骤是为了保证不同特征的量纲一致,避免一些特征因数值过大而对分析结果造成影响。
2.计算协方差矩阵:协方差矩阵描述了数据特征之间的相关性。
通过计算标准化后的数据的协方差矩阵,可以得到不同特征之间的相关性信息。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
特征向量表示了数据在各个方向上的投影情况,特征值则表示了各个特征向量的重要程度。
4.选择主成分:根据特征值的大小,选择最重要的K个特征向量作为主成分。
特征值越大,表示该特征向量所代表的特征在数据中的方差越大,所能解释的信息也越多。
5.构造降维后的数据集:将选取的K个特征向量组合成一个转换矩阵,将原始数据映射到新的K维空间中。
通过这个转换过程,可以实现降维并且保留较多的信息。
总结起来,PCA的主要思想是通过计算特征向量和特征值,找到数据中最重要的方向(主成分),然后通过投影到这些主成分上实现数据的降维。
PCA的应用包括数据可视化、特征选择、噪声过滤等。
例如,在数据可视化中,将高维数据降至二维或三维空间,有助于观察数据之间的分布情况。
在特征选择中,选择最能代表数据信息的主成分可以减少特征的数量,并且仍能保留较多的重要信息。
在噪声过滤中,提取数据中的主成分,滤除噪声成分,能够提高数据的质量和可靠性。
需要注意的是,PCA的有效性依赖于数据之间存在线性关系的假设。
对于非线性关系较强的数据,PCA不一定能够有效降维,这时可以采用核主成分分析等非线性降维方法。
以上是对PCA原理的详细解析。
通过PCA,我们能够将高维数据转换为一组更易理解和处理的低维特征,从而发现数据中的潜在结构、关系和模式,为后续分析和建模提供有益的信息。
主成分分析解析

主成分分析(Principal components analysis)-最大方差解释在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。
在写这篇之前,我阅读了PCA、SVD和LDA。
这几个模型相近,却都有自己的特点。
本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。
PCA以前也叫做Principal factor analysis。
1. 问题真实的训练数据总是存在各种各样的问题:1、比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。
2、拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。
我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项也是强相关。
那是不是可以合并第一项和第二项呢?3、拿到一个样本,特征非常多,而样例特别少,这样用回归去直接拟合非常困难,容易过度拟合。
比如北京的房价:假设房子的特征是(大小、位置、朝向、是否学区房、建造年代、是否二手、层数、所在层数),搞了这么多特征,结果只有不到十个房子的样例。
要拟合房子特征->房价的这么多特征,就会造成过度拟合。
4、这个与第二个有点类似,假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。
然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?5、在信号传输过程中,由于信道不是理想的,信道另一端收到的信号会有噪音扰动,那么怎么滤去这些噪音呢?回顾我们之前介绍的《模型选择和规则化》,里面谈到的特征选择的问题。
但在那篇中要剔除的特征主要是和类标签无关的特征。
比如“学生的名字”就和他的“成绩”无关,使用的是互信息的方法。
而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。
(完整版)主成分分析法的步骤和原理

(一)主成分分析法的基本思想主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X pZ 2=μ21X 1+μ22X 2+…μ2p X p…… …… ……Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。
其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。
主成分分析完整版

主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
PCA(主成分分析)的原理与应用

PCA(主成分分析)的原理与应用简介主成分分析(PCA)是一种常用的多变量数据降维技术,用于发现数据中的主要模式与关系。
通过PCA,可以将高维数据转换为低维表示,从而减少计算复杂度、去除冗余信息、提取关键特征等。
本文将介绍PCA的基本原理和常见的应用场景。
1. PCA的基本原理PCA的基本思想是通过线性变换将原始数据投影到新的坐标系中,新的坐标系由一组互相正交的基向量构成。
这些基向量被称为主成分,每个主成分都是原始数据的一个线性组合。
通过保留最重要的主成分,可以实现数据降维。
1.1 数据标准化在应用PCA之前,通常需要对原始数据进行标准化处理。
标准化可以使不同特征的数据具有相同的尺度,避免某些特征对PCA结果的影响过大。
常见的标准化方法有均值方差标准化和最大最小值标准化。
1.2 协方差矩阵与特征值分解PCA的核心是通过计算协方差矩阵来确定主成分。
协方差矩阵反映了不同维度之间的相关性。
通过对协方差矩阵进行特征值分解,可以得到特征值和特征向量。
特征值表示了数据在对应特征向量方向上的方差,特征向量则表示了变换后的坐标系中各维度的方向。
1.3 选择主成分在进行特征值分解后,主成分的选择是根据特征值的大小进行的。
通常保留较大的特征值对应的特征向量作为主成分,因为这些特征值表示了数据的主要变化模式。
1.4 重构数据通过选取主成分,可以将原始数据投影到新的坐标系中。
重构数据可以通过将原始数据乘以选取的主成分对应的特征向量来实现。
2. PCA的应用场景PCA有广泛的应用场景,以下列举一些常见的应用领域。
2.1 降维与特征选择在高维数据中,存在大量冗余和噪音信息。
通过使用PCA,可以将高维数据降低到较低的维度,并保留重要的特征,从而提高数据的表示效果和计算效率。
2.2 数据压缩与图像处理PCA在数据压缩和图像处理中也有广泛的应用。
通过PCA,可以用较少的数据表示信息量较大的图像,从而实现图像的压缩和存储。
同时,还可以对图像进行去噪、增强和特征提取等操作。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从数学角度将上述思想加以体现,就抽象为:将每一综合性指标分
别看成是各可观测指标的某种线性组合,于是建立如下数学模型:
在此模型下,m 项综合指标Y1,Y2,,Ym 的提取问题就具体化为依次
m
确定
个常数向量l1
,
l2
,,
lm
的问题。
在这m 个常数向量l1,l2 ,,lm 确定之后, 原来用 p 项可观测指标
xi xi1, xi2 ,, xip
来刻画的第i 个体xi 就可以用新的m 项综合指标
yi yi1, yi2 ,, yim l1xi ,, lm xm
另一方面,这数十项指标中,有些是主要的,有些是次 要的,甚至某些指标间还有一定的相关性。
鉴于此,一个自然的想法是:能否用较少的几项指标来 代替原来较多的指标,而这较少的几项指标仍然能基本上反 映出原来较多的指标所反映的信息。这就是提出主成分分析 方法的客观背景和实际需要。
但主成分分析方法并不是去分析比较各指标的重要 性,将那些不太重要的指标简单地去掉了事,而是通 过全面分析各项指标所携带的信息,从中提取出一些 潜在的综合性指标(称为主成分)。用这不多的几项 综合性指标替代原来较多的可观测指标去刻划每一个 体。
在主成分分析中采用方差来度量一个随机变量所包含的信息量。
Y1的方差 VarY1 Varl1X l1DX l1 l1l1
因此,用于决定Y1 l1X 的向量l1 ,使l1l1 越大就意味着Y1 所含的 信息越多。但随之而来的问题是:若不对l1 的模 l1 l1l1 施加一定限
制,随着 l1 将有VarY1 ,而无法进行比较。
设有来自某个 p 维总体 X X1, X 2 ,, X p n的 个个体xi
i 1,2., n ,对每一个体都观测记录了其p 项指标的值,分别
为 xi xi1, xi2 ,, xip i 1,2., n .
我们希望通过这 p 项可观测指标 X 1, X 2 ,, X p 提取出m (远 小于 p !)项综合性指标Y1,Y2 ,,Ym .
l1l1 il1l1 i
注 意 到 X X1, X 2 ,, X p 是 p 维 随 机 向 量 ,
Y1 l1X ,因此Y1 也是一随机变量。一个随机变量所 包含的信息量可以简单地用它取值的分散程度(即方 差的大小)来度量。 试想一门课程的考试成绩Y 就是一随机变量,每个学 生的考试分数是该随机变量的一个取值。Y 的方差越 大,意味着分数散布得越开,因而越能反映出学生们 在学习上的差异,反映的信息就越多。
第八章 主成分分析
§ 1 客观背景和数学思想
多元分析研究多维随机变量总体,总体的每一个体都 可用 p 项指标来刻划。指标多固然有其描述详尽、刻 画细腻的一方面,但指标太多,也容易造成主次不清, 难以对所考察对象获得一个直观清晰的把握。
譬如,我们要分析比较若干个地区的经济发展状况,对 每一个地区都可以统计出数十项与经济状况有关的指标,这 数十项指标虽然较详尽地反映了一个地区的经济发展水平, 但若要据此对不同地区的发展状况进行评价、比较、排序, 则因指标太多、主次不明而显的过于复杂,也很难做到客观 公正。
将 的任一特征根i 代入(8.7),有
l1 il1
(8.9)
由线性代数可知,满足上式的单位向量l1 应
该是 的特征根i 所对应的单位特征向量。
显然对应于不同的特征根i ,其单位特征向
量也是不同的。
为了确定哪个特征根所对应的单位特征向量l1 能使
VarY1 l1l1 达到最大,(8.9)两边左l乘1 得
既然分析的目的是减少指标的个数,我们当然希望 这不多的几项综合性指标每一个都能独立地反映某一 个方面的综合信息。因此从概率的角度我们要求这几 项综合性指标相互间是不相关的。
归纳起来,主成分分析的目的是通过分析原来较多 可观测指标所反映的个体信息,提取出较少的几项综 合性指标,它们互不相关,并且能最大限度地反映出 原来较多指标所反映的信息,进而用这较少的几项综 合性指标来综合性指标Y1,Y2 ,,Ym 的提取(即确 定m 个常数向量l1,l2 ,,lm )问题。
首先讨论第一项综合性指标Y1 的确定。 当然我们希望Y1 能尽可能多地反映原来p 项指标所 反映的信息。那么如何度量一项指标所含的信息就是 首先面临的问题。
“信息”属于形而上的范畴,其“大小、 多少”的计量不可能有规范统一的“度量 衡”。但信息的多少有时又是可以比较的, 因此信息的度量标尺有相当的灵活性、只 要能从一定角度给出相对合理的序关系都 是可以接受的。
Y1 Y2
l11 X 1 l21X1
l12 X l22 X
2 2
l1 p X p l2 p X p
l1 X l2 X
Ym lm1 X 1 lm2 X 2 lmp X p lm X
其中 li li1,li2 ,,lip 是常向量,
(8.1)
X X1, X 2 ,, X p 是随机向量。
达到最大。
先求驻点。由于 l1
2l1
2l1
,并令它等于零,
得 I l1 0
(8.7)
(8.7)式有非零解的充要条件是 I 0 ,而
I 0 共有 p 个根,且正好是协差阵 的p 个特征
根。又协差阵 对称、非负定,所以 的p 个特征根皆
为实数且非负,按大小顺序依次记为 1 2 p 0
合理的限制应该是将l1 限定为单位长度向量,在此前提下,选l择1
的适当方向,使l1l1达到最大,即l1 应是如下约束优化问题的解:
sm.ta.xl1ll11l11
(8.5)
为了在约束 l1l1 1 下求l1 ,使VarY1 l1l1 达到最
大,由 Lagrange 乘子法,只需求l1 使
l1, l1l1 l1l1 1