第十四章 降维 主成分分析
主成分分析在数据降维中的作用

主成分分析在数据降维中的作用主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维技术,通过线性变换将原始数据转换为一组各维度之间线性无关的新变量,这些新变量被称为主成分。
主成分分析在数据处理、特征提取和可视化等领域发挥着重要作用。
本文将介绍主成分分析在数据降维中的作用,包括原理、应用场景以及优势。
### 1. 主成分分析的原理主成分分析的核心思想是通过线性变换将原始数据映射到一个新的坐标系中,使得数据在新坐标系下的方差最大化。
具体而言,主成分分析的步骤如下:1. 对原始数据进行中心化处理,即将每个特征的均值减去该特征的均值,使得数据的均值为零。
2. 计算数据的协方差矩阵。
3. 对协方差矩阵进行特征值分解,得到特征值和特征向量。
4. 特征值表示数据在特征向量方向上的方差,选择特征值较大的特征向量作为主成分。
5. 将原始数据投影到选定的主成分上,实现数据的降维。
### 2. 主成分分析的应用场景主成分分析在数据降维中有着广泛的应用场景,包括但不限于以下几个方面:1. 数据可视化:主成分分析可以将高维数据映射到低维空间,便于可视化展示。
通过主成分分析,可以将数据在二维或三维平面上展示,帮助人们更直观地理解数据之间的关系。
2. 特征提取:在机器学习和模式识别领域,主成分分析常用于特征提取。
通过主成分分析,可以将原始数据转换为具有更好区分性的特征,提高模型的性能。
3. 噪声过滤:主成分分析可以过滤掉数据中的噪声信息,保留主要的信息。
在信号处理和图像处理中,主成分分析被广泛应用于去噪处理。
4. 数据压缩:通过主成分分析,可以将高维数据压缩为低维数据,减少数据存储和计算成本。
在大数据处理和传输中,主成分分析可以提高效率。
### 3. 主成分分析的优势主成分分析作为一种经典的数据降维方法,具有以下几点优势:1. 保留数据的主要信息:主成分分析通过保留数据方差较大的主成分,能够较好地保留原始数据的主要信息,减少信息丢失。
数据处理(一):降维之主成分分析(PCA)

数据处理(⼀):降维之主成分分析(PCA)降维⽬的:样本数据为⾼维数据时,对数据进⾏降维操作,避免模型出现过拟合。
1.过拟合含义:训练集误差⼩,验证集误差⼤。
过拟合三种解决⽅案:1)增加数据集;2)正则化; 3)降维。
2.⾼维灾难:具有⾼维度特征的数据易导致⾼维灾难。
:⾼维灾难含义:⾼维数据分布具有稀疏性;不容易根据特征对数据进⾏分类.3.降维降维分类:1)直接降维(特征选择(lasso))2)线性降维(PCA,MDS)3)⾮线性降维(流形:ISOMAP,LLE)4.【⼀般要求覆盖率达到85%以上】1) PCA本质:将⼀组线性相关的数据通过正交变换转化为⼀组线性⽆关的数据,本质是特征空间的重构+主成分筛选。
2)PCA转化为优化问题:最⼤投影⽅差(最⼩重构距离)最⼤投影⽅差:数据进⾏特征转换后,筛选出投影⽅差最⼤的前q个基变量,即主成分(尽可能多地保留原数据的信息)【最⼩重构代价:数据进⾏特征转换后,筛选出重构代价最⼩的(p-(q+1))个基变量,即被筛掉的特征(使转换筛选后去掉的信息尽可能少),本质和最⼤投影⽅差⼀样】转化为带约束的优化问题:⽤拉格朗⽇乘⼦法求解,输出为主成分P【被筛去的成分P1】 最⼤投影误差 【最⼩重构代价】=> problem: optimization P = argmax P T*S*P 【P T*S*P是变换后样本的协⽅差】 s.t P T P = 1 【P为正交阵】=> solution: P,lambda 【拉格朗⽇乘⼦法通过求解导数为0得出的最优解:当变换矩阵 P 等于协⽅差矩阵S的特征向量时,可以实现⽅差最⼤化】 SP=lambda*P 取 lambda 的前q个最⼤的特征值; 取前q个最⼤的特征值对应的特征向量组成变换矩阵P; newdata=data*T(因为data(nxm):n为样本数,m为特征数,所以右乘变换矩阵;反之则左乘);3)i)均值、协⽅差、中⼼矩阵H(⼏何⾓度理解:将数据平移⾄特征空间的原点)矩阵表⽰:(视频更为清楚,仅为⾃⼰⽅便回顾)X={x1 x2 x3 ... x N}mean: x_bar=1/N*X T*1ncovariance: S=1/N*X T HX || S=1/N*X T X (两者相等?)centering matrix H: H=I N-1/N*1N1N Tii) (的特征值和特征向量)【另⼀种解释可以通过拉格朗⽇乘⼦法公式推导】PCA⽬标:最⼤化特征本⾝的⽅差;最⼩化不同特征间的相关度(这⾥的特征指的是变换后的特征)=> 最⼤化转化后的样本的协⽅差 S1(S1=u T Su);最⼩化S'除了对⾓元素之外的元素。
《主成分分析》课件

投资组合优化
通过主成分分析,找到不同投 资标的之间的关系,优化投资 组合的效益。
主成分分析在市场调研中的应用
1
偏好分析
通过主成分分析,找到消费者的特征
产品定位
2
和偏好,精准制定相应的市场策略。
通过主成分分析,找到消费者对产品
的不同评价因素,合理确定产品的定
位。
3
竞品分析
通过主成分分析,评估竞争对手的优 势和劣势,为企业提供相应的决策依 据。
慕课在线学习行业民调
通过主成分分析,找到影响学 习者的因素,比如课程质量、 师资水平、学习难度等方面。
降水量分析和气候变化
通过主成分分析和时间序列分 析,找到影响气象预测和气候 变化的主要原因和特征。
食品市场调查分析
通过主成分分析,找到影响消 费者购买健康食品的因素,制 定相应的市场营销策略。
标准化数据
通过Z-score标准化数据,去除不同变 量的量纲影响。
提取主成分
根据协方差矩阵的特征值和特征向量, 提取主成分。
如何选择主成分数量
特征值
根据特征值大于1的原则,选择主成分的数量。
累计贡献率
当累计贡献率到达一定阈值后,选择主成分数量。
图形分析
通过屏幕图和贡献率图来选择主成分数量。
主成分分析的优点和缺点
应用
主成分分析适用于变量之间没有明确因果关系 的情况下,提取它们的主成分;而因子分析需 要基于理论或先验知识,对变量进行选择和定 量,发现变量间的潜在因子。
主成分分析在金融分析中的应用
股票指数分析
通过主成分分析,找到影响整 个股票市场的因素,快速判断 股票市场的健康状况。
信用卡违约风险评估
通过主成分分析,找到导致信 用卡违约的因素,提高信用卡 贷款的质量。
学点统计:主成分分析(PCA)是怎么降维分析的?内含代码+教程

学点统计:主成分分析(PCA)是怎么降维分析的?内含代码+教程要什么资料直接添加科研小助理现在后台发消息我这边不太好接收啦背景介绍多元统计分析multivariate statistical analysis研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律性。
它的重要基础之一是多元正态分析,又称多元分析。
20世纪30年代,R.A.费希尔,H.霍特林,许宝碌以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。
50年代中期,随着电子计算机的发展和普及,多元统计分析在地质、气象、生物、医学、图像处理、经济分析等许多领域得到了广泛的应用,同时也促进了理论的发展。
各种统计软件包如SAS,SPSS等,使实际工作者利用多元统计分析方法解决实际问题更简单方便。
重要的多元统计分析方法有:多重回归分析(简称回归分析)、判别分析、聚类分析、主成分分析、对应分析、因子分析、典型相关分析、多元方差分析等。
主成分分析(PCA)又称主分量分析,是将多个变量通过线性变换以选出较少个数重要变量的一种方法。
主要目的是希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
通常是选出比原始变量个数少,能解释大部分资料中变量的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
由此可见,主成分分析实际上是一种降维方法。
分析步骤1.将原始数据按行排列组成矩阵X2.对X进行数据标准化,使其均值变为零3.求X的协方差矩阵C4.将特征向量按特征值由大到小排列,取前k个按行组成矩阵P5.通过计算Y = PX,得到降维后数据Y6.用下式计算每个特征根的贡献率Vi;Vi=xi/(x1+x2+........)根据特征根及其特征向量解释主成分物理意义。
PCA运行•主成分计算•主成分选择,方差累计贡献度75%以上•因子负载荷图•带有标签的PCA图3D-PCA•3D图•图例•导入到PPT中进一步修改图片。
主成分分析是处理降维的一种方法

主成分分析是处理降维的一种方法。
将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析。
主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新信息,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。
当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。
因子分析是主成分分析的推广和发展,它是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。
然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。
典型相关分析的基本思想:结合主成分分析的思想,自然是考虑X 的综合指标(X 的线性函数)与Y 的综合指标之间的相关性程度来刻画X 与Y 的相关性,即把两组变量的相关,变为两个新变量(线性函数)之间的相关来讨论,同时又尽量保留原来变量的信息,或者说,找X 的线性函数和找Y 的线性函数,使这两个线性函数具有最大的相关性。
(称这种相关为典型相关,称形成的两个线性函数即两个新的变量为典型变量。
)继而,还可以分别找X 与Y 的第二对线性函数。
是其与第一对典型变量不相关,而这两个线性函数之间又具有最大的相关性。
如此继续进行下去,直到两组变量X 与Y 之间的相关性被提取完毕为止。
判别分析就是解决分类问题,模式识别的分类问题就是根据待识别对象的特征向量值及其它约束条件将其分到某个类别中去。
统计判别分析理论是模式分类问题的基本理论之一,它对模式分析和分类器的设计有着实际的指导意义。
主成分分析的降维原理

主成分分析的降维原理主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维技术,可用于处理高维数据。
其原理是通过线性变换将原始数据映射到一个新的坐标系中,使得新的坐标系中的数据具有最大的方差。
本文将详细介绍主成分分析的降维原理。
1. 数据预处理在进行主成分分析之前,需要对数据进行预处理。
常用的预处理方法包括中心化和标准化。
中心化是指将数据的均值移到原点,即将每个维度的数据减去该维度数据的均值。
标准化是指将数据按照一定比例进行缩放,使得每个维度的数据具有相同的尺度。
2. 协方差矩阵计算在主成分分析中,我们首先需要计算数据的协方差矩阵。
协方差矩阵描述了数据各维度之间的关系。
对于一个n维数据集,协方差矩阵为一个n×n的矩阵,其中第i行第j列的元素表示第i个维度和第j个维度之间的协方差。
3. 特征值与特征向量计算通过对协方差矩阵进行特征值分解,我们可以得到特征值和特征向量。
特征值表示数据在对应特征向量方向上的方差,特征向量表示数据在对应特征值方向上的单位方向向量。
特征值和特征向量是成对出现的,且按照特征值的大小从大到小排列。
4. 选择主成分选择主成分的原则是保留方差最大的特征值及其对应的特征向量。
一般来说,前k个特征值的和占总特征值的比例越大,说明这k个主成分能够尽可能多地解释原始数据的方差,即保留的信息损失较小。
5. 数据映射选取保留的主成分后,我们将原始数据映射到主成分构成的新坐标系中。
具体而言,对于一个m×n的数据集,其中m为样本数量,n为维度数,我们可以将每个样本表示为n维向量,将选取的k个主成分表示为n×k的映射矩阵W。
通过将原始数据集与映射矩阵相乘,即可得到降维后的数据集。
6. 重构数据我们可以通过将降维后的数据集与映射矩阵的转置相乘,即可得到对原始数据的重构。
重构数据是对原始数据在主成分方向上的投影。
7. 解释性主成分分析的一个重要应用是解释性。
降维主成分分析

降维主成分分析一、主成分分析原理主成分分析通过线性变换将高维数据映射到低维空间,同时保留数据的最大方差信息。
首先,我们需要对数据进行标准化,将每个特征的均值调整为0,方差调整为1、然后,我们计算协方差矩阵,该矩阵反映了不同特征之间的相关性。
接下来,我们通过对协方差矩阵进行特征值分解,找到特征值和对应的特征向量。
最后,我们选择前k个特征向量构成一个变换矩阵,将高维数据映射到一个k维的子空间。
二、主成分分析应用主成分分析在实际应用中有广泛的用途。
以下是主成分分析的几个常见应用场景:1.数据可视化:主成分分析可以用于将高维数据映射到二维或三维空间,使得我们可以更好地可视化数据。
通过选择合适的主成分,我们可以将数据的维度降低到我们可以直观理解和分析的程度。
2.特征选择:主成分分析可以帮助我们选择在原始数据集中最具代表性的特征,从而减少特征数量。
通过选择前k个主成分,我们可以保留数据中最重要的信息,去除无关或冗余的特征。
3.噪声去除:主成分分析可以帮助我们去除数据中的噪声。
由于主成分分析选择具有最大方差的方向,噪声通常表现为具有较小方差的主成分。
通过去除这些主成分,我们可以降低噪声对数据分析的影响。
4.维度压缩:在机器学习和模式识别中,高维数据集会导致维度灾难,增加模型的计算复杂性和泛化误差。
主成分分析可以通过将高维数据映射到低维空间,减少数据集的维度,从而缓解维度灾难。
5.数据预处理:主成分分析可以作为数据预处理的一部分。
通过去除数据中的冗余和噪声信息,主成分分析可以减少后续模型的复杂性,提高模型的训练速度和准确性。
三、主成分分析的优缺点主成分分析作为一种常用的降维方法,具有以下优点:1.去除冗余信息:主成分分析可以通过选择具有最大方差的主成分去除数据中的冗余信息,提取数据的最重要特征。
2.减少维度:主成分分析可以帮助我们将高维数据映射到低维空间,减少数据集的维度,降低计算成本和复杂性。
3.保留信息:尽管主成分分析将数据映射到低维空间,但仍然能够保留尽可能多的原始数据信息,损失较少。
主成分分析(principal component analysis)

一、主成分分析的思想主成分分析是数据处理中常用的降维方法。
我们需要处理的数据往往是高维数据,把它看成是由某个高维分布产生。
高维分布的不同维之间可能具有较强的相关性,这也就为数据降维提供了可能。
为了叙述清楚主成分分析的思想,我们通过二维数据进行叙述,即数据是由随机向量 (X_1,X_2) 产生,并假设X_1=X_2 。
通过该分布得到的样本点如图下所示:如果我们把每个数据点用 (x_1,x_2) 表示,那么,每个数据是二维的。
实际上,容易发现,我们只需要将坐标系进行旋转,旋转到红色坐标系位置,此时,每个数据点在新坐标系下的表示形式为为 (x_1^{'},0) ,由于每个数据点的第二维坐标都是 0 ,所以每个数据点只需要用一个数表示就行了,这样就把数据的维数从二维降到了一维。
接下来考虑不是完全线性关系,但是具有强相关性的情况,如下图所示:在这种情况下,我们不可能通过坐标系的平移与旋转,使所有点都落在一根轴上,即不可能精确地把数据用一维表示。
但是注意到 (X_1,X_2) 仍然有强相关性,我们仍然将坐标轴旋转到红色位置,可以看出,将数据在 x_1^{'} 上的投影近似代表原数据,几乎可以完全反映出原数据的分布。
直观看,如果要将数据投影到某根轴,并用投影来表示原数据,将数据压缩成一维,那么投影到 x_1^{'} 是最好的选择。
因为投影到这跟轴,相比于投影到其他轴,对原数据保留的信息量最多,损失最小。
如何衡量保留的信息量呢?在主成分分析中,我们用数据在该轴的投影的方差大小来衡量,即投影后方差越大(即投影点越分散),我们认为投影到该轴信息保留量最多。
从这种观点看,投影到 x_1^{'} 确实是最好的选择,因为投影到这根轴,可使得投影点最分散。
我们将数据的中心平移到原点(即新坐标轴的原点在数据的中心位置),为了消除单位的影响,我们将数据的方差归一化。
进一步考虑如下数据分布:根据上述,如果要将数据压缩为一维的,那么应该选择 F_1 轴进行投影,如果用该投影表示原数据的损失过大,我们可以再选择第二根轴进行投影,第二根轴应该与 F_1 垂直(保证在两根轴上的投影是不相关的)并且使得数据在该轴上投影方差最大,即图中的 F_2 轴(如果是二维情况,第一根轴确定后,第二根轴就确定了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 右图最靠左边(与第3 主成分最负相关) 的2 个国家为China, India, 其后
有Indonesia, Bangladesh, United States of America, Pakistan; 它们的总人
口较多. 图14.5右图的右边挤在一起, 不很突出. 图14.5右图最靠下面的
(与第5 主成分比较负相关) 的6 个国家Gabon,Kazakhstan, Russian
图14.5 左右两图分别是观测值相应于第1、2 及第3、5 主成分的记分24图
记分(score)
• 图14.5左图最靠左边(与第1 主成分最负相关) 的6 个国家是Japan, Germany, Italy, Finland, Austria, Switzerland, 它们是世界上最发达的国 家; 而图14.5左图最靠右边(与第1 主成分最正相关) 的6 个国家是Niger, Chad, Burundi, Uganda, Mali, Democratic Republic of the Congo, 它们是 世界上最不发达的国家.
由于变量之间相关, 谈论单独某个变量对描述数据的单独贡献就没有 多大的意义, 这些互相相关的变量有着“集体贡献”, 降维就有可能.
• 主成分分析是在变量相关时寻找不相关的线性组合
在变量相关时, 可以由相关的变量形成若干变量的线性组合, 而这些线
性组合之间不相关. 这时谈论每个组合对问题的单独贡献就有意义了.
16
主成分及崖底碎石图
• 得到相应于11 个变量的特征值及累计贡献为: e$values [1] 6.3726 1.5656 1.0448 0.7961 0.5010 0.3368 [7] 0.2060 0.1324 0.0320 0.0080 0.0046 cumsum(e$values)/sum(e$values)#各个成分的累计贡献 [1] 0.58 0.72 0.82 0.89 0.93 0.97 0.98 1.00 1.00 1.00 1.00
> sweep(a$vectors,2,sqrt(a$values),"*")
[,1] [,2]
[1,] 0.99 -0.12
[2,] 0.99 0.12
12
主成分分析的步骤
• 找到各个不相关的成分,并选择代表性的少数成分: – 通过相关阵的特征值来看成分的重要性(崖底碎石图)并选择成分; – 通过相关阵的特征向量来看成分和原变量的关系(载荷图) 并解 释成分.
[,1] [,2]
[,1] [,2]
[1,] 0.71 -0.71
[1,] 0.71 -0.71
[2,] 0.71 0.71
[2,] 0.71 0.71
• 图14.1左右两图的特征向量(即两个主成分) 方向一样, 但左图数据特征
值(即方差) 的比例(代码prop.table(a$values))相差很大, 后面
• 可能性 并不是所有多元数据分析都能够或者有必要降维. 问题的性质、研究 者的目的及数据变量之间的关系等各种因素确定了降维的可能性.
4
降维的可能性
• 数据各变量不相关的情况
每个变量对于这个数据的整体特征的贡献都是独立的, 并不与其他变 量混杂, 这样的数据不能降维, 主成分分析无意义.
• 数据各变量相互相关的情况
8
椭圆的正交长短轴
• 寻找两个点云相应椭圆的主轴(即正交的长短轴)等价于寻找观测值方 差(或标准差)最大的方向.
• 在数学上为寻找数据相关矩阵最大的特征值(相应于方差) 及对应的特 征向量(即第一主轴的方向).
• 很容易利用R 函数eigen算出:
> xy=read.csv("xy.csv") > (a=xy%>%cor()%>%eigen()) #求xy相关阵特征值及特征向量
18
体现相关系数的载荷
• 输出结果见下表: 表14.1 各变量主成分载荷表
19
体现相关系数的载荷
• 对于第1主成分: – 和第1 主成分比较负相关(相关系数绝对值大于0.6) 的变量为D1 (人 口增长率), D13 (都市人口), D15 (人口中位数年龄), D16 (超过60 的人口比例), D2 (手机用户量), D7 (人均国民总收入). 因此第一主 成分负值越大, 国家越发达. – 和第1 主成分比较正相关(相关系数绝对值大于0.6) 的变量为D17 (15 以下的人口比例), D18 (总生育率), D5 (粗出生率). 因此第一主 成分正值越大, 国家越落后.
• 把原来的观测值投影到选择的成分上(计算得分并画图).
13
三 通过特征值问题求各个主成分
14
例14.1
• 数据描述 数据有177行, 每行代表一个国家或地区, 一共有12 个变量(数据的列), 除了名为Country.or.Area 的第一列为各个国家或地区的名字之外, 其 他列都是人口学的一些变量.
• 变量意义 D1:人口年增长率(%); D5:粗出生率(每1000 人口); …… D18:总生育率(每个妇女);
15
主成分及崖底碎石图
DP=read.csv("DP.csv") #求特征值和相应的特征向量 (e=eigen(cor(DP[,-1])))#数据第一列是国家或地区名字必须去掉 cumsum(e$values)/sum(e$values)#各个成分的累计贡献 plot(e$values,type="b",main="Scree plot",pch=16,col=4,lwd=3)
数据科学导论
— 第十四章 降维: 主成分分析
刘苗
miaoliu@ Jan.3, 2020
1
主要内容
一 变量之间的关系与降维的可能性 二 两维空间的降维 三 通过特征值问题求各个主成分 四 各个观测值在新坐标中的记分 五 主成分分析在图像处理中的应用 六 本章的Python代码
这些互不相关的组合在主成分分析中称为成分(component).
5
变量选择
• 在做主成分分析时, 最主观、对结果影响最大的决策就是选择哪些变 量参与建模, 这方面怎么强调都不过分.
• 必须注意到, 在教科书中的数据是给定的, 读者往往被动地“接受” 这些别人采集的变量, 而无法去质疑其合理性, 也很难认识到选择不同 的变量对结果的不同影响.
将会说明, 特征值不同的比例揭示了降维的可能性.
10
崖底碎石图(scree plot)
• 图14.1左图数据在两个方向的方差之比为0:986 : 0:014(相应的特征值 大小之比), 即长轴解释了98.6% 的信息, 因此如果舍弃短轴, 则仅损失 1.4% 的信息. 结论是有降维的可能.
• 图14.1右图数据长短轴方差的比例为0:52 : 0:48, 任何降维都会损失将 近50% 的信息. 结论是不适合降维.
图14.2 图14.1左右两图的崖底碎石图
11
主成分和原数据的关系
• 每个单位向量乘以其对应的特征值的平方根则为该成分和对应原始变 量的相关系数, 这些以相关系数表示的方向称为载荷.
• 图14.1左图数据和原来变量的相关系数: 第一列所代表的第一主成分与 两个原始变量的相关系数均为0.99, 因此, 第一主成分对原始数据的代 表性很强, 而第二主成分则代表性很弱. #每列特征向量乘以相应的特征值平方根
成.
图14.6 一个老宅的照片
28
图像压缩案例
• 得到3 个新文件的压缩比分别为0.09942, 0.14536, 0.29486
图14.7 老宅照片分别选取的主成分个数为3、10、100 的压缩照片及对
29
比的原始照片(自上左到下右排列)
习题
• 关于主成分分析, 请考虑下面问题: – 是不是一个数量变量的多元数据一定可以做主成分分析? – 主成分分析中有没有选取成分个数的不变标准?请解释. 你将按照 什么标准选取主成分? – 主成分分析的载荷在不同的程序中会得到不同的符号(指值的正负 号),这有关系吗?为什么?
Federation Panama, Saudi Arabia, Botswana; 它们手机用户比例可能较
大(但相关性不那么强).
25
五 主成分分析在图像处理中的应用
26
压缩
• 压缩的图像利于传送, 但我们也不希望压缩得太厉害以致失去原图片 太多的信息.
• 彩色图像的颜色大都通过三原色深浅组合而成, 计算机在处理颜色时 会将其转化为R(红), G (绿), B (蓝) 三个值(注意这里的绿色实际上是柠 檬色) 来记录, 取值都在0 255 之间.
• 可以看出最突出的是前面少数几个成分, 它们所代表的信息已经达到 80% 以上, 后面成分对方差的贡献就小多了.
17
体现相关系数的载荷
• 前面可通过e$vectors 函数得到11 个特征向量, 但它们都是单位向 量, 仅仅给出方向, 没有给出各个成分与原始变量的线性相关系数.
• 把每个单位特征向量乘以它们相应的特征值的平方根则给出这些相关 系数, 称为载荷(我们只输出前面5 个成分): loading=sweep(e$vectors,2,sqrt(e$values),"*")%>%da ta.frame() names(loading)=paste0("Comp-",1:11) data.frame(Variable=names(DP)[-1],loading[1:5])
20
体现相关系数的载荷
• 对于第2主成分:
– 和第2 主成分比较负相关(相关系数绝对值大于0.5) 的变量为D6 (粗 死亡率)还有稍微相关的D1 (人口增长率). 因此第2 主成分负值越大, 粗死亡率越高但出生率也较高.