主成分分析法实例
主成分分析

主成分分析主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。
主要是从协方差矩阵出发,实现一种正交变换,从而将高维系统表示为低维系统,在此过程中可以揭示研究对象的许多性质和特征。
主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。
只要懂得线性代数中二次型化为标准型的原理,就很容易掌握主成分分析的原理,进而掌握因子分析的原理。
在理解正交变换数学原理的基础上,我们可以借助Excel 开展主成分分析。
为了清楚地说明主成分的计算过程,不妨给出一个简单的计算实例。
【例】2000 年中国各地区的城、乡人口的主成分分析。
这个例子只有两个变量(m=2):城镇人口和乡村人口;31 个样品:即中国的31 个省、自治区和直辖市(n=31)。
资料来自2001 年《中国统计年鉴》,为2000 年全国人口普查快速汇总的11 月1 日零时数。
由于变量太少,这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。
计算步骤5.1.1 详细的计算过程首先,录入数据,并对数据进行适当处理(图5-1-1)。
计算的详细过程如下。
第一步,将原始数据绘成散点图主成分分析原则上要求部分变量之间具有线性相关趋势。
如果所有变量彼此之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量。
如果原始变量之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。
从图5-1-2 可见,原始数据具有非线性相关趋势,可以近似匹配幂指数函数,且测定系数R2=0.5157,相应地,相关系数R=0.7181(图5-1-2a);取对数之后,点列具有明显的线性趋势(图5-1-2b)。
第二步,对数据进行标准化标准化的数学公式为我们将对对数变换后的数据开展主成分分析,因此只对取对数后的数据标准化。
根据图5-1-1所示的数据排列,应该按列标准化,用xij 代表取对数之后的数据,则下式分别为第j 列数据的均值和标准差,xij 为第i 行(即第i 个样本)、第j 列(即第j 个变量)的数据,xij*为相应于xij 的标准化数据,n=31 为样品数目(参见图5-1-1)。
主成分分析经典案例

主成分分析经典案例
主成分分析是一种常用的数据降维和模式识别方法,它可以帮助我们发现数据
中隐藏的结构和模式。
在实际应用中,主成分分析有很多经典案例,下面我们将介绍其中一些。
首先,我们来看一个经典的主成分分析案例,手写数字识别。
在这个案例中,
我们需要识别手写的数字,例如0-9。
我们可以将每个数字的图像表示为一个向量,然后利用主成分分析来找到最能代表数字特征的主成分。
通过这种方法,我们可以将复杂的图像数据降维到较低维度,从而更容易进行分类和识别。
另一个经典案例是面部识别。
在这个案例中,我们需要识别不同人脸的特征。
同样地,我们可以将每个人脸的图像表示为一个向量,然后利用主成分分析来找到最能代表人脸特征的主成分。
通过这种方法,我们可以将复杂的人脸数据降维到较低维度,从而更容易进行人脸识别和验证。
此外,主成分分析还可以应用于金融领域。
例如,在投资组合管理中,我们可
以利用主成分分析来发现不同资产之间的相关性和结构。
通过这种方法,我们可以将复杂的资产数据降维到较低维度,从而更容易进行资产配置和风险管理。
在医学领域,主成分分析也有着重要的应用。
例如,在基因表达数据分析中,
我们可以利用主成分分析来发现不同基因之间的相关性和结构。
通过这种方法,我们可以将复杂的基因表达数据降维到较低维度,从而更容易进行基因分析和疾病诊断。
总之,主成分分析在各个领域都有着重要的应用。
通过发现数据中的主要结构
和模式,主成分分析可以帮助我们更好地理解和利用数据。
希望以上经典案例的介绍能够帮助您更好地理解主成分分析的应用。
主成分分析 实例

§8 实例 实例1计算得1x =71.25,2x =67.5分析1:基于协差阵∑ 求主成分。
369.6117.9117.9214.3S ⎛⎫= ⎪⎝⎭特征根与特征向量(S无偏,用SPSS )Factor 1 Factor 2 11x x - 0.880 -0.47422x x -0.474 0.880 特征值 433.12 150.81 贡献率0.7417 0.2583注:样本协差阵为无偏估计11(11)1n n n S X I X n n''=--, 所以,第一、二主成分的表达式为1122120.88(71.25)0.47(67.5)0.47(71.25)0.88(67.5)y x x y x x =-+-⎧⎨=--+-⎩ 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。
1y 越大,综合成绩越好。
(综合成分)第二主成分的两个系数异号(反映了两科成绩的均衡性)。
不妨将英语称为文科,数学称为理科。
2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。
(结构成分)问题:英语的权数为何大?如何解释? 分析2:基于相关阵R 求主成分。
因为1x =71.25,2x =67.5所以相关阵11R ⎛=⎪⎪⎭解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为:Factor 1 Factor 2 111x x s - 0.707 0.707 222x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率0.7090.291所以,第一、二主成分的表达式为12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --⎧=+=+⎪⎪⎨--⎪=-=-⎪⎩1122120.039(71.25)0.052(67.5)0.039(71.25)0.052(67.5)y x x y x x =-+-⎧⎨=---⎩ 1122120.0390.052 6.2730.0390.0520.671y x x y x x =+-⎧⎨=-+⎩ *2*11707.0707.0x x y += *2*12707.0707.0x x y -=基于相关阵的更说明了:第一主成分是英语与数学的加权总分。
主成分分析和因子分析实例

主成分分析和因子分析实例假设我们有一份关于中国大学生健康状况的调查数据集,共包含10个变量:体重、身高、视力、听力、血压、血糖、心率、睡眠时间、体育锻炼时间和饮食习惯。
我们希望通过主成分分析和因子分析来了解这些变量之间的关系以及它们对健康状况的影响。
首先,进行主成分分析。
主成分分析旨在找到能最好地解释数据方差的新变量,即主成分。
我们可以利用主成分分析来降低数据的维度,并找出最重要的变量。
我们计算主成分的步骤如下:1.标准化数据:将所有变量标准化,使其均值为0,标准差为1,以消除不同变量间的量纲差异。
2.计算协方差矩阵:计算标准化后的变量间的协方差矩阵。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和特征向量。
4.选择主成分:选择前几个特征值最大的特征向量作为主成分。
5.计算主成分得分:将原始数据与选定的主成分的特征向量相乘,得到主成分得分。
在完成上述计算后,我们可以得到主成分的解释力和贡献度。
解释力衡量了每个主成分对原始数据的解释程度,而贡献度则表示每个主成分对原始数据方差的贡献程度。
我们可以根据解释力和贡献度来解读主成分。
另一种常用的降维方法是因子分析。
因子分析也可以帮助我们找到数据中隐藏的因子,并揭示变量之间的关系。
我们进行因子分析的步骤如下:1.标准化数据:同样地,我们需要先对原始数据进行标准化。
2.估计因子模型:根据原始数据的协方差矩阵或相关矩阵,估计潜在因子模型。
最常用的是主成分法估计和极大似然估计。
3.提取因子:提取潜在因子,以解释原始数据中的变异。
我们可以使用特征值大于1的因素作为主要因子。
4.旋转因子:为了更好地理解因子的含义,我们可以对因子进行旋转。
常用的旋转方法有方差最大旋转法和直角旋转法。
5.计算因子得分:根据旋转后的因子载荷矩阵和标准化后的数据,计算每个样本在因子上的得分。
通过因子分析,我们可以得到每个变量对于潜在因子的载荷值,代表了变量与潜在因子之间的关系强度。
主成分分析法

问题分析:问题2主要是找出金属污染的主要原因,首先要找出污染最严重的金属,结合问题1的求解,我们通过主成分分析法对各种金属污染的严重性进行了判定主成分分析法:重金属对人体的危害由金属元素的化学性质决定,根据十余项指标和九项参数对重金属的潜在毒性进行分类和排序,考评指标和参数如下:电离势、熔点、沸点、熔化热、汽化热、电化当量、结合能、离子半径、密度、电荷离子半径比、氧化性、离子奇偶性、挥发性。
结论如下:重金属潜在毒性排行榜:毒性大:Hg汞〉Cd镉〉Tl铊〉Pb铅〉Cr铬〉In铟〉Sn锡毒性中等:Ag银〉Sb锑〉Zn锌〉Mn锰〉Au金〉Cu铜〉Pr镨〉Ce 铈〉Co钴〉Pd钯〉Ni镍〉V钒〉Os锇〉Lu镥〉Pt铂〉Bi铋〉Yb镱〉Eu铕〉Ga镓〉Fe铁〉Sc钪〉Al铝〉Ti钛〉Ge锗〉Rh铑〉Zr锆毒性较小:Hf铪〉Ru钌〉Ir铱〉Tc锝〉Mo钼〉Nb铌〉Ta钽〉Re铼〉W钨〉Tm铥〉Dy镝〉Nd钕〉Er铒〉Ho钬〉Gd钆〉Tb铽〉La镧〉Y钇砷:一种三价和五价的非金属元素,旧称“砒”。
通常呈金属的铁灰色,结晶形,性脆。
砷常小量地被掺入合金(如用于制造子弹的砷-铅合金),其化合物主要用于制造毒剂(如杀虫剂)、药物和玻璃 [arsenic]——元素符号As由于砷是一种非金属元素,所以在重金属毒性排行榜中没有这个元素但是它的毒性却很强,仅次于汞,我们将它放到了第二位。
Hg>As>Cd>Pb>Cr>Zn>Cu>Ni我们采用主成分分析法来验证我们的猜测:X1、X2、X3、X4、X5、X6、X7、X8分别表示:Hg、As、Cd、Pb、Cr、Zn、Cu、NiZ:标准化矩阵x:采样值x:均值s:标准差R:相关性矩阵:特征值p:维度2s:方差1、对原始指标数据的标准化采集p 维随机向量x =X1,X2,...,X pp(p=8)个影响因素测量值x i = (x i1,x i2,...,x ip)T,i=1,2,…,n 构造样本阵,对样本阵元进行如下标准化变换:计算样本的均值:1nijijx xn==∑计算方差:2 21()1nij jijx x sn=-=-∑得标准化矩阵Z通过MATLAB计算出标准化矩阵Z=zscore(A)见附录12、对标准化阵Z 求相关系数矩阵其中,通过MATLAB计算出相关系数化矩阵R=corrcoef(A)见附录23、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按 确定m 值,使信息的利用率达85%以上,对每个λj ,j=1,2,...,m, 解方程组Rb = λj 得单位特征向量1b 、2b 、3b ……8b贡献率i V :1(1,2,,)ii pkk V i p λλ===∑累计贡献率i Q :11(1,2,,)ikk i pkk Q i p λλ====∑∑i Q =1ni i V =∑ n=1、2、3 (8)通过MATLAB 计算出特征向量,主成分贡献率,见附录3 [COEFF,LATENT,EXPLATNED]=pcacov(R) 表1因子分析结果以85%作为界限,从表1中可以看出只要取四个因子就足够了。
主成分分析实例及含义讲解

成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引 进主成分分析之前,先看下面的例子。
% of Variance Cumulative %
3.735
62.254
62.254
1.133
18.887
81.142
• 这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数 据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。 后面的特征值的贡献越来越少。
11
主成分分析的数学
• 要寻找方差最大的方向。即使得向量X的线性组合a’X的方差
最大的方向a. • 而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的样本相
关阵R来近似.因此,要寻找向量a使得a’Ra最大(注意相关阵 和协方差阵差一个常数 • 记得相关阵和特征值问题吗?回顾一下吧! • 选择几个主成分呢?要看“贡献率.”
12
• 对于我们的数据,SPSS输出为
T ot a l V ar i an c e E x pl a in e d
Initial Eigenvalues
Component
Total
% of Variance Cumulative %
1
3.735
62.254
62.254
2
1.133
18.887
81.142
3
.457
主成分分析法的原理应用及计算步骤

主成分分析法的原理应用及计算步骤1.计算协方差矩阵:首先,我们需要将原始数据进行标准化处理,即使每个特征都有零均值和单位方差。
假设我们有m个n维样本,数据集为X,标准化后的数据集为Z。
那么,计算协方差矩阵的公式如下:Cov(Z) = (1/m) * Z^T * Z其中,Z^T为Z的转置。
2.计算特征向量:通过对协方差矩阵进行特征值分解,可以得到特征值和特征向量。
特征值表示了新坐标系中每个特征的重要性程度,特征向量则表示了数据在新坐标系中的方向。
将协方差矩阵记为C,特征值记为λ1, λ2, ..., λn,特征向量记为v1, v2, ..., vn,那么特征值分解的公式如下:C*v=λ*v计算得到的特征向量按特征值的大小进行排序,从大到小排列。
3.选择主成分:从特征向量中选择与前k个最大特征值对应的特征向量作为主成分,即新坐标系的基向量。
这些主成分可以解释原始数据中大部分的方差。
我们可以通过设定一个阈值或者看特征值与总特征值之和的比例来确定保留的主成分个数。
4.映射数据:对于一个n维的原始数据样本x,通过将其投影到前k个主成分上,可以得到一个k维的新样本,使得新样本的方差最大化。
新样本的计算公式如下:y=W*x其中,y为新样本,W为特征向量矩阵,x为原始数据样本。
PCA的应用:1.数据降维:PCA可以通过主成分的选择,将高维数据降低到低维空间中,减少数据的复杂性和冗余性,提高计算效率。
2.特征提取:PCA可以通过寻找数据中的最相关的特征,提取出主要的信息,从而减小噪声的影响。
3.数据可视化:通过将数据映射到二维或三维空间中,PCA可以帮助我们更好地理解和解释数据。
总结:主成分分析是一种常用的数据降维方法,它通过投影数据到一个新的坐标系中,使得投影后的数据具有最大的方差。
通过计算协方差矩阵和特征向量,我们可以得到主成分,并将原始数据映射到新的坐标系中。
PCA 在数据降维、特征提取和数据可视化等方面有着广泛的应用。
主成分分析法概念及例题

主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法目录[显示]1 什么是主成分分析法2 主成分分析的基本思想3 主成分分析法的基本原理4 主成分分析的主要作用5 主成分分析法的计算步骤6 主成分分析法的应用分析o案例一:主成分分析法在啤酒风味评价分析中的应用[1]1 材料与方法2 主成分分析法的基本原理3 主成分分析法在啤酒质量一致性评价中的应用4 结论7 参考文献[编辑]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。