主成分分析法例子剖析
主成分分析案例范文

主成分分析案例范文假设我们有一个包含多个汽车特征的数据集,每个汽车被表示为一个m维向量。
我们想要对数据进行降维,以便更好地理解和可视化数据。
我们可以利用主成分分析,将高维数据转换为低维数据,然后选择其中的几个主成分进行分析。
首先,我们需要对数据进行标准化处理,即使得每个维度的均值为0,方差为1、这是因为PCA是一种基于协方差矩阵的方法,对于不同单位和尺度的变量,会导致主成分的不准确。
接下来,我们计算数据的协方差矩阵。
协方差矩阵描述了数据之间的线性关系,其中每个元素表示两个变量之间的协方差。
对于m维数据,其协方差矩阵为一个大小为mxm的矩阵。
然后,我们计算协方差矩阵的特征向量和特征值。
特征向量描述了协方差矩阵的主要方向,特征值表示了数据在特征向量方向的方差。
特征向量按照对应特征值的大小进行排序,最大的特征值对应的特征向量即为第一主成分,第二大的特征值对应的特征向量即为第二主成分,以此类推。
我们可以选择前k个主成分进行降维,其中k可以根据需求进行选择。
最后,我们将数据投影到所选择的前k个主成分上。
具体做法是将数据与特征向量构成的转换矩阵相乘,得到数据在新的低维空间中的表示。
通过PCA降维,我们可以减少数据的维度,并保留了大部分的方差信息。
这有助于数据可视化和分析。
下面以一个具体的例子说明PCA的应用。
假设我们有一个汽车数据集,其中包含汽车的各种特征,如车速、发动机功率、车重、燃油消耗等。
我们的目标是将这些特征进行降维,并查看是否可以找到一些有趣的模式。
首先,我们对数据进行标准化处理,确保每个特征的均值为0,方差为1然后,我们计算数据的协方差矩阵,找到其特征向量和特征值。
接下来,我们选择前两个特征值最大的特征向量作为第一和第二主成分。
这两个主成分分别表示数据的主要方向。
我们可以将数据投影到这两个主成分上,得到一个二维的表示。
最后,我们可以在二维空间中绘制投影后的数据,并观察数据之间的分布。
如果在二维空间中存在一些有趣的模式,我们可以进一步探索这些模式,并进行更深入的分析。
主成分分析-实例

§8 实例 实例1计算得1x =71.25,2x =67.5分析1:基于协差阵∑ 求主成分。
369.6117.9117.9214.3S ⎛⎫= ⎪⎝⎭特征根与特征向量(S无偏,用SPSS )Factor 1 Factor 2 11x x - 0.880 -0.47422x x -0.474 0.880 特征值 433.12 150.81 贡献率0.7417 0.2583注:样本协差阵为无偏估计11(11)1n n n S X I X n n''=--, 所以,第一、二主成分的表达式为1122120.88(71.25)0.47(67.5)0.47(71.25)0.88(67.5)y x x y x x =-+-⎧⎨=--+-⎩ 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。
1y 越大,综合成绩越好。
(综合成分)第二主成分的两个系数异号(反映了两科成绩的均衡性)。
不妨将英语称为文科,数学称为理科。
2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。
(结构成分)问题:英语的权数为何大?如何解释? 分析2:基于相关阵R 求主成分。
因为1x =71.25,2x =67.5所以相关阵11R ⎛=⎪⎪⎭解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为:Factor 1 Factor 2 111x x s - 0.707 0.707 222x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率0.7090.291所以,第一、二主成分的表达式为12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --⎧=+=+⎪⎪⎨--⎪=-=-⎪⎩1122120.039(71.25)0.052(67.5)0.039(71.25)0.052(67.5)y x x y x x =-+-⎧⎨=---⎩ 1122120.0390.052 6.2730.0390.0520.671y x x y x x =+-⎧⎨=-+⎩ *2*11707.0707.0x x y += *2*12707.0707.0x x y -=基于相关阵的更说明了:第一主成分是英语与数学的加权总分。
主成分分析法例子剖析-PPT

从以上的分析可以看出,主成分分析的 实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的载荷 lij ( i=1,2,…,m; j=1,2 ,…,p)。
分z2代表了人均资源量。
③第三主成分z3,与x8呈显出的正相关程度 最高,其次是x6,而与x7呈负相关,因此可 以认为第三主成分在一定程度上代表了农业 经济结构。
显然,用三个主成分z1、z2、z3代替原来9个变量(x1, x2,…,x9),描述农业生态经济系统,可以使问题更进
一步简化、明了。
rij
n
(xki xi )(xkj x j )
k 1
n
n
(xki xi )2 (xkj x j )2
k 1
k 1
(4)
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,求出特征值,并 使其按大小顺序排列 ;
1 2 , p 0
② 分别求出对应于特征值 i的特征向量
大家好
1
一、主成分分析的基本原理
❖ 假定有n个样本,每个样本共有p个变量, 构成一个n×p阶的数据矩阵
x11 x12 x1 p
X
x21
x22
x2
p
xn1
xn 2
xnp
(1)
❖降维处理!!!
当p较大时,在p维空间中考察问题比较麻烦。 降维是用较少的几个综合指标代替原来较多 的变量指标,而且使这些较少的综合指标既 能尽量多地反映原来较多变量指标所反映的 信息,同时它们之间又是彼此独立的。
主成分分析法实例

【转】主成分分析法概述、案例实例分析主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I 个变量就有I个主成分。
这种方法避免了在综合评分等方法中权重确定的主观性和随意性,评价结果比较符合实际情况;同时,主成份分量表现为原变量的线性组合,如果最后综合指标包括所有分量,则可以得到精确的结果,百分之百地保留原变量提供的变差信息,即使舍弃若干分量,也可以保证将85%以上的变差信息体现在综合评分中,使评价结果真实可靠。
是在实际中应用得比较广的一种方法。
由于其第一主成份(因子)在所有的主成分中包含信息量最大,很多学者在研究综合评价问题时常采用第一主成分来比较不同实体间的差别。
综上所述,该方法的优点主要体现在两个方面:1.权重确定的客观性;2.评价结果真实可靠。
1.主成分分析的基本原理主成分分析:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。
)记原来的变量指标为x1,x2,…,xP,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m 主成分,在实际问题的分析中,常挑选前几个最大的主成分。
主成分分析经典案例

主成分分析经典案例
主成分分析是一种常用的数据降维和模式识别方法,它可以帮助我们发现数据
中隐藏的结构和模式。
在实际应用中,主成分分析有很多经典案例,下面我们将介绍其中一些。
首先,我们来看一个经典的主成分分析案例,手写数字识别。
在这个案例中,
我们需要识别手写的数字,例如0-9。
我们可以将每个数字的图像表示为一个向量,然后利用主成分分析来找到最能代表数字特征的主成分。
通过这种方法,我们可以将复杂的图像数据降维到较低维度,从而更容易进行分类和识别。
另一个经典案例是面部识别。
在这个案例中,我们需要识别不同人脸的特征。
同样地,我们可以将每个人脸的图像表示为一个向量,然后利用主成分分析来找到最能代表人脸特征的主成分。
通过这种方法,我们可以将复杂的人脸数据降维到较低维度,从而更容易进行人脸识别和验证。
此外,主成分分析还可以应用于金融领域。
例如,在投资组合管理中,我们可
以利用主成分分析来发现不同资产之间的相关性和结构。
通过这种方法,我们可以将复杂的资产数据降维到较低维度,从而更容易进行资产配置和风险管理。
在医学领域,主成分分析也有着重要的应用。
例如,在基因表达数据分析中,
我们可以利用主成分分析来发现不同基因之间的相关性和结构。
通过这种方法,我们可以将复杂的基因表达数据降维到较低维度,从而更容易进行基因分析和疾病诊断。
总之,主成分分析在各个领域都有着重要的应用。
通过发现数据中的主要结构
和模式,主成分分析可以帮助我们更好地理解和利用数据。
希望以上经典案例的介绍能够帮助您更好地理解主成分分析的应用。
主成分分析 实例

§8 实例 实例1计算得1x =71.25,2x =67.5分析1:基于协差阵∑ 求主成分。
369.6117.9117.9214.3S ⎛⎫= ⎪⎝⎭特征根与特征向量(S无偏,用SPSS )Factor 1 Factor 2 11x x - 0.880 -0.47422x x -0.474 0.880 特征值 433.12 150.81 贡献率0.7417 0.2583注:样本协差阵为无偏估计11(11)1n n n S X I X n n''=--, 所以,第一、二主成分的表达式为1122120.88(71.25)0.47(67.5)0.47(71.25)0.88(67.5)y x x y x x =-+-⎧⎨=--+-⎩ 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。
1y 越大,综合成绩越好。
(综合成分)第二主成分的两个系数异号(反映了两科成绩的均衡性)。
不妨将英语称为文科,数学称为理科。
2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。
(结构成分)问题:英语的权数为何大?如何解释? 分析2:基于相关阵R 求主成分。
因为1x =71.25,2x =67.5所以相关阵11R ⎛=⎪⎪⎭解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为:Factor 1 Factor 2 111x x s - 0.707 0.707 222x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率0.7090.291所以,第一、二主成分的表达式为12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --⎧=+=+⎪⎪⎨--⎪=-=-⎪⎩1122120.039(71.25)0.052(67.5)0.039(71.25)0.052(67.5)y x x y x x =-+-⎧⎨=---⎩ 1122120.0390.052 6.2730.0390.0520.671y x x y x x =+-⎧⎨=-+⎩ *2*11707.0707.0x x y += *2*12707.0707.0x x y -=基于相关阵的更说明了:第一主成分是英语与数学的加权总分。
主成分分析法案例

主成分分析法案例主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术,可以将高维数据映射到低维空间,同时保持数据信息最大化。
本文将介绍一个应用主成分分析法的案例,以展示其在实际问题中的应用价值。
假设我们有一个销售数据集,包含100个样本和10个特征。
我们希望通过主成分分析法来降低数据的维度,以便更好地理解和解释数据。
第一步是标准化数据。
由于每个特征的单位和范围可能不同,我们需要将其缩放到相同的尺度。
这样可以避免某些特征对主成分分析结果的影响过大。
通过减去特征均值并除以标准差,我们可以将数据的均值调整为0,方差调整为1。
第二步是计算特征的协方差矩阵。
协方差矩阵可以衡量不同特征之间的关系。
通过计算特征之间的协方差,我们可以得到一个10×10的协方差矩阵。
第三步是计算协方差矩阵的特征值和特征向量。
特征值可以衡量每个特征的重要性,特征向量则表示数据在这些特征方向上的投影。
第四步是选择主成分。
我们可以通过特征值的大小来选择主成分的数量。
特征值越大,说明对应特征向量的信息量越大。
在这个案例中,我们选择前三个特征值最大的特征向量作为主成分。
第五步是计算主成分得分。
我们可以将原始数据映射到选定的主成分上,从而得到主成分得分。
主成分得分是原始数据在主成分上的投影。
最后,我们可以通过对主成分进行可视化和解释来理解数据。
在这个案例中,我们可以绘制主成分之间的散点图,观察样本之间的分布情况。
同时,我们还可以计算主成分与原始特征的相关系数,以评估特征在主成分中的重要性。
总之,主成分分析法是一种强大的降维技术,可以帮助我们更好地理解和解释数据。
通过选择主成分,计算主成分得分以及解释主成分,我们可以在高维数据中寻找关键的信息。
主成分分析实例及含义讲解

• 主成分分析与因子分析的公式上的区别
y1 a11x1 a12 x2 a1p xp y2 a21x1 a22 x2 a2 p xp
主成分分析
yp ap1x1 ap2 x2 app xp
因子分析(m<p)
x1 a11 f1 a12 f2 x2 a21 f1 a22 f2
3
.457
7.619
88.761
4
.323
5.376
94.137
5
.199
3.320
97.457
6
.153
2.543
100.000
Extraction Method: Principal Component Analysis.
Extraction Sums of Squared Loadings
Total
这一类数据所涉及的问题可以推广到对企业, 对学校进行分析、排序、判别和分类等问题。
5
空间的点
• 例中的的数据点是六维的;也就是说,每个观测值是6维空间中 的一个点。我们希望把6维空间用低维空间表示。
• 先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所 代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值; 如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态 的假定下是可能的)
y1 -0.806x1 - 0.674x2 - 0.675x3 0.893x4 0.825x5 0.836x6
y2 0.353x1 0.531x2 0.513x3 0.306x4 0.435x5 0.425x6
• 这些系数称为主成分载荷(loading),它表示主成分和相应的 原先变量的相关系数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971
x9
0.964
-0.0025
0.0092
92.939
上述计算过程,可以借助于SPSS软件系统实现。
76.204 71.106 73.307 68.904 66.502 50.302 64.609 62.804 60.102 68.001 60.702 63.304 54.206 55.901 54.503 49.102
1540.29 926.35 1501.24 897.36 911.24 103.52 968.33 957.14 824.37 1255.42 1251.03 1246.47 814.21 1124.05 805.67 1313.11
④各主成分的得分
l11 l12 l1p x1
Z l21
l22
l2
p
x2
.
ln1 ln2
lnp
x
p
(6)
三、 主成分分析方法应用实例
表1 某农业生态经济系统各区域单元的有关数据
样本 序号
1
x1:人 口密度
,
p
其中表li2j示向1 量 的lij第j个分量。li
j 1
③ 计算主成分贡献率及累计贡献率
▲贡献率:
i
p
k
k 1
(i 1,2, , p)
▲累计贡献率:
i
k
k 1
p
k
k 1
(i 1,2, , p)
一般取累计贡献率达85—95%的特征值 1, 2 , , m 所对应的第一、第二、…、第m(m≤p)个主成分。
一、主成分分析的基本原理
❖ 假定有n个样本,每个样本共有p个变量, 构成一个n×p阶的数据矩阵
x11
X
x21
xn1
x12 x22 xn 2
x1 p
x2
p
xnp
(1)
❖降维处理!!!
当p较大时,在p维空间中考察问题比较麻烦。 降维是用较少的几个综合指标代替原来较多 的变量指标,而且使这些较少的综合指标既 能尽量多地反映原来较多变量指标所反映的 信息,同时它们之间又是彼此独立的。
(xki xi )2 (xkj x j )2
k 1
k 1
(4)
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,求出特征值,并 使其按大小顺序排列 ;
1 2 , p 0
②
分别求出对应于特征值
的特征向量
i
li (i 1,2, , p) ,要求 li =1,即
4.861 4.862 3.201 6.167 4.477 6.165 5.402 5.79 8.413 3.425 5.593 8.701 12.945 12.654 8.461 10.078
步骤如下:
(1)将表1中的数据作标准差标准化处理,
然后将它们代入公式(4)计算相关系数矩阵
(见表2)。
表2 相关系数矩阵
特征值 4.661 2.089 1.043 0.507 0.315 0.193 0.114 0.0453 0.0315
贡献率(%) 51.791 23.216 11.589 5.638 3.502 2.14 1.271 0.504 0.35
累积贡献率(%) 51.791 75.007 86.596 92.234 95.736 97.876 99.147 99.65 100
1
(2)由相关系数矩阵计算特征值,以及各 个主成分的贡献率与累计贡献率(见表3)。 由表3可知,第一,第二,第三主成分的累 计贡献率已高达86.596%(大于85%),故 只需要求出第一、第二、第三主成分z1,z2, z3即可。
主成分 z1 z2 z3 z4 z5 z6 z7 z8 z9
表3 特征值及主成分贡献率
定义:记x1,x2,…,xP为原变量指标,z1, z2,…,zm(m≤p)为新变量指标
z1 l11 x1 l12 x2 l1p x p
z
2
l21 x1 l22 x2
l2p xp
(2)
zm lm1 x1 lm2 x2 lmp x p
4.065 4.063 2.645 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092
(人 /km2)
363.91
x 2:人 均耕地 面积
(ha)
0.352
2 141.5 1.684
3 100.7 1.067
4 143.74 1.336
5 131.41 1.623
x 3:森 林覆盖 率(%)
16.101
x 4:农 民人均 纯收入 (元/人)
192.11
x 5:人 均粮食 产量 (kg/x1x2x3源自x4x5x6
x7
x8
x9
x1
1 -0.327 -0.714 -0.336 0.309 0.408 0.79 0.156 0.744
x2 -0.33 1 -0.035 0.644 0.42 0.255 0.009 -0.078 0.094
x3 -0.71 -0.035 1 0.07 -0.74 -0.755 -0.93 -0.109 -0.924
分析:
①第一主成分z1与x1,x5,x6,x7,x9呈显出 较强的正相关,与x3呈显出较强的负相关, 而这几个变量则综合反映了生态经济结构
状况,因此可以认为第一主成分z1是生态 经济结构的代表。
②第二主成分z2与x2,x4,x5呈显出较强的 正相关,与x1呈显出较强的负相关,其中, 除了x1为人口总数外,x2,x4,x5都反映了 人均占有资源量的情况,因此可以认为第
x4 -0.34 0.644 0.07 1 0.383 0.069 -0.05 -0.031 0.073
x5 0.309 0.42 -0.74 0.383 1
0.734 0.672 0.098 0.747
x6 0.408 0.255 -0.755 0.069 0.734
1 0.658 0.222 0.707
r11 r12 r1p
R
r21
r22
r2
p
rp1 rp2
rpp
(3)
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji, 其计算公式为:
rij
n
(xki xi )(xkj x j )
k 1
n
n
65.601 1181.54 270.12 18.266 0.162 7.474 12.489
33.205 1436.12 354.26 17.486 11.805 1.892 17.534
16.607 1405.09 586.59 40.683 14.401 0.303 22.932
6 68.337 2.032 7 95.416 0.801 8 62.901 1.652 9 86.624 0.841 10 91.394 0.812 11 76.912 0.858 12 51.274 1.041 13 68.831 0.836 14 77.301 0.623 15 76.948 1.022 16 99.265 0.654 17 118.505 0.661 18 141.473 0.737 19 137.761 0.598 20 117.612 1.245 21 122.781 0.731
人)
295.34
x 6:经济 作物占农 作物播面 比例(%)
26.724
x 7:耕地 占土地面 积比率
(%)
18.492
x 8:果 园与林 地面积 之比
2.231
x 9:灌溉 田占耕地 面积之比
(%)
26.262
24.301 1752.35 452.26 32.314 14.464 1.455 27.066