主成分分析(资料分享)
统计学中的主成分分析

统计学中的主成分分析主成分分析(Principal Component Analysis, PCA)是一种多变量分析方法,用于降维和数据可视化。
它通过将原始数据转换为新的坐标系,使得转换后的数据能够保留原始数据的主要变化趋势,并且可以按照重要性进行排序。
在本文中,将介绍主成分分析的原理、应用场景和步骤。
一、主成分分析原理主成分分析的核心是寻找数据中的主要变化趋势,即找到数据中的主成分。
主成分是数据最大方差方向上的投影,也即是能够解释数据中最大不同的变量。
对于一个具有p个变量的数据集,主成分分析可以得到p个主成分,按照重要性递减排序。
通过选择适当数量的主成分,可以实现对数据的降维和可视化。
主成分分析的计算过程可以通过特征值分解或奇异值分解来实现。
特征值分解会得到数据的特征向量和特征值,而奇异值分解则可以直接得到主成分。
在实际应用中,奇异值分解是更常用的方法。
二、主成分分析的应用场景主成分分析广泛应用于各个领域,包括金融、生物学、社会科学等。
下面将介绍主成分分析在这些领域的具体应用。
1. 金融:主成分分析常用于资产组合管理和风险管理。
通过将各种金融数据进行主成分分析,可以获得具有代表性的主成分,从而有效降低资产组合的维度,减少投资组合中的相关风险。
2. 生物学:主成分分析可以应用于基因表达数据的分析。
通过主成分分析,可以从大量的基因表达数据中提取出基因表达的主要变化趋势,帮助研究人员理解基因与表型之间的关系。
3. 社会科学:主成分分析可以用于社会调查数据的分析。
通过对调查数据进行主成分分析,可以发现不同变量之间的相关性,进而揭示不同因素对于社会问题的影响程度。
三、主成分分析的步骤主成分分析的步骤通常包括以下几个步骤:1. 数据标准化:对原始数据进行标准化处理,将不同量级的变量转化为标准差为1的变量。
这一步骤是为了消除变量间的量纲差异。
2. 计算协方差矩阵:根据标准化后的数据计算协方差矩阵,用于度量变量之间的相关性。
原创_ 一文读懂主成分分析

概述主成分分析PCA(Principal Component Analysis)是一种常用的数据分析方法。
PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
本文用直观和易懂的方式叙述PCA的基本数学原理,不会引入严格的数学推导。
希望读者在看完这篇文章后能更好地明白PCA的工作原理。
一、降维概述 1.1 数组和序列(Series)的维度对于数组和序列(Series)来说,维度就是shape()函数返回的结果,shape()函数中返回了几个数字,就是几维(也有人看array()开头或者结尾连续中括号的数量)。
不分行列的数组叫一维数组,此时shape返回单一的维度上的数据个数。
有行列之分的数组叫二维数组,也称为表。
一张表最多有二个维度,复数的表构成了更高维度的表。
当一个数组中存在2张3行4列的表时,shape返回的是更高维度的行和列。
当数组中存在2组2张3行4列的表时,数据就是4维,shape返回(2,2,3,4)。
数组中的每一张表,都可以是一个特征矩阵或一个DataFrame,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。
针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。
除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。
1.2 图像中的维度对图像来说,维度就是图像中特征向量的数量。
特征向量可以理解为是坐标轴,一个特征向量定义一条直线,是一维;两个相互垂直的特征向量定义一个平面,即一个直角坐标系,就是二维;三个相互垂直的特征向量定义一个空间,即一个立体直角坐标系,就是三维;三个以上的特征向量相互垂直,定义人眼无法看见,也无法想象的高维空间。
1.3 降维解释降维算法中的“降维”,指的是降低特征矩阵中特征的数量。
降维的目的是为了让算法运算更快,效果更好,但其实还有另一种需求:数据可视化。
主成分分析法的步骤和原理

(一)主成分分析法的基本思想主成分分析(PrincipalComponentAnalysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型 假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
假设X 是以n 个标量随机变量组成的列向量,并且μk 是其第k 个元素的期望值,即,μk=E(xk),协方差矩阵然后被定义为: Σ=E{(X -E[X])(X-E[X])}=(如图对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X p Z 2=μ21X 1+μ22X 2+…μ2p X p ………………Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤 第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
主成分分析完整版

主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
什么是主成分分析精选全文

可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析法(PCA)

前 k 个主成分的贡献率之和
∑λ
i =1
k
i
∑λ
j =1
n
j
称为主成分 λ1 , λ2 L λk 的累计贡献率,它表明 z1 , z2 ,L zk 解释 x1 , x2 L xn 的能力。 通常取较小的 k ,使得累计贡献达到一个较高的百分比(如 80%~90%)。此时,z1 , z2 ,L zk 可用来代替 x1, x2 L xn ,从而 达到降维的目的,而信息的损失却不多。
i
1 2 i i min w + C ∑ (ζ + + ζ − ) 2 i
2
m
受限于
y − ( w x + b) ≤ ε + ζ
i T i
i + i −
( w x + b) − y ≤ ε + ζ
T i i
和我们做分类的方法一样,建立拉格朗日函 数,然后取它的对偶问题(这里也可以使用 核函数),与分类一样,我们也会得到一些 支持向量,而回归线将用它们表示.
总方差中属于主成分 zi 的比例为
λi
∑λ
j =1
k
j
称为主成分 zi 的贡献率。 第一主成分 z1的贡献率最大,表明它解释原始变量 x1 , x2 ,L xn 的能力最强,而 z1 , z2 L zk 的解释能力依次递减。 主成分分析的目的就是为了减少变量的个数,因而一般是不 会使用所有 主成分的,忽略一些带有较小方差的主成分将 不会给总方差带来大的影响。
同时我们还得到
T T w1 ∑ w1 = αw1 w1 = α
为了使方差最大,选择具有最大特征值的特征向量 , 因此,第一个主成分 w1 是输入样本的协方差阵的 具有最大特征值对应的特征向量
主成分分析法

四、主成份分析法旳环节
1)数据归一化处理:数据原则化(Z) 2)Βιβλιοθήκη 算有关系数矩阵R: 3)计算特征值;
特征值越大阐明主要程度越大。
4)计算主成份贡献率及方差旳合计贡献率; 5)计算主成份载荷与特征向量:
主成份旳负荷值大小反应了主成份因子对可测变量旳影响程 度;载荷值越大阐明此变量对主成份旳解释越多,及贡献越大。
• 因子分析 优点:第一它不是对原有变量旳取舍,而是根据原始变 量旳信息进行重新组合,找出影响变量旳共同因子,化简 数据;第二,它经过旋转使得因子变量更具有可解释性, 命名清楚性高。 缺陷 :在计算因子得分时,采用旳是最小二乘法,此法 有时可能会失效。
总之,主成份分析是因子分析旳一种特例。
谢 谢 观 看!
旋转后旳主成份因子载荷矩阵
景区满意度旋转前后成份矩阵图对比
5、碎石图分析
选用主成份旳个数,急转处是拟定主成份旳个数处。
景区满意度碎石图
八、与因子分析法旳区别
1、基本概念
➢ 主成份分析就是将多项指标转化为少数几项综合 指标,用综合指标来解释多变量旳方差- 协方差构 造。综合指标即为主成份。所得出旳少数几种主 成份,要尽量多地保存原始变量旳信息,且彼此 不有关。
注意:进行主成份旳变量之间必须要有有关性, 经过分析后变量之间独立。
二、主成份分析法基本原理
主成份分析就是设法将原来众多具有一定有关性 旳变量(如p个变量),重新组合成一组新旳相互无 关旳综合变量来替代原来变量。怎么处理?
一般数学上旳处理就是将原来p个变量作线性组合 作为新旳综合变量。怎样选择?
假如将选用旳第一种线性组合即第一种综合变量 记为F1,自然希望F1尽量多旳反应原来变量旳信 息。怎样反应?
主成分分析法例子

x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
▲贡献率:
i
p
k
k 1
(i 1,2,, p)
▲合计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取合计贡献率达85—95%旳特征值 1, 2 ,, m
所相应旳第一、第二、…、第m(m≤p)个主成份。
④各主成份旳得分
l11 l12 l1p x1
Z
l21
l22
l2
p
x2
二主成份z2代表了人均资源量。
③第三主成份z3,与x8呈显出旳正有关程度 最高,其次是x6,而与x7呈负有关,所以能 够以为第三主成份在一定程度上代表了农业 经济构造。
显然,用三个主成份z1、z2、z3替代原来9个变量(x1, x2,…,x9),描述农业生态经济系统,能够使问题更进
一步简化、明了。
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析
起源及发展
主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。
原理
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统
计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
应用学科
主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。
评价步骤
1)对原始数据进行标准化处理
假设进行主成分分析的指标变量有m个:,,…,,共有n个评价对象,第i个评价对象的第j个指标的取值为。
将各指标值转换成标准化指标,有
,(i =1,2,…,n ; j =1,2,…,m)
其中, , ,即为第j个指标的样本均值和样本标准差。
对应地,称
,(j =1,2,…,m)
为标准化指标变量。
2)计算相关系数矩阵R
相关系数矩阵, 有
, (i,j =1,2,…,m)
式中,=,是第i个指标与第j个指标的相关系数。
3)计算特征值和特征向量
计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量:
︙
式中是第1主成分,是第2主成分,…,是第m 主成分。
4)选择个主成分,计算综合评价值
① 计算特征值的信息贡献率和累积贡献率。
称
为主成分的信息贡献率,同时,有
为主成分的累积贡献率。
当接近于1(= 0.85,0.90,0.95)时,则选择前p个指标变量作为p个主成分,代替原来m个指标变量,从而可对p个主成分进行综合分析。
② 计算综合得分:
其中为第j个主成分的信息贡献率,根据综合得分值就可进行评价。
主成分分析案例
1. 问题提出
下表给出了我国1984年-2000年宏观投资的一些数据,试利用主成分分析对投资效益进行分析和排序。
年份投资效
果系数(无
时滞)
投资效
果系数(时
滞一年)
全社会
固定资产
交付使用
率
建设项
目投产率
基建房
屋竣工率
1984 0.710.490.410.510.46
1985 0.400.490.440.570.50
1986 0.550.560.480.530.49
1987 0.620.930.380.530.47
1988 0.450.420.410.540.47
1989 0.360.370.460.540.48
1990 0.550.680.420.540.46
1991 0.620.900.380.560.46
1992 0.610.990.330.570.43
1993 0.710.930.350.660.44
1994 0.590.690.360.570.48
1995 0.410.470.400.540.48
1996 0.260.290.430.570.48
1997 0.140.160.430.550.47
1998 0.120.130.450.590.54
1999 0.220.250.440.580.52
2000 0.710.490.410.510.46s
2. 进行主成分分析
主成分分析结果如下:
序号特征根贡献率累计贡献率
1 3.1343 62.6866 62.6866
2 1.168
3 23.3670 86.0536
3 0.3502 7.0036 93.0572
4 0.2258 4.5162 97.5734
5 0.1213 2.426
6 100
3. 进行综合评价
选取前4个主成分进行分析。
彼岸准话变量的前4个主成分对应的特征向量如下:
1 0.4905 -0.2934 0.5109 0.1896 -0.6134
2 0.5254 0.0490 0.4337 -0.1217 0.7202
3 -0.4871 -0.2812 0.371
4 0.6888 0.2672
4 0.0671 0.8981 0.1477 0.3863 -0.1336
由此可得4个主成分分别为
以四个主成分的贡献率为权重,构建主成分综合评价模型:
把各年份四个主成分值代入上式,可以得到综合评价值及排序结果。
名次年份综合评价值
1 1993 2.4464
2 1992 1.9768
3 1991 1.1123
4 1994 0.8604
5 1987 0.8456
6 1990 0.2258
7 1984 0.0531
8 2000 0.0531
9 1995 -0.2534
10 1988 -0.2662
11 1985 -0.5292
12 1996 -0.7405
13 1986 -0.7789
14 1989 -0.9715
15 1997 -1.1476
16 1999 -1.2015
17 1998 -1.6848
由此可见:集中在1991-1994年间投资效益较好,集中在1997-1999年间投资效益较差,其余年份投资效益一般。
附录
gj= [0.71,0.49,0.41,0.51,0.46
0.40,0.49,0.44,0.57,0.50
0.55,0.56,0.48,0.53,0.49
0.62,0.93,0.38,0.53,0.47
0.45,0.42,0.41,0.54,0.47
0.36,0.37,0.46,0.54,0.48
0.55,0.68,0.42,0.54,0.46
0.62,0.90,0.38,0.56,0.46
0.61,0.99,0.33,0.57,0.43
0.71,0.93,0.35,0.66,0.44
0.59,0.69,0.36,0.57,0.48
0.41,0.47,0.40,0.54,0.48
0.26,0.29,0.43,0.57,0.48
0.14,0.16,0.43,0.55,0.47
0.12,0.13,0.45,0.59,0.54
0.22,0.25,0.44,0.58,0.52
0.71,0.49,0.41,0.51,0.46];
gj=zscore(gj);
r=corrcoef(gj);
[vec1,lamda,rate]=pcacov(r)
f=repmat(sign(sum(vec1)),size(vec1,1),1); vec2=vec1.*f
num=3;
df=gj*vec2(:,1:num);
tf=df*rate(1:num)/100;
[stf,ind]=sort(tf,'descend');
stf=stf',ind=ind'。