主成分分析
主成分分析

但是这种线性组合,如果丌加限制,则可以有很多,应 该如何去选取呢?
对a加以限制
对组合系数ai' = (a1i,a2i,…,api)作如下要求:
a a ... a
2 1i 2 2i
2 pi
1,
i 1, 2 ,..., p
即:ai为单位向量。 此外,
对F限制
1) Fi不Fj(i≠j, i, j = 1, …, p)互丌相关,即 协方差:Cov(Fi,Fj) = 0
2) F1是X1,X2,…,Xp的一切线性组合(系数满足上述要 求)中方差最大的,即
Var ( F1 ) max Var ( c i X i )
c ' c 1 i 1 p
其中c = (c1,c2,…,cp)' 3)F2是不F1丌相关的X1,X2,…,Xp一切线性组合中方差最 大的,…,Fp是不F1,F2,…,Fp-1都丌相关的X1,X2,… ,Xp的一切线性组合中方差最大的。 满足上述要求的综合指标向量F1,F2,…,Fp就是主成分。
i 1 k 1
达到足够大(一般在85%以上)为原则。
3.5 计算主成分得分
计算n个样品在m个主成分上的得分:
Fi a1i X 1 a 2 i X 2 ... a pi X p
i = 1,2,…,m
主成分分析程序代码
例 输出原始数据矩阵x x=[7.47,1.73,7.20,0.13,0.40,1.33,1.07,36.05;6.67,1.67,18.00,0.67,4.67,19. 00,5.50,26.00;3.32,2.48,36.43,2.17,7.15,22.99,11.95,60.95;3.00,2.29,19.0 2,1.62,6.90,3.57,18.50,49.14;1.67,3.08,48.98,3.69,29.66,31.50,65.53,272. 23;1.96,3.23,14.44,1.64,18.02,33.12,33.10,68.73;1.25,3.69,42.00,4.25,22. 22,19.94,53.50,70.00;1.47,9.87,49.15,3.48,4.11,22.37,19.92,67.10;2.02,0. 97,16.99,12.29,18.00,17.36,3.66,16.59;2.41,1.56,2.81,15.79,3.42,21.61,2. 44,24.26;1.00,2.15,40.16,14.27,5.74,53.90,9.24,27.90;1.70,0.77,3.13,5.00, 6.32,11.48,10.23,30.77;0.97,0.12,2.39,21.16,8.08,16.21,41.26,18.84;2.86, 3.29,29.70,1.91,17.04,41.90,12.05,31.90;1.41,5.58,44.18,6.51,10.88,31.98 ,12.92,31.69;1.02,0.86,13.08,1.59,11.15,21.91,26.67,22.28;0.84,0.24,2.16, 21.14,3.56,24.94,18.73,25.61;1.00,0.23,6.11,13.95,4.59,17.19,26.95,18.01 ;0.74,1.39,14.21,20.55,4.29,15.54,54.11,38.96;0.49,0.83,9.03,13.69,1.39,2 4.35,59.15,49.86;1.20,0.23,2.01,20.99,1.06,25.23,23.84,52.05;1.38,0.31,0. 71,5.27,0.98,3.97,68.88,33.79;1.79,0.63,8.00,4.67,4.58,6.92,65.92,61.50;1. 53,2.84,17.27,3.06,18.51,11.59,19.65,49.50;0.78,2.33,33.11,2.78,18.17,7. 28,75.46,51.56;3.83,1.00,53.83,3.53,3.50,0.17,52.67,111.67;2.50,2.67,49. 88,3.14,3.83,8.33,48.33,43.33;1.48,4.32,27.61,1.68,47.29,1.81,69.42,443. 10]
主成分分析

一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。
2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。
主成分分析

什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
主成分分析报告

主成分分析报告在当今的数据驱动的世界中,我们经常面临着处理大量复杂数据的挑战。
如何从这些海量的数据中提取有价值的信息,简化数据结构,发现潜在的模式和趋势,成为了数据分析领域的重要课题。
主成分分析(Principal Component Analysis,简称 PCA)作为一种强大的数据分析工具,为我们提供了一种有效的解决方案。
主成分分析是一种多元统计分析方法,其主要目的是通过对原始变量的线性组合,构建一组新的不相关的综合变量,即主成分。
这些主成分能够尽可能多地保留原始数据的信息,同时实现数据的降维。
让我们先来了解一下主成分分析的基本原理。
假设我们有一组观测数据,每个观测包含多个变量。
主成分分析的核心思想是找到一组新的坐标轴,使得数据在这些坐标轴上的投影具有最大的方差。
第一个主成分就是数据在方差最大方向上的投影,第二个主成分则是在与第一个主成分正交的方向上,具有次大方差的投影,以此类推。
为什么要进行主成分分析呢?首先,它能够帮助我们简化数据结构。
当我们面对众多相关的变量时,通过主成分分析可以将其归结为少数几个综合变量,从而减少数据的复杂性,便于后续的分析和处理。
其次,主成分分析可以去除数据中的噪声和冗余信息,突出数据的主要特征,有助于发现数据中的隐藏模式和关系。
此外,它还可以用于数据压缩和可视化,使得我们能够更直观地理解数据。
在实际应用中,主成分分析有着广泛的用途。
在图像处理领域,它可以用于图像压缩和特征提取,减少图像数据的存储空间,同时保留图像的主要特征。
在金融领域,主成分分析可以用于构建投资组合,通过对多个金融资产的分析,找出主要的影响因素,从而优化投资组合。
在生物学研究中,主成分分析可以用于分析基因表达数据,发现不同样本之间的差异和相似性。
接下来,我们来看看如何进行主成分分析。
首先,需要对原始数据进行标准化处理,以消除量纲的影响。
然后,计算数据的协方差矩阵或相关矩阵。
接着,通过求解特征值和特征向量,确定主成分的方向和权重。
主成分分析

Extraction Method: Principal Component Analysis. Component Scores.
主成分系数矩阵,从而得出各主成分的表达式, 主成分系数矩阵,从而得出各主成分的表达式,注意在表达 式中各变量已经不是原始变量,而是标准化变量。 式中各变量已经不是原始变量,而是标准化 身高(X1,cm)、头围(X2,cm)、 体重(X3,g)的数据。
实验报告
写出X1, , 的相关矩阵 的相关矩阵。 写出 ,X2,X3的相关矩阵。 写出KMO与球形检验的结果(P值), 与球形检验的结果( 值 写出 与球形检验的结果 并做出判断, 并做出判断,该数据是否适合主成分分 析。 写出3个主成分的贡献率 个主成分的贡献率。 写出 个主成分的贡献率。 写出3个主成分关于 个主成分关于X1, , 的标准 写出 个主成分关于 ,X2,X3的标准 化的数值的线性组合。 化的数值的线性组合。
Rotation子对话框:用于因子分析。 子对话框:用于因子分析。 子对话框 Score子对话框 子对话框
选择是否将因子得分存入文件,以及具体的得分计算方法。 (1)Save as Variables:将计算出的因子得分作为新变量 加入数据文件,注意此处加入的是经过标准化的因子得分。 (2)Method单选框组:用于选择计算因子得分用的方法, 使用默认的回归法即可。 (3)Display factor score coefficient maxtrix:很重要。显 示因子得分系数阵,通过该系数阵就可以将所有公因子表示 为各个变量的线性组合,也就是我们所需要的主成分分析的 结果,系统同时会给出因子得分的协方差阵。
主 成 分 分 析
主成分分析
每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量 的数据;各个学校的研究、教学等各种变量的数 据等等。 这些数据的共同特点是变量很多,在如此多的变 量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 主成分分析(principal component analysis) 就是把变量维数降低以便于描述、理解和分析的 方法。
主成分分析的基本原理

主成分分析的基本原理主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维技术,用于在数据集中找到最具代表性的特征。
它通过线性变换将原始数据投影到一个新的坐标系中,使得新坐标系下的特征具有最大的方差。
本文将介绍主成分分析的基本原理及其应用。
一、基本原理主成分分析的目标是找到能够最大化数据方差的投影方向。
设有一个包含n个样本的m维数据集X,其中X={x1,x2,…,xn},每个样本包含m个特征。
首先对数据进行中心化处理,即将每个维度的特征减去该维度在整个数据集上的均值,得到新的数据集X'={x'1,x'2,…,x'n}。
通过求解数据集X'的协方差矩阵C,可得到该矩阵的特征向量和特征值。
特征向量表示了数据在各个主成分上的投影方向,特征值表示了数据在该方向上的方差。
为了实现降维,需要选择前k个最大特征值对应的特征向量作为新的投影方向。
这些特征向量构成了数据集在新坐标系上的主成分,并且它们是两两正交的。
将原始数据集X投影到这k个主成分上,即可得到降维后的数据集Y={y1,y2,…,yn}。
其中,每个样本yi={yi1,yi2,…,yik},表示样本在新坐标系上的投影结果。
二、应用场景主成分分析在数据分析和模式识别中有广泛的应用。
以下是几个常见的应用场景:1. 数据可视化主成分分析可以将高维数据降低到二维或三维空间,使得数据可以被可视化展示。
通过可视化,可以更好地理解数据之间的关系,发现隐藏在数据中的模式和规律。
2. 特征选择在机器学习和数据挖掘中,特征选择是一个重要的任务。
通过主成分分析,可以选择最具代表性的特征,减少特征的维度,并保留数据中的关键信息。
这有助于提高模型的性能和减少过拟合的风险。
3. 去除冗余当数据集中存在冗余特征时,主成分分析可以帮助我们发现这些特征,并将其去除。
剩下的主成分可以更好地表示数据集,减少数据的冗余信息,提高数据的效率和精确性。
主成分分析

1 主成分分析定义在许多实际问题中,我们经常用多个变量来刻画某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关。
主成分分析正是满足上述要求的一种处理多变量问题的方法。
主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
又称主分量分析。
2 主成分分析基本思想主成分分析是考察多个变量间相关性的一种多元统计方法。
它是研究如何通过少数几个主分量来解释多个变量间的内部结构。
也就是说,从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
主成分分析的应用目的可以被简单归结为两句话:数据的压缩、数据的解释。
它常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释,从而更加深刻的揭示事物的内在规律。
但是在实际应用中,主成分分析更多的只是一种达到目的的中间手段,而并非目的本身,它往往会被作为许多大型研究的中间步骤,在对数据进行浓缩后继续采用其他多元统计方法以解决实际问题。
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
主成分分析

2.主成分的总方差 由于
tr ( A ) = tr ( T′ΣT ) = tr ( ΣTT′ ) = tr ( Σ )
故
∑ λ = ∑σ
i =1 i i =1
p
p
ii
或
∑V ( y ) = ∑V ( x )
i =1 i i =1 i
p
p
总方差中属于第 i 主成分 yi(或被 yi 所解释)的比例 为
ˆ 三、从R 出发求主成分
ˆ ˆ* ˆ* ˆ R 的 p 个特征值为λ1* ≥ λ2 ≥ L ≥ λ p, 设样本相关阵 ˆ* ˆ 2 ˆ t1 , t * ,L , t *p 为相应的正交单位特征向量,则第 i 样本
主成分
ˆ ˆi yi* = t*x* , i = 1, 2,L , p
其中 x* 是各分量经(样本)标准化了的向量,即
S
主成分得分 在实际应用中,我们常常让 x j 减去 x ,使样本数据 中心化。这不影响样本协差阵 S ,在前面的论述中 惟一需要变化的是,将第 i 主成分改写成中心化的 形式,即
ˆ ˆi yi = t′ ( x − x ) , i = 1, 2,L , p 若将各观测值 x j 代替上式中的观测值向量 x ,则第i
现比较本例中从R 出发和例7.2.2中从 Σ 出发的主成 分计算结果。从R 出发的 y1* 的贡献率0.705明显小于 从 Σ 出发的 y1的贡献率0.938,事实上,原始变量方 差之间的差异越大,这一点也就倾向于越明显, * * * (7.2.15)式有助于我们理解之。 y1 , y2 , y3 可用标准 化前的原变量表达如下: x3 − µ3 x1 − µ1 x2 − µ2 *
主成分的值
ˆi ˆ y ji = t′ ( x j − x ) , i = 1, 2,L , p
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引言:
主成分分析也称主分量分析,是由霍特林于1933年首先提出的。
主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。
通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。
这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使得问题得到简化,提高分析效率。
本文用主成分分析的方法对某市14家企业的经济效益进行分析。
[1]
在处理涉及多个指标问题的时候,为了提高分析的效率可以不直接对p个指标构成的p维随机向量x=(x1,x2,x3,……,x p)进行分析,而是先对向量x进行
线性变换,形成少数几个新的综合变量,使得个综合变量之间相互独立且能解释原始变量尽可能多的信息,这样在意损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。
主成分的基本思想就是在保留原始变量尽可能多的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。
而这里对于随机变量x1,x2,x3,……,x p而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间
的相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵我们所说的保留原始变量尽可能多的信息,也就是指生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。
因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。
一般来说从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的本文我们用从原始变量的相关矩阵出发求得的主成分进行分析。
[5]
一、材料与方法
1.1数据材料
本文采用多元统计学方法,选取14家企业作为样本收集每家企业的8个不同的利润指标,利用spss统计软件做主成分分析,给出载荷阵,并通过载荷阵给出主成分系数表,写出主成分表达式以此给出14个企业的得分值,最后根据主成分构造一个综合性评价指标,对14个企业进行综合排名。
[2]
二、分析过程
2.1利用系数相关矩阵分析是否能进行主成分分析;
表2变量的系数相关矩阵
主成分分析方法适用于变量之间存在较强相关性的数据。
上表为各个指标的相关系数矩阵,由表中数据可以看出各个变量之间存在较强的相关性,因此运用主成分分析可以起到很好的降维作用。
2.2从相关阵出发求主成分,要求根据累计贡献率达到85%左右确定主成分的个数;
表3 特征值、贡献率的结果表
上表是特征值、贡献率的结果表。
该表显示了各主成分解释原始变量总方差的情况,由表中数据可以看出前两个成分的累积贡献率是89.734%大于85%,因此保留2个主成分最合适。
2.3给出载荷阵
通过载荷阵给出主成分系数表,据之写出标准化变量的主成分表达式,并根据主成分表达式给出14个企业的主成分得分值;
表4 载荷阵
对spss的因子分析模块运行结果输出的表4的第i列的每个元素分别除以第i 个特征根的平方根λi,这样得到主成分分析的第i个主成分的系数,结果如下表:
表5 主成分系数
由上表得到前两个主成分y
1,y
2
的线性组合为:
y
1
=0.321317694x1*+0.295079688x2*+0.389133815x3*+0.3846934920.+ 0.379445837 x5*+0.370968855 x6*+0.320106966 x7*+0.355629555 x8*
y
2
=0.415367007x1*+0.597579892x2*-0.230215204x3*-0.279197163x4*
-0.316423451 x5*-0.371283244 x6*+0.278217524 x7*+0.156742267 x8*
其中x1* ,x2*,x3*,x4*,x5*,x6*,x7*,x8*表示对原始变量标准化后
的变量。
[3]
主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定,由因子载荷矩阵可以看出,第一主成分的线性组合中除了x2外,其余变量的系数相当,所以第一主成分可以看成x1,x3,x4,x5,x6,x7,x8的综合反映,它标志着企业的资金和人力的利用水平。
第二主成分中只有x2系数较大,因此它的经济意义由x2确定。
为了分析各企业在主成分所反映的经济意义方面的情况,将原始数据标准化,代入主成分表达式计算各个企业的主成分得分,得到下表:
表6 主成分得分
2.4对企业的综合经济效益排名。
关于用样本主成分得分进行排序的问题我们常用的方法是利用主成分y 1 ,y 2 做线性组合,并以每个成分的贡献率αk 作为权系数构造一个综合评价函数:y 3=α 1 y 1 +α2 y 2根据计算出的y 3的值的大小进行排序或分类划级。
利用SPSS 计算进行排序并导入Excel 得到下表:
表7 综合评价排序表
由表中数据可以看出有许多企业得分是负数,但这并不表明企业的经济效益为负,这里的正负表示该企业与平均水平的位置关系,企业的经济效益的平均水平算作零点,这是我们在整个过程中将数据标准化的结果。
从表7中可看出第9个企业的综合经济效益最好排在第一名,第12个企业综合经济效益则最差。
[4]
三.讨论
本文用spss 软件分析了企业的综合效益,利用主成分分析的要求对各企业的各项指标进行分析最终对各企业的综合效益进行排名,在最后的综合排名中本文用了最常用的一种排名计算方法且此方法在很多专业文献中都有介绍,也可采用另外一种方法,只利用第一成分作评价指数,但此方法有很大的局限性,只有在主成分系数全为正数的时候,也就是要求所有评价指标变量都是正相关的时候,第一主成分来进行排序。
假如系数中有正有负或近似为零,说明第一主成分是无序指数,不能用来作为排序评价指数。
主成分分析不要求数据来自于正态总体,实际上主成分分析就是对矩阵结构的分析其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。
对于多元随机变量而言,其相关矩阵是非负定的,因此我们可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到所见数据维数的目的。
主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理我们都可尝试用主成分分析,不用花太多精力考虑其分布问题。
另外,主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。
一般认为当原始数据大部分变量间的相
关系数都小于0.3时运用主成分分析的效果不明显。
四、总结
4.1 本文利用主成分分析的方法对各企业的综合效益进行排名,主成分分析方法是一种降维的方法,使得数据更加标准化,从而使各企业的排名更加准确。
4.2在我们使用主成分分析方法分析变量时我们应充分考虑到该方法的利弊,我们首先要对原始数据变量进行分析,分析其运用主成分分析法的可行性,我们应当对于不同的数据运用其最合适的分析方法以使得分析结果更加准确。
参考文献:
[1] 张尧庭,方开泰。
多元统计分析引论. 北京:科学出版社 1982 322-328
[2] 方开泰. 实用多元分析上海:华东师范大学出版社,1989
[3] 王惠文。
偏最小二乘回归方法及应用。
北京:国防工业出版社,1999 168
[4] 何晓群,刘文卿.应用回归分析(第三版).北京:中国人民大学出版社 2011
220-226
[5] 何晓群. 多元统计分析(第三版)。
北京:中国人民大学出版社 2011
114—141。