主成分分析

主成分分析
主成分分析

引言:

主成分分析也称主分量分析,是由霍特林于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使得问题得到简化,提高分析效率。本文用主成分分析的方法对某市14家企业的经济效益进行分析。[1]

在处理涉及多个指标问题的时候,为了提高分析的效率可以不直接对p个指标构成的p维随机向量x=(x1,x2,x3,……,x p)进行分析,而是先对向量x进行

线性变换,形成少数几个新的综合变量,使得个综合变量之间相互独立且能解释原始变量尽可能多的信息,这样在意损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。

主成分的基本思想就是在保留原始变量尽可能多的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量x1,x2,x3,……,x p而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间

的相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵我们所说的保留原始变量尽可能多的信息,也就是指生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般来说从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的本文我们用从原始变量的相关矩阵出发求得的主成分进行分析。[5]

一、材料与方法

1.1数据材料

本文采用多元统计学方法,选取14家企业作为样本收集每家企业的8个不同的利润指标,利用spss统计软件做主成分分析,给出载荷阵,并通过载荷阵给出主成分系数表,写出主成分表达式以此给出14个企业的得分值,最后根据主成分构造一个综合性评价指标,对14个企业进行综合排名。[2]

二、分析过程

2.1利用系数相关矩阵分析是否能进行主成分分析;

表2变量的系数相关矩阵

主成分分析方法适用于变量之间存在较强相关性的数据。上表为各个指标的相关系数矩阵,由表中数据可以看出各个变量之间存在较强的相关性,因此运用主成分分析可以起到很好的降维作用。

2.2从相关阵出发求主成分,要求根据累计贡献率达到85%左右确定主成分的个数;

表3 特征值、贡献率的结果表

上表是特征值、贡献率的结果表。该表显示了各主成分解释原始变量总方差的情况,由表中数据可以看出前两个成分的累积贡献率是89.734%大于85%,因此保留2个主成分最合适。

2.3给出载荷阵

通过载荷阵给出主成分系数表,据之写出标准化变量的主成分表达式,并根据主成分表达式给出14个企业的主成分得分值;

表4 载荷阵

对spss的因子分析模块运行结果输出的表4的第i列的每个元素分别除以第i 个特征根的平方根λi,这样得到主成分分析的第i个主成分的系数,结果如下表:

表5 主成分系数

由上表得到前两个主成分y

1,y

2

的线性组合为:

y

1

=0.321317694x1*+0.295079688x2*+0.389133815x3*+0.3846934920.+ 0.379445837 x5*+0.370968855 x6*+0.320106966 x7*+0.355629555 x8*

y

2

=0.415367007x1*+0.597579892x2*-0.230215204x3*-0.279197163x4*

-0.316423451 x5*-0.371283244 x6*+0.278217524 x7*+0.156742267 x8*

其中x1* ,x2*,x3*,x4*,x5*,x6*,x7*,x8*表示对原始变量标准化后

的变量。[3]

主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定,由因子载荷矩阵可以看出,第一主成分的线性组合中除了x2外,其余变量的系数相当,所以第一主成分可以看成x1,x3,x4,x5,x6,x7,x8的综合反映,它标志着企业的资金和人力的利用水平。第二主成分中只有x2系数较大,因此它的经济意义由x2确定。

为了分析各企业在主成分所反映的经济意义方面的情况,将原始数据标准化,代入主成分表达式计算各个企业的主成分得分,得到下表:

表6 主成分得分

2.4对企业的综合经济效益排名。

关于用样本主成分得分进行排序的问题我们常用的方法是利用主成分y 1 ,y 2 做线性组合,并以每个成分的贡献率αk 作为权系数构造一个综合评价函数:y 3=α 1 y 1 +α2 y 2根据计算出的y 3的值的大小进行排序或分类划级。利用SPSS 计算进行排序并导入Excel 得到下表:

表7 综合评价排序表

由表中数据可以看出有许多企业得分是负数,但这并不表明企业的经济效益为负,这里的正负表示该企业与平均水平的位置关系,企业的经济效益的平均水平算作零点,这是我们在整个过程中将数据标准化的结果。

从表7中可看出第9个企业的综合经济效益最好排在第一名,第12个企业综合经济效益则最差。[4]

三.讨论

本文用spss 软件分析了企业的综合效益,利用主成分分析的要求对各企业的各项指标进行分析最终对各企业的综合效益进行排名,在最后的综合排名中本文用了最常用的一种排名计算方法且此方法在很多专业文献中都有介绍,也可采用另外一种方法,只利用第一成分作评价指数,但此方法有很大的局限性,只有在主成分系数全为正数的时候,也就是要求所有评价指标变量都是正相关的时候,第一主成分来进行排序。假如系数中有正有负或近似为零,说明第一主成分是无序指数,不能用来作为排序评价指数。

主成分分析不要求数据来自于正态总体,实际上主成分分析就是对矩阵结构的分析其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。对于多元随机变量而言,其相关矩阵是非负定的,因此我们可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到所见数据维数的目的。主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理我们都可尝试用主成分分析,不用花太多精力考虑其分布问题。

另外,主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量间的相

关系数都小于0.3时运用主成分分析的效果不明显。

四、总结

4.1 本文利用主成分分析的方法对各企业的综合效益进行排名,主成分分析方法是一种降维的方法,使得数据更加标准化,从而使各企业的排名更加准确。4.2在我们使用主成分分析方法分析变量时我们应充分考虑到该方法的利弊,我们首先要对原始数据变量进行分析,分析其运用主成分分析法的可行性,我们应当对于不同的数据运用其最合适的分析方法以使得分析结果更加准确。

参考文献:

[1] 张尧庭,方开泰。多元统计分析引论. 北京:科学出版社 1982 322-328

[2] 方开泰. 实用多元分析上海:华东师范大学出版社,1989

[3] 王惠文。偏最小二乘回归方法及应用。北京:国防工业出版社,1999 168

[4] 何晓群,刘文卿.应用回归分析(第三版).北京:中国人民大学出版社 2011

220-226

[5] 何晓群. 多元统计分析(第三版)。北京:中国人民大学出版社 2011

114—141

主成分分析法总结

主成分分析法总结 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? 一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵:Σ=(s ij )p ?p ,其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ,j=1,2,…,p (2)求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单 位特征向量 i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:

主成分分析法建模课后习题

主成分分析法建模课后习题 1、用主成分分析方法探讨城市工业主体结构。表1是某市工业部门13个行业8项指标的数据 表1 某市工业部门13个行业8项指标的数据 年末固定资产净值(万元)职工人数 (人) 工业总产 值 (万元) 全员劳动 产率 (元/人 年) 百元固定 原资产值 实现产值 (元) 资金利税 率 (%) 标准燃料 消费量 (吨) 能源利用 效果 (万元/ 吨) 1(冶金) 90342 52455 101091 19272 82.000 16.100 197435 0.172 2(电力) 4903 1973 2035 10313 34.200 7.100 592077 0.003 3(煤炭) 6735 21139 3767 1780 36.100 8.200 726396 0.003 4(化学) 49454 36241 81557 22504 98.100 25.900 348226 0.985 5(机械) 139190 203505 215898 10609 93.200 12.600 139572 0.628 6(建材) 12215 16219 10351 6382 62.500 8.700 145818 0.066 7(森工) 2372 6572 8103 12329 184.400 22.200 20921 0.152 8(食品) 11062 23078 54935 23804 370.400 41.000 65486 0.263 9(纺织) 17111 23907 52108 21796 221.500 21.500 63806 0.276 10(缝纫) 1206 3930 6126 15586 330.400 29.500 1840 0.437 11(皮革) 2150 5704 6200 10870 184.200 12.000 8913 0.274 12(造纸) 5251 6155 10383 16875 146.400 27.500 78796 0.151 13(文教 艺术用 品) 14341 13203 19396 14691 94.600 17.800 6354 1.574 试用主成分分析方法确定8项指标的样本主成分(综合变量);若要求损失信息不超过15%,应取几个主成分 2、某市为了全面分析机械类各企业的经济效益,选择了8个不同 的利润指标,14家企业关于这8个指标的统计数据如表3所示。 试进行主成分分析,并对所选取的主成分作出解释。 表2 14家企业的利润指标的统计数据 变量企业号净产值 利润率 固定资 产利润 率 总产值 利润率 销售收 入利润 率 产品成 本利润 率 物耗利 润率 人均利 润率 流动资 金利润 率 1 40.4 24.7 7. 2 6.1 8. 3 8.7 2.442 20.0

SPSS主成分分析操作步骤,详细的很啊^_^==

SPSS主成分分析操作步骤,详细的很啊^_^ SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。 图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表 主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。 主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformàCompute Variable”,在Compute Variable对话框中输入“A1=B1/SQR(7.22)” [注:第二主成分SQR后的括号中填1.235],即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名]: F 1=0.353ZX 1 +0.042ZX 2 -0.041ZX 3 +0.364ZX 4 +0.367ZX 5 +0.366ZX 6 +0.352ZX 7 +0.364ZX 8+0.298ZX 9 +0.355ZX 10

主成分分析原理及详解

第14章主成分分析 1 概述 1.1 基本概念 1.1.1 定义 主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。 1.1.2 举例 为什么叫主成分,下面通过一个例子来说明。 假定有N 个儿童的两个指标x1与x2,如身高和体重。x1与x2有显著的相关性。当N较大时,N观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体x1与x2的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1,在此轴的原点取一条垂直于Z1的直线定为新坐标轴的Z2,于是这N个点在新坐标轴上的坐标位置发生了改变;同时这N个点的性质也发生了改变,他们之间的关系不再是相关的。很明显,在新坐标上Z1与N个点分布的长轴一致,反映了N个观测量个体间离差的大部分信息,若Z1反映了原始数据信息的80%,则Z2只反映总信息的20%。这样新指标Z1称为原指标的第 358

一主成分,Z2称为原指标的第二主成分。所以如果要研究N个对象的变异,可以只考虑Z1这一个指标代替原来的两个指标(x1与x2),这种做法符合PCA提出的基本要求,即减少指标的个数,又不损失或少损失原来指标提供的信息。 1.1.3 函数公式 通过数学的方法可以求出Z1和Z2与x1与x2之间的关系。 Z1=l11x1+ l12x2 Z2=l21x1+ l22x2 即新指标Z1和Z2是原指标x1与x2的线性函数。在统计学上称为第一主成分和第二主成分。 若原变量有3个,且彼此相关,则N个对象在3维空间成椭圆球分布,见图14-1。 通过旋转和改变原点(坐标0点),就可以得到第一主成分、第二主成分和第三主成分。如果第二主成分和第三主成分与第一主成高度相关,或者说第二主成分和第三主成分相对于第一主成分来说变异很小,即N个对象在新坐标的三维空间分布成一长杆状时,则只需用一个综合指标便能反映原始数据中3个变量的基本特征。 359

主成分分析

确定权重方法之一:主成分分析 什么是权重呢?所谓权重,是指某指标在整体评价中的相对重要程度。权重越大则该指标的重要性越高,对整体的影响就越高。 权重要满足两个条件:每个指标的权重在0、1之间。所有指标的权重和为1。 权重的确定方法有很多,这里我们学习用主成分分析确定权重。 一、主成分基本思想: 图1 主成分基本思想的问与答

二、利用主成分确定权重 如何利用主成分分析法确定指标权重呢?现举例说明。 假设我们对反映某卖场表现的4项指标(实体店、信誉、企业形象、服务)进行消费者满意度调研。调研采取4级量表,分值越大,满意度越高。现回收有效问卷2000份,并用SPSS 录入了问卷数据。部分数据见下图(详细数据见我的微盘,下载地址为 https://www.360docs.net/doc/3d6710604.html,/s/yR83T)。 图2 主成分确定权重示例数据(部分)

1、操作步骤: Step1:选择菜单:分析——降维——因子分析 Step2:将4项评价指标选入到变量框中 Step3:设置选项,具体设置如下: 2、输出结果分析 按照以上操作步骤,得到的主要输出结果为表1——表3,具体结果与分析如下:表1 KMO 和Bartlett 的检验

表1是对本例是否适合于主成分分析的检验。KMO的检验标准见图3。 图3 KMO检验标准 从图3可知,本例适合主成分分析的程度为…一般?,基本可以用主成分分析求权重。 表2 解释的总方差 从表2可知,前2个主成分对应的特征根>1,提取前2个主成分的累计方差贡献率达到94.513% ,超过80%。因此前2个主成分基本可以反映全部指标的信息,可以代替原来的4个指标(实体店、信誉、企业形象、服务)。

主成分分析练习题doc资料

主成分分析练习题

主成分分析 填空题 1.主成分分析是通过适当的变量替换,使新变量成为原变量的___________,并寻求_________的一种方法。 2.主成分分析的基本思想是______________。 3.主成分的协方差矩阵为_________矩阵。 4.主成分表达式的系数向量是_______________的特征向量。 5.原始变量协方差矩阵的特征根的统计含义是________________。 6.原始数据经过标准化处理,转化为均值为____ ,方差为____ 的标准值,且其________矩阵与相关系数矩阵相等。 7.因子载荷量的统计含义是_____________________________。 8.样本主成分的总方差等于_____________。 9.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为________________。 10.SPSS 中主成分分析采用______________命令过程。 计算题 1.设三个变量(x 1,x 2,x 3)的样本协方差矩阵为: 2 12 1002222222< <- ???? ????? ?r s r s r s s r s r s s 试求主成分及每个主成分的方差贡献率。 解特征方程:=∑-I λ0 2.在一项对杨树的性状的研究中,测定了20株杨树树叶,每个叶片测定了四个变量:叶 长(x 1),2/3处宽(x 2),1/3处宽(x 3),1/2处宽(x 4)。这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为: )7930.0,5513.0,2519.0,0612.0(007 .0)1624.0,5589.0,7733.0,2516.0(049.0)0824.0,2695.0,0984.0,9544.0(024.1)5814.0,5577.0,5735.0,1485.0(920.24 43 32 211--='=--='=-='=---='=U U U U λλλλ (1)写出四个主成分,计算它们的贡献率。 (2)计算四个变量在前两个主成分上的载荷,由因子载荷矩阵,你认为这两个主 成分应该如何解释?你能给它们分别起个名字吗? (3)根据原始数据和(1)中的结果,可以计算出20株杨树叶的第一、二主成分得 分,试以这两个主成分y 1和y 2为坐标,在(y 1,y 2)平面上按因子得分为坐标描出这20个样本点。 4.对纽约股票市场上的五种股票的周回升率x 1,x 2,x 3,x 4,x 5进行了主成分分析,其中x 1,x 2,x 3分别表示三个化学工业公司的股票回升率,x 4,x 5表示两个石油公司的股票回升率,主成分分析是从相关系数矩阵出发进行的,前两个特征根和对应的标准正交特征向量为:

spss进行主成分分析及得分分析

spss进行主成分分析及得分分析 1 将数据录入spss 1. 2 数据标准化:打开数据后选择分析→描述统计→描述,对数据进行标准化,选中将标准化得分另存为变量: 2.3 进行主成分分析:选择分析→降维→因子分析,

3.4设置描述性,抽取,得分和选项:

4.5 查看主成分分析和分析: 相关矩阵表明,各项指标之间具有强相关性。比如指标GDP总量与财政收入、固定资产投资总额、第二产业增加值、第三产业增加值、工业增加值的相关系数较大。这说明他们之间指标信息之间存在重叠,适合采用主成分分析法。(下表非完整呈现)

5.6 由Total Variance Explained(主成分特征根和贡献率)可知,特征根λ1=9.092,特征根λ2=1.150前两个主成分的累计方差贡献率达93.107%,即涵盖了大部分信息。这表明前两个主成分能够代表最初的11个指标来分析河南各个城市经济综合实力的发展水平,故提取前两个指标即可。主成分,分别记作F1、F2。 6.7

指标X1、X2、X3、X4、X5、X6、X7、X8、X9、X10在第一主成分上有较高载荷,相关性强。第一主成分集中反映了总体的经济总量。X11在第二主成分上有较高载荷,相关性强。第二主成分反映了人均的经济量水平。但是要注意: 这个主成分载荷矩阵并不是主成分的特征向量,也就是说并不是主成分1和主成分2的系数,主成分系数的求法是:各自主成分载荷向量除以各自主成分特征值的算术平方根。

7.8 成分得分系数矩阵(因子得分系数)列出了强两个特征根对应的特征向量,即各主要成分解析表达式中的标准化变量的系数向量。故各主要成分解析表达式分别为:F1=0.32ZX11+0.33ZX12+0.31ZX13+0.31ZX14+0.32ZX15+0.32ZX16+0.32ZX17+0.32ZX18+0. 32ZX19+0.21ZX110+0.15ZX111 F2=8.46ZX21+0.02ZX22-0.02ZX23-0.20ZX24-0.23Z25-0.04ZX26-0.15ZX27-0.02ZX28+0.10Z X29+0.47ZX210+0.78ZX211 8.9 主成分的得分是相应的因子得分乘以相应的方差的算术平方根。即:主成分1得分=因子1得分乘以9.092的算术平方根主成分2得分=因子2得分乘以1.150的算术平方根例如郑州:主成分因子=FAC1_1*9.092的算术平方根=3.59386*9.092的算术平方根=10.83,将各指标的标准化数据带入个主成分解析表达式中,分别计算出2个主成分得分(F1、F2),再以个主成分的贡献率为全书对主成分得分进行加权平均,即:H=(82.672*F1+10.497*F2)/93.124,求得主成分综合得分。

主成分案例分析

主成分案例分析 主成分分析案例 ---我国各地区普通高等教育发展水平综合评价 (一)案例教学目的 主成分分析试图在力保数据信息丢失最少的原则下,对多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。本案例运用主成分分析方法综合评价我国各地区普通高等教育的发展水平。通过本案例的教学,力图使学生加深对主成分分析的统计思想和实际意义的理解,明确主成分分析方法的适用环境,掌握主成分分析软件实现操作方法,提高学生思考、分析和解决实际问题的能力。 (二)案例研究背景 近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异。对我国各地区普通高等教育的发展水平进行综合评价,明确各地区的差异,有利于管理和决策部门从宏观上把握各地区普通高等教育的发展现状,更好的指导和规划高教事业的健康发展。 (三)案例研究过程 1、建立综合评价指标体系 高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相关方面。遵循选取评价指标的目的性和可比性原则,从高等教育的五个方面选取十项评价指标,具体如下:

2、数据资料 指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值见表1。其中:x为每百万人口高等院校数;x为每十万人口高等院校毕业生数;x123为每十万人口高等院校招生数;x为每十万人口高等院校在校生数;4 x 为每十万人口高等院校教职工数;x 为每十万人口高等院校专职56 教师数;x为高级职称占专职教师的比例;x为平均每所高等院校的78 在校生数;x为国家财政预算内普通高教经费占国内生产总值的比9 重;x为生均教育经费。 10 表1-1 我国各地区普通高等教育发展状况数据地区 x x x x x x x x x x 12345678910北京1 5.96 310 461 1557 931 319 44.36 2615 2.2 13631 上海2 3.39 234 308 1035 498 161 35.02 3052 0.9 12665 天津3 2.35 157 229 713 295 109 38.4 3031 0.86 9385 陕西4 1.35 81 111 364 150 58 30.45 2699 1.22 7881 辽宁5 1.5 88 128 421 144 58 34.3 2808 0.54 7733 吉林6 1.67 86 120 370 153 58 33.53 2215 0.76 7480 黑龙江7 1.17 63 93 296 117 44 35.22 2528 0.58 8570 湖北8 1.05 67 92 297 115 43 32.89

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

一组空气污染数据的主成分分析

一组空气污染数据的主成分分析 【说明】下面的多元统计分析练习题摘自R.A. Johnson等编写的《应用多元统计分析(第五版)》,原书为:Richard A. Johnson and Dean W. Wichern. Applied Multivariate Statistical Analysis(5th Ed). Pearson Education, Inc. 2003。我看的是中国统计出版社(China Statistics Press)2003年发行的影印本。 第一题为原书第1.6题,即第1章的第6题,第二题为原书第8.12题,即第8章的第12题。 第二题用的是第一题的数据。 1 习题 1.6. The data in Table 1.5 are 42 measurements on air-pollution variables recorded at 12:00 noon in the Los Angeles area on different days. (a)Plot the marginal dot diagrams for all the variables. (b)Construct the x, S n, and R arrays, and interpret the entries in R. TABLE 1.5 AIR-POLLUTION DATA Wind (x1)Solar radiation (x2)CO (x3)NO (x4)NO2 (x5)O3 (x6)HC (x7) 8 98 7 2 12 8 2 7 107 4 3 9 5 3 7 103 4 3 5 6 3 10 88 5 2 8 15 4 6 91 4 2 8 10 3 8 90 5 2 12 12 4 9 84 7 4 12 15 5 5 72 6 4 21 14 4 7 82 5 1 11 11 3 8 64 5 2 13 9 4 6 71 5 4 10 3 3 6 91 4 2 12 7 3 7 72 7 4 18 10 3 10 70 4 2 11 7 3 10 72 4 1 8 10 3 9 77 4 1 9 10 3 8 76 4 1 7 7 3 8 71 5 3 16 4 4 9 67 4 2 13 2 3 9 69 3 3 9 5 3

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求 0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择,这里介绍怎么进行数据的Z标准化。 所的结论: 标准化后的所有指标数据。 注意: SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。 factor过程对数据进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表;

【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框; 【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框; 【6】查看分析结果。 所做工作: a.查看KMO和Bartlett 的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析; Bartlett 球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。 所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 注意: 1.KMO(Kaiser-Meyer-Olkin) KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般; 0.6表示不太适合;0.5以下表示极不适合。 2.Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 Bartlett 球度检验的原假设为相关系数矩阵为单位矩阵,Sig值为0.001小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。 所做工作: b. 全部解释方差或者解释的总方差(Total Variance Explained)

主成分分析原理

主成分分析原理 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ?? ? ? ? ? ? ??=np n n p p x x x x x x x x x X 2 1 22221 11211 ()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1, 21=???? ?? ? ??= 主成分分析就是将 p 个观测变量综合成为p 个新的变量(综合变量),即 ?? ???? ?+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

主成分分析(SPSS)操作详细步骤

主成分分析在SPSS中的操作应用 SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。 图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表 主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。 主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformàCompute Variable”,在Compute Variable对话框中输入“A1=B1/SQR(7.22)” [注:第二主成分SQR后的括号中填1.235],即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名]: F1=0.353ZX1+0.042ZX2-0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX 8+0.298ZX9+0.355ZX10

R语言主成分分析的案例

R 语言主成分分析的案例
R 语言也介绍到案例篇了,也有不少同学反馈说还是不是特别明白一些基础的东西,希望能 够有一些比较浅显的可以操作的入门。其实这些之前 SPSS 实战案例都不少,老实说一旦用 上了开源工具就好像上瘾了,对于以前的 SAS、clementine 之类的可视化工具没有一点 感觉了。本质上还是觉得要装这个、装那个的比较麻烦,现在用 R 或者 python 直接简单 安装下,导入自己需要用到的包,活学活用一些命令函数就可以了。以后平台上集成 R、 python 的开发是趋势,包括现在 BAT 公司内部已经实现了。 今天就贴个盐泉水化学分析资料的主成分分析和因子分析通过 R 语言数据挖掘的小李 子: 有条件的同学最好自己安装下 R,操作一遍。 今有 20 个盐泉,盐泉的水化学特征系数值见下表.试对盐泉的水化学分析资料作主成分分 析和因子分析.(数据可以自己模拟一份)
其中 x1:矿化度(g/L);

x2:Br?103/Cl; x3:K?103/Σ 盐; x4:K?103/Cl; x5:Na/K; x6:Mg?102/Cl; x7:εNa/εCl.
1.数据准备
导入数据保存在对象 saltwell 中 >saltwell<-read.table("c:/saltwell.txt",header=T) >saltwell
2.数据分析

1 标准误、方差贡献率和累积贡献率
>arrests.pr<- prcomp(saltwell, scale = TRUE) >summary(arrests.pr,loadings=TRUE)
2 每个变量的标准误和变换矩阵
>prcomp(saltwell, scale = TRUE)
3 查看对象 arests.pr 中的内容
>> str(arrests.pr)

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么就是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)就是一种简化数据集的技术。它就是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这就是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但就是,这也不就是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量与增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正就是适应这一要求产生的,就是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果就是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取就是个重点与难点。如上所述,主成分分析法正就是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量就是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量就是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发与利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用与开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法就是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

相关文档
最新文档