运用偏相关分析和主成分回归分析法

SAS软件的在煤矿事故分析上的应用

――运用偏相关分析和主成分回归分析法摘要：为了研究我国煤矿各类事故之间的相互关系，收集引起煤矿各类事故的原因，运用sas软件的部分功能对我国煤矿事故数据进行了统计分析，其中运用偏相关分析和主成分回归分析法，分析分类事故死亡人数对总死亡人数的影响。根据主成分分析法推导出了一个回归方程，用偏相关分析和主成分回归分析的方法可以估算下一年份总死亡人数的参考值，从而重点做好各方面工作以最大减少事故发生。

关键词: 煤矿；事故类型；偏相关系数；主成分分析；回归分析

Abstract: In order to study the relationship between the various types of coal mine accidents in China, collecting caused by coal mine accidents of various kinds, some functions using sas software to China's coal mine accident data for statistical analysis, including the use of partial correlation analysis and principal component regression analysismethod, analysis classified the death toll of the total number of deaths. Derive a regression equation based on principal component analysis, the reference value of the partial correlation analysis and principal component regression analysis to estimate the total death toll of the next year, to focus on doing all aspects of work to the maximum to reduce the accident occurred.

Keywords: coal mine; types of accidents; partial correlation coefficient; principal component analysis; regression analysis

1 引言

煤炭工业作为我国的基础产业，在现在及未来的国民经济发展中都起着举足轻重的作用。从目前我国能源现状、经济发展水平和世界能源格局来看，相当长的时期内以煤为主的能源消费结构难以改变。但是近年来煤矿事故频发，煤矿事故已成为我国工矿企业中死亡人数最多的一类事故，给国家和人民群众的生命财产造成了巨大损失。因此，对煤矿事故进行统计分析，找出最主要的事故类型，研究各类事故之间的相互关系，由此提出有效的预防措施是非常必要的。为此，笔者运用主成分分析法和因子分析对搜集到的我国煤矿事故数据进行统计分析，主要分析了煤矿事故的主要类型以及各事故类型对事故发生的贡献率，以为制定相应的预防措施提供依据。

1.1数据来源

通过数据收集1990-2010，我国煤矿各类事故死亡人数统计如下表。

表1 1990-2010煤矿事故死亡人数（单位：人）

事故类型

年份

顶板瓦斯机电运输放炮水害火灾总数1990 2623 1823 162 813 171 477 153 **** **** 2513 1756 185 597 141 430 50 5672 1992 2447 1865 190 487 101 408 45 5543 1993 2213 2231 204 570 128 354 88 5788 1994 2130 3012 156 602 144 521 106 6671 1995 2013 3256 186 574 124 568 63 6784 1996 1923 3356 178 492 105 427 78 6559 1997 1789 3800 196 461 81 450 62 6839 1998 1823 3212 124 433 74 507 52 6225 1999 1746 3123 111 364 62 468 33 5907 2000 1614 3122 78 330 52 351 40 5587 2001 1476 2203 79 495 70 432 84 4839 2002 2422 2014 133 532 64 509 185 **** **** 2421 1865 128 570 92 551 75 5702 2004 2451 2013 99 605 99 357 91 5715 2005 2013 1319 78 578 102 509 58 4657 2006 1896 1086 89 517 78 417 26 4109 2007 1540 1012 86 453 87 255 72 3505 2008 1236 986 78 468 65 263 68 3164 2009 1102 856 76 482 76 245 56 2893 2010 986 785 69 457 85 246 45 2673 注：通过以上搜集的数据，选取我国煤矿事故死亡人数最多的7种事故类型作为评价指标，分别表示为：X 1顶板、X 2瓦斯、X 3机电、X 4运输、X 5放炮、X 6水害、X 7火灾、Y总数。

1.2程序运行

data sasuser.shuju;

input y x1-x7;

cards;

2623 1823 162 813 171 477 153 918

2513 1756 185 597 141 430 50 757

2447 1865 190 487 101 408 45 906

2213 2231 204 570 128 354 88 285

2130 3012 156 602 144 521 106 304

2013 3256 186 574 124 568 63 256

1923 3356 178 492 105 427 78 233

1789 3800 196 461 81 450 62 241

1823 3212 124 433 74 507 52 198

1746 3123 111 364 62 468 33 210

1614 3122 78 330 52 351 40 231

1476 2203 79 495 70 432 84 175

2422 2014 133 532 64 509 185 820

2421 1865 128 570 92 551 75 495

2451 2013 99 605 99 357 91 554

2013 1319 78 578 102 509 58 262

1896 1086 89 517 78 417 26 382

1540 1012 86 453 87 255 72 241

1236 986 78 468 65 263 68 201

1102 856 76 482 76 245 56 198

986 785 69 457 85 246 45 203

%变量之间的相关系数

proc corr data=sasuser.shuju output=w;

var y x1-x7;

run;

%标注化数据

proc standard data=sasuser.shuju m=0 std=1 out=stshuju;

run;

proc print data=stshuju;

run;

%方差扩大因子和条件数

proc reg data=shuju;

model y=x1-x7/vif collinoint;

run;

%主成分回归

proc princomp data=stshuju out=c prefix=z; var x1-x7;

run;

proc reg data=c;

model y=z1-z4;

run;

2偏相关分析和主成分回归分析

2.1偏相关分析

偏相关分析用以计算描述在其他变量控制下，两变量之间的线性关系的偏相关系数，即每年各类事故死亡人数对总死亡人数的直接影响程度，也就是说在除去其他因素的影响后，每年中每一类事故对总死亡人数的净影响。运用sas统计软件分别计算出偏相关系数。

通过以上搜集的数据，选取我国煤矿事故死亡人数最多的7种事故类型作为评价指标，分别表示为：X1顶板、X2瓦斯、X3机电、X4运输、X5放炮、X6 水害、X7火灾、Y总数。

事故死亡总人数与X1顶板、X2瓦斯、X3机电、X4运输、X5放炮、X6水害、X7火灾的

关系分别是：

Ry,234567= 0.23601， P= 0.3030>0.01,

可见控制X2瓦斯、X3机电、X4运输、X5放炮、X6水害、X7火灾时，总的死亡人数Ｙ与X1顶板的偏相关系数不显著。

Ry,134567=0.6274， P=0.0023<0.01,

可见控制X1顶板、X3机电、X4运输、X5放炮、X6水害、X7火灾时，总的死亡人数Ｙ与X2瓦斯的偏相关系数显著。

Ry,124567=0.63972， P=0.0018<0.01,

可见控制X1顶板、X2瓦斯、X4运输、X5放炮、X6水害、X7火灾，总的死亡人数Ｙ与X3机电的偏相关系数显著。

Ry,123567=0.58985， P=0.0049<0.001,

可见控制X1顶板、X2瓦斯、X3机电、X5放炮、X6水害、X7火灾时，总的死亡人数Ｙ与X4运输的偏相关系数很显著。

Ry,123467=0.63244， P=0.0021<0.001,

可见控制X1顶板、X2瓦斯、X3机电、X4运输、X6水害、X7火灾时，总的死亡人数Ｙ与X5放炮的偏相关系数很显著。

Ry,123457=0.45246， P=0.0395>0.01,

可见控制X1顶板、X2瓦斯、X3机电、X4运输、X5放炮、X7火灾时，总的死亡人数Ｙ与X6水害的偏相关系数显著。

Ry,123456=0.77844， P<0.0001,

可见控制X1顶板、X2瓦斯、X3机电、X4运输、X5放炮、X6水害时，总的死亡人数Ｙ与X7火灾的偏相关系数很显著。

2.2主成分回归分析

主成分回归分析是将原来的多个变量综合成彼此互补相关的综合指标（即主成分）的一种统计方法，可以达到数据化简，揭示变量不仅保留了原始数据的绝大部分信息，而且彼此之间不相关，对综合变量进行分析，可以抓住主要的因素，剔除一些重叠的信息使问题得到最佳综合简化。

利用SAS软件计算出7各变量之间的相关系矩阵，发现变量之间的相关性比较明显，为此对7个变量的原始标准化数据进行主成分分析。有输出的结果可知，相关矩阵的前4个特征根分别为λ1=3.261，λ2=1.718，λ3=0.801，λ4=0.564。前四个主成分的累计贡献率高达90.64%，所以选取四个主成分来代替原来的七个变量，这四个主成分可以解释原来的90.64%

的信息。主成分个数的确定，根据累计方差贡献率大于或等于85%的原则选取。用Z

1,Z

表示这四个主成分，则：

Z1=0.124490x1*+

0.402595x2*+0.470751x3*+0.460120x4*+0.333360x5*+0.354300x6*+0.390443x7*

Z2=0.707856x1*+

0.340119x2*-0.302147x3*-0.106071x4*+0.415488x5*-0.196263x6*-0.263754x7*

Z3=0.110449x1*-

0.349321x2*-0.101462x3*-0.518812x4*+0.320245x5*+0.673341x6*+0.174270x7*

Z4=-0.013073x1*+

0.402166x2*-0.333355x3*-0.283337x4*-0.259100x5*-0.130242x6*0.72583x7*

其中X

i *(i=1,2,3,4,5，6,7)是X

的标准化指标.即2

()

X X

-/S i，其中X是X i的均值，S i

是X

的标准差。

2.3回归分析

用上述四个主成分作为回归自变量，得到的回归方程如下：

Y=0.46901Z1+0.05427Z2+0.09846Z3+0.31645Z4

3、分析结论及相关建议

从偏相关系数可以看出，随着X 1顶板事故死亡人数的逐渐增加，总的死亡人数在逐渐的增大，相关性很显著，相关系数最大；随着X 2瓦斯事故死亡人数的增大总的死亡人数也有增大的趋势，相关性也显著。

参考文献

[1]柳伟伟，胡良平．主成分分析与探索性因子分析的SAS软件实现[J]．煤质技术，2008，(4):38~39.

[2]林海明．小样本因子分析的SAS 软件计算与综合评价[J]．理论新探，2006，(1): 26~27，68.

[3]林海明．因子分析精确模型及解[J]．统计与决策(理论版)，2006,(7).

[4]李慧敏，庞奇志，邹伟霞．主成分分析法在煤矿事故统计分析中的应用[J]．安全与环境工程，2012，19(3): 77~79，87.

[5]丁宝成．煤矿安全预警模型及应用研究[D]．辽宁阜新：辽宁工程技术大学，博士学位论文，2010.

[6]汪远征，徐雅静．SAS软件与统计应用教程[M]．北京：机械工业出版社，2007．

[７] 张超，杨炳庚．计量地理学基础[M]．2版，北京：中国高等教育出版社，1991.

[８] 樊欣，邵谦谦．SAS8.0经济统计[M]．北京：北京希望电子出版社，2003.

[９] 何晓群，刘文卿．应用回归分析[M]．北京：中国人名大学出版社。2001.

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是最有活力的软件。它起源于矩阵运算，并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 （1）在（3.5.3）式中，r ij （i ，j=1，2，…，p ）为原变量的xi 与xj 之间的相关系数，其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( （2）因为R 是实对称矩阵（即r ij =r ji ），所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量首先解特征方程0=-R I λ，通常用雅可比法（Jacobi ）求出特征值 ),,2,1(p i i =λ，并使其按大小顺序排列，即0,21≥≥≥≥p λλλ ；然后分别求出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1，即112 =∑=p j ij e ，其中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二，…，第m （m ≤p ）个主成分。 ④ 计算主成分载荷其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ （3）

主成分分析法运用

统计学简介及在实践中的应用 --以主成分分析法分析影响房价因素为例姓名：阳飞学号：2111601015 学院：经济管理学院指导教师：吴东武时间：二〇一七年一月六日

1 简介统计语源最早出现于中世界拉丁语的Status，意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato，有表示“国家”的概念，也含有国家结构和国情知识的意思。根据这一语根，最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔（G.Achenwall)。他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中，就把国家学名定义为“Statistika”（统计）这个词。原意是指“国家显著事项的比较和记述”或“国势学”，认为统计是关于国家应注意事项的学问。自此以后，各国就相继沿用“统计”这个词，更把这个词译成各国的文字，其中，法国译为Statistique；意大利译为Statistica；英国译为Statistics；日本最初译为“政表”、“政算”、“国势”、“形势”等，直到1880年在太政官中设立了统计院，这个时候才确定以“统计”二字正名。在我国近代史上首次出现是在1903年（清光绪廿九年）由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书，这个时候才把“统计”这个词从日本传到我国。1907年（清光绪卅三年），由彭祖植编写的《统计学》在日本出版，同时在国内发行。这本书是我国最早的一本“统计学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。关于“统计”这个词，后来又引申到了各种各样的组合，包括：统计工作、统计资料、统计科学。统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称，它是统计的基础，也称统计实践或统计活动。是在一定统计理论指导下，采用科学的方法，搜集、整理、分析统计资料的一系列活动过程。

基于主成分分析法的供应商评价指标筛选

龙源期刊网 https://www.360docs.net/doc/9610661295.html, 基于主成分分析法的供应商评价指标筛选作者：孙蒙蒙赵茂松纪赛赛来源：《物流科技》2017年第10期摘要：针对传统的供应商评价与选择方法的主观性过强的问题，文章利用相似性度量理论中的x■统计量，在专家评分的基础上，构造出每两两指标之间的相关系数矩阵，再运用主成分分析法做因子分析，根据因子载荷矩阵得出主成分与原始指标的相关系数，再确定出阈值，剔除相关系数小于阈值的指标，从而实现指标的筛选。最后，以L公司的供应商为例，进行了实证研究。验证了该方法的实用性和有效性。关键词：供应商评价与选择；皮尔逊相关系数；主成分分析；指标筛选中图分类号：F272 文献标识码：A Abstract： In view of the fact that the traditional methods of supplier evaluation and selection are too subjective. Based on the chi-square statistic in similarity measure theory， the correlation coefficient matrix between indexes is constructed on the basis of expert scores， then the principal component analysis is used to do factor analysis. According to the factor load matrix， the correlation coefficient between the principal component and the original index is obtained， and then the threshold is determined， and eliminate the index of correlation coefficient which is smaller than the threshold. So as to filter the index. Finally， taking a company as an example， an empirical study is conducted. The practicability and effectiveness of the method are verified. Key words： supplier evaluation and selection；Pearson's correlation coefficient；principal component analysis； index sselection 0 引言供应商作为供应链的源头，在供应链的竞争中起着至关重要的作用，所以供应商的评价与选择也成了供应链管理中的一个重要环节[1]。对供应商进行评价需要建立供应商评价指标体系，指标的选择与确定也是值得研究的一个重要课题。指标的选取要遵循科学全面、切实可行、具有可操作性、独立性强等原则。如果设置的评价指标没有太大的独立性，那么可能会出现多个指标只是评价的同一项，会出现很多无用功。这样会增加指标权重确定的难度。指标的筛选方法也有很多种，如灰色关联分析法[2]，极大不相关法[3]，模糊数学方法[4]，但是这些方法主观性太强，得出的结果差异也很大，在很多综合评价的问题中不能得到应用。结果不尽人意。所以本文在专家评判的基础上，引进主成分分析法[5]，由相关系数确定主成分，再根据相似性度量理论用皮尔逊x■近似相关系数[6]，有效地解决了指标之间的相关度的统计问题。本文最后以某公司为例进行了分析与验证。

主成分分析法精华讲义及实例

主成分分析类型：一种处理高维数据的方法。降维思想：在实际问题的研究中，往往会涉及众多有关的变量。但是，变量太多不但会增加计算的复杂性，而且也会给合理地分析问题和解释问题带来困难。一般说来，虽然每个变量都提供了一定的信息，但其重要性有所不同，而在很多情况下，变量间有一定的相关性，从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”，用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息，通过对新变量的分析达到解决问题的目的。一、总体主成分 1.1 定义设 X 1，X 2，…，X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1，X 2，…,Xp)T ，其协方差矩阵为 ()[(())(())], T ij p p E X E X X E X σ?∑==-- 它是一个 p 阶非负定矩阵。设 1111112212221122221122T p p T p p T p p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X ?==+++? ==+++?? ??==+++? （1）则有 ()(),1,2,...,, (,)(,),1,2,...,. T T i i i i T T T i j i j i j V ar Y V ar l X l l i p C ov Y Y C ov l X l X l l j p ==∑===∑= （2）第 i 个主成分：一般地，在约束条件 1T i i l l =

及 (,)0,1,2,..., 1.T i k i k C ov Y Y l l k i =∑==- 下，求 l i 使 Var(Y i )达到最大，由此 l i 所确定的 T i i Y l X = 称为 X 1，X 2，…，X p 的第 i 个主成分。 1.2 总体主成分的计算设 ∑是12(,,...,) T p X X X X =的协方差矩阵，∑的特征值及相应的正交单位化特征向量分别为 120p λλλ≥≥≥≥ 及 12,,...,, p e e e 则 X 的第 i 个主成分为 1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= （3）此时 (),1,2,...,,(,)0,. T i i i i T i k i k V ar Y e e i p C ov Y Y e e i k λ?=∑==??=∑=≠?? 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差记 12(,,...,) T p Y Y Y Y = 为主成分向量，则 Y=P T X ，其中12(,,...,)p P e e e =，且 12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ= 由此得主成分的总方差为 1 1 1 ()()()()(),p p p T T i i i i i i V ar Y tr P P tr P P tr V ar X λ ==== =∑=∑=∑= ∑∑∑ 即主成分分析是把 p 个原始变量 X 1，X 2，…，X p 的总方差

基于主成分法的学生成绩综合评价

现代经济信息一、引言在经济全球化和社会分工越来越细化的当今社会，人力资源已成为人类的第一宝贵资源。作为高素质人才主要培养基地的高等院校，如何科学地评价大学生的综合成绩成为当前各高校在全面推进素质教育过程中所面临的问题之一。传统的以多门课程总平均分排名的评价方法，比较笼统，为了尽可能全面、科学地反映被评价对象的情况，往往需要选取众多的指标构成评价体系，但是，过多的指标不仅会增加评价的工作量，还会因评价指标间的相关性造成评价信息相互重叠、相互干扰，从而难以客观地反映被评价对象的真实水平。本文认为可以使用主成分分析法解决此类问题。二、主成分分析方法简介主成分分析，是利用降维的方法，将多个指标转化为少数几个综合指标，去解释原始资料中的大部分变异的一种方法。在实际问题中，为了全面、系统地分析问题，通常必须考虑众多的影响因素，这些影响因素一般被称为指标或者变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。因此，把这些变量转化成彼此不相关的变量，然后从中选出比原始变量个数少、却能解释原始资料中大部分变异的几个新变量，即所谓的主成分，从而达到降维和简化问题分析的目的。具体而言，主成分分析法是通过数学变换把给定的一组相关变量通过线性变换转成另一组不相关的变量，并按方差依次递减的顺序排列，找到第一、第二、…第 k个主成分，然后计算因子载荷矩阵，建立主成分模型，最后按因子得分及贡献率的大小，计算综合得分并进行排序。三、高校学生成绩综合评价应用 (一)研究的对象及指标的选择本文以贵州航天职业技术学院11级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象，借助统计软件进行主成分分析，计算出主成分得分，并按主成分得分对学生进行了排名。班上共有28名同学，将这28名同学作为总体，13门主要课程具体为：大学英语Ⅰ(x1)、思想道德修养与法律基础(x2)、管理学原理(x3)、社区管理学(x4)、社会工作法律实务(x5)、应用统计学(x6)、体育(x7)、社会心理学(x8)、服务礼仪(x9)、高等数学(x10)、团队建设(x11)、大学英语Ⅱ(x12)、大学语文(x13)，学生姓名用序号1、2、… 28表示，用xij 表示第i个同学在第j 门课上的得分，则x=(xij)28×l3，这样就得到了一个28×13的原始数据矩阵。见表1。 (二)主成分分析过程将原始数据标准化，用计算机求出标准化矩阵的相关系数矩阵；求相关矩阵的特征值，确定主成分个数。(见表2) 基于主成分分析法的学生成绩综合评价李　畅贵州航天职业技术学院摘要：以贵州航天职业技术学院2011级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象，借助统计软件进行主成分分析，计算出主成分得分，并按主成分得分对学生进行了排名。为使成绩评价更具科学性、客观性和合理性，还将平均分和综合分比对，进行综合评价与分析，为教学研究、学生管理及就业指导提供科学依据。关键词：主成分分析法；学习成绩；评价中图分类号：G455 文献标识码：A 文章编号：1001-828X（2013）07-0408-03 408

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在统计学中，主成分分析（ principal components analysis,PCA ）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。 [ 编辑 ] ， PCA ）又称：主分量分析，主成分回归分析法主成分分析（ principal components analysis

主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。同样，在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。如上所述，主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。上述想法可进一步概述为：设某科普效果评估要素涉及个指标，这指标构成的维随机向量为。对作正交变换，令，其中为正交阵，的各分量是不相关的，使得的各分量在某个评估要素中的作用容易解释，这就使得我们有可能从主分量中选择主要成分，削除对这一要素影响微弱的部分，通过对主分量的重点分析，达到对原始变量进行分析的目的。的各分量是原始变量线性组合，不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系，主成分分析使我们能从错综复杂的科普评估要素的众多指标中，找出一些主要成分，以便有效地利用大量统计数据，进行科普效果评估分析，使我们在研究科普效果评估问题中，可能得到深层次的一些启发，把科普效果评估研究引向深入。例如，在对科普产品开发和利用这一要素的评估中，涉及科普创作人数百万人、科普作品发行量百万人、科普产业化（科普示范基地数百万人）等多项指标。经过主成分分析计算，最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标，变量数减少，并达到一定的可信度，就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

主成分分析法实例

1、主成分法：用主成分法寻找公共因子的方法如下：假定从相关阵出发求解主成分，设有p 个变量，则可找出p 个主成分。将所得的p 个主成分按由大到小的顺序排列，记为1Y ，2Y ，…，P Y ，则主成分与原始变量之间存在如下关系： 11111221221122221122....................p p p p p p p pp p Y X X X Y X X X Y X X X γγγγγγγγγ=+++?? =+++??? ?=+++? 式中，ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量，因为特征向量之间彼此正交，从X 到Y 得转换关系是可逆的，很容易得出由Y 到 X 得转换关系为： 11112121212122221122....................p p p p p p p pp p X Y Y Y X Y Y Y X Y Y Y γγγγγγγγγ=+++?? =+++??? ?=+++? 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替，则上式变为： 111121211 2121222221122................. ...m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++??=++++????=++++? 上式在形式上已经与因子模型相一致，且i Y （i=1,2，…，m ）之间相互独立，且i Y 与i ε之间相互独立，为了把i Y 转化成合适的公因子，现在要做的工作只是把主成分i Y 变为方差为1的变量。为完成此变换，必须将i Y 除以其标准差，由主成分分析的知识知其标准差即为特征根的平方根 i λ/i i i F Y λ=， 1122m m λγλγλγ，则式子变为：

主成分分析法的原理应用及计算步骤..

一、概述在处理信息时，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠，例如，高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性；学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。为了解决这些问题，最简单和最直接的解决方案是削减变量的个数，但这必然又会导致信息丢失和信息不完整等问题的产生。为此，人们希望探索一种更为有效的解决方法，它既能大大减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数，并已得到广泛应用的分析方法。主成分分析以最少的信息丢失为前提，将众多的原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点： ↓主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后，因子将可以替代原有变量参与数据建模，这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍，而是原有变量重组后的结果，因此不会造成原有变量信息的大量丢失，并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关通过主成分分析得出的新的综合指标（主成分）之间互不相关，因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性总之，主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子，如何使因子具有一定的命名解释性的多元统计分析方法。二、基本原理主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1，X2，…，XP （比如p 个指标），重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取，使其既能最大程度的反映原变量Xp 所代表的信息，又能保证新指标之间保持相互无关（信息不重叠）。设F1表示原变量的第一个线性组合所形成的主成分指标，即 11112121...p p F a X a X a X =+++,由数学知识可知，每一个主成分所提取的信息量可用其方差来度量，其方差Var(F1)越大，表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大，因此在所有的线性组合中选取的F1应该是X1，X2，…，XP 的所有线性组合中方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息，再考虑选取第二个主成分指标F2，为有效地反映原信息，F1已有的信息就不需要再出现在F2中，即F2与F1要保持独立、不相关，用数学语言表达就是其协方差Cov(F1, F2)=0，所以F2是与F1不

主成分分析案例

姓名：XXX 学号：XXXXXXX 专业：XXXX 用SPSS19软件对下列数据进行主成分分析： ……

一、相关性通过对数据进行双变量相关分析，得到相关系数矩阵，见表1。表1 淡化浓海水自然蒸发影响因素的相关性由表1可知：辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。分析：各变量之间存在着明显的相关关系，若直接将其纳入分析可能会得到因多元共线性影响的错误结论，因此需要通过主成份分析将数据所携带的信息进行浓缩处理。二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性，取值范围是0～1。KMO的结果越接近1，表示变量之间的偏相关性越好，那么进行主成分分析的效果就会越好。实际分析时，KMO统计量大于0.7时，效果就比较理想；若当KMO统计量小于0.5时，就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵，在主成分分析中，若拒绝各变量独立的原假设，则说明可以做主成分分析，若不拒绝原假设，则说明这些变量可能独立提供一些信息，不适合做主成分分析。

由表2可知： 1、KMO=0.631＜0.7，表明变量之间没有特别完美的信息的重叠度，主成分分析得到的模型又可能不是非常完善，但仍然值得实验。 2、显著性小于0.05，则应拒绝假设，即变量间具有较强的相关性。三、公因子方差公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。由表3可知：几乎所有变量共同度都达到了75%，可认为这几个提取出的主成分对各个变量的阐释能力比较强。四、解释的总方差解释的总方差给出了各因素的方差贡献率和累计贡献率。

主成分分析法的步骤和原理

（一）主成分分析法的基本思想主成分分析（Principal Component Analysis）是利用降维的思想，将多个变量转化为少数几个综合变量（即主成分），其中每个主成分都是原始变量的线性组合，各主成分之间互不相关，从而这些主成分能够反映始变量的绝大部分信息，且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点，引进多方面的财务指标，但又将复杂因素归结为几个主成分，使得复杂问题得以简化，同时得到更为科学、准确的财务信息。（二）主成分分析法代数模型假设用p个变量来描述研究对象，分别用X1，X2…X p来表示，这p个变量构成的p维随机向量为X=(X1，X2…X p)t。设随机向量X的均值为μ，协方差矩阵为Σ。对X进行线性变化，考虑原始变量的线性组合： Z=μX+μX+…μX Z=μX+μX+…μX ……………… Z=μX+μX+…μX 主成分是不相关的线性组合Z1，Z2……Z p，并且Z1是X，X…X的线性组合中方差最大者，Z2是与Z1不相关的线性组合中方差最大者，…，Z是与Z1，Z2……Z p-1都不相关的线性组合中方差最大者。（三）主成分分析法基本步骤第一步：设估计样本数为n，选取的财务指标数为p，则由估计样本的原始数据可得矩阵X=(x ij)m×p，其中x ij表示第i家上市公司的第j项财务指标数据。第二步：为了消除各项财务指标之间在量纲化和数量级上的差别，对指标数据进行标准化，得到标准化矩阵（系统自动生成）。第三步：根据标准化数据矩阵建立协方差矩阵R，是反映标准化后的数据之间相关关系密切程度的统计指标，值越大，说明有必要对数据进行主成分分析。其中，R ij（i，j=1，2，…，p）为原始变量X i与X j的相关系数。R为实对称矩阵

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中，我们经常会遇到研究多个变量的问题，而且在多数情况下，多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性，势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量，既能够代表原始变量的绝大多数信息，又互不相关，并且在新的综合变量基础上，可以进一步的统计分析，这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型（一）主成分分析的基本思想主成分分析是采取一种数学降维的方法，找出几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是设法将原来众多具有一定相关性的变量，重新组合为一组新的相互无关的综合变量来代替原来变量。通常，数学上的处理方法就是将原来的变量做线性组合，作为新的综合变量，但是这种组合如果不加以限制，则可以有很多，应该如何选择呢？如果将选取的第一个线性组合即第一个综合变量记为1F ，自然希望它尽可能多地反映原来变量的信息，这里“信息”用方差来测量，即希望)(1F Var 越大，表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的，故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息，再考虑选取2F 即第二个线性组合，为了有效地反映原来信息，1F 已有的信息就不需要再出现在2F 中，用数学语言表达就是要求 0),(21=F F Cov ，称2F 为第二主成分，依此类推可以构造出第三、四……第p 个主成分。（二）主成分分析的数学模型对于一个样本资料，观测p 个变量p x x x ,,21，n 个样品的数据资料阵为： ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

主成分分析及二次回归分析的

基于主成分分析及二次回归分析的城市生活垃圾热值建模 1. 引言随着人们经济水平的提高、环保意识的增强、环保法规日益严格和国家垃圾处理产业化政策的实施，垃圾填埋处理的弊端将引起重视、运营费用将大大增加，而垃圾焚烧处理的优势将逐渐呈现出来并最终获得人们的认可。以城市生活垃圾为燃料而建立垃圾电站进行电力生产，很好的实现了生活垃圾的无害化、资源化利用。而我国的城市生活垃圾成分复杂，用作为燃料时稳定性较差，因此分析垃圾的成分、计算垃圾的热值模型是垃圾焚烧发电的工艺设计和运营管理中必不可少的基础性工作。因为我国不同地区人们生活习惯及生活条件差异较大，导致城市生活垃圾成分也存在很大的地域性差异，因此，本文以深圳市为例，对深圳市宝安区的生活垃圾采样数据进行分析，并建立其计算模型。 2. 回归分析及主成分分析理论 2.1. 回归分析回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系，通过回归方程的形式描述和反应这种关系。 2.2. 一般回归模型如果变量与随机p 变量y 之间存在着相关关系，通常就意味着当x , x ....x 1 2 p x , x ....x取定值后y 便有相应的概率分布与之对应，其概率模型为： = ( , ... ) +e （2-1）1 2 p y f x x x其中p为称自变量，y 称为因变量，为自变量的确定性关系，ε表示x , x ....x 1 2 ( , .... ) 1 2 p f x x x随机误差。 2.3. 线性回归模型回归模型分为线性回归模型和非线性回归模型，线性回归又有一元线性回归和多元线性回归之分。当变量之间的关系是线性关系的模型都称为线性回归模型，否则就称之为非线性回归模型。当概率模型（2-1）中的回归函数为线性函数时，有： = b + b + b +e （2-2）p p y x ... x 0 1 1其中βi 是p+1 个未知参数，β0 称为回归常数，β1...βp 称为回归系数。 2.4. 主成分分析上述的线性回归模型的应用前提是作为自变量的各指标之间相互独立，即不

主成分法及其应用

【作者简介】苏键（1985-），男，广西钦州人，助理工程师，研究方向：食品科学。1主成分分析法何谓主成分分析，就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法，又称主分量分析[1]。主成分分析的中心思想是缩减一个包括很多相互联系着的变量的数量集，在数量集中保留尽可能多的有用的变量。主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量，同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性（比如P 个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var （F1）越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现再F2中，用数学语言表达就是要求Cov （F1,F2）=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P 个主成分[2]。主成分分析首先是由K.皮尔森对非随机变量引入的，而后H.霍特林将此方法推广到随机向量的情形[2]。信息的大小通常用离差平方和或方差来衡量。在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。但是，在用统计分析方法研究这个多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 2主成分分析法在食品领域的应用 2.1主成分分析在食品风味方面的应用目前，主成分分析应用还是比较广泛的，但是就食品风味方面，关于该分析方法的文献鲜见报道。戴素贤等[3]人对七种高香型乌龙茶中的香气成分进行了主成分分析,他们尝试用主成分分析法来研究茶业香型的变化，并进而找到影响这些香型变化的主要化合物，同时还发现了不同的茶别中香气化合物变化的趋势并进行了模拟量化，直观地表现了各种香气化合物对香气的贡献程度。李华等[4]运用多元统计分析确定葡萄酒感官特性，多元统计分析中的主成分分析等数学工具能够把大量的描述葡萄酒感官特性的描述语精简成较少的综合性更强的描述语，这些精简后的描述语不但能够反映精简前描述语的信息，还可以筛选出科学合理的描述符，描述符是描述分析的语言和工具，根据描述符可以分类不同的葡萄酒。邵威平等[5]应用主成分分析法完成了不同品牌啤酒风味差异性的评价，同一品牌啤酒风味一致性的评价，同一品牌不同生产厂之间一致性的评价以及同一生产厂啤酒一致性的评价这些工作。啤酒是个多指标的风味食品，主成分分析法可以帮助我们更好地研究啤酒理化指标和啤酒风格之间的相关性，从而达到更好地理解啤酒风味的目的。岳田利等[6]人则通过利用主成分分析的方法建立了苹果酒香气质量的评价模型，并以此来对苹果酒样品香气组分进行客观的统计分析。S.Kallithraka 等[7]采用高效液相色谱法和气相色谱法研究了希腊国内不同产地葡萄酒的化合物成分和感官特性，并运用了PCA 法（主成分分析法）对所得参数进行多元分析，最终达到给葡萄酒评价和分类的目的。2.2主成分分析在食品品质方面的应用食品品质的评价往往是非常复杂的过程。因为影响食品品质的因素大量存在，非人为因素如食品环境中的微生物，温度及pH 等的变化带来的影响。另一方面，由于人为的因素掺假也会造成食品品质的低劣，进而损害广大销售者和消费者的利益。如黎海红等[8]人运用主成分分析法对掺伪芝麻油的检测方法进行研究分析。根据主成分分析的实验原理，可以选择芝麻油的折光率、酸价、色泽、水分及挥发物、皂化值和碘价等理化指标作为变量，将这些变量的所测数据做矩阵处理最后分析就轻工科技 LIGHT INDUSTRY SCIENCE AND TECHNOLOGY 2012年9月第9期（总第166期）食品与生物主成分分析法及其应用苏键，陈军，何洁（广西轻工业科学技术研究院，广西南宁530031）【摘要】介绍了主成分分析法的定义、原理，概述了该法在食品及一些仪器分析领域的应用，目的是为其他还未应用该分析方法的学术领域提供一种参考和借鉴，使得主成分分析法能够在越来越多的学术领域中得以推广和应用。【关键词】主成分分析；应用；概述【中图分类号】TS262【文献标识码】A 【文章编号】2095-3518 （2012）09－12－02

主成分分析法概念及例题.doc

主成分分析法主成分分析（principal components analysis，PCA）又称：主分量分析，主成分回归分析法 [编辑] 什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。同样，在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。如上所述，主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。上述想法可进一步概述为：设某科普效果评估要素涉及个指标，这指标构成的维随机向量为。对作正交变换，令，其中为正交阵，的各分量是不相关的，使得的各分量在某个评估要素中的作用容易解释，这就使得我们有可能从主分量中选择主要成分，削除对这一要素影响微弱的部分，通过对主分量的重点分析，达到对原始变量进行分析的目的。的各分量是原始变量线性组合，不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系，主成分分析使我们能从错综复杂的科普评估要素的众多指标中，找出一些主要成分，以便有效地利用大量统计数据，进行科普效果评估分析，使我们在研究科普效果评估问题中，可能得到深层次的一些启发，把科普效果评估研究引向深入。例如，在对科普产品开发和利用这一要素的评估中，涉及科普创作人数百万人、科普作品发行量百万人、科普产业化（科普示范基地数百万人）等多项指标。经过主成分分析计算，最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标，变量数减少，并达到一定的可信度，就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

主成分分析法的步骤和原理

主成分分析法的步骤和原理 (总2页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面，使用请直接删除

（一）主成分分析法的基本思想主成分分析（Principal Component Analysis）是利用降维的思想，将多个变量转化为少数几个综合变量（即主成分），其中每个主成分都是原始变量的线性组合，各主成分之间互不相关，从而这些主成分能够反映始变量的绝大部分信息，且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点，引进多方面的财务指标，但又将复杂因素归结为几个主成分，使得复杂问题得以简化，同时得到更为科学、准确的财务信息。（二）主成分分析法代数模型假设用p个变量来描述研究对象，分别用X 1，X 2 …X p 来表示，这p个变量构成的p维随机向量为X=(X 1，X 2 …X p )t。设随机向量X的均值为μ，协方差矩阵为Σ。假设 X 是以 n 个标量随机变量组成的列向量，并且μk 是其第k个元素的期望值，即，μk= E(xk)，协方差矩阵然后被定义为： Σ=E{(X-E[X])(X-E[X])}=(如图对X进行线性变化，考虑原始变量的线性组合： Z1=μ11X1+μ12X2+…μ1p X p Z2=μ21X1+μ22X2+…μ2p X p ……………… Z p=μp1X1+μp2X2+…μpp X p 主成分是不相关的线性组合Z 1，Z 2 ……Z p ，并且Z 1 是X1，X2…X p的线性组合中方差最大者，Z 2是与Z 1 不相关的线性组合中方差最大者，…，Z p是与Z 1 ， Z 2……Z p-1 都不相关的线性组合中方差最大者。（三）主成分分析法基本步骤第一步：设估计样本数为n，选取的财务指标数为p，则由估计样本的原始数据可得矩阵X=(x ij ) m×p ，其中x ij 表示第i家上市公司的第j项财务指标数据。第二步：为了消除各项财务指标之间在量纲化和数量级上的差别，对指标数据进行标准化，得到标准化矩阵（系统自动生成）。第三步：根据标准化数据矩阵建立协方差矩阵R，是反映标准化后的数据之间相关关系密切程度的统计指标，值越大，说明有必要对数据进行主成分分析。其中，R ij （i，j=1，2，…，p）为原始变量X i 与X j 的相关系数。R为实对称矩阵（即R ij =R ji ），只需计算其上三角元素或下三角元素即可，其计算公式为：

(整理)(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析.

偏最小二乘回归是一种新型的多元统计数据分析方法，它与1983年由伍德和阿巴诺等人首次提出。近十年来，它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面：（1）偏最小二乘回归是一种多因变量对多自变量的回归建模方法。（2）偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中，我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法，这种变量多重相关性就会严重危害参数估计，扩大模型误差，并破坏模型的稳定性。变量多重相关问题十分复杂，长期以来在理论和方法上都未给出满意的答案，这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径，它利用对系统中的数据信息进行分解和筛选的方式，提取对因变量的解释性最强的综合变量，辨识系统中的信息与噪声，从而更好地克服变量多重相关性在系统建模中的不良作用。（3）偏最小二乘回归之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。由于偏最小二乘回归在建模的同时实现了数据结构的简化，因此，可以在二维平面图上对多维数据的特性进行观察，这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后，不但可以得到多因变量对多自变量的回归模型，而且可以在平面图上直接观察两组变量之间的相关关系，以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性，可以使数据系统的分析内容更加丰富，同时又可以对所建立的回归模型给予许多更详细深入的实际解释。一、偏最小二乘回归的建模策略\原理\方法