多元统计分析与运用

多元统计分析与运用
多元统计分析与运用

密号研究生请勿填写

山东理工大学研究生课程考试

答 题 纸

姓 名 学 号 专 业 考 试 科 目 考 试 时 间

注意:此半页研究生请勿填写

基于因子分析的H公司人才流失原因分析及对策研究摘要:基于目前由于企业人才流失严重,给企业带来巨大损失的这种现状,本

文通过笔者在H公司人力资源部实习和查阅相关文献资料的基础上,首先对人才流失的相关理论进行了梳理和研究,在此基础上,结合H公司的实际情况,对H 公司的流失人才的资料进行统计,借助SPSS对收集的数据进行因子分析,对该公司的人才流失现状进行了系统的分析,总结出该公司人才流失严重的影响因素。因此,本文仅基于因子分析法就H公司员工流失的影响因素分析及其对策进行研究,以便该公司留住人才。最终的目的是希望在此基础上通过自己的专业知识提炼有效避免企业人才流失的影响因素和对策,减少企业人才流失,促使企业健康、平稳发展。

关键词:人才流失因子分析

一、引言

伴随着人类社会经济的发展,继农业经济和工业经济之后,21世纪我们进入了知识经济时代。目前知识已经成为当今社会经济最为重要的的生产要素和企业竞争力,拥有了具备知识的人才,也就等于拥有了传统的生产要素。所以在当今日益激烈的市场竞争中,企业竞争的关键在于人才的竞争。

企业人才的流失一方面不仅会带走商业、技术秘密,还有可能带走了客户等资源,使企业蒙受直接经济损失的同时也加深了公司进一步发展的隐忧。另一方面,人才流失在某种程度上增加了企业人力重置成本,影响工作的持续性和工作质量,同时也会影响到在职员工的稳定性和忠诚度,容易造成人员的“习惯性流动”。如果这种人才流动率的现象不加以重视和控制,最终将影响企业持续发展的潜力和竞争力。面对当前部分企业人才流失严重的问题,如何留住人才、扭转人才流失不利局面,制定科学的管理对策,是事关企业生死存亡、急待解决的一个重大问题。

本文就本人毕业实习公司-H公司为研究焦点,以个案探讨人才流失问题和原因分析,并对应对措施提出个人建议,以供参考。

二、人才流失与因子分析

人才流失就是对企业之间人才流动的一种限定。英语中用“Brain Drain”来表示人才流失,字面意思是智力流失,可见该词生动的表达了人才流失的内涵。人才流失指的是指原本属于某个组织的人才,离开原有的服务对象,到其他的组织工作。企业的人才流失指的就是企业中对企业的发展起到十分关键的人才,在企业没有辞退或者裁员的情况下,自动申请辞职到其他企业。

本文所研究的人才流失是从企业的视角出发,从 H 公司人力资源管理的角度去研究人才流失的问题。

因子分析就是根据相关性大小将观测变量进行分类,将相关性较高,即联系比较紧密的变量分在同一类中,而不同类变量之间的相关性则较低,使得同组内的变量之间相关性较不同组内的变量相关性较高。那么每一类变量实际上就代表了一个基本结构,因子分析中将之称为公共因子。利用因子分析研究问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来

观测的每一分量。

因子分析通常有以下四个基本步骤:

(1)确认要进行分析的原始变量是否适合作因子分析;

(2)构造因子变量;

(3)利用旋转方法使因子变量更具有可解释性;

(4)计算因子变量得分。

三、H 公司人才流失现状及相关问题分析

1.H 公司简介

H 公司为一家多方参股的新能源股份有限公司,拥有高效科学的管理体制和

质量体系,已通过国际质量管理体系认证,环境管理体系认证,职业健康安全管理体系认证,并被评为该地区的高新技术企业及3A 级信用企业,是我国成套出口纯生物质发电系统的领军企业。该公司旗下有3个全资控股的子公司:A 电气工程有限公司、B 能源股份有限公司以及C 产业制造公司,共有员工一千余名。

H 股份有限公司目前共有员工1000余名。公司本部共有员工164多人,其

中海归派博士多人,教授级高工3人,高级职称以上63人,本科学历以上占98%。公司旗下控股子公司中管理人员96名,各类工程技术人员300多人,工程技术人员中有15%以上具有高级职称,大中专学历员工所占比例为83%。

2. H 公司人才流失现状分析

由于H 公司的人力资源管理工作起步比较晚,刚开始的重视程度也不够,一

些基础性的人力资源管理工作,像人力资源发展规划等,开展的并不到位。虽然H 公司近几年的发展还是相对比较快的,但从其明显的人才流失使该公司的人事部门一直忙于人才招聘,不断参加人才招聘会,进行报纸专栏招聘和网上招聘来看,该公司的人才需要并未得到满足,这将会严重影响到该企业的持续发展。

H 公司近年来一直在不断的通过招聘来弥补人才流失的空缺,本文对近该企业近五年的人才流失比率进行了统计,得到的结果如下图所示:

H 公司近五年人才流失比率

由图可知 H 公司近五年来人才流失的比率是比较高的,2014年达到最高的40%,为了找到影响H 公司人才流失的重要影响因素,本文将后文中应用问卷调查法和因子分析法对H 公司人才流失问题的影响因素研究,找出该企业人才流失的主要影响因素,进而根据企业人才流失的主要影响因素提出一系列有效解决对策。

四、基于因子分析对H 公司人才流失原因的分析及研究

2012 2013 2014 人才流

失比率

2010 2011 年份

(一)信度与效度检验

通过调查问卷收集数据信息的工作完成以后,首先应该对收集到的数据信息进行信度和效度的检验,才能继续进行接下来的研究工作。只有通过信度和效度的检验,证明数据信息的可信性和有效性以后,对该数据信息的后续的研究才会有效,所以对调查问卷数据信息信度与效度检验是本次研究的最根本的基础。

果,如上表4-1所示,总体信度系数为 0.853,这就说明该调查问卷的信度还是比较高的,研究的结果是可信的。

此次调查问卷收集的数据信息通过SPSS软件的统计和运算后,得到KMO检验和Bartlett球形检验结果,如上表4-2所示。本文所研究样本的KMO检验值为0.741,sig.值为0.00,说明问卷收集的数据信息效度比较好,符合因子分析的要求。

(二)提取公因子

在前文中我们已经证明了通过问卷调查收集来的数据信息的可靠性与有效性,并通过效度检验说明适合对其进行因子分子。接下来我们要做的就是利用SPSS统计软件对该数据进行因子分析。

在用SPSS做因子分析时,第一步,我将调查问卷中涉及的18个问题设为X i(其中i=1,2,3,…,18)。X1:感觉工作无聊枯燥不开心;X2:大型企业更能满足我的需要;X3:工作环境差;X4:无法接受公司的组织文化;X5:薪酬分配不公平,制度不合理;X6:工作不能带来成就感和满足感;X7:缺乏员工职业规划;X8:上下级及其同事之间交流不畅;X9:忽视对员工的培训和提升;X10:绩效考核制度不公平;X11:管理制度不科学;X12:工作压力大;X13:其他公司挖角;X14:不赞同公司的管理模式;X15:工资低,奖金少;X16:无法接受领导的领导方式;X17:福利差;X18:公司行业发展前景不好。来定义这18个变量。第二步,将每份调查问卷对应的数据录入。第三步进行数据描述,采用主成份分析方法进行因子抽取,同时采用最大方差法进行因子旋转,通过SPSS系统运行以后,查看器窗口输出如下表4-3所示:

第四步对输出结果进行分析,借助主成份分析结果来提取公共因子,初始特征值大于1的因子为公共因子,从上表中我们可以看到前5个公因子的初始特征值均大于1 ,解释的累计方差已经达到84.845%,相比之下,第6个因子的初始特征值下降的就很快了,故而提取这5个公因子就能够比较好的解释原有变量所包含的信息了。中间的提取平方和载入表示在未经旋转时,被提取的5个公因子各自的方差贡献信息。它们和初始特征值得前5行取值一样,说明前5个公因子可以解释总方差的85%左右,即总体85%左右的信息都可以由这五个公因子来解释。最后一栏的旋转平方和载入表示经过因子旋转后得到的新的公因子的方法贡献值、方差贡献率和累计方差贡献率,和未经旋转时相比,每个因子的方差贡献值有变化,但最终的累计方差都是85%没有变。所以本文提取这5个公因子就能够比较好的解释原有变量所包含的信息了,以此来进行分析是比较合理的。

(三)命名公因子

利用SPSS统计软件进行因子分析时,为了更加突出各个因子的典型代表变量,以变更容易发觉因子的作用以便于因子解释,我们采用最大方差法对因子载荷阵进行旋转,经过这种正交旋转后的载荷阵的系数发生了明显的分化,如下表4-4所示。

旋转法:具有Kaiser标准化的正交旋转法

经过旋转后的公因子具有了实际意义,因为因子载荷是变量与公共因子的相关系数,对于一个变量来说因子载荷绝对值较大的因子与它的关系更为密切,也

更能代表这个变量,所以我们根据选择成分矩阵对其进行命名解释。

公因子一定义为公司制度,包括X5:薪酬分配不公平,制度不合理;X7:缺乏员工职业规划;X9:忽视对员工的培训和提升;X10:绩效考核制度不公平; X11:管理制度不科学。

公因子二定义为员工满意度,包括X1:感觉工作无聊枯燥不开心;X3:工作环境差;X6:工作不能带来成就感和满足感;X12:工作压力大。

公因子三定义为企业文化,包括X4:无法接受公司的组织文化;X8:上下级及其同事之间交流不畅;X14:不赞同公司的管理模式;X16:无法接受领导的领导方式。

公因子四定义为薪酬福利,包括X15:工资低,奖金少;X17:福利差。

公因子五定义为外部环境,包括X2:大型企业更能满足我的需要;X13:其他公司挖角;X18:公司行业发展前景不好。

从上表中我们可以看到,每个公因子与变量之间都具有较强的相关性,因此我们可以认为提取的公因子是合理。这样就可以利用新提取出来的这5个公因子对H公司人才流失的影响因素进行描述了。

(四)H公司人才流失原因的描述性统计分析

通过上文中的分析,我们将18个变量归结为六个公共因子,这五个公共因子分别是公司制度、员工满意度、企业文化、薪酬福利以及外部环境。接下来我们就要对这五个公共因子分别进行进行描述性统计分析。

1.公司制度

员工培训制度;四是绩效考评制度;五是公司管理制度。由上表可知,薪酬分配不公平,制度不合理的均值为 3.30,权重为0.22;缺乏员工职业规划的均值为2.73,权重为0.17;忽视对员工的培训和提升的均值为2.77,权重为0.18;绩效考核制度不公平的均值为3.16,权重为0.21;管理制度不科学的均值3.34为,权重为0.22。通过比较可知管理制度、薪酬分配制度和绩效考核制度对该公司人才流失的影响比较大。

2.员工满意度

工作的满足感;四是员工工作压力。由上表可知,感觉工作无聊枯燥不开心的均值为3.50,权重为0.26;工作环境差的均值为3.16,权重为0.23;工作不能带

来成就感和满足感的均值为3.93,权重为0.29;工作压力大的均值为3.05,权重为0.22。四者通过比较可知员工对工作的满足感对该公司人才流失的影响比较大。

3.企业文化

理模式;四是领导者的领导风格。由上表可知,无法接受公司的组织文化的均值为3.43,权重为0.28;上下级及其同事之间交流不畅的均值为2.41,权重为0.20;不赞同公司的管理模式的均值为3.20,权重为0.26;无法接受领导的领导方式的均值为3.14,权重为0.26。四者通过比较可知组织文化对该公司人才流失的影响比较大。

4.薪酬福利

低,奖金少的均值为3.05,权重为0.50;福利差的均值为3.02,权重为0.50。因此可知工资奖金和福利待遇对该公司人才流失的影响都比较大。

5.外部环境

角;三是本公司所在的行业前景。由上表可知,大型企业更能满足我的需要的均值为3.41,权重为0.36;其他公司挖角的均值为3.05,权重为0.32;公司行业发展前景不好的均值为3.05,权重为0.32。三者通过比较可知大型企业的吸引力对该公司人才流失的影响比较大。

6.综合分析

度和员工满意度对H公司人才流失的影响比较大,薪酬福利和企业文化对H公司人才流失的影响比较小。

(五)计算因子得分

利用SPSS统计软件进行因子分析,该系统软件运行以后,我们还可以得到因子得分的系数矩阵,即查看器窗口输出的成分得分系数矩阵,如下表4-11所示:

旋转法:具有Kaiser标准化的正交旋转法

构成得分

根据上表我们可以得到最终的因子得分公式:

F1= 0.008X1+0.047X2-0.125X3+…-0.075X17-0.049X18

F2= 0.146X1-0.029X2+0.410X3+… 0.184X17-0.016X18

F3= 0.062X1-0.004X2+0.058X3+…-0.136X17+0.135X18

F4=-0.012X1+0.011X2+0.016X3+…-0.479X17+0.051X18

F5= 0.057X1+0.521X2-0.057X3+…+0.331X17+0.361X18

这时候当我们回到数据编辑器窗口的当前数据集时,会看到文件中增加了5列,即5个公共因子的得分。根据每个因子的得分情况,可以看出外部环境、公司制度和员工满意度的得分比较高,相比之下,薪酬福利和企业文化的得分比较低一些,也就是说外部环境、公司制度和员工满意度对H公司人才流失的影响比较大,薪酬福利和企业文化对H公司人才流失的影响比较小。

五、针对H公司人才流失问题的对策

通过前文中的研究与分析,得出了H公司才流失的具体原因,本章将针对这

些原因,结合H公司的实际情况提出几点相应的对策和建议,希望能对解决H 公司人才流失问题有所的帮助。

(一)稳定公司发展,提高公司自身吸引力和竞争力

对于一个企业来讲导致其人才流失的根本原因总结起来说只有一个,那就是企业本身对人才的吸引力小于外部环境对人才的吸引力,人才都会本能的选择对自己吸引力更强的,更有利于自身的方向发展。既然如此,作为一个公司来说,要想留住人才就必须使自己相比于其他公司更具吸引力。但是,H公司并不能做到直接降低外部环境对人才的吸引力,所以只能通过提高自身的吸引力来间接的降低外部环境对自己人才的吸引力,进而避免人才流失现象的产生。一个公司的吸引力总体上来说可以分为物质上的和精神上的两个方面,所以要想提高其吸引力,就要从这两个方面下手。

(二)完善公司制度

1.该公司要想留住人才必须实现公司内部的规范化、科学化管理,加快建立健全公司的科学管理制度,进一步健全和完善内部治理结构,科学分工,合理设计,职责分明,从而实现专业化、科学化管理。从科学的公司管理制度上避免不利于公司发展的管理工作上的专政独裁和家族化管理。

2.实施高效的绩效考核制度,正确认识绩效考核的激励作用,制定基于工作分析的考核指标和方法。

3.制定公平的薪酬分配制度,提升薪酬管理高度,改善人力资本运营的模式,完善岗位绩效薪酬制,并确保薪酬制度的细分化,支付方式的透明化。

4.明确培训制度,定期组织技术人员培训学习,将会有利于员工行使自己受教育和培训的权力,提升自己的同时为公司带来更多的收益。

5.晋升制度透明化,以便员工明确进步的空间和方向,并为之不断奋斗,从而加速企业血液流动,激发人才的工作热情,调动人才积极性,将会对公司留住优秀人才产生事半功倍的效果。

(三)提高员工工作满意度

1.坚持以人为本,为公司员工提供尽可能舒适、方便的工作物理环境的同时,加强公司内部人际关系方面的优化改善。

2.员工工作内容的枯燥、单调、简单和被动性执行是导致员工对工作自身不满意的主要原因。H公司可以通过对工作进行设计和再设计,增加工作内容的丰富度,减轻其员工对工作内容的不满。

(四)加大福利投资

相对于H公司较低的基本工资和比较恶劣的工作环境,良好的福利保障是留住人才的一大有力措施。落实“五险一金”制度,扩建基础设施,给予非物质性奖励,使员工能够感觉到公司对他们的关心与重视,从而激励其留在公司继续为公司奋斗。

(五)建立良好的组织文化

作为一个现代企业要想在激烈的竞争环境中生存下来,只有通过建立并形成企业自己的文化,才能给企业以生生不息的内在力量。

1.H公司必须结合自己目前的实际情况,摈弃家族式管理模式中存在的缺点,采用先进的现代科学管理模式。尽快找出一种即有利于自身发展,又适应目前大环境的现代科学管理模式,只有这样才能避免因该公司权力过度集中带来的一系列弊端,也避免了人才觉得在公司没有前途的这种想法。

2.H公司的领导者大多数为创业一代,首先,他们确实有很多值得学习的的经验,

但不能沉溺其中而不能自拔,他们需要不断的学习新知识,摆正自己的位置,作为经营决策者,不能独裁专制,也要学会适当的授权给下属。要学会选人、用人,通过借助别人的力量,进行组织行为,来实现公司的盈利,进而提高自己在公司员工心目中的人格魅力和影响力。

3.建设沟通文化

一个公司如果没有沟通,就没有管理、没有效率。H公司要加强部门之间的沟通与协调,营造和谐的人际关系,协调好管理者与员工的关系,增进彼此的信任与理解。促进员工之间交流,增进员工之间的感情。

4.增强法文化意识

对于H公司人才流失现象严重并给该公司带来了严重不良影响的情况,H公司要学会用法来规范人才流失,以保证企业与人才双方的利益,平衡双方的权利与义务。H公司要根据国家相关法律法规,对本公司的人才流失进行调控,根据自身实际情况制定合法、合理、合情的公司规章制度。

(六)其他措施

1.加强预防

预防人才的流失应该从根源做起,也就是说要从人才的招聘开始,进行人才招聘时候不仅要考查应聘者的工作能力,更要注重他们的人品。在人才被公司录用以后,对他们采取轮岗的工作方法和适当的分权制度,避免万一其离开以后会给公司带来巨大的损失。还要也要加强加大公司对接班人的培养,促进公司人力资源的血液流动,不断有技术高、能力强的人才涌现。

2.尽力挽留

公司在接到核心员工的辞呈以后,将该核心员工辞职的消息严密封锁,一是为自己的挽留赢得回旋的余地,二是为其员工日后改变主意留在企业消除了一个障碍。其次,公司要尽快识别该核心员工离职的原因与动机,为接下来制定挽留措施做好准备。最后就是要根据该核心员工旋转离职的原因做出具体挽留措施。5.6.3离职面谈

在经过公司对要离职的优秀人才诸多的挽留努力后,辞职的核心员工仍不肯改变主意留下来的话,公司的管理者应该对该为未能留下该人才而表示遗憾,并善意的理解他们的离职,对他们进行最后的离职面谈。在离职面谈后,管理者应该及时地把员工的意见整理出来,对于一些公司确实存在的缺点及时的改进不但可以有效防止其他员工的流失,而且还有可能让已经下定决心离开的员工回心转意,至少让他们在将来还有可能再回到这个公司里来。

六、结论

本文在基于对人才流失相关理论的大量阅读和系统分析的基础上,结合H 公司的实际情况,通过利用因子分析法,借助 SPSS 统计软件对H公司的人才流失现状进行了系统的分析,得到了影响H公司人才流失的主要因素,并在此基础上总结出了导致H公司人才流失的原因,最后结合H公司的实际情况,制定出来一系列可以帮助H公司留住公司人才,避免人才流失的有效措施,为H公司在将来应对人才流失和避免人才流失问题提供了可实施的措施。

参考文献:

[1]赵光辉.核心人才流失:研究背景与主要理论[J].科技管理研究.2008(4):159

[2] 谢晋宇,王英,张再生.企业雇员流失:原因、后果与控制.北京.经济管理出版社.1999:21-93

[3]谢红琴.我国基金投资评价方式实证研究:基于因子分析法的基金重仓股研究[J].河南社会科学.2012(2):61-65

[4]游家兴.如何正确运用因子分析法进行综合评价[J].统计教育.2003(5):10-11

[5]王文桂.因子分析法在公司并购财务绩效评价中的应用[J].企业导报.2011(1):65-67

[6]李轩,靳慧文,郭继东.人力资源会计确认与计量研究[J].内蒙古科技与经济. 2009(21):19-20

[7]柴继红. 执行力是企业发展壮大的重要障碍[J].经济师.2011(10):258

[8]卜云辉.中小企业人才流失成因及对策研究:以CF公司为例[M].浙江工业大学.2009

[9]李洪瑞,王哲,李浩.高校高层次人才薪酬体系的国际比较[J].现代教育管理.2012(07):126-127

[10]胡杏菁.论中小型民营企业人员流动与管理[J].经济与管理.2010(16):31-32

[11]张仙茹.主成份分析法的电子档案工作人员离职行为影响因素研究.技术与市场[J].2011(4):147

[12]杜强,贾丽艳,严先. SPSS统计分析从入门到精通(2).北京.人民邮电出版社.2014.275-282

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章:

二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21

特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

多元统计分析期末试卷

一、(本大题共2小题,每题5分,共10分) 1、设),(~3∑μN X ,其中???? ? ?????=∑-==221231111,)'1,3,2(,)',,(321μX X X X ,试求32123X X X +-的分布。 2、设三个总体321,G G G 和的分布分别为:)1,3()2,0(),5.0,2(222N N N 和。试按马氏距离判别准则判别x =2.5应判归哪一类? 二、(本题10分)设'1233(,,)~(,)X X X X N μ=∑,其中 )10(11 1 ,)',,(321<

三、(本题10分)已知5个样品的观测值为:1,4,5,7,11.试用按类平均法对5个样品进行分类。 四、(本题10分)设有两个正态总体21G G 和,已知(m=2) ? ? ? ???=∑=∑??????=??????=32121218,2520,151021)1()1(μμ ,先验概率21q q =,而,10)12(=L 75)21(=L 。试问按贝叶斯判别准则样品?? ? ???=??????=2015,2020)2() 1(X X 各应判归哪一类?

五、(本题10分)假定人体尺寸有这样的一般规律:身高(1X ),胸围(2X )和上半臂围(3X )的平均尺寸比例是6:4:1。假定),,1()(n X =αα为来自总体)',,(321X X X X =的随机样本,并设),(~3∑μN X 。试利用下表中数据来检验其身高、胸围和上半臂围这三个尺寸是否符合这一规律。(94.6)4,2(,05.005.0==F α)

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

应用多元统计分析课后答案

应用多元统计分析课后答案 第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 2 1/21 (2)()p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

matlab与应用多元统计分析

多元统计分析中的应用研究 , 摘要:许多实际问题往往需要对数据进行统计分析,建立合适的统计模型,过去一般采用SAS 、SPSS软件分析,本文给出 Matlab软件在多元统计分析上的应用, 主要介绍Matlab 在聚类分析、判别分析、主成份分析上的应用,文中均给以实例, 结果令人满意。 关键词:Matlab软件;聚类分析;主成份分析 Research for application of Multivariate Statistical Analysis Abstract:Many practice question sometimes need Statistical Analysis to data.,and establish appropriate Statistical model SAS and SPSS software were commonly used in foretime ,this paper give the application of Matlab software in Multivariate Statistical Analysis,mostly introduce the application of Matlab software in priciple component analysis and cluster analysis and differentiate analysis.The example are given in writing and the result are satisfaction. Key words: Matlab software; cluster analysis; priciple component analysis 0 引言 许多实际问题往往需要对数据进行多元统计分析, 建立合适的模型, 在多元统计分析方面, 常用的软件有SAS 、SPSS 、S-PLUS等。我们在这里给出Matlab在多元统计分析上的应用, 在较早的版本中, 统计功能不那么强大, 而在Matlab6.x版本中, 仅在统计工具中的功能函数就达200多个, 功能已足以赶超任何其他专用的统计软件,在应用上Matlab具有其他软件不可比拟的操作简单,接口方便, 扩充能力强等优势, 再加上Matlab的应用范围广泛, 因此可以预见其在统计应用上越来越占有极其重要的地位,下面用实例给出Matlab 在聚类分析、主成份分析上的应用。 1 聚类分析 聚类分析法是一门多元统计分类法,其目的是把分类对象按一定规则分成若干类,所分成的类是根据数据本身的特征确定的。聚类分析法根据变量(或样品或指标)的属性或特征的相似性,用数学方法把他们逐步地划类,最后得到一个能反映样品之间或指标之间亲疏关系的客观分类系统图,称为谱系聚类图。 聚类分析的步骤有:数据变换,计算n个样品的两两间的距离,先分为一类,在剩下的n-1个样品计算距离,按照不同距离最小的原则,增加分类的个数,减少所需要分类的样品的个数,循环进行下去,直到类的总个数为1时止。根

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

多元统计分析模拟考题及答案

、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4

多元统计分析期末考试考点整理

二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1

2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.

多元统计分析期末试题

1 、填空题(20分) 1、 若X Q ~ N p (g ,(a =1,2,…n)且相互独立,则样本均值向量X 服从的分布为X ~ N p (g^|。 2、 变量的类型按尺度划分有 _间隔尺度_、_有序尺度_、名义尺度_。 3、 判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有 —距离判别法_、Fisher 判别法、 Bayes 判别法、逐步判别法。 4、 Q 型聚类是指对_样品-进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、 设样品X i =(X i1,X i2^ X ip )',(i =1,2,…n),总体X~N p (」「),对样品进行分类常用的距离有: 明氏距离d j (q)=(壬|Xy q i j i j 6、 因子分析中因子载荷系数a j 的统计意义是—第i 个变量与第j 个公因子的相关系数。 7、 一元回归的数学模型是:y 曆x 童,多元回归的数学模型是 8、 对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、 典型相关分析是研究两组变量之间 相关关系的一种多元统计方法。 、计算题(60分) '4 1 1、设三维随机向量X~N 3(?2),其中送=1 3 e 0 独立?为什么? 解:因为cov(X 1,X 2^1,所以X 1与X 2不独立。 把协差矩阵写成分块矩阵瓦=f 11 ;12丨,(X 1,X 2/的协差矩阵为瓦 11 因为 —21 - 22 cov((X 1,X 2),X 3)=為12,而' 12 =0,所以(X 1, X 2)和X 3是不相关的,而正态分布不相关与相互独 立是等价的,所以(X 1,X 2)和X 3是独立的。 0,问X 1与X 2是否独立? 2> (X 1,X 2)和X 3是否

几种多元统计分析方法及其在生活中的应用[1]

第2章聚类分析及其应用实例 2. 1聚类分析简介 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统 计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性來进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的[']。 聚类分析方法有很多,按不同的分类方式,有不同的分类。按聚类方法的不 同可分为以下几种: (1)系统聚类法:对所在的指标进行分类,每一次将最相似的两个数据合并 成一类,合并之后和其他数据的距离会重新计算,这个步骤会不断重复下去直至所有指标合并成一类,并类的过程可用一张谱系聚类图描述. (2)调优法(动态聚类法):所谓调优法,从表面意思就可以看出是在对n 个对象初步分类后,根据分类后的信息损失尽可能小的原则对分类进行择优调整,直到分类合理为止. (3)有序样品聚类法:在很多实际问题中,所谓的样品都是相互独立的个体, 因此可以平等的划分。但是有序样品聚类法的存在就是因为在另外一些实际问题中,样品之间是存在着某种联系而在分类中是不允许打乱顺序的。有序样品聚类法开始时将所有样品归为一类,然后根据某种分类准则将其分为二类等等,一直往下分类下去直至满足分类要求。它的思想正好与系统聚类法的相反。 (4)模糊聚类法:利用模糊聚集理论来处理分类问题,它对经济领域中具有 模糊特征的两态数据或多态数据具有明显的分类效果. (5)图论聚类法:在处理分类问题中独创性的引入了图论中最小支撑树的概

念。 (6)聚类预报法:顾名思义,就是用聚类分析的方法来在各个领域中进行预 报。在多元统计分析中,判别分析、回归分析等方法都可以用来做预报,但是在 一些异常数据面前,这些方法做的预报都不是很准确,方法也不好准确的实施, 而聚类预报则很好的解决了这一点。可以预见,聚类预报法经过更深入的研究后,一定会得到更加广泛的应用。 按聚类对象的不同,聚类分析可分为2型[对样品(CASES)聚类]与型[对 变量(V ARIABLE)聚类],两种聚类在方法和步骤上都基本相同. 2. 2聚类分析方法介绍 数学方法在实际应用中是否受欢迎,最主要的一点就是它能不能适用于大型 6 第2章聚类分析及.11;应用实例 计算的问题。图论聚类法、基于等价关系的聚类方法和谱系聚类法在大型问题中 难以快速有效处理数据而应用甚少。基于目标函数的聚类方法因其设计简单,在 实际生活中被广泛运用,其主要思想是将问题转换为带约束条件的非线性优化, 这样就可以运用完备的线性最优化知识解决问题,而且这种方法也易于在计算机 上实现。而伴随着计算机技术的突飞猛进,基于目标函数的聚类方法必定会成为 研究的热点。 2. 2. 1谱系聚类方法 在待分析样本数较小时,通常采用谱系聚类方法(系统聚类法)。谱系聚类法 是按距离准则来对样本进行分类的,例如我们要将样本集X中的《个样本划分为C

多元统计分析的重点和内容和方法

一、什么是多元统计分析 ?多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。 ?多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。 二、多元统计分析的内容和方法 ?1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。 (1)主成分分析 (2)因子分析 (3)对应分析等 ?2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。 (2)判别分析:判别样本应属何种类型的统计方法。 例5:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。 考察指标有6个: 1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数 ?3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 二是:两组变量间的相互关系(典型相关分析) ?4、多元数据的统计推断 点估计 参数估计区间估计 统u检验 计参数t检验 推F检验 断假设相关与回归 检验卡方检验 非参秩和检验 秩相关检验 ?1、假设检验的基本原理

小概率事件原理 ? 小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。反证法思想是先提 出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。 ? 2、假设检验的步骤 (1)提出一个原假设和备择假设 ? 例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cm (u=160cm )。这种原 假设也称为零假设( null hypothesis ),记为 H 0 。 2.1 均值向量的检验 ? 1、正态总体均值检验的类型 ? 根据样本对其总体均值大小进行检验( One-Sample T Test ) 如妇女身高的检验。 ? 根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test ) 如两个班平均成绩的检验。 ? 配对样本的检验( Pair-Sample T Test ) 如减肥效果的检验。 ? 多个总体均值的检验 ? A 、总体方差已知 用u 检验,检验的拒绝域为 即 ? B 、总体方差未知 用样本方差 代替总体方差 ,这种检验叫t 检验. (2)根据来自两个总体的独立样本对其总体均值的检验 ? 目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t 检验也没有大的差别,只 是假设的表达和t 值的计算公式不同。 ? 两样本均数比较的t 检验,其假设一般为: 12 { }W z u α- =>112 2 {} W z u z u αα - - =<->或2 s 2σ Ⅲ 0μμ= 0μμ< α--<1u z )1(1--<-n t t α

多元统计分析期末试题及答案

1、设X ~ N 2(, ),其中X =(x 1,x 2),=( 1,2), = 2 , 2 I 2 1 2 1 则Cov(x +x ,x -x )= ________ . 10 2、设X i ~ N 3(,),i =1,L ,10,则W = ( X i -)(X i - ) i =1 服从 ______________ 。 4 - 4 3 3、设随机向量X = (x 1 x 2 x 3 ) ,且协方差矩阵 = -4 9 -2, 3 - 2 16 则它的相关矩阵R = ____________________ 4、 设X=(x 1 x 2 x 3 ), 的相关系数矩阵通过因子分析分解为 X 1 的共性方差h 1 2 = _______________ X _1 , 的 方 差 11 = 公 因子f 1对X 的贡献g 12 = 5、设X i ,i =1,L,16 是来自多元正态总体 N p ( , ),X 和A 分别为正态总体N p (,) 的样本均值和样本离差矩阵,则T 2=15[4(X -)] A - 1[4(X - )] ~ ____________________ 。 16 - 4 2 1、设 X =(x 1 ,x 2 ,x 3 )~ N 3(, ),其中= (1,0, -2), = -4 4 -1 2 - 1 4 试判断x 1 + 2x 3 与 x 2 - x 3 是否独立? I 、设随机向量X 的均值向量、协方差矩阵分别为 、 , R = 1 2 3 0.934 0.128 -0.417 0.835 0= -0.417 0.894 0.027 0.894 0.447 0.835 0.447 0.103 1 1 3 0

相关文档
最新文档