数学建模多元统计分析
统计师如何进行多元统计分析与建模

统计师如何进行多元统计分析与建模多元统计分析与建模是统计学领域中一种强大的分析方法,用于研究多个自变量与一个或多个因变量之间的关系。
统计师在进行多元统计分析与建模时,需要掌握各种技巧和方法,并合理应用它们来解决实际问题。
本文将介绍统计师如何进行多元统计分析与建模,以及一些常用的分析方法。
一、数据收集与预处理在进行多元统计分析与建模之前,统计师需要收集相关的数据,并对数据进行预处理。
首先,统计师需要确定所需数据的类型和来源,并制定数据收集计划。
其次,统计师需要对数据进行清洗与筛选,删除缺失值或异常值,并进行数据转换与标准化。
二、选择合适的多元统计方法多元统计分析与建模有多种方法可供选择,如多元方差分析、多元回归分析、主成分分析等。
统计师需要根据具体问题的需求和数据类型,选择合适的方法进行分析。
不同的方法有不同的前提条件和假设,统计师需要确保选择的方法适用于所研究的数据和问题。
三、进行多元统计建模多元统计建模是指基于已有数据进行模型构建和参数估计的过程。
统计师需要选择适当的建模方法,并根据数据和问题的特点进行建模分析。
在建模过程中,统计师需要注意模型的适应性和拟合度,避免过拟合或欠拟合的情况发生。
四、解释与评价模型结果统计师在进行多元统计分析与建模后,需要对模型结果进行解释和评价。
统计师需要解释模型中各个自变量对因变量的影响程度和方向,并评价模型的拟合度和统计显著性。
此外,统计师还可以进行模型的诊断和敏感性分析,以进一步评估模型的可靠性和稳定性。
五、结果呈现与报告撰写最后,统计师需要将多元统计分析与建模的结果呈现给相关人员或群体。
统计师可以使用图表、表格或文本等方式将结果清晰地呈现出来,并用简洁明了的语言进行解释。
同时,统计师还需要撰写相关的分析报告,包括分析目的、方法选择、数据处理、结果解释等内容,以便他人能够理解和使用。
综上所述,统计师在进行多元统计分析与建模时,需要进行数据收集与预处理、选择合适的方法、进行建模分析、解释与评价模型结果,并将结果呈现给相关人员或群体。
数学建模多元统计分析引论

数学建模多元统计分析引论数学建模与多元统计分析是现代统计学中的重要分支,广泛应用于各个领域。
本文将介绍数学建模的基本概念和方法,以及多元统计分析的基本原理和应用。
一、数学建模数学建模是指将实际问题转化为数学问题,并通过数学模型进行分析和求解的过程。
数学建模的目的是通过数学模型来描述和模拟实际问题,从而得出有关问题的一些结论和解决方案。
数学建模的过程通常包括以下几个步骤:1.问题的描述和分析:首先要对实际问题进行准确的描述和分析,明确问题的目标和约束条件。
2.模型的建立:根据问题的特点和需求,选择适当的数学模型来描述问题。
常用的数学模型包括线性模型、非线性模型和随机模型等。
3.模型的求解:根据模型的类型和性质,选择合适的方法和算法来求解模型。
常用的方法包括数值求解、优化算法和随机模拟等。
4.模型的验证和分析:对求解结果进行验证和分析,评价模型的可靠性和适用性。
如果需要,可以对模型进行修正和改进。
数学建模的核心是数学模型的建立和求解。
数学模型是对实际问题的抽象和简化,通过数学模型的求解,可以获得有关问题的一些重要信息和结论。
数学建模在工程、经济、生物、环境等领域都有广泛的应用。
二、多元统计分析多元统计分析是指对多个变量之间的关系和差异进行统计分析的方法。
它将统计学的基本概念和原理扩展到多个维度,并通过数学模型和统计方法来研究和解释这些多元数据。
多元统计分析的主要内容包括多元数据的描述、多元数据的降维和多元数据的分类与聚类等。
具体包括以下几个方面的内容:1.多元数据的描述:对多元数据进行统计描述,包括均值、方差、协方差、相关系数等。
通过描述统计,可以了解多元数据的分布和变化情况。
2.多元数据的降维:通过主成分分析、因子分析等方法将多元数据降维,提取出主要信息和特征。
降维可以简化多元数据的分析和处理过程,并通过降维后的数据进行可视化和解释。
3.多元数据的分类与聚类:根据多元数据的特征,将数据进行分类和聚类,找出数据中的规律和结构。
数学建模-多元统计

逐步判别法
在判别问题中,当判别变量个数较多时, 如果不加选择地一概采用来建立判别函数,不 仅计算量大,还由于变量之间的相关性,可能 使求解逆矩阵的计算精度下降,建立的判别函 数不稳定。因此适当地筛选变量的问题就成为 一个很重要的事情。凡具有筛选变量能力的判 别分析方法就统称为逐步判别法。
逐步判别法其基本思路类似于逐步回归分析,按 照变量是否重要逐步引入变量,每引入一个“最重要” 的变量进入判别式,同时要考虑较早引入的变量是否 由于其后的新变量的引入使之丧失了重要性变得不再 显著了(例如其作用被后引入地某几个变量的组合所 代替),应及时从判别式中把它剔除,直到判别式中 没有不重要的变量需要剔除,剩下来的变量也没有重 要的变量可引入判别式时,逐步筛选结束。也就是说 每步引入或剔除变量,都作相应的统计检验,使最后 的判别函数仅保留“重要”的变量。
数 学 建 模
华中农业大学数学建模基地系列课件
聚类分析
聚类分析又称群分析,它是研究分类问题的一 种多元统计方法。所谓类,通俗地说,就是指相似 元素的集合。那么要将相似元素聚为一类,通常选 取元素的许多共同指标,然后通过分析元素的指标 值来分辨元素间的差距,从而达到分类的目的。 聚类分析可以分为:Q型(样品分类)分类、 R型(指标分类)分类。这里介绍的是Q型(样 品分类)分类。
Cluster History表示聚类的具体过程,NCL表示 当前系统存在类的总个数,Clusters Joined表示当前 加入的编号,例如NCL等于20时,是类1,2聚为一类, FREQ表示新类的元素个数。SPRSQ表示类与类间最 2 短规格化最短距离,RSQ表示R 统计量,ERSQ表示半 2 偏R 统计量,CCC统计量值。PSF为伪F统计量,PST2 2 为伪t 统计量。Tie表示“节”,是指当前类间最小距离 不止一个的时候,此时可以任意选择一对最短距离进 行聚类,在计算其他类与新类的距离。从CCC统计量 的结果可以看出,最大值对应的类数为4。从四类合并 2 为三类时,伪t 统计量显著的增加,伪F统计量下降显 著,综合各方面的结果,因此分4类最为合适。
多元统计分析建模

模糊交集与模糊并集 设x=(x1,x2,…xn),y=(y1,y2,…,yn),xi,yi[0,1] 爱因斯坦积:
zi xi y i 2 xi y i xi y i xi y i 1 xi y i
爱因斯坦和:
wi
注意:zi,wi仍然[0,1],且有
zi<xi<wi,zi<yi<wi
多元统计分析建模方法
李柏年 刘德志
统计与应用数学学院
STATISTICS & APPLIED MATHEMATICS
一
数据处理方法
二
聚类分析 主成分分析 典型相关分析 历史建模试题
目
录
三 四 五
一
数据处理方法
Box-Cox变换是统计建模中常用的一种 数据变换,用于连续的响应变量不满足正态 分布的情况。比如在使用线性回归的时候, 由于残差不符合正态分布而不满足建模的条 件,这时候要对响应变量进行变换,把数据 变成正态的。 1. boxcox变换
从图上可以看出散点并不聚集在直线上,因此流 域成灾面积(原始数据)不服从正态分布,这一 点也可以通过jbtest检验来证实.但是通过变换以后 的图形如图2所示,显然数据服从正态分布.
图2 流域成灾面积(变换后数据)qq图
表1. 1991各地区居民月人均消费数据
X1 8.35 9.25 8.19 7.73 9.42 9.16 10.06 9.09 9.41 8.7 6.93 8.67 9.98 6.77 8.14 7.67 7.9 7.18 8.82 6.25 10.6 7.27 13.45 10.85 7.21 7.68 7.78 X2 23.53 23.75 30.5 29.2 27.9 27.98 28.64 28.12 28.2 28.12 29.85 36.05 37.69 38.69 37.75 35.71 39.77 40.91 33.7 35.02 52.41 52.65 55.85 44.68 45.79 50.37 48.44 X3 7.51 6.61 4.72 5.42 8.2 9.01 10.52 7.4 5.77 7.21 4.54 7.31 7.01 6.01 9.61 8.04 8.49 7.32 7.59 4.72 7.7 3.84 5.5 7.32 7.66 11.35 8 X4 8.62 9.19 9.78 9.43 8.14 9.32 10.05 9.62 10.8 10.53 9.49 7.75 8.94 8.82 8.49 8.31 12.94 8.94 10.98 6.28 9.98 9.16 7.45 14.51 10.36 13.3 20.51 X5 17.42 17.77 16.28 19.29 16.17 15.99 16.18 17.26 16.36 19.45 16.62 16.67 16.15 14.79 13.15 15.13 19.27 17.6 18.82 10.03 12.53 13.03 9.55 17.13 16.56 19.25 22.12 X6 10 10.48 7.6 8.49 9.42 9.1 8.39 11.12 11.56 13.3 10.65 11.68 11.08 11.44 9.76 7.76 11.05 12.75 14.73 7.15 11.7 15.26 9.52 12.08 12.86 14.59 15.73 X7 1.04 1.72 2.52 2.52 1.55 1.82 1.96 2.49 1.53 1.66 1.88 2.38 0.83 1.74 1.28 1.41 2.04 1.14 1.78 1.93 2.31 1.98 2.21 1.26 2.25 2.75 1.15 X8 11.21 10.51 10.32 10 9.76 11.35 10.81 12.65 12.17 11.96 13.61 12.88 11.67 13.23 11.28 13.25 13.29 14.8 10.1 10.39 14.69 14.57 16.3 11.57 11.69 14.87 16.61
统计师如何进行多元统计分析与建模

统计师如何进行多元统计分析与建模统计学是一门关于数据收集、分析和解释的学科,它在各个领域中都有着重要的应用。
在当今复杂的数据环境中,多元统计分析与建模成为了统计师必备的技能之一。
本文将介绍统计师在进行多元统计分析与建模时应注意的要点以及常用的方法。
一、多元统计分析的概述多元统计分析是指对多个变量之间的关系进行分析的统计方法。
它可以帮助我们理解变量之间的相互作用关系,挖掘隐藏在数据背后的规律和趋势。
多元统计分析包括主成分分析、因子分析、聚类分析、判别分析、回归分析等方法。
二、多元统计分析的步骤进行多元统计分析时,统计师需要按照以下步骤进行:1. 数据准备:收集所需的数据,确保数据的准确性和完整性。
2. 变量选择:根据研究目的,选择与分析问题相关的变量,排除与研究无关的变量。
3. 数据清洗:对数据进行清洗和处理,包括缺失值处理、异常值检测与处理等。
4. 变量标准化:对变量进行标准化处理,使得不同尺度和单位的变量具有可比性。
5. 多元统计分析方法选择:根据研究问题的性质和数据的特点,选择适当的多元统计方法进行分析。
6. 模型建立:根据选定的多元统计方法,建立合适的模型,进行分析和解释。
7. 模型评估:对建立的模型进行评估,检验模型的拟合度和稳定性。
8. 结果解释:根据模型的结果,给出合理的解释和建议。
三、多元统计分析方法1. 主成分分析:主成分分析是一种降维方法,可以将多个相关变量转换为少数几个无关的主成分。
通过主成分分析,可以挖掘出数据中的主要信息,减少数据的维度,方便后续的分析和解释。
2. 因子分析:因子分析也是一种降维方法,它通过分析变量之间的共同方差,将原始变量转化为一些互相无关的因子。
因子分析可以帮助我们发现潜在的变量结构,解释数据的内在含义。
3. 聚类分析:聚类分析是一种通过样本间的相似度或距离来划分样本的方法。
它将相似的样本分为同一类,不相似的样本分为不同类,从而使数据具有更好的可解释性和预测性。
2021数学建模中三种统计分析法的运用范文2

2021数学建模中三种统计分析法的运用范文 摘要: 多元统计分析方法是被广泛应用的一种数据处理方法,包括主成分分析、因子分析以及独立成分分析,这三种统计分析方法可以应用在多变量、大数据的处理过程当中。
现阶段,数学建模竞赛得到了许多院校的重视,而许多建模竞赛的题目都要进行数据的预处理,因此,可以将三种统计分析方法应用在数学建模数据分析当中。
本文主要对主成分分析、因子分析以及独立成分分析方法进行简介,进一步研究了三种统计分析方法在数据建模中的应用。
关键词: 主成分分析;因子分析; 独立成分分析; 数学建模; 数学建模竞赛等与样本数据相关的问题都需要进行数据的统计预处理,在此过程中,涉及的数据以及变量较多,因此增加了数据处理的复杂程度,在处理时希望把多变量转换为较少的综合变量,从而能够反映出相应的变量信息。
而主成分分析、因子分析以及独立成分分析方法可以处理多变量、大样本的数据信息,同时能够进行降维处理,在数学建模竞赛当中得到了较为广泛的应用。
因此,对这三种统计分析方法进行研究具有实际的应用意义。
一、三种统计分析方法简介 (一)主成分分析 主成分分析法(PCA)就是指通过正交变换,把分量相关的多个变化转化为分量不相关的综合变量的过程。
其中,被选择出来的变量叫作主成分,可以对数据的各种指标进行解释;而综合变量不仅要能够反映出原变量的信息,还要保证互不相关。
主成分分析法是一种数学变换方法,在变换的过程中,变量的方差是不变的,还要以方差递减的形式把变换后的综合变量进行排序。
(二)因子分析 因子分析法(FA)是主成分分析法的推广,主要是把原始的变量通过一些公共的因子变量来表示,是一种研究把多个观测变量转变为少数的不相关的综合变量的一种统计分析方法。
此种方法主要针对在大量观测数据当中得到一部分有价值的、难以直接测量的、相对独立的因子。
(三)独立成分分析 独立成分分析法(ICA)是主成分分析法以及因子分析法的延伸,此种方法应用效果较好,一旦其他的统计方法失效,那么依然可以找出支持观测数据的内在因子。
14849-数学建模-《应用多元统计分析》第10章_多维标度法

多维标度法内容丰富、方法较多。
按相似性(距离)数据测量尺度的不同MDS可分为:度量 MDS和非度量MDS。当利用原始相似性(距离)的实际数值 为间隔尺度和比率尺度时称为度量MDS(metric MDS),当利用 原始相似性(距离)的等级顺序(即有序尺度)而非实际数值 时称为非度量MDS(nonmetric MDS)。
在此基础上也可按对象点之间距离的远近实现对样品的分类 ,多维标度法能弥补聚类分析的不足之处,因为聚类分析将 相似的样品归类,最后得到一个反映样品亲疏关系的谱系图 。聚类分析比较简便易行,但是,聚类分析的缺点是将一些 高维的样品强行纳入一个一维的谱系分类中,常常使原始样 品之间的关系简单化,甚至有时失真。而多维标度法是将几 个高维研究对象,在近似的意义下,从高维约简到一个较低 维的空间内,并且寻求一个最佳的空间维数和空间位置如2 维或3维)而仍保持各研究对象数据的原始关系。
8 2139 1858 949 1645 347 2594 2571 0
678 2442
9 2182 1737 1021 1891 959 2734 2408 678 0
2329
10 543 597 1494 1220 2300 923 205 2442 2329 0
1=Atlanta , 2=Chicago, 3=Denver, 4=Houston, 5=Los Angeles 6=Miami , 7=New York, 8=S an Francisco , 9=Seattle, 10=Washington. DC
哈尔滨工业大学-多元统计分析-数学建模必备-葛虹知识讲解

(xpiXp)2 (x1iX1)2
(x1iX1)x(2iX2)
(x1iX1)x(piXp)
(x1iX1)2 (x2iX2)2
(x1iX1)2 (xpiXp)2
1
(x2i X2)x(piXp)
(x2iX2)2 (xpiXp)2
(xpiXp)x(2iX2) (xpiXp)2 (x2iX2)2
(2)的D.F: F2(xq1,,xp); d.f f2(xq1,,xp);c.f 2(tq1,,tp)
给定 (2) ,(1)的条件密度函数:
f1(x(1)
x(2)) f(x1,,xp) f2(xq1,,xp)
两随机向量独立的充分必要条件
与 (1) (2)相互独立
f f1 f2
FF1F2
12
f1(x(1) x(2))f1(x(1))
例1
f(x1,x2) c e(0x1;x2);x1其 0,x2它 0
条件分布与独立性
两随机向量间的条件分布
(1)
(2)
(1)(X1,,Xq)
(2)(X q 1,,Xp)
的D.F: F(x1,,xp) ; d.f f(x1,,xp); c.f (t1,,tp)
(1)的D.F: F1(x1,,xq) ; d.f f1(x1,,xq);c.f 1(t1,,tq)
1
X 1与 X p 的样本相关系数
作业一
1
令
f(x,y)c0;
x2y2 k2 其它
(1)求c;
(2)求 EX,EX2,DX;
(3)证明: E(XY)0 ;
(4) X ,Y 是否相互独立?
2 设三个随机变量x,y,z的联合密度函数为:
kx2y0 zx,y1;0z3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验报告一、实验名称多元统计分析作业题。
二、实验目的(一)了解并掌握主成分分析与因子分析的基本原理和简单解法。
(二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。
(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。
三、实验内容与要求四、实验原理与步骤(一)第一题:1、实验原理:因子分析简介:(1) 1.1 基本因子分析模型设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为x1=u1+a11f1+a12f2+........+a1mfm+ε1x2=u2+a21f1+a22f2+........+a2mfm+ε2.........xp=up+ap1f1+fp2f2+..........+apmfm+εp其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。
称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。
上式可以写为矩阵形式x=u+Af+ε其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量(2) 1.2 共性方差与特殊方差xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。
每个原始变量的方差都被分成了共性方差和特殊方差两部分。
(3) 1.3 因子旋转因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。
当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。
此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。
因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。
这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0.(4) 1.4 因子得分在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。
注意:因子载荷矩阵和得分矩阵的区别:因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。
因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。
简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。
(5) 1.5 因子分析中的Heywood(海伍德)现象如果x的各个分量都已经标准化了,则其方差=1。
即共性方差与特殊方差的和为1。
也就是说共性方差与特殊方差均大于0,并且小于1。
但在实际进行参数估计的时候,共性方差的估计可能会等于或超过1,如果等于1,就称之为海伍德现象,如果超过1,称之为超海伍德线性。
超海伍德现象意味着某些特殊因子的方差为负,表明肯定存在问题。
造成这种现象的可能原因包括:共性方差本身估计的问题;太多的共性因子,出现了过拟合;太少的共性因子,造成拟合不足;数据太少,不能提供稳定的估计;因子模型不适合这些数据。
当出现海伍德现象或超海伍德现象时,应对估计结果保持谨慎态度。
可以尝试增加数据量,或改变公共因子数目,让公共因子数目在一个允许的范围内变动,观察估计结果是否有改观;还可以尝试用其他多元统计方法进行分析,比如主成分析。
2、实验步骤:(1)将原始数据标准化处理;(2)建立相关系数矩阵并计算其特征值和特征向量;将题目所给的相关系数矩阵输入并设为PHO,利用[x,y]=eig(PHO)求得PHO的特征值和特征向量。
(3)选择特征值大于等于1的特征值个数为公共因子数,或者根据特征值累计贡献率大于80%来确定公共因子。
从y表(特征值表)中我们可以看出大于等于1的特征值个数为4,所以公共因子数也为4。
(4)求得正交或斜交因子载荷矩阵;①通过上一步,我们得到了因子载荷矩阵lambda。
②因子分析,公共因子数为4,设置特殊方差的下限为0,使用factoran函数进行因子旋转。
③设置表头与变量名,计算贡献率与累计贡献率。
将lambda、Contribut、CumCont 放在一起,转为元胞数组,并显示最后的结果。
(5)计算公因子得分和综合得分。
计算因子得分方法是:用每个共因子的方差贡献率做权数,对每个因子进行加权,然后加总得到每个项目的总因子得分按总得分的多少进行排序,以反映不同免死方面对结果的影响。
根据第3步我们可以得到因子1~4的贡献率分别为: [29.1129] [ 27.3303] [ 10.7644] [ 7.2713],即为它们的权重。
再由不同面试方面所对应的因子数我们可以得到公因子得分和综合得分。
(二)第二题:1、实验原理:主成分分析是由皮尔逊在1901年首先对非随机变量引入的,后来由霍特林在1933年推广到随机向量的情形。
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,且新主成分之间相关性低、重叠少。
主成分分析在很多领域都有广泛的应用,一般来说,当研究的问题涉及多个变量,并且变量间相关性明显,即包含的信息有所重叠时,可以考虑用主成分分析的方法,这样更容易抓住事物的主要矛盾,使问题简化。
具体做法是:①对原始数据进行标准化处理 用12,,,m x x x 表示主成分分析指标的m 个变量,评价对象有n 个,ij a 表示第i 个评价对象对应于第j 个指标的取值。
将每个指标值ij a 转化为标准化指标ij a ,即,(1,2,,;1,2,,)ij jij ja a i n j m s μ-===式中:11n j ij i a n μ==∑,211()1n j ij j i s a n μ==--∑ 相应地,标准化指标变量为,(1,2,,)j jj jx x j m s μ-==②计算相关系数矩阵R()ij m m R r ⨯=1,(,1,2,,)1nkikjk ij aa r i j m n =⋅==-∑其中:1,ii ij ji r r r ==,ij r 是第i 个指标和第j 指标之间的相关系数。
③计算相关系数矩阵的特征值与特征向量 解特征方程0=-R I λ,得到特征值(1,2,,)i i m λ=12,0m λλλ≥≥≥≥;再求出相对应的特征值i λ的特征向量(1,2,,)i u i m =,其中12(,,,)T j j j mj u u u u =,由特征向量组成的m 个新的指标变量为11112121212122221122m m m mm m m mm my u x u x u x y u x u x u x y u x u x u x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 其中:1y 为第1主成分,2y 为第1主成分,⋯,m y 为第m 主成分 ④选择p (p ≤m )个主成分,计算综合评价值。
(1)计算特征值(1,2,,)j j m λ=的信息贡献率和累积贡献率用j b 表示主成分i y 的信息贡献率,则有1(1,2,,)jj mkk b j m λλ===∑用p a 表示主成分12,,,p y y y 的累积贡献率,则有11pkk p mkk a λλ===∑∑若p a 接近于1(一般p a 的范围为85%—95%)时,则用前p 个指标变量12,,,py y y 作为p 个主成分,代替原来m 个指标变量,再对p 个主成分进行综合分析。
⑤计算综合得分用j b 表示第j 个主成分的信息贡献率,则有1pj j j Z b y ==∑根据综合得分值进行评价。
2、实验步骤:本题使用的是调用pcacov函数做主成分分析的方法。
(1)首先我们定义相关系数矩阵PHO,并输入题目中所给的数据。
(2)设置pcacov函数的返回,分别为:主成分表达式的系数矩阵x;相关系数矩阵的特征值向量y;主成分贡献率向量z。
(3)接下来就可以调用pcacov函数根据相关系数矩阵作主成分分析。
(4)为了使结果更加直观,我们选择用元胞数组形式(result1)显示结果。
在横轴方向分别写出“特征值”、“差值”、“贡献率”和“累积贡献率”。
其中,diff函数式用于求导数与差分;comsum函数用于计算一个数组各行的累加值。
(5)从result1我们可以看出,前两个主成分累积功效率为 [ 97.7680],因此我们用前两个主成分进行后续分析。
(6)我们再次使用元胞数组形式(result2)显示前3个主成分表达式的系数矩阵,即z矩阵的前2列,以使结果更加直观。
(7)通过以上我们得到了2个主成分的公式以及主成分综合评价模型。
(8)接下来利用公式>> df=PHO*x(:,[1:num])和>> tf=df*z(1:num)/100;以及>>[stf,ind]=sort(tf,'descend')进行综合得分和各个主成分的得分,再把得分按从高到低的次序排列,即可得到公司的综合排序。
四、程序及其运行结果(一)第一题:1、程序1(特征值与特征向量的计算):>> [x,y]=eig(PHO)运行结果1:x =Columns 1 through 100.0152 -0.0777 0.1196 0.0819 0.1754 -0.0031 0.4403 0.1378 -0.1450 0.6108-0.0149 0.0797 -0.2294 0.2167 -0.1166 -0.0039 -0.0556 0.0003 -0.0059 -0.0478-0.0616 -0.0222 -0.0813 -0.1235 -0.2265 -0.2841 -0.0169 -0.0438 -0.3104 0.23160.3235 -0.1245 -0.0627 0.0067 0.3866 -0.2352 -0.3941 -0.2815 0.0974 0.11270.2671 0.3150 -0.3168 -0.3625 0.3504 -0.2379 0.1629 0.3807 -0.1128 0.0054-0.4623 -0.1824 -0.3547 0.3107 0.0196 -0.1979 0.1087 -0.0142 0.5137 0.1688-0.1806 -0.2084 0.2690 -0.0078 -0.0131 0.0238 0.4513 0.3024 -0.1115 -0.31030.1256 0.1762 0.6224 0.2938 -0.0938 -0.4950 0.0089 -0.1606 -0.0167 -0.09000.0136 -0.0165 0.0046 0.1987 0.0755 -0.0537 -0.3044 0.6008 0.1152 -0.37320.2237 -0.2027 -0.3208 0.4173 0.0078 0.2546 0.1339 -0.2384 -0.5057 -0.2522-0.2654 -0.5552 0.2292 -0.3332 0.1303 0.1459 -0.3789 0.0808 -0.2133 0.10880.5406 -0.1258 0.0899 -0.1343 -0.4357 0.3595 0.0603 0.0929 0.4208 0.1465-0.2965 0.5796 0.1974 0.0301 0.2446 0.5242 -0.1141 -0.1208 0.0062 0.0671-0.2086 0.2500 -0.1729 -0.1643 -0.5916 -0.1372 -0.2239 0.0768 -0.2447 0.0850-0.1151 -0.0288 -0.0643 -0.4961 0.0186 -0.1037 0.2905 -0.4290 0.1796 -0.4213Columns 11 through 150.1181 -0.1105 0.3106 0.4310 0.16310.8732 0.2562 -0.0165 -0.0350 0.2128-0.2101 0.6493 -0.4082 0.2362 0.0398-0.1150 0.3247 0.4785 -0.1264 0.22520.0003 -0.1631 -0.2471 -0.2480 0.2913-0.2069 -0.0630 -0.1520 -0.1292 0.3165-0.0703 0.4053 0.2974 -0.4053 0.15820.0344 -0.2072 -0.2049 -0.0393 0.3221-0.1045 0.0676 0.0764 0.5533 0.1334-0.2039 -0.1514 -0.0825 0.0481 0.31490.1591 -0.1905 -0.2110 -0.0685 0.3183-0.0738 0.0885 -0.1110 -0.0211 0.3314-0.1218 0.1986 -0.0605 0.0226 0.3333-0.1170 -0.2137 0.4606 -0.0799 0.25930.0745 -0.0263 0.0882 0.4205 0.2358y =Columns 1 through 100.0344 0 0 0 0 0 0 0 0 00 0.0577 0 0 0 0 0 0 0 00 0 0.0763 0 0 0 0 0 0 00 0 0 0.0933 0 0 0 0 0 00 0 0 0 0.1509 0 0 0 0 00 0 0 0 0 0.2057 0 0 0 00 0 0 0 0 0 0.2597 0 0 00 0 0 0 0 0 00.3103 0 00 0 0 0 0 0 0 0 0.3441 00 0 0 0 0 0 0 0 0 0.48400 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0Columns 11 through 150 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00.7414 0 0 0 00 1.2091 0 0 00 0 1.4677 0 00 0 0 2.0615 00 0 0 0 7.50402.程序2(求因子载荷矩阵、贡献率和累计贡献率):>>[lambda,psi,T]=factoran(PHO,4,'xtype','covariance','delta',0,'rotate','none') head = {'变量', '因子f1', '因子f2','因子f3','因子f4'};varname = {'申请信的形式','外貌','专业能力','讨人喜欢的能力','自信心','洞察力','诚实','推销能力','经验','驾驶汽车本领','抱负','理解能力','潜力能力','对工作要求强烈程度','适应性','<贡献率>','<累积贡献率>'}';Contribut = 100*sum(lambda.^2)/15;CumCont = cumsum(Contribut);result1 = num2cell([lambda; Contribut; CumCont]);result1 = [head; varname, result1]运行结果2:lambda =0.4700 0.0673 0.5437 -0.22290.2800 0.4627 0.0609 0.1335-0.3200 0.4393 0.3591 0.22560.6900 0.1179 0.1652 0.53130.4800 0.7026 -0.3997 -0.06850.5300 0.7141 -0.1244 0.05050.4500 0.1388 -0.2327 0.63540.5500 0.7115 -0.1032 -0.22570.2100 0.2098 0.6947 -0.24230.6100 0.6062 0.0850 -0.15850.5500 0.7099 -0.1390 -0.18060.5500 0.7253 0.0819 0.11320.5400 0.7330 0.2086 0.21471.0000 -0.0000 -0.0000 -0.00000.4000 0.4078 0.5997 -0.2296psi =0.4293 0.6860 0.5248 0.2004 0.1115 0.1912 0.3203 0.1297 0.3700 0.2281 0.1417 0.1519 0.08150.0000 0.2614T =1 0 0 00 1 0 00 0 1 00 0 0 1result1 ='变量' '因子f1' '因子f2' '因子f3' '因子f4''申请信的形式' [ 0.4700] [ 0.0673] [ 0.5437][ -0.2229]'外貌' [ 0.2800] [ 0.4627] [ 0.0609][ 0.1335]'专业能力' [-0.3200] [ 0.4393] [ 0.3591][ 0.2256]'讨人喜欢的能力' [ 0.6900] [ 0.1179] [ 0.1652][ 0.5313]'自信心' [ 0.4800] [ 0.7026] [ -0.3997][ -0.0685]'洞察力' [ 0.5300] [ 0.7141] [ -0.1244][ 0.0505]'诚实' [ 0.4500] [ 0.1388] [ -0.2327][ 0.6354]'推销能力' [ 0.5500] [ 0.7115] [ -0.1032][ -0.2257]'经验' [ 0.2100] [ 0.2098] [ 0.6947][ -0.2423]'驾驶汽车本领' [ 0.6100] [ 0.6062] [ 0.0850][ -0.1585]'抱负' [ 0.5500] [ 0.7099] [ -0.1390][ -0.1806]'理解能力' [ 0.5500] [ 0.7253] [ 0.0819] [ 0.1132]'潜力能力' [ 0.5400] [ 0.7330] [ 0.2086] [ 0.2147]'对工作要求强烈程度' [ 1.0000] [-4.5688e-06] [-1.7616e-07] [-3.2322e-07]'适应性' [ 0.4000] [ 0.4078] [ 0.5997] [ -0.2296]'<贡献率>' [29.1129] [ 27.3303] [ 10.7644] [ 7.2713]'<累积贡献率>' [29.1129] [ 56.4431] [ 67.2075] [ 74.4788]3.运行结果3:4个因子的权重分别为:0.3901 0.3670 0.1445 0.0976所以对应的因子得分与综合得分为(最后一列为综合得分)’申请信的形式’[ 0.1833] [ 0.0247] [ 0.0786] [ -0.0218] [ 0.2650]’外貌’[ 0.1092] [ 0.1698] [ 0.0088] [ -0.0218] [ 0.2660]’专业能力’[ 0.1248] [ 0.1612] [ 0.0519] [ 0.2013][ 0.5392]’讨人喜欢的能力’[ 0.2692] [ 0.0433] [ 0.0239] [ 0.0220][ 0.3584]’自信心’[ 0.1872] [ 0.2579] [ -0.0570] [ 0.0519] [ 0.440]’洞察力’[ 0.2068] [ 0.2612] [ -0.0180] [ -0.0067][ 0.4433]’诚实’[ 0.1755] [ 0.0509] [ -0.0336] [ 0.0049] [ 0.1977]’推销能力’[ 0.2146] [ 0.2611] [ -0.0180] [ -0.0067] [ 0.451]’经验’[ 0.0819] [ 0.0707] [ 0.1004] [ -0.0220] [ 0.2310]’驾驶汽车本领’[ 0.2380] [ 0.2248] [ 0.0123] [ -0.0236] [ 0.4987]’抱负’[ 0.2146] [ 0.2605] [ -0.0201] [ -0.0176] [ 0.4374]’理解能力’[ 0.2146] [ 0.2662] [ 0.0118] [ 0.0110] [ 0.5036]’潜力能力’[ 0.2107] [ 0.2690] [ 0.0301] [ 0.0210] [ 0.5308]’对工作要求强烈程度’[ 0.3901] --- --- --- [ 0.3901]’适应性’[ 0.1560] [ 0.1497] [ 0.0867] [ -0.0224] [ 0.3700](二)第二题:1.程序1:>> clear allPHO=[43.31 7.39 8.73 54.8917.11 12.13 17.29 44.2521.11 6.03 7 89.3729.55 8.62 10.13 7311 8.41 11.83 25.2217.63 13.86 15.41 36.442.73 4.22 17.16 9.9629.11 5.44 6.09 56.2620.29 9.48 12.97 82.233.994.64 9.35 13.0422.64 11.13 14.3 50.514.43 7.3 14.36 29.045.4 8.9 12.53 65.57.06 2.79 5.24 19.7919.82 10.53 18.55 42.047.26 2.99 6.99 22.72];>> PHO=zscore(PHO);>> r=corrcoef(PHO);>> [x,y,z]=pcacov(r)运行结果1:x =0.5306 -0.4122 -0.7018 -0.23660.5938 0.4045 -0.0229 0.69520.2606 0.7207 -0.0097 -0.64230.5458 -0.3835 0.7119 -0.2196y =1.8971 1.5496 0.3930 0.1602z =47.4282 38.7411 9.8253 4.00532.程序2:>> result1(1,:)={'特征值','差值','贡献率','累积贡献率'}; result1(2:5,1)=num2cell(y);result1(2:4,2) = num2cell(-diff(y));result1(2:5,3:4) = num2cell([z, cumsum(z)])运行结果2:'特征值' '差值' '贡献率' '累积贡献率'[1.8971] [0.3475] [47.4282] [ 47.4282][1.5496] [1.1566] [38.7411] [ 86.1693][0.3930] [0.2328] [ 9.8253] [ 95.9947][0.1602] [] [ 4.0053] [ 100.0000]3. 程序3:>> s={'标准化变量';'x1:销售净利率';'x2:资产净利率';'x3:净资产收益率';'x4:销售毛利率'};result2(:,1)=s;result2(1, 2:3) = {'Prin1', 'Prin2'};result2(2:5, 2:3) = num2cell(x(:,1:2))运行结果3:result2 ='标准化变量' 'Prin1' 'Prin2''x1:销售净利率' [0.5306] [-0.4122]'x2:资产净利率' [0.5938] [ 0.4045]'x3:净资产收益率' [0.2606] [ 0.7207]'x4:销售毛利率' [0.5458] [-0.3835]4. 程序4:>> df=PHO*x(:,[1:num]);>> tf=df*z(1:num)/100;>> [stf,ind]=sort(tf,'descend')运行结果4:stf =1.1091 1.1066 1.0029 0.7506 0.6340 0.3611 0.2014 0.0481 -0.0570 -0.2014 -0.2444 -0.3367 -0.7301 -0.8998 -1.2651 -1.4791ind =2 6 15 11 9 134 125 1 7 3 8 10 16 14五、实验结果分析(一)第一题:1.从因子载荷矩阵x我们可以看出来,前2列个元素的取值差距较大,也就是说前2个因子易于解释,而后2列元素取值都比较小,后两个因子很难给出合理的解释。