多元统计分析与R语言建模考试试卷

合集下载

多元统计分析模拟考题及答案

多元统计分析模拟考题及答案

10 设 X,Y 是来自均值向量为 ,协差阵为 的总体 G 的两个样品,则 X 与总体 G 的马 氏平方距离 d 2 ( X ,G) = ( X )1( X )
11 设随机向量 X ( X1, X 2 , X3 ) 的相关系数矩阵通过因子分析分解为
1
R
1 3
2 3
1 3 1
0
2
3
16 设Uk ,Vk 是第 k 对典型变量则 D(Uk ) 1, D(Vk ) 1 (k 1, 2, , r)
Cov(Ui ,U j ) 0, Cov(Vi ,Vj ) 0 (i j)
i 0 (i j,i 1, 2, , r)
Cov(Ui ,Vj ) 0
(i j)
0
( j r)W来自x1 x2W3 5
d

X
3 5
属于
G2 总体
5 表 1 是根据某超市对不同品牌同类产品按畅销(1)、平销(2)和滞销(3)的数据,
利用 SPSS 得到的 Bayes 判别函数系数表,请据此建立贝叶斯判别函数,并说明如何判
断新样品(x1,x2,x3)属于哪类?
Classification Function Coefficients
2. 请阐述距离判别法、贝叶斯判别法和费希尔判别法的基本思想和方法,比较其异同
3 请阐述系统聚类法、K 均值聚类法、有序样品聚类法的基本思想和方法,比较其异同
4 请阐述主成分分析和因子分析的基本思想、方法步骤和应用,比较其异同 5 请阐述相应分析、多维标度法、典型相关分析和多变量的可视化分析的基本思想和应 用
( 错)5 X ( X1, X 2 ,, X p ) ~ N p (, ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。

多元统计分析模拟考题及答案

多元统计分析模拟考题及答案

一、判断题( 对 )112(,,,)p X X X X '=的协差阵一定是对称的半正定阵( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。

( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。

( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。

( 错)5),(~),,,(21∑'=μp p N X X X X ,,X S 分别是样本均值和样本离差阵,则,SX n分别是,μ∑的无偏估计。

( 对)6),(~),,,(21∑'=μp p N X X X X ,X 作为样本均值μ的估计,是无偏的、有效的、一致的。

( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。

( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等价。

(对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。

二、填空题1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵.2、设∑是总体1(,,)m X X X =的协方差阵,∑的特征根(1,,)i i m λ=与相应的单位正交化特征向量12(,,,)i i i im a a a α=,则第一主成分的表达式是11111221m my a X a X a X =+++,方差为1λ。

3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别为:'112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- '221.024(0.9544,0.0984,0.2695,0.0824)U λ==-'330.049(0.2516,0.7733,0.5589,0.1624)U λ==--'440.007(0.0612,0.2519,0.5513,0.7930)U λ==--,则其第二个主成分的表达式是212340.95440.09840.26950.0824y X X X X =-++,方差为1.0244. 若),(~)(∑μαp N X ,(n ,,2,1 =α)且相互独立,则样本均值向量X 服从的分布是(,)p N nμ∑.5.设(,),1,2,,16i p X N i μ∑=,X 和A 分别是正态总体的样本均值和样本离差阵,则2115[4()][4()]T X A X μμ-'=--服从 215(15,)(,)16p T p F p n p p--或6设3(,),1,2,,10i X N i μ∑=,则101()()i i i W X X μμ='=--∑服从3(10,)W ∑7.设随机向量123(,,)X X X X '=,且协差阵4434923216-⎛⎫ ⎪∑=-- ⎪ ⎪-⎝⎭,则其相关矩阵R =231382113631186⎛⎫-⎪ ⎪ ⎪-- ⎪ ⎪ ⎪- ⎪⎝⎭8. 设122(,)(,),X X X N μ=∑,其中212(,),ρμμμσρ⎛⎫=∑=⎪⎝⎭11,则1212,)X X X X +-=Cov(09设X,Y 是来自均值向量为μ,协差阵为∑的总体G 的两个样品,则X ,Y 间的马氏平方距离2(,)d X Y =1()()X Y X Y -'-∑-10设X,Y 是来自均值向量为μ,协差阵为∑的总体G 的两个样品,则X 与总体G 的马氏平方距离2(,)d X G =1()()X X μμ-'-∑-11设随机向量123(,,)X X X X '=的相关系数矩阵通过因子分析分解为121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭则1X 的共性方差21h = 0.9342 =0.872 ,其统计意义是:描述了全部公因子对变量X1的总方差所作的贡献,称为变量X1的共同度,反映了公共因子对变量X1的影响程度。

多元统计分析及R语言建模考试试卷

多元统计分析及R语言建模考试试卷

多元统计分析及R 语言建模考试试卷一、简答题(共5小题,每小题6分,共30分)(1)多元正态分布检验(2)多元方差-协方差分析(3)聚类分析(4)判别分析(5)主成分分析(6)因子分析(7)对应分析(8)典型相关性分析( 9)定性数据建模分析(10)路径分析(又称多重回归、联立方程)(11)结构方程模型(12)联合分析(13)多变量图表示法(14)多维标度法2. 简单相关分析、复相关分析和典型相关分析有何不同?并举例说明之。

简单相关分析:简单相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。

复相关分析;研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。

例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。

复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。

复相关系数为R0.12…n的取值范围为0≤R0.12…n≤1。

复相关系数值愈大,变量间的关系愈密切。

典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。

它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

3. 试说明主成分分析和因子分析不同点和相同之处。

主成分分析和因子分析的相同之处1.都可以降维、分析多个变量的基本结构2.因子分析是主成分分析的进一步推广。

主成分分析可被视为一种固定效应的因子分析,是因子分析的特列3.都是利用变量之间的相关性将它们进行分类4.主成分分析中,各个主成分之间互不相关;因子分析中,公因子之间不相关、特殊因子之间不相关、公因子与特殊因子之间不相关主成分分析和因子分析的区别1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。

多元统计分析及R语言建模答案(王斌会)

多元统计分析及R语言建模答案(王斌会)

《多元统计分析及R 语言建模》第2章王斌会2020.2.1 rm (list=ls ()) #清理内存options (digits=4) #输出结果位数par (mar=c (4,4,2,1)) #设置图片输出位置 library (openxlsx)library (knitr)2.1对下面的相关系数矩阵,试用R 语言求其逆矩阵、特征根和特征向量。

要求写出R 语言计算函数。

R =[ 1.000.800.260.670.340.80 1.000.330.590.340.260.33 1.000.370.210.670.590.37 1.000.350.340.340.210.35 1.00]R=matrix (c (1.00,0.80,0.26,0.67,0.34,0.80,1.00,0.33,0.59,0.34,0.26,0.33, 1.00,0.37,0.21,0.67,0.59,0.37,1.00,0.35,0.34,0.34,0.21,0.35,1.00),nrow=5,ncol=5);R #生成矩阵R[,1] [,2] [,3] [,4] [,5][1,] 1.00 0.80 0.26 0.67 0.34[2,] 0.80 1.00 0.33 0.59 0.34[3,] 0.26 0.33 1.00 0.37 0.21[4,] 0.67 0.59 0.37 1.00 0.35[5,] 0.34 0.34 0.21 0.35 1.00R.=solve (R);R.[,1] [,2] [,3] [,4] [,5][1,] 3.3881 -2.1222 0.23706 -1.0685 -0.10623[2,] -2.1222 2.9421 -0.33593 -0.1331 -0.16164[3,] 0.2371 -0.3359 1.20699 -0.3764 -0.08812[4,] -1.0685 -0.1331 -0.37637 2.0091 -0.21562[5,] -0.1062 -0.1616 -0.08812 -0.2156 1.18505R.e=eigen (R,symmetric = T);R.eeigen() decomposition$values[1] 2.7923 0.8263 0.7791 0.4206 0.1818$vectors[,1] [,2] [,3] [,4] [,5][1,] -0.5255 0.34022 -0.1665 0.15938 0.74494[2,] -0.5187 0.23435 -0.1778 0.50823 -0.62142[3,] -0.3131 -0.90308 -0.2287 0.14943 0.10844[4,] -0.4966 0.03869 -0.1186 -0.83116 -0.21673[5,] -0.3318 -0.11084 0.9350 0.05616 0.013552.2某厂对50个计件工人某月份工资进行登记,获得以下原始资料(单位:元)。

多元统计分析模拟试题(卷)复习进程

多元统计分析模拟试题(卷)复习进程

多元统计分析模拟试题(卷)多元统计分析模拟试题(两套:每套含填空、判断各二十道)A卷1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。

2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。

3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。

4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为=8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。

9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化为几个综合指标的多元统计方法。

10)在进行主成分分析时,我们认为所取的m(m<p,p为所有的主成分)个主成分的累积贡献率达到85%以上比较合适。

11)聚类分析的目的在于使类内对象的同质性最大化和类间对象的异质性最大化12)是随机变量,并且有,那么服从(卡方)分布。

13)在对数线性模型中,要先将概率取对数,再分解处理,公式:14)将每个原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子15)判别分析的最基本要求是分组类型在两组之上,每组案例的规模必须至少一个以上,解释变量必须是可测量的16)当被解释变量是属性变量而解释变量是度量变量时判别分析是合适的统计分析方法17)多元正态分布是一元正态分布的推广18)多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础19)因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合。

20)统计距离包括欧氏距离和马氏距离两类1)因子负荷量是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。

多元统计分析试题(A卷)(答案)

多元统计分析试题(A卷)(答案)

多元统计分析试题(A卷)(答案)《多元统计分析》试卷一、填空题(每空2分,共40分)1、若且相互独立,则样本均值向量X服从的分布为2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。

3、判别分析是判别样品的一种统计方法,常用的判别方法有___、、、。

4、Q型聚类是指对_进行聚类,R型聚类是指对进行聚类。

'5、设样品,总体X~Np(,对样品进行分类常用的距离有:明氏距离,马氏距离,兰氏距离6、因子分析中因子载荷系数aij的统计意义是_第i个变量与第j个公因子的相关系数。

7、一元回归的数学模型是:,多元回归的数学模型是:。

8、对应分析是将和结合起来进行的统计分析方法。

9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。

二、计算题(每小题10分,共40分)1、设三维随机向量,其中130,问X1与X2是否独立?和X3是否独立?为什么?解:因为,所以X1与X2不独立。

把协差矩阵写成分块矩阵,的协差矩阵为因为,而,所以和X3是不相关的,而正态分布不相关与相互独立是等价的,所以和X3是独立的。

2、设抽了五个样品,每个样品只测了一个指标,它们分别是1 ,2 ,4.5 ,6 ,8。

若样本间采用明氏距离,试用最长距离法对其进行分类,要求给出聚类图。

x1013.55702.54601.53.502x2x3解:样品与样品之间的明氏距离为:D(0)样品最短距离是1,故把X1与X2合并为一类,计算类与类之间距离(最长距离法){x1,x2}03.55701.53.502x3x4得距离阵 D(1)类与类的最短距离是1.5,故把X3与X4合并为一类,计算类与类之间距离(最长距离法)得距离阵D(2){x1,x2}057{x3,x4}x5类与类的最短距离是3.5,故把{X3,X4}与X5合并为一类,计算类与类之间距离(最{x1,x2}07长距离法)得距离阵D(3)分类与聚类图(略)(请你们自己做)3、设变量X1,X2,X3的相关阵为0.631.000.350.35,R的特征值和单位化特征向量分别为TTT(1)取公共因子个数为2,求因子载荷阵A。

多元统计分析模拟考题及答案

多元统计分析模拟考题及答案

、判断题(对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵(对)2标准化随机向量的协差阵与原变量的相关系数阵相同。

(对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。

(对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。

(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离S差阵,则X,—分别是,的无偏估计。

n(对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。

(错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化(对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。

(对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。

(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特定的要求。

二、填空题1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵.2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是y1 Q1X1 812X2 L QmX m 方差为1。

3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814)2 1.024 U2(0.9544, 0.0984,0.2695,0.0824)3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624)0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是41 1 32 13y 2 0.9544X 1 0.0984X 2 0.2695X 3 0.0824X 4,方差为 1.0244-若X ()~N p ( , ) , ( 1,2, ,n )且相互独立,则样本均值向量 X 服从的分布是N p (,—).n5.设X i : N p ( ,),i1,2,L ,16,X 和A 分别是正态总体的样本均值和样本离差阵,则 T 2 15[4(X)] A 1[4(X)]服从_T 2(15,p)或: F(p,n p)16 p6设X i 10:N a (,),i 1,2丄,10,则 W(X i)(X i)服从 W 3(10,)i 144 37.设随机向量X(X 1 ,X 2,X a ),且协差阵4 9 2 ,则其相关矩阵321612 3R =382 1 1 363 1 1862 18. 设X (X 1 ,X 2): :2(,),,其中(1,2),2,则Cov(X 1 X 2,X 1 X 2)0_9设X,Y 是来自均值向量为,协差阵为 的总体G 的两个样品,则 X ,Y 间的马氏平2 1方距离 d (X,Y) (X Y) (X Y) 10设X,Y 是来自均值向量为 ,协差阵为的总体G 的两个样品,则 X 与总体G 的马氏平方距离d 2(X,G) =(X) 1(X )11设随机向量X (X1,X2,X3)的相关系数矩阵通过因子分析分解为0.934 0 0.1280.934 0.417 0.8350.417 0.894 0.0270 0.894 0.4470.1030.835 0.4471 1 32 132则X i 的共性方差hi 0.9342 =0.872 ,其统计意义是:描述了全部公因子对变量X1的总方差所作的贡献,称为变量X1的共同度,反映了公共因子对变量X1的影响程度。

多元统计分析模拟考题及答案

多元统计分析模拟考题及答案

一、判断题( 对 )112(,,,)p X X X X '=的协差阵一定是对称的半正定阵( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。

( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。

( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。

( 错)5),(~),,,(21∑'=μp p N X X X X ,,X S 分别是样本均值和样本离差阵,则,SX n分别是,μ∑的无偏估计。

( 对)6),(~),,,(21∑'=μp p N X X X X ,X 作为样本均值μ的估计,是无偏的、有效的、一致的。

( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。

( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等价。

(对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。

二、填空题1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵.2、设∑是总体1(,,)m X X X =的协方差阵,∑的特征根(1,,)i i m λ=与相应的单位正交化特征向量12(,,,)i i i im a a a α=,则第一主成分的表达式是11111221m m y a X a X a X =+++,方差为1λ。

3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别为:'112.920(0.1485,0.5735,0.5577,0.5814)U λ==---'221.024(0.9544,0.0984,0.2695,0.0824)U λ==-'330.049(0.2516,0.7733,0.5589,0.1624)U λ==--'440.007(0.0612,0.2519,0.5513,0.7930)U λ==--,则其第二个主成分的表达式是212340.95440.09840.26950.0824y X X X X =-++,方差为1.0244. 若),(~)(∑μαp N X ,(n ,,2,1 =α)且相互独立,则样本均值向量X 服从的分布是(,)p N nμ∑.5.设(,),1,2,,16i p X N i μ∑=,X 和A 分别是正态总体的样本均值和样本离差阵,则2115[4()][4()]T X A X μμ-'=--服从 215(15,)(,)16p T p F p n p p--或6设3(,),1,2,,10i X N i μ∑=,则101()()i i i W X X μμ='=--∑服从3(10,)W ∑7.设随机向量123(,,)X X X X '=,且协差阵4434923216-⎛⎫ ⎪∑=-- ⎪ ⎪-⎝⎭,则其相关矩阵R =231382113631186⎛⎫-⎪ ⎪ ⎪-- ⎪ ⎪ ⎪- ⎪⎝⎭8. 设122(,)(,),X X X N μ=∑,其中212(,),ρμμμσρ⎛⎫=∑=⎪⎝⎭11,则1212,)X X X X +-=Cov(09设X,Y 是来自均值向量为μ,协差阵为∑的总体G 的两个样品,则X ,Y 间的马氏平方距离2(,)d X Y =1()()X Y X Y -'-∑-10设X,Y 是来自均值向量为μ,协差阵为∑的总体G 的两个样品,则X 与总体G 的马氏平方距离2(,)d X G =1()()X X μμ-'-∑-11设随机向量123(,,)X X X X '=的相关系数矩阵通过因子分析分解为121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭则1X 的共性方差21h = 0.9342 =0.872 ,其统计意义是:描述了全部公因子对变量X1的总方差所作的贡献,称为变量X1的共同度,反映了公共因子对变量X1的影响程度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.. ..多元统计分析及R 语言建模考试试卷一、简答题(共5小题,每小题6分,共30分)1. 常用的多元统计分析方法有哪些? (1)多元正态分布检验(2)多元方差-协方差分析(3)聚类分析(4)判别分析(5)主成分分析______________课程类别 必修[] 选修[ ]考试方式开卷[ ] 闭卷[ ](7)对应分析(8)典型相关性分析( 9)定性数据建模分析(10)路径分析(又称多重回归、联立方程)(11)结构方程模型(12)联合分析(13)多变量图表示法(14)多维标度法2. 简单相关分析、复相关分析和典型相关分析有何不同?并举例说明之。

简单相关分析:简单相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。

复相关分析;研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。

例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。

复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。

复相关系数为R0.12…n的取值围为0≤R0.12…n≤1。

复相关系数值愈大,变量间的关系愈密切。

典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。

它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

3. 试说明主成分分析和因子分析不同点和相同之处。

主成分分析和因子分析的相同之处1.都可以降维、分析多个变量的基本结构2.因子分析是主成分分析的进一步推广。

主成分分析可被视为一种固定效应的因子分析,是因子分析的特列3.都是利用变量之间的相关性将它们进行分类4.主成分分析中,各个主成分之间互不相关;因子分析中,公因子之间不相关、特殊因子之间不相关、公因子与特殊因子之间不相关主成分分析和因子分析的区别1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。

2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。

3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。

因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。

4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。

1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。

4. 判别分析以及Fisher判别和Bayes判别的基本思想是什么?判别分析:根据判别中的组数,可以分为两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和非线性判别;根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等Fisher判别法;通过将多维数据投影到某一方向上,使得投影之后类与类之间尽可能分开,然后再寻找合适的判别准则。

Bayes判别法:假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别。

5. 指出综合评价中指标的标准化方法及其优缺点和有哪些综合评价方法。

标准化方法(1)主成分分析法。

主成分分析是多元统计分析的一个分支。

是将其分量相关的原随机向量,借助于一个正交变换,转化成其分量不相关的新随机向量,并以方差作为信息量的测度,对新随机向量进行降维处理。

再通过构造适当的价值函数,进一步做系统转化。

(2)数据包络分析法。

它是创建人以其名字命名的DEA模型——CR模型。

DEA法不仅可对同一类型各决策单元的相对有效性做出评价与排序,而且还可进一步分析各决策单元非DE有效的原因及其改进方向,从而为决策者提供重要的管理决策信息。

(3)模糊评价法。

模糊评价法奠基于模糊数学。

它不仅可对评价对象按综合分值的大小进行评价和排序,而且还可根据模糊评价集上的值按最大隶属度原则去评定对象的等级。

综合评价方法1、计分法2、综合指数法3、Topsis法4、秩和比(RSR)法5、层次分析(AHP)法6、模糊评价方法7、多元统计分析方法8、灰色系统评价方法得分 评阅人 二、证明题(共1小题,共20分)设 y = a 1x 1+ a 2x 2 +…+a p x p a x ,其中a =(a 1,a 2,…,a p ),x = (x 1,x 2,…,x p ),求主成分就是寻找x 的线性函数a x 使相应的方差达到最大,即Var (ax ) = a a 达到最大,且a a =1,此处为x 的协方差阵。

设的特征根为。

试证明下面性质:(1)y=Ux ,U U=I ,这里U 为x 的协方差阵的特征向量(单位化的)组成的正交阵。

(2)y 的各分量之间是互不相关的。

(3)y 的p 个分量是按方差大小、由大到小排列的。

(4)y 的协方差阵为对角阵。

(5)11ppii i i i σλ===∑∑, 这里= (ii )p p(6)证明(1)(2)(3):设的特征向量为U= (u 1,u 2,…,u p ),则UU=I ,即U 为一正交阵,且= U ΛU= U diag(12,,,p λλλ)U=1pi i λ=∑u i u i因此aa=1p i i λ=∑a u i u i a =1p i i λ=∑(a u i ) (a u i)= 1pi i λ=∑(a u i )2于是aa 1pi i λ=≤∑(a u i )2=1λ(a U) (a U )= 1λa UU a =1λa a=1λ应取1a u =时,u 1 u 1= u 1 1λ u 1=1λ故y 1= ux 就是第一主成分,其方差最大,Var (y 1) = Var (u 1 x ) =1λ 同理,Var (y i ) = Var (u i x ) =i λ另外,Cov (y i, y j )= Cov (u ix, u j x )= u i u j = u i j λ u j =j λ u i u j =0,i因此,有上述可得变量x 的主成分是以的特征向量为系数的线性组合,且主成分y 之间互不相关,y 的p 个分量是按方差大小、由大到小排列的。

性质(1)(2)(3)得证。

性质(4)可有(1)(2)(3)得到。

证明性质(5): 由U =12(,,,)p u u u ,则有= U ΛU于是1pii i σ=∑=tr ()=tr (U ΛU)= tr (ΛUU )= tr (Λ)=1pi i λ=∑证明性质(6):(6)由前面的证明得知var(),var()i i j jj y x λσ== 令e j =(0,,0,1,0,,0)为单位向量,则x j = e j x ,y i = u i x 所以,Cov (y i, x j )= Cov (u ix, e j x )= e j D (x ) u i= e ju i=i λ e j u i =i λ u ij故 (,)(,)var()var()ij ii j i j jjCov y x u a y x y x λσ==性质(6)得证 得分 评阅人 三、运算题(共3小题,共20分)下面左表为五个观察值,两个变量的数据,右表为用欧氏距离计算的距离矩阵,x1 x2 1 5 72 7 13 3 24 65 566345671234567x1x 2123451. (10分)写出用R 语言分析的命令 (1) 请将数据x1和x2写入R 向量中:x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2(2) 写出绘制上面散点图的R命令:x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2plot(x1,x2)(3) 写出绘制系统聚类图的R命令:X=data.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE);Dhc=hclust(D,'complete');hcplot(hc)2.(5分)(1) 写出计算下面绝对距离阵的R命令:x1=c(5,7,3,6,6)x2=c(7,1,2,5,6)X=data.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE,p=1);D1 2 3 4 51 0 8 7 3 22 8 0 5 5 63 7 5 0 6 74 356 0 1 5 2 67 1 0(2)试在图中标出这些距离3.(5分)试用最长距离法对其进行聚类分析,画出聚类图,并按二类、三类 进行分类 第一步:计算距离阵X=data.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE);D第二步:进行系统聚类(最长距离法)hc=hclust(D,'complete');hc第三步:画出聚类图 (1)按二类进行分类plot(hc); rect.hclust(hc,2)14523123456Cluster Dendrogramhclust (*, "complete")DH e i g h t(2)按三类进行分类plot(hc); rect.hclust(hc,3)14523123456Cluster Dendrogramhclust (*, "complete")DH e i g h t四、案例分析题(共2小题,共30分)我们知道,财政收入与国民生产总值和税收等经济指标有密切的依存关系。

今收集了我国改革开放以来财政收入(y :百亿元),国民生产总值 (x1:百亿元),税收(x2:百亿元),进出口贸易总额(x3:百亿元),经济活动人口(x4:百万人)的部分数据,见下表所示,分析财政收入和国民生产总值、税收、进出口贸易总额、经济活动人口之间的关系。

表1 财政收入多因素分析数据1. 基本统计分析和R语言命令(15分)(1) 如果将该数据存入到一个文本文件reg.txt中,写出将该文本数据读入数据框dat中的R命令:dat=read.table("reg.txt",,header=T) (1分) (2) 如果将该数据拷贝到剪切板中,写出将该数据读入数据框dat中的R命令:dat=read.table("clipboard",header=T) (1分)(3) 写出提取2000年数据的R命令:dat[10,] (1分)写出提取税收(x2)数据的R命令:dat[,5] (1分)写出提取2001年至2008年经济活动人口(x4)数据的R命令:dat[11:18,5] (1分)(4) 写出计算财政收入统计量的R命令:summary(y) (2分)Min. 1st Qu. Median Mean 3rd Qu. Max.31.49 65.34 124.20 188.70 252.30 613.30(5) 写出计算下面相关阵R命令:cor(dat) (2分)y x1 x2 x3 x4y 1.0000 0.9924 0.9999 0.9874 0.8736x1 0.9924 1.0000 0.9938 0.9883 0.9126x2 0.9999 0.9938 1.0000 0.9881 0.8811x3 0.9874 0.9883 0.9881 1.0000 0.8807x4 0.8736 0.9126 0.8811 0.8807 1.0000(6) 写出计算下面回归系数的R命令:fm=lm(y~x1+x2+x3+x4,data=dat);fm (2分)Coefficients:(Intercept) x1 x2 x3 x484.62030 0.00207 1.16908 -0.00305 -0.13391(7) 写出计算下面检验的R命令: summary(fm) (2分)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 84.62030 12.74442 6.64 1.6e-05 ***x1 0.00207 0.00491 0.42 0.68x2 1.16908 0.02113 55.32 < 2e-16 ***x3 -0.00305 0.00367 -0.83 0.42x4 -0.13391 0.01969 -6.80 1.3e-05 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1.18 on 13 degrees of freedomMultiple R-squared: 0.999, Adjusted R-squared: 0.998F-statistic: 8.87e+04 on 4 and 13 DF, p-value: <2e-16(8) 写出计算下面检验的R命令:fm1=lm(y~x2+x4,data=dat);fm1summary(fm1) (2分)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 82.10361 9.04442 9.078 1.76e-07 ***x2 1.16768 0.00385 303.331 < 2e-16 ***x4 -0.12945 0.01318 -9.818 6.36e-08 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1.126 on 15 degrees of freedomMultiple R-squared: 1, Adjusted R-squared: 1F-statistic: 1.942e+05 on 2 and 15 DF, p-value: < 2.2e-162. 在上面计算的基础上进行进一步分析(15分)(1) 试问该回归方程有无统计学意义,为什么?(2分)由F检验结果可知,P值小于0.5,于是在0.05的显著性水平上拒绝原假设,所以认为整个回归方程有统计学意义。

相关文档
最新文档