应用多元统计分析习题解答_判别分析

第四章判别分析

4.1 简述欧几里得距离与马氏距离的区别和联系。

答：设p维欧几里得空间中的两点X=和Y=。

则欧几里得距离为。欧几里得距离的局限有①在多元数据分析中，其度量不合理。②会受到实际问题中量纲的影响。

设X,Y是来自均值向量为，协方差为

的总体G中的p维样本。则马氏距离为D(X,Y)=

。当

即单位阵时，

D(X,Y)==即欧几里得距离。

因此，在一定程度上，欧几里得距离是马氏距离的特殊情况，马氏距离是欧几里得距离的推广。

4.2 试述判别分析的实质。

答：判别分析就是希望利用已经测得的变量数据，找出一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来。设R1，R2，…，Rk是p维空间R p 的k个子集，如果它们互不相交，且它们的和集

为，则称为的一个划分。判别分析问题实质上就是在某种意义上，以最优的性质对p 维空间构造一个“划分”，这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。

答：距离判别问题分为①两个总体的距离判别问

题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离（马氏距离），将距离近的判别为一类。 ①两个总体的距离判别问题

设有协方差矩阵∑相等的两个总体G 1和G 2，其均值分别是μ1和μ 2，对于一个新的样品X ，要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2

（X ，G 1）和D 2

（X ，G 2），则

，D 2（X ，G 1）D 2

（X ，G 2）

，D 2（X ，G 1

）> D 2

（X ，G 2，具体分析，

2212(,)(,)

D G D G -X X

111122111111

11122211121112

2()()()()

2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()

22()2()

---''=-++-'

?=--- ???

''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ

记()()W '=-X αX μ 则判别规则为

，W(X)

，W(X)<0

②多个总体的判别问题。

设有k 个总体k

G G G ,,,2

Λ，其均值和协方差矩阵分别

是k

μμ

μ,,,2

Λ和k

ΣΣ

Σ,,,2

Λ，且Σ

ΣΣΣ

====k Λ21

。计算样

本到每个总体的马氏距离，到哪个总体的距离最小就属于哪个总体。具体分析，2

1(,)()()

D G αα

α-'=--X X μ

ΣX μ

1111

22()C α

ααα

α----'''=-+''=-+X ΣX μΣX μΣμX ΣX I X

取α

μΣI

1-=，α

αα

μΣμ1

1-'-=C

，k ,,2,1Λ=α。

可以取线性判别函数为

()W C αα

α'=+X I X ， k ,,2,1Λ=α

相应的判别规则为i

G ∈X 若 1()max()i

W C αα

α≤≤'=+X I X

4.4 简述贝叶斯判别法的基本思想和方法。基本思想：设k 个总体k

G G G ,,,2

Λ，其各自的分布密度

函数)

(,),(),(2

x x x k f f

f Λ，假设k 个总体各自出现的概率分

别为k

q q q ,,,2

Λ，0

≥i

，1

=∑=k

i i

。设将本来属于i

G 总体的样

品错判到总体j

G 时造成的损失为)|(i j C ，k j i ,,2,1,Λ=。

设k 个总体k

G G G ,,,2

Λ相应的

维样本空间为

)

,,,(21k R R R R Λ=。

在规则R 下，将属于i

G 的样品错判为j

G 的概率为

x x d f R i j P j

R i

)(),|(?= j i k j i ≠=,,2,1,Λ

则这种判别规则下样品错判后所造成的平均损失为

∑==k

j R i j P i j C R i r 1)]

,|()|([)|( k i ,,2,1Λ=

则用规则R 来进行判别所造成的总平均损失为

∑==k

i i R i r q R g 1)

,()(

∑∑===k i k

j i R i j P i j C q 1

)

,|()|(

贝叶斯判别法则，就是要选择一种划分k

R R R ,,,2

Λ，使总平均损失)(R g 达到极小。基本方法：∑∑===k

i k

j i R i j P i j C q R g 1

),|()|()(

x d f i j C q k i k

j R i i j

∑∑?===1

)()|(

∑?∑===k j R k

i i i j

d f i j C q 1

))()|((x

令1

(|)()()k i

i q C j i f h ==∑x x ，则 ∑?

==k

j R j j

d h R g 1

)()(x

若有另一划分)

,,,(**2*

R R R R

Λ=，∑?

==k

j R j j

d h R g 1

*)()(x

则在两种划分下的总平均损失之差为

∑∑?

==?-=-k

i k

j R R j i j

i d h h R g R g 11*

*)]()([)()(x

x x

因为在i

R 上)()(x x j

h h ≤对一切j 成立，故上式小于或

等于零，是贝叶斯判别的解。从而得到的划分

)

,,,(21k R R R R Λ=为

1{|()min ()}

i i j j k

R h h ≤≤==x x x

i ,,2,1Λ=

4.5 简述费希尔判别法的基本思想和方法。答：基本思想：从k 个总体中抽取具有p 个指标的样品观测数据，借助方差分析的思想构造一个线性判别函数

1122()p p U u X u X u X '=+++=X u X

系数),,,(2

'=p

u u u Λu 可使得总体之间区别最大，而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出()

U X 值，然后根据

判别一定的规则，就可以判别新的样品属于哪个

总体。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答：①费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。

②当k=2时，若则费希尔判别与距离判别等价。当判别变量服从正态分布时，二者与贝叶斯判别也等价。

③当时，费希尔判别用作为共同协差阵，实际看成等协差阵，此与距离判别、贝叶斯判别不同。

④距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是X ，W(X)

，W(X)

距离判别的判别规则是

，W(X)

，W(X)<0

二者的区别在于阈值点。当2

q q =，)1|2()2|1(C C =时，

1=d ，0ln =d 。二者完全相同。

4.7 设有两个二元总体和，从中分别抽取样本计算得到

假设

，试

用距离判别法建立判别函数和判别规则。样品X=（6，0）’应属于哪个总体？

解：

，= ， =

即样品X属于总体

4.8 某超市经销十种品牌的饮料，其中有四种畅销，三种滞销，三种平销。下表是这十种品牌饮料的销售价格（元）和顾客对各种饮料的口味评分、信任度评分的平均数。

销售情况产品序号销售价格口味评分信任度评分

畅销1 2.2 5 8

2 2.5 6 7

3 3.0 3 9

4 3.2 8 6

平销5 2.8 7 6

6 3.5 8 7

7 4.8 9 8

滞销8 1.7 3 4

9 2.2 4 2

⑴根据数据建立贝叶斯判别函数，并根据此判别函数对原样本进行回判。

⑵现有一新品牌的饮料在该超市试销，其销售价格为3.0，顾客对其口味的评分平均为8，信任评分平均为5，试预测该饮料的销售情况。

解：增加group变量，令畅销、平销、滞销分别为group1、2、3；销售价格为X

，口味评分为

2，信任度评分为X

，用spss 解题的步骤如下：1.在SPSS窗口中选择Analyze→Classify→

Discriminate，调出判别分析主界面，将

左边的变量列表中的“group”变量选入分

组变量中，将X

、X

变量选入自变量中，并选择Enter independents together单

选按钮，即使用所有自变量进行判别分析。

2.点击Define Range按钮，定义分组变量的

取值范围。本例中分类变量的范围为1到

3，所以在最小值和最大值中分别输入1和

3。单击Continue按钮，返回主界面。如

图4.1

图4.1 判别分析主界面

3.单击Statistics…按钮，指定输出的描述

统计量和判别函数系数。选中Function

Coefficients栏中的Fisher’s：给出

Bayes判别函数的系数。（注意：这个选项

不是要给出Fisher判别函数的系数。这个

复选框的名字之所以为Fisher’s，是因为

按判别函数值最大的一组进行归类这种思

想是由Fisher提出来的。这里极易混淆，

请读者注意辨别。）如图4.2。单击Continue

按钮，返回主界面。

图4.2 statistics 子对话框

4.单击Classify…按钮，弹出

classification子对话框，选中Display

选项栏中的Summary table复选框，即要

求输出错判矩阵，以便实现题中对原样本

进行回判的要求。如图4.3。

图 4.3 classification对话框

5.返回判别分析主界面，单击OK按钮，运行

判别分析过程。

1)根据判别分析的结果建立Bayes判别

函数：

Bayes判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下：

Group1：3

843

Y+

689

297

761

Group2：3

Y+

536

361

086

707

Group3：3

Y+

960

447

449

194

将各样品的自变量值代入上述三个Bayes判别函数，得到三个函数值。比较这三个函数值，哪个函数值比较大就可以判断该样品判入哪一类。

表4.1 Bayes判别函数系数

根据此判别函数对样本进行回判，结果如表4.2。从中可以看出在4种畅销饮料中，有3种被正确地判定，有1种被错误地判定为平销饮料，正确率为75%。在3种平销饮料中，有2种被正确判定，有1种被错误地判定为畅销饮料，正确率为

66.7%。3种滞销饮料均正确判定。整体的正确率为80.0%。

Classification Results a

group Predicted Group Membership

Total

1 2 3

Original Count 1 3 1 0 4

2 1 2 0 3

3 0 0 3 3

% 1 75.0 25.0 .0 100.0

2 33.

3 66.7 .0 100.0

3 .0 .0 100.0 100.0

表4.2 错判矩阵

2) 该新饮料的0.31=X ，82=X ，53=X ，将这3个自变量代入上一小题得到的Bayes 判别函数，2Y 的值最大，该饮料预计平销。也可通过在原样本中增加这一新样本，重复上述的判别过程，并在classification 子对话框中同时要求输出casewise results ，运行判别过程，得到相同的结果。

4.9 银行的贷款部门需要判别每个客户的信用好坏（是否未履行还贷责任），以决定是否给予贷款。可以根据贷款申请人的年龄（1

X ）、受教

育程度（2

X ）、现在所从事工作的年数（3

X ）、未

变更住址的年数（4

X ）、收入（5

X ）、负债收入比

例（6

X ）、信用卡债务（7

X ）、其它债务（8

X ）等

来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据，⑴根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。⑵某客户的如上情况资料为（53，1，9，18，50，11.20，2.02，3.58），对其进行信用好坏的判别。

解：令已履行还贷责任为group0，未履行还贷责任为group1。令（53，1，9，18，50，11.20，2.02，3.58）客户序号为11，group未知。用spss解题步骤如下：

1.在SPSS窗口中选择Analyze→Classify→

Discriminate，调出判别分析主界面，将左边的变量列表中的“group”变量选入分组变量中，将6

X 变量选入自变量中，并选择Enter

independents together单选按钮，即使用所

有自变量进行判别分析。

2.点击Define Range按钮，定义分组变量的取

值范围。本例中分类变量的范围为0到1，所以在最小值和最大值中分别输入0和1。单击Continue按钮，返回主界面。

3.单击Statistics…按钮，指定输出的描述统

计量和判别函数系数。选中Function Coefficients栏中的Fisher’s和Unstandardized。单击Continue按钮，返回主界面。

4.单击Classify…按钮，定义判别分组参数和

选择输出结果。选择Display栏中的Casewise results，以输出一个判别结果表。其余的均保留系统默认选项。单击Continue按钮。5.返回判别分析主界面，单击OK按钮，运行判

别分析过程。

1)用费希尔判别法建立判别函数和判别规则：

未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分，所以该系数使用起来比标准化的系数要方便一些。

具体见表4.3 。

表4.3 未标准化的典型判别函数系数

由此表可知， Fisher判别函数为：

10X

Y-794

710

792

383

024

687

173

357

用Y计算出各观测值的具体坐标位置后，再比较它们与各类重心的距离，就可以得知分类，如若与group0的重心距离较近则属于group0，反之亦然。各类重心在空间中的坐标位置如表4.4所示。

表4.4 各类重心处的费希尔判别函数值

用bayes判别法建立判别函数与判别规则，由于此题中假设各类出现的先验概率相等且误

判造成的损失也相等，所以距离判别法与bayes 判别完全一致。

如表4.5所示，group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得，各类的Bayes判别函数如下：

118

340

693

G-

723

994

504

033

070

943

969

184

296

171

G-

116

126

133

182

086

874

660

681

表 4.5 Bayes判别函数系数

将各样品的自变量值代入上述两个Bayes判别函数，得到两个函数值。比较这两个函数值，哪个函数值比较大就可以判断该样品该判入哪一类。

2)在判别结果的Casewise Stastics表中容易查

到该客户属于group0，信用好。

4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验：血清铜蛋白()

X、蓝色反应()2X、尿吲哚乙酸()3X

和中性硫化物()

X，数据见下表。试用距离判别

法建立判别函数，并根据此判别函数对原样本进行回判。

多元统计分析期末复习试题

第一章：多元统计分析研究的内容（5点） 1、简化数据结构（主成分分析） 2、分类与判别（聚类分析、判别分析） 3、变量间的相互关系（典型相关分析、多元回归分析） 4、多维数据的统计推断 5、多元统计分析的理论基础第二三章：

二、多维随机变量的数字特征 1、随机向量的数字特征随机向量X 均值向量：随机向量X 与Y 的协方差矩阵：当X=Y 时Cov （X ，Y ）=D （X ）；当Cov （X ，Y ）=0 ，称X ，Y 不相关。随机向量X 与Y 的相关系数矩阵： 2、均值向量协方差矩阵的性质 (1).设X ，Y 为随机向量，A ，B 为常数矩阵 E （AX ）=AE （X ）； E （AXB ）=AE （X ）B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ，Y 独立，则Cov(X,Y)＝０，反之不成立． (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21

特别地，当为对角阵时，相互独立。 (2).若，Ａ为sxp 阶常数矩阵，d 为s 阶向量，ＡＸ＋d ～ . 即正态分布的线性函数仍是正态分布． (3).多元正态分布的边缘分布是正态分布，反之不成立． (4).多元正态分布的不相关与独立等价．例３．见黑板．三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的（简单）样本”的理解---独立同截面． (2)多元分布样本的数字特征---常见多元统计量样本均值向量＝样本离差阵Ｓ＝样本协方差阵Ｖ＝ S ;样本相关阵Ｒ (3) ,Ｖ分别是和的最大似然估计； (4)估计的性质是的无偏估计； ,Ｖ分别是和的有效和一致估计；；Ｓ～，与Ｓ相互独立；第五章聚类分析：一、什么是聚类分析：聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚，甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法：系统聚类法（直观易懂）、动态聚类法（快）、有序聚类法（保序）...... Q-型聚类分析（样品）R-型聚类分析（变量）变量按照测量它们的尺度不同，可以分为三类：间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X

多元统计分析模拟考题及答案.docx

一、判断题（对） 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵（对（） 2 标准化随机向量的协差阵与原变量的相关系数阵相同。对） 3 典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5 X (X 1 , X 2 , , X p ) ~ N p ( , ) ， X , S 分别是样本均值和样本离差阵，则 X , S 分别是 , 的无偏估计。 n （对） 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) ， X 作为样本均值的估计，是无偏的、有效的、一致的。（错） 7 因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对） 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。（对）9 判别分析中，若两个总体的协差阵相等，则 Fisher 判别与距离判别等价。（对） 10 距离判别法要求两总体分布的协差阵相等， Fisher 判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵． 2、设是总体的协方差阵，的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位正交化特征向量 i ( a i1, a i 2 ,L ,a im ) ，则第一主成分的表达式是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ，方差为 1 。 3 设是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵，的特征根和标准正交特征向量分别为： 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ，则其第二个主成分的表达式是

多元统计分析期末试题

一、填空题（20分） 1、若),2,1(),,(~)(n N X p 且相互独立，则样本均值向量X 服从的分布为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品所属类型的一种统计方法，常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类，R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ，总体),(~ p N X ，对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ，兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是： x y 10，多元回归的数学模型是： p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。二、计算题（60分） 1、设三维随机向量),(~3 N X ，其中 200031014，问1X 与2X 是否独立？),(21 X X 和3X 是否独立？为什么？解：因为1),cov(21 X X ，所以1X 与2X 不独立。把协差矩阵写成分块矩阵 22211211，),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ，而012 ，所以),(21 X X 和3X 是不相关的，而正态分布不相关与相互

多元统计分析试题(2012)

近几年，中国房地产业得到了长足的发展，但房地产价格的上涨一直饱受争议，甚至有逃离“北、上、广”的言论，这也从侧面反映了房地产价格的区域性特征，下表为2008年中国31个省、市、自治区房地产业的相关统计数据，试根据这些数据进行聚类分析。表1中指标说明如下： X1：房屋平均销售价格； X2：住宅平均销售价格； X3：别墅、高档公寓平均销售价格； X4：经济适用房平均销售价格； X5：办公楼平均销售价格； X6：商业营业用房平均销售价格 X7：其他平均销售价格； X8：商品房销售面积； X9：住宅销售面积表1

为研究某地区人口死亡状况，已按某种方法将15个已知样品分为3类，指标及原始数据见表2，试建立判别函数，并判定另外4个待判样品属于哪类？表2 X1：0岁组死亡概率X4：55岁组死亡概率 X2：1岁组死亡概率X5：80岁组死亡概率 X3：10岁组死亡概率X6：平均预期寿命题3 利用主成分分析综合评价全国重点水泥企业的经济效益。原始数据见表3。表3

题4 反映城镇居民消费支出状况的指标主要有食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信以及教育文化娱乐服务等八项消费支出指标，数据如下表4所示。以2008年为例进行说明。选取反映我国各省、市、自治区的城镇居民人均消费支出8个指标作为原始变量，运用SPSS软件，对全国31个中心城市的人均消费水平水平作因子分析。

题5、在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量。自变量如下:x 1 ——农业增加值(亿元),x 2——工业增加值(亿元),x 3 ——建筑业增加值(亿元),x 4 ——人口数(万人),x 5 ——社会消费总额(亿元),x 6 ——受灾面积(万公顷)。据《中国统计年鉴》获得1979—1998共20个年分的统计数据,见表5。由定性分析知,所选自变量都与变量y有较强的相关性,试做出一个较为理想的回归方程。表5

多元统计分析期末试卷

一、（本大题共2小题，每题5分，共10分） 1、设),(~3∑μN X ，其中???? ? ?????=∑-==221231111,)'1,3,2(,)',,(321μX X X X ，试求32123X X X +-的分布。 2、设三个总体321,G G G 和的分布分别为：)1,3()2,0(),5.0,2(222N N N 和。试按马氏距离判别准则判别x =2.5应判归哪一类？二、（本题10分）设'1233(,,)~(,)X X X X N μ=∑，其中 )10(11 1 ,)',,(321<

三、（本题10分）已知5个样品的观测值为：1，4，5，7，11.试用按类平均法对5个样品进行分类。四、（本题10分）设有两个正态总体21G G 和，已知(m=2) ? ? ? ???=∑=∑??????=??????=32121218,2520,151021)1()1(μμ ，先验概率21q q =，而,10)12(=L 75)21(=L 。试问按贝叶斯判别准则样品?? ? ???=??????=2015,2020)2() 1(X X 各应判归哪一类？

五、（本题10分）假定人体尺寸有这样的一般规律：身高（1X ），胸围（2X ）和上半臂围（3X ）的平均尺寸比例是6：4：1。假定),,1()(n X =αα为来自总体)',,(321X X X X =的随机样本，并设),(~3∑μN X 。试利用下表中数据来检验其身高、胸围和上半臂围这三个尺寸是否符合这一规律。（94.6)4,2(,05.005.0==F α）

应用多元统计分析试题及答案

一、填空题： 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素：一部分为公共因子，另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立，则样本均值向量x服从的分布为_x~N(μ，Σ/n)_。二、简答 1、简述典型变量与典型相关系数的概念，并说明典型相关分析的基本思想。在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。相应分析，是指对两个定性变量的多种水平进行分析。设有两组因素A和B，其中因素A包含r个水平，因素B包含c个水平。对这两组因素作随机抽样调查，得到一个rc的二维列联表，记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换，使得因素A

和因素B 具有对等性，从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上，从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。从k 个总体中抽取具有p 个指标的样品观测数据，借助方差分析的思想构造一个线性判别函数系数：确定的原则是使得总体之间区别最大，而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤第一，提出待检验的假设和H1；第二，给出检验的统计量及其服从的分布；第三，给定检验水平，查统计量的分布表，确定相应的临界值，从而得到否定域；第四，根据样本观测值计算出统计量的值，看是否落入否定域中，以便对待判假设做出决策（拒绝或接受）。协差阵的检验检验0=ΣΣ 0p H =ΣI ： /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI ： /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析模拟试题教学提纲

多元统计分析模拟试题

多元统计分析模拟试题（两套：每套含填空、判断各二十道） A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。 2)Q型聚类分析是对样品的分类，R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性，需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出，他们之间的关系为 = 8)最短距离法适用于条形的类，最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想，在损失很少的信息前提下，把多个指标转化为几个综合指标的多元统计方法。 10)在进行主成分分析时，我们认为所取的m（m

多元统计分析期末试题及答案.doc

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________， __________， ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立？ (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析模拟考题及答案

一、判断题（对）112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵（对）2标准化随机向量的协差阵与原变量的相关系数阵相同。（对）3典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5),(~),,,(21∑'=μp p N X X X X Λ，,X S 分别是样本均值和样本离差阵，则, S X n 分别是,μ∑的无偏估计。（对）6),(~),,,(21∑'=μp p N X X X X Λ，X 作为样本均值μ的估计，是无偏的、有效的、一致的。（错）7 因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对）8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。（对）9 判别分析中，若两个总体的协差阵相等，则Fisher 判别与距离判别等价。（对）10距离判别法要求两总体分布的协差阵相等，Fisher 判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵． 2、设∑是总体1(,,)m X X X =L 的协方差阵，∑的特征根(1,,)i i m λ=L 与相应的单位正交化特征向量 12(,,,)i i i im a a a α=L ，则第一主成分的表达式是 11111221m m y a X a X a X =+++L ，方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵，∑的特征根和标准正交特征向量分别为：' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

多元统计分析期末复习试题

第一章：多元统计分析研究的容（5点） 1、简化数据结构（主成分分析） 2、分类与判别（聚类分析、判别分析） 3、变量间的相互关系（典型相关分析、多元回归分析） 4、多维数据的统计推断 5、多元统计分析的理论基础第二三章：二、多维随机变量的数字特征 1、随机向量的数字特征随机向量X均值向量：随机向量X与Y的协方差矩阵：当X=Y时Cov（X，Y）=D（X）；当Cov（X，Y）=0 ，称X，Y不相关。随机向量X与Y的相关系数矩阵： 2、均值向量协方差矩阵的性质 (1).设X，Y为随机向量，A，B 为常数矩阵 E（AX）=AE（X）； E（AXB）=AE（X）B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ，Y 独立，则Cov(X,Y)＝０，反之不成立． (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地，当为对角阵时，相互独立。 (2).若，Ａ为sxp 阶常数矩阵，d 为s 阶向量，ＡＸ＋d ～ . 即正态分布的线性函数仍是正态分布． (3).多元正态分布的边缘分布是正态分布，反之不成立． (4).多元正态分布的不相关与独立等价．例３．见黑板．三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的（简单）样本”的理解---独立同截面． (2)多元分布样本的数字特征---常见多元统计量样本均值向量＝样本离差阵Ｓ＝样本协方差阵Ｖ＝ S ;样本相关阵Ｒ (3) ,Ｖ分别是和的最大似然估计； (4)估计的性质是的无偏估计； ,Ｖ分别是和的有效和一致估计；；Ｓ～，与Ｓ相互独立；第五章聚类分析：一、什么是聚类分析：聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚，甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法：系统聚类法（直观易懂）、动态聚类法（快）、有序聚类法（保序）...... Q-型聚类分析（样品）R-型聚类分析（变量）变量按照测量它们的尺度不同，可以分为三类：间隔尺度、有序尺度、名义尺度。二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换（优缺点） 1、中心化变换（平移变换）：中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。不改变样本间的相互位置，也不改变变量间的相关性。 2、标准化变换：首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。 3、极差正规化变换（规格化变换）：规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差。经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在0－1之间；且变换后的数据都不再具有量纲，便于不同的变量之间的比较。 4、对数变换：对数变换是将各个原始数据取对数，将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。三、样品间相近性的度量研究样品或变量的亲疏程度的数量指标有两种：距离，它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析模拟考题及答案

、判断题（对）1X （兀公2丄，X p）的协差阵一定是对称的半正定阵（对）2标准化随机向量的协差阵与原变量的相关系数阵相同。（对）3典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5X （X-X2，,X p） ~ N p（ , ），X,S分别是样本均值和样本离 S 差阵，则X,—分别是，的无偏估计。 n （对）6X （X「X2， ,X p） ~ N p（ , ），X作为样本均值的估计，是无偏的、有效的、一致的。（错）7因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对）8因子载荷阵A （a j）中的a ij表示第i个变量在第j个公因子上的相对重要性。（对）9判别分析中，若两个总体的协差阵相等，则Fisher判别与距离判别等价。（对）10距离判别法要求两总体分布的协差阵相等，Fisher判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X （X」,X m）的协方差阵，的特征根i（i 1,L ,m）与相应的单位正交化特征向量i （盼无丄,a m），则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X （X1,X2,X3, X4）的协方差阵，的特征根和标准正交特征向量分别为： 1 2.920 U；(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 （ 0.0612,0.2519,0.5513, 0.7930），则其第二个主成分的表达式是 4

多元统计分析试题(A卷)(答案)

《多元统计分析》试卷 1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立，则样本均值向量X 服从的分布为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品所属类型的一种统计方法，常用的判别方法有__ 距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类，R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ==，总体), (~∑μp N X ，对样品进行分类常用的距离有：明氏距离，马氏距离 2 ()ij d M =)()(1 j i j i x x x x -∑'--，兰氏距离()ij d L = 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是：εββ++=x y 10，多元回归的数学模型是： εββββ++++=p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。一、填空题（每空2分，共40分）二、计算题（每小题10分，共40分）

1、设三维随机向量),(~3∑μN X ，其中??? ?? ??=∑200031014，问1X 与2X 是否独立？ ),(21'X X 和3X 是否独立？为什么？解：因为1),cov(21=X X ，所以1X 与2X 不独立。把协差矩阵写成分块矩阵??? ? ??∑∑∑∑=∑22211211 ，),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ，而012=∑，所以),(21'X X 和3X 是不相关的，而正态分布不相关与相互独立是等价的，所以),(21'X X 和3X 是独立的。 2、设抽了五个样品，每个样品只测了一个指标，它们分别是1 ,2 ,4.5 ,6 ,8。若样本间采用明氏距离，试用最长距离法对其进行分类，要求给出聚类图。解：样品与样品之间的明氏距离为：????????? ? ??=02 5 .36 7 05.14505 .25.30 105 432154 321) 0(x x x x x x x x x x D 样品最短距离是1，故把21X X 与合并为一类，计算类与类之间距离（最长距离法）得距离阵 ??????? ? ?? =025.3705.1505.30} ,{},{54 32154321) 1(x x x x x x x x x x D 类与类的最短距离是 1.5，故把43X X 与合并为一类，计算类与类之间距离（最长距

多元统计分析期末试题

1 、填空题(20分) 1、若X Q ~ N p (g ,(a =1,2,…n)且相互独立，则样本均值向量X 服从的分布为X ~ N p (g^|。 2、变量的类型按尺度划分有 _间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品所属类型的一种统计方法，常用的判别方法有 —距离判别法_、Fisher 判别法、 Bayes 判别法、逐步判别法。 4、 Q 型聚类是指对_样品-进行聚类，R 型聚类是指对_指标(变量)_进行聚类。 5、设样品X i =(X i1,X i2^ X ip )',(i =1,2，…n)，总体X~N p (」「)，对样品进行分类常用的距离有：明氏距离d j (q)=(壬|Xy q i j i j 6、因子分析中因子载荷系数a j 的统计意义是—第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是：y 曆x 童，多元回归的数学模型是 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。、计算题(60分) '4 1 1、设三维随机向量X~N 3(?2)，其中送=1 3 e 0 独立？为什么? 解：因为cov(X 1,X 2^1，所以X 1与X 2不独立。把协差矩阵写成分块矩阵瓦=f 11 ；12丨，(X 1,X 2/的协差矩阵为瓦 11 因为 —21 - 22 cov((X 1,X 2),X 3)=為12，而' 12 =0，所以(X 1, X 2)和X 3是不相关的，而正态分布不相关与相互独立是等价的，所以(X 1,X 2)和X 3是独立的。 0，问X 1与X 2是否独立? 2> (X 1,X 2)和X 3是否

多元统计分析试卷A答案

东北大学秦皇岛分校课程名称：多元统计分析试卷类型：答案考试形式：开授课专业：数学与应用数学考试日期： 2012年12月12日试卷：共 3 页一、填空题：（每空2分，共30分） 1、设(1)(2)(,)p N ??=????:X X μX ∑(2)p ≥，(1)(2)??=????μμμ，11122122??=?? ??∑∑∑∑∑，其中(1)X ，(1) μ为1r ?，11∑为r r ?，则(1):X (1)11(,)r N μ∑，(2):X (2)22(,)p r N -μ∑ 2、系统聚类分析的方法很多，其中的五种分别为最短距离法、最长距离法、重心法、类平均法、离差平方和法。 3、若p 维随机向量~(,)p X N μ∑，~(,)p W W n ∑，且X 与W 相互独立，则 1()()~n X W X μμ-'--2(,)T p n ， 2 1(,)~n p T p n pn -+(,1)F p n p -+。 4、i X 与前个主成分的全相关系数的平方和21 (,)m k i k Y X ρ=∑称为12,,,m Y Y Y L 对原始变量 i X 的方差贡献率，在因子分析中也称之为共同度。 5、Q 型因子分析研究样品之间的相关关系，R 型因子分析研究变量之间的相关关系。 6、Fisher 判别法的基本思想是投影，并利用方差分析的思想来导出判别函数。二、判断题（每题2分，共10分） 1、（ √ ）随机向量12(,,,)p X X X 'L 的协方差阵()D X =∑是对称非负定阵。 2、（ × ）因子载荷矩阵A 是对称阵。 3、（ × ）聚类分析中快速聚类法指的就是模糊聚类法。 4、（ √ ）设(,)p N :X μ∑，(,)p W n :W ∑，且X 与W 相互独立，则 12()()(,)n T p n -':X μW X μ--。 5、（ × ）主成分分析中，从相关矩阵出发求解的主成分一定会比从协方差矩阵出发求解的主成分更可信。装订线装订线内不要答题学号姓名班级

多元统计分析试题及答案.doc

xxx 大学期末试卷（A 卷）考试科目：多元统计分析考试类型：（闭卷）考试时间：120 分钟一、填空题（5×6=30） 22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________， __________， ________________。 (), 123设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111 X σ = 的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.83511 00.4170.8940.02700.8940.44730.8350.4470.1032013 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。二、计算题（5×11=50） 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立？

多元统计分析期末试题及答案

1、设X ~ N 2(, ),其中X =(x 1,x 2),=( 1,2), = 2 , 2 I 2 1 2 1 则Cov(x +x ,x -x )= ________ . 10 2、设X i ~ N 3(,),i =1,L ,10,则W = ( X i -)(X i - ) i =1 服从 ______________ 。 4 - 4 3 3、设随机向量X = (x 1 x 2 x 3 ) ,且协方差矩阵 = -4 9 -2, 3 - 2 16 则它的相关矩阵R = ____________________ 4、设X=(x 1 x 2 x 3 ), 的相关系数矩阵通过因子分析分解为 X 1 的共性方差h 1 2 = _______________ X _1 ，的方差 11 = 公因子f 1对X 的贡献g 12 = 5、设X i ,i =1,L,16 是来自多元正态总体 N p ( , ),X 和A 分别为正态总体N p (,) 的样本均值和样本离差矩阵,则T 2=15[4(X -)] A - 1[4(X - )] ~ ____________________ 。 16 - 4 2 1、设 X =(x 1 ,x 2 ,x 3 )~ N 3(, ),其中= (1,0, -2), = -4 4 -1 2 - 1 4 试判断x 1 + 2x 3 与 x 2 - x 3 是否独立？ I 、设随机向量X 的均值向量、协方差矩阵分别为、 , R = 1 2 3 0.934 0.128 -0.417 0.835 0= -0.417 0.894 0.027 0.894 0.447 0.835 0.447 0.103 1 1 3 0

多元统计分析模拟考试试题

多元统计分析模拟试题（两套：每套含填空、判断各二十道） A卷 1) 判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。 2) Q型聚类分析是对样品的分类，R型聚类分析是对变量_的分类。 3) 主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4) 因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法 5) 聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6) 分组数据的Logistic回归存在异方差性，需要采用加权最小二乘估计 7) 误差项的路径系数可由多元回归的决定系数算出，他们之间的关系为P P=√P?P P 8) 最短距离法适用于条形的类，最长距离法适用于椭圆形的类。 9) 主成分分析是利用降维的思想，在损失很少的信息前提下，把多个指标转化为几个综合指标的多元统计方法。 10) 在进行主成分分析时，我们认为所取的m（m

14) 将每个原始变量分解为两部分因素，一部分是由所有变量共同具有的少数几个公共因子组成的，另一部分是每个变量独自具有的因素，即特殊因子 15) 判别分析的最基本要求是分组类型在两组之上，每组案例的规模必须至少一个以上，解释变量必须是可测量的 16) 当被解释变量是属性变量而解释变量是度量变量时判别分析是合适的统计分析方法 17) 多元正态分布是一元正态分布的推广 18) 多元分析的主要理论都是建立在多元正态总体基础上的，多元正态分布是多元分析的基础 19) 因子分析中，把变量表示成各因子的线性组合，而主成分分析中，把主成分表示成各变量的线性组合。 20) 统计距离包括欧氏距离和马氏距离两类 1) 因子负荷量是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。（√）（p147） 2) 主成分分析是将原来较少的指标扩充为多个新的综合指标的多元统计方法。（×）（p24） 3) 判别分析其被解释变量为属性变量，解释变量是度量变量。（√）（p90） 4) Logistic回归对于自变量有要求，度量变量或者非度量变量都不可以进行回归。（×） (p220) 5) 在系统聚类过程中，聚合系数越大，合并的两类差异越小。（×） (P59)

多元统计分析试卷

一．填空题（每空2分，共30分） 1.若--------（看不清）且相互独立，则样本均值向量X 2服从的分布为_______ 2.聚类分析是判别样品所属类型的一种统计方法，常用的聚类分析方法有距离判别法、Fisher 判别法、Bavers 判别法、逐步判别法。 3.主成份同因子分析之间的差异在于方差，_____。 4.设样本-------，总体-----，对样本进行分类常用的工具有：马氏距离--=_______，相关系数_______，它们之间的关系如何_______。 5.因子分析中的因子载荷系数共性方差的统计意义是_______。 6.典型相关分析是研究两组变量之间_______的一种多元统计方法。 7.刻画两个变量之间相关程度的通过统计指标是_______。 8.数据标准化对因子分析的结构分解有什么影响_______。二．计算题（每小题12分，共60分） 1.设三维随机变量-----，其中???? ? ??=∑210140005，问1X 与2X 是否独立？---和1X 是否独立？为什么？ 2.设抽了五个样品，每个样品只测了一个指标，它们分别是1 1 2 3 5 4 5，若样本间采用欧式，试用平均距离法对其进行分类，要求给出聚类图。 3.设变量321,,X X X 的相关阵为???? ? ??=00.135.045.035.000.163.045.063.000.1R ,R 的特征值和单位化特征向量分别为T T T l l l 18.0,64.0,75.0,37.03, 84.0,49.0,22.0,68.0,51.0,59.0,63.0,96.122211--==--====λλλ （1）取公共因子个数为2，求因子载荷矩阵A 。（2）计算变量共同度—及公共因子2F 的方差贡献，并说明其统计意义。 4.设三元总体X 的协方差阵为???? ??????=∑841，从∑出发，求总体主成份321,,F F F ,求前两个主成份的累计贡献率。 5.考虑两个数据集 1π ??????????=745 27 51X ,2π ???? ??????=84105972X 32=π 计算线性判别函数。三．简单题（10分）简述多元统计的分类思想，结合你本专业谈谈能用到哪些地方。

多元统计分析期末试题与答案.doc

1、设X~N 2( , ),其中 X ( x 1 , x 2 ), ( 1 , 2 1 2 ), , 1 则 Cov( x 1 x 2 , x 1 x 2 )=____. 10 2、设 X i ~ N 3 ( , ), i 1, ,10, 则 W = ( X i )( X i ) i 1 服从 _________ 。 4 4 3 3、设随机向量 X x 1 x 2 x 3 , 且协方差矩阵 4 9 2 , 3 2 16 则它的相关矩阵 R ___________________ 4、设 X= x 1 x 2 x 3 , 的相关系数矩阵通过因子分析分解为 1 1 2 3 3 0.934 0 0.128 0.417 1 R 1 0 0.417 0.934 0.835 3 0.894 0.894 0.027 0.835 0 0.447 2 0 1 0.447 0.103 3 2 __________， __________ ， X 1的共性方差 h 1 X 1的方差 11 公因子 f 1对 X 的贡献 g 12 ________________。 5、设 X i , i 1, ,16 是来自多元正态总体 N p ( , ), X 和 A 分别为正态总体 N p ( , ) 的样本均值和样本离差矩阵 , 则 T 2 15[4( X )] A 1[4( X)] ~ ___________ 。 16 4 2 、设 ( x 1 , x 2 , x 3) ~ N 3 ( , ), 其中 (1,0, 2) ,4 4 1 , 1X 2 1 4 试判断 x 1 2 x 3与 x 2 x 3 是否独立？ x 1