(完整版)多元统计分析课后练习答案

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第1章多元正态分布

1、在数据处理时，为什么通常要进行标准化处理？

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么？

欧氏距离也称欧几里得度量、欧几里得度量，是一个通常采用的距离定义，它是在m 维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点：就大部分统计问题而言，欧氏距离是不能令人满意的。每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时，它们往往带有大小不等的随机波动，在这种情况下，合理的方法是对坐标加权，使变化较大的坐标比变化较小的坐标有较小的权系数，这就产生了各种距离。当各个分量为不同性质的量时，“距离”的大小与指标的单位有关。它将样品的不同属性之间的差别等同看待，这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点：它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。

缺点：夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等，且与互相独立时，采用欧氏距离与统计距离是否一致？

统计距离区别于欧式距离，此距离要依赖样本的方差和协方差，能够体现各变量在变差大小上的不同，以及优势存在的相关性，还要求距离与各变量所用的单位无关。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

4、如果正态随机向量12(,,)p X X X X '=的协方差阵∑为对角阵，证明X 的分量是相互独立的随机变量。

解：因为12(,,)p X X X X '

=的密度函数为 1/2111(,...,)exp ()()2p p f x x --⎧⎫'=---⎨⎬⎩⎭Σx μΣx μ

又由于21222p σσσ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝

⎭Σ 22212p σσσ=Σ 2

2122111p σσσ-⎛⎫ ⎪ ⎪ ⎪ ⎪= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭Σ 则1(,...,)p f x x

211/2222212

2111exp ()()21p p p σσσσσσ--⎧⎫⎛⎫⎪⎪ ⎪⎪⎪ ⎪⎪⎪ ⎪⎪⎪ ⎪'==--=-⎨⎬ ⎪⎪⎪ ⎪⎪⎪ ⎪⎪⎪ ⎪⎪⎪ ⎪⎝⎭⎩⎭Σx μΣx

()222123*********()()()111exp ...222p p p p p x x x μμμσσσσσσ-⎧⎫---⎪⎪=----⎨⎬⎪⎪⎩⎭ 2121()()...()2p i i p i i x f x f x μσ=⎧⎫-=-=⎨⎬⎩⎭

则其分量是相互独立。

5.1y 和2y 是相互独立的随机变量，且1y ～）1,0（N ，2y ～）4,3（N 。

（a ）求21y 的分布。

（b ）如果⎥⎦

⎤⎢⎣⎡-=2/)3(21y y y ，写出y y '关于1y 与2y 的表达式，并写出y y '的分布。

（c ）如果⎥⎦

⎤⎢⎣⎡=21y y y 且y ～∑），（μN ，写出∑-'1y y 关于1y 与2y 的表达式，并写出∑-'1

y y 的分布。

解：（a ）由于1y ～）1,0（N ，所以1y ～）1（2χ。（b ）由于1y ～）1,0（N ，2y ～）4,3（N ；

所以23

2-y ～）1,0（N ；

故2221)23(

-+='y y y y ，且y y '～）2（2χ

第2章均值向量和协方差阵的检验

1、略

2、试谈Wilks 统计量在多元方差分析中的重要意义。

3、题目此略

多元均值检验,从题意知道，容量为9的样本，总体协方差未知

假设H0：0μμ= ， H1：0μμ≠ (n=9 p=5) 检验统计量

/(n-1)

)()(0102μμ-'-=-X S X n T 服从P ，n-1的2T 分布统计量2T 实际上是样本均值与已知总体均值之间的马氏距离再乘以n*（n-1）,这个值越大，相等的可能性越小，备择假设成立时，2T 有变大的趋势，所以拒绝域选择2T 值较大的右侧部分，也可以转变为F 统计量

零假设的拒绝区域 {（n-p ）/[(n-1)*p]}*2T >,()p n p F α-

1/10*2T >F5,4(5)

μ0=（ 6212.01 32.87 2972 9.5

15.78）’ 样本均值（4208.78 35.12 1965.89 12.21 27.79）’

（样本均值-μ0）’=(-2003.23 2.25 -1006.11 2.71

12.01) 协方差矩阵(降维——因子分析——抽取)

Inter-Item Covariance Matrix

人均GDP(元）三产比重（%）人均消费(元）人口增长(%) 文盲半文盲（%) 人均GDP(元）

1020190.840 582.460 331693.531 -599.784 -6356.325 三产比重（%）

582.460 19.480 -105.464 6.625 43.697 人均消费(元）

331693.531 -105.464 125364.321 -213.634 -3130.038 人口增长(%)

-599.784 6.625 -213.634 6.099 25.410 文盲半文盲（%) -6356.325 43.697 -3130.038 25.410 196.884 协方差的逆矩阵

1.88034E-05 -0.000440368 -6.09781E-05 0.00279921 -0.000625893 -0.00044037 0.207023949 -0.000210374 -0.0237044 -0.06044981 -6.0978E-05 -0.000210374 0.00022733 -0.0105019 0.003047474 0.002799208 -0.023704352 -0.010501881 0.85288927 -0.18139981 -0.00062589 -0.06044981 0.003047474 -0.1813998 0.070148804

计算：边远及少数民族聚居区社会经济发展水平的指标数据.xls

2T =9* (-2003.23 2.25 -1006.11 2.71 12.01)*s^-1* (-2003.23 2.25 -1006.11 2.71 12.01)’=9*50.11793817=451,06144353

F 统计量=45.2>6.2 拒绝零假设，边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。

4、略

第3章聚类分析

1.、聚类分析的基本思想和功能是什么？

聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性，于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间的相似程度的统计量，以这些统计量作为划分类型的依据，把一些相似程度较大的样品聚合为一类，把另外一些彼此之间相似程度较大的样品又聚合为另外一类，直到把所有的样品聚合完毕，形成一个有小到大的分类系统，最后再把整个分类系统画成一张分群图，用它把所有样品间的亲疏关系表示出来。功能是把相似的研究对象归类。