应用多元统计分析习题解答_第五章

合集下载

应用多元统计分析课后习题答案详解北大高惠璇(第五章部分习题解答)

所以样品x=2.5判归 1. 判归G 因0.5218>0.3798>0.0984,所以样品所以样品判归
8
第五章判别分析
5 − 3 设总体Gi 的均值为µ ( i ) (i = 1,2),同协差阵Σ. 1 ′µ (1) + a′µ ( 2 ) ), (其中a = Σ −1 ( µ (1) − µ ( 2) )), 记µ = (a 2 试证明(1)E(a′X | G1 ) > µ ; (2)E(a′X | G2 ) < µ . 1 (1) 1 (1) (2) ′X | G1) − µ = a′µ − (a′µ + a′µ ) = (a′µ(1) − a′µ(2) ) 解: E(a 2 2 1 (1) (2) −1 (1) (2) = (µ − µ )′Σ (µ − µ ) > 0, (因Σ > 0) 2 1 (1) (2) −1 (1) (2) 类似可证: E(a′X | G2 ) − µ = − (µ − µ )′Σ (µ − µ ) < 0,. 2 即 E(a′X | G1) > µ, E(a′X | G2 ) < µ .
第五章判别分析
所以 q1 f1 ( x) = 0.1613, 类似可得 q2 f 2 ( x) = 0.0304, q3 f 3 ( x) = 0.1174,
所以样品x=2.5判归 1. 判归G 因0.1613>0.1174>0.0304,所以样品所以样品判归
7
第五章判别分析
解三:后验概率判别法解三后验概率判别法, 后验概率判别法计算样品x已知已知,属的后验概率: 计算样品已知属Gt的后验概率 qt f t ( x) P(t | x) = 3 (t = 1,2,3) ∑ qi fi ( x) 当样品x=2.5时,经计算可得时当样品

应用多元统计分析课后习题答案高惠璇

x1 y2 (2)第二次配方.由于 x y y 1 2 2
14
第二章
2 1 2 2 2 1 2 1 2 2
多元正态分布及参数的估计
2 x x 2 x1 x2 22x1 14x2 65 y y 22 y2 14( y1 y2 ) 65 y 14 y1 49 y 8 y2 16 ( y1 7) ( y2 4)
X 1 X 2 ~ N ( 1 2 ,2 (1 ));
2
X 1 X 2 ~ N ( 1 2 ,2 (1 )).
2
5
第二章
多元正态分布及参数的估计
1 2 , 2 1
2-3 设X(1)和X(2) 均为p维随机向量,已知
3 解三:两次配方法
2 1 2 2 2 (1)第一次配方: 2 x12 2 x1 x2 x2 ( x1 x2 ) 2 x12
2 1 x1 2 1 1 1 1 1 因2 x 2 x1 x2 x ( x1 , x2 ) , 而 BB, 1 1 x2 1 1 1 0 1 0 y1 1 1 x1 x1 x2 2 2 2 2 令y , 则 2 x 2 x x x y y 1 1 2 2 1 2 y x x 1 0 2 1 2
12
第二章
1 2
多元正态分布及参数的估计

2 1
解二:比较系数法 1 1 f ( x , x ) exp 设 ( 2 x 2 2
1 21 2
2 x2 2 x1 x2 22x1 14x2 65)

(完整版)应用多元统计分析课后答案_朱建平版

2.1.试叙述多元联合分布和边际分布之间的关系。

解：多元联合分布讨论多个随机变量联合到一起的概率分布状况，12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数，而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布，其概率密度函数的维数小于p 。

2.2设二维随机向量12()X X '服从二元正态分布，写出其联合分布。

解：设12()X X '的均值向量为()12μμ'=μ，协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭，则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。

2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=--其中1ax b ≤≤，2c x d ≤≤。

求（1）随机变量1X 和2X 的边缘密度函数、均值和方差；（2）随机变量1X 和2X 的协方差和相关系数；（3）判断1X 和2X 是否相互独立。

（1）解：随机变量1X 和2X 的边缘密度函数、均值和方差；112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()dd c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰ 121222202()()2[()2()]()()()()dd c c d c x a x b a t x a t dt b a d c b a d c ------=+----⎰ 2212122222()()[()2()]1()()()()d cdc d c x a x b a t x a t b a d c b a d c b a------=+=----- 所以由于1X 服从均匀分布，则均值为2b a+，方差为()212b a -。

应用多元统计分析课后习题答案高惠璇第五章部分习题解答

u (2) a (2)
1 89765
(32,33)
2205
1465 4.8897 89765
u (1) u (2)
当X (1)
20 20
时,
u(
X
(1)
)
1 89765
(32,33)
20 20
4.3390
因u( X (1) ) 4.3390 u* , 判X (1) G2.
当X (1)
15 20
解 : (a) (ad )2 (ad )(ad )
aSa
aSa
a( X
(1)
X
(2) )( X aSa
(1)
X
(2) )a
def
aBa aSa
1
其中1为S 1B的最大特征值,且仅当a 1对应的
特征向量时等号成立.
又S 1B ( X (1) X (2) )( X (1) X (2) )S 1与
判X G2 , 当W ( X ) 0, 试求错判概率P(2 |1)和P(1| 2).
解 : 记a 1 ( (1) (2) ),W ( X ) ( X )a是X的
线性函数,当X
G1时,W
(X
)
~
N1
(
1
,
2 1
),
且
21
第五章判别分析
1
E(W ( X
))
( (1)
)a
1 2
( (1)
2
PU a PU b
(1) 2
(2) 1
(1) 1
(2) 2
.
.
(b) (a)
4
第五章判别分析
5-2 设三个总体的分布分别为: G1为N(2,0.52), G2为

应用多元统计分析课后答案 .doc

2.1.试叙述多元联合分布和边际分布之间的关系。

解：多元联合分布讨论多个随机变量联合到一起的概率分布状况，12(,,)p X X X X '=L 的联合分布密度函数是一个p 维的函数，而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布，其概率密度函数的维数小于p 。

2.2设二维随机向量12()X X '服从二元正态分布，写出其联合分布。

2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=--其中1ax b ≤≤，2c x d ≤≤。

求（1）随机变量1X 和2X 的边缘密度函数、均值和方差；（2）随机变量1X 和2X 的协方差和相关系数；（3）判断1X 和2X 是否相互独立。

多元统计分析第5章聚类分析

余弦相似性 Cosine Similarity
A document can be represented by thousands of attributes,
p (such as each recording the frequency of a particular word keywords) or phrase in the document. xi yi
feature mapping, ... Cosine measure: If d1 and d2 are two vectors (e.g., termfrequency vectors), then cos(d1, d2) = (d1 d2) /||d1|| ||d2|| ,
where indicates vector dot product, ||d||: the length of vector d
d1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0) d2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1) d1 d2 = 5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1 = 25 ||d1||= (5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 = 6.481 ||d2||= (3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5 = 4.12 cos(d1, d2 ) = 0.94

应用多元统计分析课后题答案

c) c)2
2( x1

a)( x2

c)]
其中 a x1 b ， c x2 d 。求（1）随机变量 X1 和 X 2 的边缘密度函数、均值和方差；（2）随机变量 X1 和 X 2 的协方差和相关系数；（3）判断 X1 和 X 2 是否相互独立。
（1）解：随机变量 X1 和 X 2 的边缘密度函数、均值和方差；
12

2 2

1/
2
exp

1 2
(x

μ)

12 21
12

2 2
1
(x

μ)

。
2.3 已知随机向量 ( X1 X 2 ) 的联合密度函数为
f
( x1 ,
x2 )

2[(d

c)( x1

a)
(b a)(x2 (b a)2 (d

μ)

1 n 1
n i 1
E(Xi
-
μ)(
X i
-
μ)

nE(X

μ)(X

μ)

Σ
。
故 S 为 Σ 的无偏估计。 n 1
2.9.设 X(1) , X(2) , ..., X(n) 是从多元正态分布 X ~ N p (μ, Σ) 抽出的一个简单随机样本，试求 S
c) 2(x1 a)(x2 a)2(d c)2

c)]
dx2
2(d c)(x1 a)x2 d dc 2[(b a)t 2(x1 a)t] dt
(b a)2 (d c)2

应用多元统计分析_课后答案

图 2.1
Descriptives 对话框
2.
单击 Options 按钮，打开 Options 子对话框。在对话框中选择 Mean 复选框，即计算样本均值向量，如图 2.2 所示。单击 Continue 按钮返回主对话框。
图 2.2 Options 子对话框 3. 单击 OK 按钮，执行操作。则在结果输出窗口中给出样本均值向量，如表 2.1，即样本均值向量为（35.3333，12.3333，17.1667，1.5250E2）。
2.5 解：依据题意，X= 57000 40200 21450 21900 45000 28350
′
15 16 12 8 15 8
27000 18750 12000 13200 21000 12000
144 36 381 190 138 26
′ E(X)= ∑6 α=1 x(α) = (35650,12.33,17325,152.5) n σ1 σ2 ρ2 (x1 −μ1 )2 σ2 1
+
σ2 1
(x2 −μ2 )2 σ2 2 )2
= = [
(x1 −μ1 )2 σ2 1 ρ(x1 −μ1 ) σ1
− −
2ρ(x1 −μ1 )(x2 −μ2 ) σ1 σ2 (x2 −μ2 ) 2 ] σ2
+
E( X ) μ
n→∞
lim E(
1 1 ��） = lim E( ��） = Σ n→∞ �� n−1
2.7 试证多元正态总体的样本均值向量 ̅) = E ( ΣX 证明： E(�� （α） ) = E (ΣX （α） ) =
n n 1 1 nμ n 1 n2
exp[−

应用多元统计分析习题解答_朱建平_第五章

Abbo无私奉献，只收1个金币，BS收5个金币的…何老师考简单点啊……第五章聚类分析5.1 判别分析和聚类分析有何区别？答：即根据一定的判别准则，判定一个样本归属于哪一类。

具体而言，设有n 个样本，对每个样本测得p 项指标（变量）的数据，已知每个样本属于k 个类别（或总体）中的某一类，通过找出一个最优的划分，使得不同类别的样本尽可能地区别开，并判别该样本属于哪个总体。

聚类分析是分析如何对样品（或变量）进行量化分类的问题。

在聚类之前，我们并不知道总体，而是通过一次次的聚类，使相近的样品（或变量）聚合形成总体。

通俗来讲，判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。

5.2 试述系统聚类的基本思想。

答：系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

5.3 对样品和变量进行聚类分析时，所构造的统计量分别是什么？简要说明为什么这样构造？答：对样品进行聚类分析时，用距离来测定样品之间的相似程度。

因为我们把n 个样本看作p 维空间的n 个点。

点之间的距离即可代表样品间的相似度。

常用的距离为（一）闵可夫斯基距离：1/1()()pq qij ik jk k d q X X ==-∑q 取不同值，分为（1）绝对距离（1q =）1(1)pij ik jk k d X X ==-∑（2）欧氏距离（2q =）21/21(2)()pij ik jk k d X X ==-∑（3）切比雪夫距离（q =∞）1()max ij ik jkk pd X X ≤≤∞=-（二）马氏距离（三）兰氏距离对变量的相似性，我们更多地要了解变量的变化趋势或变化方向，因此用相关性进行衡量。

21()()()ij i j i j d M -'=--X X ΣX X 11()p ik jkij k ik jk X X d L p X X =-=+∑将变量看作p 维空间的向量，一般用（一）夹角余弦（二）相关系数5.4 在进行系统聚类时，不同类间距离计算方法有何区别？选择距离公式应遵循哪些原则？答：设d ij 表示样品X i 与X j 之间距离，用D ij 表示类G i 与G j 之间的距离。

多元统计分析第5章案例分析 2020.5.6

c(2 1) = 4,c(1 2) = 12
1）建立Bayes判别准则 2）假设有一新样品 x0 满足 f1( x0 ) = 0.36
和 f2( x0 ) = 0.24, 判定 x0 的归属问题．解 (1)
19
例3 设有两个正态总体 G1,G2，且
1
=
2 6
，2
=
4 2
，1
=
2
=
=
1 1
1 9
，
而其先验概率分布为 q1 = q2 = 0.5, 误判代价为
C(2 1) = e4 ,C(1 2) = e；试用Bayes判别法确定样本
X
3
=
5
应归属于哪一类?
解由Bayes判别法知
W (x) =
f1( x) f2 ( x)
=
exp[(
x
−
)T
−1 ( 1
−
2
)]
exp( 4 x1
+
正常使用填空题需3.0以上版本雨课堂
作答
填空题 2分
Fisher判别法就是要找一个由p个变量组成的 [填空1]使得各自组内点的 [填空2] 尽可能接近,而不同组间点的尽可能疏远
正常使用填空题需3.0以上版本雨课堂
作答
填空题 2分
判别分析中,若两个总体的协差阵相等,则 [填空1]判别与 [填空2]判别等价
• Bayes判别法优点：错判率较小不足之处：需要获取总体的分布及参数值, 实现困难实际问题中有时也没必要知道其分布
方法之优缺点
• Fisher判别优点：可以分类,也可以分离不足之处：一般需假定各组的协方差阵相等逐步判别优点：对每个变量的地位进行评判不足之处：需结合Bayes判别一起使用

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第五章聚类分析判别分析和聚类分析有何区别答：即根据一定的判别准则，判定一个样本归属于哪一类。

聚类分析是分析如何对样品（或变量）进行量化分类的问题。

在聚类之前，我们并不知道总体，而是通过一次次的聚类，使相近的样品（或变量）聚合形成总体。

通俗来讲，判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。

试述系统聚类的基本思想。

对样品和变量进行聚类分析时，所构造的统计量分别是什么简要说明为什么这样构造答：对样品进行聚类分析时，用距离来测定样品之间的相似程度。

因为我们把n 个样本看作p 维空间的n 个点。

点之间的距离即可代表样品间的相似度。

将变量看作p 维空间的向量，一般用21()()()ij i j i j d M -'=--X X ΣX X 11()p ik jkij k ik jk X X d L p X X =-=+∑（一）夹角余弦（二）相关系数在进行系统聚类时，不同类间距离计算方法有何区别选择距离公式应遵循哪些原则答：设d ij 表示样品X i 与X j 之间距离，用D ij 表示类G i 与G j 之间的距离。

（1）. 最短距离法,mini k j rkr ij X G X G D d ∈∈=min{,}kp kq D D =（2）最长距离法,maxi p j qpq ij X G X G D d ∈∈=,maxi k j rkr ij X G X G D d ∈∈=max{,}kp kq D D =（3）中间距离法其中（4）重心法2()()pq p q p q D X X X X '=-- )(1q q p p rrX n X n n X +=22222p q p q kr kp kq pq rrr n n n n D D D D n n n =+-12211cos ()()pikjkk ijp pik jk k k XX X X θ====∑∑∑12211()()()()pik i jk j k ij p pik i jk j k k X X X X r X X X X ===--=--∑∑∑ij G X G X ij d D jj i i ∈∈=,min22222121pq kq kp kr D D D D β++=（5）类平均法221i p j jpqijX G X G p qD d n n ∈∈=∑∑ 221i k j rkrijX G X G k r D dn n ∈∈=∑∑22p q kpkqrrn n D D n n =+（6）可变类平均法其中?是可变的且? <1（7）可变法22221()2kr kp kq pq D D D D ββ-=++ 其中?是可变的且? <1 （8）离差平方和法1()()tn t it t it t t S X X X X ='=--∑2222k p k qk krkpkqpq r k r k r kn n n n n D D D D n n n n n n ++=+-+++通常选择距离公式应注意遵循以下的基本原则：（1）要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念。

马氏距离有消除量纲影响的作用。

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。

（3）要考虑研究对象的特点和计算量的大小。

样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。

实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。

试述K 均值法与系统聚类法的异同。

答：相同：K —均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的。

不同：系统聚类对不同的类数产生一系列的聚类结果，而K —均值法只能产生指定类数的聚类结果。

2222(1)()pq kr kp kq pqrrn n D D D D n n ββ=-++具体类数的确定，离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K —均值法确定类数的参考。

试述K 均值法与系统聚类有何区别试述有序聚类法的基本思想。

答：K 均值法的基本思想是将每一个样品分配给最近中心（均值）的类中。

系统聚类对不同的类数产生一系列的聚类结果，而K —均值法只能产生指定类数的聚类结果。

具体类数的确定，有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K 均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。

如果用)()2()1(,,,n X X X 表示n 个有序的样品，则每一类必须是这样的形式，即)()1()(,,,j i i X X X +，其中,1n i ≤≤且n j ≤，简记为},,1,{j i i G i +=。

在同一类中的样品是次序相邻的。

一般的步骤是（1）计算直径{D （i,j ）}。

（2）计算最小分类损失函数{L[p(l,k)]}。

(3)确定分类个数k 。

（4）最优分类。

检测某类产品的重量，抽了六个样品，每个样品只测了一个指标，分别为1，2，3，6，9，11.试用最短距离法，重心法进行聚类分析。

（1）用最短距离法进行聚类分析。

采用绝对值距离，计算样品间距离阵0 1 0 2 1 0 5 4 3 0 8 7 6 3 0 10 9 8 5 2 0由上表易知中最小元素是于是将，，聚为一类，记为计算距离阵3 06 3 08 5 2 0中最小元素是=2 于是将，聚为一类，记为计算样本距离阵3 06 3 0中最小元素是于是将，聚为一类，记为因此，（2）用重心法进行聚类分析计算样品间平方距离阵1 04 1 025 16 9 064 49 36 9 0100 81 64 25 4 0易知中最小元素是于是将，，聚为一类，记为计算距离阵16 049 9 081 25 4 0注：计算方法,其他以此类推。

中最小元素是=4 于是将，聚为一类，记为计算样本距离阵16 064 16 0中最小元素是于是将，聚为一类，记为因此，下表是15个上市公司2001年的一些主要财务指标，使用系统聚类法和K－均值法分别对这些公司进行聚类，并对结果进行比较分析。

公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率12301004561086781009101001112100131415解:令净资产收益率为X1，每股净利润X2，总资产周转率为X3，资产负债率为X4，流动负债比率为X5，每股净资产为X6，净利润增长率为X7，总资产增长率为X8，用spss对公司聚类分析的步骤如下：a)系统聚类法:1.在SPSS窗口中选择Analyze→Classify→Hierachical Cluster，调出系统聚类分析主界面，并将变量X8-X1移入Variables框中。

在Cluster 栏中选择Cases单选按钮，即对样品进行聚类（若选择Variables，则对变量进行聚类）。

在Display栏中选择Statistics和Plots复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

图系统分析法主界面2.点击Statistics按钮，设置在结果输出窗口中给出的聚类分析统计量。

我们选择Agglomeration schedule与Cluster Membership中的Range of solution 2-4，如图所示，点击Continue按钮，返回主界面。

（其中，Agglomeration schedule表示在结果中给出聚类过程表，显示系统聚类的详细步骤；Proximity matrix 表示输出各个体之间的距离矩阵；Cluster Membership 表示在结果中输出一个表，表中显示每个个体被分配到的类别，Range of solution 2-4即将所有个体分为2至4类。

）3.点击Plots按钮，设置结果输出窗口中给出的聚类分析统计图。

选中Dendrogram复选框和Icicle栏中的None单选按钮，如图，即只给出聚类树形图，而不给出冰柱图。

单击Continue按钮，返回主界面。

图Statistics子对话框图Plots子对话框4.点击Method按钮，设置系统聚类的方法选项。

Cluster Method下拉列表用于指定聚类的方法，这里选择Between-group inkage（组间平均数连接距离）；Measure栏用于选择对距离和相似性的测度方法，选择Squared Euclidean distance（欧氏距离）；单击Continue按钮，返回主界面。

图Method子对话框图Save子对话框5.点击Save按钮，指定保存在数据文件中的用于表明聚类结果的新变量。

None表示不保存任何新变量；Single solution表示生成一个分类变量，在其后的矩形框中输入要分成的类数；Range of solutions表示生成多个分类变量。

这里我们选择Range of solutions，并在后面的两个矩形框中分别输入2和4，即生成三个新的分类变量，分别表明将样品分为2类、3类和4类时的聚类结果,如图。

点击Continue，返回主界面。

6.点击OK按钮，运行系统聚类过程。

聚类结果分析:下面的群集成员表给出了把公司分为2类，3类，4类时各个样本所属类别的情况，另外，从右边的树形图也可以直观地看到，若将15个公司分为2类，则13独自为一类，其余的为一类；若分为3类，则公司8分离出来，自成一类。