多元统计分析第4章作业题选讲
多元统计分析课后习题解答_第四章

多元统计分析课后习题解答_第四章(共12页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第四章判别分析简述欧几里得距离与马氏距离的区别和联系。
答:设p维欧几里得空间中的两点X=和Y=。
则欧几里得距离为。
欧几里得距离的局限有①在多元数据分析中,其度量不合理。
②会受到实际问题中量纲的影响。
设X,Y是来自均值向量为,协方差为的总体G中的p维样本。
则马氏距离为D(X,Y)=。
当即单位阵时,D(X,Y)==即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk 是p 维空间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是1和 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则X ,D2(X ,G1)D 2(X ,G 2)X,D 2(X ,G 1)> D 2(X ,G 2, 具体分析,2212(,)(,)D G D G -X X111122111111111222*********()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ,W(X)X ,W(X)<0②多个总体的判别问题。
多元统计习题答案(第4到7章)

第四章4-1 设⎪⎩⎪⎨⎧++=+-=+=,2,2,332211εεεb a y b a y a y ).,0(~323321I N σεεεε⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=(1)试求参数b a ,的最小二乘估计;(2)试导出检验b a H =:0的似然比统计量,并指出当假设成立时,这个统计量是分布是什么?解:(1)由题意可知.,,,211201321321⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-=εεεεβ b a y y y Y C 则⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎪⎪⎪⎪⎭⎫ ⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-==--321'1''1'211201************)(ˆy y y Y C C C β .ˆˆ)2(51)2(6132321⎥⎦⎤⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡+-++b ay y y y y (2)由题意知,检验b a H =:0的似然比统计量为23202ˆ⎪⎪⎭⎫⎝⎛=σσλ 其中,])ˆ2ˆ()ˆˆ2()ˆ[(31ˆ2322212b a y b a y a y --++-+-=σ。
当0H 成立时,设0a b a ==,则⎪⎩⎪⎨⎧+=+=+=,3,,303202101εεεa y a y a y ,311⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=C 可得,ˆ)3y (111311311311)(ˆ0321321'1''1'a y y y y y Y C C C =++=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎪⎪⎪⎪⎭⎫ ⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==--β ],)ˆ3()ˆ()ˆ[(31ˆ20320220120a y a y ay -+-+-=σ 因此,当假设0H 成立时,与似然比统计量λ等价的F 统计量及其分布为).1,1(~ˆˆˆ2202F F σσσ-=第五章5-1 已知总体)1(=m G i 的分布为)2,1)(,(2)(=i N i i σμ,按距离判别准则为(不妨设21)2()1(,σσμμ<>)⎩⎨⎧≥≤∈<<∈,,,,**2**1μμμμx x G x x G x 或 若 若 其中 .,121221*211221*σσσμσμμσσσμσμμ--=++=)()()()( 试求错判概率)1|2(P 和)2|1(P 。
多元统计分析 第四章至第九章 课后题数据

4.8 某超市经销十种品牌饮料,其中四种畅销,三种平销,三种滞销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
销售情况 产品序号销售价格 口味评分 信任度评分畅销1 2.2 5 8 2 2.5 6 73 3 3 94 3.2 8 6 平销5 2.8 76 6 3.5 87 7 4.89 8 滞销8 1.7 3 4 9 2.2 4 2 102.7 4 3(1) 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。
(2) 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。
4.9 银行的贷款部门需要判别每个客户的信用好坏(是否为履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄(1X )、受教育程度(2X )、现在所从事工作的年数(3X )、未变更住址的年数(4X )、收入(5X )、负债收入比例(6X )、信用卡债务(7X )、其他债务(8X )等来判断其信用情况。
下表是从银行的客户资料中抽取的部分数据,(1)根据样本资料分别用距离判别法、贝叶斯判别法和费希尔判别法建立判别函数和判别规则。
(2)某客户的如上情况资料为(53,1,918,50,11.20,2.02,3.58),对其进行信用好坏的评。
目前信用好坏 客户序号X1 X2 X3 X4 X5 X6 X7 X8 已履行还贷责任1 23 1 72 31 6.6 0.34 1.71 2 34 1 173 59 8 1.81 2.91 3 42 2 7 23 41 4.6 0.94 0.94 4 39 1 195 48 13.1 1.93 4.36 5 35 1 9 1 34 5 0.4 1.3 未履行还贷责任6 37 1 1 3 24 15.1 1.8 1.82 7 29 1 13 1 42 7.4 1.46 1.65 8 32 2 11 6 75 23.3 7.76 9.72 9 28 2 2 3 23 6.4 0.19 1.29 1026 1 4 3 27 10.5 2.47 0.365.8 下表是15个上市公司2001年的一些主要财物指标,使用系统聚类法和K 均值法分别对这些公司进行聚类,并对结果进行比较分析。
多元统计分析第4章作业题选讲

多元统计分析
解:由已知可得,
1 (1) 1 6 2 4 (2) x x 2 2 2 1 0.5
^
4 3 1 9 3 1 =S p 27 3 4 3 9 ^ ^ ^ ^ 1 9 3 4 1 1 a 1 2 27 3 4 3 0 x1 4 ^ ^ x 1 1 x 4 记x , 则W ( x) a x 1 1 x 0 x 2 2 2 6 6 当x , 则W ( x) 6 4=2 0 ,所以,x 属于总体G1. 0 0
i
1 令 W x a x μ ,其中 μ 2 μ1 μ2
i
i
a Σ 1 μ1 μ2 ,则上述判别规则可简化为:
x G1 , 若W x 0 x G2 , 若W x 0 待判, 若W x =0
由s≤min(k−1,p)知,组数k=2时只有一个判别式,k=3时最
多只有两个判别式,判别式的个数不可能超过原始变量的个 数p。
多元统计分析
第三步 写出判别式 第一判别式:y1=t1′x; 第二判别式:y2=t2′x;
一般地,第i判别式:yi=ti′x,i=1,2,⋯,s。
多元统计分析
(2)判别规则 选取前r(≤s)个判别式y1,y2,⋯,yr,使累计贡献率:
k
k
使ECM达到最小的判别规则:
k
l 1 l i
x l , 若 q j f j x C l | j min q j f j x C i | j
多元统计分析课后练习答案

第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
应用多元统计分析课后习题答案高惠璇第四章部分习题解答市公开课获奖课件省名师示范课获奖课件

0
2
)
3 2
(ˆ
2
)
3 2
ˆ 2 ˆ 0 2
3
2
V
3 2
下列来讨论与V等价旳统计量分布:
ˆ 2
1 3
( y1
aˆ)2
( y2
2aˆ
bˆ)2
( y3
aˆ
2bˆ)2
1 3
( y1
yˆ1 ) 2
( y2
yˆ2 )2
( y3
yˆ3 )2
1 3
(Y
Xˆ )(Y
Xˆ )
1Y 3
(I3
X
(
X
X
)1
Q(β)=(Y-Cβ) '(Y-Cβ) . 试证明β^=(C'C)-1C'Y是在下列四种意义下达最小:
(1) trQ(β^)≤trQ(β) (2) Q(β^)≤Q(β) (3) |Q(β^)|≤|Q(β)|
(4) ch1(Q(β^))≤ch1(Q(β)),其中ch1(A)表达A
旳最大特征值. 以上β是(m+1)×p旳任意矩阵.
[(
y1
aˆ0
)2
]
0
可得
ˆ
2
1 3
( y1
aˆ0 )2
( y2
aˆ0 )2
( y3
3aˆ0 )2
drf
ˆ
2 0
似然比统计量旳分子为
L(aˆ0
,ˆ
2 0
)
(2
)
3 2
(ˆ 0 2
)
3 2
exp[
3 2
].
5
第四章 回归分析
似然比统计量为
L(aˆ0 ,ˆ02 ) L(aˆ,bˆ,ˆ 2 )
应用多元统计分析-第四章 均值向量和协差阵检验

假设检验的过程-以妇女身高为例
形式上,上面的关于总体均值的H0 相对 于H1的检验记为:
H 0 : 160cm H1 : 160cm
我们将 H1 : 160cm 的假设称为双 尾检验 ,即前面说述的假设检验。
假设检验的过程-以妇女身高为例
如果备选假设为: H1 : 160cm
第三,确定显著性水平 根据样本所得的数据来拒绝零假设的概 率应小于0.05,当然也可能是0.01, 0.005,0.001等等。 显著性水平就是小概率水平,但小概率 并不能说明不会发生,仅仅是发生的概 率很小罢了。拒绝正确零假设的错误常 被称为第一类错误(type I error)。
假设检验的过程
有第一类错误,就有第二类错误; 那是备选假设正确时反而说零假设正确 的错误,称为第二类错误(type II error)。 在一般的假设检验问题中,由于备选假 设往往不是一个点,所以无法算出犯第 二类错误的概率。
假设检验的过程
第四,根据数据计算检验统计量的实现 值(t-值)和根据这个实现值计算p-值; 这一步一般都可由计算机软件来完成。 第五,进行判断:如果p-值小于或等于a, 就拒绝零假设,这时犯错误的概率最多 为 ;如果p-值大于 ,就不拒绝零假 设,因为证据不足。
这就是双尾概率,p值为0.045,即p=4.5%
假设检验的过程-以妇女身高为例
首先要提出一个原假设,如妇女身高的 均值等于160cm( 160cm )。这种原假 设也称为零假设(null hypothesis),记 为H0。 与此同时必须提出对立假设,如妇女身 高均值不等于160cm( 160cm )。对立 假设又称为备选假设或备择假设 (alternative hypothesis)记为H1。
应用多元统计分析课后习题答案详解北大高惠璇(第四章部分习题解答).ppt

1 2 1
201
a b
1 2 3
def
X
ˆ
aˆ bˆ
( X X )1
X Y
1 0
2 1
21
1 2 1
1
201
1 0
2 1
21
~ F(1,1)
3
因 V 2 ,
ˆ 2
V
ˆ
2 0
,
故 V 或V ,
1V
1
否定域为
{ } {V V } { f }
10
第四章 回归分析
4-2 在多元线性回归模型(4.1.3)中(p=1),试求出参数 向量β和σ2的最大似然估计.
解:模型(4.1.3)为
1 3
( y1
aˆ0 )2
( y2
aˆ0 )2
( y3
3aˆ0 )2
7
第四章 回归分析
1 3
(Y
Zaˆ0
)(Y
Zaˆ0
)
1 3
Y
(I3
Z
(Z Z
)1 Z
)Y
1 Y BY
3
考虑
ˆ
2 0
ˆ
2
1 Y (B 3
A)Y
B A X ( X X )1 X Z (Z Z )1 Z
应用多元统计分析
第四章部分习题解答
第四章 回归分析
4-1
设
y1 y2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x x1 , x2 ,, x p 的少数几个线性组合(称为判别式或
典型变量)
x , y2 a 2 x , , y r a r x y1 a1
(一般r明显小于p)来代替原始的p 个变量x1,x2, ⋯,xp , 以达到降维的目的,并根据这r 个判别式y1,y2, ⋯,yr对样品 观的几何图形上区别各总体。
多元统计分析
第4章 判别分析) 4.1 判别分析和聚类分析有何区别? 答:判别分析是根据一定的判别准则,判定一个样本归属于 哪一类。具体而言,设有n个样本,对每个样本测得p项指标 (变量)的数据,已知每个样本属于k个类别(或总体)中 的某一类,通过找出一个最优的划分,使得不同类别的样本 尽可能地区别开,并判别该样本属于哪个总体。聚类分析是 分析如何对样品(或变量)进行量化分类的问题。在聚类之 前,我们并不知道总体,而是通过一次次的聚类,使相近的 样品(或变量)聚合形成总体。通俗来讲,判别分析是在已 知有多少类及是什么类的情况下进行分类,而聚类分析是在 不知道类的情况下进行分类。
i 1 i i 1
r
s
i
达到了一个较高的比例(如75%~95%),则可采用这r个判别式做
判别。
判别规则为: x l , 若 y j ylj min y j yij
2 r r 2 j 1 1i k j 1
yij t j xi ,xi = 其中,
多元统计分析
②多个总体的距离判别问题
设有k个组π1,π2,⋯,πk,它们的均值分别是μ1,μ2,⋯,μk,协方差
矩阵分别是Σ1(>0),Σ2(>0),⋯,Σk(>0),x到总体πi的平方马氏距 离为 d 2 x, x μ Σ 1 x μ , i 1, 2,, k
多元统计分析
解:由已知可得,
1 (1) 1 6 2 4 (2) x x 2 2 2 1 0.5
^
4 3 1 9 3 1 =S p 27 3 4 3 9 ^ ^ ^ ^ 1 9 3 4 1 1 a 1 2 27 3 4 3 0 x1 4 ^ ^ x 1 1 x 4 记x , 则W ( x) a x 1 1 x 0 x 2 2 2 6 6 当x , 则W ( x) 6 4=2 0 ,所以,x 属于总体G1. 0 0
k
k
使ECM达到最小的判别规则:
k
l 1 l i
x l , 若 q j f j x C l | j min q j f j x C i | j
j 1 j l 1i k j 1 j i
k
多元统计分析
4.4 简述费希尔判别法的基本思想和方法。 费希尔判别的基本思想是投影(或降维):用p 维向量
P Gi | x
qi fi x
q f x
i 1 i i
k
, i 1, 2,, k
最大后验概率准则采用如下的判别规则:
x l , 若P l | x max P i | x
1i k
多元统计分析
2. 平均误判损失最小准则
C l | i P x Gi , x Rl ECM E C l i
则
多元统计分析
x G1 , 若d 2 x, G1 d 2 x, G2 2 2 x G , 若 d x , G d 1 x, G2 2 2 2 待判, 若 d x , G = d 1 x, G2 d 2 x, x μ Σ 1 x μ , i 1,2.
f1 x c 1| 2 p2 x 1 , 若 f 2 x c 2 |1 p1 x , 若 f1 x c 1| 2 p2 2 f 2 x c 2 |1 p1
多元统计分析
c 1| 2 e c 1| 2 p2 1 p2 0.5 1 = =1, = 4 3, 3; p1 0.5 c 2 |1 e c 2 |1 p1 e e
f1 (x), f2 (x),, f k (x) ,假设k个总体出现的概率分别为:
q1 , q2 ,,q k , qi 0
,
q
i 1
k
i
1 。
多元统计分析
将本来属于总体 Gi 的样品错判到总体 G j 时造成的损 失为 C ( j | i ) , i, j 1,2, , k 。 1. 最大后验概率准则 x属于总体Gi的后验概率为
1 ni
r
x ,i=1,2,⋯,k 。
j 1 ij
2 r 2
ni
该判别规则也可表达为:
j 1 1i k
x l , 若 t j x xl min t j x xi
j 1
多元统计分析
4.5 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
多元统计分析
(1)判别式的求法
第一步 计算样本组间离差阵和组内离差阵
多元统计分析
第二步 求特征值和特征向量 求矩阵E
− 1 B(或B − 1 E
)的特征值和对应的单位特征向量。
设全部非零特征值依次为λ 1≥λ 2≥⋯≥λ s>0,其中,非零特 征值个数:s≤min(k −1,p) 相应的特征向量依次记为t1,t2,⋯,ts(标准化为ti′Spti=1, i=1,2,⋯,s),称y1=t1′x为第一判别式,y2=t2′x为第二判 别式。一般地,称yi=ti′x为第i判别式,i=1,2,⋯,s。
i
1 令 W x a x μ ,其中 μ 2 μ1 μ2
i
i
a Σ 1 μ1 μ2 ,则上述判别规则可简化为:
x G1 , 若W x 0 x G2 , 若W x 0 待判, 若W x =0
3 当x 时, 5 f1 x = f2 x f1 x
1 exp 9(3 2) 2 2(3 2)(5 6) (5 6) 2 3 16 =e 4 1 exp 9(3 4) 2 2(3 4)(5 2) (5 2) 2 16
多元统计分析
f2 ( X ) 1 1 exp X 2 1 X 2 2 2 1 1
1 9 1 1 8 8 x1 4 exp x1 4, x 2 2 1 1 x 2 2 2 8 2 8 8 1 1 2 2 exp 9( x1 4) 2( x1 4)( x 2 2) ( x 2 2) 2 8 16 根据最小平均误判代价准则:
多元统计分析
第4章 判别分析) 4.2 简述距离判别法的基本思想和方法。 答:距离判别的基本思想是计算样品与各个总体之间的距离 (通常是马氏距离),把样品判别为样品到总体距离最小的 总体。距离判别问题分为①两个总体的距离判别问题和②多 个总体的距离判别问题。。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是1 和2,对于一个新的样品X,要判断它来自哪个总体。计算 新样品X到两个总体的马氏距离d2(X,G1)和d2(X,G2),
1i k
多元统计分析
多元统计分析
4.3 简述贝叶斯判别法的基本思想和方法。 进行贝叶斯判别,通常有两大准则,一是依据后验概率最 大准则;二是依据平均误判损失最小准则;同时要求已知: (1)总体的概率密度函数; (2)各总体出现的先验概率; (3)各误判损失。
设k个总 G1 , G2 ,,G k 的概率密度函数分别为
判别规则为
x l , 若d 2 x, l min d 2 x, i
1i k
i
i
i
i
若Σ1=Σ2=⋯=Σk=Σ,则上述判别规则可作进一步简化。
d2(x,πi)=(x−μi)′Σ−1(x−μi)=x′Σ−1x−2μi′Σ−1x+μi′Σ−1μi =x′Σ−1x−2(Ii′x+ci) 1 1 1 I Σ μ , c μ Σ μi , i 1, 2, , k ,判别规则简化为 其中 i i i i 2 x l , 若I lx cl max I ix ci
(略)
4.6 设有两个二元总体G1和G2,从中分别抽取样本计算得
(1) 4 3 6 (2) 2 样本协方差阵: 到样本均值: S p= , x = , x = , 3 9 2 1 假设两总体协方差矩阵相等,试用距离判别法建立判别函数
6 和判别规则。 并判别样品 x= 0 应属于哪个总体?
i 1 l 1
k
k
C l | i P x Rl | x Gi P x Gi
i 1 l 1 k k
k
k
C l | i P l | i qi qi C l | i P l | i
i 1 l 1 i 1
^ 1
1
多元统计分析
4.7 设有两正态总体G1和G2,且已知总体均值向量和总体 协方差阵分别为: 2 4 1 1 1= , 2= , 1 =2 == , 6 2 1 9
两总体的先验概率为: q1 q2 0.5 ,
4 C 2 1 e , C 1 2 e ,试用贝叶斯判别法 误判损失为: