应用多元统计分析 第二章正态分布的参数估计答案
练习二 多元正态分布的参数估计
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,
12(,,)p X X X X '= 的联合分布密度函数是一个
p 维的函数,而边际分布讨论是
12(,,)p X X X X '= 的子向量的概率分布,其概率密度函数的维数小于p 。
2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设1
2()X X '的均值向量为()
1
2μμ'
=μ,协方差矩阵为2
112221
2
σσσσ??
???
,则其联合分布密度函数为
1/2
1
2
221
121122
2
2122121()exp ()()2f σσσσσσσσ--??
?????
?
?
'=---?? ?
?
?
??
??
???
?
x x μx μ。
2.3已知随机向量1
2()X X '的联合密度函数为
1212122
2
2[()()()()2()()]
(,)()()
d c x a b a x c x a x c f x x b a d c --+-----=
--
其中1a x b
≤
≤,2c x d
≤
≤。求
(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。
(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;
11212122
2[()()()()2()()]
()()()
d x c
d c x a b a x c x a x c f x dx
b a d
c --+-----=
--?
122122
2
2
2
2
2()()2[()()2()()]
()()
()()
d
d c
c d c x a x b a x c x a x c dx b a d c b a d c -------=+
----?
1212
2
2
2
2()()2[()2()]()()
()()
d d c c d c x a x b a t x a t dt
b a d
c b a
d c ------=
+
----?
2
2
1212
2
2
2
2()()[()2()]
1()()
()()
d c
d
c
d c x a x b a t x a t b a d c b a d c b a
------=
+
=
-----
所以
由于1X 服从均匀分布,则均值为2
b a +,方差为
()
2
12
b a -。
同理,由于2X 服从均匀分布
[]2121,()0x x c d f x d c
?∈?
=-???
其它
,则均值为
2
d c +,方差为()2
12
d
c -。
(2)解:随机变量1X 和2X 的协方差和相关系数;
12cov(,)
x x
1212121222
2[()()()()2()()]22()()d
b c
a
d c x a b a x c x a x c a b d c x x dx dx b a d c --+-----++????=
-- ? ?--?
?????
()()
36
c d b a --=
1
2
12cov(,)
13
x x
x x ρσσ=
=
(3)解:判断1X 和2X 是否相互独立。
1X 和2X 由于121212(,)()()x x f x x f x f x ≠,所以不独立。
2.4设12(,,)p X
X X X '= 服从正态分布,已知其协方差矩阵∑为对角阵,证
明其分量是相互独立的随机变量。
解: 因为12(,,)p X
X X X '= 的密度函数为
1/2
1
11(,...,)exp ()()2p
p f x x --?
??'=---??
??
?
Σ
x μΣx μ 又由于212
2
2p σσσ??
?
?= ? ? ??
?
Σ
22
212p
σσσ
=Σ
212
1
2
21
1
1p σσσ-?? ? ? ? ?= ? ? ? ? ??
?
Σ
则
1(,...,)
p f x x
2
11/2
2
22
21
2
1221
1
1exp ()()21p
p
p σ
σσσσ
σ--????
?? ?
?? ?
?? ?
???
?
'==--=-??
?
??? ?
?? ?
?? ???
????
?
Σx μΣx μ
()
222
1
23111
2
222
12()()()111exp ...222p
p p p
p x x x μμμσσ
σ
σσσ-??---???
=----?? ?
???
?
212
1
()()...()2p
i i p i i x f x f x μσ=??
-=
-=????
∏
则其分量是相互独立。
2.5由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为
1?n
i
i n ===∑μ
X X
1
?()()n
i
i i n ='=--∑Σ
X
X X X
35650.0012.33
?17325.00152.50??
? ?== ? ? ???
μ
X 201588000.0038900.0083722500.00-736800.0038900.0013.06716710.00-35.80
?83722500.0016710.0036573750.00-199875.00-736800.00-35.800
-199875.00
16695.10??
?
?=
?
?
??
?
Σ
2.6 渐近无偏性、有效性和一致性; 2.7 设总体服从正态分布,~
(,)
p N X μΣ,有样本12,,...,n X X X 。由于X 是相
互独立的正态分布随机向量之和,所以X 也服从正态分布。又
()
11
1
()n
n
n
i
i
i i i E E n E n n ===??===
= ???
∑∑∑X X X μ
μ
()22
1
1
1
11()n
n
n
i
i i i i D D n D n
n
n
===??
===
=
???∑∑
∑
ΣX X X Σ
所以~
(,)p N X μΣ。
2.8 方法1: 1
1
?()()1
n
i
i i n ='=---∑Σ
X X X X
1
1
1
n
i
i
i n n =''=
--∑X X XX 1
1?()()1
n
i i
i E E n n =''=--∑Σ
X X XX
()()111n i i i E nE n =??
''=-??-??
∑X X XX
11
1(1)11
n
i n n n n n =??=-=-=??--??∑ΣΣΣΣ。
方法2:1
()n
i i i ='=∑S X -X)(X -X
1((n
i
i i ='
????=
----????
∑X
-μX μ)X -μX μ)
1
1
()()2()()()n
n
i
i i i i n =='''
=
-+--∑∑X
-μX -μX -μX -μX μ)(X μX μ
1()()2()()n
i
i i n n ='''=
---+--∑X
-μX -μX μ)(X μX μ)(X μ
1
()()()n
i
i i n =''=
---∑X
-μX -μX μ)(X μ
11
()()()()11n i i i E E n n n =??
''=--- ?--??
∑S
X -μX -μX μ)(X μ 1
1()()()1n i i i E nE n =??
''=---= ?-??
∑X -μX -μX μ)(X μΣ。 故
1
n -S 为Σ的无偏估计。
9.设(1)
(2)()
n X
,X ,...,X 是从多元正态分布~
(,)
p N X μΣ抽出的一个简单随机样
本,试求S 的分布。
证明: 设
()12
******ij n n n
γγγγ???
'????
????'??===
?
?????
???'????
Γ
为一正交矩阵。
令()''1
2
n 1
2
n Ζ=(ΖΖΖ)=X X X Γ
,
(1,2,3,4,),i n =i X Γ 由于独立同正态分布且为正交矩阵
所以1
2
()n 'Z =Z Z Z
独立同正态分布
。且有
1
1n
n i
i ==
ΖΧ
,1
1()()n
n i i E E ==
=
ΖΧ,1()V ar n =n
Z
Σ
。
1
()()
(1,2,3,,1)n
a aj j j E E r a n ===-∑ΖΧ
1n
aj
j ==
r
1
0n
aj
nj i r r ='=
=∑ 0
(,)i j i j C ov i j
≠?=?
=?ΖΖΣ
又因为1
()()n
j j ='=--∑i S X X X X
1n
j
j n =''=
-∑i X
X XX
1
n
j
j n n
=''=
-∑i X
X ΖΖ
'''=n n
ΖΓΓΖ-ΖΖ=1122...n n ''''=+++n n Z Z Z Z Z Z -ΖΖ 故1
1n j j j -='=Z Z ∑S ,由于121,,,n Z Z Z - 独立同正态分布(0,)
p
N
Σ,所以
1
1
~(1,)n j
j p j W n -='=
Z
Z -∑∑S
10.设()i i X n p ?是来自(,)
p
i i N μΣ的简单随机样本,1,2,3,,i k = ,
(1)已知2...k ====1
μμμμ且2...k ====1ΣΣΣΣ
,求μ和Σ的估计。
(2)已知2
...k ====1ΣΣΣΣ求2,,...,,k
1μμμ和Σ的估计。
解:(1)11
121
?...a
n k a
i
a i k
n n n ====+++∑∑μ
x x ,
()()
11
12?...a
n k a
a
i
i a i k
n n n =='
--=+++∑∑x
x x x Σ
(2)
1ln (,,,)
k L μμΣ
11
1
ln ()exp[]2
a
n k
n p
a a
i
a i a a i 2π-=='??=-
??
∑∑-1
Σ(x -μ)Σ(x -μ)
ln ()
L ??=?
??
?
?
μ,ΣΣ11
11ln()ln 222a
n k a a
i
a i a a i n pn 2π=='=--+-∑∑-1
Σ(x
-μ)Σ(x -μ)
()
2
1
1
11
ln (,)
1
()()0
2
2
a
n k a
a
i a i a a i L n --==?'=-
+
--=?∑∑μΣΣ
X μX μΣ
Σ
1
1
ln (,)
()0(1,2,...,)j
n j ij j i j
L j k -=?=
-==?∑μΣΣ
X μμ
解之,得
1
1?j
n j j ij
i j
n ===∑μ
x x ,()()
11
12?...j
n k
j j j i k
n n n =='
--=
+++∑∑ij
ij x
x x x Σ
厦门大学《应用多元统计分析》习题第02章 多元正态分布的参数估计
思考与练习 2.1 试述多元联合分布和边缘分布之间的关系。 2.2 设随机向量12(,)X X ′=X 服从二元正态分布,写出其联合分布密度函数和1X 、2X 各自的边缘密度函数。 2.3 已知随机向量12(,)X X ′=X 的联合分布密度函数为: ()()()()()()()()() 121122 2 22,d c x a b a x c x a x c f x x b a d c ??+?????2???? = ?? 其中,。求: 12,a x b c x d ≤≤≤≤⑴ 随机变量1X 和2X 各自的边缘密度函数、均值与方差。 ⑵ 随机变量1X 和2X 的协方差和相关系数。 ⑶ 判断1X 和2X 是否相互独立。 2.4 设随机向量12(,,,)p X X X ′=X L 服从正态分布,已知其协差阵为对角阵,证明ΣX 的分量是相互独立的随机变量。 2.5 从某企业全部职工中随机抽取一个容量为6的样本,该样本中各职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示: 职工编号 目前工资 (美元) 受教育年限(年) 初始工资 (美元) 工作经验(月) 1
1 2 3 4 5 6 57,000 40,200 21,450 21,900 45,000 28,350 15 16 12 8 15 8 27,000 18,750 12,000 13,200 21,000 12,000 144 36 381 190 138 26 设职工总体的以上变量服从多元正态分布,根据样本资料求出均值向量和协差阵的最大似然估计。 2.6 均值向量和协差阵的最大似然估计量具有哪些优良性质? 2.7 试证多元正态总体的样本均值向量(,)p N μΣ1 ~(, p N n X μΣ)。 2.8 试证多元正态总体的样本协差阵S 为(,)p N μΣΣ的无偏估计。 2.9 设()1x 、()2x 、…、()n x 是从多元正态总体中独立抽取的一个随机样本,试求样本协差阵的分布。 (,)p N μΣS 2.10 设()i i X n p ×是来自(),p i i N μΣ的数据阵,1,,i k =L , ⑴ 已知1k ===μμμL 且1k ===ΣΣL Σ,求μ和的估计。 Σ⑵ 已知1k ===ΣΣL Σ,求1,,k μμL 和Σ的估计。 2
多元统计分析期末试题
一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互
多元统计分析模拟试题教学提纲
多元统计分析模拟试 题
多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m
多元统计分析期末试题及答案
22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???
第1章 多元正态分布的参数估计
1 第一章 多元正态分布的参数估计 一、填空题 1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。 2.多元分析处理的数据一般都属于 数据。 3.多元正态向量()' =p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。 4.一个p 元函数() p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。 5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X , 2X , ,p X 是相互独立的。 6.多元正态分布的任何边缘分布为 。 7.若()∑,~μp N X ,A 为p s ?阶常数阵,d 为s 维常数向量,则~d AX + 。 8.多元正态向量X 的任何一个分量子集的分布称为X 的 。 9.多元样本中,不同样品的观测值之间一定是 。 10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。 11.多元正态总体均值向量μ和协差阵∑的估计量X 、 S n 1 1-具有 、 和 。 12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则 ~X ,X 和S 。 13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵 ()()()()∑='--=n X X X X S 1~ααα 。 14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。 二、判断题 1.多元分布函数()x F 是单调不减函数,而且是右连续的。 2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布。 3.μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质: (1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B 4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。 5.一般情况下,对任何随机向量()'=X X X p ,,1 ,协差阵∑是对称阵,也 是正定阵。 6.多元正态向量()'=X X X p ,,1 的任意线性变换仍然服从多元正态分布。 7.多元正态分布的任何边缘分布为正态分布,反之一样。 8.多元样本中,不同样品之间的观测值一定是相互独立的。 9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。 10. S n 1是∑的无偏估计。
练习一多元正态分布的参数估计(精)
练习一 多元正态分布的参数估计 1.试叙述多元联合分布和边际分布之间的关系。 2.设二维随机向量12()X X '服从二元正态分布,写出其联合分布。 3.已知随机向量1 2()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。 4.设12(,,)p X X X X '= 服从正态分布,已知其协方差矩阵∑为对角阵,证明其分量是相互独立的随机变量。 5. 影响粮食产量的因素很多, 大致可分为三个层次:第一层次是宏观因素。主要有三种,一是制度创新, 如20世纪50年代初的土地改革、60年代初的“ 三自一包”和 80年代初的联产承包责任制和现行的粮食直补及税费改革等。二是政策导向, 如收购政策及价格、市场政策结构调整、储备政策、财政投人、政府抓粮食生产的力度等。三是科技进步,如良种的培育、播种技术的改进、机械化程度的提高等等, 特别是杂交水稻的发明, 是粮食生产的一次绿色革命, 大大地提高了粮食单位面积产量。第二层次是中观因素。主要有粮食播种面积、单位面积产量、受灾面积等等, 这些因素是影响粮食产量的直接因素。第三层次是微观因素, 主要有有效灌溉面积、化肥施用量、农业机械化程度、财政三项投入等。为了分析粮食产量的影响因素及其影响程度,将用1978一2007年的统计数据进行分析。其中:Y 是粮食产量(万吨),X1是农业化肥试用量(万吨),X2是粮食播种面积(千公顷),X3是成灾面积(千公顷),X4是农业劳动力(万人),X5是农业机械总动力(万千瓦)。
多元统计分析模拟考题及答案
一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--
多元统计分析期末复习试题
第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ
2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X
参数估计和假设检验习题解答
参数估计和假设检验习题 1.设某产品的指标服从正态分布,它的标准差σ已知为150,今抽了一个容量为26的样本,计算得平均值为1637。问在5%的显著水平下,能否认为这批产品的指标的期望值μ为1600? 解: 01:1600, :1600,H H μμ=≠标准差σ已知,拒绝域为2 Z z α>,取0.05,α=26,n = 0.0250.9752 1.96z z z α===, 由检验统计量 1.25 1.96Z = ==<,接受0:1600H μ=, 即,以95%的把握认为这批产品的指标的期望值μ为1600. 2.某纺织厂在正常的运转条件下,平均每台布机每小时经纱断头数为O.973根,各台布机断头数的标准差为O.162根,该厂进行工艺改进,减少经纱上浆率,在200台布机上进行试验,结果平均每台每小时经纱断头数为O.994根,标准差为0.16根。问,新工艺上浆率能否推广(α=0.05)? 解: 012112:, :,H H μμμμ≥< 3.某电器零件的平均电阻一直保持在2.64Ω,改变加工工艺后,测得100个零件的平均电阻为2.62Ω,如改变工艺前后电阻的标准差保持在O.06Ω,问新工艺对此零件的电阻有无显著影响(α=0.05)? 解: 01: 2.64, : 2.64,H H μμ=≠已知标准差σ=0.16,拒绝域为2 Z z α>,取0.0252 0.05, 1.96z z αα===, 100,n = 由检验统计量 3.33 1.96Z = ==>,接受1: 2.64H μ≠, 即, 以95%的把握认为新工艺对此零件的电阻有显著影响. 4.有一批产品,取50个样品,其中含有4个次品。在这样情况下,判断假设H 0:p ≤0.05是否成立(α=0.05)? 解: 01:0.05, :0.05,H p H p ≤>采用非正态大样本统计检验法,拒绝域为Z z α>,0.950.05, 1.65z α==, 50,n = 由检验统计量0.9733Z = ==<1.65,接受H 0:p ≤0.05. 即, 以95%的把握认为p ≤0.05是成立的. 5.某产品的次品率为O.17,现对此产品进行新工艺试验,从中抽取4O0件检验,发现有次品56件,能否认为此项新工艺提高了产品的质量(α=0.05)? 解: 01:0.17, :0.17,H p H p ≥<采用非正态大样本统计检验法,拒绝域为Z z α<-,400,n = 0.950.05, 1.65z α=-=-,由检验统计量 400 1.5973i x np Z -= = =-∑>-1.65, 接受0:0.17H p ≥, 即, 以95%的把握认为此项新工艺没有显著地提高产品的质量. 6.从某种试验物中取出24个样品,测量其发热量,计算得x =11958,样本标准差s =323,问以5%的显著水平是否可认为发热量的期望值是12100(假定发热量是服从正态分布的)?
多元统计分析期末复习试题
第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ
Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X
多元统计分析期末考试考点整理共5页
多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:
答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。
第二章 多元正态分布及参数的估计汇总
第二章多元正态分布及参数的估计 在多元统计分析中,多元正态分布占有相当重要的地位.这是因为许多实际问题涉及到的随机向量服从正态分布或近似服从正态分布;当样本量很大时,许多统计量的极限分布往往和正态分布有关;此外,对多元正态分布,理论与实践都比较成熟,已有一整套行之有效的统计推断方法.基于这些理由,我们在介绍多元统计分析的种种具体方法之前,首先介绍多元正态分布的定义、性质及多元正态分布中参 数的估计问题. 目录 §2.1 随机向量 §2.2 多元正态分布的定义与基本性质 §2.3 条件分布和独立性 §2.4 多元正态分布的参数估计 §2.1 随机向量 本课程所讨论的是多变量总体.把p个随机变量放在一起得X=(X1,X2,…,Xp)′为一个p维随机向量,如果同时对p维总体进行一次观测,得一个样品为p维数据.常把n个样品排成一个n×p矩阵,称为样本资料阵.
?? ? ? ?? ??'''= ?????? ??=)()2()1(2 1 2222111211n np n n p p X X X x x x x x x x x x X def =(X 1,X 2,…,X p ) 其中 X(i)( i =1,…,n)是来自p 维总体的一个样品. 在多元统计分析中涉及到的都是随机向量,或是多个随机向量放在一起组成的随机矩阵. 本节有关随机向量的一些概念(联合分布,边缘分布,条件分布,独立性;X 的均值向量,X 的协差阵和相关阵,X 与Y 的协差阵)要求大家自已复习. 三﹑ 均值向量和协方差阵的性质 (1) 设X ,Y 为随机向量,A ,B 为常数阵,则 E(AX )=A·E(X ), E(AXB )=A·E(X )·B D(AX)=A·D(X)·A' COV(AX,BY)=A·COV(X,Y)·B' (2) 若X,Y 相互独立,则COV(X,Y)=O;反之不成立. 若COV(X,Y)=O,我们称X 与Y 不相关.故有: 两随机向量若相互独立,则必不相关;
多元统计分析模拟考题及答案
、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4
多元统计分析期末考试考点整理
二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1
2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.
多元统计分析期末试题
1 、填空题(20分) 1、 若X Q ~ N p (g ,(a =1,2,…n)且相互独立,则样本均值向量X 服从的分布为X ~ N p (g^|。 2、 变量的类型按尺度划分有 _间隔尺度_、_有序尺度_、名义尺度_。 3、 判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有 —距离判别法_、Fisher 判别法、 Bayes 判别法、逐步判别法。 4、 Q 型聚类是指对_样品-进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、 设样品X i =(X i1,X i2^ X ip )',(i =1,2,…n),总体X~N p (」「),对样品进行分类常用的距离有: 明氏距离d j (q)=(壬|Xy q i j i j 6、 因子分析中因子载荷系数a j 的统计意义是—第i 个变量与第j 个公因子的相关系数。 7、 一元回归的数学模型是:y 曆x 童,多元回归的数学模型是 8、 对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、 典型相关分析是研究两组变量之间 相关关系的一种多元统计方法。 、计算题(60分) '4 1 1、设三维随机向量X~N 3(?2),其中送=1 3 e 0 独立?为什么? 解:因为cov(X 1,X 2^1,所以X 1与X 2不独立。 把协差矩阵写成分块矩阵瓦=f 11 ;12丨,(X 1,X 2/的协差矩阵为瓦 11 因为 —21 - 22 cov((X 1,X 2),X 3)=為12,而' 12 =0,所以(X 1, X 2)和X 3是不相关的,而正态分布不相关与相互独 立是等价的,所以(X 1,X 2)和X 3是独立的。 0,问X 1与X 2是否独立? 2> (X 1,X 2)和X 3是否
多元统计分析模拟考试试题
多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1) 判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。 2) Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3) 主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4) 因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法 5) 聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6) 分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7) 误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为P P=√P?P P 8) 最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9) 主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化为几个综 合指标的多元统计方法。 10) 在进行主成分分析时,我们认为所取的m(m
14) 将每个原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共 因子组成的,另一部分是每个变量独自具有的因素,即特殊因子 15) 判别分析的最基本要求是分组类型在两组之上,每组案例的规模必须至少一个以上, 解释变量必须是可测量的 16) 当被解释变量是属性变量而解释变量是度量变量时判别分析是合适的统计分析方法 17) 多元正态分布是一元正态分布的推广 18) 多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的 基础 19) 因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各 变量的线性组合。 20) 统计距离包括欧氏距离和马氏距离两类 1) 因子负荷量是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。 (√)(p147) 2) 主成分分析是将原来较少的指标扩充为多个新的综合指标的多元统计方法。(×)(p24) 3) 判别分析其被解释变量为属性变量,解释变量是度量变量。(√)(p90) 4) Logistic回归对于自变量有要求,度量变量或者非度量变量都不可以进行回归。(×) (p220) 5) 在系统聚类过程中,聚合系数越大,合并的两类差异越小。(×) (P59)
多元统计分析期末考试考点
多元统计分析期末考试考 点 The following text is amended on 12 November 2020.
二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答: 答: 题型三解答题
1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等
多元统计分析期末试题及答案
1、设X ~ N 2(, ),其中X =(x 1,x 2),=( 1,2), = 2 , 2 I 2 1 2 1 则Cov(x +x ,x -x )= ________ . 10 2、设X i ~ N 3(,),i =1,L ,10,则W = ( X i -)(X i - ) i =1 服从 ______________ 。 4 - 4 3 3、设随机向量X = (x 1 x 2 x 3 ) ,且协方差矩阵 = -4 9 -2, 3 - 2 16 则它的相关矩阵R = ____________________ 4、 设X=(x 1 x 2 x 3 ), 的相关系数矩阵通过因子分析分解为 X 1 的共性方差h 1 2 = _______________ X _1 , 的 方 差 11 = 公 因子f 1对X 的贡献g 12 = 5、设X i ,i =1,L,16 是来自多元正态总体 N p ( , ),X 和A 分别为正态总体N p (,) 的样本均值和样本离差矩阵,则T 2=15[4(X -)] A - 1[4(X - )] ~ ____________________ 。 16 - 4 2 1、设 X =(x 1 ,x 2 ,x 3 )~ N 3(, ),其中= (1,0, -2), = -4 4 -1 2 - 1 4 试判断x 1 + 2x 3 与 x 2 - x 3 是否独立? I 、设随机向量X 的均值向量、协方差矩阵分别为 、 , R = 1 2 3 0.934 0.128 -0.417 0.835 0= -0.417 0.894 0.027 0.894 0.447 0.835 0.447 0.103 1 1 3 0