多元正态均值向量和协方差矩阵的检验
[理学]03_多元正态分布均值向量和协差阵的检验
![[理学]03_多元正态分布均值向量和协差阵的检验](https://img.taocdn.com/s3/m/26c33d3c844769eae009ed45.png)
(n 1 ) p T1 2 ~ F (p n, p ) (n 1 )p
在处理实际问题时,单一变量的检验和多变量检验可以联合使用,多元 的检验具有概括和全面考察的特点,而一元的检验容易发现各变量之间 的关系和差异,能给人们提供更多的统计分析信息。
检验统计量是单一变量检验情况的推广。
2.针对有共同的未知协差阵的情形 对假设
H0:μ1 μ2
进行检验。
H1:μ1 μ2
对此问题,假设 H 0 成立时,所构造的检验统计量为
F (n m 2) p 1T 2 ~ F ( p, n m p 1) (n m 2) p
为了对多元正态总体均值向量作检验,首先需要给出 HotellingT2分布的定义。
在单一变量的检验问题中,设 X1, X2, , Xn 来自总体
N ( , 2 ) 的样本,我们要检验假设
H0 : 0 ; H1 : 0
当 2 已知时,用统计量 z (X 0 ) n
假设 H 0 成立时,构造检验统计量为
F (n p)n ZS-1Z ~ F ( p, n p) p
(3.10)
2.针对 n m 的情形
在此,我们不妨假设 n m ,令
Z(i) X(i)
分 布 为 非 中 心 HotellingT2 分 布 , 记 为
T 2 ~ T 2 ( p, n, μ) 。当 μ 0 时,称 T 2 服从(中心) Hotelling T 2 分布。记为T 2 ( p, n) 。
由于这一统计量的分布首先由 Harold Hotelling 提出
第2章 多元正态分布均值向量和协差阵的检验

第一章 多元正态分布的参数估计一、填空题1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。
2.多元分析处理的数据一般都属于 数据。
3.多元正态向量()'=p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。
4.一个p 元函数()p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。
5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X ,2X , ,p X 是相互独立的。
6.多元正态分布的任何边缘分布为 。
7.若()∑,~μp N X ,A 为p s ⨯阶常数阵,d 为s 维常数向量,则~d AX + 。
8.多元正态向量X 的任何一个分量子集的分布称为X 的 。
9.多元样本中,不同样品的观测值之间一定是 。
10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。
11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 11-具有 、 和 。
12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则~X ,X 和S 。
13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵()()()()∑='--=nX X X X S 1~ααα 。
14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。
二、判断题1.多元分布函数()x F 是单调不减函数,而且是右连续的。
2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布。
3.μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质:(1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。
多元正态分布均值向量和协差阵的检验

1T
2
~
F( p, n
m
p
1)
经ቤተ መጻሕፍቲ ባይዱ算得
X=(64,43,30.5,63),Y=(51.5,51,40,70.5)
490 -170 -120 245 502.5 60 175 -7.5
S
=-170 x -120
510 10
10 332.5
310 260
;S
= y
i 1
i 1
S Sx Sy ~ Wp (m n 2, )
又由于
mn n+m
(
X
Y)
~
N p (0, )
所以有
F
(n+m 2) (n+m
p 2) p
1T
2
~
F( p,n
m
p
1)
以后假设统计量的选取和前面统计量的选取思路是
一样的,只提出待检验的假设,然后给出统计量及其分 布,为节省篇幅,就不再重复解释。
60 175
390 50
50 450
195
-100
245 310
260
510
-7.5 195 -100 322.5
992.5
S
Sx
S
= y
-110 55
252.5
-110 900 60 505
55 60 802.5 160
252.5
505
其中,T 2 (n 1)[ n ( X 0 )T S 1 n ( X 0 )]
给定检验水平,查F分布表,使PF F =,确定出临界值F。
第三章多元正态均值向量和协方差矩阵的检验

2022/2/18
3
第3页,此课件共92页哦
1、总体协方差矩阵已知时
由于 x1, x2,是, xn来自多元正态总体的简单随机样本 x1 (x11, x21,, xp1)
x2 (x12 , x22 ,, xp2 ) xn (x1n , x2n ,, xpn )
(1, 2 ,, p )
2022/2/18
T 2 n(Cx)CSC1 (Cx)
S
1 (n 1)
n i1
(xi
x)(xi
x)
2022/2/18
28
第28页,此课件共92页哦
在例中,假定人类的体形有这样一个一般规 律的身高、胸围和上臂围平均尺寸比例为6:4:1。 检验比例是否符合这一规律。检验:
H0
:
1 6
1
1 4
2
3
H1
:
1 6
1,
1 4
2022/2/18
6
第6页,此课件共92页哦
当T02 2 ( p)时,接受原假设; 当T02 2 ( p)时,拒绝原假设。
p P{ 2 ( p) 所计算出的样本统计量值 ,则拒绝原假设; p P{ 2 ( p) 所计算出的样本统计量值 ,则接受原假设。
2022/2/18
7
第7页,此课件共92页哦
由于 0 ,所以统计量取值在0到1之间。
2022/2/18
15
第15页,此课件共92页哦
由极大似然比原理,如果取值太小,说 明H0为真的时观测到此样本的概率要小得多 ,故有理由认为假设H0不成立。
可以证明当样本容量很大时
-2 ln
-2 ln
max
θ0
max θ
(L x(1) , x(2) ,..., x(n);θ) (L x(1) , x(2) ,..., x(n);θ)
第四章 多元正态总体均值向量和协差阵假设检验

1.当
已知时,检验用的统计量为
2、当
未知时,检验用的统计量为
(二)两个正态总体均值的比较检验
设从总体 中抽出一个样本
中抽出一个样本
,从总体
,要进行的假设检验为
1.两个正态分布总体方差
和
已知时,检验用的统计量
2.两个正态分布总体方差
和
未知,但
(三)多个正态总体均值的比较检验 设有k个正态总体分别为 本:各总体的样本如下:
52.8
10.9
19
4.1
44.1
11.2
20
5.5
40.9
9.4
A=0.05
通过计算
认为样本均值向量与已知均值向量无显著差别。
(二)两个正态总体均值向量的检验
设
为来自元正态总体
容量为 n的样本
为来自元正态总体
容量为 m的样本
且两样本之间相互独立
假定两总体协方差矩阵相等,现对假设
1.有共同已知协方差时,检验用的统计量为 2.有共同未知协方差阵时,检验用的统计量为:
9
87
54
585 240 80
55
520 200 60
62
440 248
10
110 77
507 270 76
60
507 189 110 69
377 260
11
107 60
364 200 94
33
260 280 88
78
299 360
12
130 61
391 200 60
51
429 190 73
63
390 320
1
125 60
338 210 66
第2章多元正态分布均值向量和协差阵的检验

第一章 多元正态分布的参数估计一、填空题1。
设X 、Y 为两个随机向量,对一切的u 、v,有 ,则称X 与Y 相互独立。
2。
多元分析处理的数据一般都属于 数据。
3.多元正态向量()'=p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。
4.一个p 元函数()p x x x f ,,,21 能作为pR 中某个随机向量的密度函数的主要条件是和 。
5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X ,2X , ,p X 是相互独立的。
6。
多元正态分布的任何边缘分布为 。
7。
若()∑,~μp N X ,A 为p s ⨯阶常数阵,d 为s 维常数向量,则~d AX + 。
8.多元正态向量X 的任何一个分量子集的分布称为X 的 . 9.多元样本中,不同样品的观测值之间一定是 。
10。
多元正态总体均值向量和协差阵的极大似然估计量分别是 。
11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 11-具有 、 和 。
12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则~X ,X 和S 。
13。
若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵()()()()∑='--=nX X X X S 1~ααα .14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。
二、判断题1。
多元分布函数()x F 是单调不减函数,而且是右连续的。
2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布.3。
μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质: (1)E (AX )=AE (X ) (2)E (AXB)=AE (X )B4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。
多元统计分析——均值向量和协方差阵检验

多元统计分析——均值向量和协方差阵检验均值向量检验是评估两个或多个总体均值是否相等的方法。
在多元统计分析中,均值向量检验常用于比较不同组别或条件下的均值是否有差异。
假设有k个样本组别,每个组别有n个观测值,那么总共有nk个观测值。
假设每个观测值有p个测量变量,那么每个样本组别的均值向量可以表示为一个p维的向量。
我们的目标是比较这k个均值向量是否相等。
常用的均值向量检验方法有Hotelling's T-squared统计量和Wilks' Lambda统计量。
Hotelling's T-squared统计量是基于方差-协方差阵的一个推广,它考虑了样本组别的大小和协方差结构。
它的计算公式为:T^2=n(p-k)/(k(n-1))*(x1-x)^TS^(-1)(x1-x)其中,n是每个组别的观测数,p是变量的个数,k是组别的个数,x1是第一个组别的均值向量,x是总体均值向量,S是协方差阵。
T^2的分布是一个自由度为k,维度为p的非中心F分布。
Wilks' Lambda统计量是基于协方差阵的特征值的一个变换,它的计算公式为:Lambda = ,W,/,B其中,W是所有组别的散布矩阵(Within-groups scatter matrix),B是总体的散布矩阵(Between-groups scatter matrix)。
Wilks' Lambda的分布是一个自由度为k和n-k-1的F分布。
协方差阵检验是评估两个或多个总体协方差阵是否相等的方法。
在多元统计分析中,协方差阵检验常用于比较不同组别或条件下的变量之间的协方差结构是否有差异。
假设有k个样本组别,每个组别有n个观测值,那么总共有nk个观测值。
假设每个观测值有p个测量变量,那么每个样本组别的协方差阵可以表示为一个p维的矩阵。
我们的目标是比较这k个协方差阵是否相等。
常用的协方差阵检验方法有Hotelling-Lawley's Trace统计量和Pillai-Bartlett's Trace统计量。
多元统计分析-均值向量和协方差阵检验

当假设成立时,
实例
3.独立样本检验
即对相互独立的两个样本的均值进行比较,看二者是否有显著的差异。与单一样本T检验的原理相同,采用小概率反证法。 首先假设:H0两个样本来自同一总体,u1=u2 独立样本t检验的前提: (1)两个样本相互独立 (2)两个样本来自正态总体 若违反这一假设,应采用非参数检验或变换变量使适应条件 (3)比较的两个样本有实际意义 如一个关于产品重量的样本和一个关于产价格的样本均值比较无意义。
பைடு நூலகம்
3、两个p维正态总体均值的检验
(2)协方差不相等的情况(见书P25)
当假设
0
H
成立时,
2
T
~
2
1
,
-
-
+
p
m
n
p
T
,从而
2
)
2
(
1
T
p
m
n
p
m
n
-
+
-
-
+
~
1
,
-
-
+
p
m
n
p
F
如在医学研究中,分析几中药物对某种疾病的疗效;
进行两组及多组间样本平均数的比较
B
A
4.方差分析
已知某校大三学生的平均身高是163cm。现从某院大三学生中随机抽取20个测量出其身高。检验该院大三学生的身高与该校大三学生的身高平均值是否相等。
建立一个原假设:H0:假设该院大三学生的身高与该校大三学生的平均身高相等。
这属于单个变量的均值与已知常数的比较
01
02
03
2.单一样本检验
统计量 基本性质:在一元统计中, 若统计量t ~t(n-1)分布,当假设为真时,统计量t2~F1,n-1分布,其否定域为 t2 F1,n-1() 在多元统计中T2也具有类似的性质。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Var
(x)
cov(
x2 ,
x1
)
var( x2 )
cov(xp , x1) cov(xp , x2 )
cov(x1, xp ) cov( x2 , xp )
var( xp )
2020/5/23
5
由于样本均值
x
~
Np
(
,
1 n
)
,所以有
T02
(x
0
)
1 n
1
(x
0 )
n(x 0 )1(x 0 )
H0 : C H1 : C
其中C为一已知的kp阶矩阵,k<p, rank(C)=k , 为已知的k维向量。根据多元正态分布的性质可知
Cx ~ Nk (C,CC), rank(CC) k, CSC 0
2020/5/23
25
Cx
~
Nk
(C,C
Σ n
C),
(n 1)S ~ Wp (n, Σ)
第三章 多元正态均值向量和协方差
矩阵的检验
2020/5/23
1
内容
第一节 单个总体均值向量的推断 第二节 单个总体均值分量间结构关系的检验 第三节 两个总体均值的检验 第四节 两个总体均值分量间结构关系的检验 第五节 多个总体均值的比较检验(多元方差分析) 第六节 正态总体协方差矩阵的检验 第七节 在SAS多元假设检验过程
S2
1 n2 1
n2 i1
(yi
y)(yi
y)
34
霍特林(Hotelling)统计量T 2为:
1
T
2
n1n2 n1 n2
(x
y)
(n1
E n2
2)
(x y)
当原假设为真的条件下,统计量
n1 n2 p(n1
n2
p 1T 2)
2
~
F(
p,
n1
n2
p
1)
检验的规则为:
当
n1 n2 p(n1
12
注:似然比统计量
在数理统计中关于总体参数的假设检验, 通常还可以利用最大似然原理导出似然比统 计量进行检验。
设p维总体的密度函数为
f (x,θ)
其中 θ 是未知参数,θΘ参数空间。
2020/5/23
13
有如下假设:
H0 : θΘ0
H1 : θ Θ0
现在从总体中抽出容量为n的样本
x(1),x(2),...,x(n)
2
76
58.1
12.5
3
92
63.2
14.5
4
81
59.0
14.0
5
81
60.8
15.5
6
84
59.5
14.0
检验三个指标的均值是否有关系
1 6
1
1 4
2
3
2020/5/23
30
H0
:
1 6
1
1 4
2
3
H1
:
1 6
1,
1 4
2
,
3至少有两个不相等
T 2 n(Cx)CSC1 (Cx) ~ T (k,n 1)
CSC ~ Wk (n,CΣC)
nCx ~ Nk ( nC,CΣC),
T 2 nCx C CSC1 Cx C
2020/5/23
26
为了检验H0:C= ,可以用统计量
T 2 n(Cx )CSC1 (Cx )
当为真时 H0:C= 时
n k T 2 ~ F(k,n k) k(n 1)
对给定的显著性水平,检验的规则
p P{ 2 ( p) 所计算出的样本统计量 值 ,则拒绝原假设; p P{ 2 ( p) 所计算出的样本统计量 值 ,则接受原假设。
2020/5/23
7
2、总体协方差矩阵未知时 总体的协方差矩阵未知,用样本的协方差矩阵
S
1 (n 1)
n i1
(xi
x)(xi
x)
替代 T02 n(x 0 )1(x 0 ) 中的总体协方差,得
当
nk T k(n 1)
2
F
(k , n
k)
时,拒绝原假设;
当
nk T k(n 1)
2
F
(k , n
k)
时,接受原假设。
2020/5/23
27
特别当=0 ,即检验H0:C=0 , H1:C0,则
T 2 n(Cx)CSC1 (Cx)
S
1 (n 1)
n i1
(xi
x)(xi
x)
2020/5/23
28
2020/5/23
2
第一节 单个总体均值向量的推断 一、均值向量的检验
设 x1,x2, ,xn 是取自多元正态总体 N p (,) 的一个样 本, 0 ,现欲检验
H0 : μ μ0 H1 : μ μ0 由于总体的协方差矩阵可能未知或已知,所以在检验时 必须采用有不同的的统计量,所以我们分成两种情况来讨 论。
36
检验的统计量T 2 ndSd1d
其中 d x y
Sd
n
1
1
n
i1(di
d)(di
d)
当原假设 0为真时,统计量
n p T2 p(n 1)
服从自由度为n p和 p 的 F 分布。
检验规则为:
当时
n p T2 p(n 1)
F ( p, n
p)
,拒绝原假设,否则接受原
假设。
2020/5/23
在例中,假定人类的体形有这样一个一般规 律的身高、胸围和上臂围平均尺寸比例为6:4:1。 检验比例是否符合这一规律。检验:
H0
:
1 6
1
1 4
2
3
H1
:
1 6
1,
1 4
2
,
3至少有两个不等
2020/5/23
29
某地区农村男婴的体格测量数据如下
编号 1
身高(cm) 78
胸围(cm) 60.6
上半臂长(cm) 16.5
37
中小企业的破产模型 为了研究中小企业的破产模型,首先选定了X1总负债 率(现金收益/总负债),X2收益性指标(纯收入/总财 产),X3短期支付能力(流动资产/流动负债)和X4生产 效率性指标(流动资产/纯销售额)4个经济指标,对17个 破产企业为“1”和正常运行企业“2”进行了调查,得资 料如下。如果这些指标是用来做判别分析和聚类分析的变 量,他们之间没有显著性差异是不恰当的,所以检验所选 择的指标在不同类型企业之间是否有显著的差异。
x (x1, x2, , xn1 )和 y ( y1, y2 , , yn2 ) 且 0,n1, n2 p。
考虑假设 H0 : 1 2; H1 : 1 2
2020/5/23
32
根据两个样本可得1和2的无偏估计量为
x
1 n1
x n1
i1
i
y
1 n2
y n2
i 1
i
2020/5/23
33
X
n
p)
,接受原假设。
2020/5/23
9
【例】人的出汗多少与人体内的钠和钾的含量 有一定的关系,今测量了20位成年女性的出汗 量、钠含量和钾含量。试检验:
H 0 :μ μ0 4 50 10
2020/5/23
10
例 在企业市场结构研究中,起决定作用
的指标有市场份额X1,企业规模(资产净值 总额的自然对数)X2,资本收益率X3和总收 益增长率X4。为了研究美国市场的变动,夏 菲尔德抽取了美国231个大型企业,调查这些 企业某十年的资料。假设以前企业市场结构 的均值向量为(20,7.5,10,2)’,该调查所得的 样本均值向量和样本协方差矩阵如下。
样本的联合密度函数为
n
( L x(1), x(2),..., x(n);θ) f (x(i);θ) i1
2020/5/23
14
引入似然比统计量
max
θ0
max θ
(L x(1) , x(2) ,..., x(n);θ) (L x(1) , x(2) ,..., x(n);θ)
由于0 ,所以统计量取值在0到1之间。
n
(Xi X)(Xi X) n(X μ0 )(X μ0) i1
A n(X μ0)(X μ0)
2020/5/23
19
有
A0 A n(X μ0)(X μ0)
A
n(X μ0 )
n(X μ0) I
A 1 n(X μ0)A1(X μ0)
A0 A
1
n(X
μ0
17
原假设成立时,有
np
max Σ0
L(μ
0
,
Σ)
(2
)
2
A0 n
n/2 np
e2
n
其中 A0 (X - μ0 )(X - μ0 ) i1
A n 2 0
A
n 2
A0 A
n
2
2020/5/23
18
我们来讨论一下,似然比检验的 统计 量和霍特林的T平方统计量的关系。
n
A0 (Xi X X μ0 )(Xi X X μ0 ) i1
2020/5/23
22
1 1 0 0
令
C 1
0
1
0
1 0 0 1
则与上面的原假设等价的假设为
H0 : C 0
H1 : C 0
例 假定人类的体形有这样的一般规律:身高、胸围和
上臂围平均尺寸比例为6:4:1。检验身高、胸围和上臂 围平均尺寸比例是否符合这一规律。