第二章 多元正态分布及参数的估计

第二章   多元正态分布及参数的估计
第二章   多元正态分布及参数的估计

第二章多元正态分布及参数的估计

在多元统计分析中,多元正态分布占有相当重要的地位.这是因为许多实际问题涉及到的随机向量服从正态分布或近似服从正态分布;当样本量很大时,许多统计量的极限分布往往和正态分布有关;此外,对多元正态分布,理论与实践都比较成熟,已有一整套行之有效的统计推断方法.基于这些理由,我们在介绍多元统计分析的种种具体方法之前,首先介绍多元正态分布的定义、性质及多元正态分布中参数的估计问题.

目录

§2.1 随机向量

§2.2 多元正态分布的定义与基本性质

§2.3 条件分布和独立性

§2.4 多元正态分布的参数估计

§2.1 随机向量

本课程所讨论的是多变量总体.把p个随机变量放在一起得X=(X1,X2,…,Xp)′为一个p维随机向量,如果同时对p维总体进行一次观测,得一个样品为p维数据.常把n个样品排成一个n×p矩阵,称为样本资料阵.

?

?

?

?

?

??'''=

?????? ??=)()2()1(21

2222111211n np n n p p X X X x x x x x x x x x X

def

=(X 1,X 2,…,X p ) 其中 X(i)( i =1,…,n)是来自p 维总体的一个样品.

在多元统计分析中涉及到的都是随机向量,或是多个随机向量放

在一起组成的随机矩阵.

本节有关随机向量的一些概念(联合分布,边缘分布,条件分布,独立性;X 的均值向量,X 的协差阵和相关阵,X 与Y 的协差阵)要求大家自已复习.

三﹑ 均值向量和协方差阵的性质 (1) 设X ,Y 为随机向量,A ,B 为常数阵,则

E(AX )=A·E(X ),

E(AXB )=A·E(X )·B

D(AX)=A·D(X)·A' COV(AX,BY)=A·COV(X,Y)·B'

(2) 若X,Y 相互独立,则COV(X,Y)=O;反之不成立. 若COV(X,Y)=O,我们称X 与Y 不相关.故有: 两随机向量若相互独立,则必不相关;

两随机向量若不相关,则未必相互独立.

(3) 随机向量X=(X1,X2,…,Xp)′的协差阵D(X)=∑是对称非负定阵.即 ∑=∑′ , α′ ∑α≥0 (α为任给的p 维常量).

(4) Σ=L 2 ,其中L 为非负定阵.

由于Σ≥0(非负定),利用线性代数中实对称阵的对角化定理,存在正交阵Γ,使

L p

p

?

=Γ????

? ?

?Γ?Γ?????

??

Γ=∑'0

'0

1

1

λλλλ

0,1

≥'=Γ'???

?

?

?

?

Γ=L L L O

O

L p

故,其中λλ

当矩阵Σ>0(正定)时,矩阵L 也称为Σ的平方根矩阵,记为2

1

∑ .

当矩阵Σ>0(正定)时,必有p ×p 非退化矩阵A 使得 Σ=AA ′

1??

?O

λ

若Σ≥0(非负定),必有p ×q 矩阵1A 使得

Σ=11A A ′

这里记Γ=(Γ1 | Γ2) , Γ1为p ×q 列正交阵(p ≥ q ).并设:

,,0),,,1(01===>+p q i q i λλ

λ

§2.2 多元正态分布的定义

在一元统计中,若U ~N(0,1),则U 的任意线性变换X=σU +μ~N(μ,2σ)。利用这一性质,可以从标准正态分布来定义一般正态分布:若U ~N(0,1),则称X =σU +μ的分布为一般正态分布,记为X ~N(μ, 2σ)。

此定义中,不必要求σ>0,当σ退化为0时仍有意义。把这种新的定义方式推广到多元情况,可得出多元正态分布的第一种定义。

定义2.2.1 设U =(1U ,…,Uq )′为随机向量, 1U ,…,Uq 相互独立

且同N(0,1)分布;设μ为p 维常数向量,A 为p ×q 常数矩阵,则称

X=AU + μ的分布为p 维正态分布,或称X 为p 维正态随机向量,记

为X ~ N p (μ, AA ′)。

简单地说,称q 个相互独立的标准正态随机变量的一些线性组合构成的随机向量的分布为多元正态分布。

§2.2 多元正态分布的性质1

在一元统计中,若),,(~2σu N X 则X 的特征函数为

.21

ex p )()(22??

?

???

-==σ?t itu e E t itX

u u it x u 2

)(/)(2e

e 21-∞

-+-=?

=

μσσμπ

it it u it u it ?∞

--+--

=])()(2[2

1

222e

2

1e

σσσμ

π

it it u it ?∞

---

=22)(2

1

)(2

1

e

e

21e

σσμ

π

2

1exp[i e

21]2

1exp[i 2

2

)(2

1

2

22σ

μπ

σμσt t du

t t it u -=?

-

=?∞

---

当 X ~N(0,1)时,φ(t )=exp [-2t /2].

性质1 设U= (1U ,…,Uq )′为随机向量, 1U , …,Uq 相互

独立且同 N(0,1)分布;令X =μ+AU,则X 的特征函数为 2

1

exp[)(t A A t t i t X

''-'=Φμ

这里t =(1t ,…,p t ), 故ΦX (t )为p 元函数.

性质1的证明:

根据随机向量特征函数的定义和性质,经计算即可得出X 的特征函数为ΦX (t )= E(ei t 'X )= E(ei t '(AU +μ) )

e (E )exp(AU

t i t i '?'=μ

令t ′A =s ′=(1s ,…q s )

e

(E )e (E )exp(11q

q U is U is t i ???'= μ

=-?

'=q j j s t i 1

2)

2

1

exp()exp(μ (2

1exp[)exp(2

21q

s s t i ++-?'= μ

21

exp()21exp(t

A A t t i s s t i ''-'='-'=μμ

§2.2 多元正态分布的第二种定义

记Σ=AA ′,则有以下定义。 定义2.2.2 若p 维随机向量X 的特征函数为:

(]2

''exp[)(≥∑∑-=Φt

t it t X μ

则称X 服从 p 维正态分布,记为X ~Np (μ,Σ) . 一元正态: (p =1) ()??

????-=??????-=2ex p 2ex p 222''σσ?t itu t t u it t

§2.2 多元正态分布的性质2

性质2 设X ~N p (μ,Σ), B 为s ×p 常数阵,d 为s ×1常

向量,令Z=BX+d ,则Z ~Ns(B μ+d , B ΣB ' ).

该性质指出正态随机向量的任意线性组合仍为正态分布. 证明: 因Σ ≥0, Σ可分解为Σ=AA ',其中A 为p ×q 矩阵.已知

( 因 U 1 , … , U q 相互独立 , 乘积的期望等于期望的乘积 )

X ~Np(μ,Σ),由定义2.2.1可知X = AU+μ (d 表示两边的随机向量服从相同的分布.)

其中U=(1U ,…,Uq )',且1U ,…,Uq 相互独立同 N(0,1)分布。

Z =BX +d = B (AU +μ)+d = (BA )U +(B μ+d )

由定义2.2.1可知

Z ~Ns(B μ+d , (BA )(BA )'),

即Z ~Ns(B μ+d , B ΣB '). (这里Σ=AA ').

推论 设X = r

r

p -????

????X X )2()1(~N p (μ

,Σ),将μ,Σ剖分为

p r r

p r -???

? ??∑∑

∑∑=∑-???

? ??=22

21

1211

)2()1(,μμμ

则 )1(X ~ r N ()1(u ,11∑),

)2(X ~ r p N -()

2(u

,22∑). 证明:取1B p

r ?=()0 r I ,r 维向量1d =0,由性质2可得:

~11)1(+=r

N d X B X 类似地

此推论指出,多元正态分布的边缘分布仍为正态分布。但反之,若随机向量的任何边缘分布均为正态分布,也不一定能导出该随机向

( ) 则

维向量

, 0 , 2 ( 2 = - = - ?

d r p I O B r p p

p-r)

量服从多元正态分布.

如例2.1.1,证明了1X ,2X 均为一元正态分布,但由(1X ,2X ) 联合密度函数的形式易见它不是二元正态. 例2.1.1 (1X ,2X )的联合密度函数为

e 1[e 21),()(2

121)

(21212

2212221x x x x x x x x f +-+-+=π

我们从后面将给出的正态随机向量的联合密度函数的形式可知, (1

X ,2

X )不是二元正态随机向量

.但通过计算边缘分布可得出: )1,0(~1N X ,)1,0(~2N X

这就说明若随机向量的任何边缘分布均为正态分布时,也不一定能导出该随机向量服从多元正态分布. 例如:设三维随机向量X=(1X ,2X ,3X )',且

30

02101

1,002(~321???

? ?????? ?????

? ??=N X X X X

(2)

则有 (1) X 1 ~ N(2,1),

,

001100010321132BX X X X X X X Y =???? ?????? ??=???

? ??=令 由性质2知,Y 为3维正态随机向量,且 ??? ??=???? ?????? ??==200002001100010x

y B μμ

??? ??=???? ?????? ??=???? ?????? ?????? ??='

∑=∑101030102010001100011300021010001100300021011001100010B B x y

(3) 设321

32X +X -X

=Z ,试求随机变量Z

的分布.

32132X +X -X =Z =(2,-1,3)X =CX

故有:

)129,0,112021

011

)3,1,2(2

?-=??? ?-??? ?-='

∑=C C x z σ

). 1 0 1 0 3 0 1 0 2 , 2 0 0 ( ~ 1

3

2 ?

? ?

? ? ? ? ? ? ? ? ? ? ? ?

? ?

? = N X X X Y 故

性质3 若X ~N p (μ,Σ),E(X )=μ,D(X )=Σ.

证明 : 因Σ≥0,Σ可分解为:Σ=AA ′,则由定义2.2.1可知 X = AU+μ (A 为p ×q 实矩阵)

其中U =(1U ,…,q U )′,且1U ,…, q U 相互独立同N(0,1)分布,故有E(U )=0, D(U )=Iq . 利用均值向量和协差阵的有关性质可得:

)()()(,

)()()(∑

='==+==+=+=A AI AU D AU D X D U AE AU E X E q μμμμ

此性质给出多元正态分布中参数μ和Σ的明确统计意义.μ是随

机向量X 的均值向量,Σ是随机向量X 的协差阵。

如简单例子中,由性质2知Z 服从正态分布,利用性质3,

29

)()(,

4)()(2

=='∑===∑====Z x z x z C C CX D Z D C CX E Z E σμμ

性质4 设X =(X1,…,Xp )′为p 维随机向量,则X 服从p 维正态分布 ? 对任一p 维实向量a ,ξ=a ′X 是一维正态随机变量.

证明:必要性的证明由性质2即得(只须取B=a ′,d =0即可). 充分性的证明:① 首先说明随机向量X 的均值和协方差阵

存在:因对任给p 维实向量 t ∈R p , ξ= t ′X ~一元正态分布,可知ξ的各阶矩存在,如取t = i e =(0,…,1,…,0)′,

i

X =i e ′X,且E(i X ) (i =1,2,…,p ) 存在,E(2i X )

(i =1,2,…,p ) 也存在.

所以

Z ~ N(4,29).

再比如取 t =(0,…,1,0,…1,..,0)′,

ξ= t ′X= i X +j X ,且E(ξ )=E(i X +j X ) (i,j =1,2,…,p ) 存在. E(2ξ) =E[2)(j i X X +]= E(2i X )+ 2E(j i X X )+ E(2j X )也存在, 即E(j i X X ) (i,j =1,2,…,p )存在.

故E(i X ),Cov(i X ,j X )=E(j i X X )-E(j X ) E(i X )

(i,j =1,…,p )存在. 记E(X )=μ, D(X )=Σ. ② 计算ξ的特征函数:

对任意给定的t ∈p R ,因随机变量ξ=t ' X 服从 N(t 'μ,t ' Σ t ).,故知ξ的特征函数为 ?ξ(θ)=E(θζi e )

=exp[i θ(t 'μ) -2θ (t ' Σt )/2] ③ 计算随机向量X 的特征函数: 在ξ的特征函数中,取θ=1,即得

)1(ξ?=E(ξ

i e )=E(i e t ' X)=ΦX(t) = exp [it ' μ- t ' Σt / 2]

由定义2.2.2可知,X ~Np(μ,Σ).

定义2.2.3 若p 维随机向量X 的任意线性组合均服从一元正态分布,则称X 为p 维正态随机向量.

在概率论中大家都知道一元正态随机变量的密度函数是

()(2

22)(>

=

--

σσ

πσμx e

21

x f

这个式子可改写为:

?

????-'--=

-)

()()(21exp )

2()(1

22

122

1μσμσ

πx x f 1x

作为一元正态随机变量的推广,以下性质来导出多元正态随机向量的联合密度函数.

性质5 设X ~N p (μ,Σ),且Σ>0 (正定),则X 的联合密度函数为

?????-∑'--∑=-)()()(21exp )2()(1

212μμπx x p 1

x f

?

????-∑'--∑

=

-)

()()(21exp 211

21μμπx x

证明 ① 因Σ>0,rk(Σ)=p ,由线性代数的知识知存在非奇异

方阵A ,使得Σ=AA ′,且

X = AU +μ 其中U =(1U ,…,Up )′,且1U ,…,Up 相互独立同N(0,1)分布。

② U 的联合密度函数(p 元函数)为

?

????'-=

u

u u f p

U

21exp )2(1

)(2

π

③ 利用U 的联合密度函数及随机向量的变换求X=AU +μ的

密度函数。对任给Borel 可测集B ,求p 元函数fX (x )使得

{}()

X

B

U D

P X B

f x d x P U D f u ∈=

=∈=

??

??

其中

{}B x u x A u u D ∈-==-),(1

根据附录§8 (P397)公式(8.4),即有

????=→?-=

-==

∈--B

X B

U

D

U

dx x f dx x u J x A f x A u du

u f

B X P )()())(()]

([)(}{1

1

μμ

以下来求Jacobi 行列式J (u →x ).

④ 积分变 换 的Jacobi 行 列 式J (u →x )可利用线性变换

x=Au+μ及J (x →u )来计算: 因

2

1111)(∑

='='=????=?'

?=

→+

+

A A A u x u x u x u x J p

)(1)(1-∑=→=→u x J x u J

关于积分变换的Jacobi 行列式J (u →x )的有关内容请参阅

附录部分。

⑤ 写出X=AU+μ的密度函数:

??????-∑'--∑=∑??

????-'--=→???

???'-=

----)()(21exp )2(1)]([])([21exp )2(1)(21exp )2(1

)(1

212

211

122

μμπμμππx x x A x A x u J u u x f p p p

X

( 这里Σ=AA ′, ) 定义2.2.4 p 维随机向量X =(1X ,2X …Xp )′的联合密度函数为

?

????-∑'--∑

=-)

()(21exp )

2(1

)x (1

2

12

μμπx x f p

其中μ是p 维实向量,Σ是p 阶正定阵,则称X =(1X ,2X …Xp )′服从(非退化的)p 元正态分布.也称X 为p 维正态随机向量,简记为

X ~N p (μ,Σ). 以上给出了多元正态分布的4种定义。定义2.2.4用密度函数给出定义,它可看成一元正态密度的直接推广;但在这个定义里要求Σ是正定阵,它给出的是非退化的正态分布的定义。 另三种定义中把Σ阵推广到非负定的情形,这三种定义是等价的。 例2.2.1(二元正态分布)

??=X

X

X 设

,222

12121

222112

11

21

>???

? ??=???

??=∑???

??=σσρσσρσσσσσσμμμ (即1σ>0,2σ>0,|ρ|<1)

(1)试写出X 的联合密度函数和边际密度函数; (2)试说明ρ的统计意义。 解:(1)因

1(2

221ρ

σσ-=∑

?????

?

??---=???? ??---=∑-2221212122121212

2222

211111111)1(1σσσρσσρσρσσρσσρσσρσσ ???? ??=∑22212121σσρσσρσσ 二元正态随机向量X 的联合密度函数为

?????-∑'--∑=-)()(21exp ||21),(12/121μμπx x x x f

112

2

2

1)1(21exp 121??

?

????? ?

?----=

σ

μ

ρρσπσx

?

?-??-22

11μμx x 另由性质2的推论,即得

,(),,(22222

1

11σμσμN X N X ~~

(2)因Cov(X1 ,X2)=σ12 =ρσ1σ2 ,而X1与X2的相关系数为

)Var()Var(),Cov(),(212

1212

121ρ

σσσ

ρσρ==

=

X X X X X X

故二元正态分布的参数ρ就是两个分量的相关系数.

显然 当ρ=0时,f (1x ,2x )=1f (1x )·2f (2x ),即1X 与2X 相互独立.当|ρ|=1时,|Σ|=0 (Σ退化,即Σ的列向量或行向量线性相关),则存在非零向量t =(1t ,2t )' ,使得Σt =0, 从而t 'Σ t =0,故而随机变量ξ=t ' (X-μ)的方差为Var[t '

(X-μ)]= t 'Σ t =0,这表示 P{t ' (X-μ)=0}=1.

即1t (1X -1u )+2t (2X -2u )=0以概率1成立;反之,若1X 与2X 以概率1存在线性相关关系,则|ρ|=1.

当ρ>0时,我们称1X 与2X 存在正相关; 当ρ<0时,我们称1X 与2X 存在负相关. 例2.2.2 二元正态密度函数的图形及等高线的图形

为了对多维正态密度函数有更直观地了解,下面的例子给出几组参数下二维正态密度函数的几何图形.我们把具有等密度的点的轨迹称为等高线(面).

显然当 p =2 时 f(21,x x )=C (C>0) ??

22

22222211121112a u x u x u x u x =?

??

? ??-+???? ??-???? ??--???? ??-σσσρσ 它是一族中心在(1u ,2u )′的椭园.

一般的p 维正态密度等高面为 ()()u x u x -∑

--1

'

=2

a

)0(≥a

取1u =0,2u =0,以下绘制三组参数下二元正态密度函数及密度等高线

图形:(1)当 0,1,12221===ρσσ时 (2)当75.0,1,12221===ρσσ时 (3)当75.0,1,42221-===ρσσ时

0,1,12

221===ρσσ

75.0,1,12

221===ρσσ

75.0,1,42

221-===ρσσ

§2.3 条件分布和独立性--独立性

设X ~P N (μ,Σ) (p ≥2),将X,μ,Σ剖分为 r

r

p X

X X -?

???

?

?=)

2()1( ,r

r

p u u u -??

??

??=)2()

1(

第二章 多元正态分布及参数的估计汇总

第二章多元正态分布及参数的估计 在多元统计分析中,多元正态分布占有相当重要的地位.这是因为许多实际问题涉及到的随机向量服从正态分布或近似服从正态分布;当样本量很大时,许多统计量的极限分布往往和正态分布有关;此外,对多元正态分布,理论与实践都比较成熟,已有一整套行之有效的统计推断方法.基于这些理由,我们在介绍多元统计分析的种种具体方法之前,首先介绍多元正态分布的定义、性质及多元正态分布中参 数的估计问题. 目录 §2.1 随机向量 §2.2 多元正态分布的定义与基本性质 §2.3 条件分布和独立性 §2.4 多元正态分布的参数估计 §2.1 随机向量 本课程所讨论的是多变量总体.把p个随机变量放在一起得X=(X1,X2,…,Xp)′为一个p维随机向量,如果同时对p维总体进行一次观测,得一个样品为p维数据.常把n个样品排成一个n×p矩阵,称为样本资料阵.

?? ? ? ?? ??'''= ?????? ??=)()2()1(2 1 2222111211n np n n p p X X X x x x x x x x x x X def =(X 1,X 2,…,X p ) 其中 X(i)( i =1,…,n)是来自p 维总体的一个样品. 在多元统计分析中涉及到的都是随机向量,或是多个随机向量放在一起组成的随机矩阵. 本节有关随机向量的一些概念(联合分布,边缘分布,条件分布,独立性;X 的均值向量,X 的协差阵和相关阵,X 与Y 的协差阵)要求大家自已复习. 三﹑ 均值向量和协方差阵的性质 (1) 设X ,Y 为随机向量,A ,B 为常数阵,则 E(AX )=A·E(X ), E(AXB )=A·E(X )·B D(AX)=A·D(X)·A' COV(AX,BY)=A·COV(X,Y)·B' (2) 若X,Y 相互独立,则COV(X,Y)=O;反之不成立. 若COV(X,Y)=O,我们称X 与Y 不相关.故有: 两随机向量若相互独立,则必不相关;

厦门大学《应用多元统计分析》习题第02章 多元正态分布的参数估计

思考与练习 2.1 试述多元联合分布和边缘分布之间的关系。 2.2 设随机向量12(,)X X ′=X 服从二元正态分布,写出其联合分布密度函数和1X 、2X 各自的边缘密度函数。 2.3 已知随机向量12(,)X X ′=X 的联合分布密度函数为: ()()()()()()()()() 121122 2 22,d c x a b a x c x a x c f x x b a d c ??+?????2???? = ?? 其中,。求: 12,a x b c x d ≤≤≤≤⑴ 随机变量1X 和2X 各自的边缘密度函数、均值与方差。 ⑵ 随机变量1X 和2X 的协方差和相关系数。 ⑶ 判断1X 和2X 是否相互独立。 2.4 设随机向量12(,,,)p X X X ′=X L 服从正态分布,已知其协差阵为对角阵,证明ΣX 的分量是相互独立的随机变量。 2.5 从某企业全部职工中随机抽取一个容量为6的样本,该样本中各职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示: 职工编号 目前工资 (美元) 受教育年限(年) 初始工资 (美元) 工作经验(月) 1

1 2 3 4 5 6 57,000 40,200 21,450 21,900 45,000 28,350 15 16 12 8 15 8 27,000 18,750 12,000 13,200 21,000 12,000 144 36 381 190 138 26 设职工总体的以上变量服从多元正态分布,根据样本资料求出均值向量和协差阵的最大似然估计。 2.6 均值向量和协差阵的最大似然估计量具有哪些优良性质? 2.7 试证多元正态总体的样本均值向量(,)p N μΣ1 ~(, p N n X μΣ)。 2.8 试证多元正态总体的样本协差阵S 为(,)p N μΣΣ的无偏估计。 2.9 设()1x 、()2x 、…、()n x 是从多元正态总体中独立抽取的一个随机样本,试求样本协差阵的分布。 (,)p N μΣS 2.10 设()i i X n p ×是来自(),p i i N μΣ的数据阵,1,,i k =L , ⑴ 已知1k ===μμμL 且1k ===ΣΣL Σ,求μ和的估计。 Σ⑵ 已知1k ===ΣΣL Σ,求1,,k μμL 和Σ的估计。 2

第1章 多元正态分布的参数估计

1 第一章 多元正态分布的参数估计 一、填空题 1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。 2.多元分析处理的数据一般都属于 数据。 3.多元正态向量()' =p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。 4.一个p 元函数() p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。 5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X , 2X , ,p X 是相互独立的。 6.多元正态分布的任何边缘分布为 。 7.若()∑,~μp N X ,A 为p s ?阶常数阵,d 为s 维常数向量,则~d AX + 。 8.多元正态向量X 的任何一个分量子集的分布称为X 的 。 9.多元样本中,不同样品的观测值之间一定是 。 10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。 11.多元正态总体均值向量μ和协差阵∑的估计量X 、 S n 1 1-具有 、 和 。 12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则 ~X ,X 和S 。 13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵 ()()()()∑='--=n X X X X S 1~ααα 。 14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。 二、判断题 1.多元分布函数()x F 是单调不减函数,而且是右连续的。 2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布。 3.μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质: (1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B 4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。 5.一般情况下,对任何随机向量()'=X X X p ,,1 ,协差阵∑是对称阵,也 是正定阵。 6.多元正态向量()'=X X X p ,,1 的任意线性变换仍然服从多元正态分布。 7.多元正态分布的任何边缘分布为正态分布,反之一样。 8.多元样本中,不同样品之间的观测值一定是相互独立的。 9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。 10. S n 1是∑的无偏估计。

练习一多元正态分布的参数估计(精)

练习一 多元正态分布的参数估计 1.试叙述多元联合分布和边际分布之间的关系。 2.设二维随机向量12()X X '服从二元正态分布,写出其联合分布。 3.已知随机向量1 2()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。 4.设12(,,)p X X X X '= 服从正态分布,已知其协方差矩阵∑为对角阵,证明其分量是相互独立的随机变量。 5. 影响粮食产量的因素很多, 大致可分为三个层次:第一层次是宏观因素。主要有三种,一是制度创新, 如20世纪50年代初的土地改革、60年代初的“ 三自一包”和 80年代初的联产承包责任制和现行的粮食直补及税费改革等。二是政策导向, 如收购政策及价格、市场政策结构调整、储备政策、财政投人、政府抓粮食生产的力度等。三是科技进步,如良种的培育、播种技术的改进、机械化程度的提高等等, 特别是杂交水稻的发明, 是粮食生产的一次绿色革命, 大大地提高了粮食单位面积产量。第二层次是中观因素。主要有粮食播种面积、单位面积产量、受灾面积等等, 这些因素是影响粮食产量的直接因素。第三层次是微观因素, 主要有有效灌溉面积、化肥施用量、农业机械化程度、财政三项投入等。为了分析粮食产量的影响因素及其影响程度,将用1978一2007年的统计数据进行分析。其中:Y 是粮食产量(万吨),X1是农业化肥试用量(万吨),X2是粮食播种面积(千公顷),X3是成灾面积(千公顷),X4是农业劳动力(万人),X5是农业机械总动力(万千瓦)。

如何统计分析非正态分布的数据

如何统计分析非正态分布的数据 小飞看了9月23日医咖会微信推送的“降糖药物利拉鲁肽,还能治疗心衰吗?”的研究(FIGHT 研究)后[1],不明白研究方法II中的Wilcoxon秩和检验到底是什么,于是来找小咖讨论。 小飞:Wilcoxon秩和检验到底是个什么鬼? 小咖:这是一种非参数检验方法。 小飞:非参数检验又是个什么鬼啊? 小咖:平时我们常用的t检验、卡方检验、方差分析等方法都要求样本服从特定的分布(比如t检验要求样本服从正态分布),这些方法被称为参数检验方法。但有些数据并不符合参数检验的要求,最常见的情况是数据不符合正态分布,这时可以使用非参数检验的方法。 非参数检验有很多种,Wilcoxon秩和检验就是其中一种。 小飞:不明觉厉...你还是来个栗子呗。

小咖:好吧。某医生为了评价A药对绝经后妇女的骨质疏松症是否有效,将30名绝经后妇女随机分为两组,干预组研究对象15例,给予A药+乳酸钙治疗;对照组15例,仅给予乳酸钙治疗。24周之后观察两组L2-4骨密度的改善率。数据如下图: 两组骨密度改善率(%) 干预组对照组 ID 改善率ID 改善率 1 -0.20 1 -0.83 2 0.21 2 0.26 3 1.86 3 0.48 4 1.97 4 1.03 5 2.31 5 1.06 6 2.80 6 1.19 7 3.30 7 1.27 8 3.60 8 1.71 9 4.31 9 1.75 10 4.40 10 2.33 11 5.29 11 2.66 12 5.87 12 2.80 13 6.06 13 3.22 14 6.08 14 3.34 15 7.00 15 3.34 小飞:嗯,我明白了。对于这种两组平行设计、结局是不符合正态分布的连续变量,就应当使用Wilcoxon秩和检验对吧? 小咖:很聪明,给你满分。接下来给你演示一下用SPSS 22.0怎么操作。 (1)数据录入SPSS

参数估计和假设检验习题解答

参数估计和假设检验习题 1.设某产品的指标服从正态分布,它的标准差σ已知为150,今抽了一个容量为26的样本,计算得平均值为1637。问在5%的显著水平下,能否认为这批产品的指标的期望值μ为1600? 解: 01:1600, :1600,H H μμ=≠标准差σ已知,拒绝域为2 Z z α>,取0.05,α=26,n = 0.0250.9752 1.96z z z α===, 由检验统计量 1.25 1.96Z = ==<,接受0:1600H μ=, 即,以95%的把握认为这批产品的指标的期望值μ为1600. 2.某纺织厂在正常的运转条件下,平均每台布机每小时经纱断头数为O.973根,各台布机断头数的标准差为O.162根,该厂进行工艺改进,减少经纱上浆率,在200台布机上进行试验,结果平均每台每小时经纱断头数为O.994根,标准差为0.16根。问,新工艺上浆率能否推广(α=0.05)? 解: 012112:, :,H H μμμμ≥< 3.某电器零件的平均电阻一直保持在2.64Ω,改变加工工艺后,测得100个零件的平均电阻为2.62Ω,如改变工艺前后电阻的标准差保持在O.06Ω,问新工艺对此零件的电阻有无显著影响(α=0.05)? 解: 01: 2.64, : 2.64,H H μμ=≠已知标准差σ=0.16,拒绝域为2 Z z α>,取0.0252 0.05, 1.96z z αα===, 100,n = 由检验统计量 3.33 1.96Z = ==>,接受1: 2.64H μ≠, 即, 以95%的把握认为新工艺对此零件的电阻有显著影响. 4.有一批产品,取50个样品,其中含有4个次品。在这样情况下,判断假设H 0:p ≤0.05是否成立(α=0.05)? 解: 01:0.05, :0.05,H p H p ≤>采用非正态大样本统计检验法,拒绝域为Z z α>,0.950.05, 1.65z α==, 50,n = 由检验统计量0.9733Z = ==<1.65,接受H 0:p ≤0.05. 即, 以95%的把握认为p ≤0.05是成立的. 5.某产品的次品率为O.17,现对此产品进行新工艺试验,从中抽取4O0件检验,发现有次品56件,能否认为此项新工艺提高了产品的质量(α=0.05)? 解: 01:0.17, :0.17,H p H p ≥<采用非正态大样本统计检验法,拒绝域为Z z α<-,400,n = 0.950.05, 1.65z α=-=-,由检验统计量 400 1.5973i x np Z -= = =-∑>-1.65, 接受0:0.17H p ≥, 即, 以95%的把握认为此项新工艺没有显著地提高产品的质量. 6.从某种试验物中取出24个样品,测量其发热量,计算得x =11958,样本标准差s =323,问以5%的显著水平是否可认为发热量的期望值是12100(假定发热量是服从正态分布的)?

非参数分析

非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法

第1章 多元正态分布的参数估计

第一章 多元正态分布的参数估计 一、填空题 1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。 2.多元分析处理的数据一般都属于 数据。 3.多元正态向量),,(1'=p x x X 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。 4.一个p 元函数()p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。 5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X ,2X , ,p X 是相互独立的。 6.多元正态分布的任何边缘分布为 。 7.若()∑,~μp N X ,A 为p s ?阶常数阵,d 为s 维常数向量,则~d AX + 。 8.多元正态向量X 的任何一个分量子集的分布称为X 的 。 9.多元样本中,不同样品的观测值之间一定是 。 10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。 11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 1 1-具有 、 和 。 12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则 ~X ,X 和S 。 13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵 ()()()()∑='--=n X X X X S 1~ααα 。 14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。 二、判断题 1.多元分布函数()x F 是单调不减函数,而且是右连续的。( )

2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布。 ( ) 3.μ 是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质: (1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B ( ) 4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。( ) 5.一般情况下,对任何随机向量()'=p X X X ,,1 ,协差阵∑是对称阵,也 是正定阵。 ( ) 6.多元正态向量()'=p X X X ,,1 的任意线性变换仍然服从多元正态分布。( ) 7.多元正态分布的任何边缘分布为正态分布,反之一样。( ) 8.多元样本中,不同样品之间的观测值一定是相互独立的。( ) 9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。( ) 10.S n 1是∑的无偏估计。( ) 11.Wishart 分布是2χ分布在p 维正态情况下的推广。( ) 12.若()()∑,~μαp N X ,n ,,1 =α,且相互独立,则样本离差阵 ()()()()()∑-'--=∑=,1~1n W X X X X S n p ααα。 ( ) 13.若()∑,~n W X p ,C 为奇异矩阵,则()c c n W C CX p '∑',~。( ) 三、简答题 1.多元正态分布有哪些基本性质? 2.均值向量和协差阵的最大似然估计量有哪些优良性质? 3.维希特分布有哪些基本性质? 四、证明题 1.样本均值向量和离差阵也可以用样本资料X 直接表示如下: n X n X 11'=,X n I X S n n n ?? ? ??'-'=111 其中:()'=1,,1,11 n ,???? ??????=1001 I 试分别给以证明。 五、计算题

完整word版,参数估计和假设检验习题解答

n p (1 p) 参数估计和假设检验习题 1. 设某产品的指标服 从正态分布,它的标准差 σ已知为 150,今抽了一个容量为 26 的样本,计 算得平均值为 1637。问在 5%的显著水平下,能否认为这批产品的指标的期望值 μ为 1600? 解: H 0: 1600, H 1: 1600,标准差 σ已知,拒绝域为 Z z ,取 0.05, n 26, 即,以 95% 的把握认为这批产品的指标的期望值 μ为 1600. 2. 某纺织厂在正常的运转条件下, 平均每台布机每小时经纱断头数为 O.973 根,各台布机断头数 的标准差为 O.162 根,该厂进行工艺改进, 减少经纱上浆率, 在 200 台布机上进行试验, 结果平均每 台每小时经纱断头数为 O.994 根,标准差为 0.16 根。问 , 新工艺上浆率能否推广 ( α=0.05)? 解: H 0 : 1 2, H 1: 1 3. 某电器零件的平均电阻一直保持在 2.64 Ω,改变加工工艺后,测得 100 个零件的平均电阻为 2.62 Ω,如改变工艺前后电阻的标准差保持在 O.06Ω,问新工艺对此零件的电阻有无显著影响 ( α=0.05)? 解: H 0: 2.64, H 1: 2.64,已知标准差 σ=0.16, 拒绝域为 Z z ,取 0.05,z z 0.025 1.96, 22 x 2.62 2.64 n 100,由检验统计量 Z 3.33 1.96,接受 H 1: 2.64, / n 0.06/ 100 1 即, 以95% 的把握认为新工艺对此零件的电阻有显著影响 . 4. 有一批产品,取 50 个样品,其中含有 4 个次品。在这样情况下,判断假设 H 0:p ≤0.05 是否 成立( α=0.05)? 解: H 0: p 0.05, H 1: p 0.05,采用非正态大样本统计检验法 ,拒绝域为 Z z , 0.05, z 0.95 1.65, 即, 以 95% 的把握认为 p ≤0.05 是成立的 . 5. 某产品的次品率为 O.17,现对此产品进行新工艺试验,从中抽取 4O0件检验,发现有次品 56 件,能否认为此项新工艺提高了产品的质量 ( α=0.05)? 解: H 0: p 0.17, H 1: p 0.17,采用非正态大样本统计检验法 ,拒绝域为 Z z ,n 400, 0.05, z 0.95 1.65 ,由检验统计量 400 56 400 0.17 400 0.17 0.83 z z 0.025 z 0.975 1.96, 由检验统计量 2 /n 1637 1600 150/ 26 1.25 1.96 ,接受 H 0 : 1600, n 50, 由检验统计量 x/n p p (1 p) /n 4/50 0.05 0.05 0.95 / 50 0.9733 <1.65,接受 H 0:p ≤0.05. x i np i1 1.5973>-1.65, 接受 H 0: p 0.17,

统计学教案习题03正态分布

第三章 正态分布 一、教学大纲要求 (一) 掌握内容 1.正态分布的概念和特征 (1)正态分布的概念和两个参数; (2)正态曲线下面积分布规律。 2.标准正态分布 标准正态分布的概念和标准化变换。 3.正态分布的应用 (1)估计频数分布; (2)制定参考值范围。 (二) 熟悉内容 标准正态分布表。 (三) 了解内容 1.利用正态分布进行质量控制 2.正态分布是许多统计方法的基础 二、教学内容精要 (一)正态分布 1.正态分布 若X 的密度函数(频率曲线)为正态函数(曲线) 2.正态分布的特征 服从正态分布的变量的频数分布由μ、σ完全决定。 (1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以x μ=为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ。 (2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。 (二)标准正态分布 1.标准正态分布是一种特殊的正态分布,标准正态分布的0=μ,12 =σ ,通常用u (或Z )表示服从标准正 态分布的变量,记为u ~N (0,2 1)。 2.标准化变换:σ μ -=X u ,此变换有特性:若X 服从正态分布),(2 σμN ,则u 就服从标准正态分布,故该 变换被称为标准化变换。 3. 标准正态分布表 标准正态分布表中列出了标准正态曲线下从-∞到u 范围内的面积比例()u Φ。

(三)正态曲线下面积分布 1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同),(21X X 范围内正态曲线下的面积可用公式3-2计算。 )()(21 12) 22(2)(2 1 u u dx e D X X X Φ-Φ==--? σμπ σ (3-2) 1212X X u u μ μ σ σ --= = 其中, , 。 2.几个重要的面积比例 X 轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间σμ±内的面积为68.27%,横轴区间σμ64.1±内的面积为90.00%,横轴区间σμ96.1±内的面积为95.00%,横轴区间σμ58.2±内的面积为99.00%。 (四)正态分布的应用 某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。 1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式(3-2)估计任意取值12(,)X X 范围内频数比例。 2. 制定参考值范围 (1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。 (2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。 概率 (%) 双侧 单 侧 双侧 单侧 下 限 上 限 下 限 上 限 90 95 5 ~P P 10 P 90 P 95 S X 96.1± S X 64.1- S X 64.1+ 5.975.2~P P 5P 95P 99 S X 58.2± S X 33.2- S X 33.2+ ~P P P P 3. 质量控制:为了控制实验中的测量(或实验)误差,常以S X 2±作为上、下警戒值,以S X 3±作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。 4. 正态分布是许多统计方法的理论基础。t 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。 三、典型试题分析 1.正态曲线下、横轴上,从均数到∞+的面积为( )。 A .95% B .50% C .97.5% D .不能确定(与标准差的大小有关) 答案:B [评析] 本题考点:正态分布的对称性 因为无论μ,σ取什么值,正态曲线与横轴间的面积总等于1,又正态曲线以μ=X 为对称轴呈对称分布,所以μ左右两侧面积相等,各为50%。 2.若X 服从以μ,σ为均数和标准差的正态分布,则X 的第95百分位数等于( )。 A .σμ64.1- B .σμ64.1+ C .σμ96.1+ D .σμ58.2+ 答案:B [评析] 本题考点:正态分布的对称性和面积分布规律

相关文档
最新文档