数理统计与随机过程讲义
第四章 假设检验
假设检验是一种重要应用价值的统计推断形式,是数理统计的分支。从发展历史上有重要的节点为
1 :Pearson 的拟合优度的2χ检验 1900
2:Fisher 的显著性检验 1920
3:Neyman-Pearson 一致最优检验 1928 4:Wald 的判决理论 1950
5:Bayes 方法 (二战之后发展的学派) §4.1 基本术语
关于随机变量的分布、数字特征等,每一种论断都称为统计假设,分为参数假设和非参数假设,例如),(~2σu N X ,假设1,1:==σu H 就称为参数假设;给定一组样本值,假设:H ~X 正态分布,对于分布进行论断,为非参数假设。
无论上面那种假设,都是给出一个对立的假设,比如),(~2σu N X ,那么假设1,1:0==σu H 的对立假设就是1,1:1≠≠σu H ,我们就把0H 称为基本假设,或者原假设,而1H 就称为对立(备选)假设。
为了分别那个假设是对的,需要判断假设真伪,就是对假设做出“否”还是“是”的程序就是检验,这个检验常用否定域形式给出,按照一定规则把样本值集合分成两个部分V V ?,当样本值落入子集V 认为0H 不真,那么V 是0H 的否定域,V 为0H 的接受域。
那么这样就产生了两种错误:
第一类错误α :本来0H 是真,但是却否定了,弃真; 第二类错误β :本来0H 不真,但是却接受为真,叫取伪。
选定一种检验方法,我们希望上述两种错误概率都小。但是给定样本容量,使得两种错误任意小是不可能的,我们主要研究两大类检验方法:
1:样本容量给定,控制第一类错误,使得错误概率有一个上界α,叫做检验的显著性水平,根据这种原则建立的检验就是α水平显著性检验;
2:样本容量给定,控制第一类错误α水平固定,还使得第二类错误最小,就是接受不真实假设的概率最小,否定不真实假设的概率就称为检验功效1-β,使得功效最大,,根据这种原则建立的检验就是α水平最大功效检验,或者最佳检验。 §4.2参数假设检验
设X 符合分布),(θx F ,未知参数θΘ∈参数空间,空间分成两部分0Θ和
Θ-0Θ,二者交集为空。
主要对于正态分布参数的统计假设的显著性检验方法。 1)针对不同问题,提出基本假设与备选假设
0H :θ0Θ∈ 1H :θ0Θ-Θ∈
如果参数空间仅仅是由0θθ=和1θθ=两个点组成的,那么我们称简单假设,否则是复合假设。
2)给定检验的显著性水平α,其大小依据不同问题不同,比如火箭、飞机等可靠性问题,α要越小越好,对于一般生产问题,太小了则意味着生产时间和成本的增加;
3)建立对于基本假设的统计量和否定域;
4)取样,计算统计量值,落入否定域则判读0H 为假,否则为真。
例子:某种药片制剂中国家规定成分A 的含量X 必须为10%,现在抽取5个片剂试样,测得A 的含量为
10.9% 9.45% 10.38% 9.61% 9.92%
假设)%,10(~20σ=u N X ,按照显著性水平α=0.05进行检验是否与规定10%相符?
解:建立基本假设0H :0u u =,这里显著性水平α=0.05,样本容量为5,样本值如上。
如何确定统计量呢?样本均值X 可以求出,但是这里方差未知,用无偏估
计量*
2n S 来代替2σ,那么统计量
=
t )1(~/*
20--n t n
S u X n
这是我们以前推导过的,因此可以建立否定域为
αα=???
?
??≥2||t t P
即落入区域2
||αt t ≥则认为假,此区域之外就是真。
t-检验法。回到我们的问题,X =1005.0,*2n
S =25
1
20059.0)(151=--∑=i i X x ,那么6949.1/*20=-=
n
S u X t n
为统计量的值,由显著性水平α=0.05,我们查得
7764.2)4(2
05.0=t 。
由于6949.1=t <7764.2)4(2
05.0=t ,这个统计量值落在否定域之外,就是说基
本假设是真的,因此判断显著性水平α=0.05下规定成分A 的含量与规定10%相符的。
两样本t 检验法:有时为了比较两种方法、仪器、产品等的差异性,我们在相同条件下做对比试验,然后得到成对的数据,分析这些数据作出推断。 再次回顾第二章中定理
定理:设121,,,n x x x 子样来自母体),(211σu N ,221,,,n y y y 子样来自母体
),(2
2
2σu N ,各自的子样均值∑==1111n i i x n X ),(~1211n u N σ,∑==2121n i i y n Y ),(~2
2
2
2n u N σ,
那么),
(~2
22
1
2
121n n u u N Y X σσ+
--,那么一个新的变量
)1,0(~)
()(222
1
21
21N n n u u Y X U σ
σ
+
---=
,若21μμ=,)1,0(~)
(2
22
1
21
N n n Y X U σ
σ
+
-=
*
22
22
2*2121
11
1
S n S n V σ
σ
-+
-=
符合)1(12-n χ+ )1(22-n χ,即)2(212-+n n χ,加和性质 且上述两个变量相互独立。那么依据定义
)2(~)
2/(2121-+-+n n t n n V U
例子:设两种橡胶轮胎进行耐磨性试验对比,从中各自随机取8个,各取一个随机配对装在8架飞机上,经过一段时间测量磨损量如下(单位毫克)这里显著性水平α=0.05。
方法一:假设两个母体),(21σu N , ),(22σu N 方差一样 原假设 0H :21u u =, 对立假设为1H :21u u ≠ 独立那么按照上述定理得到
6145=X 1867312
*1=S ;5825=Y 120442
2
*1=S 代入得到
)14(~516.014
/t V U
= 查表145.2)2/(14=αt ,可见大于计算的统计量值,那么就不否定(接受)假设0H ,认为二者磨损量无显著差异。
方法二:我们采用配对实验
Z=X-Y -30 320 360 320 -140 230 780 720 由于 d y x E z E i i i =-=-=21][][μμ,2
][][][D i i i y D x D z D σ=+=
那么,i z 是来自母体),(D d N σ的正态母体,此时假设0H :21u u =等价于 0=d 的
假设,设∑==n i i z n Z 1
1=320,∑=--=n i i n Z z n S 12*
2)(11=102200,那么我们也可以构造 72
*~83.2/t n
S Z n
=
查表,显著性水平α=0.05下,365.2)2/(14=αt ,我们发现365.283.2>,说明落在了否定域,即否定原假设0H ,两种轮胎的耐磨性是有差异的。
讨论:同一显著性水平α=0.05下,相同的数据,为何两种方法得到完全不同的推断结论呢?这是因为,配对分析时,自由度下降了n=8-1,从而临界值提高了,即365.2)2/(14=αt ,增加了否定原假设的可能性,每架飞机突出两种轮胎之间差异,消除了飞机之间的数据影响,只要两个轮子耐磨性有一定差异,就可能否定假设0H ;而不做配对,自由度增加为8+8-2=14,临界值降低,减小了否定原假设的可能性。什么时候用方法一还是方法二,还是得靠具体情况定。
其他不同的问题,构造不同的统计量,利用不同的分布进行检验,书上有基本的统计量表格,无非就是查表计算问题。
§4.3 非参数假设的2χ检验
所谓非参数假设,就是不确切知道母体分布的数学形式的情况下,对于母体分布的各种论断,比如服从什么什么分布,相互独立,等等。其特点是:
A 不依赖与母体分布的具体形式,什么形式都适用的检验;
B 由于缺乏母体分布的完全知识,所以使用的统计量精确分布难以求出,只能求出极限分布,一般需要大样本容量。
Pearson 提出了2χ检验法,步骤为:
1):将所有观测值X 进行分割不同子集 r
k k A X 1==, j i A A j i ≠=,φ,子集的
数目为r ;
2):统计观测值在每个子集k A 中出现的频数k n (出现的次数),当然满足
n n
r
k k
=∑=1
;
3):在基本假设0H 真实的情况下,就是按照我们设定的分布概率密度函数,计算每个子集k A 中的理论期望频数,设落入概率为
}|{0H A x P P k k ∈==dx H x f k
A ?)|(0,r k ,,2,1 =,11
=∑=r
k k P 注意这是概率
那么我们得到期望频数为 k n nP E k =,就是总共抽取n 个样本,那么每个子集k A 内理论上应该抽取了几个。 4)建立统计量
∑∑
==-=-=r
k k k k r
k n n k nP nP n E E n k
k 1
2
1
2
2
)()(χ~)1(2-r χ
符合)1(2-r χ分布,且表示了实际观察和理论结果之间相对差异的总和,当这个值大于某个临界值,则否定此假设。否则接受假设。
Pearson 证明 为何上述统计量符合)1(2-r χ分布: 证明:1)当r=2两个子集,n n n =+21,121=+P P
那么2112
112
122
)
1()()(ηχ=--=-=∑=P nP nP n nP nP n k k k k
这里注意2
11211222)())1(()(nP n P n n n nP n -=---=-,代入即可
那么由De Moirre-Laplace (隶莫弗)定理,二项分布)
1(111
1P nP nP n --=
η的极限
分布为标准正态分布,即)1,0(~N η,那么)12(~22-χη分布。这是r=2时是符合的。
2)当2>r 的一般情况
我们知道频数有n n r
k k =∑=1,上面为二项分布,这里符合多项分布
r
n r n r r P P n n n n P P f 11211!
*!*!*!),,(=
同样由中心极限定理
)
1(j j j j P nP nP n --)1,0(~N ,那么
j
j
j j nP nP n Y -=)1,0(~j P N -
∑∑
==-=-=r
k k k k r
k n n k nP nP n E E n k
k 1
2
1
2
2
)()(χ就是r 个正态随机变量的平方和,但是由于这
些变量之间有一个制约关系。就像前面我们证明正态母体均值和方差的分布时一
样证明方法,构造的正交矩阵
???????
??????
?=ij
a P P P A 32
1
使得AY Z =,我们会发现
=
-∑
=j
j
j r
j j
nP nP n P 1
∑∑∑
====-=-r
j j r j j r
j j
j P n n n n nP n 1
11
0)(1
∑∑∑=====-==r
k k r k k r
k k k k Z Y nP nP n 21122
)(χ,只是1-r 正态变量的平方和,所以自由度为1-r 。损失的信息就是因为那个制约关系存在。
Fisher 推论:如果分布);(θX f 有m 个未知参数),,,(21m θθθθ =,那么
∑=-=r
k k
k k P n P n n 122
?)?(χ服从)1(2--m r χ分布,这里)?,,?,?(?21m θθθθ =是最大似然估计量,k P ?也是有)?,,?,?(?21m θθθθ =利用最大似然估计之后,代入假设的分布函数);(θX f 计算得到的。因为)?,,?,?(?21m θθθθ =也是从样本数据中得到的,已经用掉了m 个信息量。或者从矩阵的思想考虑,将∑=-=r
k k
k
k P n P n n 122
?)?(χ写成矩阵形式,
其rank 是1--m r ,这个证明具体可以参考陈希孺的《数理统计引论》。
注意1)此定理是由样本容量n 足够大,因此k nP 不应该太小一般选取
,50≥n k nP 5≥,如果小了,则进行合并处理。具体看下面例子
2)存在下面的转换
∑∑∑∑∑∑======-=
+-=+-=-=r
k k
k
r k k
k k
r k k k k r k k k k
k k r
k k k k n nP n nP n nP n nP P n nP n n nP nP n 12
1112
12
22122
22)(χ
为什么这样转换?计算了k nP ,上面每次都要做减法再平方,除法,而下面少了r-1次减法。计算量下降了。这也是编程序时注意的。
浓缩铀 (Enriched Uranium ),指经过同位素提炼后,铀235含量超过90%的铀金属,与其相对的是贫化铀。不论是和平利用核能,还是为制造核武器,浓缩铀都是必要的。 因此,国际原子能机构希望能够控制全球各国所有铀浓缩活动,以防止核武器扩散。
α粒子是一种放射性粒子,由两个质子及两个中子组成,并不带任何电子,亦即等同于氦-4的内核,或电离化后的氦-4,He2+。通常具有放射性而原子量较大的化学元素,会透过α衰变放射出α粒子,从而变成较轻的元素,直至该元素稳定为止。由于α粒子的体积比较大,又带两个正电荷,很容易就可以电离其他物质。因此,它的能量亦散失得较快,穿透能力在众多电离辐射中是最弱的,人类的皮肤或一张纸已能隔阻α粒子。
α粒子释放出的放射性同位素在人体外部不构成危险。然而,释放α粒子的物质(镭、铀等等)一旦被吸入或注入,那将是十分危险。它就能直接破坏内脏的细胞。
这里100=n =∑i f (k k n f =,k i =),总共分了13个区间,进行统计的。而且假设poisson 分布还缺一个参数λ,λλ-==e i i x P i
!
)(,那么利用似然估计进行估
计。构造似然函数
λλ
λn i
e n X L n
i -∑=
=!
!1);(1
,
那么
n i L n i -=??∑=λ
λ1
ln 1, 得到最大似然估计量为(要用次数乘以每次观测的个数得到i ),再平均,得到 X =λ
?=2.4...)1*0(100
1=+ 因此我们得带估计参数的理论分布,由此计算理论频数
注意:Pearson 统计方法也可以验证母体是否服从某个给定的分布)(0x F ,即假设
)()(:00x F x F H =。实质是检验对于划分区间上)()(:00i i x F x F H =,并没有对每个点进行计算,虽然这样有可能把不真实的假设包含进来,但是概率很小。
独立性检验:设两个母体,分布抽取的样本向量X 和Y ,那么二者相关性定义为
]
)[(])[()])([()
,cov(2
2
y x y x y
x m y E m x E m y m x E y x ----=
=
σσρ
叫做相关系数,如果为0则不相关。
从分布来看,设),(y x F 为联合分布,)(x F 和)(y F 各自的边缘分布,那么两个变量的独立性检验就是
:0H ),(y x F =)(x F )(y F
实际中我们总是随机抽样来考察其独立性,设容量为n 的二维随机样本),(i i y x ,x 和y 的可能取值分别分成r 个和s 个互不相交的小区间,用ik n 表示x 属于区间i 和y 属于区间k 的个数。
记做
∑=?=s
k ik i n n 1
,∑=?=r
i ik k n n 1
,∑∑
===s
k ik
r
i n
n 1
1
同时设x 属于区间i 和y 属于区间k 的概率为),(k i p ,那么我们得到边缘概率
∑==?s
k k i p i p 1
),(),(,∑==?r
i k i p k p 1
),(),(,
1),(),(),(1
1
1
1
=?=?=∑∑∑∑====r
i s k s k r i i p k p k i p
独立性假设就是
:0H ),(k i p =),(?i p ),(k p ?
),(?i p 和),(k p ?都需要从数据),(i i y x 中进行估计,由于制约关系
1),(1
),(1
1
=?=?∑∑==r
i s
k i p k p
共需要估计2-+s r 量即可。按照最大似然估计方法很容易得到估计概率就是
),(??i p
=n n i ?,),(?k p ?=n
n k ? 因此,按照一维统计量公式
∑=-=r
k k k k nP nP n 12
2
)(χ 二维统计量公式
∑∑
==-=r i ik s
k k i p
n k i p
n n 121
2
),(?)),(?(χ
由于n k i p
n =),(?),(??i p ),(?k p ?=n
n n k
i ??,所以 ∑∑
==-=r i ik s
k k i p n k i p n n 121
2
),(?)),(?(χ=∑∑==??????????
-r i s k k i k i ik
n
n n n n n n 11
2
由于原来自由度没有估计参数时是1-rs ,现在估计了2-+s r 个概率参数,所以上式符合了))1)(1((2--s r χ的分布。 例题
§4.4 广义似然比检验
这里主要解决如何得到统计量的问题。1928年Neyman ——Pearson 利用似然比的方法获得统计量的一般方法:
设x 的分布参数有两个假设,必居其一:
基本假设 :0H );(~θx f x ,0Θ∈θ 对立假设:1H );(~θx f x ,1Θ∈θ 关于随机样本X 的联合概率分布为
基本假设 :0H ∏==n
i i x f x 10);();(θθρ,0Θ∈θ
对立假设:1H ∏==n
i i x f x 1
1);();(θθρ,1Θ∈θ
则定义似然比为
)
;(sup );(sup )(1
1
10θθθθi n i i n
i x f x f X L ∏∏=Θ∈=Θ∈=
类似于最大似然估计问题中一样的原理,如果似然比值)(X L 较小,那么表明属于假设:0H 的概率要比属于假设:1H 的概率小,那么应该拒绝基本假设,因此
α≤≤))((0L x L P
我们称为否定域,否定基本假设,这种假设检验称为α水平的广义似然比检验。
广义似然比检验有什么意义?意义在于能够构造用于假设检验的统计量。
例子:已知正态母体),(2σu N 均值和方差都未知,那么假设
基本假设 :0H ),;(~20σu x f x ∏,0u u = 对立假设:1H ),;(~2σu x f x ∏,0u u ≠
∑???
? ??==--=n
i i u x n
u u e X g 1
2
02
2
0)(212
021
sup )(σ
σπσ∑=-=?n
i i u x n 1
202
)(1?σ
代入得到
2
/2
/12022
2
2
/12020)()(21)(21)(n n n
i i n
n
n n n i i n
n
e u X n X x n e
u x n X g --=--
-=-?
?
????-+-??? ??=??
????-??? ??=∑∑ππ
同理对于∑???
? ??==--≠n
i i u x n u u e X g 1
2
2
20)(212
121
sup )(σ
σ
πσ∑∑==-==?n i i n i i X x n x n X 1
22
1)(1?,1σ
代入得到
2
2
/1221)(21)(n n n
i i n
n
e X x n X g -
-=-?
?
????-??? ??=∑π
那么广义似然比
10)(g g X L ==2
121202)()()(n
n
i i n
i i X x u X n X x -==?????
???????--+-∑∑=2/211n n t -??????-+ 你会发现当均值和方差都未知时,应该用统计检验量n
S u X t n
/*
20-=,这也是t 分布
和t 检验的由来。
例子:2χ检验统计量怎么构建的?
任意一种母体X ,仅仅取r 个值的离散随机变量,其概率分布为
,}{i P i X P ==r i ,,2,1 =,
这里}{i P =θ,且11=∑=r
i i P
由于上述制约条件,其参数空间是r-1维空间。我们设基本假设
00:i i P P H =,0100r P P P =θ
其子样取值),,(1n x x 进行计算频数,以i n 表示i x 取r i ,,2,1 =的个数,且
n n
r
i i
=∑=1
,那么有
r
n
r n
i n n n n x X P ??
?
?????
??== 11)(θ
得到广义似然比为
i
i r
i i r
i n i i n nP n n nP P P X L i
110ln ln ln )(ln 0
∑∏===???? ??==θθ =??
????-+-+-∑=00
0011ln ][i i i i i i r
i nP nP n nP n nP 由于0i nP
和i n 接近,可以小参数展开
=???
?????O +???? ??----+-∑
=()21][200
00001i i i i i i i i i r
i nP nP n nP nP n nP n nP =())(21)(0
2010201000
1
O nP nP n nP nP n nP nP n nP i i i r
i i i i r i i i i i r
i +-+----∑∑∑
=== =()0
2
0121i i i r
i nP nP n --∑= 我们发现自然出现了Pearson 定理中的∑=-=r
k k
k k nP nP n 12
2
)(χ检验统计量。 结论:广义似然比检验能够构造检验方法中所用到的检验统计量,其地位和最
大似然估计方法一样。 §4.5 最大功效检验
α水平显著性检验一般规则就是建立一个统计量,然后判断此统计量)(X U
αα≤>}|)({|Z X U P
来肯定基本假设。但是每种检验方法都相对于一个统计检验量,怎么衡量那种检验方法好?存在一个最优的检验方法吗?
00:θθ=H 是一种假设,但是有可能真实分布参数为θ='θ的分布,因此把所有θ可能取值的范围Θ称为容许假设,则}),;({Θ∈θθX f 称为母体的可能分布族,那么
01:θθ-Θ∈H 称为备选假设。 我们再次分析两类错误:
我们希望上述两类错误都是最低,但是实际上不可能,当样本容量一定时,两类错误不可能同时被控制。
限制第一类错误:
00,}|{θθα=≤∈H V x P ,对于0H 为真,样本值否定域V 内的概率小于显著水平的前提下,使得
Θ∈∈θ},|{1H V x P 的正确概率最大,在此原则下,定义功效函数(势函数)
}{)(V x P ∈=θβ
当0H 为真,势函数就是第一类错误,当01:θθ-Θ∈H 为真,势函数为正确检测概率。最大功效(most power ,MP )检验:
)
(1min )(max ,}|{sup 0
0θβθβαθθθθθθ-?≤∈-Θ∈-Θ∈=H V x P
例子:母体正态),(
2σu N ,方差已知,对于均值有两种假设
00:u u H = 011:u u u H >= 给定显著性水平α下,考虑下面四种否定域
?
?????≥-=ασZ n u X V /2
01
?
?????-≤-=ασZ n u X V /2
02
??
????????≥-=2/2
03/ασZ n u X V
??
????????≤-=-2/12
04/ασZ n u X V
如果00:u u H =为真,那么
n
u X /2
σ-)1,0(~N 上述四种否定域下的水平都等于α。
这几种检验那个好?我们来看第二类错误大小,或者看功效大小。 当011:u u u H >=为真时,
n
u u u X /2
11σ-+-)1,/(~2
1n
u u N σ-=
?的分布,均值挪动了。
我们来看第一种检验的功效:
)(121)(2
)(112
?-Φ-==?--
∞
?
αα
π
βZ dx e u x Z
依次类推我们得到其他三种否定域检验的功效
)(1)(21)(2
)(122
?+Φ-=?--Φ==?--
-∞
-?
ααα
π
βZ Z dx e u x Z
)()(2)(2/2/13?-Φ-?+Φ-=ααβZ Z u
1)()()(2/2/14-?-Φ+?+Φ=ααβZ Z u
当我们取1.0=α,00=u ,,11=u 1=σ,n=9时,我们计算得到四种功效
9573.01=β,0001.02=β,9115.04=β,003.04=β
第一种检验方法功效最大。
同理如果,1u 可正可负,那么假设变为
00:u u H = 11:u u H ≠
可以推出第三种检验方法??
?
???????≥-=2/2
03/ασZ n u X V 的功效最大。 例子:母体正态),(2σu N ,方差已知,对于均值有两种假设
0:00==u u H 11:u u H ≠
1)给定显著性水平α=0.05下,??
?
???????≥=2/2
3/ασZ n X V 检验的功效,随样本容量n 的变化,
2)以及给定样本容量n ,三种功效)(121)(2
)(112
?-Φ-==?--
∞?
αα
π
βZ dx e u x Z
)(1)(21)(2
)(122
?+Φ-=?--Φ==?--
-∞
-?
ααα
π
βZ Z dx e u x Z
)()(2)(2/2/13?-Φ-?+Φ-=ααβZ Z u 如何变化的。
解:1)先解出否定域,查表96.12/=αZ
当11:u u H ≠为真时,功效)()(2)(2/2/13?-Φ-?+Φ-=ααβZ Z u ,n u σ
1
=
?
)96.1()96.1(2)(1
1
13n u n u u σ
σ
β-
Φ-+
Φ-=
u 1
/σ
β(u 1)
随着n 增加,功效不断增加,随着
σ
1
u 增加也在增加。
2)这里我们选定100=n ,α=0.05
2011-2012第一学期数理统计与随机过程(研)试题
北京工业大学2011-2012学年第一学期期末 数理统计与随机过程(研) 课程试卷 学号 姓名 成绩 注意:试卷共七道大题,请写明详细解题过程。数据结果保留3位小数。 考试方式:半开卷,考试时只允许看教材《概率论与数理统计》 浙江大学 盛 骤等编第三版(或第四版)高等教育出版社,不能携带和查阅任何其他书籍、纸张、资料等。考试时允许使用计算器。 考试时间120分钟。考试日期:2012年1月10日 1.(10分)某种导线要求其电阻的标准差不得超过0.005(Ω),今在生产的一批该种导线中取9根,测得)(007.0Ω=s . 设总体服从正态分布,问从这些样本看这批导线是否合格?(取显著性水平α=0.05) 2. (15分)袋中装有8只球,其中红、白球若干.在其中任取3只,记录红球的个数X ,然后放回,再任取3只,记录红球的个数,然后放回。如此重复进行了112次。其结果如下: 试检验假设: {}.3,2,1,0,38335:383350=??? ? ?????? ??-???? ??===-k k k C C C k X P X H k k 服从超几何分布: 是否成立?(取显著性水平050.=α)
3. (1) (2) 因素A 和因素B 各包含几个水平?总共涉及了多少个观测数据? (3) 从这个方差分析表中可以做出那些假设检验?取显著性水平050.=α,结论是什么?分别写出完整的推断依据. 4. (1)(2) 对回归方程进行显著性检验(取显著性水平α=0.05); (3) 求y 的置信水平为95%的预测区间,并计算若x=5时y 的95%的预测区间。 5.(15分)假定某天文台观察到的流星流是一个强度为λ的泊松过程,据以往资料统计为每小时平均观察到3颗流星。试求: (1)在上午8点到12点期间,该天文台没有观察到流星的概率? (2)从零点开始,该天文台观察首次观察到第一颗流星的时间的分布函数?
应用随机过程教学大纲
遵义师范学院课程教学大纲 应用随机过程教学大纲 (试行) 课程编号:280020 适用专业:统计学 学时数:48 学分数:____________ 2.5_______ 执笔人:黄建文审核人:_____________________ 系别:数学教研室:统计学教研室
编印日期:二?一五年七月 课程名称:应用随机过程 课程编码: 学分:2.5 总学时:48 课堂教学学时:32 实践学时:16 适用专业:统计学先修课程:高等数学、线性代数、概率论、测度论或者实变函数(自学) 一、课程的性质与目标: (一)该课程的性质 《应用随机过程》课程是普通高等学校统计学专业必修课程。它是在学生掌握了数学分析、线性代数和概率论等一定的数学专业理论知识的基础上开设的,要求学生掌握随机过程的基本理论和及其研究方法。 (二)该课程的教学目标 (1)从生活中的需要出发,结合研究随机现象客观规律性的特点,并根据随机过程的内容和知识结构,着重从随机过程的基本理论和基本方法出发,就实际应用中的典型随机过程做应用研究,并在理论、观点和方法上予以总结、提高及应用。 (2)对各个章节的教学,随机过程侧重于基本思想和基本方法的探讨,介绍随机过程的基本概念,建立以分布函数等研究相关问题概率的实际应用思路,寻求解决统计和随机过程问题的方法。着重基本思想及方法的培养和应用。 (3)结合学生实际,利用生活中的实例进行分析,培养学生的辩证唯物主义观点。 二、教学进程安排
三、教学内容与要求 第一章预备知识 【教学目标】 通过本章的学习,复习并扩展概率论课程的内容,为学习随机过程打下良好的基础,提供必备的数学工具。 【教学内容和要求】 随机过程以概率论为其主要的基础知识,为此,本章主要对概率空间;随机 变量与分布函数;随机变量的数字特征、矩母函数与特征函数;独立性和条件期望;随机变量序列的收敛性与极限定理等常用到的概率论基本知识作简要的回顾和扩展。其中概率空间,矩母函数和特征函数的定义及性质、条件期望、收敛性、极限定理等既是本章的重点,又是本章的难点。 【课外阅读资料】 《应用随机过程》,林元烈编,清华大学出版社。 【作业】 0, x W0 1. 已知连续型随机变量X的分布函数为F(x) = *Aarcsinx, 0 北京工业大学2007-2008学年第一学期期末 数理统计与随机过程(研) 课程试题 学号 姓名 成绩 注意:试卷共七道大题,请将答案写在答题本上并写明题号与详细解题过程。 考试时间120分钟。考试日期:2008年1月10日 一、(10分)已知在正常生产的情况下某种汽车零件的重量(克)服从正态分布 ),(254σN ,在某日生产的零件中抽取10 件,测得重量如下: 54.0 55.1 53.8 54.2 52.1 54.2 55.0 55.8 55.1 55.3 问:该日生产的零件的平均重量是否正常(取显著性水平050.=α)? 二、 (15分)在数 14159263.=π的前800位小数中, 数字93210,,,,, 各出现的次数记录如下 检验这10个数字的出现是否是等概率的?(取显著性水平050.=α) 三、(15分)下表给出了在悬挂不同重量(单位:克)时弹簧的长度(单位:厘米) 求y 关于x 的一元线性回归方程,并进行显著性检验. 取显著性水平050.=α, 计算结果保留三位小数. 四、(15分)三个工厂生产某种型号的产品,为评比质量,分别从各厂生产的产品中随机抽取5只作为样品,测得其寿命(小时)如下: 在单因素试验方差分析模型下,检验各厂生产的产品的平均寿命有无显著差异?取显著性水平050.=α, 计算结果保留三位小数. 五、(15分)设}),({0≥t t N 是强度为3的泊松过程, 求(1)})(,)(,)({654321===N N N P ; (2)})(|)({4365==N N P ; (3)求协方差函数),(t s C N ,写出推导过程。 六、(15分)设{,}n X n T ∈是一个齐次马尔可夫链,其状态空间{0,1,2}I =,一步 转移概率矩阵为 121414201335250P ?? ? = ? ??? (1)求}|,,,,{202021054321======X X X X X X P ; (2)求}|{122==+n n X X P ; (3)证明此链具有遍历性(不必求其极限分布)。 七、(15分)设有随机过程 )sin()cos()(t B t A t X ππ+=,其中A 与B 相 互独立且都是均值为零,方差为2σ的正态随机变量, (1)分别求)(1X 和)(4 1 X 的一维概率密度; (2)问)(t X 是否是平稳随机过程? 标准答案(仅供参考) 一、(10分)已知在正常生产的情况下某种汽车零件的重量(克)服从正态分布 ),(254σN ,在某日生产的零件中抽取10 件,测得重量如下: 54.0 55.1 53.8 54.2 52.1 54.2 55.0 55.8 55.1 55.3 如果标准差不变,该日生产的零件的平均重量是否有显著差异(取05.0=α)? 解:按题意,要检验的假设是 54:0=μH ,因2σ未知,故用-t 检验法,由05.0=α,查t 分布表得临界 值2622290250.)(.=t ,由样本值算得 382514654.,.==t x 北京工业大学2009-20010学年第一学期期末数理统计与随机过程(研) 课程试卷一、随机抽取某班28名学生的英语考试成绩,算得平均分数为80=x 分,样本标准差8=s 分,若全年级的英语成绩服从正态分布,且平均成绩为85分,问:能否认为该班的英语成绩与全年级学生的英语平均成绩有显著差异(取显著性水平)?050.=α解:这是单个正态总体),(~2σμN X ,方差2σ未知时关于均值μ的假设检验问题,用T 检验法. 解 85:0=μH ,85:1≠μH 选统计量 n s x T /0μ-=已知80=x ,8=s ,n =28,850=μ,计算得n s x T /0μ-=31.328/88580=-=查t 分布表,05.0=α,自由度27,临界值.052.2)27(025.0=t 由于,故拒绝0H ,即在显著水平05.0=α下不能认为该班的英语 052.2>T 2622.2>成绩为85分.二、某图书馆每分钟借出的图书数有如下记录:借出图书数 k 0 1 2 3 4 5 6≥7频数 f 8 16 17 10 6 2 1 0试检验每分钟内借出的图书数是否服从泊松分布? (取显著性水平) 050.=α解:由极大似然估计得.2?==x λ在X 服从泊松分布的假设下,X 的所有可能的取值对应分成两两不相交的子集A 0, A 1,…, A 8。则有估计 }{k X P ==i p ? ,7,0,!2}{?2===-k k e k X P k =0?p 三、某公司在为期10年内的年利润表如下: 年份 1 2 3 4 5 6 7 8910利润 1.89 2.19 2.06 2.31 2.26 2.39 2.61 2.58 2.82 2.9 通过管线敷设技术,不仅可以解决有设备高中资料试卷相互作用与相互关系,根据生产工艺高中资料试卷要求,对电力保护装置调试技术,电力保护高中资料试卷配置技术是指机 1 [()()][()()]()E X t X s D X t X s t s λ-=-=- 由于(0)0X =故 ()[()][()(0)]X m t E X t E X t X t λ==-= 2()[()][()(0)]X t D X t D X t X t σλ==-= 2 2 22(,)[()()]{()[()()()]}[()(0)][()()][()][()(0)][()()][()]{[()]}()()(1) X R s t E X s X t E X s X t X s X s E X s X X t X s E X s E X s X E X t X s D X s E X s s t s s s st s s t λλλλλλλλ==-+=--+=--++=-++=+=+ (,)(,)()()X X X X B s t R s t m s m t s λ=-= ()()[]exp{(1)}iuX t iu X g u E e t e λ==- 2 定理3.2 设{(),0}X t t ≥是具有参数λ的泊松分布, {,1}n T n ≥是对应的时间间隔序列,则随机变量n T 是独立同 分布的均值为1λ的指数分布 Proof:注意到1{}T t >发生当且仅当泊松过程在区间[0,]t 内没有事件发生,因而1{}{()0}t P T t P X t e λ->=== 即111(){}1{}1t T F t P T t P T t e λ-=≤=->=- 所以1T 是服从均值为1λ的指数分布.利用泊松过程的独立、 平稳增量性质,有 21{|}{()()0}{()(0)0}t P T t T s P X t s X s P X t X e λ->==+-==-== 即222(){}1{}1t T F t P T t P T t e λ-=≤=->=- 对任意的1n ≥和121,,,...,0n t s s s -≥有 21111{|,...,}{()(0)0}t n n P T t T s T s P X t X e λ--->===-== 即(){}1n t T n F t P T t e λ-=≤=- 所以对任一n T 其分布是均值为1 λ的指数分布. 所以1,0 (){}0,0n t T n e t F t P T t t λ-?-≥=≤=? 概率密度为,0 ()0,0 n t T e t f t t λλ-?≥=? 3 设在[0,]t 内事件A 已经发生n 次,0s t <<,对于 0k n <<,求{()|()}P X s k X t n == 解:利用条件概率及泊松分布得 {(),()} {()|()}{()} {(),()()}{()}1k n k k n P X s k X t n P X s k X t n P X t n P X s k X t X s n k P X t n s s C t t -===== ==-=-==????=- ? ??? ?? 这是一个参数为n 和s t 的二项分布 4 对有s t <有 11(){,()1}{|()1}{()1} {()1,()()0}{()1} {()1}{()()0}{()1}s t s s P W s X t P W s X t P X t P X s X t X s P X t P X s P X t X s P X t se e s se t λλλλλ----≤=≤== ==-== ==-== === 即分布函数为 1|()10,0 (),01,W X t s F s s t s t s t =? =≤?≥? 分布密度为 1|()11,0()0,W X t t s t f s =≤=?? 其它 5 设()1 ()N t k k X t Y == ∑,0t ≥是复合泊松过程则 (1){(),0}X t t ≥是独立增量过程; (2)()X t 是特征函数()()exp{[()1]}X t Y g u t g u λ=-,其中 ()Y g u 是随机变量1Y 的特征函数; λ是事件的到达率; 3)若2 1()E Y <∞,则1[()][]E X t tE Y λ=,2 1[()][]D X t tE Y λ= Proof:1)令010...m t t t ≤<<<, 则1()1()1 ()()k k N t k k i i N t X t X t Y --=+-=∑ ,1,2,...,k m = 故()X t … 一、(10分)某工程部队的工程师向领导建议,他提出的一项新工艺在不降低工程质量和影响工程进度的同时,还将节省机器运转的开支。假如采用旧工艺时机器每星期运转开支平均是1000元,又假定新旧工艺机器每星期运转开支X 都是服从正态分布,且具有标准差250元。使用新工艺后观察了9个星期,其机器运转开支平均每星期是750元。试在01.0=α的水平下,检验工程师所述是否符合实际,即新工艺是否能节省开支。 (3554.3)8(005.0=t ,8965.2)8(01.0=t ,57.2005.0=u ,33.201.0=u ) 二、(12分)设母体 X 服从正态分布),(2σμN ,X 是子样),,,(21n X X X Λ的平均数, ∑=-=n i i n X X n S 1 2___ 2 )1(是子样方差,又设),(~21σμN X n +,且与n X X X ,,,21Λ独立,求: (1)X E ,X D ,2 n ES ,2n DS ;(2)统计量 1 1 1+--+n n S X X n n 的分布。 三、(13分)一个罐中装有黑球和白球,其中黑球、白球的个数均未知,如何用统计的方法估计其中黑球与白球的比例。(建立模型并给出两种估计方法) 四、(15分)以下为温度对某个化学过程的生产量的影响的数据: 已知 X 和Y 之间具有线性依赖关系。 (1)写出其线性回归模型,并估计参数βα,; (2)讨论回归系数的性质(分布)。 五、(10分)设有一随机过程)( t X ,它的样本函数为周期性的锯齿波。下图(a )、(b )画出了二个样本函数图。各样本函数具有同一形式的波形,其区别仅在于锯齿波的起点位置不同。设在0=t 后的第一个零值点位于0τ,0τ是一个随机变量,它在) , 0 ( T 内均匀分布,即 ?????≤≤=其它值 00 1 )( 0T t T t f τ 北京工业大学2009-20010学年第一学期期末 数理统计与随机过程(研) 课程试卷 学号 姓名 成绩 注意:试卷共七道大题,请写明详细解题过程。 考试方式:半开卷,考试时只允许看教材《概率论与数理统计》 浙江大学 盛 骤等编第三版(或第二版)高等教育出版社。可以看笔记、作业,但不允许看其它任何打印或复印的资料。考试时允许使用计算器。考试时间120分钟。考试日期:2009年12月31日 一、随机抽取某班28名学生的英语考试成绩,算得平均分数为80=x 分,样本标准差8=s 分,若全年级的英语成绩服从正态分布,且平均成绩为85分,问:能否认为该班的英语成绩与全年级学生的英语平均成绩有显著差异(取显著性水平050.=α)? 解:这是单个正态总体 ),(~2σμN X ,方差2σ未知时关于均值μ的假设检验问题,用T 检验法. 解 85:0=μH ,85:1≠μH 选统计量 n s x T /0 μ-= 已知80=x ,8=s ,n =28,850=μ, 计算得n s x T /0μ-= 31 .328/885 80=-= 查t 分布表,05.0=α,自由度27,临界值052.2)27(025.0=t . 由于052.2>T 2622.2>,故拒绝 0H ,即在显著水平05.0=α下不能认为 该班的英语成绩为85分. 050.= 解:由极大似然估计得.2?==x λ 在X 服从泊松分布的假设下,X 的所有可能的取值对应分成两两不相交的子集A 0, A 1,…, A 8。 则}{k X P =有估计 =i p ?ΛΛ,7,0, !2}{?2 ===-k k e k X P k =0?p 数理统计与随机过程复习资料第1章抽样与抽样分布 1. 设母体,是来自母体的一个子样,若 问C为何值时,CY服从t分布,并给出其自由度。 2. 设母体,是来自母体的一个容量为6的子样,设 ,求常数C,使CY服从分布。 3. 设是来自总体的简单样本,记为前个样本的均值和方差,试求 证:。 第2章参数估计 1. 设母体(二项分布),其中:N已知,p是未知参数。求p的最大似 然估计量。并确定所得估计量的无偏性和相合性。 2. 设母体(二项分布),求参数N,p的矩估计量。 3. 设为母体的一个子样,,当为何值时,Y为的无偏估计量且方差最 小。 4. 设为母体的一个子样,,当满足什么条件时,Y为的无偏估计量, 并求方差。 5. 设为母体的一个子样,求常数C,使为的无偏估计。 6. 设母体X的密度函数为 a与b为参数,求a与b的矩估计。 7. 设母体(正态分布),其中:和为参数。求和的最大似然估计量。 并确定所得估计量的无偏性;若是有偏,进行修正。 8.设母体X的分布密度为 ,其中,求参数的最大似然估计量。 9. 设母体(均匀分布),为参数,为母体的一个子样,,求参数的置 信概率的置信区间。 10. 设母体(正态分布),其中为未知参数,为母体的一个子样,求母 体平均数的置信概率为的置信区间。 11. 两台机床加工同一种零件,分别抽取6个和9个零件,测量其长度计 算得到.。假定各台机床零件长度服从正态分布。求两个母体方差比的置信区间(=0.95)。 12.设是取自总体的一个样本,总体X的密度函数为 (1)求的矩估计和极大似然估计; (2)的矩估计和极大似然估计是否为无偏的。 4.1(等待时间的和)设诚恳按照参数λ的Poisson 过程来到公交站,公交车于时刻t 发出,那么在],0[t 时间段内到达的乘客等待时间总和的期望应该如何计算那? 对于某一个乘客而言,假设其到达时间为k t ,那么他等待时间就是 k t t -所以乘客总的等待时间为∑=-=) (0)()(t N k k t t t S 使用条件期望来处理平均等待))(|)(())((n t N t E E t S E == 对于某已成了而言,其到达时刻k t 随机],0[t 内均匀分布的随机变量。但在车站上,乘客是先后到达次序排队,所以在n t N =)(的条件下, n t t t ,...,,21形成了独立均匀分布的顺序统计量。不过就他们的和n t t ++...1而言,可以那他们看着顺序统计量,也可以把他们看着不排顺序的n 各独立的],0[t 内均匀分布的随机变量,所以 2))((2)2)(())((2 2)())(|)((2 0t t N E t t t N E t E E nt nt nt t E nt n t N t E E n k k λ= ===- =-==∑=从而有 4.2(数值记录)设},{N n X n ∈是一独立同分布的非负期望随机变量序列。定义风险率)(t λ如下) (1) ()(t F t f t -= λ 这里)()(t F t f 和分别是k X 的概率密度分布和分布函数。定义随机过程 )(t N 如下}),,..,max(:{#)(01t X X X X n t N n n n ≤>=- 这里A #表示集合A 中的元素个数。如果把)(t N 中的时间t 看做时间,那么)(t N 是一个非齐次Poisson 过程。事实上,由于k X 彼此独立,所以)(t N 具有独立增量性。很明显0)0(=N ,于是只需要检查一个时间微元内)(t N 的状态。 注意: 这是第一稿(存在一些错误) 第七章数理统计习题__奇数.doc 1、解 由θ θθμθ 2 ),()(0 1===? d x xf X E ,204103)(2 221θθθ=-==X D v ,可得θ的矩估计量为X 2^ =θ,这时θθ==)(2)(^X E E ,n n X D D 5204)2()(2 2 ^ θθθ= ? ==。 3、解 由)1(2)1(2)1(2)(21θθθθμ-=-+-==X E ,得θ的矩估计量为: 3 2 62121^ =-=- =X θ。 建立关于θ的似然函数:482232)1(4)1())1(2()()(θθθθθθθ-=--=L 令014 8))1ln(4ln 8()(ln =--=?-+?=??θ θθθθθθL , 得到θ的极大似然估计值:32^=θ 5、解 由33)1(3)1(3)(222+-=-+-+=p p p p p p X E ,所以得到p 的矩估计量为 ^ 32p = = 建立关于p 的似然函数:32 10)1()2 )1(3()()2)1(( )(22n n n n p p p p p p p L ---= 令0)(ln =??p p L ,求得到θ的极大似然估计值:n n n n p 222 10^++= 7、解 (1)记}4{<=X P p ,由题意有}4{}4{}4{-≤-<=<=X P X P X P p 根据极大似然估计的不变性可得概率}4{<=X P p 的极大似然估计为: 4484.05.0)6 4 ()64( 5.0)25 /2444( )25 /2444( 22^ =-Φ=-Φ-=--Φ--Φ=s s p (2)由题意得:)6 24 ( )25 /244( }{}{105.012-Φ=-Φ=≤=>-=-A s A A X P A X P ,于是经查表可求得A 的极大似然估计为0588.12^ =A 第四章 假设检验 假设检验是一种重要应用价值的统计推断形式,是数理统计的分支。从发展历史上有重要的节点为 1 :Pearson 的拟合优度的2χ检验 1900 2:Fisher 的显著性检验 1920 3:Neyman-Pearson 一致最优检验 1928 4:Wald 的判决理论 1950 5:Bayes 方法 (二战之后发展的学派) §4.1 基本术语 关于随机变量的分布、数字特征等,每一种论断都称为统计假设,分为参数假设和非参数假设,例如),(~2σu N X ,假设1,1:==σu H 就称为参数假设;给定一组样本值,假设:H ~X 正态分布,对于分布进行论断,为非参数假设。 无论上面那种假设,都是给出一个对立的假设,比如),(~2σu N X ,那么假设1,1:0==σu H 的对立假设就是1,1:1≠≠σu H ,我们就把0H 称为基本假设,或者原假设,而1H 就称为对立(备选)假设。 为了分别那个假设是对的,需要判断假设真伪,就是对假设做出“否”还是“是”的程序就是检验,这个检验常用否定域形式给出,按照一定规则把样本值集合分成两个部分V V ?,当样本值落入子集V 认为0H 不真,那么V 是0H 的否定域,V 为0H 的接受域。 那么这样就产生了两种错误: 第一类错误α :本来0H 是真,但是却否定了,弃真; 第二类错误β :本来0H 不真,但是却接受为真,叫取伪。 选定一种检验方法,我们希望上述两种错误概率都小。但是给定样本容量,使得两种错误任意小是不可能的,我们主要研究两大类检验方法: 1:样本容量给定,控制第一类错误,使得错误概率有一个上界α,叫做检验的显著性水平,根据这种原则建立的检验就是α水平显著性检验; 2:样本容量给定,控制第一类错误α水平固定,还使得第二类错误最小,就是接受不真实假设的概率最小,否定不真实假设的概率就称为检验功效1-β,使得功效最大,,根据这种原则建立的检验就是α水平最大功效检验,或者最佳检验。 §4.2参数假设检验 设X 符合分布),(θx F ,未知参数θΘ∈参数空间,空间分成两部分0Θ和 Θ-0Θ,二者交集为空。 主要对于正态分布参数的统计假设的显著性检验方法。 1)针对不同问题,提出基本假设与备选假设 0H :θ0Θ∈ 1H :θ0Θ-Θ∈ 如果参数空间仅仅是由0θθ=和1θθ=两个点组成的,那么我们称简单假设,否则是复合假设。 2)给定检验的显著性水平α,其大小依据不同问题不同,比如火箭、飞机等可靠性问题,α要越小越好,对于一般生产问题,太小了则意味着生产时间和成本的增加; 3)建立对于基本假设的统计量和否定域; 4)取样,计算统计量值,落入否定域则判读0H 为假,否则为真。 例子:某种药片制剂中国家规定成分A 的含量X 必须为10%,现在抽取5个片剂试样,测得A 的含量为 10.9% 9.45% 10.38% 9.61% 9.92% 假设)%,10(~20σ=u N X ,按照显著性水平α=0.05进行检验是否与规定10%相符? 解:建立基本假设0H :0u u =,这里显著性水平α=0.05,样本容量为5,样本值如上。 如何确定统计量呢?样本均值X 可以求出,但是这里方差未知,用无偏估 计量* 2n S 来代替2σ,那么统计量 = t )1(~/* 20--n t n S u X n 应用随机过程学习汇总 ————————————————————————————————作者:————————————————————————————————日期: 应用随机过程学习总结 一、预备知识:概率论 随机过程属于概率论的动态部分,即随机变量随时间不断发展变化的过程,它以概率论作为主要的基础知识。 1、概率空间方面,主要掌握sigma代数和可测空间,在随机过程中由总体样本空间所构成的集合族。符号解释: sup表示上确界, inf表示下确界。 本帖隐藏的内容 2、数字特征、矩母函数与特征函数:随机变量完全由其概率分布来描述。其中由于概率分布较难确定,因此通常计算随机变量的数字特征来估算分布总体,而矩母函数和特征函数便用于随机变量的N阶矩计算,同时唯一的决定概率分布。 3、独立性和条件期望:独立随机变量和的分布通常由卷积来表示,对于同为分布函数的两个函数,卷积可以交换顺序,同时满足结合律和分配率。条件期望中,最重要的是理解并记忆E(X) = E[E(X|Y)] = intergral(E(X|Y=y))dFY(y)。 二、随机过程基本概念和类型 随机过程是概率空间上的一族随机变量。因为研究随机过程主要是研究其统计规律性,由Kolmogorov定理可知,随机过程的有限维分布族是随机过程概率特征的完整描述。同样,随机过程的有限维分布也通过某些数值特征来描述。 1、平稳过程,通常研究宽平稳过程:如果X(t1)和X(t2)的自协方差函数 r(t1,t2)=r(0,t-s)均成立,即随机过程X(t)的协方差函数r(t,s)只与时间差 t-s有关,r(t) = r(-t)记为宽平稳随机过程。 因为一条随机序列仅仅是随机过程的一次观察,那么遍历性问题便是希望将随即过程的均值和自协方差从这一条样本路径中估计出来,因此宽平稳序列只需满足其均值遍历性原理和协方差遍历性原理即可。 2、独立增量过程:若X[Tn]– X[T(n-1)]对任意n均相互独立,则称X(t)是独立增量过程。若独立增量过程的特征函数具有可乘性,则其必为平稳增量过程。 兼有独立增量和平稳增量的过程称为平稳独立增量过程,其均值函数一定是时间t的线性函数。 第三章多维随机变量及其概率分布 注意:这是第一稿(存在一些错误) 第三章概率论习题__奇数.doc 1、解互换球后,红球的总数是不变的,即有6X Y +=,X 的可能取值有:2,3,4,Y 的取值为:2,3,4。则(,)X Y 的联合分布律为: (2,2)(2,3)(3,2)(3,4)(4,3)(4,4)0 PX Y PX Y PX Y PX Y PX Y PX Y ==================236(2,4)(4,2)5525 P X Y P X Y ======?=223313(3,3)555525 P X Y ===?+?=由于6X Y +=,计算X 的边际分布律为: 6(2)(2,4)25 P X P X Y =====13(3)(3,3)25 P X P X Y =====6(4)(4,2)25 P X P X Y =====3、解利用分布律的性质,由题意,得 0.10.10.10.11 a b c ++++++=(0,2)(0,1)0.1{0|2)0.5(2)(1)0.1P Y X P Y X a P Y X P X P X a b ≤<≤=+≤<====<=++{1}0.5 P Y b c ==+=计算可得:0.2a c ==0.3 b =于是X 的边际分布律为: (1)0.10.6 P X a b ==++=(2)0.10.10.20.4 P X c c ==++=+=Y 的边际分布律为 (1)0.10.3P Y a =-=+=,(0)0.2 P Y ==(1)0.5 P Y b c ==+=5、解(1)每次抛硬币是正面的概率为0.5,且每次抛硬币是相互独立的。由题意知,X 的 《数理统计与随机过程讲义》 段法兵 复杂性科学研究所 第一章 概率论回顾 下面是数理统计部分需要的掌握的,许多推导的基础知识。 §1.1 几种分布的由来 指数分布:服务台电话呼叫时间,公交车到达一个车站时间,这些时间分布的符合指数分布。设)(t q 为区间t 上没有事件发生的概率,x 为第一次事件发生等待的时间,那么)()(t x P t q >=,假设不同时间区间1t ,2t 相互不重叠且独立,那么 )()()(2121t t x P t x P t x P +>=>> ?)()()(2121t t q t q t q += ?t e t q λ-=)(为非平凡(非零)有界解,这里λ为状态转移概率 那么我们有分布函数 t e t q t x P t x P t F λ--=-=>-=≤=1)(1)(1)()( 因此得到指数分布 ???≥==-other t e dt t dF t f t 0 0)()(λλ 两个指数分布之和的分布? y x z += 在x-y 的空间内,满足z y x ≤+的区域如上,那么z 的累计分布 Y {}? ?-=≤+=y z xy z dx y x f dy z y x P z F 0 ),()( 那么 ?-== z y x z dx x z f x f dz z dF z f 0)()() ()( 例如x 与y 为相互独立的指数分布,x x e x f λλ-=)(和y y e y f λλ-=)(分别为其概率分布函数,那么x z =+y 的分布为 z z x z x y x z e z dx e e y f x f z f λλλλλ---===?20)(*)()( z z x z x e z dx e e λλλλλ----==?20)(2, 0>z Gamma 分布:N 个指数分布的随机变量之和的分布为Gamma 分布。 例如x 与y 为相互独立的指数分布,x x e x f λλ-=)(和y y e y f λλ-=)(分别为其概率分布函数,那么x z =+y 的分布为 z z x z x y x z e z dx e e y f x f z f λλλλλ---===?20)(*)()( 如此卷积下去,N 个相互独立的指数分布相加的概率分布为Gamma 分布,其概率密度函数 ?? ???≥Γ=--other x e x x f x 00)()(/1β α αβα 这里参数0,>βα。Gamma 函数 ?∞ --=Γ01)(dx e x x αα。 性质1:利用分部积分法得到递推公式 )()1(αααΓ=+Γ, 当α为整数n 时,利用分部积分法得到 !)()1(n n n n =Γ=+Γ, 而非整数2/1=α,利用变量代换2/2y x =,得到 π=Γ)2/1(, 所以有 第一章 随机过程的基本概念 一、随机过程的定义 例1:医院登记新生儿性别,0表示男,1表示女,X n 表示第n 次登记的数字,得到一个序列X 1 , X 2 , ·,记为{X n ,n=1,2, ·},则X n 是随机变量,而{X n ,n=1,2, ·}是随机过程。 例2:在地震预报中,若每半年统计一次发生在某区域的地震的最大震级。令X n 表示第n 次统计所得的值,则X n 是随机变量。为了预测该区域未来地震的强度,我们就要研究随机过程{X n ,n=1,2, ·}的统计规律性。 例3:一个醉汉在路上行走,以概率p 前进一步,以概率1-p 后退一步(假设步长相同)。以X(t)记他t 时刻在路上的位置,则{X(t), t ≥0}就是(直线上的)随机游动。 例4:乘客到火车站买票,当所有售票窗口都在忙碌时,来到的乘客就要排队等候。乘客的到来和每个乘客所需的服务时间都是随机的,所以如果用X(t)表示t 时刻的队长,用Y(t)表示t 时刻到来的顾客所需等待的时间,则{X(t), t ∈T}和{Y(t), t ∈T}都是随机过程。 定义:设给定参数集合T ,若对每个t ∈T, X(t)是概率空间),,(P ?Ω上的随机变量,则称{X(t), t ∈T}为随机过程,其中T 为指标集或参数集。 E X t →Ω:)(ω,E 称为状态空间,即X(t)的所有可能状态构成的集合。 例1:E 为{0,1} 例2:E 为[0, 10] 例3:E 为},2,2,1,1,0{ -- 例4:E 都为), 0[∞+ 注:(1)根据状态空间E 的不同,过程可分为连续状态和离散状态,例1,例3为离散状态,其他为连续状态。 (2)参数集T 通常代表时间,当T 取R, R +, [a,b]时,称{X(t), t ∈T}为连续参数的随机过程;当T 取Z, Z +时,称{X(t), t ∈T}为离散参数的随机过程。 (3)例1为离散状态离散参数的随机过程,例2为连续状态离散参数的随机过程,例3为离散状态连续参数的随机过程,例4为连续状态连续参数的随机过程。 二、有限维分布与Kolmogorov 定理 随机过程的一维分布:})({),(x t X P x t F ≤= 随 机 过 程 的 二 维 分 布 : T t t x t X x t X P x x F t t ∈≤≤=21221121,,},)(,)({),(21 随机过程的n 维分布: T t t t x t X x t X x t X P x x x F n n n n t t t n ∈≤≤≤= ,,},)(,)(,)({),,(21221121,,21 1、有限维分布族:随机过程的所有一维分布,二维分布,…n 维分布等的全体 }1,,,),,,({2121,,21≥∈n T t t t x x x F n n t t t n 称为{X(t), t ∈T}的有限维分布族。 2、有限维分布族的性质: (1)对称性:对(1,2,…n )的任一排列),,(21n j j j ,有 ),,(),,(21,,,,21212 1 n t t t j j j t t t x x x F x x x F n n n j j j = (2)相容性:对于m 第一章 概率论的基本概念 注意: 这是第一稿(存在一些错误) 第一章概率论习题__偶数.doc 2、解 (1)AB BC AC 或ABC ABC ABC ABC ; (2)AB BC AC (提示:题目等价于A ,B ,C 至少有2个发生,与(1)相似); (3)ABC ABC ABC ; (4)A B C 或ABC ; (提示:A ,B ,C 至少有一个发生,或者A B C ,,不同时发生) ; 4、解 (1)因为A B ,不相容,所以A B ,至少有一发生的概率为: ()()()=0.3+0.6=0.9P A B P A P B =+ (2) A B , 都不发生的概率为: ()1()10.90.1P A B P A B =-=-=; (3)A 不发生同时B 发生可表示为:A B ,又因为A B ,不相容,于是 ()()0.6P A B P B ==; 6、解 设A ={“两次均为红球”},B ={“恰有1个红球”},C ={“第二次是红球”} 若是放回抽样,每次抽到红球的概率是: 810,抽不到红球的概率是:210,则 (1)88()0.641010 P A =?=; (2)88()210.321010 P B =??-=(); (3)由于每次抽样的样本空间一样,所以: 8()0.810 P C == 若是不放回抽样,则 (1)2821028()45 C P A C ==; (2)82210()45 P B C ==; (3)111187282104()5 A A A A P C A +==。 8、解 (1)设A ={“1红1黑1白”},则 1112323712()35 C C C P A C ==; (2)设B ={“全是黑球”},则 33371()35 C P B C ==; (3)设C ={第1次为红球,第2次为黑球,第3次为白球”},则 2322()7!35 P C ??==。 10、解 由已知条件可得出: ()1()10.60.4P B P B =-=-=; ()()()0.70.50.2P AB P A P AB =-=-=; ()()()()0.9P A B P A P B P AB =+-=; (1)(())()7(|==()()9P A A B P A P A A B P A B P A B =); (2)()()()0.40.20.2P AB P B P AB =-=-= ()(+()()0.5P A B P A P B P AB =-=) 于是 (())()2(|==5()()P A A B P AB P A A B P A B P A B =); (3)(())()2(|)()()9P AB A B P AB P AB A B P A B P A B ===。 12、解 设A ={该职工为女职工},B ={该职工在管理岗位},由题意知, ()0.45P A =,()0.1P B =,()0.05P AB = 所要求的概率为 应用随机过程学习总结 一、预备知识:概率论 随机过程属于概率论的动态部分,即随机变量随时间不断发展变化的过程,它以概率论作为主要的基础知识。 1、概率空间方面,主要掌握sigma代数和可测空间,在随机过程中由总体样本空间所构成的集合族。符号解释: sup表示上确界, inf表示下确界。 本帖隐藏的内容 2、数字特征、矩母函数与特征函数:随机变量完全由其概率分布来描述。其中由于概率分布较难确定,因此通常计算随机变量的数字特征来估算分布总体,而矩母函数和特征函数便用于随机变量的N阶矩计算,同时唯一的决定概率分布。 3、独立性和条件期望:独立随机变量和的分布通常由卷积来表示,对于同为分布函数的两个函数,卷积可以交换顺序,同时满足结合律和分配率。条件期望中,最重要的是理解并记忆E(X) = E[E(X|Y)] = intergral(E(X|Y=y))dFY(y)。 二、随机过程基本概念和类型 随机过程是概率空间上的一族随机变量。因为研究随机过程主要是研究其统计规律性,由Kolmogorov定理可知,随机过程的有限维分布族是随机过程概率特征的完整描述。同样,随机过程的有限维分布也通过某些数值特征来描述。 1、平稳过程,通常研究宽平稳过程:如果X(t1)和X(t2)的自协方差函数 r(t1,t2)=r(0,t-s)均成立,即随机过程X(t)的协方差函数r(t,s)只与时间差 t-s有关,r(t) = r(-t)记为宽平稳随机过程。 因为一条随机序列仅仅是随机过程的一次观察,那么遍历性问题便是希望将随即过程的均值和自协方差从这一条样本路径中估计出来,因此宽平稳序列只需满足其均值遍历性原理和协方差遍历性原理即可。 2、独立增量过程:若X[Tn]– X[T(n-1)]对任意n均相互独立,则称X(t)是独立增量过程。若独立增量过程的特征函数具有可乘性,则其必为平稳增量过程。 兼有独立增量和平稳增量的过程称为平稳独立增量过程,其均值函数一定是时间t的线性函数。 数理统计和随机过程考试试题 一、填空(1,2小题每空3分,3,4,5每空4分,共21分) 1. 设1 ,, X X X 是来自总体(0,1)X N 的简单随机样本,统计量 12()~()C X X t n +,则常数C = ,自由度n = . 2. 设),,,(21n X X X 是来自正态总体),(2σμN 的简单随机样本。记 ∑==n k k X n X 11,*2 21 1()1n k k S X X n ==--∑,则()(X S μ-服从 分布。 3. 已知平稳过程()X t 的功率谱密度为6 21()/()X k S k k ωω ==+∑,则(0)X R = 。 4.设随机过程()X t ,t T ∈,若 ,则称()X t 为弱平稳过程。 5.设()X t 为标准的Wiener 过程,则其相关函数12(,)X R t t = 。 二、假设总体的分布密度为 2222exp(), 0(;)00x x x f x x θθθ ?->?=??≤? 其中0θ>是未知参数,试求参数θ的极大似然估计量.(14分) 三、设112,, ,n X X X 是来自总体211~(,)X N μσ的一组样本,212,,,n Y Y Y 是来自总 体222~(,)Y N μσ的一组样本,两组样本独立.其样本方差分别为*2*212,S S ,且设221212 ,,,μμσσ均为未知. 欲检验假设22 012:H σσ=,22112:H σσ<,显著性水平α事先给定. 试构造适当检验统计量并给出拒绝域(临界点由分位点给出).(10分) 四、试求随机过程{()cos ,}X t A t t R ω=∈的一维分布函数、一维概率密度函数,自相关函数与协方差函数 ,其中A 服从标准正态分布(0,1).N (15分) 五、(1) 二阶矩过程()X t (01)t ≤<的自相关函数为2 1212 (,)1X R t t t t σ= -,其中完整word版,2007-2008第一学期数理统计与随机过程(研)试题-2007
【免费下载】第一学期数理统计与随机过程研试题答案
应用随机过程复习资料
数理统计与随机过程试题
学期数理统计与随机过程(研)试题(答案)
数理统计与随机过程复习题
随机过程及其应用-清华大学
浙江大学《概率论、数理统计与随机过程》课后习题答案张帼奋主编第七章数理统计习题__奇数
数理统计与随机过程讲义
应用随机过程学习汇总
浙江大学《概率论、数理统计与随机过程》课后习题答案张帼奋主编第三章概率论习题_奇数
《数理统计与随机过程讲义》
应用随机过程 期末复习资料
浙江大学《概率论、数理统计与随机过程》课后习题答案张帼奋主编第一章概率论习题__偶数题
(完整)应用随机过程学习总结(2),推荐文档
数理统计与随机过程 随机过程试题