第十三篇分类数据的假设检验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
理论
频数
66.12
119.02
107.12
64.27
28.92
10.41
3.12
0.80 0.18
4.14
0.04
400
P(X 0) 1.80e1.8 0! 0.1653
P(X 0) 1.80e1.8 0! 0.1653
29
分布的假设检验
检验统计量
2
7
(Oi
i 1
Ei )2 Ei
7.48
9:3:3:1成立的充要条件: 1)灰色:黑色 = 3:1 2)长翅:残翅 = 3:1 3)体色与翅型彼此独立(不连锁)
33
卡方检验的分解
检验1:
➢H0:灰色:黑色 = 3:1, HA:灰色:黑色 3:1
检验2:
➢H0:长翅:残翅 = 3:1, HA:长翅:残翅 3:1
34
卡方检验的分解
检验3:
➢将理论频数小于5的组合并 ➢计算卡方检验统计量 ➢统计推断(卡方检验统计量的自由度为 k-2-1)
32
卡方检验的分解
目的:进一步对有2个以上类别的分类资料的比 例分布偏离理论分布的现象做出解释
例:灰色长翅 灰色残翅 黑色长翅 黑色残翅 合计
175
42
38
25 280
经卡方检验,这个分布与9:3:3:1的理论比例有显著 差异
2
2
(b c)2
近似
~ (2 1)
bc

c2
(|
b
c | 1)2 bc
22
对分布类型的检验
对总体是否服从某种分布进行检验
检验统计量
2
k
(Oi
i 1
Ei Ei
)2
近似
~ (2 k c 1)
c:用样本资料估计的总体参数的个数
23
分布的假设检验
二项分布的假设检验
例:现有116窝窝产5头仔猪的资料如下,试利用该资料 检验窝产雄性仔猪数是否服从二项分布。
X- 阴性 照
a
b
射 阳性
c
d
问两种诊断方法有无差别
21
独立性检验
➢只有 b 和 c 能提供两种方法有无差别的信息
➢H0:两种方法无区别(Pb = Pc = 1/2) ➢检验统计量:
2
(Oi
Ei )2 Ei
[b 1 (b c)]2 2 1 (b c)
[c 1 (b c)]2
2 1 (b c)
两尾概率< 0.05 两种药物的治愈率差异显著 单侧检验(HA:A药的治愈率高于B药):
右尾概率 P( X 1) P(1) P(2) 0.02489
右尾概率<0.05 A药的治愈率显著高于B药 20
独立性检验
配对22列联表的检验
例4:用叩诊和X-照射对相同的病人进行肺结 核诊断,结果如下
叩诊 阴性 阳性
用于分类资料的概率分布的假设检验 检验统计量
2
(Oi
Ei Ei
)2
近似
~ 卡方分布
Oi :第 i 类别中的观察频数 Ei :第 i 类别中的理论频数(基于原假设计算) : 对所有类别求和
5
卡方检验
注意事项
➢卡方检验只是近似检验 ➢样本不能太小,每个类别中的理论频数不能小于5 ➢当卡方分布的自由度等于1时,最好对2统计量进
fi
3
54
720 1.8 400
4 5
30 13
6
2
H0: X ~ P(1.8)
7 8
1 0
9
1
合计
400
28
分布的假设检验
视野内的酵 视野频
母菌数(Xi) 数(fi)
0
75
1
103
2
121
3
54
4
30
5
13
6
2
7 8
1 0
4
9
1
合计
400
理论 概率
0.1653 0.2975 0.2678 0.1608 0.0723 0.0260 0.0078 0.0020 0.0005 0.0001
和 232.25 (=929-696.75)
2 (705 696 .75)2 (224 232 .25)2 0.3907
696 .75
232 .25

2 c
(| 705
696 .75 | 0.5)2 696 .75
(|
224
232 .25 | 0.5)2 232 .25
0.3448
02.05(1) 3.841
P(1)
P(8)
9! 9!11! 7! 18! 9! 0! 2! 7!
0.00113
P(3)
P(6)
9! 9!11! 7! 18! 7! 2! 4! 5!
0.14253
P(2)
P(7)
9! 9!11! 7! 18!8!1! 3! 6!
0.02376
9! 9!11! 7! P(4) P57) 18! 6! 3! 5! 4!
10
独立性检验
列联表(contingency table)
处理
类别
1 2 k
1
n11 n12
n1k
2
n21 n22
n2k
r
nr1 nr2
nrk
合计 C1 C2
Ck
合计
R1 R2
Rr G
检验在不同处理中不同类别的频率分布是否相同
不同类别的分布与处理无关(独立)
11
独立性检验
卡方检验
行连续性校正(尤其是在样本较小的情况下)
c2
(| Oi
Ei | Ei
0.5)2
6
适合性检验
检验不同类别出现的比例是否符合某个理论比 例
例1:Mendel在其豌豆杂交试验中得到以下结果:
P1: 红花 P2: 白花
F1: 红花
F2: 红花 705 白花 224 (3.15 : 1)
问F2中红花和白花植株出现的比例是否 符合3:1的理论比例。
02.05(7 11 5) 11.07
接受原假设,视野内的酵母菌数服从泊松分布
30
世界杯中的统计学
在2002年韩日世界杯的64场比赛中,各队每场进球
数大部分是0,1,2个,个别队是5个以上进球,最多的
是8个进球。强队大都能进球、赢球(如巴西队),弱队
大都不能进球,总是输(如中国队)。下面是每场各队进
窝产雄性仔猪数(Xi) 0
窝数(fi) 2
1
22
2
41
3 4 5 合计
35
14
4
116
24
分布的假设检验
H0: X ~ B(5, 0.5)
窝 产 雄 仔 窝数 理论概率
猪数(Xi)
(fi) C5k 0.5k 0.55k
理论 窝数
Hale Waihona Puke Baidu
合并
0 1
} } 2
22
0.03125 0.15625
3.625 18.125
21.135
2
41 0.3125 36.25 36.25
3
35 0.3125 36.25 36.25
4 5
} } 14
4
0.15625 0.03125
18.125 3.625
21.135
合计 116
1
116 116
P( X 0) C50 0.500.55 0.03125
P( X 1) C51 0.500.55 0.15625
………
25
分布的假设检验
检验统计量
2 4 (Oi Ei )2 1.52
i 1
Ei
2 0.05
(4
0
1
3)
13.81
接受原假设,窝产雄性仔猪数服从二项分布。
26
分布的假设检验
泊松分布的假设检验
➢泊松分布(Poisson distribution) • 稀有事件发生次数的概率分布 • 二项分布的一种特殊形式 例:在某个人群中某个稀有疾病的发病个体数, 一个显微镜视野内观察到的细菌数
0.33258
18
独立性检验
0.35 0.3
0.25 0.2
概率 0.15 0.1 0.05 0 01234567 用A药的未痊愈数
19
独立性检验
3)检验统计量: X=用A药的未愈数=1
双侧检验(HA:两种药物的治愈率不等):
两尾概率 P(X 1) P(X 6) 2(P(1) P(2)) 0.04978
i1 j 1
Eij | 0.5)2 Eij
6.5266
02.05(1) 3.841 02.01(1) 6.64
新措施可显著提高仔猪白痢的治愈率 14
独立性检验
22列联表2统计量的简化计算
2 ( O11O22 O12O21 G / 2)2 G
R1R2C1C2 02.05(1) 3.841 02.01(1) 6.64
90 27 (1)
81 36 (2)
72 45 (3)
63 54 (4)
54 63
45 72
36 81
27 90
(5) (6) (7) (8)
17
独立性检验
2)计算在原假设(两种药物的治愈率相同)成立的条 件下每种排列出现的概率
P R1! R2!C1!C2! G! n11! n12! n21! n22!
➢H0:体色和翅型是独立的, HA:体色和翅型不独立
灰色 黑色 合计
长翅
175
38
213
残翅
42
25
67
合计
217
63
280
35
7
适合性检验
➢H0: 观察的频率分布与理论频率分布相符 HA: 观察的频率分布与理论频率分布不符
➢检验统计量
2
k
(Oi
i 1
Ei )2 Ei
近似
~ (2 k 1)
➢否定域: 2 2 (k 1)
=显著性水平
查附表4
8
适合性检验
例1
F2中红花和白花的理论频数分别为 696.75 (=929*3/4)
➢H0:不同类别的分布与处理无关 HA:不同类别的分布与处理有关
➢检验统计量
2
rk
i1 j 1
(Oij
Eij Eij
)2
近似
~ 2[(r 1() k 1)]
Eij G P(RiC j ) G P(Ri )P(C j )
G Ri C j RiC j
GG G
12
独立性检验
例2
理论频数
F2中红花和白花的频数分布符合3:1
9
独立性检验
检验分类资料的分布在两个或多个群体(处 理)中是否相同 例2 为检验某种新措施对仔猪白痢的治疗效 果是否优于传统措施,试验后得到以下数据
死亡 存活 合计 治愈率
新措施 132
传统措施 114
合计
246
18 150 88% 36 150 76% 54 300 82/%
• Y1 ± Y2 ~ 2 (n ± m) ➢2 分布为非对称分布,其分布曲线的形状由自由度
决定,自由度越大,分布越趋于对称(见教材 p.70, 图6.4) ➢当 n , 2 (n) N(n, 2n)
3
2 分布
与2 分布有关的表格
1. 附表3:2 分布上 侧分位数表
P(X 2 )
4
卡方检验
第十三章 分类资料的假设检验
卡方(2)检验
卡方分布 适合性检验 独立性检验 分布的假设检验
2 (chi-square)分布
定义
➢设随机变量X1, X2, , Xn彼此独立且都服从标准正 态分布 N(0, 1),则随机变量
Y
X
2 i
服从自由度为n的2分布,记为
Y ~ 2(n)
2
2 分布
性质
➢2 分布随机变量的取值范围为(0,) ➢若Y1 ~ 2 (n),Y2 ~ 2 (m),且相互独立,则
E11
R1C1 G
150 246 300
123
E12 R1 E11 150 123 27
E21 C1 E11 246 123 123 E22 R2 E21 150 123 27
13
独立性检验
检验统计量
2
2
2
(Oij
i1 j 1
Eij )2 Eij
7.3334

c2
2
2
(| Oij
球数(不包括点球):
每场各队进球数
场数
0
37
试检验每场各队进球数
1
47
是否服从泊松分布。
2
27
3
13
4
2
5
1
6
1 31
分布的假设检验
正态分布的假设检验
➢将样本资料分组并计算各组的观察频数 ➢计算样本平均数 和样本方差S2,作为总体均数
和总体方差的估计值
➢ H0: X ~ N(ˆ ,ˆ 2)
➢计算在原假设成立条件下随机变量在各组范围内取 值的概率和各组的理论频数
15
独立性检验
22列联表的Fisher精确检验
➢可用于小样本(理论频数小于5)的情形
例3:用A和B两种药物各治疗9个病人,结果如下 痊愈 未愈 合计
A药 B药 合计
8
19
3
69
11 7 18
问两种药物的疗效有无显著差别
16
独立性检验
➢检验步骤
1)在保持边际和不变时,列出2*2列联表的所有可 能排列
• 概率函数
P( X k) ke k!
X ~ P()
= 总体均数 = 总体方差
27
分布的假设检验
例:现有在不同显微镜视野内观察到的酵母菌数资料
如下,试利用该资料检验视野内的酵母菌数是否服从
泊松分布。
视野内的酵母菌数(Xi) 视野频数(fi)
0
75
ˆ X fi X i
1 2
103 121
相关文档
最新文档