二项分布卡方检验1

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

配对设计资料的一般形式
变量1 阳性阴性合计变量2 阳性 a c a+c 阴性 b d b+d 合计 a+b c+d n
变量1的阳性率P1=（a+b）/n 变量2的阳性率P2 =（a+c）/n P1 - P2 =（a+b）/n-（a+ c）/n=（b-c）/n 两个变量阳性率的比较只和b、c有关，而与a、d无关
二项分布的均数与标准差
若X~B（n,π）,则
– X的总体均数 µ=nπ – X的总体方差 σ2=nπ(1-π) – X的总体标准差 σ = nπ(1−π)
若以率表示
– 样本率p的总体均数 µp=π π (1 − π ) σp = – 样本率p的总体标准差 n – 当总体率未知时，以样本率p作为π的估计值，则σp的估计用 p (1 − p )
2
χ2值的计算公式如下：
（ A − T )2 χ 2＝ ∑ T
– 式中A代表实际频数，T代表理论频数。 – ν=（R-1）（C-1)
χ2 检验的基本思想
χ2检验实际上是将率或构成比的比较演绎为实际频数与理论频数的比较，χ2值反映了实际频数和理论频数吻合的程度。如果H0 成立，则实际频数与理论频数之差一般不会很大，则χ 2 值也会小，当χ 2<χ2 界值时，P>α，则尚无理由拒绝它。反之，若H0 不成立，实际频数与理论频数的差值会大，则χ 2 值也会大，若χ 2≥χ2 界值，P≤α，则可以认为实际频数与理论频数的差别已超出了抽样误差允许的范围，有理由怀疑H0 的正确性，因而拒绝它。
四格表资料的χ 四格表资料的χ2 检验
当n≥40，且T≥5 时，不需要进行校正。
( ad − bc ) 2 n （A − T )2 = χ ＝∑ T ( a + b )( c + d )( a + c )( b + d )
2
当 n≥40, 但有1≤T<5时，需对进行连续性校正。
χ ＝∑
2
（ A − T − 0 .5 ) T
2
n 2 ) n 2 = ( a + b )( c + d )( a + c )( b + d ) ( ad − bc −
当n<40，或T<1时，应采用四格表精确概率法。
R×C表资料的χ2检验 × 表资料的χ 表资料的
R×C表资料的χ2检验可进行多个率及多组构成比之间的比较、两个分类变量的关系分析。四格表是R×C表中最简单的一种， χ 2 检验的基本思想一致。 R×C表资料的χ2检验的计算公式： χ
2
四格表χ 四格表χ2检验的校正公式
χ2界值表是根据连续性的χ2分布计算出来的，但原始数据是分类资料，不是连续的，由此计算的χ 2 值也是不连续的，它仅仅是连续性的χ2分布的一种近似。 n≥40&T ≥ 5时，这种近似效果较好。但在样本例数较少或出现理论频数小于5时，算出的χ2值可能偏大，既求出的概率P值可能偏小，此时须根据具体情况作不同的处理。
二项分布
二项分布的概念
二项分布是一种重要的离散型分布，也称为伯努利分布，是用来描述二分类变量得两种观察结果的出现规律的一种离散型分布。常用于总体率的估计和两样本率的比较等。
二项分布的概率
设总体中的每一观察单位具有相互对立的一种结果，如有效或无效、阴性或阳性。已知发生某一结果（如阳性）的概率为π，此概率对于每一个个体是相同的；其对立结果（阴性）发生的概率为1-π，各单位的观察结果相互独立，则从该总体中随机抽取n例，其中恰有X 例是某一结果（阳性）的概率为：
χ2 检验的自由度
χ2 值的大小，除决定于A与T的差值外，还取决于格子数（自由度）的多少。 χ2检验的自由度是指在周边合计固定不变的条件下，表内全部格子数据中可以自由取值的格子数。 ν=（R-1）（C-1）四格表只有两行两列，故其自由度为1。
四格表资料χ2 检验的专用公式四格表资料χ
（A − T ) 2 χ =∑ = T (a + b)(a + c) (a + b)(b + d ) a− b− n n + + (a + b)(a + c) (a + b)(b + d ) n n (a + c)(c + d ) (b + d )(c + d ) c− d− n n + (a + c)(c + d ) (b + d )(c + d ) n n ( ad − bc) 2 n = (a + b )(c + d )(a + c )(b + d )
1 2
1
2
例：为研究某职业人群颈椎病患病率的性别差异,随机抽查了该职业人群男性120人和女性110人,检查出男性中有36人患有颈椎病,女性中有22人患有颈椎病, 试比较不同性别的颈椎病患病率的差异。
2检验 χ
(chi-square test)
.5 .4 ν=1
.3
.2
ν=3 ν=6
.1
ν=10
二项分布的图形
.4
.3
n=5 π=0.3
.2
.1
0.0 0 1 2 3 4 5
二项分布的图形
.2
n=20 π=0.3
.1
0.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
二项分布的应用
总体率的区间估计样本率与总体率的比较两个样本率的比较
总体率的区间估计
正态近似法：当n较大，且np和n(1-p)均大于5 时，可利用样本率p的分布近似正态分布的原理估计总体率的1-α可信区间。 (P - uαSp , P + uα Sp) 查表法： n≤ 50
P( X ) = ( )π (1 − π )
n X X
n− X
X=0，1，2，…，n
Biblioteka Baidu
二项分布的应用条件
每次试验只会发生相互对立的两种结果之一，如阳性或阴性，生存或死亡；每次试验产生某种结果的概率固定不变，已知发生某一结果（如阳性的概率为π，其对立结果的概率则为1-π；重复试验是相互独立的，即每次试验的观察结果不会影响到其它试验的结果，也不会受其它试验的结果的影响。
样本率和总体率的比较
正态近似法：当n较大，且np和n(1-p)均大于5时，可利用样本率的分布近似正态分布的原理。
u= p −π0
π 0 (1 − π 0 ) / n
直接概率法：
两样本率的比较
正态近似法：当n1、n2较大，且n1 p1、n1(1-p1)、 n2 p2、n2(1-p2)均大于5时，可利用样本率的分布近似正态分布的原理。 X1 + X 2 X + X2 1 1 p1 − p 2 S p −p = (1 − 1 )( + ) u = n1 + n 2 n1 + n 2 n1 n 2 sP −P
sp = n
二项分布的图形
当 π≈0.5时，分布是对称的；当π≠0.5 时，分布是偏的，特别是π≤1% 或 ≥99% 时分布非常偏，但n增大时又趋于对称，当n→∞时，只要π不太靠近0或1，则近似正态分布。一般来说当n足够大，nπ和n(1-π)均不小于5时，常用正态分布原理来处理二项分布的问题。
– – – – 增大样本量：增大样本量采用精确概率法合理合并舍弃部分数据
配对设计资料的χ 配对设计资料的χ2检验
配对设计的计数资料特点：对同一样本的每一对象分别用两种方法处理，观察其阳性或阴性结果，调查或实验设计数据等。配对设计的计数资料常用于：
– 比较两种处理方法的阳性率的差别等。 – 检验两种方法的结果的相关性。
χ
2
（ A − T )2 ＝ ∑ ＝ n × (∑ T
A n
R
2 RC
n
− 1)
C
ν=（R-1）（C-1）
R×C表资料的χ2检验的注意事项 × 表资料的表资料的χ
R×C表资料χ2检验中，如假设检验的结果拒绝H0，只能认为各总体率或总体构成比不全相等，但不能说明它们彼此之间都有差别，要解决这个问题必须通过χ2分割进行率或构成比的多重比较。对行×列表资料进行检验时，一般认为不能有1/5以上的格子的理论频数小于5，也不能有任何一个格子的理论频数小于1，否则很容易导致分析结果出现偏性。如果出现这种情况，可采取以下解决方法：
配对设计资料的χ 配对设计资料的χ2检验
两种处理方法的阳性率比较
– 当b+c≥40时
χ2 =
(b −
ν=1
b+c 2 b+c 2 ) (c − ) (b − c )2 2 2 + = b+c b+c b+c 2 2
– 当b+c<40时，其理论分布具有偏性，故须计算校正值。ν=1
χ2 =
( b − c − 1)
χ 2＝ ∑
（ A − T − 0 .5 ) T
2
n 2 ) n 2 = ( a + b )( c + d )( a + c )( b + d ) ( ad − bc −
– 当n<40，或T<1时，应采用四格表精确概率法。
课堂练习
P82 2 P102 2 P168 1、2、3、5、6
0.0 0 5 10 15 20 25
2 χ
检验
χ2检验是一种用途非常广泛的以χ2分布为理论依据的假设检验方法，主要用于：
– 两个或多个总体率或构成比的比较； – 两个分类变量之间的关联分析； – 频数分布资料的拟和优度检验等。
χ2 检验的基本思想
实际频数和理论频数差异的大小可以用χ 2 值的大 χ 小来说明，当样本量n和各个按检验假设计算的理（值近论频数T都足够大时，比如n≥40，T≥5， ∑ A−T) T 似于χ2分布，n越大，近似程度越好。 χ
b+c
2
配对设计资料的χ 配对设计资料的χ2检验
两种处理结果的关联性分析
– 当n≥40，且T≥5 时，不需要进行校正。
( ad − bc ) 2 n （A − T )2 = χ ＝∑ T ( a + b )( c + d )( a + c )( b + d )
2
– 当 n≥40, 但有1≤T<5时，需进行连续性校正。

二项分布 卡方检验1

二项分布卡方检验1