二项分布 卡方检验1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

配对设计资料的一般形式
变量1 阳性 阴性 合计 变量2 阳性 a c a+c 阴性 b d b+d 合计 a+b c+d n
变量1的阳性率P1=(a+b)/n 变量2的阳性率P2 =(a+c)/n P1 - P2 =(a+b)/n-(a+ c)/n=(b-c)/n 两个变量阳性率的比较只和b、c有关,而与a、d无关
二项分布的均数与标准差
若X~B(n,π),则
– X的总体均数 µ=nπ – X的总体方差 σ2=nπ(1-π) – X的总体标准差 σ = nπ(1−π)
若以率表示
– 样本率p的总体均数 µp=π π (1 − π ) σp = – 样本率p的总体标准差 n – 当总体率未知时,以样本率p作为π的估计值, 则σp的估计用 p (1 − p )
2
χ2值的计算公式如下:
( A − T )2 χ 2= ∑ T
– 式中A代表实际频数,T代表理论频数。 – ν=(R-1)(C-1)
χ2 检验的基本思想
χ2检验实际上是将率或构成比的比较演绎为实际频 数与理论频数的比较,χ2值反映了实际频数和理论 频数吻合的程度。 如果H0 成立,则实际频数与理论频数之差一般不 会很大,则χ 2 值也会小,当χ 2<χ2 界值时,P>α, 则尚无理由拒绝它。 反之,若H0 不成立,实际频数与理论频数的差值 会大,则χ 2 值也会大,若χ 2≥χ2 界值,P≤α,则可 以认为实际频数与理论频数的差别已超出了抽样 误差允许的范围,有理由怀疑H0 的正确性,因而 拒绝它。
四格表资料的χ 四格表资料的χ2 检验
当n≥40,且T≥5 时,不需要进行校正。
( ad − bc ) 2 n (A − T )2 = χ =∑ T ( a + b )( c + d )( a + c )( b + d )
2
当 n≥40, 但有1≤T<5时,需对进行连续性校正。
χ =∑
2
( A − T − 0 .5 ) T
2
n 2 ) n 2 = ( a + b )( c + d )( a + c )( b + d ) ( ad − bc −
当n<40,或T<1时,应采用四格表精确概率法。
R×C表资料的χ2检验 × 表资料的χ 表资料的
R×C表资料的χ2检验可进行多个率及多组构 成比之间的比较、两个分类变量的关系分析。 四格表是R×C表中最简单的一种, χ 2 检验 的基本思想一致。 R×C表资料的χ2检验的计算公式: χ
2
四格表χ 四格表χ2检验的校正公式
χ2界值表是根据连续性的χ2分布计算出来的,但原 始数据是分类资料,不是连续的,由此计算的χ 2 值也是不连续的,它仅仅是连续性的χ2分布的一种 近似。 n≥40&T ≥ 5时,这种近似效果较好。 但在样本例数较少或出现理论频数小于5时,算出 的χ2值可能偏大,既求出的概率P值可能偏小,此 时须根据具体情况作不同的处理。
二项分布
二项分布的概念
二项分布是一种重要的离散型分布,也 称为伯努利分布,是用来描述二分类变 量得两种观察结果的出现规律的一种离 散型分布。 常用于总体率的估计和两样本率的比较 等。
二项分布的概率
设总体中的每一观察单位具有相互对立的一种 结果,如有效或无效、阴性或阳性。 已知发生某一结果(如阳性)的概率为π,此概 率对于每一个个体是相同的;其对立结果(阴 性)发生的概率为1-π,各单位的观察结果相互 独立,则从该总体中随机抽取n例,其中恰有X 例是某一结果(阳性)的概率为:
χ2 检验的自由度
χ2 值的大小,除决定于A与T的差值外,还 取决于格子数(自由度)的多少。 χ2检验的自由度是指在周边合计固定不变的 条件下,表内全部格子数据中可以自由取值 的格子数。 ν=(R-1)(C-1) 四格表只有两行两列,故其自由度为1。
四格表资料χ2 检验的专用公式 四格表资料χ
(A − T ) 2 χ =∑ = T (a + b)(a + c) (a + b)(b + d ) a− b− n n + + (a + b)(a + c) (a + b)(b + d ) n n (a + c)(c + d ) (b + d )(c + d ) c− d− n n + (a + c)(c + d ) (b + d )(c + d ) n n ( ad − bc) 2 n = (a + b )(c + d )(a + c )(b + d )
1 2
1
2
例:为研究某职业人群颈椎病患病率的性别差异,随 机抽查了该职业人群男性120人和女性110人,检查出 男性中有36人患有颈椎病,女性中有22人患有颈椎病, 试比较不同性别的颈椎病患病率的差异。
2检验 χ
(chi-square test)
.5 .4 ν=1
.3
.2
ν=3 ν=6
.1
ν=10
二项分布的图形
.4
.3
n=5 π=0.3
.2
.1
0.0 0 1 2 3 4 5
二项分布的图形
.2
n=20 π=0.3
.1
0.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
二项分布的应用
总体率的区间估计 样本率与总体率的比较 两个样本率的比较
总体率的区间估计
正态近似法:当n较大,且np和n(1-p)均大于5 时,可利用样本率p的分布近似正态分布的原 理估计总体率的1-α可信区间。 (P - uαSp , P + uα Sp) 查表法: n≤ 50
P( X ) = ( )π (1 − π )
n X X
n− X
X=0,1,2,…,n
Biblioteka Baidu
二项分布的应用条件
每次试验只会发生相互对立的两种结果之一, 如阳性或阴性,生存或死亡; 每次试验产生某种结果的概率固定不变,已 知发生某一结果(如阳性的概率为π,其对 立结果的概率则为1-π; 重复试验是相互独立的,即每次试验的观察 结果不会影响到其它试验的结果,也不会受 其它试验的结果的影响。
样本率和总体率的比较
正态近似法:当n较大,且np和n(1-p)均 大于5时,可利用样本率的分布近似正态 分布的原理。
u= p −π0
π 0 (1 − π 0 ) / n
直接概率法:
两样本率的比较
正态近似法:当n1、n2较大,且n1 p1、n1(1-p1)、 n2 p2、n2(1-p2)均大于5时,可利用样本率的分布近似正 态分布的原理。 X1 + X 2 X + X2 1 1 p1 − p 2 S p −p = (1 − 1 )( + ) u = n1 + n 2 n1 + n 2 n1 n 2 sP −P
sp = n
二项分布的图形
当 π≈0.5时,分布是对称的; 当π≠0.5 时,分布是偏的,特别是π≤1% 或 ≥99% 时分布非常偏, 但n增大时又趋于对称, 当n→∞时,只要π不太靠近0或1,则近似正态 分布。 一般来说当n足够大,nπ和n(1-π)均不小于5时, 常用正态分布原理来处理二项分布的问题。
– – – – 增大样本量: 增大样本量 采用精确概率法 合理合并 舍弃部分数据
配对设计资料的χ 配对设计资料的χ2检验
配对设计的计数资料特点:对同一样本的每 一对象分别用两种方法处理,观察其阳性或 阴性结果,调查或实验设计数据等。 配对设计的计数资料常用于:
– 比较两种处理方法的阳性率的差别等。 – 检验两种方法的结果的相关性。
χ
2
( A − T )2 = ∑ = n × (∑ T
A n
R
2 RC
n
− 1)
C
ν=(R-1)(C-1)
R×C表资料的χ2检验的注意事项 × 表资料的 表资料的χ
R×C表资料χ2检验中,如假设检验的结果拒绝H0, 只能认为各总体率或总体构成比不全相等,但不能 说明它们彼此之间都有差别,要解决这个问题必须 通过χ2分割进行率或构成比的多重比较。 对行×列表资料进行检验时,一般认为不能有1/5以 上的格子的理论频数小于5,也不能有任何一个格子 的理论频数小于1,否则很容易导致分析结果出现偏 性。如果出现这种情况,可采取以下解决方法:
配对设计资料的χ 配对设计资料的χ2检验
两种处理方法的阳性率比较
– 当b+c≥40时
χ2 =
(b −
ν=1
b+c 2 b+c 2 ) (c − ) (b − c )2 2 2 + = b+c b+c b+c 2 2
– 当b+c<40时,其理论分布具有偏性, 故须计算校正值。ν=1
χ2 =
( b − c − 1)
χ 2= ∑
( A − T − 0 .5 ) T
2
n 2 ) n 2 = ( a + b )( c + d )( a + c )( b + d ) ( ad − bc −
– 当n<40,或T<1时,应采用四格表精确概率法。
课堂练习
P82 2 P102 2 P168 1、2、3、5、6
0.0 0 5 10 15 20 25
2 χ
检验
χ2检验是一种用途非常广泛的以χ2分布 为理论依据的假设检验方法,主要用于:
– 两个或多个总体率或构成比的比较; – 两个分类变量之间的关联分析; – 频数分布资料的拟和优度检验等。
χ2 检验的基本思想
实际频数和理论频数差异的大小可以用χ 2 值的大 χ 小来说明,当样本量n和各个按检验假设计算的理 ( 值近 论频数T都足够大时,比如n≥40,T≥5, ∑ A−T) T 似于χ2分布,n越大,近似程度越好。 χ
b+c
2
配对设计资料的χ 配对设计资料的χ2检验
两种处理结果的关联性分析
– 当n≥40,且T≥5 时,不需要进行校正。
( ad − bc ) 2 n (A − T )2 = χ =∑ T ( a + b )( c + d )( a + c )( b + d )
2
– 当 n≥40, 但有1≤T<5时,需进行连续性校正。
相关文档
最新文档