卡方检验1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

χ2 检验的基本思想

理论频数:
T RC nR nC = n
– TRC:第R行、C列格子的理论频数; – nR:第R行的合计数; – nC:第C列的合计数; – n:总例数。

实际频数:表内各格数字为实际资料的数字。
χ2 检验的基本思想

实际频数和理论频数差异的大小可以用χ2值的大 小来说明,当样本量n和各个按检验假设计算的理 (A−T) 值 论频数T都足够大时,比如n≥40,T≥5, ∑ T 2 近似于χ 分布,n越大,近似程度越好。
2

Pearson χ2值的计算公式如下:
( O − T )2 χ =∑ T
2
– 式中O代表实际频数,T代表理论频数。 – ν=(R-1)(C-1)
χ2 检验的基本思想

χ2检验是将率或构成比的比较演绎为实际频数与理论频 数的比较,χ2值反映了实际频数和理论频数吻合的程度 。理论频数与实际频数的差异越大时χ2值也越大。 如果H0成立,则实际频数与理论频数之差一般不会很 大,χ2值也会小,当χ2<χ2界值时,P>α,则尚无理由 拒绝它。 反之,若H0不成立,实际频数与理论频数的差值会大 ,则χ2值也会大,若χ2≥χ2界值,则P≤α,可以认为 实际频数与理论频数的差别已超出了抽样误差允许的 范围,有理由怀疑H0的正确性,因而拒绝它。

结论:P<0.05 ,拒绝H0 ,接受H1 ,使用丹参可以降 低死亡率。
四格表资料的χ2检验

H0:π1=π2 (用不用丹参死亡率相同) H1:π1≠π2 T22=17×42/240=2.975<5,n>40,应进行校正
(187 × 6 − 36 × 11 − 240 / 2) 2 × 240 χ = = 2.796 223 × 17 × 198 × 42
χ2 检验的基本思想

两个样本的不良反应率不相同时,可能有两 种可能原因:
– 抽样误差所致; – 两个样本所在总体的不良反应发生率确有所不 同。

检验假设H0:假设这两种注射方式的不良反 应发生率本无不同,差别仅是抽样误差所致 。
χ2 检验的基本思想

如果H0成立,则: π1=π2=57/202=28.22%
χ2分布

χ2分布是由u分布衍生出来的一种连续型分布 。如果ν个相互独立的变量ui~N(0,1), 则变量χ2服从自由度的ν的χ2分布。
2 χ 2 = u12 + u2 + " + uν2

χ2分布的概率密度函数为:
f (χ ) =
2
1
2Γ(ν / 2) 2
(
χ2
)
(ν /2−1)
e
− χ 2 /2
2 χ 检验
(chi-square test)
.5 .4 ν=1
.3
.2
Biblioteka Baidu
ν=3 ν=6
.1
ν=10
0.0 0 5 10 15 20 25
主要内容
χ2分布
– 了解χ2分布曲线
四格表资料的χ2检验
– 掌握应用条件、基本思想和检验过程
配对设计资料的χ2检验
– 掌握应用条件、基本思想和检验过程


χ2 检验的自由度


χ2值的大小,除决定于O与T的差值外,还 取决于格子数(自由度)的多少。 χ2检验的自由度是指在周边合计固定不变的 条件下,表内全部格子数据中可以自由取值 的格子数。 ν=(R-1)(C-1) 四格表只有两行两列,故其自由度为1。
四格表资料χ2 检验的专用公式
(O − T ) 2 = χ =∑ T
四格表资料的χ2检验
手术时间长短对患者切口是否感染无 影响,即两种手术时间所对应的切口感 染率相等 H1:手术时间长短对患者切口是否感染 有影响 α=0.05
H0 :
四格表资料的χ2检验

n=305>40,但T21 = 4.131<5 ,说明此资 料需运用校正公式计算检验统计量χ2值

四格表资料的χ2 检验

当n≥40,且T≥5 时,不需要进行校正。
( O − T )2 (ad − bc)2 n χ =∑ = T ( a + b )( c + d )( a + c )( b + d )
2

当 n≥40, 但有1≤T<5时,需对进行连续性校正。
n 2 ) n ( O − T − 0 .5) 2 2 = χ =∑ ( a + b )( c + d )( a + c )( b + d ) T

Fisher精确概率检验
基本思想:
– 在周边合计不变的情况下,四格表的实际频 数a、b、c、d可有多种组合, – 先求出所有组合四格表的概率,各种组合对 应的概率可用超几何分布公式计算, – 然后将所有小于等于原样本四格表概率的所 有四格表概率值相加,得到双侧检验P值。
超几何分布

在产品质量的不放回抽检中,若N件产品中有 M件次品,抽检n件时所得次品数X=k,则
χ2检验是一种用途非常广泛的以χ2分布为
理论依据的假设检验方法,主要用于:
– 两个或多个总体率或构成比的比较; – 两个分类变量之间的关联分析; – 频数分布资料的拟和优度检验等。
四格表资料的χ2 检验
四格表资料的一般形式
属性A B1 A1 A2 合计 a c a+c 属性 B 合计 B2 b d b+d a+b c+d n
(a + b )! (c + d )!
Fisher精确概率检验

例:某医生用新旧两种药物治疗某病患者27 人,治疗结果见下表,问两药的疗效有无差 别?
组别 旧药 新药 合计 治愈数 未愈数 合计 2 3 5 14 8 22 16 11 27 治愈率(%) 12.5 27.3 18.5
Fisher精确概率检验
χ2 检验的基本思想

例:某研究人员对202例暴露于狂犬病的孕妇实施 狂犬疫苗接种治疗,观察病人的不良反应发生情况 。该研究人员采用了肌肉注射和皮下注射两种给药 方式,试问不同给药方式的病人不良反应发生率是 否不同?
分组 肌肉注射 皮下注射 合计 发热及肌肉疼痛 有 35(a) 22(c) 57(a+c) 无 74(b) 71(d) 145(b+d) 合计 109(a+b) 93(c+d) 202(n) 发生率 32.11 23.66 28.22
2
( ad − bc −

当n<40,或T<1时,应采用Fisher精确概率检验。
四格表资料的χ2检验

例9-2:某医院为了探索导致手术切口感染 的原因,怀疑手术时间长短可能是一个危险 因素。于是,收集了305例手术患者的情况 列于下表,问手术时间长短对患者切口是否 感染有无影响?
手术时间(h) ≤5 >5 合计 感染情况 感染 13 7 20 未感染 229 56 285 合计 242 63 305

本例n=27<40,故可用Fisher精确概率检验。周 边合计中最小数为5,故共计可获得5+1=6种组 合的四格表。
0 5 16 6 1 4 15 7 2 3 14 8 3 2 13 9 4 1 12 10 5 0 11 11
Fisher精确概率检验

计算每种组合下对应的概率Pi,本例为第三种 组合,概率为:

其中 Γ(ν / 2) 是伽马函数。
χ2分布曲线
χ2分布的形状依赖于自由度ν的大小,
当ν≤2时,曲线呈L型;随着ν的增加 ,曲线逐渐趋于对称;当ν→∞时, χ2 分布趋向正态分布。
χ2分布曲线
.5 .4 ν=1
.3
.2
ν=3 ν=6
.1
ν=10
0.0 0 5 10 15 20 25
χ2 检验
生存 用丹参 未用丹参 合计 187 36 223 死亡 11 6 17 合计 198 42 240
四格表资料的χ2检验

H0:π1 =π2 (用不用丹参死亡率相同) H1:π1≠π2 α=0.05
2 ( 187 × 6 − 36 × 11 ) × 240 χ2 = = 4.0125 223 × 17 × 198 × 42
四格表χ2检验的校正公式

χ2界值表是根据连续性的χ2分布计算出来的,但原 始数据是分类资料,不是连续的,由此计算的χ2 值也是不连续的,它仅仅是连续性的χ2分布的一种 近似。 n≥40&T ≥5时,这种近似效果较好。 但在样本例数较少或出现理论频数小于5时,算出 的χ2值可能偏大,既求出的概率P值可能偏小,此 时须根据具体情况作不同的处理。
k n−k CM CN −M P( X = K ) = n CN

此时称随机变量X服从超几何分布( hypergeometric distribution)
超几何分布

超几何分布是统计一种离散概率分布。它描述 了由有限个物件中抽出n个物件,成功抽出指 定种类的物件的次数(不放回)。 超几何分布的模型是不放回抽样 超几何分布中的参数是M,N,n,超几何分布记 作X~H(n,M,N)。
2

P>0.05 不拒绝H0,两组死亡率差别无统计学意义, 即不能得出使用丹参注射液降低死亡率的结论。
Fisher精确概率检验

Fisher精确概率检验(Fisher’s exact test, Fisher’s exact probability test)是1934年由 R.A.Fisher提出的直接计算概率P值的方法。 常用于n<40,或理论频数T<1时两率的比较或 两二分类变量的关联性分析。
2 2
2
2
本例的χ2检验
H0:π1=π2,即两种给药方法的总体不
良反应发生率相同 H1:π1≠π2,即两种给药方法的总体不 良反应发生率不同 α=0.05
本例的χ2检验
(O −T )2 (35 − 30.76)2 (74 − 78.24)2 (22 − 26.24)2 (71− 66.76)2 = + + + = 1.771 χ =∑ T 30.76 78.24 26.24 66.76

Fisher精确概率检验
属性A A1 A2 合计

属性 B B1 a c a+c B2 b d b+d
合计 a+b c+d n
按超几何分布的原理,四格表的概率计算公式为:
a c ( Ca C a + b )!(c + d )!(a + c )!(b + d )! a b c d ! ! ! ! +b c + d P= = = a +c n ! Cn a!b!c!d !n! (a + c )!(b + d )!
2
χ
2
( ad − bc ) 2 n = (a + b )(c + d )(a + c )(b + d
)
ν =1
(35 × 71 − 74 × 22 ) 2 202 = = 1.771 109 × 93 × 57 × 145
查界值表,得P>0.05,按α=0.05水准,
不拒绝H0,尚不能认为两种不同给药方 法的不良反应发生率有差别。
2
(a + b)(a + c) ⎞ ⎛ (a + b)(b + d ) ⎞ ⎛ ⎜a − ⎟ ⎜b − ⎟ n n ⎝ ⎠ +⎝ ⎠ + (a + b)(a + c) (a + b)(b + d ) n n (a + c)(c + d ) ⎞ ⎛ (b + d )(c + d ) ⎞ ⎛ − − c d ⎜ ⎟ ⎜ ⎟ n n ⎝ ⎠ +⎝ ⎠ (a + c)(c + d ) (b + d )(c + d ) n n (ad − bc) 2 n = ( a + b )( c + d )( a + c )( b + d )
305 × (|13 × 56 − 229 × 7 | −305 / 2 ) 2 χ = = 1.832 242 × 63 × 20 × 285
2
df = 1

结论:P>0.05,按α=0.05 水准不拒绝H0 ,尚不能认为手术时间的长短是导致切口 感染的一个危险因素。
四格表资料的χ2检验

对240例心肌梗塞患者治疗24小时内的死亡情况进行 观察,198例用复方丹参注射液静滴治疗,死亡11例 ;42例未用复丹参注射液静滴治疗,死亡6例,问两 组病死率相差是否显著?
16!11!5!22! P3 = = 0.245262 2!14!3!8!27!
Fisher精确概率检验
0 5 16 6 1 4 15 7 2 3 14 8 3 2 13 9 4 1 12 10 5 0 11 11
• 肌肉注射组发生不良反应的理论人数为:
109×28.22%=30.76人 ;
• 肌肉注射组不发生不良反应的理论人数为:
109-30.76=78.24人;
• 皮下注射组发生不良反应的理论人数为 :
93×28.22%=26.24人 ;
• 皮下注射组不发生不良反应的理论人数为:
93-26.24=66.76人。
相关文档
最新文档