中国医科大学研究生医学统计学第五讲计数资料与卡方检验2
医学统计学卡方检验讲课稿

第一页PPT:同学们好,我们今天来一起学习卡方检验的基本思想。
第二页PPT:我们看一个研究案例,某神经内科医师欲比较A、B两种药物治疗脑血栓病人的疗效,将病情轻重、病程相近且满足实验人选标准的200例脑血管栓塞患者随机分为两组,结果见表1。
问两药治疗近期有效率是否有差别?请同学们思考一个问题,结合已学的知识关于两个率的比较我们会使用什么方法呢,那我们继续带着这个问题进入到我们今天的课程学习。
第三页PPT:这节课需要掌握的理论知识有:1.X2检验的定义、主要用途2.X2分布、X2检验的基本思想(这是重点内容)以及应用完全随机设计的四格表X2检验方法是我们这节课的难点内容。
第四页PPT:离散型概率分布有二项分布和泊松分布基于二项分布的假设检验方法可以做两样本率比较的检验问题,条件是np、n(1-p)均大于5,可以做Z检验进行,也是解决我们的案例问题。
第五页PPT:在医学研究中,进行两组或多组样本的总体率(或构成比)之间的差别是否具有统计学意义,X2检验(chi-square test)是解决此类问题较为常用的统计方法,。
X2检验是英国统计学家K.Pearson提出的一种具有广泛用途的假设检验方法,常用于分类变量资料的统计推断。
第六页PPT:X2检验主要用于:1.推断两个及多个总体率或总体构成比之间有无差别2.两种属性或两个变量之间有无关联性3.频数分布的拟合优度检验4.百分率线性趋势检验第七页PPT:我们来继续看我们的案例,两药有效率的比较问题。
表中我们A 药、B药的有效和无效分别为99、5、75、21,我们可以用a.b.c.d 来表示,表中其余的数据是由abcd这4个数据推算出来,我们习惯将这种资料形式称为四格表。
为什么叫四个表因为它有效的就是四个格子。
a.b.c.d是我们实际观察所得到的频数,我们叫实际频数(actual frequency),用A表示。
根据我们的研究目的,我们要比较两个率是否有差别的问题。
医学统计学之卡方x2检验

举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
医学统计学课件-卡方检验

联合治疗 39 34.44 8 12.56 47 73.3 单纯治疗 57 61.56 27 22.44 84 73.3
合计
96
35
131 73.3
Trc
nr nc n
理论频数= 84 73.3%
χ2检验的基本思想(1)
通过构造A与T吻合程度的统计量来反 映两样本率的差别!
实际数A
39
8
57
27
污染率 (%)
甲
6
23
29
79.3
乙
30
14
44
31.8
丙
8
3
11
27.3
合计
44
40
84
47.6
理论数的计算
实际数A
6
23
29
30
14
44
8
3
11
44
40
84
(52.4%) (47.6%)
理论数T
15.2 13.8
23.0 21.0
5.8
5.2
T
nR
nC N
nR nC N
2值的计算
实际数A
χ2检验相关问题-应用条件
某矿石粉厂当生产一种矿石粉石时,在数天内即有 部分工人患职业性皮肤炎,在生产季节开始,随机 抽取15名车间工人穿上新防护服,其余仍穿原用的 防护服,生产进行一个月后,检查两组工人的皮肤 炎患病率,结果如表 ,问两组工人的皮肤炎患病 率有无差别?
χ2检验相关问题-应用条件
Total
When the variables are independent, the proportion in
both groups is close to the same size as the proportion
中国医科大学研究生医学统计学 第五讲 计数资料及卡方检验2

(四)注意资料的可比性 用以比较的资料应是同质的,除 了要比较的处理因素外,其它条件应 基本相同。对于不同时期、地区、条 件下的资料应注意是否齐同。
• (五)对比不同时期资料应注意客观 条件是否相同 例如,疾病报告制度完善和资料完整 的地区或年份,发病率可以“升高”; 居民因医疗普及,就诊机会增加,或诊 断技术提高,也会引起发病率“升高” 。因此在分析讨论时,应根据各方面情 形全面考虑,慎重对待。
2 ( A T ) 2 RC RC TRC
=
[b- (b+c)/2]2
+
[c- (b+c)/2]2
(b+c)/2 [(c- b)/2]2 (b+c)/2
(b+c)/2
= [ (b-c)/2]2 +
(b+c)/2
= (b-c)2/2
(b+c)/2
(b c) 2 bc
H0:总体B = C H1:总体B≠C α= 0.05 b + c = 12 + 2 = 14 < 40。
本资料若不校正时,X2=4.35,P<0.05,结 论与之相反。
最小理论频数TRC的判断: R行与C列中,行合计数中的最小 值与列合计数中的最小值所对应
格子的理论频数最小。
如本例,第2行与第2列所对应的格子 理论频数最小(4.67)。
第二节 配对设计的四格表资料的χ2检验
(一)配对四格表形式 B 甲种属性 + 合计 A乙种属性 + 合计 a b a+b c d c+d a+c b+d n=a+b+c+d
无效 b d b+d
第五章计数资料组间比较的假设检验—卡方)检验(chi-

2 ( b c 1)2 (12 3 1)2 4.27, 1
bc
12 3
• 4.确定自由度(ν)和 χ2值 的概率P
• ν=(行数-1)(列数-)
• 本例:ν=(2-1)(2-1)=1
2 0.05,1
3.84
• 本例χ2=4.27>3.84,P<0.05
• 5.结论:在α=0.05水准,拒绝H0,认为两剂 量的死亡率不同,甲剂量的死亡率 (18/39=46.2%)高于乙剂量死亡率 (9/39=23.1%)。
• ν=(行数-1)(列数-)=(R-1)(C-1) • 本例:ν=(2-1)(2-1)=1
•
2 与
2
0.05,
比较
2
4.84
2 0.05,1
3.84, P0.05
• 5.结论:在=0.05水准上拒绝H0, 两总体率差别有统计的显著性,即
两组总体率不同,用苯乙双胍组的
病死率高于安慰剂组。
两组率相等的理论数与实际数
2
2
( A T 0.5)
T
2 ( ad bc N / 2)2 N
(a b)(a c)(c d)(b d)
公式5-9 公式5-10
表5-2 两零售点猪肉带菌率的比较
• 组别 阳性数 阴性数 合计 带菌率%
• 甲 2(4.67) 26(23.33) 28 7.14
• 乙 5(2.33) 9(11.67) 14 35.71
• 合计 7
35
42 16.67
• 校正公式
2 ( 29 265 42 / 2)2 42 3.62
(28) (14) (7) (35)
• 不校正X2=5.49 p<0.05
P> 0.05 .
中国医科大学医学统计学 卡方检验

四格表专用公式
2
(ad bc) n
2
(a b)(c d )( a c)(b d )
(4111 24 4) 80
2
本例
2
45 35 65 15
6.565
校正公式
当n≥40时,如果有某个格子出现 1T<5
2
( A T 0.5) T
1) 7.584
自由度 = (3-1)(2-1) = 2 20.025(2)=7.38,P<0.025,拒绝H0 可以认为三种剂量镇痛有效的总体概率有差别。 三个都不同? 哪两个间不同?
第二节 配对设计下两组频数分布的2检验
例 设有28份咽喉涂抹标本,把每份标本一分为二, 依同样的条件分别接种于甲、乙两种白喉杆菌培养基上, 观察白喉杆菌的生长情况,结果如表7-10,问两种培养基 上白喉杆菌的生长概率有无差别?
2
或其等价的形式
2
(| ad bc | n / 2) n
2
(a b)(c d )( a c)(b d )
例 将病情相似的淋巴系肿瘤患者随机分成两组,分别 做单纯化疗与复合化疗,两组的缓解率见表7-4,问两 疗法的总体缓解率是否不同?
属性 组别 缓解 单纯化疗 复合化疗 合计 2 ( 4.8) 14 (11.2) 16 未缓解 10 ( 7.2) 14 (16.8) 24 12 (固定值) 28 (固定值) 40 16.7 50.0 40.0 合计 缓解率 (%)
第十一章 2检验
第一节 独立样本列联表资料的2检验
例11.1
疗效 组别 有效 甲药 乙药 合计 27 40 67 无效 18 5 23 45(60.00%) 45(88.89%) 90(74.44) 合计
《卡方检验》课件

制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。
医用统计学-卡方检验2

220(c+d) 400(a+b+c+d)
2
a
ad bc 2 n b c d a c b
d
χ2=21.65 P<0.05
1
14
2×2表χ2值的连续性校正:
➢ 当n≥40,且T≥5时,不需进行连续性校正(使用基本 公式或专用公式);
➢ 当n≥40,但1≤T<5时,需进行连续性校正;
2
合计 138
正常体重 48(43.3) 42(37.8) 21(18.9)
111
合计
78(31.3) 78(31.3) 93(37.4)
249
24
1.建立检验假设,确定检验水准 H0:两组人群的体育运动习惯的总体构成比相同 H1:两组人群的体育运动习惯的总体构成比不相同 α=0.05 2.选择公式,计算检验统计量
0.5 0.4
f (x2 ) 0.3
v 1
0.2
v6
0.1
0.05 v 10
0 024
3.84
6 8 10 12 14 16
x2
χ2分布规律: 自由度一定时,χ2值越大, P值越小。 当P值一定时,自由度越大,χ2越大。
=1时, χ2 =3.84, P=0.05 χ2 =6.63, P=0.01
根据 =1查2界值表,得P<0.05,按=0.05 的检验水准,拒绝H0,接受H1,提示两种药 物治愈率有差别。
专用公式法:
表8-1 两组流感患者不同疗法治愈率的比较
组别 治愈人数 未治愈人数
合计
中药 144(a)
36(b)
180(a+b)
西药 128(c) 合计 272(a+c)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表7-1内只有4个数
是该表的
基本数据,其余数据都是由这4
个基本数据推算出来的,称为
(四)注意资料的可比性 用以比较的资料应是同质的,除 了要比较的处理因素外,其它条件应 基本相同。对于不同时期、地区、条 件下的资料应注意是否齐同。
• (五)对比不同时期资料应注意客观 条件是否相同 例如,疾病报告制度完善和资料完整 的地区或年份,发病率可以“升高”; 居民因医疗普及,就诊机会增加,或诊 断技术提高,也会引起发病率“升高” 。因此在分析讨论时,应根据各方面情 形全面考虑,慎重对待。
(三)正确计算合计率
不能简单地由各组率相加或平均而得, 而应用合计的有关实际数字进行计算。 例如用某疗法治疗肝炎,甲医院治疗150 人,治愈 30 人,治愈率为 20 %;乙医院 治疗100人,治愈30人,治愈率为30%。 两个医院合计治愈率应该是 [(30+30) / (150+100)]×100 % =24 % 。 若 算 为 20 % +30 %。 50 %或 (20 % +30 % ) / 2=25 %, 则是错的。
表7-1 两组降低颅内压有效率的比较
p1=a/(a+b)=99/104 p2=c/(c+d)=75/96 pc=(a+c)/n=174/200
TRC n R nC n
H0:π1=π2
=pc= (a+c)/n
T11=(a+b)(a+c)/n=(a+b) pc =104×174/200
T21= (c+d)(a+c)/n=(c+d) pc
(六)样本率(或构成比)的抽样误差 不能仅凭数字表面相差大小下结 论,而应进行样本率 ( 或构成比 ) 差别 的假设检验。
2 χ 检验
χ2检验在分类资料中的应用:
( 1) 推断两个(或多个)总体率或构成比 之间有无差别 (2)多个样本率间多重比较 (3)两个分类变量之间有无关联性 (4)多维列联表的分析 (5)频数分布拟合优度的χ2检验
常用的相对数指标有比、比例和率三种。 1.两个有关指标之比称为比(ratio),或称相 对比; 2. 当比的分子是分母的一部分时,称为比 例(proportion),或称结构相对数。
3. 当比例与时间有关系称为率(rate),或 称为强度相对数。
第一节 常用相对数 一、率(强度相对数 ) 率( rate )是表示某种现象发生的 频率和强度,常以百分率(%),千分 率(‰),万分率(1/万),十万分率 (1/10万)等表示,计算公式为:
第一节
2 四格表资料的χ 检验
• χ2检验的基本思想:是检验实际 频数和理论频数的差别是否由抽样 误差所引起的。
一、χ2检验的统计量基本公式为:
2
( ARC TRC ) TRC
2
应用条件:n≥40,且T ≥ 5, 其中
TRC
n R nC n
处理 A B 合计
有效 a c a+c
应用相对数的注意事项
(一)结构相对数不能代替强度相对 数 构成比只能说明某事物内部各 组成部分的比重和分布,不能说明 这事物某一部分发生的强度与频率 。
(二) 计算相对数应有足够数量 分母过小时相对数不稳定。在观 察例数较小时,直接用绝对数表示 。如“5例中4例有效”,而不要写 有效率为80%,以免引起误解。
特点: (1)同一事物的各个组成部分的 构成比之和应为100%。 (2)事物内部各组成部分之间呈 此消彼长的关系。
三、相对比
相对比(ratio),是两个有关的指标之 比,用以描述两者的对比水平。两个指标 可以是绝对数、相对数或平均数;可以 性质相同,也可以性质不同。
甲指标 相对比 乙指标
第二节
率 某事物或现象发生的实 际数 比例基数 某事物或现象发生的所 有可能数
例1 • 某企业2003年有2839名职工,该企业 每年都对职工进行体检,这一年新发 生高血压患者5例,高血压发病率为: 5/2839×1000‰=1.76‰。 比例基数的选择 主要依据习惯用法或使计算结果保留 一位或二位整数,以便阅读。
第五讲 分类资料的统计描述与χ2检验
• 计数资料常见的数据形式是绝对数,如 某病的出院人数、治愈人数、死亡人数 等。 绝对数:只能表示某事物在某时、某地 发生的实际水平。 相对数:便于相互比较与分析。
例:甲、乙两地麻疹流行,
甲地发病300人 绝对数 乙地发病250人 甲>乙 但不能据此确定甲地麻疹流行较为严重,需考 虑易感人数。若甲地易感人数3000人 乙地易感人数1000人 则甲地麻疹发病率=300/3000=10% 乙地麻疹发病率=250/1000=25% 相对数 乙>甲
表1 常用χ2值界值表
2 0.05(1)
3.84 3.84 u
2 0.05 / 2
2 0.05,1
1.96
2
χ2分布的参数:自由度。其计算
公式为: ν=(行数-1)(列数-1) =(R-1)(C-1)
例7-1 某院欲比较异梨醇口服液(试验组) 和氢氯噻嗪+地塞米松(对照组)降低颅 内压的疗效。将200例颅内压增高症患 者随机分为两组,结果见表7-1。问两 组降低颅内压的总体有效率有无差别?
无效 b d b+d
合计 a+b c+d n= a+b+c+d
n1. n.1 (a c ) T11 (a b) n n
• 表7-1两组降低颅内压有效率的比较
χ2 值的含义: 反映了实际频数与理论 频数的吻合程度。 χ2值理论上是非负值。(即χ2≥0) χ2检验判别准则: 若 χ2<χ20.05(ν) , 则 P>0.05, 不拒绝无 效假设H0; 若 χ2≥χ20.05(ν) , 则 P<0.05, 拒绝无效假 设H0,接受H1 。
二、构成比(结构相对数 )
构成比(Constituent ratio)表示事物内 部各个组成部分所占整体的比重,通常以 100%为比例基数,以百分比表示,计算公 式如下 :
构成比 某事物内部某一组成部分观察单位数 100% 同一事物各组成部分的观察单位总数
• 例2 某医院1990年和1998年住院病人 死于五种疾病的人数见下表。