第七章卡方检验春详解演示文稿
医学统计学卡方检验讲课稿

第一页PPT:同学们好,我们今天来一起学习卡方检验的基本思想。
第二页PPT:我们看一个研究案例,某神经内科医师欲比较A、B两种药物治疗脑血栓病人的疗效,将病情轻重、病程相近且满足实验人选标准的200例脑血管栓塞患者随机分为两组,结果见表1。
问两药治疗近期有效率是否有差别?请同学们思考一个问题,结合已学的知识关于两个率的比较我们会使用什么方法呢,那我们继续带着这个问题进入到我们今天的课程学习。
第三页PPT:这节课需要掌握的理论知识有:1.X2检验的定义、主要用途2.X2分布、X2检验的基本思想(这是重点内容)以及应用完全随机设计的四格表X2检验方法是我们这节课的难点内容。
第四页PPT:离散型概率分布有二项分布和泊松分布基于二项分布的假设检验方法可以做两样本率比较的检验问题,条件是np、n(1-p)均大于5,可以做Z检验进行,也是解决我们的案例问题。
第五页PPT:在医学研究中,进行两组或多组样本的总体率(或构成比)之间的差别是否具有统计学意义,X2检验(chi-square test)是解决此类问题较为常用的统计方法,。
X2检验是英国统计学家K.Pearson提出的一种具有广泛用途的假设检验方法,常用于分类变量资料的统计推断。
第六页PPT:X2检验主要用于:1.推断两个及多个总体率或总体构成比之间有无差别2.两种属性或两个变量之间有无关联性3.频数分布的拟合优度检验4.百分率线性趋势检验第七页PPT:我们来继续看我们的案例,两药有效率的比较问题。
表中我们A 药、B药的有效和无效分别为99、5、75、21,我们可以用a.b.c.d 来表示,表中其余的数据是由abcd这4个数据推算出来,我们习惯将这种资料形式称为四格表。
为什么叫四个表因为它有效的就是四个格子。
a.b.c.d是我们实际观察所得到的频数,我们叫实际频数(actual frequency),用A表示。
根据我们的研究目的,我们要比较两个率是否有差别的问题。
最新《卫生统计学》第七章 卡方检验(63P)-药学医学精品资料

Tb417 3 31 512.56
Tc814 3 91 661.56
Tc814 3 31 522 .4 . 4
2 (3 9 3.4 4 )2 4 (8 1.5 2 )2 6 (5 7 6.5 1 )2 6 (2 7 2.4 2 )2 4 3.4 44 1.5 26 6.5 16 2.4 24 3 .52
单纯治疗 61.56 22.44
84
73.3
合 计 96
35
131
73.3
T a 4 7 7.3 3 % 34.4T 4 b 4 2 7 .7 % 6 1 .5 2 . 6 T c 8 7 4 .3 % 3 6 1 .56T d 8 2 4 .7 % 6 2 2 .44
四格表的理论频数由下式求得 :
例7.2
表 1 131 例乳腺癌患者治疗后 5 年存活率的比较 处 理 存活数 死亡数 合计 存活率(%)
联合治疗
39
8 47
83.0
单纯治疗
57
27 84
67.9
合计
96
35 131
73.3
四格表(fourfold table)
➢ 表1 中间阴影部分的四个数据为基本数据,其余数据 均由此四个数据派生出来,故称此种资料为四格表 (fourfold table)资料。
➢ 多(R)个率的比较,其基本数据有R行2列,构成
R×2表,用以表述R个率的基本数据。R×2表的2
检验用于推断R个样本率各自所代表的总体率是否 相等。
多个样本率的比较的公式
2
(Ai Ti )2 Ti
2 n( A2 1)
nRnC
式中,A为第R行第C列对应的实际频数,nR为第R行的行合计,
《医学统计概论》第7章卡方检验Chi-square test

(3) 当n<40或有T<1时,用Fisher’s exact probability。
7.2 配对四格表资料的χ2检验
配对设计包括:(1)同一批样品用两种不同的处理方法;(2)观察 对象根据配对条件配成对子,同一对子内不同的个体分别接受不同的处理; (3)在病因和危险因素的研究中,将病人和对照按配对条件配成对子, 研究是否存在某种病因或危险因素。
表7-1 两组降低颅内压有效率的比较(P137)
组别
试验组 对照组 合计
有效
99 75 174
无效
5 21 26
合计
104 96 200
有效率(%)
95.20 (p1) 78.13 (p2) 87.00 (pc)
实际频数A (actual frequency) 理论频数T (theoretical frequency)
,
1
因为有一格1<T<5,且n>40时,所以应用连续性校
正χ2检验。
四、精确概率法(Fisher’s exact probability)
在无效假设成立的前提下且周边合计固定时,产生任意 一个四格表(i)的概率Pi 服从于超几何分布,其计算式为:
a b!c d !a c!b d !
Pi
a!b!c!d !n!
药物治疗组 164
18
182
外用膏药组 118
26
144
4.59
>0.0125 (NS)
合计
282
44
326
二、各实验组与同一对照组比 关键是检验水平的校正
'
2k 1
自学
7.6 双向有序分组资料的线性趋势检验
《卡方检验》课件

制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。
卡方检验 PPT

卡方检验基础
2值的计算:
2 (A E)2 E
由英国统计学家Karl Pearson首次提出,故被 称为Pearson 2 。
卡方检验基础-卡方分布
当n比较大时, 2 统计量近似服从k-1个自由度的2分布。
在自由度固定时,每个2值与一个概率值(P 值)相对应,
此概率值即为在H0成立的前提下,出现这样一个样本或偏
相关问题-两个率或构成比的比较
❖ 这是一个比较两个性别的 职位构成比是否相同的统计 学问题,要用Descriptive中 的Crosstabs实现,与单个率 的比较不同。
相关问题-两个率或构成比的比较
❖ 分别指定行列 变量到Row(s) 和Columns中。
相关问题-两个率或构成比的比较
相关问题-两个率或构成比的比较
离假设总体更远的样本的概率。如果P 值小于或等于显著
性水准,则拒绝H0,接受H1,即观察频数与期望频数不一
致。如果P 值大于显著性水准,则不拒绝H0,认为观察频 数与期望频数无显著性差异。P 值越小,说明H0假设正确 的可能性越小;P 值越大,说明H0假设正确的可能性越大。
卡方检验基础
利用单样本均值比较的t检验,可以检验样本所在总体
检验某个分类变量各类的出现概率是否等于指定概率 检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关 检验控制某种或某几种分类变量因素的作用之后,另两个分类变量 是否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关 检验两种方法的结果是否一致,如两种诊断方法对同一批人进行诊 断,其诊断结果是否一致
相关问题-两个率或构成比的比较
例2 某妇女联合会向工会提出质疑,认为该公司在对女 性员工的职位安排上存在歧视,因为该公司216名女性 雇员中,只有10人为经理,其余206名为办事员;而 258名男性雇员中,74名为经理。但是工会说,男女间 职位类别比例的差异,只是一个随机误差,并不是真 的存在性别歧视。哪种说法才是正确的呢?(数据见 employee data.sav)
医学统计学卡方检验详解演示文稿

第七十四页,共138页。
SPSS软件Biblioteka 作• 第1步:定义变量第七十五页,共138页。
• 第2步:输入 原始数据
第七十六页,共138页。
• 第3步:定义频数
• 选择数据→加权个案
• 频数→加权个案(频数 变量)
第七十七页,共138页。
• 第4步:x2检验(1)
• 选择分析→交叉表 • 交叉表对话框:组别和中医分型分别进入行和列
第六十五页,共138页。
• 第3步:定义频数 • 选择数据→加权个案 • 频数→加权个案(频数 变量)
第六十六页,共138页。
• 第4步:x2检验(1) • 选择分析→交叉表 • 交叉表对话框:组别和疗效分别进入行和列
第六十七页,共138页。
• 第4步:x2检验(2) • 选择统计
量按钮
• 在交叉表 :统计量
• 2)当n≥40,但有理论频数1≤理论值<5 时,用连续校正的卡方检验;或者确切概 率法。
• 3) n<40或有理论值<1,或P≈α时,用 确切概率法。
第四十九页,共138页。
【例4】某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV 的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非 预防组,结果见表。问两组新生儿的HBV总体感染率有无 差别?
• 第3步:定义频数 • 选择数据→加权个案
• 频数→加权个案(频数
变量)
第四十二页,共138页。
• 第4步:x2检验(1) • 选择分析→交叉表
• 交叉表对话框:组别和疗效分别进入行和列
第四十三页,共138页。
• 第4步:x2检验(2)
• 选择统计 量按钮
• 在交叉表
医学统计学课件卡方检验

队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
最新-11-09 第七章 卡方检验2课件ppt

第三节
四格表资料的Fisher确切概率法
条件:
理论依据:超几何分布
(非χ2 检验的范畴)
例7-4 某医师为研究乙肝免疫球蛋白 预防胎儿宫内HBV感染的效果,将33例 HBsAg阳性孕妇随机分为预防注射组和非预 防组,结果见表7-4。问两组新生儿的HBV 总体感染率有无差别?
一、基本思想
在四格表周边合计数固定不变的条件 下,计算表内4个实际频数变动时的各种组
二、检验步骤(本例n=33<40 )
H0:1=2,即两组新生儿HBV的总体感染率相等 H1:1≠2,即两组新生儿HBV的总体感染率不等
α =0.05 1.计算现有样本四格表的P*及各组合下四格表的Pi ,见表7-5。本例P*=0.08762728。
2.计算满足Pi≤P*条件的所有四格表的累计概率P。
病种
阳性
阴性
合计
胆囊腺癌
6
胆囊腺瘤
1
合计
7
4
10
9
10
13
20
H0:1=2,即胆囊腺癌与胆囊腺瘤的P53基因表达
阳性率相等
H1:1≠2,即胆囊腺癌与胆囊腺瘤的P53基因表达
阳性率不等 α=0.05 本例 a+b=c+d=10,由表7-7可看出,四格表内各种 组合以i=4和i=5的组合为中心呈对称分布。
表组合的累计概率为左侧概率,记为PL;现 有样本四格表及其以右的所有四格表组合的 累计概率为右侧概率,记为PR。若备择假设
H1为12,则P单侧=PR;若H1为12,则
P单侧=PL。
(2)双侧检验 计算满足Pi ≤ P*条件的各种组合下四格表
的累计概率。若遇到 a+b=c+d 或 a+c=b+d 时 ,四格表内各种组合的序列呈对称分布,此 时按单侧检验规定条件只计算单侧累计概率 ,然后乘以2即得双侧累计概率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检验统计量 2值反映了实际频数与理论频数
的吻合程度。
若检验假设H0:π1=π2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量不应该很大。如
果 2值很大,即相对应的P 值很小,若P ,则反过来推
断A与T相差太大,超出了抽样误差允许的范围,从而怀 疑 H0 的 正 确 性 , 继 而 拒 绝 H0 , 接 受 其 对 立 假 设 H1 , 即 π1≠π2 。
愈合 64(57.84) 51(57.16) 115
未愈合 21(27.16) 33(26.84) 54
合计 85 84 169
愈合率(%) 75.29 60.71 68.05
表 三种不同方案治疗慢性支气管炎的疗效
分组 西药 中药
中西医结合 合计
有效 57 24 130 211
无效 30 20 20 70
不是样本含量n。四格表资料只有两行两列,v=1,即 在周边合计数固定的情况下,4个基本数据当中只有一 个可以自由取值。
16
2. 2 分布
(1) 2分布是一种连续型分布:按分布的密度函数可给
出自由度=1,2,3,……的一簇分布曲线 (图7-1)。
(2) 2分布的一个基本性质是可加性: 如果两个独立
10 (b)
31 (c) 111
11 (d) 21
合计
90 42 132
5
X
(1) 2.65 | 2.95 | 3.25 | 3.55 | 3.85 | 4.15 | 4.45 | 4.75 | 5.05 | 5.35 | 5.65
表 正 态 分 布 拟 合 优 度 的 2检 验
f
Z
(2)
(3)
(Z )
的随机变量X1和X2分别服从自由度ν1和ν2的分布,
即 X1
~
2 1
,
X2
~
2 2
,那么它们的和(
X1+X2
)服从自由
度( ν1+ν2 )的 2分布,即
( X1
X2)~
2 1 2
。
17
(3) 2界值:当v确定后, 2分布曲线下右 侧尾部的面积为时,横轴上相应的 2值,
记作 2, (见附表8)。 2值愈大,p值愈小; 反之, 2值愈小,p值愈大。
第七章卡方检验春详解演示文 稿
优选第七章卡方检验春
四格表资料的 2 检验 配对四格表资料的 2 检验 四格表资料的 Fisher 确切概率法 行×列表资料的 2 检验 多个样本率间的多重比较 频数分布拟合优度的 2 检验
3
处理 螺赛克 雷米替叮
合计
表 两种药物治疗消化道溃疡 4 周后疗效
0.0322 0.0471 0.0882 0.1365 0.1671 0.1759 0.1459 0.1041 0.0584 0.0436
3.22 4.71 8.82 13.65 16.71 17.59 14.59 10.41 5.84 4.36
0.9839 0.0121 2.6182 2.0969 1.3276 1.7765 6.0691 0.0161 0.1208 0.0297
合计 87 44 150 281
有效率(%) 65.52 54.55 86.67
4
分组 儿童 成人 合计
表 儿童急性白血病患者与成人急性白血病患者的血型分布
A型
B型
O型
AB 型
30
38
32
12
19
30
19
9
49
68
51
21
合计 112 77 189
甲法
+ 合计
表 两种检验方法检验结果比较
乙法
+
-
80 (a)
18
0.5 0.4 0.3
100
1.0000 100.00 15.0509
6
第一节 四格表资料的 2 检验
7
目的:推断两个总体率(构成比)是 否有差别
8
1.基本思想
例7-1 某院欲比较异梨醇口服液(试验组)和 氢氯噻嗪+地塞米松(对照组)降低颅内压的疗 效。将200例颅内压增高症患者随机分为两组, 结果见表7-1。问两组降低颅内压的总体有效率有 无差别?
15
由公式(7-1)还可以看出: 值2 的大小还取决于 (A T)2 T
个数的多少(严格地说是自由度ν的大小)。由于各 (A T)2
T
皆是正值,故自由度ν愈大, 2值也会愈大;所以只有
考虑了自由度ν的影响, 2值才能正确地反映实际频数
A和理论频数T 的吻合程度。
2检验的自由度取决于可以自由取值的格子数目,而
9
表7-1 两组降低颅内压有效率的比较
组别
有效
无效
合计 有效率(%)
试验组 99(90.48)a 5(13.52)b 104(a+b) 95.20
对照组 75(83.52)c 21(12.48)d 96(c+d) 78.13
合计 174(a+c) 26(b+d-2形式,即有两个 处理组,每个处理组的例数由发生数和未发 生数两部分组成。表内有 99 5 四个基本数
(4)
( f F)2
P
F nP
F
(5) (6)= n(5) (7)
5 -1.85
5 -1.41
4 -0.96
19 -0.51
12 -0.07
12 0.38
24 0.82
10 1.27
5 1.71
4
0.0322 0.0793 0.1685 0.3050 0.4721 0.6480 0.7939 0.8980 0.9564
T为理论频数(theoretical frequency)。
T为在无效假设前提下(两总体率相等,等于合计率) 推算的预期值。
TRC
nRnC n
式中,TRC 为第R 行C 列的理论频数
nR 为相应的行合计 nC 为相应的列合计
13
如上例,无效假设是试验组与对照组降低颅内压的 总体有效率相等,均等于合计的有效率87%。那么 在这个前提下,理论上,试验组的104例颅内压增 高症患者中有效者应为104(174/200)=90.48,无 效者为104(26/200)=13.52;同理,对照组的96例 颅内压增高症患者中有效者应为 96(174/200)=83.52,无效者为96(26/200)=12.48。
75 21
据,其余数据均由此四个数据推算出来的, 故称四格表资料。
11
处理组 发生数 未发生数 合计
甲
a
b
a+b
乙
c
d
c+d
合 计 a+c b+d
n
图7-2 四格表资料的基本形式
12
基本思想:可通过 2 检验的基本公式来理解。
2 (AT)2 , (行数-1)(列数1)
T
式中,A为实际频数(actual frequency),