培训_11第十一章卡方检验

合集下载

第十一章卡方检验

第十一章卡方检验
2统计量的条件：Ｔ≥5
2
(AT)2 T
校正的2
2 (AT0.5)2
T
第十一章卡方检验
2检验的基本公式
2 (AT)2
T
❖ A—实际频数 ❖ T— 根据H0确定的理论频数
第十一章卡方检验
2检验基本思想
2值反映了样本实际频数与理论频数的符合程度。如果原假设成立， 2值不会太大；反之，A若与T差距大， 2值也大；当2值超出一定范围时，就有理
有效率％ 70.7 70.7
70.7
T a 8 7 0.7 % 0 5 6 .6 T b 8 0 2.3 % 9 2.4 3
T c 6 7 0.7 % 0 4.4 2 T d 6 2 0.3 % 9 1.6 7
第十一章卡方检验
四格表的理论频数由下式求得：
nn
T RC
RC
n
式中：TRC为第R 行C 列的理论频数， nR为相应的行合计， nC为相应的列合计。
➢ 四格表资料比较的是两种处理的效果。 ➢ 每种处理只产生两种相互对立的结果，如生与死，有
效与无效，患病与未患病，阳性与阴性，检出与未检出，等等。
第十一章卡方检验
四格表资料的一般形式
处理组 A B
合计
发生数 a c
a+c
未发生数合计
b
a+b
d
c+d
b+d
n=a+b+c
+d
第十一章卡方检验
例11-1 某医师为比较中药和西药治疗胃炎的疗效，随机抽取140例胃炎患者分成中药组和西药组，结果中药组治疗80例，有效64例，西药组治疗60例，有效35例，问中药和西药治疗胃炎的效果是否相同？

第十一章卡方检验

第一节独立样本列联表的χ2检验
四格表资料： 1.完全随机设计的两样本率比较的χ2检验
2. 2 × 2列联表资料的χ2检验
3.R × C列联表资料的χ2检验
一、 χ2检验的基本思想
例11.1 某研究者欲比较甲、乙两药治疗小儿上消化道出血的效果，将90名患儿随机分为两组，一组采用甲药治疗，另一组采用乙药治疗，一个疗程后观察结果，见下表。问两药治疗小儿上消化道出血的有效率是否有差别？
Likelihood Ratio
10.338
1
.001
Fisher's Exact Test
.003
.002
Linear-by-Linear Association
9.761
1
.002
N of Valid Cases
90
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 11. 50.
理论频数(theoretical frequency)
理论频数的计算方法：在H0成立的情况下，即甲药治疗小儿上消化道出
血的有效率与乙药治疗小儿消化道出血的有效率相同。则理论上两种人群有相同的有效率74.44%，这时计算出其相应的各个格子的理论频数。
(a) T11
(b) T12
(c) T21
(d) T22
其基本公式：
∑ χ2 = (A - T)2
T
2
0.5
0.4
0.3
纵高
理解χ2值
0.2 0.1

卡方检验(第六版)

第二节配对设计资料的χ2检验
一、二分类变量： 1、配对设计
配对分类资料是把两种处理分别施于条件相似的两个受试对象，或先后施于同一受试对象，逐对记录实验结果。
甲、乙两种血清学检查结果有四种： (1)两种方法检查结果均为阳性(a)； (2)两种方法检查结果均为阴性(d)；这是结果相同的部分 (3)甲法阳性乙法阴性(b)； (4)甲法阴性乙法阳性(c)；这是结果不同的部分。如果只考虑结果不同部分有无差别，则作卡方检验。
υ=1，χ20.05,1=3.84， χ2>χ20.05,1，P<0.05 4、作出推断结论：按α=0.05水准，因P<0.05，拒绝Ho，接受H1，可以认为两种方法的检测结果不同，心电图的阳性率高于生化测定方法。
二、配对R×C列联表资料的χ2检验： 1、例题：例11.7 某研究欲比较X线和CT对强直性脊柱炎(AS)
总体分布是否等于某个给定的理论分布。
2、χ2值的计算公式：
2
A
T T
2
υ=k-1
3、例题：
例11.8 400个单位容积内的细菌计数结果见表11.12第(1)、(2)
列。问该单位容积内的细菌计数是否服从Poisson分布？（1）建立假设：
Ho：每单位容积内的细菌计数服从Poisson分布 H1：每单位容积内的细菌计数不服从Poisson分布 α=0.05 （2）计算统计量：实际频数Ai：为各组段的频数，分别为35、68、112… 4
4、四格表中如有一个实际数为0，首先求最小理论数，若T>5或 5>T>1，且n>40时，方可用χ2检验；
5、用专用公式进行四格表资料χ2检验，首先要计算最小理论数。如大于5，方可将实际数直接代入，如果出现小于5、大于1，且n>40，需计算校正χ2值；

统计学卡方检验

个体化干预
根据分析结果，为患者提供个体化的干预措施，提高生存质量。
06
卡方检验注意事项及局限性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求，通常建议每个单元格的期望频数不小于5，以确保检验结果的稳定性和可靠性。当样本量不足时，可能会导致检验效能降低，增加第二类错误的概率。
抽样方法选择
在进行卡方检验时，应选择合适的抽样方法。简单随机抽样是最常用的方法，但在某些情况下，如分层抽样或整群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时，可以考虑合并相邻的类别，以增加期望频数。合并类别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验，如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件，如样本量足够大、每个单元格的期望频数不宜过小等。此外，对于有序分类变量或存在空单元格的情况，需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法，用于推断两个或多个分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时，可以采用等距分组、等频分组或基于数据分布的分组方法。选择合适的分组界限有助于保持各组之间的均衡性，减少信息损失。

第11章卡方检验(0429修改)

第十一章2χ检验2χ检验(chi-square test)是英国统计学家K. Pearson于1900年提出的，以2χ分布(chi-square distribution)和拟合优度检验(goodness-of-fit test)为理论依据，是一种应用范围很广的统计方法。

本章主要介绍率或构成比比较的2χ检验，频数分布的拟合优度2χ检验，线χ检验，以及四格表的Fisher确切概率法。

性趋势2第一节2χ检验的基本思想2χ检验是在2χ分布的基础上，利用样本信息考察样本频数分布与假设成立条件下的理论频数分布之间差异的假设检验方法。

下面以例11.1为例，说明2χ检验的基本思想。

例11.1 某研究者欲比较血塞通注射液和银杏达莫注射液治疗急性脑梗死的效果，将240例急性脑梗死患者随机分为两组，一组给予血塞通注射液治疗，另一组给予银杏达莫注射液治疗，一个疗程后观察结果，见表11.1。

问两种针剂治疗急性脑梗死的有效率是否有差别？表11.1 血塞通和银杏达莫治疗急性脑梗死的疗效血塞通114 6 120 95.00银杏达莫104 16 120 86.67合计218 22 240 90.83表11.1中，114、6、104、16这4个数据是分组变量药物(一般作为行变量)与效应指标疗效(一般作为列变量)交叉分组后，基于样本观察到的发生频数，称为实际频数(actual frequency)，用符号A表示。

行合计、列合计、总合计及有效率是根据这4个基本数据计算而来。

该类型资料称为22⨯列联表资料，亦称四格表(fourfold table)资料。

血塞通组的有效率(95.00%)和银杏达莫组的有效率(86.67%)仅是样本观察的结果，由于存在抽样误差，需进行假设检验，才能得到关于两种针剂治疗急性脑梗死的总体有效率是否有差别的结论。

当两样本含量均比较大时，可以采用第十章介绍的两样本率比较的Z检验，还可采用本章介绍的2χ检验。

一、对总体建立假设例11.1的无效假设为012:H ππ=，即两种针剂治疗急性脑梗死的有效率相同。

卡方检验法

卡方检验法知识引入在各个研究领域中，有些研究问题只能划分为不同性质的类别，各类别没有量的联系。

例如，性别分男女，职业分为公务员、教师、工人、……，教师职称又分为教授、副教授、……。

有时虽有量的关系，因研究需要将其按一定的标准分为不同的类别，例如，学习成绩、能力水平、态度等都是连续数据，只是研究者依一定标准将其划分为优良中差，喜欢与不喜欢等少数几个等级。

对这些非连续等距性数据，要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。

卡方检验就是专用于化解计数数据统计分析的假设检验法。

本章主要了解卡方检验的两个应用领域：插值性检验和独立性检验。

插值性检验就是用作分析实际次数与理论次数与否相同，适用于于单个因素分类的计数数据。

独立性检验用作分析各存有多项分类的两个或两个以上的因素之间与否存有关联或与否单一制的问题。

在计数数据进行统计分析时要特别注意取样的代表性。

我们知道，统计分析就是依据样本所提供的信息，正确推论总体的情况。

在这一过程中，最根本的一环是确保样本的代表性及对实验的良好控制。

在心理与教育研究中，所搜集到的有些数据属于定性资料，它们常常是通过调查、访问或问卷获得，除了少数实验可以事先计划外，大部分收集数据的过程是难于控制的。

例如，某研究者关于某项教育措施的问卷调查，由于有一部分教师和学生对该项措施存有意见，或对问卷本身有偏见，根本就不填写问卷。

这样该研究所能收回的问卷只能代表一部分观点，所以它是一个有偏样本，若据此对总体进行推论，就会产生一定的偏差，势必不能真实地反映出教师与学生对这项教育措施的意见。

因此应用计数资料进行统计推断时，要特别小心谨慎，防止样本的偏倚性，只有具有代表性的样本才能作出正确的推论。

第一节卡方拟合性检验一、卡方检验的通常问题卡方检验应用于计数数据的分析，对于总体的分布不作任何假设，因此它又是非参数检验法中的一种。

它由统计学家皮尔逊推导。

理论证明，实际观察次数（fo）与理论次数（fe），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布，可表示为：这就是卡方检验的完整公式，其中当fe越大（fe≥5）,对数得越不好。

第十一章_卡方检验

准，拒绝H0，接受H1，差异有统计学意义。结论相反。
例某医师用甲、乙两疗法治疗单纯消化不良，结
果如下表，问两种疗法的治愈率有无差别？表两种疗法对单纯消化不良的治愈率比较
① 建立假设 H0：π1＝π2 H1：π1≠π2 ② 确定检验水准 α=0.05
2 ③ 计算统计量值
2
( 26 2 - 7 36 - 71 / 2)2 71 33 38 62 9
2 三、R×C列联表资料的检验。
当基本数据的行数或列数大于2时，统称为行列表或 RC表。
2 RC表的检验主要用于多个样本率(或构成比)的比
较。行列资料检验的专用公式
2
A n( 1) nR nC
2
2
n为总例数，A为每个格子的实际频数，nR为与A同
行的行合计，nC为与A同列的列合计。
自由度＝(行数－1)(列数－1)＝(2－1)(2－1)＝1, 2 查界值表得P<0.01。
⑤ 下结论
因为P<0.01，按α=0.05的水准，拒绝H0，接受 H1，差异有统计学意义。即可认为两药治疗小儿上消化道出血的有效率有差别，其中乙药的有效率高于甲药。
(二) 四格表的专用公式
2 (ad bc) n 2 (a b)(c d)(a c)(b d)
2.75
④ 确定P值 υ＝(2－1)x(2－1)＝1，查
2 界值表得P>0.05。
⑤ 下结论
因为P>0.05，按α=0.05的水准，不拒绝H0，差异无统计学意义。尚不能认为甲、乙两疗法对小儿单纯性消化不良的治愈率不等。
完全随机设计四格表资料χ2检验适用条件
当n≥40且Tmin ≥ 5时，χ2检验基本公式或四格表专用公式；

医学统计学课件卡方检验

队列研究中的卡方检验
总结词
在队列研究中，卡方检验用于比较不同暴露水平或不同分组在某个分类变量上的分布差异，以评估暴露因素与疾病发生之间的关系。
详细描述
队列研究是一种前瞻性研究方法，按照暴露因素的不同将参与者分为不同的组，追踪各组的疾病发生情况。通过卡方检验，可以比较不同暴露水平或不同分组在分类变量上的分布差异，如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异，而相关性分析则用于研究两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下，卡方检验的结果可以为相关性分析提供参考，帮助了解变量之间的关联程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$，
其中 $O_{ij}$ 表示实际观测频数，$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较，可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望频数应该大于5。
卡方检验对于样本量较小的情况可能不适用。
观察频数与期望频数应该服从相同的概率分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前，需要明确研究的目的和假设，以便有针对性地收集数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

卡方界值表
第一节 2检验的基本思想
1.2分布的密度函数
f
(
2)

1
2 Γ

2
2
1 2
2

e 2

2
参数：自由度
2. 2分布的图形 (=1,2,3,4,6,10)
2. 2分布的图形
(=10,20,30,50,60)
3. 2分布的分位数

（11-6）
式 11-6 称为四格表资料2 检验的 Yates 校正公式，适用条件是总例数 n40 且 1T<5。
H0：1 =2，即两个科室用药不当的发生率相同 H1： 12，即两个科室用药不当的发生率不同 =0.05 软件计算结果：最小理论频数为 3.14，因此，应用 Yates 校正的2 检验公式计算检验统计量2 值。 2 2.87 ，P=0.0900。从而按=0.05 的检验水准不拒绝 H0，尚不能认为该医院内一科、内二科用药不当发生率不同。本例若不进行 Yates 连续性校正，而用式 11-5，则计算得 2 4.22 ，得 P=0.0399，结论相反。
∵ 137/425=0.322＞0.267
第三节两独立样本率比较
（四格表资料）的2检验
一、两独立样本率比较的频数表四格表
二、四格表资料2检验的专用公式
三、四格表资料2检验的校正公式
一、两独立样本率比较的频数表四格表
两独立样本率比较时，基本事件对应四个频数，即每个样本中的阳性事件数和阴性
小若。由现有样本得到了较大的 2值（大
于界值2(, )）,则按检验水准拒绝
H0，接受H1；否则不拒绝H0 。
2(,)
Pearson 2的Yates连续性校正（Yates correction for
continuity）
当总例数
n
太小或有的格子理论频数
T
较小时，基于
H0
假设计算的
获取途径
获取健康知识内容
合计慢性病预防传染病预防安全与急救基本医疗
传统大众媒体
18
19
22
68
127
互联网
72
18
15
11
116
社区健康教育
36
25
83
27
171
合计
126
62
120
106
414
H0：社区居民获取健康知识的内容与途径无关联 H1：社区居民获取健康知识的内容与途径有关联 =0.05 经软件计算， 2 149.92 ，P<0.0001。因此按=0.05 的检验水准拒绝 H0，接受 H1，认为该地社区居民获取健康知识的内容与途径有关联。
事件数，因此相应的频数表通常称为四格表（fourfold table）或 22 表，四个格子分别对
应四个基本事件的频数，样本中观察到的实际频数可用 a，b，c，d 表示，见表 11-3。
表 11-3 两独立样本率比较的四格表
样本
阳性事件
阴性事件
合计
样本 1
a
样本 2
c
合计
a+c
b
a+b取了若干医院，并将两地医院按级别和规模进行配对，共 66 对。
在每家医院随机对门诊及住院患者进行问卷调查，调查内容包括医疗水平、服务态度、
收费合理性等，按照最后的综合评价指标将医院服务质量分为合格与不合格，评价结果
见表 11-7。问两地医院的合格率是否不同？
H0：两地医院的合格率相同，即总体 B=C H1：两地医院的合格率不同，即总体 BC

6.28 ，
=1
3. 确定 P 值，做出推断结论。
2 1,0.05

3.84
，
2 1,0.01

6.63 ，本例
2 1,0.05

2

2 1,0.01
，因此得
0.01<P<0.05，从而
按=0.05 的检验水准拒绝 H0，接受 H1，认为内科医生的季节性流感疫苗接种率高于全体医疗卫生工作人员的总接种率。
——行列表资料的2检验
1.多个独立样本率的比较
2.样本构成比的比较
3.两个无序分类变量的关联性检验
*4.多个样本率/构成比的两两比较
行列表资料的2检验
多个独立样本率的比较、样本构成比的比较，以及推断
两无序分类变量有无关联性的检验，其资料均可整理成
多行多列的二维频数表形式，所用的检验公式也完全
第十一章 2检验
本章要求：掌握 2检验基本思想与应用条件；率之间的比较以及PSS实现熟悉两样本率比较的精确概率计算法（fisher确切概率法）了解趋势性2检验方法；频数分布拟合优度检验
第一节 2检验的基本思想
一、2 分布
2分布是一种连续型随机变量的概率分布。
若Zi ~ N (0,1)
区/县
两周内患病人数
两周内未患病人数
合计
A区
591
B区
105
C区
267
D县
371
1790 2195 983 879
2300 2300 1250 1250
合计
1334
5766
7100
患病率（%） 25.7 4.6 21.4 29.7 18.8
H0：该地四区县居民的两周患病率相同，即1 =2=3 =4 H1：该地四区县居民的两周患病率不同或不全相同 =0.05
根据题意，首先列出四格表，见表 11-4。
表 11-4 某地区男、女两周患病情况调查结果
性别
患病人数
未患病人数
合计
患病率（%）
男性
604 （649.9）
2855 （2809.1）
3459
17.46
女性
730 （684.1）
2911 （2956.9）
3641
20.05
合计
1334
5766
7100
18.79
二、2检验的基本思想
首先根据检验假设H0计算各格子的理论频数，用
2 ( A T )2
T
反映各格实际频数与理论频数的吻合程度。
若 H0 成立，理论上实际频数与理论频数应相等，但由
于抽样误差的存在，样本中的 A 与 T 不会完全相等，
但应相差不大，即在一次抽样中得到较大2值的概率很
,
则称
2

Z
2 1

Z
2 2

Z
2 3
...
Z
2 v
为服从自由度为v 的 2 分布。
记作
2

。 2分布的形状依赖于自由度的大小，当自由度 2
时，随着
的增加，曲线逐步趋于对称，当自由度无穷大时， 2分布逼近正态分布。
各种自由度的 2分布右侧尾的面积为的临界值见附表。
为此，需进行假设检验(McNemar test)，其检
验统计量为 2 ：
2 (b c)2 ， 1 ， (b c) 40 (11-7)
bc

2 c

( b c 1)2 bc
，
1， (b c)

40
(11-8)
例 11-4 某卫生行政部门为了解甲、乙两地医疗卫生机构的服务质量，从两地用分
相同，因此通常可称此类频数表为行列表（或RC
表），式11-9则称为行列表检验的专用公式。
2 n(
A2 1)
nr nc
（11-9）
=(行数-1)(列数-1)
1.多个独立样本率比较
例 11-5 对于本章章前案例（3），整理出频数表，见表 11-9。
表 11-9 某地四个区/县居民两周患病率的比较
第二节单样本率比较的2检验
2

a n 0 2 n 0 1 0
例 11-1 据了解，某年某地所有从事医疗卫生工作的专业人员季节性流感疫苗的
接种率为 26.7%。现随机抽查了综合性医院的内科医生 425 人，接种流感疫苗者有 137
人，问内科医生的接种率与医疗卫生工作人员的总接种率是否相同？
软件计算结果： 2 479 .45 ，P<0.0001。从而按=0.05 的检验水准拒绝 H0，接受 H1，认为该地四区县居民的两周患病率不同或不全相同。
2. 样本构成比的比较
例 11-6 本章章前案例（4），按表 11-1 资料，比较中心城区与郊区/县的调查对象参加社会医疗保险类别的构成比是否相同。
c+d (n2)
b+d
a+b+c+d (n)
二、四格表资料2检验的专用公式
专用公式：
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
例 11-2 本章章前案例（2）的调查对象中，男性 3459 人，两周内患病者 604 人，
女性 3641 人，两周内患病者 730 人。问该地区男、女两周患病率是否不同？
=0.05
甲地
表 11-7 两地医院综合评价结果的比较
乙地
合计
合格
不合格
合格
23
20
43
不合格
8
15
23
合计
31
35
66
软件计算结果： 2 4.32 ，P=0.036。从而按=0.05 的检验水准拒绝 H0，认为患者
对两地医院综合评价结果的合格率不同，甲地高于乙地。
第五节多个独立样本率或构成比比较
三、四格表资料2检验的校正公式
四格表资料2 检验时，如果某个格子理论频数较小，但又不至于太小，比如 1T<5，可对2 统计量经 Yates 校正后，再查2 界值表以确定 P 值。即用式 11-2 计算2 值，对

培训_11第十一章卡方检验

第十一章卡方检验

第十一章 卡方检验

卡方检验(第六版)

统计学卡方检验

第11章卡方检验(0429修改)

卡方检验法

第十一章_卡方检验

医学统计学课件卡方检验

第十一章卡方检验