22第六章卡方检验
卡方检验医学统计学

卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一,它可用于测量两组数据之间的关联性。
在研究中,我们常常需要探究二者之间是否存在某种关联,卡方检验就是我们解决这个问题的利器。
卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。
期望频数指的是在假设两个变量独立的情况下,我们可以根据样本量和其他条件,计算出不同组之间的理论值。
而实际频数则是实验中观察到的实际结果。
卡方检验的步骤如下:1.建立零假设和备择假设。
零假设指的是假设两个变量之间不存在任何关系,备择假设则是反之。
2.确定显著性水平 alpha,通常取值为0.05。
3.构建卡方检验统计量。
计算方法为将所有观察值与期望值的差平方后,再除以期望值的总和。
4.根据自由度和显著性水平,查卡方分布表得到 P 值。
5.如果 P 值小于显著性水平,拒绝零假设;否则无法拒绝零假设。
卡方检验的应用卡方检验可以应用于多个领域,其中医学统计学是最为常见的一个。
卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。
举个例子,某药厂要研发一种新的药物来治疗心脏病。
为了验证该药的疗效,实验组和对照组各50 人。
在 6 个月的治疗后,实验组和对照组中分别有 10 人和 15 人痊愈了。
卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。
除了医学统计学之外,卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。
卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中,但它也有着自己的限制。
其中比较明显的一点就是对样本量有一定的要求。
当样本量较小的时候,期望频数的计算就会出现一定的误差,进而导致检验结果不准确。
此外,在面对非常态分布数据时,卡方检验也会出现问题。
当数据呈现正态分布时,卡方检验的准确性最高。
然而,实际上,很多数据都呈现出非正态分布,这时需要使用一些修正方法来解决。
卡方检验是医学统计学中最常用的统计方法之一,它可以用来测量两个变量之间的关联性。
【实用】卡方检验(5)PPT文档

2 0.619 0.363 (0.4) 0.285 0.316 0.118 试判断该小麦的株高表现是否遵从正态分布。
在假设两种随机现象相互独立的情况下,确定各组合的概率,并计算各组合按概率进行分配时的观测值频数
x 2.381 5.637 12.4 19.72 22.68 18.88 并统计各结果观测值的频数
解:H0:x~N(μσ) HA: x 不服从正太分布 由于总体μ、σ未知,故由样本去估计(采用点估计):
样本 x 65.60,样本 S 22.50
x 65.60, S 22.50
首先算出各组的理论频率:
pi
Φ
xi1
Φ
xi
式中:xi+1、xi表示第i组的上下限(i=1,2,…,k)。 本例中:k=9 再算出各组的理论频数:E(fi)=Npi =100×pi
有7=5%1的0置0信水×平认p为i杨麦1号本的株高例遵从中正态各分布组。 的已计算出并列于表6-2中。 继而便可算出x 统计量值: 若两者相互独立,表明三种灌溉方式对叶态2表现的影响相同。
本例中的自由度df=k-1-p=12-1-2=9,查x2 值表可知,
2 2 2 2 2 2 本例中,设灌溉方式与与叶态表现无关联,则深水灌溉与绿叶同时出现的理论频率应为三种灌溉方式中深水灌溉的频率与三种叶态中
且已经算得 样本x 94.8,样本S 5.2。
试判断该小麦的株高表现是否遵从正态分布。
正态分布是连续分布,没有自然的类别,为了利用卡方检
验,可先用第2章介绍的方法将数据进行分组,然后以每组作为 一个类别,再用卡方检验进行正态分布的适合性检验。
组中值 83 86 89 92 95 98 101 104 107 组分点值 84.5 87.5 90.5 93.5 96.5 99.5 102.5 105.5 组频数 3 6 12 20 23 19 10 5 2 理论频数 2.38 5.64 12.4 19.7222.6818.8811.37 4.95 1.98 偏差量 0.62 0.36 -0.4 0.29 0.32 0.12 -1.37 0.05 0.02
卡方检验

Stata第六章卡方检验本节STATA命令摘要[by分层变量名:]tab2变量1变量2[,allchi2exactcellcolumnrow]tabi#11#12[...]\[#21#22[...][\...][,allchi2exactcellcolumnrow]•列联表分析STATA命令:[by分层变量:]tab2变量1变量2[,allchi2lichi2exactcellcolumnrow]上述命令中,变量1为行计数变量;变量2为列计数变量;all表示卡方(c2)检验,似然比(likelihoodratio)检验以及一些统计描述指标和检验,但不包括Fisher精确检验;exact表示Fisher精确检验;chi2表示c2检验;lichi2表示likelihoodratio检验;cell表示输出的列联表中显示每个观察计数值占该列联表总观察计数值的比例;row表示输出的列联表中显示每个观察计数值占该观察计数值所在行的各观察计数值总数的比例;coloumn表示输出的列联表中显示每个观察计数值占该观察计数值所在的列各观察计数值总数的比例。
例:某地调查肝癌病人与健康人饮用“醋冷水”(一种以冷水和醋为主要成分的饮料)的习惯。
用group=1表示肝癌组患者和group=2表示健康人;用custom=1表示经常饮用醋冷水;custom=2表示偶尔饮用醋冷水和custom=3表示从不饮用醋冷水。
具体资料为:(摘自医学统计方法,金丕焕主编,p163)。
组别经常偶尔从不饮用合计肝癌组26442898健康组28491794合计549345192显然这是一个病例对照研究,所以每组人数是人为确定的,因此只需计算各组"经常","偶而"和"从不饮用"占本组的频数以及检验患肝癌是否与饮水习惯有关。
tab2groupcustom,rowchi2->tabulationofgroupbycustom|customgroup|123|Total-----------+--------------------------------------------+----------1|①264428|98|②26.5344.9028.57|100.00-----------+--------------------------------------------+----------2|③284917|94|④29.7952.1318.09|100.00-----------+--------------------------------------------+----------Total|⑤549345|192|⑥28.1248.4423.44|100.00Pearsonchi2(2)=2.9497Pr=0.229①该行表示第一组(肝癌组)的3个观察数;②该行表示第一组的各个观察数的占第一组观察总数的百分比;③该行表示第二组(健康组)的3个观察数;④该行表示第二组的各个观察数的占第二组观察总数的百分比;⑤该行表示关于饮用醋冷水习惯的三个分类:“经常”,“偶尔”和“从不”的合计数;⑥该行表示上述三个合计数分别占总样本数的百分比。
卡方检验

计数资料:又称为定性资料或无序分类变量资料,也称 名义变量资料,是将观察单位按某种属性或类别分组计 数,分别汇总各组观察单位数后而得到的资料,其变量 值是定性的,表现为互不相容的属性或类别。
计量资料:又称定量资料或数值变量资料,为观测每个 观察单位某项指标的大小而获得的资料。其变量值是定 量的,表现为数值大小,一般有度量衡单位(cm、mmhg、 次/分、单位等)。
2
(2 1)(2 1) 1
3. 确定P值,作出统计推断
查2界值表,得2 0.005,1=7.88, 2 > 2 0.005,1,P <0.005,按 = 0.05水准,拒绝H0 ,接受H1,差 异有统计学意义,可以认为两组的显效率不等
四格表资料2检验的条件
例:为比较西药与中药治疗慢性支气管炎的疗效,某医师将符合 研究标准的110例慢性支气管炎患者随机分为两组(两组具有可比 性),西药组86例,中药组24例。服药一个疗程后,观察患者的 疗效,结果见下表。根据显效率,该医师认为中西药治疗慢性支 气管炎的疗效有差别,中药组的疗效好于西药组
表1 中西药治疗慢性支气管炎的显效率
等级资料:将观察单位按某种属性或某个标志分组,然 后清点各观察单位个数得来。具有等级顺序。(-、+、++、 +++;治愈、好转、无效、死亡)
独立样本:一般情况下,比较两个(类)人之间的差异 就是独立样本。(实验组、控制组)
配对样本:1. 一个人的不同部位进行测试。2.前测后测 的情况属于相关样本(同一人先后测试a、b两种药物)。 3. 两个匹配样本的比较。(测试两人智力,控制语文成 绩相等)
组别 西药组 中药组 合 计 治疗人数 86 24 110 显效人数 35 18 53 显效率(%) 40.70 75.00 48.18
医学统计学(6) 卡方检验

•进一步的两两比较
•P<0.017才有 统计学意义!!
【例6】某中医院用三种治疗方法治疗413例糖尿病患者, 资料见表。为避免中医不同证型对疗效比较的影响,分 析3种疗法治疗的病人按3种中医分型的构成比有无差别?
SPSS软件操作
• 第1步:定义变量
• 第2步:输入 原始数据
• 第3步:定义频数 • 选择数据→加权个案 • 频数→加权个案(频 数变量)
CMH多维卡 方检验
• 第4步:x2检验(2) • 选择统计 量按钮 • 在交叉表: 统计量对 话框:勾 上卡方
• 第4步:x2检验(3) • 选择单元 格按钮 • 在交叉表: 单元显示 对话框: 勾上观察 值、百分 比:行、 列
• 第5步:结果解读(1)
• 结果解读:中西医组的治愈率为98.2%,西 医组的治愈率为74.0%。
【例4】某医师为研究乙肝免疫球蛋白预防胎儿宫内感 染HBV的效果,将33例HBsAg阳性孕妇随机分为预防 注射组和非预防组,结果见表。问两组新生儿的HBV总 体感染率有无差别?
• 第1步:定义变量
SPSS软件操作
• 第2步:输入 原始数据
• 第3步:定义频数 • 选择数据→加权个案 • 频数→加权个案(频 数变量)
医学统计学 (6 )
《中华医学杂志》对来稿统计学处理的有关要求
卡方检验(chi-square test)
• χ2检验是现代统计学的创始人之一,英国人 Karl . Pearson于1900年提出的一种具有广 泛用途的统计方法。 • 可用于两个或多个率间的比较,计数资料 的关联度分析,拟合优度检验等等。
关联性分析
列联系数的意义 • |rp|<0.4,关联程度低 • 0.4≤|rp|<0.7,关联程度中等 • |rp|≥0.7,关联程度高
第六章 卡方检验

• R*2 或2* C • 无序 • 在甲、乙两地进行水牛体型调查,将体型按优、良、中、劣 四个等级分类,其结果见P169表7-13。问两地水牛体型构 成比是否相同? • 表7-13 两地水牛体型分类统计 • 优 良 中 劣 • 甲 10 10 60 10 • 乙 10 5 20 10
• • • • • • • • • • • • • • •
2、选择Table Analysis,打开对话框
3、将A放在Row,将B放在Column,将freq放在Cell Counts
4、在Statistics中设置Exact Test检验,单击OK
5、结果如下,大致分为3部分,第一部分是频数和列百分比表;第二部分是四种 检验方法结果,p值都大于0.05水平;第三部分是Fisher精确检验结果,p值 位0.7246,远远大于0.05,可见判决情况与被告种族是没有关系的。
高级生物统计
• 第六章 卡方检验
列联表分析
使用Statistics菜单下的Table Analysis可以进行 列联表分析(即属性频数数据分析) 例1:为了考察法院判决是否与被告种族有关,调查了 326位被告的判决情况如表所示: 黑人 有罪 17 白人 19
无罪
149
141
1、首先建立数据集 Data panjue ; Input A B freq@@;\*其中A取1表有罪,2无罪;B 取1表黑人,2表白人*\ Cards; 1 1 17 1 2 19 2 1 149 2 2 141 ; Run;
•
Statistics for Table of r by c Statistic DF Value Prob Chi-Square 1 9.2774 0.0023 Likelihood Ratio Chi-Square 1 9.4190 0.0021 Continuity Adj. Chi-Square 1 7.9444 0.0048 Mantel-Haenszel Chi-Square 1 9.1615 0.0025 Phi Coefficient -0.3405 Contingency Coefficient 0.3224 Cramer's V -0.3405
卡方检验

第二节
行×列表资料的 检验
2
行×列表资料
① 两个样本率比较时,基本数据有4个,排成2行 2列,称为2 ×2表,即四格表; ② 多个样本率或构成比比较时,基本数据超过2 行2列,有R行C列,称R×C表或行列表。
检验统计量(通用公式)
A n( 1) nR nC
2
2
(行数 1)(列数 1)
【
2
2 χ 基本公式】
2
( AT ) , (行数-1)(列数 1) T
T为理论频数(theoretical frequency)
式中,A为实际频数(actual frequency)
nR nC TRC n
【 χ2检验的基本原理】
若H0:π1=π2=π0成立,
四个格子的实际频数A与理论频数T相差不应该很大,即统计
度函数可给出不同自由度的一簇分布曲线。
2分布的形状依赖于自由度的大小;当自由
度趋向于无穷大时, 2分布趋向正态分布。
χ2分布特点
χ2分布是一组曲线。 χ2分布与自由度有关 自由度一定时, χ2值越大,P值越小;反之亦然。 =1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63
三、配对四格表资料的 检验
2
也称McNemar检验(McNemar's test)
例6.3 某研究室用甲、乙两种血清学方法检查410 例确诊的鼻咽癌患者,得到结果如表6.4 ,问两 种方法检出率有无差别?
表6.4 两种血清学检验结果
甲法 + - 合计 乙法 + 261(a) 8(c) 269 - 110(b) 31(d) 141 合计 371 39 410
表中,a, d 为两法观察结果一致, b, c 为两法观察结果不一致。
医学统计学-卡方检验

卡方检验是一种常用的统计方法,用于比较观察值和期望值之间的差异。它 在医学研究中有着广泛的应用,可以帮助我们验证假设、推断总体特征以及 分析类别变量的相关性。
卡方检验的定义和原理
卡方检验是一种基于卡方分布的统计检验方法。它基于观察值与期望值之间 的差异来判断样本数据与理论分布的拟合程度。
卡方检验的局限性和注意事项
• 卡方检验只能验证分类变量之间的关联性,不能验证因果关系。 • 卡方检验对样本足够大和数据分类合理的要求比较严格。 • 卡方检验结果受样本选择和观察误差的影响,需要谨慎解释。 • 在进行卡方检验前,需要对数据进行充分的清洗和准备。
结论和要点
卡方检验是一种常用的统计方法
卡方检验的应用领域
医学研究
卡方检验可以用来分析疾病的发生与某个因素之间的关联性,如吸烟与肺癌。
社会科学
卡方检验可以用来研究不同人群之间的行模式和态度偏好,如性别与政治观点。
市场调研
卡方检验可以用来分析消费者的购买偏好和市场细分,如年龄与产品偏好。
卡方检验的假设和前提条件
1 独立性假设
卡方检验基于观察值和期望值之间的差异来验证两个变量之间是否存在独立性。
它可以帮助我们验证假设、推断总体特征以 及分析类别变量的相关性。
结果解读和意义
卡方检验的结果可以帮助我们了解变量之间 的关系,并为决策提供依据。
应用广泛
卡方检验在医学研究、社会科学和市场调研 等领域都有着重要的应用。
局限性和注意事项
卡方检验有一定的局限性,需要注意样本大 小和数据分类的合理性。
4
比较卡方值和临界值
判断卡方值是否大于临界值,从而做出关于拒绝或接受原假设的决策。
卡方检验的结果解读和意义
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
≤ (或
2
2 )< c
2 0.01 ,0.01<
p≤0.05,表明实际观察次数与理论次数差异显著,
实际观察的属性类别分配显著不符合已知属性类
别分配的理论或学说;
若 (或
2
2 c)≥
2 ,p 0.01
≤0.01,表明实际
观察次数与理论次数差异极显著,实际观察的 属性类别分配极显著不符合已知属性类别分配
第二节
适合性检验
一、适合性检验的意义
判断实际观察的属性类别分配是否符合
已知属性类别分配理论或学说的假设检验称
为适合性检验 。
在适合性检验中,无效假设
H0
:实际观
察的属性类别分配符合已知属性类别分配的理 论或学说; 备择假设
HA
:实际观察的属性类
别分配不符合已知属性类别分配的理论或学说。
在无效假设成立的条件下,按已知属性类 别分配的理论或学说计算各属性类别的理论次 数。 适合性检验的自由度等于属性类别数减1。 若属性类别数为 k,则适合性检验的自由度为 k-1。然后根据(6-1)或(6-2)式计 p T. i
2 i
其中,Ai为第 i 组的实际观察次数,pi 为 第 i 组的理论比例,T. 为总观察次数: T. Ai
将【例6· 2】按(6-3)式计算 :
2
A 1 T. T. pi
2 2 2 2 2 1 491 76 90 86 743 743 9 / 16 3 / 16 3 / 16 1 / 16
2 c
1650
2 c
1650
3、计算
c2
( A T 0.5)2 ( 390 412.5 0.5) 2 412.5
T (1260 1237.5 0.5) 2 1237.5
1.5644
4、统计推断
实际计算的
2 c =1.5644
<
2 0.05(1)
2
2
2 ( x x ) i i 1
n
2
(n 1) S 2
2
图6-1 几个自由度的概率分布密度曲线
三、 连续性矫正
2
间断型次数资料由(6-1)式定义的 ,即
2
统计学家K. Pearson(1899)发现,对于
2
(A T )
i 1 i i
k
Ti 近似地服从自由度为 df k 1
6. 求 2值
2 ( f T ) 2 T (9 7.50) 2 (10 11.26) 2 (14 13.83) 2 (11 9.65) 2 7.50 11.26 13.83 9.65 0.8688
7. 确定自由度:df = k-3 = 7-3 = 4 8. 统计推断 2 由df=4,查 表得: 02.05( 4) 9.49,实际计 2 算的 2 0.8688 0 .05( 4 ) 9.49,故p>0.05, 表明各组实际次数与正态分布计算的理论次数 差异不显著,湘菊梨单株产量服从正态分布。
② 符合3:1,实际出现的 705:224是抽样 误差造成的。 到底属于哪种情况 ,需寻求合适的统计 数进行统计分析,即进行显著性检验。
表6-1 豌豆杂交F2花色分离的实际观察次数与理论次数 花色 实际观察次数(A) 理论次数(T) A-T (A-T)2/T 705(A1) 696.75(T1) +8.25 0.0977 红色 白色 合计 224(A2) 929 232.25(T2) 929 -8.25 0 0.2931 0.3908
第六章 检验
2
对次数资料进行适合性检验和独
立性检验的 检验法。
2
第一节 统计数
2
一、 统计数的意义
2
豌豆花色遗传中,红花和白花是受一 孟德尔 (1865)在杂交 F2 群体中随机调查 对等位基因控制的一对相对性状,杂交 F2 了929株,其中705株为红花,224株为白花。 植株的理论比例为 红: 白=3:1。 这一结果是否符合3:1 的理论比例。
先将A1-T1、A2-T2平方,然后再求和,即 由表6-12 看出,两组的差数A1-T1、A2-T2 计算 ( A T ) 。 之和等于0,即 ( A T ) 0 。因此, ( A T ) 不 2 ( A T ) 数值的大小可用来表示实际观察 能用来表示实际观察次数与理论次数符合程度 次数与理论次数的相差程度 。 的大小。
2 2
的连续型随机变量 分布。由间断型次数资 料按(6-1)式算得的 值均有偏大的趋势, 尤其是当 df 1 时,偏差较大。
F. Yates(1934)提出对 2进行连续性矫正。 矫正方法是,先将各组实际观察次数与理 论次数的差数的绝对值分别减去0.5,然后再平 方进行计算。矫正后的 记为 ,即
稃尖无色糯稻:T4=743×1/16=46.44,
或 T4=743-417.94-139.31-139.31
=46.44。
3、计算
2
2
2
(A T) T 2 2 (491 417.94) (76 139.31) 417.94 139.31 2 2 (90 139.31) (86 46.44) 139.31 46.44 92.6961
4、统计推断
11.34 , 故 p <0.01,否定 H 0,接受 H ,表明该水稻 A
= 92.6961 >
2 0.01(3)
因
2
稃尖和糯性性状在 F2 的实际观察次数之比极
显著不符合 9:3:3:1 的理论比例。
这一结果表明,该两对等位基因并非完全
显性、无连锁。
当属性类别数大于 2 时,可利用下面简 化公式计算 2:
2
将所计算得的 比较:
或
2
2 c。
值表(附表7)所得的临界 值: 0.05 或
2 c值与根据自由度 2 2
k-1查
2
2 0.01
若 (或
2
2 c)
2 < 0.05 ,p>0.05,表明实际观
察次数与理论次数差异不显著,可以认为实际观 察的属性类别分配符合已知属性类别分配的理论 或学说; 若
3.84,
故 p>0.05,不能否定 H 0,表明实际观察次数
与理论次数差异不显著。
可以认为大豆花色在F2的这一结果是符合
3:1 的理论比例,即大豆紫花与白花这一相对
性状在 F2 的分离比例符合一对等位基因的遗
传规律。
【例6· 2】两对等位基因控制的两对相对性
状遗传。如果两对等位基因完全显性且无连锁,
相差 8.25。
如果把各组的 ( A T )2 除以相应的理论次
数,即 ( A T ) / T,并记为 ,即
2
2
2
=
( Ai Ti ) Ti i 1
k
2
其中,k 为组数, Ai 为第 i 组的实际观察次数, 为第 i 组的理论次数。 2 是度量实际观察次数与理论次数偏离程
若符合理论比例 红:白=3:1,则929株中的
红花株数应为: 929×3/4=696.75(株) 白花株数应为: 929×1/4=232.25(株) 实际上获得的是红:白=705:224=3.147:1。 实际观察次数与理论次数有差异,各相差
8.25株。
产生这种情况有两种可能:
① 红花植株与白花植株的比例不符合3:1;
2 i
16 4912 76 2 90 2 2 86 743 743 9 3 3 92.7063
用(6-3)式计算的 与用(6-1)式计算
2
的 因舍入误差略有不同。
2
用(6-3)式计算 不需计算理论次数,
2
且舍入误差小。
三、资料分布类型的适合性检验
【例6· 2】根据100株湘菊梨单株产量资料
检验湘菊梨单株产量是否服从正态分布。
1. 将资料(原始数据)整理成次数分布表
2. 计算标准正态离差
3. 求各组的累积概率 4. 求每一组的概率 5. 计算理论次数
表6-3 湘菊梨单株产量服从正态分布的适合性检验表 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ 组限 组中值 实际次 l x u l x 累积概 各组概 理论次 S 数( f ) 率F(u) 率(p) 数(T) 47 ~ 48.5 3 -13.92 -2.44 0.0073 0.0201 2.01 7.50 9 50 ~ 51.5 6 -10.92 -1.91 0.0274 0.0549 5.49 53 ~ 54.5 10 -7.92 -1.39 0.0823 0.1126 11.26 56 ~ 57.5 18 -4.92 -0.86 0.1949 0.1702 17.20 59 ~ 60.5 21 -1.92 -0.34 0.3669 0.2084 20.84 62 ~ 63.5 17 1.08 0.19 0.5753 0.1889 18.89 65 ~ 66.5 14 4.08 0.72 0.7642 0.1283 13.83 68 ~ 69.5 7 7.08 1.24 0.8925 0.0691 6.91 9.65 11 71 ~ 72.5 4 10.08 1.77 0.9616 0.0274 2.74 ≥74 13.08 2.29 0.9890 100 1 100 合计
实际观测得来的资料是否服从某种理论分布,可 应用适合性检验来判断。 在正态分布的适合性检验中,理论次数是由样本 总次数、平均数与标准差决定的,用去 3 个自由度, 所以自由度为k-3(k为组数)。 在二项分布的适合性检验中,理论次数由总次数 与均数求得,丧失 2 个自由度,所以自由度为 k-2。 当组段内理论次数小于 5 时,必须与相邻组段进 行合并,直至合并的理论次数大于 5 时为止。