医学统计学--卡方检验

合集下载

卡方检验医学统计学

卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一，它可用于测量两组数据之间的关联性。

在研究中，我们常常需要探究二者之间是否存在某种关联，卡方检验就是我们解决这个问题的利器。

卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。

期望频数指的是在假设两个变量独立的情况下，我们可以根据样本量和其他条件，计算出不同组之间的理论值。

而实际频数则是实验中观察到的实际结果。

卡方检验的步骤如下：1.建立零假设和备择假设。

零假设指的是假设两个变量之间不存在任何关系，备择假设则是反之。

2.确定显著性水平 alpha，通常取值为0.05。

3.构建卡方检验统计量。

计算方法为将所有观察值与期望值的差平方后，再除以期望值的总和。

4.根据自由度和显著性水平，查卡方分布表得到 P 值。

5.如果 P 值小于显著性水平，拒绝零假设；否则无法拒绝零假设。

卡方检验的应用卡方检验可以应用于多个领域，其中医学统计学是最为常见的一个。

卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。

举个例子，某药厂要研发一种新的药物来治疗心脏病。

为了验证该药的疗效，实验组和对照组各50 人。

在 6 个月的治疗后，实验组和对照组中分别有 10 人和 15 人痊愈了。

卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。

除了医学统计学之外，卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。

卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中，但它也有着自己的限制。

其中比较明显的一点就是对样本量有一定的要求。

当样本量较小的时候，期望频数的计算就会出现一定的误差，进而导致检验结果不准确。

此外，在面对非常态分布数据时，卡方检验也会出现问题。

当数据呈现正态分布时，卡方检验的准确性最高。

然而，实际上，很多数据都呈现出非正态分布，这时需要使用一些修正方法来解决。

卡方检验是医学统计学中最常用的统计方法之一，它可以用来测量两个变量之间的关联性。

卡方检验--医学统计学

Value Measure of Agreement N of Valid Cases a. Not assuming the null hypothesis. Kappa .455 58
b. Using the asymptotic standard error assuming the null hypothesis.
Exact Sig. (1-sided)
Value Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association McNemar Test N of Valid Cases a. Computed only for a 2x2 table 14.154b 11.836 14.550
供了完整的支持，此处只涉及两分类变量间关联程度的指
标，更系统的相关程度指标见相关与回归一章。
两分类变量间关联程度的度量
相对危险度RR：是一个概率的比值，指试验组人群反应阳性概率与对照组人群反应阳性概率的比值。数值为1，表明试验因素与
反应阳性无关联；小于1时，表明试验因素导致反应阳性的发生
率降低；大于1时，表明试验因素导致反应阳性的发生率增加。优势比OR：是一个比值的比，是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。当关注的事件发生概率比较小时（<0.1），优势比可作为相对危
df
.000
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5. 16. c. Binomial distribution used.

统计学卡方检验

个体化干预
根据分析结果，为患者提供个体化的干预措施，提高生存质量。
06
卡方检验注意事项及局限性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求，通常建议每个单元格的期望频数不小于5，以确保检验结果的稳定性和可靠性。当样本量不足时，可能会导致检验效能降低，增加第二类错误的概率。
抽样方法选择
在进行卡方检验时，应选择合适的抽样方法。简单随机抽样是最常用的方法，但在某些情况下，如分层抽样或整群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时，可以考虑合并相邻的类别，以增加期望频数。合并类别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验，如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件，如样本量足够大、每个单元格的期望频数不宜过小等。此外，对于有序分类变量或存在空单元格的情况，需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法，用于推断两个或多个分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时，可以采用等距分组、等频分组或基于数据分布的分组方法。选择合适的分组界限有助于保持各组之间的均衡性，减少信息损失。

医学统计学11卡方检验

卡方值和P值
卡方值是由卡方检验计算得出的统计量，用于判断观察值和期望值是否有显著差异。
卡方检验的使用场景
医学研究
卡方检验常用于分析医学疾病流行病学数据，如患病率、死亡率等。
市场调研
卡方检验可以帮助企业了解顾客满意度，分析产品销售情况，进行市场调研。
质量控制
卡方检验可以用于控制产品质量，分析产品合格率、不良品率等，确定生产工艺是否正确。
计算卡方值
2
计算观察频数和期望频数，并按照公式
计算卡方值。
3
查找P值
查找卡方分布表中的临界值，以确定P值
做出结论
4
的大小。
比较P值和显著水平的大小，根据结论做出是否拒绝原假设的决策。
卡方检验的结果解释
P值的大小
P值越小，代表观察到的数据和期望值的差异越显著。
自由度的影响
自由度代表了数据可以变化的自由度，自由度越大，得到显著差异的概率越小。
卡方值的含义
卡方值越大，代表观察到的数据和期望值之间的差异越大，量
样本量过小可能导致卡方值不准确，无法判断相关性。
适用范围
卡方检验只能用于分析分类变量的相关性，无法用于连续变量。
误判率
卡方检验只能用于分析相关性，无法保证因果关系。
结论和要点
医学统计学11卡方检验
卡方检验是医学统计学中一项非常重要的方法，它可以检验两个或多个分类变量是否有显著差异。
卡方检验的基础知识
分类变量
卡方检验只能用于检验分类变量，即变量取值范围为有限个不同的类别，如血型、肿瘤分期等。
原假设和备择假设
原假设是指我们要检验的假设，而备择假设则是对原假设的一个补充或对立的假设。

医学统计学(6) 卡方检验

•进一步的两两比较
•P<0.017才有统计学意义！！
【例6】某中医院用三种治疗方法治疗413例糖尿病患者，资料见表。为避免中医不同证型对疗效比较的影响，分析3种疗法治疗的病人按3种中医分型的构成比有无差别？
SPSS软件操作
• 第1步：定义变量
• 第2步：输入原始数据
• 第3步：定义频数 • 选择数据→加权个案 • 频数→加权个案（频数变量）
CMH多维卡方检验
• 第4步：x2检验（2） • 选择统计量按钮 • 在交叉表：统计量对话框：勾上卡方
• 第4步：x2检验（3） • 选择单元格按钮 • 在交叉表：单元显示对话框：勾上观察值、百分比：行、列
• 第5步：结果解读（1）
• 结果解读：中西医组的治愈率为98.2%，西医组的治愈率为74.0%。
【例4】某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果，将33例HBsAg阳性孕妇随机分为预防注射组和非预防组，结果见表。问两组新生儿的HBV总体感染率有无差别？
• 第1步：定义变量
SPSS软件操作
• 第2步：输入原始数据
• 第3步：定义频数 • 选择数据→加权个案 • 频数→加权个案（频数变量）
医学统计学（6 ）
《中华医学杂志》对来稿统计学处理的有关要求
卡方检验(chi-square test)
• χ2检验是现代统计学的创始人之一，英国人 Karl . Pearson于1900年提出的一种具有广泛用途的统计方法。 • 可用于两个或多个率间的比较，计数资料的关联度分析，拟合优度检验等等。
关联性分析
列联系数的意义 • |rp|<0.4，关联程度低 • 0.4≤|rp|<0.7，关联程度中等 • |rp|≥0.7，关联程度高

医学统计学——卡方检验

趋近于正态分布。
• ⑵χ2分布具有可加性：如果两个独立的随机变量X1和X2分别服从ν1和ν2的χ2分布，那么它们的和(X1＋X2)也服从(ν1＋ ν2)的χ2分布。
χ2 界值
• ν确定后，如果分布曲线下右侧尾部的面积为α时，则横轴上相应的χ2值就记作χ2 α，ν ，即χ2界值。其右侧部分的面积α表示：自由度为ν时， χ2值大于界值的概率大小。χ2值与P值的对应关系见χ2界值表(附表6)。χ2值愈大，P 值愈小；反之，χ2值愈小，P值愈大。
• T22=(c+d)×(1- PC)=(c+d)×(b+d)/n = 56×17/112=8.5
χ2检验的基本思想
• χ2检验实质上是检验A的分布与Ｔ的分布是否吻合及吻合的程度，χ2越小，表
明实际观察次数与理论次数越接近。
• 若检验假设成立，则Ａ与Ｔ之差不会很大，出现大的χ2值的概率Ｐ是很小的，若Ｐ≤α，就怀疑假设成立，因而拒绝它；若Ｐ＞α，则没有理由拒绝它。
不同自由度的χ2分布曲线图
图 8-1 不同自由度的χ2 分布曲线图
二、χ2检验的基本思想
• 例8-1 某中医院将112例急性肾炎病人随机分为两组，分别用西药和中西药结合方法治疗，结果见表8-1，问两种方法的疗效有无差别？
表8-1 两种方法治疗急性肾炎的结果
组别治愈例数未愈例数合计治愈率(%)
例8-2
• 某医师将门诊的偏头痛病人随机分为两组，分别采用针灸和药物两种方法治疗，结果见表8-3 ，问两种疗法的有效率有无差别？
两种疗法对偏头痛的治疗结果
疗法有效例数无效例数合计有效率(%)
针灸 33(30.15) 2(4.85) 35 94.29

医学统计学-卡方检验

医学统计学-卡方检验
卡方检验是一种常用的统计方法，用于比较观察值和期望值之间的差异。它在医学研究中有着广泛的应用，可以帮助我们验证假设、推断总体特征以及分析类别变量的相关性。
卡方检验的定义和原理
卡方检验是一种基于卡方分布的统计检验方法。它基于观察值与期望值之间的差异来判断样本数据与理论分布的拟合程度。
卡方检验的局限性和注意事项
• 卡方检验只能验证分类变量之间的关联性，不能验证因果关系。 • 卡方检验对样本足够大和数据分类合理的要求比较严格。 • 卡方检验结果受样本选择和观察误差的影响，需要谨慎解释。 • 在进行卡方检验前，需要对数据进行充分的清洗和准备。
结论和要点
卡方检验是一种常用的统计方法
卡方检验的应用领域
医学研究
卡方检验可以用来分析疾病的发生与某个因素之间的关联性，如吸烟与肺癌。
社会科学
卡方检验可以用来研究不同人群之间的行模式和态度偏好，如性别与政治观点。
市场调研
卡方检验可以用来分析消费者的购买偏好和市场细分，如年龄与产品偏好。
卡方检验的假设和前提条件
1 独立性假设
卡方检验基于观察值和期望值之间的差异来验证两个变量之间是否存在独立性。
它可以帮助我们验证假设、推断总体特征以及分析类别变量的相关性。
结果解读和意义
卡方检验的结果可以帮助我们了解变量之间的关系，并为决策提供依据。
应用广泛
卡方检验在医学研究、社会科学和市场调研等领域都有着重要的应用。
局限性和注意事项
卡方检验有一定的局限性，需要注意样本大小和数据分类的合理性。
4
比较卡方值和临界值
判断卡方值是否大于临界值，从而做出关于拒绝或接受原假设的决策。
卡方检验的结果解读和意义

医学统计学卡方检验 t检验使用场景例题

医学统计学中的卡方检验和t检验是两种常见的假设检验方法，它们在医学研究和临床实践中具有重要的应用价值。

下面我们将分别介绍这两种方法的使用场景，并通过实际例题加以说明。

一、卡方检验的使用场景1. 适用于分类型数据的比较分析在医学研究中，经常需要对不同的类别进行比较，例如治疗组和对照组、男性患者和女性患者等。

此时可以使用卡方检验来判断两个或多个分类变量之间是否存在相关性或差异性。

2. 适用于观察数据和期望数据的拟合程度检验在一些医学实验中，我们会根据已知的理论分布假设，计算出期望的数据分布情况。

然后通过卡方检验来判断实际观察到的数据与期望数据之间的拟合程度。

二、t检验的使用场景1. 适用于两组数值型数据的均值比较在医学实验或临床研究中，我们常常需要比较两组数值型数据的均值，例如药物治疗组和安慰剂对照组的疗效比较。

此时可以使用t检验来判断两组数据的均值是否有显著差异。

2. 适用于独立样本和配对样本的比较根据样本数据的不同特点，t检验可以分为独立样本t检验和配对样本t检验。

独立样本t检验适用于两组数据之间的比较，而配对样本t检验适用于同一组数据在不同条件下的比较。

三、卡方检验和t检验的实际例题下面我们通过具体的实例来进一步说明卡方检验和t检验的使用方法。

例题一：卡方检验某医院对两种不同治疗方案的疗效进行比较，收集了100例患者的数据，其中治疗方案A的疗效有效的有60例，无效的有40例；治疗方案B的疗效有效的有45例，无效的有55例。

现在需要使用卡方检验来判断两种治疗方案的疗效是否存在显著差异。

解析：（1）建立假设H0：两种治疗方案的疗效没有显著差异H1：两种治疗方案的疗效存在显著差异（2）计算卡方值根据实际观察到的数据和期望数据，计算出卡方值，并查找卡方分布表得到显著性水平。

（3）判断结果根据计算得到的卡方值和显著性水平，判断是否拒绝原假设，从而得出结论。

例题二：t检验某药厂新研发了一种降压药，为了评价其降压效果，随机选择了30名患者接受治疗，并记录治疗前后的收缩压数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

பைடு நூலகம்
笃学
精业
修德
厚生
6
2 ( A T ) 2值的大小还取决于个数的多少（严 T 2 ( A T ) 格地说是自由度的大小）。由于各皆是 T 2
正值，故自由度愈大，值也会愈大；所以只 2 值才能正确地反映有考虑了自由度的影响，
实际频数 A和理论频数 T 的吻合程度。检验时，要根据自由度查 2 界值表。当 2≥ 2时， P , ,
2 中，若拒绝无效假设
H0只能做出总的结论，但还不知道哪两
个率之间有差别。若想知道哪两个率之间
有差别，还要进行两两比较，本节介绍两
两比较的方法之一：行×列表的分割。
笃学
精业
修德
厚生
30
4.行×列表的分割（一）多个实验组间的两两比较由于要做重复多次的假设检验，需对第Ⅰ 类错误作校正，新的校正检验水准为：
第七章掌握内容：
2 检验
1．检验的基本思想和用途 2．成组设计四格表资料检验的计算及应用条件
3．配对设计四格表资料检验 4．行列表资料检验及应用时应注意的问题 5．频数分布拟合优度的检验了解内容 1．四格表资料的Fisher精确概率法的基本思想与检验步骤
笃学精业修德厚生
2 检验是一种用途很广的假设检验方
处理组 1 2 属性阳性阴性合计
合计
a (T11) c (T21) m1
b (T12) d (T22) m2
n1(固定值) n2(固定值) n
要想知道处理组1，2之间差别是否有统计学意义，常用 2 检验统计量来作假设检验。
笃学精业修德厚生
5
其基本公式为：

2
(A T) T
③多个样本的构成比比较，以及双向无序分类资料
关联性检验时，有R行C列，称为 R C 表。
以上3种情况可统称为行×列表资料。
笃学
精业
修德
厚生
26
2 2 行×列表资料的检验仍可用Pearson 公式，
但用下列专用公式，计算简单， 2 A 2 n( 1) ， (行数-1)(列数-1) n R nC 1. 多个率的比较例 2. 多个构成比的比较例
笃学精业修德厚生
28
(二)．多个样本率比较，若所得统计推断为拒绝H0，接受H1时，只能认为各总体率之间总的来说有差别，但不能说明任两个总
体率之间皆有差别。要进一步推断哪两总
体率之间有差别，需进一步做多个样本率的多重比较。
笃学
精业
修德
厚生
29
4.行×列表的分割
在行×列表的
2 时，拒绝 H 0 ，接受 H 1；当 2 P ，尚没有 , 理由拒绝 H 0 。而自由度 1。
笃学
精业
修德
厚生
7
2 二、检验的检验步骤
1．建立检验假设 H 0 ： 1 2 ，两总体率相等
H1 ： 1 2 ，两总体率不等
0.05
笃学
精业
修德
厚生
10
两样本率比较的资料，既可用
u 检验
也可用 2检验来推断两总体率是否有差别，
且在不校正的条件下两种检验方法是等价的，
对同一份资料有
u 2。 2
笃学
精业
修德
厚生
11
例为了解铅中毒病人是否有尿棕色素增加现象，分别对病人组和对照组的尿液作尿棕色素定性检查，结果见下表，问铅中毒病人与对照人群的尿棕色素阳性率差别有无统计学意义？
精业
防护服种类
合计 15 28 43
新
旧合计
笃学
32
修德
厚生
14
本例n>40，因有一格子的理论数＜5，因而要 2 用校正检验。
H0:两组工人皮肤炎总体患病率相等，即 1 2
H1:两组工人皮肤炎总体患病率不等，即 1 2
0.05
校正 2 值为：
2 2 (| 1 3 . 84 | 0 . 5 ) (| 14 11 . 16 | 0 . 5 ) 2 3.84 11.16 (| 10 7.16 | 0.5) 2 (| 18 20.84 | 0.5) 2 7.16 20.84 2.94
2
（7.1）
2 ( A T ) 理论频数的吻合程度，其中反映了某个格子 T
2 由公式(7.1)可以看出：值反映了实际频数与
实际频数与理论频数的吻合程度。若检验假设 H 0 成
立，实际频数与理论频数的差值会小，则 2值也
论频数的差值会大，则值也会大。
2
会小；反之，若检验假设H 0不成立，实际频数与理

N , k ( k 1) N 2
笃学
精业
修德
厚生
31
例：某医师分别用西药，中药和中西药
结合治疗恶性肿瘤，结果如下表：
表
对比组西药组中药组中西药结合组合计
三种疗法效率
有效 51 35 59 145 无效 49 45 15 109 合计 100 80 74 254
笃学精业修德厚生
13
例2 某矿石粉厂生产一种矿石粉时，在数天内即有部分工人患有职业性皮肤炎。后随机抽取15名工人穿新防护服，其余仍穿原用的防护服，一个月后检查两组工人的皮肤炎患病情况，资料见下表，问两组的患病率差别有无统计学意义？表穿新旧防护服工人的皮肤炎患病比较皮肤炎症阳性数阴性数 1（3.84） 14（11.16） 10（7.16） 18（20.84） 11
用专用公式：
2 2 ( ad bc ) n ( 29 28 7 9 ) 73 2 (a b)(c d )(a c)(b d ) 36 37 38 35 23.12
下结论： 2 以 =1查界值表， P 0.05 ，按 0.05 检验水准拒绝H 0，接受H ，可认为两总体率不同； 1
bc 2 bc 2 [b ] [c ] 2 2 2 bc bc 2 2
化简后得到，2 统计量的计算公式为:
2
笃学
(b c )2 bc
精业修德厚生
20
若 b c 40, 需对上述公式校正, 校正公式为：
(| b c | 1) bc
H0 ： B C ，即两种方法的总体检测结果相同
B C ，即两种方法的总体检测结果不相同 H1 ： 0.05
2. 计算统计量由于 b c 28 40 ，需作连续性校正，计算卡方值：
2 (| 22 6 | 1 ) 2 8.04 22 6
笃学
精业
笃学精业修德厚生
27
2 3. 行×列表资料检验的注意事项
（一）．一般认为，行×列表中的理论频数不应小于1，或 1 T 5 的格子数不宜超过格子总数的 1 / 5。若出现上述情况，可通过以下方法解决：①最好是增加样本含量，使理论频数增大；②根据专业知识，考虑能否删去理论频数太小的行或列，能否将理论频数太小的行或列与性质相近的邻行或邻列合并；③ 改用双向无序表的Fisher确切概率法（可用 SAS软件实现）。
修德
厚生
23
3. 作出统计推断 ……
笃学
精业
修德
厚生
24
第三节
行×列表的χ2检验
行×列表资料的检验，用于多个样本
率的比较、两个或多个构成比的比较、以
及双向无序分类资料的关联性检验。其基
本数据有以下3种情况：
笃学
精业
修德
厚生
25
第三节
行×列表的χ2检验
①多个样本率比较时，有R行2列，称为 R 2 表； ②两个样本的构成比比较时，有2行C列，称为 2 C 表；
（2）当总例数 n 40且只有一个格子的 1 T 5 时：用四格表资料 2检验的校正公式；或改用四
格表资料的Fisher确切概率法。
校正公式校正公式
笃学
c2
( A T 0.5) 2 T
n 2 ( |ad-bc|2) n 2 c = (a+b)(c+d)(a+c)(b+d)
法。本章只介绍它在分类变量资料中的应用，
即推断两个及多个总体率或总体构成比之间
有无差别，两种属性或两个变量之间有无关
联，以及频数分布的拟合优度检验等。
笃学
精业
修德
厚生
2
第一节四格表资料的2 检验一、检验的基本思想以两样本率比较的检验为例，介绍
2 2
检验的基本思想。
2 分布是一种连续型分布，它的形状依赖于自由度的大小，当自由度 ≤2时，曲线呈L型；随着的增加，曲线逐渐趋于对称；当自由度 →∞时, 分布趋向正态分布。 2 分布具有可加性。
可见，两个变量阳性率的比较只和 b 、
ab ac bc ＝－＝ n n n
而与
a 、d
无关。
c
有关，
H0 ： B C ，即两种方法的总体检测结果相同
B C ，即两种方法的总体检测结果不相同 H1 ： 0.05
笃学
精业
修德
厚生
19
若H0 成立，变量1与变量2所示的结果不一致的两个格子理论频数都应该是 (b c) / 2 基本思想得：。由2 检验
表
组别铅中毒病人
两组人群尿棕色素阳性率比较