统计学-卡方检验

合集下载

医学统计学6卡方检验

进行拟合优度 x2 检验，一般要求有足够的样本含量，理论频数不小于 5 。
1
理论频数小于 5 时，需要合并计算。
2
注意事项
2
独立样本四格表的x2检验
3
行×列的x2检验
1检验
4
配对设计分类资料的x2检验
x2检验
四格表的卡方检验，也是通过计算代表实际频数A与理论频数T之间的吻合程度的卡方值来进行检验的。
行×列卡方检验计算公式
n为总例数；R和C分别为行数和列数；A为第R行、第C列位置上的实际频数；nR为实际频数所在行的行合计；nC为实际频数所在列的列合计。
STEP4
STEP3
STEP2
STEP1
SPSS软件操作
定义变量
输入原始数据
定义频数
选择数据→加权个案频数→加权个案（频数变量）
输出2种相关系数： pearson相关系数 spearman相关系数
列联系数：分析行与列之间的关联程度
03
04
02
01
第4步：x2检验（2）
选择统计量按钮
在交叉表：统计量对话框：勾上卡方
第4步：x2检验（3）
选择单元格按钮在交叉表：单元显示对话框：勾上观察值、百分比：行、列
第5步：结果解读（1）
如果出现上述情况，可以考虑：增大样本量；根据专业知识合理地合并相邻的组别；删除理论数太小的行列；改用其它方法分析，例如确切概率法或似然比卡方检验。
02
同四格表资料一样，R×C表的卡方分布是建立在大样本的假定上的，要求总例数不可过少，不能有1/5以上的格子理论频数小于5，且不能有一个格子的理论频数小于1。
01
行×列表卡方检验注意事项
行×列表卡方检验注意事项

卡方检验在统计学中的应用

公式
根据不同的理论分布，拟合优度卡方检验的公式也有所不同，但基本思路是计算样本数据与理论分布之间的差异程度。
应用场景
例如，判断某地区居民的身高是否符合正态分布。
03 卡方检验在统计学中的应用场景
分类变量间关系的研究
研究两个分类变量之间的关系，判断它们是否独立。通过卡方检验可以比较观测频数与期望频数的差异，从而判断两个分类变量之间是否存在关联或因果关系。
公式
与独立性卡方检验类似，但计算的是同一观察对象在不同条件下的实际观测频数与期望频数的差异程度。
应用场景
例如，判断某药物在不同剂量下的疗效是否一致。
拟合优度卡方检验
定义
拟合优度卡方检验用于检验一个样本数据是否符合某个理论分布或模型。假设有一组样本数据，拟合优度卡方检验的目的是判断这组数据是否符合正态分布、二项分布等理论分布。
数据来源
市场调查中的消费者数据，包括消费者的年龄、性别、收入等信息以及他们对某一产品的评价和偏好。
分析方法
使用卡方检验分析不同消费者群体对同一产品的偏好程度，判断是否存在显著性差异。
结果解释
如果卡方检验结果显著，说明不同消费者群体对同一产品的偏好程度存在显著差异；如果结果不显著，则说明消费者偏好较为接近。
它通过计算观测频数与期望频数之间的卡方值，评估两者之间的差异是否具有统计学显著性。
卡方检验常用于分类数据的分析，如计数数据和比例数据。
卡方检验的基本思想
1 2
基于假设检验原理
卡方检验基于假设检验的基本思想，首先提出原假设和备择假设，然后通过样本数据对原假设进行检验。
比较实际观测与期望值
要点二
自由度

生物统计学—卡方检验

独立性检验
步骤： 1. 提出无效假设，即认为所观测的各属性之间
没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值，
再和计算的卡方值进行比较。如果接受假设，则说明因子之间无相关联，
是相互独立的如果拒绝假设，则说明因子之间的关联是显
著的，不独立
一、2X2列联表的独立性检验
设A、B是一个随机试验中的两个事件，其中A可能
出现r1、r2个结果，B可能出现c1、c2个结果，两因子相互作用形成4个数，分别以O11、O12、O21、 O22表示，即
2X2列联表的一般形式
r1 r2 总和
c1 O11 O21 C1＝O11＋O21
c2 O12 O22 C2＝O12＋O22
解：（1）假设 H0 : 鲤鱼体色F2性状分离符合3:1 对 H A : 鲤鱼体色F2性状分离不符合3:1
（2）选取显著水平 0.05
（3）检验计算：计算鲤鱼体色的理论值
体色 F2理论尾数
青灰色 1201.5
红色 400.5
总数 1602
k
cc2 i 1
Oi Ei
0.5 2 301.63
1
2
2
xx
将样本方差代入，则：c
2
(k
1) s 2
2
其c2服从自由度为(k-1)的卡方分布
卡方函数的使用
假设
H 0:
2
2 0
,
适用右尾检验，其否定区为： c 2 c2
假设
H
0:
2
2 0
,
适用左尾检验
，其否定区为：
c
2
c2 1
假设

卡方检验医学统计学

卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一，它可用于测量两组数据之间的关联性。

在研究中，我们常常需要探究二者之间是否存在某种关联，卡方检验就是我们解决这个问题的利器。

卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。

期望频数指的是在假设两个变量独立的情况下，我们可以根据样本量和其他条件，计算出不同组之间的理论值。

而实际频数则是实验中观察到的实际结果。

卡方检验的步骤如下：1.建立零假设和备择假设。

零假设指的是假设两个变量之间不存在任何关系，备择假设则是反之。

2.确定显著性水平 alpha，通常取值为0.05。

3.构建卡方检验统计量。

计算方法为将所有观察值与期望值的差平方后，再除以期望值的总和。

4.根据自由度和显著性水平，查卡方分布表得到 P 值。

5.如果 P 值小于显著性水平，拒绝零假设；否则无法拒绝零假设。

卡方检验的应用卡方检验可以应用于多个领域，其中医学统计学是最为常见的一个。

卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。

举个例子，某药厂要研发一种新的药物来治疗心脏病。

为了验证该药的疗效，实验组和对照组各50 人。

在 6 个月的治疗后，实验组和对照组中分别有 10 人和 15 人痊愈了。

卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。

除了医学统计学之外，卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。

卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中，但它也有着自己的限制。

其中比较明显的一点就是对样本量有一定的要求。

当样本量较小的时候，期望频数的计算就会出现一定的误差，进而导致检验结果不准确。

此外，在面对非常态分布数据时，卡方检验也会出现问题。

当数据呈现正态分布时，卡方检验的准确性最高。

然而，实际上，很多数据都呈现出非正态分布，这时需要使用一些修正方法来解决。

卡方检验是医学统计学中最常用的统计方法之一，它可以用来测量两个变量之间的关联性。

统计学-第十二章卡方检验

总体分布形态已知或可假定，通常假设观察频数服从多项分布。
避免误用与误判的建议
充分理解卡方检验的原理和适用条件，避免在不满足条件的情况下使用。
结合专业知识判断观察频数与期望频数的差异是否具有实际意义，避免过度解读统计结果。
ABCD
在进行卡方检验前，对数据进行充分的描述性统计分析，了解数据的分布特点。
统计学-第十二章卡方检验
目录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$，则它们的平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自由度为$n$的卡方分布，记为$chi^2(n)$。
期望和方差
$E(X) = n$，$D(X) = 2n$，其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮，运行卡方检验分析。
结果解读与报告撰写
结果解读
根据卡方检验的结果，判断各组分类数据的分布是否存在差异，以及差异的显著性水平。
报告撰写
将分析结果以文字、表格和图表的形式呈现出来，包括研究目的、数据收集与整理过程、卡方检验结果和结论等部分。同时，需要
注意报告的规范性和可读性。

统计学卡方检验

个体化干预
根据分析结果，为患者提供个体化的干预措施，提高生存质量。
06
卡方检验注意事项及局限性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求，通常建议每个单元格的期望频数不小于5，以确保检验结果的稳定性和可靠性。当样本量不足时，可能会导致检验效能降低，增加第二类错误的概率。
抽样方法选择
在进行卡方检验时，应选择合适的抽样方法。简单随机抽样是最常用的方法，但在某些情况下，如分层抽样或整群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时，可以考虑合并相邻的类别，以增加期望频数。合并类别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验，如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件，如样本量足够大、每个单元格的期望频数不宜过小等。此外，对于有序分类变量或存在空单元格的情况，需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法，用于推断两个或多个分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时，可以采用等距分组、等频分组或基于数据分布的分组方法。选择合适的分组界限有助于保持各组之间的均衡性，减少信息损失。

卡方检验的计算公式

卡方检验的计算公式卡方检验是一种在统计学中常用的方法，用于检验两个或多个分类变量之间是否存在显著的关联。

那咱们就先来瞅瞅卡方检验的计算公式到底是啥。

卡方检验的计算公式是：$\chi^2 = \sum \frac{(O - E)^2}{E}$ 。

这里的“$\chi^2$”就是咱们说的卡方值啦。

其中，“$O$”表示实际观测值，“$E$”表示理论期望值。

我给您举个例子哈。

比如说咱们想研究一下，学生们的课外活动偏好和他们的性别有没有关系。

咱们把学生分成男生和女生两组，课外活动呢，分成运动、阅读、艺术这几类。

通过调查咱们得到了实际的参与人数，这就是“$O$”。

然后呢，根据总体的比例，咱们能算出每个组在每种活动中理论上应该有的人数，这就是“$E$”。

就拿运动这一项来说，假设咱们调查了 200 个学生，其中 120 个男生，80 个女生。

实际观察到有 80 个男生喜欢运动，40 个女生喜欢运动。

按照总体比例，如果男生和女生对运动的喜欢没有差别，那理论上应该有 120×（80 + 40）÷ 200 = 72 个男生喜欢运动，48 个女生喜欢运动。

这 72 和 48 就是“$E$”。

而实际的 80 和 40 就是“$O$”。

然后咱们把每个类别（运动、阅读、艺术）的“$(O - E)^2 / E$”都算出来，再加在一起，就得到了卡方值。

卡方值算出来以后呢，咱们还要去对照卡方分布表，根据自由度和咱们设定的显著性水平（比如 0.05），来判断这个卡方值是不是足够大，从而得出两个变量之间是不是存在显著的关联。

在实际运用中，卡方检验可有用啦！我记得有一次，我们学校想了解学生们对于新开设的兴趣课程的选择是否和他们所在的年级有关。

我们就用卡方检验来分析。

那时候，大家都忙得晕头转向，收集数据、整理数据，然后再进行计算。

我和同事们对着那些数字，眼睛都快看花了。

不过当最后得出结论，发现不同年级的学生在兴趣课程选择上确实存在显著差异的时候，那种成就感真是没得说！总之啊，卡方检验的计算公式虽然看起来有点复杂，但只要咱们多琢磨琢磨，多拿实际例子练练手，就能熟练掌握，为咱们的研究和分析提供有力的支持！。

医学统计学——卡方检验

趋近于正态分布。
• ⑵χ2分布具有可加性：如果两个独立的随机变量X1和X2分别服从ν1和ν2的χ2分布，那么它们的和(X1＋X2)也服从(ν1＋ ν2)的χ2分布。
χ2 界值
• ν确定后，如果分布曲线下右侧尾部的面积为α时，则横轴上相应的χ2值就记作χ2 α，ν ，即χ2界值。其右侧部分的面积α表示：自由度为ν时， χ2值大于界值的概率大小。χ2值与P值的对应关系见χ2界值表(附表6)。χ2值愈大，P 值愈小；反之，χ2值愈小，P值愈大。
• T22=(c+d)×(1- PC)=(c+d)×(b+d)/n = 56×17/112=8.5
χ2检验的基本思想
• χ2检验实质上是检验A的分布与Ｔ的分布是否吻合及吻合的程度，χ2越小，表
明实际观察次数与理论次数越接近。
• 若检验假设成立，则Ａ与Ｔ之差不会很大，出现大的χ2值的概率Ｐ是很小的，若Ｐ≤α，就怀疑假设成立，因而拒绝它；若Ｐ＞α，则没有理由拒绝它。
不同自由度的χ2分布曲线图
图 8-1 不同自由度的χ2 分布曲线图
二、χ2检验的基本思想
• 例8-1 某中医院将112例急性肾炎病人随机分为两组，分别用西药和中西药结合方法治疗，结果见表8-1，问两种方法的疗效有无差别？
表8-1 两种方法治疗急性肾炎的结果
组别治愈例数未愈例数合计治愈率(%)
例8-2
• 某医师将门诊的偏头痛病人随机分为两组，分别采用针灸和药物两种方法治疗，结果见表8-3 ，问两种疗法的有效率有无差别？
两种疗法对偏头痛的治疗结果
疗法有效例数无效例数合计有效率(%)
针灸 33(30.15) 2(4.85) 35 94.29

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第八章 2 检验
可用于单个频数分布的拟合优度检验，两组定性资料（两率、两构成比）的差异检验、关联性检验，多组定性资料（多个率、多个构成比）的差异检验、配对设计定性资料的差异检验、列联表资料的差异检验、关联性检验，多个方差的齐性检验等。
第一节独立样本四格表资料的 2检验
2检验不仅可以用于推断单个样本的频率分布是否等于某种给定的理论分布，还可以检验两个样本的总体分布是否相同。
N3
第三节配对设计资料的 2检验
可用于配对设计定性资料的差异检验、关联性检验。
一、配对 22 列联表资料的 2 检验
8-8
例8-5（P156）。
表8-7 两种检验方法检验结果比较
甲法
乙法
合计
+
-
+
80（a） 10（b）
90
-
31（c） 11（d）
42
合计
111
21Leabharlann 1322
32.74

2
0.005,2
10.60
P 0.005
按 0.005 检验水准，拒绝 H0 ，可以认为这三种药物的治疗效果不同或不全相同。
（三）多个独立样本频率分布的比较
例8-4试分析儿童急性白血病患者与成年人急性白血病患者的血型分布（表8-6）有无差别？
表8-6 儿童急性白血病患者与成年人急性白血病患者的血型分布
有效 35 20 7
无效 5 10 25
合计 40 30 32
有效率（％） 87.50 66.67 21.88
合计
62
40
102
60.78
H0 :1 2 3, 即三种治疗方法的疗效相同
H1:1, 2,3, 不同或不全相同
a 0.05
＝32.74
查附录三附表8， 02.005,2 10.60
AR1(TR1)
AR2(TR2)
… YC
…
A1C (T1C )
… A2C (T2C )
…
…
…
ARC (TRC )
合计
n1(固定值) n2(固定值)
…
nR (固定值)
合计
m1
m2 …
mc
n
统计量公式：
（二）多个独立样本频率的比较（例8-3）
表8-5三种不同治疗方法治疗慢性支气管炎的疗效
组别 A药 B药 C药

表示检验水准修正值N N 表示两两比较需进行检验的次数
N

k2

k! 2!(k 2)!
k(k 1) 2
k 表示比较的组数
例8-3的两两比较需把表8-5分解成3个四格表
N k! 3! 3 2!(k 2)! 2!(32)!
0.05 0.017
分组
A型
儿童
30
B型
O型
38
32
AB型 12
合计 112
成人
19
30
19
9
77
合计
49
68
51
21
189
H0 : 儿童急性白血病患者与成年人急性白血病患者的血型分布相同
H : 儿童急性白血病患者与成年人急性白血病患者的血型分布不相同 1
a 0.05
＝0.695
v (21)(41) 3
应选用Fisher确切概率法。
例8-2（P153）。
8-3
T11

1216 40

4.8
2141014 40 240
2
2 2.62
12281624
查 2界值表（附录三附表8）得 02.10(1) 2.71
2 02.10(1)
P 0.10
ni 为 i 行的合计数
n 为总的合计数
T11

85115 169
57.84
T21

84115 169

57.16
T12

8554 169

27.16
T22

8454 169

26.84
x2 (AT ) T
(6457.84)2 (2127.16)2 (5157.16)2 (3326.84)2 4.13
按 0.05检验水准，不拒绝H0 ，尚不能认为
两种治疗方案的总体缓解概率不同。
第二节独立样本R×C列联表资料的 2 检验
（一）R×C列联表 2 检验的基本思想和计算步骤
处理
1 2 … R
表8-4 独立样本R×C列联表
属性
Y1
A11(T11) A21(T21)
Y2
A12(T12) A22(T22)
查附录三附表8，02.75,3 1.21 P 0.75
按 0.005 检验水准，不拒绝 H0 ，尚不能认为儿童急性白血病患者与成年人急
性白血病患者的血型分布不相同
两两比较按四格表的 2检验处理，只是水准需按以下公式
进行调整。由于：(10.05)m 0.95 所以被增大
一、 22列联表 2检验的基本思想
表8-2 独立样本资料的四格表
组别
甲乙合计
属
Y1
a(T11) a(T21)
m1 ac
性
Y2
b(T12) b(T22)
m2 b d
合计
n1 a b（固定值）
n2 a b(固定值)
nabcd
T 为理论数，根据 H0计算，即
Tij为 i 行 j列的理论数 m j为 j列的合计数
例8-1（P150）。表8-1两种药物治疗消化道溃疡4周后疗效
处理
愈合未愈合合计
愈合率（％）
奥美拉唑 64（57.84） 21（27.16） 85
75.29
雷尼替丁 51（57.16） 33（26.84） 84
60.68
合计 115
54
169
68.05
基本格子只有四个的列联表称为四格表（four fould table），或 22 表。
四格表专用公式：
例8-1按该式得：
x2
(64332151)2169
4.13
(6421)(5133)(6451)(2133)
适用条件：1. n 40 2 . T 5
计算最小理论数即可确定。
当资料条件：1. n 40
需校正：
2.5 T 1
当资料条件：1. n 40 2. 或 T 1
57.84
27.16
57.16
26.84
(R1)(C1) R表示行数 C表示列数
R
查 2界值表（附录三附表）得
2 4.13 02.05,1 3.84
02.05,13.84
故P 0.05
按 0.05检验水准，拒绝 H0，接受 H1，两样本频率
的差异优统计学意义。因为奥美拉唑的愈合率为75％，雷尼替丁的愈合率为60.71％，可以认为奥美拉唑的愈合率比雷尼替丁的愈合率高。