第十二章卡方检验

合集下载

统计学-第十二章卡方检验

总体分布形态已知或可假定，通常假设观察频数服从多项分布。
避免误用与误判的建议
充分理解卡方检验的原理和适用条件，避免在不满足条件的情况下使用。
结合专业知识判断观察频数与期望频数的差异是否具有实际意义，避免过度解读统计结果。
ABCD
在进行卡方检验前，对数据进行充分的描述性统计分析，了解数据的分布特点。
统计学-第十二章卡方检验
目录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$，则它们的平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自由度为$n$的卡方分布，记为$chi^2(n)$。
期望和方差
$E(X) = n$，$D(X) = 2n$，其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮，运行卡方检验分析。
结果解读与报告撰写
结果解读
根据卡方检验的结果，判断各组分类数据的分布是否存在差异，以及差异的显著性水平。
报告撰写
将分析结果以文字、表格和图表的形式呈现出来，包括研究目的、数据收集与整理过程、卡方检验结果和结论等部分。同时，需要
注意报告的规范性和可读性。

卫生统计学卡方检验

卫生统计学卡方检验
26/94
(一) 多个样本率比较
例3 某研究者欲比较A、B、C 三种方案治疗轻、中度高血压疗效，将年纪在50~70岁240例轻、中度高血压患者随机等分为3组，分别采取三种方案治疗。一个疗程后观察疗效，结果见表11.4。问三种方案治疗轻、中度高血压有效率有没有差异？
卫生统计学卡方检验
卫生统计学卡方检验
29/94
④ 确定P值
υ＝(3－1)(2－1)＝2，查 2 界值表得P<0.01。
⑤ 下结论
因为P<0.01，按α=0.05水准，拒绝H0，接收 H1，差异有统计学意义。即可认为三种方案治疗轻、
中度高血压有效率不等或不全等
卫生统计学卡方检验
30/94
例某市重污染区、普通污染区和农村出生婴儿致畸情况以下表，问三个地域出生婴儿致畸率有没有差异？
① 建立假设 H0：π1=π2 H1：π1≠π2
② 确定检验水准
α=0.05
③ 计算统计量 2 值
2(2 62-73 6-7 1/2 )27 12 .7 5 3 33 86 29
④ 确定P值
υ＝(2－1) (2－1)＝1，查 2界值表得P>0.05。
卫生统计学卡方检验
24/94
⑤ 下结论因为P>0.05，按α=0.05水准，不拒绝H0，差异无统计学意义。尚不能认为甲、乙两疗法对小儿单纯性消化不良治愈率不等。
9/94
TRC
nR nC n
n R 为对应行累计
n C 为对应列累计
n 为总例数。
卫生统计学卡方检验
10/94
表1 两药治疗消化道溃疡4周后疗效
卫生统计学卡方检验
11/94

统计学卡方检验

个体化干预
根据分析结果，为患者提供个体化的干预措施，提高生存质量。
06
卡方检验注意事项及局限性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求，通常建议每个单元格的期望频数不小于5，以确保检验结果的稳定性和可靠性。当样本量不足时，可能会导致检验效能降低，增加第二类错误的概率。
抽样方法选择
在进行卡方检验时，应选择合适的抽样方法。简单随机抽样是最常用的方法，但在某些情况下，如分层抽样或整群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时，可以考虑合并相邻的类别，以增加期望频数。合并类别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验，如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件，如样本量足够大、每个单元格的期望频数不宜过小等。此外，对于有序分类变量或存在空单元格的情况，需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法，用于推断两个或多个分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时，可以采用等距分组、等频分组或基于数据分布的分组方法。选择合适的分组界限有助于保持各组之间的均衡性，减少信息损失。

9 第十二章卡方检验(一)

确切概率法计算公式
在四格表的周边合计不变的条件下 , 用下式直接计算表内四个数据的各种组合之概率。的各种组合之概率。式中a、b、c、d为四格表的实际频数
(a+b)!(c+d)!(a+c)!(b+d)! P= a!b c!d!n ! !
四格表资料的精确检验法基本步骤
1、建立假设 Ho：假设差别是由抽样误差引起的 H1：假设差别是本质上存在的确定显著性水准：２、确定显著性水准：α＝0.05 ３、计算确切概率P 周边合计不变，列出各种组合的四格表；（1）周边合计不变，列出各种组合的四格表；计算各个四格表的| （2）计算各个四格表的|A-T|值；样本| （3）求|A-T|值≥样本|A-T|值的所有四格表的Pi 值； Pi=(a+b)!(c+d)!(a+c)!(b+d)!/[a!b!c!d!n!] （4）求出确切概率P：P＝ΣPi 结果判断：４、结果判断：在事先确定的显著性水准α下作出专业结论。出专业结论。
行×列表资料χ2检验时的注意事项
1、行×列表资料χ2检验对资料的要求是：不宜有1／5以上检验对资料的要求是：不宜有1 格子的理论数小于5 且理论数应大于1 格子的理论数小于 5 ，且理论数应大于 1 ，若发生上述情可选用下述三种处理方法三种处理方法：况，可选用下述三种处理方法： ① 适当增大样本含量以增大理论频数；增大理论频数； ② 将理论数过小的格子所在的行或列与性质相近的行或列中的实际数合并，性质相近的行或列中的实际数合并，使重新计算的理论数增大；删去理论数过小的行或列。数增大； ③ 删去理论数过小的行或列。后两种处理方法有可能损失资料信息，且可能破坏样本随机性，有可能损失资料信息，且可能破坏样本随机性，故不宜常规使用。常规使用。 2、当试验效应按照强弱分为若干个级别，试验结果可整理当试验效应按照强弱分为若干个级别，为单向有序行×列表资料，为单向有序行 × 列表资料，在比较各处理组间的效应有无差别时，宜选用秩和检验、Ridit分析趋势检验等，分析、无差别时，宜选用秩和检验、Ridit分析、趋势检验等，检验只能说明各组构成比的差别有无显著性。如作χ2检验只能说明各组构成比的差别有无显著性。 3、多个样本率或多个构成比的χ2检验，结果有显著性意义检验，只能认为总体率或总体构成之间总的来说有差别，时，只能认为总体率或总体构成之间总的来说有差别，不能说明两两之间皆有差别，不能说明两两之间皆有差别，若要对每两个率或每两个构成比进行比较，应采用行× 构成比进行比较，应采用行×列表的χ2分割法或者采用其它率或构成比的多重比较。其它率或构成比的多重比较。

医学统计方法之卡方检验PPT课件

3、查界值表，确定P值，做出推断结论
查χ2界值表，υ=6，χ20.05（6）=12.59， χ2 > χ20.05（1） ,则 P<0.05，在α=0.05的水准下，拒绝H0，认为三个不同地区的人群血型分布总体构成比有差别。
.
38
二、多个样本率间多重比较
行×列表χ2检验的结果说明差异有统计学意义，需作两两比较时，先调整α值，再进行率的两两比较。
配对检验公式推导：
bc
（+，）和（，+）两个格子中的理论频数均为
2
b c 40时
2
(AT)2(b b c )2 2(c b c)22
T
bc
bc
2
2
(b c)2
bc
～ 2 分布
同理可得b c 40时
1
校正公式： 2 (| A T | 0.5)2 (| b c | 1)2
表8-5 两种培养基的培养结果
B培养基
A培养基
+
-
合计
+
48
24
72
-
20
106
126
合计
68
130
198
A 培养基 B培养基
痰标本 1 2 3 4 5 6 7 8 9 10 11 12 13 14
结果统计
A培养基 + + + + + + + + + + -
B培养基 + + + + + + + -
合计
145 109 254 57.09
1.建立检验假设并确定检验水准

第十二章卡方检验

果是：优8名、良20 良 20 21.5 2.25 0.10
名，中18名，差4名。中 18 21.5 12.25
试检验其评定的分布
差 ∑
4 50
3.5 50
0.25 —
与正态分布所期待的
2(3)0.05=7.81
结果有无显著差别？
0.57 0.07 6.53
例12-7：测得 551名学生的身高如下表。试问学生的实际身高是否符合正态分布？
148-150 80 149 –1.21 .21540 .12746 70
145-147 25 146 –1.70 .09400 .05562 31
142-144 139-141
8 143 –2.29 .02890 .01710 9 4 140 –2.88 .00670 .00396 121
∑ 551 －－
551
身高 f0 ft
2
169-171 0.125
2
18
166-168 7 7
163-165 22 23 0.043
160-162 57 60 0.150
157-159 110 104 0.471
154-156 124 130 0.277 151-153 112 114 11 0.035
148-150 80 70
求2
df=k-3 =9-
3=6 2(6)0.05=12.6
第三节独立性检验
• 定义：检验两个变量是独立的，还是相关的性。质：二元分类资料的χ 2检验。方法
r×c列联表的χ 2检验 2×2列联表的χ 2检验
一、r×c列联表的χ 2检验
例12-7：某小学三、四年级独立概括某种教
nr nc

卡方检验

2
三、独立性检验
独立性检验就是检验两个特征或两个分类标准是互相独立的还是互有联系的。用于独立性检验的数据一般整理成“列联表”的形式，即一个分类标准把数据分为若干列，另一个分类标准把数据分为若干行，行列交叉形成一个个的方格。每一行和每一列都有一个总计，书写在一行或一列的末尾，称为“边际总和”。所有边际总和加起来就是全部数据的个数或样本容量（ N）。
例如上表中的第一格A的期望次数为（A+B+C） ×（A+D）/N；第二格B的期望次数为（A+B+C） ×（B+E） /N；第四格的期望次数为（D+E+F） ×（A+D） /N，等等。按惯例，期望次数一般放在括号内，置于实际次数之后。第四步：用公式（12.1）计算χ2 ，即先计算每一格的，然后再把各格的结果累加。第五步：确定自由度：即行的数目减1乘以列的数目减1。第六步：在卡方分布表中查对应于α和df的临界值。如果χ2 大于临界值，就推翻零假设。
第四节
亚茨校正法2ຫໍສະໝຸດ 在独立性假设成立时， χ 接近卡方分布，如果期 2 望次数较大，而且列联表大于2×2 ，χ 就十分接近卡方分布，卡方检验就比较可靠。否则，如果期望次数过小（低于 5），列联表为 2×2 （自由 2 度为 1） χ 就会偏大，其分布就会偏离卡方分布，卡方检验也就不太可靠。在这种情况下，最好使用 “连续性校正” ，即通常所说的 “亚茨校正法” 。其实，对于2×2列联表，当期望次数不是很大时，最好都进行校正。
例如，在一个关于高考标准化试验的问卷调查中，有这样一个问题：大量采用客观选择题不利于考察学生的创造思维能力，我对这种观点： A.同意 B.一般 C.反对在所调查的500人中，有250人选在所A，150人选 B，100人选C（实际次数），那么选择三个答案的人数有没有显著差异呢？假如它们之间没有差异，那么500个被调查者在三个答案上的次数分布就应是一样的，即 500/3=166.7，这是期望次数。实际观察到的次数与根据假设所期望的次数是否吻合呢？

第10章--卡方检验-(Chi-PPT课件

备择假设：两变量之间有关联或差异显著，一般用文字叙述，不用统计符号。
例题：某学校对学生的课外活动内容进行调查，结果整理成下表：
-
18
应用举例一
女性男性总和
自我知觉
总和
过轻
过重
419
1995
2414
（786.78）（1627.22）
959
855
1814
（591.22）（1222.78）
1378
1995 1938.67
56.33 3173.41
1.37
5816 5816
0
2297.1 3
df=3-1=2 查表，0.05水平上临界值为5.99，故……
df=3-1=2 查表， 0.01水平上临界值为9.21
-
15
三、卡方独立性检验
（一）适用材料主要用于两个或两个以上因素多项分类的计数资料
分析。如果要研究的两个自变量之间是否具有独立性或有无关联或有无“交互作用”的存在，就要应用卡方独立性检验。如果两个子变量是独立的，无关联的，就意味着对其中一个自变量来说，另一个自变量的多项分类次数上的变化是在取样误差的范围之内。假如两个因素是非独立，则称两变量有交互作用。
第十二章非参数检验
-
1
一、参数与非参数检验
参数检验用于等比/等距型数据参数检验的前提：正态分布和方差同质
非参数检验不用对参数进行假设对分布较少有要求，也叫distributionfree tests 用于名义/顺序型数据
-
2
参数统计和非参数统计优缺点
• 参数统计优点：
对资料的分析利用充分统计分析的效率高
于等与临界值才显著），使用9或3均可 • 接受虚无假设

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 2.校正公式：当有一格的理论次数小于5且 n>40时。
χ =
2
N ( ad − bc − N / 2)
2
•
(a + b)(c + d )(a + c)(b + d )
（二）相关四格表的χ2检验相关四格表的χ
• 1一般计算公式为：一般计算公式为：
( A − D )2 χ2 =
A+ D A、D为前后两次实验或调查中
N 理论次数： f e = k N 为总数， k 为分类数或组数
χ =∑
2
k
( f0 − fe )
fe
2
例题10-1（P302） 10-2 10-4
• 2.与正态分布有无差异的配合度检验 2.与正态分布有无差异的配合度检验
• （1）非连续变量的配合度检验） • 理论次数的计算步骤理论次数的计算步骤： • 假设6个标准差包括了全体，每个等级所占的标准差为：6σ÷k(k为等级数)； • 依据各等级所占的标准差，查正态分布表，即得各个等级所占的概率；（例题10-3P303）
四、χ2检验所隐含的假设 χ
• • • • 1.不同的分类应具有独立性；不同的分类应具有独立性；不同的分类应具有独立性 2.观测数据相互独立；观测数据相互独立；观测数据相互独立 3.期望次数应尽量大；期望次数应尽量大；期望次数应尽量大有些认为应大于5，有些认为应大于10；有些认为应大于，有些认为应大于；当理论次数过小时，应尽量避免使用χ 当理论次数过小时，应尽量避免使用χ2 检验。检验。
f e = p * N ( p 各等级所占的概率
)
（2）连续变量分布的假设检验
• 对于连续随机变量分布的假设检验，其关键步骤是：计算理论次数计算理论次数（fe）与确定计算理论次数自由度（df）。自由பைடு நூலகம் • 计算理论次数计算理论次数是根据所选理论分布函数，按实际分布的统计量带入函数式计算各分组区间的理论频率，然后乘以总数即为各分组区间的理论次数。 • 确定自由度确定自由度是将分组的数目减去计算理论次数时所用统计量的数目。
fe = p × N
(1) − X
(1) (2) (3)
(1) − X
S
根据Z查正态分布表
(4)
(5)
(6)
(7)
(8)
？
• 3.比率或百分数的配合度检验（例题10-6P307） 3.比率或百分数的配合度检验
理论次数 ( 率 )： f e = k 为分类数或组数 100 k
χ =
2
∑
k
( f0 − fe )
• 3.确定自由度 3.确定自由度 • df=(R-1)(C-1) • 4.选择检验方法 4.选择检验方法
χ2 =
∑
( f0 −
fe
fe )
2
简便计算公式为：
χ2
f 02i ∑ = N − 1 f xi f yi
5.结果与解释 5.结果与解释
通过比较两个卡方值的大小作出决断 χ2值与值的对应关系，通过查附表 χ2α,υ界值表值与P值的对应关系通过查附表12 值的对应关系，得到，详见教材得到，详见教材474页。页
fe
2
三、二项分类的配合度检验与比率显著性检验的一致性
假设p = q, x = f 0 , µ = f e , 当np > 5时，比率显著性检验的公式为： p − pe x−µ f0 − fe Z= = = p0 q0 np0 q0 1 fe • 2 n 而χ 2 = Z 2 = ∑ x−µ =∑ σ
第十二章χ2检验
• 掌握 • 卡方检验的基本公式 • 理论次数的计算技巧
本章考研知识点（2011）
• • 1．拟合度检验 2．独立性检验
• • • • •
第一节χ 第一节χ2检验概述第二节配合度检验第三节独立性检验第四节同质性检验与数据合并第五节相关源分析
第一节χ 第一节χ2检验概述
方法一
• 根据概率计算的方法和乘法定理可以算出a、 b、c、d四格的理论次数理论次数 • fa=(a+b)(a+c)/N fb=(a+b)(b+d)/N • fc=(a+c)(c+d)/N fd=(c+d)(b+d)/N • 确定自由度df＝（2-1）*（2-1）＝1，因为计算理论次数涉及总数总数
六、应用χ2检验应注意抽样设计应用χ
统计分析在依据样本的信息对总体进行推论时，统计分析在依据样本的信息对总体进行推论时，样本的代表性和对最根本的一个环节是确保样本的代表性和对实验的最根本的一个环节是确保样本的代表性和对实验的良好的控制。良好的控制 • 在心理与教育研究中，所收集到的数据有些是属于定性的。获得这些数据的方式是通过调查访问和问定性卷，所收集到的数据仅仅是回顾性研究，多数情况下难于对被试进行控制。又由于各种限制可能会遇到有严重缺陷的样本，所以一定要注意取样的代表性尽量避免出现有偏样本，在进行统计推论时要特别小心。 •
• 关于本书（P306）例题的说明说明
• （1）为了计算理论次数必须根据正态曲线下某一组别所占的概率，然后用概率乘以总数（P×N）才能求得各组的理论次数。 • （2）计算步骤是：确定组上限，计算离差，利用公式（Z＝X-X/S）求出标准分数，根据标准分数求概率，用概率乘以总数得理论次数。 • （3）自由度df＝11－3（是因为求理论次数时用到了总数、标准差和平均数这三个约束条件）
计算得到的查表得到的
χ ≥ χα ,υ
2
2
;P ≤α ;P >α
χ < χα ,υ
2
2
三、四格表（2×2列联表）的独立性检验四格表（列联表）
因素B B1
因素 B
边缘小计
A1 a A2 c a+c
B2 b d
a+b c+d
边缘小计
b+d N=a+b+c+d
• (一)独立样本的四格表的χ2检验 • 1.有三种计算方法（例题10-10P316）
三、χ2检验的类型 χ
• 配合度检验配合度检验：检验一个因素一个因素多项分类的实际观一个因素察数与某理论次数是否一致的问题。当对连续数据的正态检验时，亦称正态吻合性检验 • 独立性检验独立性检验：检验两个或两个以上因素两个以上因素的多项两个以上因素分类之间是否有关联是否具有独立性是否有关联是否具有独立性是否有关联或是否具有独立性的问题。 • 同质性检验同质性检验：检验不同的总体不同的总体在某一变量上的不同的总体反应是否有差异。无差异则表明两总体同质；有差异则表明两总体异质。
χ =∑
2
k
( f0 − fe )
fe
2
方法二
• 直接用实计数计算卡方值
N(ad−bc) χ = (a +b)(c + d)(a + c)(b + d)
2 2
• 方法三
Z=
ˆ ˆ p1 − p2 ˆ ˆ ˆ ˆ (n1 p1 + n2 p2 )(n1q1 + n2 q2 ) n1n2 (n1 + n2 )
二、 χ2检验的基本公式
χ =∑
2 k
( f0 − fe )
fe
2
• 即实计次数与理论次数的差的平方和除以理论次数是与χ2分布非常近似的次数分布。 χ • 式中k为组数，f0为实际观察数（实计数），fe为理论次数。 • 该公式是根据皮尔逊的配合度的理论公式推导而来，该分布属于近似卡方分布，近似程度随自由度而变化。
• （3）理论次数的计算：根据概率和经验计算 • （4）计算χ2值
• （5）作出推断
χ =∑
2
k
( f0 − f e )
fe
2
• 注意： χ2检验的概率是双侧概率，当计算的χ2> 注意： χ2.05或χ2.01时拒绝0假设。
二、配合度检验的应用
• 1.与常规有无差异的配合度检验与常规有无差异的配合度检验
五、期望次数的计算
• 期望次数期望次数：无差假设成立时的数值或者使某一理论假设成立时的数值。
• 如：男女的性别比的期望值为：1：1； • 调查时的同意与不同意的期望值为：1：1； • 调查时的同意与不同意与不置可否的期望值为： 1：1：1； • 正态分布的期望值与正态分布的概率相同。
• • • • • • •
p = b (x , p 0 , n n 为总的个案数 x 为较少的个案数 p 0 为无差比率
)
• 2.Yates校正公式（计算简单） 2.Yates校正公式计算简单）校正公式（
χ =∑
2
(f
0
− f e − 1 / 2) fe
2
• 根据卡方值和自由度查表求概率
第三节独立性检验
• 一、概念 • 独立性检验主要是检验指两个或两个以上因独立性检验两个或两个以上因计数资料是独立还是相关的问素多项分类的计数素多项分类计数题。 • 其零假设其零假设为：两项或多项分类是独立无关的（分类无显著性差异） • 研究假设研究假设为：两项或多项分类是有关联的（分类存在显著性差异） • 独立性检验一般的数据资料采用2*2或2*k，及R*C的表格形式呈现。
改变了或不一致的实计数
2
( f 0 − f e )2
1 fe • 2
= 2•∑
( f 0 − f e )2
fe
若p ≠ q, 则χ 2 = ∑
( f0 − fe )
fe
2
四、 χ2的连续性校正

第十二章卡方检验

统计学-第十二章卡方检验

卫生统计学卡方检验

统计学卡方检验

9 第十二章 卡方检验(一)

医学统计方法之卡方检验PPT课件

第十二章卡方检验

卡方检验

第10章--卡方检验-(Chi-PPT课件

9 第十二章卡方检验(一)