卡方检验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

k 2
(Ai Ei)2k
(Ai npi)2
E i1
i
i1 npi
精品文档
9
方法原理
▪ 从卡方的计算公式可见,当观察频数与期望 频数完全一致时,卡方值为0;
▪ 观察频数与期望频数越接近,两者之间的差 异越小,卡方值越小;
▪ 反之,观察频数与期望频数差别越大,两者 之间的差异越大,卡方值越大。
▪ 当然,卡方值的大小也和自由度有关
合计
115
185
300
38.33
精品文档
7
方法原理
▪ 残差
• 设A代表某个类别的观察频数,E代表基于H0计 算出的期望频数,A与E之差被称为残差
▪ 残差可以表示某一个类别观察值和理论值的 偏离程度,但残差有正有负,相加后会彼此 抵消,总和仍然为0。为此可以将残差平方后 求和,以表示样本总的偏离无效假设的程度
精品文档
6
方法原理
▪ 理论频数
• 基于H0成立,两样本所在总体无差别的前提下计
算出各单元格的理论频数来
TRC
nRnC n
牙膏类型 患龋齿人数 未患龋齿人数
调查人数
龋患率(%)
含氟牙膏
70(76.67)
130(123.33)
200
35.00
一般牙膏
45(38.33)
55(61.67)
100
45.00
精品文档
12
操作步骤
▪ 3. 确定P值和作出推断结论
• 查附表8,2界值表,得p>0.05。按 = 0.05水 准,不拒绝H0,尚不能认为使用含氟牙膏比使用 一般牙膏儿童的龋患率低。
• 对于四格表,卡方的计算公式又可进行简化,以 方便手工计算
▪ 对计算机而言并无实际价值 ▪ tabi a b \ c d, chi2
卡方检验
内容安排
▪ 卡方检验入门 ▪ 配对设计两样本率比较的χ2检验 ▪ 行列表资料的分析 ▪ 确切概率法
精品文档
2
卡方检验入门
概述
▪ 卡方检验是以卡方分布为基础的一种常用假 设检验方法,主要用于分类变量,它的基本 的无效假设是:
• H0:行分类变量与列分类变量无关联
• H1:行分类变量与列分类变量有关联
精品文档
8
方法原理
▪ 另一方面,残差大小是一个相对的概念,相 对于期望频数为10时,20的残差非常大;可 相对于期望频数为1000时20就很小了。因此 又将残差平方除以期望频数再求和,以标准 化观察频数与期望频数的差别。
• 这就是我们所说的卡方统计量,在1900年由英国 统计学家Pearson首次提出,其公式为:
是不连续的,当样本量较小时,两者间的差
异不可忽略,应进行连续性校正(在每个单
元格的残差中都减去0.5)
• 若n > 40 ,此时有 1< T 5时,需计算Yates连续 性校正2值
• T <1,或n<40时,应改用Fisher确切概率法直接
计算概率
精品文档
16
例 6.8 为比较某新药与传统药物治疗脑动脉硬化的疗
方法原理
▪ 例6.9 用A、B两种方法检查已确诊的乳腺癌 患者140名,A法检出91名(65%),B法检出77 名(55%),A、B两法一致的检出56名(40%), 问哪种方法阳性检出率更高?


=0.05 统计量 P2 计数,Ti是在
k i1
H0
(Ai Ti )2
为真Ti 的情
,其中Ai是样本资料的 况下的理论数(期望值)。
精品文档
4
卡方检验
• 在应该H0比为较真接时近,0。实所际以观在察H数0为与真理时论,数检之验差统计Ai-量Ti
P2
k i1
(Ai
Ti )2 Ti
服从自由度为k-1的卡方分布。
22.11
26.13
30.15
11 34.17
38.19
ch i- sq uar e
操作步骤
▪ 1. 建立检验假设和确定检验水准
• H0:使用含氟牙膏和一般牙膏儿童龋患率相等 • H1:使用含氟牙膏和一般牙膏儿童龋患率不等
▪ 2. =0.05
▪ 3.计算检验统计量2值
2 7 0 7.6 6 2 7 1 3 10 .3 223 4 5 3.3 8 23 5 5 6.6 1 2 7 7.6 67 1.3 23 3.3 83 6.6 17 2 .82
精品文档
13
操作步骤
▪ 值得指出,成组设计四格表资料的2检验与 前面学习过的两样本率比较的双侧u检验是等 价的。若对同一资料作两种检验,两个统计 量的关系为2= u2。其对应的界值也为平方关 系。两者的应用条件也是基本一致的,连续 性校正也基本互相对应。
精品文档
14
卡方检验假设的等价性
▪ 两组儿童的龋齿率相同
即:
2 P
2,,v 拒绝H0。
上述卡方检验由此派生了不同应用背景的各种问题
的检验,特别最常用的是两个样本率的检验等。
因为该原理的使用范围很广,但本次课程只学习 用于推断两个分类变量是否相互关联
精品文档
5
概述
牙膏类型 含氟牙膏 一般牙膏 合计
表 6.2 使用含氟牙膏与一般牙膏儿童的龋患率
患龋齿人数 70(76.67) 45(38.33) 115
效,临床试验结果见表 6.4,问两种药物的疗效有无差异?
表 6.4 两种药物治疗脑动脉硬化的疗效
处理措施 有效 无效 合计 有效率()
新药组 41(38.18) 3(5.82) 44 传统药物组 18(20.82) 6(3.18) 24
93.18 75.00
合计
59
9
68
86.76
精品文档
17
配对设计两样本率比较 的χ2检验
未患龋齿人数 130(123.33) 55(61.67)
185
调查人数 200 100 300
龋患率(%) 35.00 45.00 38.33
更一般地,可将上述表格记为表 6.3 的一般形式,称之为四格表(fourfold table)。因为表 中 a、b、c 和 d 四个格子的数据是基本的,其余数据均可从这四个数据派生出来。
精品文档
10
方法原理
▪ 卡方分布
• 显然,卡方值的大小不仅与A、E之差有关,还与 单元格数(自由度)有关
.12
.10
.08
概率
.06
.04
.02
0.00 .00
4.02
8.04
12.06
16.08
20.10
24ຫໍສະໝຸດ Baidu12
28.14
32.16
36.18
精品文档 2.01
6.03
10.05
14.07
18.09
• 两组发生率的比较
▪ 实际数据的频数分布和理论假设相同
• 理论分布与实际分布的检验
▪ 使用不同的牙膏并不会影响龋齿的发生(两 个分类变量间无关联)
• 两变量的相关分析
精品文档
15
四格表2值的校正
▪ 英国统计学家Yates认为,2分布是一种连续
型分布,而四格表资料是分类资料,属离散
型分布,由此计算的2值的抽样分布也应当
相关文档
最新文档