中国医科大学研究生医学统计学 第五讲 计数资料及卡方检验2

合集下载

卡方检验解释

卡方检验解释

(四)卡方检验的连续性校正问题
反对依据是:经连续性校正后,P值有过分 保守之嫌。此外,Fisher确切概率法建立在 四格表双边固定的假定下,而实际资料则 是单边固定的四格表,连续性校正卡方检 验的P值与Fisher确切概率法的P值没有可 比性。
• 就应用而言,无论是否经过连续性校 正,若两种检验的结果一致,无须在 此问题上纠缠。但是,当两种检验结 果相互矛盾时,如例7-2,就需要谨 慎解释结果了。
24.08, P0.05
结论与之相反。
(四)卡方检验的连续性校正问题
赞成依据是:这样做可使卡方统计量抽样 分布的连续性和平滑性得到改善,可以降 低I类错误的概率,连续性校正后的卡方检 验,其结果更接近于Fisher确切概率法。不 过,校正也不是无条件的,它只适合于自 由度为1时,样本含量较小,如n<40,或 至少有一个格子的理论频数太小,如T<5 的情形。
• 为客观起见,建议将两种结论同时报 告出来,以便他人判断。当然,如果 两种结论一致,如均为或,则只报道 非连续性检验的结果即可。
第二节、两相关样本率检验 (McNemar检验)
配对四格表资料的 2 检验
与计量资料推断两总体均数是否 有差别有成组设计和配对设计一样, 计数资料推断两个总体率(构成比) 是否有差别也有成组设计和配对设计, 即四格表资料和配对四格表资料。
理论频数由下式求得:
TRC
nR nC n
式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计
检验统计量 2 值反映了实际频数与 理论频数的吻合程度。
若检验假设H0:π1=π2成立,四个格子的实际 频数A 与理论频数T 相差不应该很大,即统计量
不应该很大。如果 2 值很大,即相对应的P 值很

医学统计学之卡方x2检验

医学统计学之卡方x2检验

举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220

医学统计学课件-卡方检验

医学统计学课件-卡方检验

联合治疗 39 34.44 8 12.56 47 73.3 单纯治疗 57 61.56 27 22.44 84 73.3
合计
96
35
131 73.3
Trc
nr nc n
理论频数= 84 73.3%
χ2检验的基本思想(1)
通过构造A与T吻合程度的统计量来反 映两样本率的差别!
实际数A
39
8
57
27
污染率 (%)

6
23
29
79.3

30
14
44
31.8

8
3
11
27.3
合计
44
40
84
47.6
理论数的计算
实际数A
6
23
29
30
14
44
8
3
11
44
40
84
(52.4%) (47.6%)
理论数T
15.2 13.8
23.0 21.0
5.8
5.2
T
nR
nC N
nR nC N
2值的计算
实际数A
χ2检验相关问题-应用条件
某矿石粉厂当生产一种矿石粉石时,在数天内即有 部分工人患职业性皮肤炎,在生产季节开始,随机 抽取15名车间工人穿上新防护服,其余仍穿原用的 防护服,生产进行一个月后,检查两组工人的皮肤 炎患病率,结果如表 ,问两组工人的皮肤炎患病 率有无差别?
χ2检验相关问题-应用条件
Total
When the variables are independent, the proportion in
both groups is close to the same size as the proportion

第五章计数资料组间比较的假设检验—卡方)检验(chi-

第五章计数资料组间比较的假设检验—卡方)检验(chi-

2 ( b c 1)2 (12 3 1)2 4.27, 1
bc
12 3
• 4.确定自由度(ν)和 χ2值 的概率P
• ν=(行数-1)(列数-)
• 本例:ν=(2-1)(2-1)=1
2 0.05,1
3.84
• 本例χ2=4.27>3.84,P<0.05
• 5.结论:在α=0.05水准,拒绝H0,认为两剂 量的死亡率不同,甲剂量的死亡率 (18/39=46.2%)高于乙剂量死亡率 (9/39=23.1%)。
• ν=(行数-1)(列数-)=(R-1)(C-1) • 本例:ν=(2-1)(2-1)=1

2 与
2
0.05,
比较
2
4.84
2 0.05,1
3.84, P0.05
• 5.结论:在=0.05水准上拒绝H0, 两总体率差别有统计的显著性,即
两组总体率不同,用苯乙双胍组的
病死率高于安慰剂组。
两组率相等的理论数与实际数
2
2
( A T 0.5)
T
2 ( ad bc N / 2)2 N
(a b)(a c)(c d)(b d)
公式5-9 公式5-10
表5-2 两零售点猪肉带菌率的比较
• 组别 阳性数 阴性数 合计 带菌率%
• 甲 2(4.67) 26(23.33) 28 7.14
• 乙 5(2.33) 9(11.67) 14 35.71
• 合计 7
35
42 16.67
• 校正公式
2 ( 29 265 42 / 2)2 42 3.62
(28) (14) (7) (35)
• 不校正X2=5.49 p<0.05
P> 0.05 .

第五讲卡方检验

第五讲卡方检验

3/19/2015
16
a
b d
2.成组四格表的专用公式
2
c
ad bc n 2 a bb d c d a c
该公式从x2基本公式推导而来,计算较为简单,结果相同。
3/19/2015
17
3.成组四格表χ2检验计算公式的适用条件
(1) 当实验对象总个数 n>40,且所有格子的理论频数 E≥5时, 可用χ2检验基本公式或专用公式计算χ2值。 (2) 当 n>40 ,但有任一格子的理论频数 E 仅满足 1<E<5 时, 需用校正公式:

3/19/2015 12
x2检验的原理:
E χ2检验假设两组率相同,(O-E)2/E 应该很小。

2
O E
2
如果实际频数和理论频数相差的很大, χ2 值也越大。 当 χ2 值比规定的界值还大时,被认为是小概率事件, 就拒绝H0,认为两组率不相同。 因为 χ2 值是对每个格子的 (O-E)2/E 求和,所以格子
自由度:=(2-1) x (2-1)=1 第四步:确定P值 第五步:判断结果
3/19/2015 31
2 (三)行x列表 x 检验
四格表是指只有2行2列,当行数或列数超过2时,统
称为行x列表。
行x列表 x2 检验是对多个样本率(或构成比)的检
验。
基本公式:x2 =(O-E)2/E
O2 n 1 专用公式: n n R C
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 20. 00.

医学统计学——卡方检验

医学统计学——卡方检验
趋近于正态分布。
• ⑵χ2分布具有可加性:如果两个独立的 随机变量X1和X2分别服从ν1和ν2的χ2分 布,那么它们的和(X1+X2)也服从(ν1+ ν2)的χ2分布。
χ2 界值
• ν确定后,如果分布曲线下右侧尾部的 面积为α时,则横轴上相应的χ2值就记 作χ2 α,ν ,即χ2界值。其右侧部分的 面积α表示:自由度为ν时, χ2值大 于界值的概率大小。χ2值与P值的对应 关系见χ2界值表(附表6)。χ2值愈大,P 值愈小;反之,χ2值愈小,P值愈大。
• T22=(c+d)×(1- PC)=(c+d)×(b+d)/n = 56×17/112=8.5
χ2检验的基本思想
• χ2检验实质上是检验A的分布与T的分 布是否吻合及吻合的程度,χ2越小,表
明实际观察次数与理论次数越接近。
• 若检验假设成立,则A与T之差不会很 大,出现大的χ2值的概率P是很小的, 若P≤α,就怀疑假设成立,因而拒绝 它;若P>α,则没有理由拒绝它。
不同自由度的χ2分布曲线图
图 8-1 不同自由度的χ2 分布曲线图
二、χ2检验的基本思想
• 例8-1 某中医院将112例急性肾炎 病人随机分为两组,分别用西药和 中西药结合方法治疗,结果见表8-1, 问两种方法的疗效有无差别?
表8-1 两种方法治疗急性肾炎的结果
组 别 治愈例数 未愈例数 合计 治愈率(%)
例8-2
• 某医师将门诊的偏头痛病人随机 分为两组,分别采用针灸和药物 两种方法治疗,结果见表8-3 , 问两种疗法的有效率有无差别?
两种疗法对偏头痛的治疗结果
疗 法 有效例数 无效例数 合计 有效率(%)
针 灸 33(30.15) 2(4.85) 35 94.29

卡方检验-有序资料的卡方检验

卡方检验-有序资料的卡方检验

在社会学研究中,卡方检验可用 于分析分类变量之间的关系,例 如性别与职业选择、婚姻状况与
教育程度等。
在市场营销中,卡方检验可用于 分析消费者偏好和行为,例如品
牌选择、产品购买决策等。
注意事项
卡方检验的前提假设是样本数 据相互独立,且每个单元格的
期望频数不能太小。
卡方检验的结果受到样本大小 和期望频数的影响,因此在使 用时需要谨慎选择样本和数据
卡方检验的定义和原理
• 有序卡方检验基于卡方检验的原理,通过比较实际观测频数与期望频数之间的 差异,来评估变量之间的关联性。它利用卡方统计量来衡量观测频数与期望频 数之间的偏离程度,通过计算卡方值和对应的概率值(p值),判断变量之间 的关联是否具有统计学显著性。
• 有序卡方检验通常使用列联表的形式呈现数据,其中行表示一个分类变量,列 表示另一个分类变量。在列联表中,每个单元格表示两个分类变量在特定水平 下的观测频数。通过比较期望频数与实际观测频数,可以计算每个单元格的卡 方值。
05
卡方检验的案例分析
案例一:不同年龄段人群的吸烟习惯
01
目的
比较不同年龄段人群的吸烟习惯是否存在显著差异。
02
数据
将年龄段分为5个等级,分别为18岁以下、18-25岁、26-35岁、36-45
岁、46岁以上。吸烟习惯分为不吸烟、偶尔吸烟、经常吸烟三个等级。
03
分析
使用卡方检验分析不同年龄段人群的吸烟习惯分布是否有显著差异。
对样本量要求较高
有序卡方检验对样本量有一定的要求,如果 样本量过小,可能会导致检验结果不准确。
对数据要求较高
有序卡方检验要求数据必须满足一定的假设条件, 如独立性、均匀分布等,否则可能会导致检验结果 偏差。

医用统计学-卡方检验2

医用统计学-卡方检验2

220(c+d) 400(a+b+c+d)
2
a
ad bc 2 n b c d a c b
d
χ2=21.65 P<0.05
1
14
2×2表χ2值的连续性校正:
➢ 当n≥40,且T≥5时,不需进行连续性校正(使用基本 公式或专用公式);
➢ 当n≥40,但1≤T<5时,需进行连续性校正;
2
合计 138
正常体重 48(43.3) 42(37.8) 21(18.9)
111
合计
78(31.3) 78(31.3) 93(37.4)
249
24
1.建立检验假设,确定检验水准 H0:两组人群的体育运动习惯的总体构成比相同 H1:两组人群的体育运动习惯的总体构成比不相同 α=0.05 2.选择公式,计算检验统计量
0.5 0.4
f (x2 ) 0.3
v 1
0.2
v6
0.1
0.05 v 10
0 024
3.84
6 8 10 12 14 16
x2
χ2分布规律: 自由度一定时,χ2值越大, P值越小。 当P值一定时,自由度越大,χ2越大。
=1时, χ2 =3.84, P=0.05 χ2 =6.63, P=0.01
根据 =1查2界值表,得P<0.05,按=0.05 的检验水准,拒绝H0,接受H1,提示两种药 物治愈率有差别。
专用公式法:
表8-1 两组流感患者不同疗法治愈率的比较
组别 治愈人数 未治愈人数
合计
中药 144(a)
36(b)
180(a+b)
西药 128(c) 合计 272(a+c)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(四)注意资料的可比性 用以比较的资料应是同质的,除 了要比较的处理因素外,其它条件应 基本相同。对于不同时期、地区、条 件下的资料应注意是否齐同。
• (五)对比不同时期资料应注意客观 条件是否相同 例如,疾病报告制度完善和资料完整 的地区或年份,发病率可以“升高”; 居民因医疗普及,就诊机会增加,或诊 断技术提高,也会引起发病率“升高” 。因此在分析讨论时,应根据各方面情 形全面考虑,慎重对待。
2 ( A T ) 2 RC RC TRC
=
[b- (b+c)/2]2
+
[c- (b+c)/2]2
(b+c)/2 [(c- b)/2]2 (b+c)/2
(b+c)/2
= [ (b-c)/2]2 +
(b+c)/2
= (b-c)2/2
(b+c)/2
(b c) 2 bc
H0:总体B = C H1:总体B≠C α= 0.05 b + c = 12 + 2 = 14 < 40。
本资料若不校正时,X2=4.35,P<0.05,结 论与之相反。
最小理论频数TRC的判断: R行与C列中,行合计数中的最小 值与列合计数中的最小值所对应
格子的理论频数最小。
如本例,第2行与第2列所对应的格子 理论频数最小(4.67)。
第二节 配对设计的四格表资料的χ2检验
(一)配对四格表形式 B 甲种属性 + 合计 A乙种属性 + 合计 a b a+b c d c+d a+c b+d n=a+b+c+d
无效 b d b+d
合计 a+b c+d n= a+b+c+d
n1. n.1 (a c ) T11 (a b) n n
• 表7-1两组降低颅内压有效率的比较
χ2 值的含义: 反映了实际频数与理论 频数的吻合程度。 χ2值理论上是非负值。(即χ2≥0) χ2检验判别准则: 若 χ2<χ20.05(ν) , 则 P>0.05, 不拒绝无 效假设H0; 若 χ2≥χ20.05(ν) , 则 P<0.05, 拒绝无效假 设H0,接受H1 。
二、两个或多个构成比的比较(例7-7)
三、双向无序分类资料的关联性检验
(例7-8)
对一个样本(或称一组观察对象)按照 两种分类变量的取值,排列成二维的表, χ2检验可用于分析两分类变量的关系。
一、多个样本率的比较
例7-6 某医师研究物理疗法、药物治疗 和外用膏药三种疗法治疗周围性面神经 麻痹的疗效,资料见表7-8。问三种疗 法的有效率有无差别?
(六)样本率(或构成比)的抽样误差 不能仅凭数字表面相差大小下结 论,而应进行样本率 ( 或构成比 ) 差别 的假设检验。
2 χ 检验
χ2检验在分类资料中的应用:
( 1) 推断两个(或多个)总体率或构成比 之间有无差别 (2)多个样本率间多重比较 (3)两个分类变量之间有无关联性 (4)多维列联表的分析 (5)频数分布拟合优度的χ2检验
(三)正确计算合计率
不能简单地由各组率相加或平均而得, 而应用合计的有关实际数字进行计算。 例如用某疗法治疗肝炎,甲医院治疗150 人,治愈 30 人,治愈率为 20 %;乙医院 治疗100人,治愈30人,治愈率为30%。 两个医院合计治愈率应该是 [(30+30) / (150+100)]×100 % =24 % 。 若 算 为 20 % +30 %。 50 %或 (20 % +30 % ) / 2=25 %, 则是错的。
表7-8 三种疗法有效率的比较
H0:π 1=π 2=π 3, 即三种疗法治疗周围 性面神经麻痹的有效率相等
H1: 三种疗法治疗周围性面神经麻痹 的有效率不全相等 α = 0.05
2=21.04, =2, 查 2界值表得P<0.005。
按α=0.05 水准, 拒绝H0, 接受H1, 可认 为三种疗法治疗周围性面神经麻痹的 有效率有差别。
特点: (1)同一事物的各个组成部分的 构成比之和应为100%。 (2)事物内部各组成部分之间呈 此消彼长的关系。
三、相对比
相对比(ratio),是两个有关的指标之 比,用以描述两者的对比水平。两个指标 可以是绝对数、相对数或平均数;可以 性质相同,也可以性质不同。
甲指标 相对比 乙指标
第二节
第一节
2 四格表资料的χ 检验
• χ2检验的基本思想:是检验实际 频数和理论频数的差别是否由抽样 误差所引起的。
一、χ2检验的统计量基本公式为:

2
( ARC TRC ) TRC
2
应用条件:n≥40,且T ≥ 5, 其中
TRC
n R nC n
处理 A B 合计
有效 a c a+c
常用的相对数指标有比、比例和率三种。 1.两个有关指标之比称为比(ratio),或称相 对比; 2. 当比的分子是分母的一部分时,称为比 例(proportion),或称结构相对数。
3. 当比例与时间有关系时称为率(rate),或 称为强度相对数。
第一节 常用相对数 一、率(强度相对数 ) 率( rate )是表示某种现象发生的 频率和强度,常以百分率(%),千分 率(‰),万分率(1/万),十万分率 (1/10万)等表示,计算公式为:
率 某事物或现象发生的实 际数 比例基数 某事物或现象发生的所 有可能数
例1 • 某企业2003年有2839名职工,该企业 每年都对职工进行体检,这一年新发 生高血压患者5例,高血压发病率为: 5/2839×1000‰=1.76‰。 比例基数的选择 主要依据习惯用法或使计算结果保留 一位或二位整数,以便阅读。
际应用中常用它作为四格表资料假设检验的补充
2.适用条件:(1)n<40 (2)T<1 (3)P≈α
第四节
行×列表资料的χ2检验
行×列表资料的χ2检验用于:多个 样本率的比较、两个或多个构成比的 比较、以及双向无序分类资料的关联 性检验
A n( 1) nR nC
2
2
一、多个样本率的比较(例7-6)
二、构成比(结构相对数 )
构成比(Constituent ratio)表示事物内 部各个组成部分所占整体的比重,通常以 100%为比例基数,以百分比表示,计算公 式如下 :
构成比 某事物内部某一组成部分观察单位数 100% 同一事物各组成部分的观察单位总数
• 例2 某医院1990年和1998年住院病人 死于五种疾病的人数见下表。
a, d: 两法观察结果一致的两种情况,
b, c: 两法观察结果不一致的两种情况。
若两种处理方法无差别, 总体: B = C。 因抽样误差不可避免, 样本往往b≠c, 需进行假设检验 ( McNemar test ), 检验统计量为 。
2
例7-3 某实验室分别用乳胶凝集法和
免疫荧光法对58名可疑系统红斑狼疮
第五讲 分类资料的统计描述与χ2检验
• 计数资料常见的数据形式是绝对数,如 某病的出院人数、治愈人数、死亡人数 等。 绝对数:只能表示某事物在某时、某地 发生的实际水平。 相对数:便于相互比较与分析。
例:甲、乙两地麻疹流行,
甲地发病300人 绝对数 乙地发病250人 甲>乙 但不能据此确定甲地麻疹流行较为严重,需考 虑易感人数。若甲地易感人数3000人 乙地易感人数1000人 则甲地麻疹发病率=300/3000=10% 乙地麻疹发病率=250/1000=25% 相对数
见表7-3。问两种方法的检测结果有
无差别?
表7-3
两种方法的检测结果
(二)计算公式 1. b+c≥40 时
(b c) bc
2
2
2. b+c<40时
(| b c | 1) bc
2
2
H0:总体B = C = (b+c)/2 H1:总体B≠C
=96×174/200
表7-1内只有4个数
是该表的
基本数据,其余数据都是由这4
个基本数据推算出来的,称为
四格表(fourfold table)资料。
χ2检验的检验步骤
H 0: π 1= π 2 H 1: π 1≠π 2
2
α =0.05;
( ARC TRC ) 2 TRC
以υ=1查χ2界值表得P<0.05。按α=0.05检验水准拒绝 Ho,接受H1,可以认为两组降低颅内压总体有效率 不等。
2 =1, 查 界值表得P<0.05。按α= 0.05检
验水准, 拒绝H0 , 接受H1 , 可以认为两种方法的检
测结果不同。
第三节 四格表的Fisher确切概率法
1. R.A.Fisher提出直接计算有利于拒绝H0的概 率,以作出检验判断。 Fisher确切概率法并非χ2检验的范畴。但在实
两个无序分类变量的行×列表资料, 称双向无 序R×C表资料。
2 行×列表资料 检验:推断两个无序分类变
量之间有无关系/关联。
若有关系,想进一步分析关系的密切程度,可 计算Pearson列联系数C。
表7-10 某地5801人的血型
2:行×列表资料的 2值
n:样本含量
Pearson列联系数 C : 0~1 0 完全独立;1 完全相关;
二、 四格表资料χ2检验专用公式: (n≥40且所有的T≥5)
(ad bc) n (a b)(c d )(a c)(b d )
2 2
l
三、四格表资料χ2检验的连续性校正: (n≥40 且某一个理论数1≤T<5) 校正公式分别为:
相关文档
最新文档