第7章卡方检验

合集下载

卡方检验解释

卡方检验解释
卡方检验过程小结:
第一步:输入数据(略)
第二步:指定频数变量:weight cases—人数
第三步:crosstabs过程(略)
(三)结果解释:(P265)
1、value:检验统计量值
2、asymp.sig.2-sided:双侧近似概率
3、exact sig.2-sided:双侧精确概率
4、exact sig.1-sided:单侧精确概率
1、tables模块:即custom tables菜单
可以为多选题生成各种复杂的频数表和交叉表,并计算表中各种比例指标。
2、optimal scaling过程:
用于非线性典型相关法(OVERALS)对多选题数据进行最优尺度分析(多重对应分析)。
3、multiple response菜单:
专门为多选题数据的描述而设计,用于生成频数表和交叉表。
(2)列(columns):用于选择行*列表中的列变量
(3)层(layer):用于设置分层分析变量
(4)显示分组条形图(display clustered bar charts):可以直观反映各单元格内频数的多少。
(5)压缩表(suppress table):禁止在结果中输出行*列表
2、exact对话框(略):
用于设定针对2*2以上行*列表是否进行确切概率的计算,以及具体的计算方法。
(1)Asymptotic only:只计算近似的概率值,不计算确切概率
(2)montecarlo:采用蒙特卡罗 模拟方法计算确切概率值。
即进行10000次抽样,给出确切概率以及99%可信区间。(默认值可以更改)
(3)exact:计算出确切的概率值
如:要了解病人采用了那些非药物方法来控制高血压,问题如下:

卡方检验

卡方检验

27
表7 - 8
三种疗法有效率的比较 合计 有效率(%) 有效率(%) 206 182 144 532 96.60 90.11 81.94 90.41
疗法 物理疗法组 药物治疗组 外用膏药组 合计
有效 199 164 118 481
无效 7 18 26 51
28
检验步骤1 检验步骤1-建立假设
H0:三种疗法的有效率相等
免疫荧光法 + -
合计
+
11(a)
12(b)
23
-
2(c)
33(d)
35
合计
13
45
58
20
检验步骤1 检验步骤1-建立假设
H0:两种方法的检测结果相同
H1:两种方法的检测结果不相同
确定检验水准:α = 0.05
21
检验步骤2 检验步骤2-计算检验统计量
(b-c)2 2 未校正计算公式: 未校正计算公式:χ = b+c
P<0.05
结论:在 α = 0.05水准上,拒绝H0,接受H1,可以认 结论: 水准上,拒绝H 接受H 为三种疗法的有效率不全相等(统计学结论),可 ),可 为三种疗法的有效率不全相等(统计学结论), 以认为三种疗法治疗周围性面神经麻痹的有效率有 差别(专业结论)。 差别(专业结论)。
31
多个样本构成比的比较
14
四格表专用公式: 四格表专用公式:
(A−T) χ =∑ T
2
2
2
(ad −bc) N χ = (a +b)(c + d)(a + c)(b + d)
2
(99×21−5×75) ×200 本 : = 例 χ =12.86 104×96×174×26

第7章-X2检验与U-检验

第7章-X2检验与U-检验

(a + b)(c + d)(a + c)(b + d)
当:T < 1,或 n < 40 时,需用确切概率法计算。
=1
例:
某地中学生就餐方式与乙肝病毒感染情况调查
就餐方式 调查人数 感染人数 感染率(%)
常在外就餐(A) 89
6
6.74
不在外就餐(B) 111
5
4.50
合计
200
11
5.50
试比较不同就餐方式的乙肝病毒感染率是否不同?
2 0.01( )
0.01
接受H0 差异无统计学意义 拒绝H0 差异有统计学意义 拒绝H0 差异有高度统计学意义
四格表 2值的校正 当:1< T < 5,而 n > 40 时,需计算校正 2值
2 = —(—| A—-—T —| - —0.5—)—2 , T

2
=
( | ad - bc | - n/2 ) 2 n ————————————
= 0.0725(1-0.0725)(1/988+1/682)
= 3.76 P < 0.01
结论:BMI 25者糖尿病患病率高于BMI <25者 BMI与糖尿病有关
第八章 2检验
当观察例数不够大或拟对多个率进行比较时u检验就不适宜了, 此时可用卡方检验(chi-square test)。
卡方检验是一种用途广泛的假设检验。 可用于:1、推断两个或多个总体率(或总体构成比)之间有无差别;
甲疗法的病死人数 T1.2 : 46×47/104=20.79 乙疗法的病死人数 T2.2 : 58×47/104=26.21
TRC =
nR nC n

《医学统计概论》第7章卡方检验Chi-square test

《医学统计概论》第7章卡方检验Chi-square test
(2) 当n≥40,有任一格1≤T<5时,可用Yates校正公式;
(3) 当n<40或有T<1时,用Fisher’s exact probability。
7.2 配对四格表资料的χ2检验
配对设计包括:(1)同一批样品用两种不同的处理方法;(2)观察 对象根据配对条件配成对子,同一对子内不同的个体分别接受不同的处理; (3)在病因和危险因素的研究中,将病人和对照按配对条件配成对子, 研究是否存在某种病因或危险因素。
表7-1 两组降低颅内压有效率的比较(P137)
组别
试验组 对照组 合计
有效
99 75 174
无效
5 21 26
合计
104 96 200
有效率(%)
95.20 (p1) 78.13 (p2) 87.00 (pc)
实际频数A (actual frequency) 理论频数T (theoretical frequency)
,
1
因为有一格1<T<5,且n>40时,所以应用连续性校
正χ2检验。
四、精确概率法(Fisher’s exact probability)
在无效假设成立的前提下且周边合计固定时,产生任意 一个四格表(i)的概率Pi 服从于超几何分布,其计算式为:
a b!c d !a c!b d !
Pi
a!b!c!d !n!
药物治疗组 164
18
182
外用膏药组 118
26
144
4.59
>0.0125 (NS)
合计
282
44
326
二、各实验组与同一对照组比 关键是检验水平的校正
'
2k 1
自学
7.6 双向有序分组资料的线性趋势检验

第七章假设检验

第七章假设检验
5-2
引言
结论:企图肯定什么事情很难, 结论:企图肯定什么事情很难,而否定就容 易得多。 还记得上次那个例子吗? 易得多。 (还记得上次那个例子吗?两个人 住一起,其中有一个人病了, 住一起,其中有一个人病了,另一个人天天 给他熬药还端到他床前,三个月过去了, 给他熬药还端到他床前,三个月过去了,突 然有一天那个人忙得很, 然有一天那个人忙得很,把药熬好了就对卧 病在床的人说,你自己去喝吧, 病在床的人说,你自己去喝吧,卧病的人心 里想: 这个人怎么这么坏呢? 里想:“这个人怎么这么坏呢?”,他倒忘 了这个人对他的好, 了这个人对他的好,记住一个人的好总比记 住一个人的坏好,有时候想想, 住一个人的坏好,有时候想想,老师就像端 药的人,学生就是喝药的人,良药苦口, 药的人,学生就是喝药的人,良药苦口,我 也许一直是你们背后说你们的那个烂人, 也许一直是你们背后说你们的那个烂人,老 师也是弱势群体啊!!) 师也是弱势群体啊!!)
α
H 0 : µ ≤ 2% ↔ H 1 : µ > 2%
5-10
二、两种类型的错误
两类错误发生的概率 α与β之间是此消彼长的关系 接受
H0
拒绝
H0
H0
真实
判断正确 (1-α) ) 取伪错误( 取伪错误(第二类 错误或β 错误或 错误)
弃真错误( 弃真错误(第一 类错误或α 类错误或 错误 ) 判断正确 (1-β) )
第七章 假设检验
第一节 假设检验概述 第二节 总体参数检验 第三节 卡方检验
参数估计是利用样本信息推断未知的总体参数, 参数估计是利用样本信息推断未知的总体参数, 而假设检验是先对总体参数提出一个假设, 而假设检验是先对总体参数提出一个假设,然后利 用样本信息判断这一假设是否成立。 用样本信息判断这一假设是否成立。

【SPSS统计挖掘】第7章 定性资料统计推断

【SPSS统计挖掘】第7章 定性资料统计推断

7.3 成组设计行乘列表资料的卡方检验
•例题
1、多个样本率之间的比较 例7-3:某地调查了2000~2003四个年度中小学女生的贫血
状况,如图7-17所示,问各年度间学生贫血率有无差别?
模块解读
1、建立数据库
2、分析步骤
1)单击“数据”|“加权个案”命令,弹出加权个案对话 框,如下图所示。“加权个案”框中放入本次需要加权的 变量“频数”。
2
n(
A2 nR nC
1)
7.3 成组设计行乘列表资料的卡方检验
• 2、多个构成比之间的比较 对多个构成比检验的目的是推断各样本分别代表的总体构
成比是否相同,用2检验,基本思想同前。首先假设各样 本所代表的总体构成比相同,均等于合计的构成比,据此, 可算得每个格子的理论频数。 如果检验假设是真实的,则每一格子的理论频数与实际频 数一般均不会相差很大,即2值一般不会很大;若根据样 本信息算得一个很大的2值,则有理由怀疑H0的成立,进 而拒绝它。
7.2 配对设计四格表资料卡方检验
• 原理
如果在定性资料的统计分析中,如两组率之间的比较,设 计类型如果是按配对设计,则要按配对设计的卡方检验来 完成。不能采用成组设计的卡方检验,否则会降低统计学 的检验效能。
7.2 பைடு நூலகம்对设计四格表资料卡方检验
•例题
例7-2:某医院采用甲乙两种方法测定60例恶性肿瘤患者体 内ck20基因表达阳性率,甲法测定阳性率为70.0%,乙法 测定阳性率为38.3%,两种方法一致测定阳性率为26.7%。 为比较甲乙两种方法的测定阳性率是否有差异?,如图79所示。
2)单击“分析”|“描述统计”|“交叉表”命令,弹出交 叉表对话框,如下图所示。“行”框中放入本次需要比较

医学统计学--卡方检验

医学统计学--卡方检验
பைடு நூலகம்
笃 学
精 业
修 德
厚 生
6
2 ( A T ) 2值的大小还取决于 个数的多少(严 T 2 ( A T ) 格地说是自由度 的大小)。由于各 皆是 T 2
正值,故自由度 愈大, 值也会愈大;所以只 2 值才能正确地反映 有考虑了自由度 的影响,
实际频数 A和理论频数 T 的吻合程度。检验时, 要根据自由度 查 2 界值表。当 2≥ 2时, P , ,
2 中,若拒绝无效假设
H0只能做出总的结论,但还不知道哪两
个率之间有差别。若想知道哪两个率之间
有差别,还要进行两两比较,本节介绍两
两比较的方法之一:行×列表的分割。
笃 学
精 业
修 德
厚 生
30
4.行×列表的分割 (一)多个实验组间的两两比较 由于要做重复多次的假设检验,需对第Ⅰ 类错误作校正,新的校正检验水准为:
第七章 掌握内容:
2 检 验
1.检验的基本思想和用途 2.成组设计四格表资料检验的计算及应用条件
3.配对设计四格表资料检验 4.行列表资料检验及应用时应注意的问题 5.频数分布拟合优度的检验 了解内容 1.四格表资料的Fisher精确概率法的基本思想 与检验步骤
笃 学 精 业 修 德 厚 生
2 检验是一种用途很广的假设检验方
处理组 1 2 属性 阳性 阴性 合计
合计
a (T11) c (T21) m1
b (T12) d (T22) m2
n1(固定值) n2(固定值) n
要想知道处理组1,2之间差别是否有统计学意义, 常用 2 检验统计量来作假设检验。
笃 学 精 业 修 德 厚 生
5

第七章 卡方检验

第七章 卡方检验

第七章1下列不能用X2检验的是。

A. 成组设计的两样本频率的比较B. 配对设计的两样本频率的比较C. 多个样本频率的比较D. 频率发布的比较E. 等级资料实验效应的比较2.通常分析四格表在情况下需用Fisher精确概率计算法。

A.T<5B.T<1或n<40C.T<1且n<40D.1≤T<5且n<40E.T<5或n<403.三个样本频率比较,X2>X2,可以认为。

0.01(2)A.各总体频率不等或不全相等 B.各总体频率均不相等 C.各样本频率均不相等 D.各样本频率不等或不全相等 E.各总体频率相等4.当四格表的周边合计数不变时,如果某格的实际数有变化,则其理论频数。

A.增大 B.减小 C.不变 D.不确定 E.随该格实际频数的增减而增减5.对于总合计数 n为500的5个样本率的资料做X2检验,其自由度为。

A.499 B.496 C.1 D.4 E.9 6.从甲、乙两篇论文中,查到同类研究的两个率比较的四格表资料以及χ2检验结果,甲论文χ2>χ20.01(1),乙论文χ2>χ20.05(1)。

若甲、乙两论文的样本量相同,则可认为。

A.两论文结果有矛盾 B.两论文结果基本一致 C.甲论文结果更可信D.甲论文结果不可信 E.甲论文说明两总体的差别大7.用两种方法检查已确诊的乳腺癌患者120名,甲法检出率为60%,乙法检出率为50%,甲乙两法的一致检出率为35%,则整理成四格表后表中的d(即两法均未检出者)为。

A.30 B.18 C.24 D.48 E.428.用甲乙两种方法检查已确诊的鼻咽癌患者100名,甲法阳性者80名,乙法阳性者60名,两法均为阳性者50名,欲检验两法结果有无差别,宜选用。

A .普通四格表χ2检验B .配对四格表χ2检验C . u 检验D .t 检验E .秩和检验9. 两组二分类资料发生率比较,样本总例数100,则2χ检验自由度为 。

A. 1B. 4C. 95D. 99E. 10010.设两定性因素为A 和B ,每因素的两水平用+和-表示,则配对四格表的因素和水平搭配为:A .A+,A -,B+,B - B .A+A -,A -A+,B+B -,B -B+C .A+A+,A -A -,B+B+,B -B -D .A+B+,A+B -,A -B+,A -B -E .以上都不是11.三行四列表作2χ检验当有4个格子的1<T<5时, 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

卡方检验(Chi-square test)stat9@检验(Chi-square test)是现代统计学的创始人K. Pearson 提出的一种具有广泛用途的统计方法。

该检验可用于两个及多个率(或者构成比)之间的比较,分类资料的关联度分析,拟合优度检验等。

2一、卡方检验的基本思想首先介绍一个抽样分布:卡方分布⏹属连续型分布⏹可加性是其基本性质⏹唯一参数,即自由度(1) 自由度为1的χ2分布若Z N ~(,),01则Z 2的分布称为自由度为1的χ2分布.(Chi-square distribution),记为χ()12或χ21(). 图形:02468100.00.10.20.32220.05(1)0.05/22220.01(1)0.01/23.84(1.96)6.63(2.5758)ZZχχ======(2) νZ Z Z ,...,,21互相独立,均服从N (,)01,则22221...νZ Z Z +++的分布称自由度为 ν的χ2分布,记为χν()2或)(2νχ,或简记为χ2.● 图形: ●自由度ν很大时,2()νχ近似地服从正态分布.有2()2(),22Z ννχνχννν-=服从均数为,方差为的正态分布0.00.10.20.30.40.50369121518¿¨·½Öµ×Ý·ß×ÔÓɶȣ½1×ÔÓɶȣ½2×ÔÓɶȣ½3×ÔÓɶȣ½62/)12/(2222)2/(21)(χνχνχ--⎪⎪⎭⎫⎝⎛Γ=ef 3.847.8112.59P =0.05的临界值χ2分布(Chi-square distribution )性质:若χνχν2122(),()互相独立, 则χνχν2122()()+服从χ2分布, 自由度=+νν12 χνχν2122()()-服从χ2分布, 自由度=-νν12称该分布具有可加性。

卡方检验的基本思想组别有效无效合计有效率(%)试验组99 5 10495.20 (p 1)对照组7521 9678.13 (p 2)合计1742620087.00 (p c )表7-1 两组降低颅内压有效率的比较(P112)实际频数A (actual frequency)理论频数T (theoretical frequency)nn n column row T C R =⨯=总例数合计列合计行)()(RC四格表(fourfold table)它反映了理论数与实际数的吻合情况,该统计量近似地服从自由度为ν的卡方分布。

)1)(1(,)(22--=-=∑C R TT A νχ2222(9990.48)(513.52)(7583.52)(2112.48)290.4813.5283.5212.4812.86(21)(21)1v χ----=+++==--=查附表8,P7150.00.10.20.30.40.50369121518¿¨·½Öµ×Ý·ß×ÔÓɶȣ½1×ÔÓɶȣ½2×ÔÓɶȣ½3×ÔÓɶȣ½62/)12/(2222)2/(21)(χνχνχ--⎪⎪⎭⎫⎝⎛Γ=ef 3.847.8112.59P =0.05的临界值χ2分布(Chi-Square distribution )χ2检验的基本公式22(),(1)(1)A T R C T χν-==--∑上述检验统计量由K.Pearson 提出,因此许多统计软件上常称这种检验为Pearson’s Chi -square test ,下面将要介绍的其他卡方检验都是在此基础上发展起来的。

二、四格表资料专用公式为了省去计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a 、b 、c 、d )计算卡方值的公式:2222222()()()()()()()()()()()()(()()()()())1;A T Ta b a c a b b d c d b d a b d a b c d a b c d a b c d a b a c a b b d c d b d a b c d a b c d a b c ad bc n a b c d a c d db χχν-=++++++⎡⎤⎡⎤⎡⎤---⎢⎥⎢⎥⎢⎥+++++++++⎣⎦⎣⎦⎣⎦=++++++++++++++++++=-⋅++=++∑ 基本公式:(四格表检验专用公式)上面的例子20.005,1220.05,1220.05,12200(9921575)212.86 , 110496174267.88;0.0053.84;0.053.84; 0.05P P P υχχχχχχ⨯⨯-⨯===⨯⨯⨯=<≥=≤<=>如果如果查附表8,P715三、连续性校正公式χ2分布是一连续型分布,而四格表资料属离散型资料,对其进行校正称为连续性校正(correction for continuity),亦称Yates 校正(Yates'correction )。

校正公式:22(0.5)c A T Tχ--=∑))()()(()2/(22d b c a d c b a n n bc ad c ++++--=χ一般认为:四格表在n>40时出现有任一格1 ≤T <5时,需要校正。

例子2(468618782)782 3.14 , 152266414c υχ⨯-⨯-⨯===⨯⨯⨯因为有一格1<T <5,且n >40时,所以应用连续性校正χ2检验。

例7-2 P114四、精确概率法(Fisher ’s exact probability)在无效假设成立的前提下且周边合计固定时,产生任意一个四格表(i)的概率P i 服从于超几何分布,其计算式为:()()()()i !!!!P !!!!!a b c d a c b d a b c d n ++++=原理:P 值为在无效假设成立的前提下,得到现有样本四格表以及更极端情况下的四格表的概率。

四格表资料分析小结(重要)⏹Fisher’s exact probability法均适用⏹卡方检验是一种近似检验(1)当n≥40,T>5时,可用。

然而当P值接近0.05时最好用Fisher’s exact probability法;(2) 当n≥40,有任一格1≤T<5时,可用Yates校正公式;(3) 当n<40或有T<1时,用Fisher’s exact probability。

7.2 配对四格表资料的χ2检验若a (甲+乙+)、b (甲+乙-)、c (甲-乙+)、d (甲-乙-)。

将a 、b 、c 、d 四种情况的对子数填入四格表配对设计包括:(1)同一批样品用两种不同的处理方法;(2)观察对象根据配对条件配成对子,同一对子内不同的个体分别接受不同的处理;(3)在病因和危险因素的研究中,将病人和对照按配对条件配成对子,研究是否存在某种病因或危险因素。

P114例7-3观察的结果只有阳性、阴性两种可能,清点成对资料时发现则存在四种情况。

⏹(1)两种方法都出现阳性(共有11例);⏹(2)免疫荧光法阳性而乳胶凝集法却是阴性(共有12例);⏹(3)免疫荧光法阴性而乳胶凝集法却是阳性(共有2例);⏹(4)两种检测方法均为阴性结果(共有33例)。

上述几种情况整理成配对四格表(表7-3)配对四格表资料的χ2检验(McNemar's test ) 1,)1(2402=+--=<+νχc b c b c b 时,需作连续性校正, 1,)(2240c =+-=≥+νχcb c b b 时,当H 0:b ,c 来自同一个实验总体(B=C );H 1:b ,c 来自不同的实验总体();α=0.05。

B C ≠注:B=C=(b+c)/2补充:配对设计R×R表⏹配对四格表实为配对2×2表⏹实际工作中分类可能是多个(R个)McNemar 检验的推广()2211=(1,2,...,)2Ri i i i i iin m R i R R n m A χ=--=+-∑1R ν=-例子某研究所欲比较X 线与CT 对强直性脊柱炎(AS )骶髂关节病变的诊断价值,分析临床诊断为AS 的患者136例,对272个骶髂关节分别拍摄X 线平片与CT 扫描,结果见下。

问两种方法诊断骶髂关节病变的分级有无差别?231.5864130.005P χν==-=<7.4行×列表资料的检验χ2专用公式)1(22-=∑CR n n An χ1、多个样本率的比较2、样本构成比的比较3、双向无序分类资料的关联性检验自由度ν = (R -1)(C -1)多个样本率或两个构成比比较的 2检验表7-8 三种疗法有效率的比较疗法有效无效合计有效率(%)物理疗法199720696.60药物治疗1641818290.11外用膏药1182614481.94合计4815153290.41H0:π1 =π2 =π3 ,即三种疗法治疗周围性面神经麻痹的总体有效率相等H1:三种疗法治疗周围性面神经麻痹的有效率不全相等α=.0052222199726532(1)206481206511445121.04χ=+++-⨯⨯⨯= 2)12)(13(=--=ν查χ2界值表,得p <0.005,按α=0.05水准,拒绝H 0,接受H 1,三种疗法治疗周围性面神经麻痹的有效率有差别。

双向无序分类资料的关联性检验表7-10 某地5801人的血型ABO血型MN血型合计M N MNO4314909021823A3884108001598B4955879502032AB137********合计1451166626845801问题:(1)两分类变量(行、列变量)有无关联?(2)关联程度如何?分析步骤:H 0:两种血型系统间无关联(独立性检验)H 1:两种血型系统间有关联05.0=α2222431490325801(1)18231451182316663482684χ=+++-⨯⨯⨯ 6)13)(14(=--=ν213.16=结论:两种血型系统间虽然有关联性(有统计学意义),但列联系数数值较小,仍可认为关系不太密切。

相关文档
最新文档