卡方检验理论频数小于5四个表检验的校正公式
卡方计算公式

卡方计算公式
卡方公式是:
H0:总体X的分布函数为F(x).
如果总体分布为离散型,则假设具体为:
H0:总体X的分布律为P{X=xi}=pi, i=1,2,...;
当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n 与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。
在0假设成立的情况下服从自由度为k-1的卡方分布。
扩展资料
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1、专用公式:
若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式)。
自由度v=(行数-1)(列数-1)=1
2、应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。
当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。
sas卡方检验编程语句

结果解释
本例n>40且各格子的期望值均大于5; 因而选用ChiSquare的2统计量及其显 著性水平;即2=39 927;P=0 0001;拒 绝H0;认为内科疗法对两种类型胃溃疡 的治愈率差别有统计学意义;一般类型 的治愈率高于特殊型
例2 某省三地区花生黄曲霉素B1污染率比较
结果
本例各格子期望值均大于5;选用ChiSquare
的2统计量及其显著水平;即2=17 907;P=0 0001;按=0 05的检验水准拒受H0;认为三地花 生黄曲霉素B1污染率有差别
配对设计的2检验SAS程序
200名已确诊的血吸虫患者;治疗 前经皮试法及粪检法检查;结果如下 表;问两种检查方法的结果有无差别
本例b+c>40;故选用Mcnemar检验的2统 计量及其显著水平;即2=15 0769;P=0 0001;按=0 05的检验水准拒受H0;认为 两种检查方法有差别
公式法得到的结果:
作业
1 P125 1; 2 P126 4; 3 程序实现课本中确切概率法的例题的数 据;并记录最后的结果
Chisq=absf12f211**2/f12+f21; Else chisq=absf12f21**2/f12+f21; P=1probchichisq;1; Cards;
112 40 12 36 ;proc print; Run; 此法适用于b+c<=40的时候;
使用公式编辑法计算2统计量及对应的P值
A2 nRnC
1
R×C表资料的2检验适用条件
1 理论数不能小于1 2 理论数1<T;且小于5的格子数不超过
总格子数的1/5 若条件不适合;需作如下处理: A 增大样本例数 B 删除理论数太小的行或列 C 合并性质相同
卡方检验

a. 0 cells (.0%) have expected count less than 5. T he minimum expected count is 37.88.
AREA * BL OOD Crosstabulation BLOOD A AREA 亚洲 Count Expected Count % within AREA Count Expected Count % within AREA Count Expected Count % within AREA 321 379.4 29.7% 408 349.6 41.0% 729 729.0 35.1% B 369 247.2 34.2% 106 227.8 10.7% 475 475.0 22.9% AB 95 68.7 8.8% 37 63.3 3.7% 132 132.0 6.4% O 295 384.6 27.3% 444 354.4 44.6% 739 739.0 35.6% Total 1080 1080.0 100.0% 995 995.0 100.0% 2075 2075.0 100.0%
合计
11
36
15
27
26
53
11+2<40,使用校正公式计算卡方统计量
建立数据库
设立三个变量:jia、yi、weight jia代表甲法:+赋值为1,-赋值为0 yi代表乙法:+赋值为1,-赋值为0 Weight代表例数
对数据加权
配对卡方检验
Case Processing Summary Cases Missing N Percent 0 .0%
204(a+b)
64(c+d)
12.75
3.13
9 第十二章 卡方检验(一)

确切概率法计算公式
在四格表的周边合计不变的条件 下 , 用下式直接计算表内四个数据 的各种组合之概率。 的各种组合之概率。 式中a、b、c、d为四格表的实际 频数
(a+b)!(c+d)!(a+c)!(b+d)! P= a!b c!d!n ! !
四格表资料的精确检验法基本步骤
1、建立假设 Ho:假设差别是由抽样误差引起的 H1:假设差别是本质上存在的 确定显著性水准: 2、确定显著性水准:α=0.05 3、计算确切概率P 周边合计不变,列出各种组合的四格表; (1)周边合计不变,列出各种组合的四格表; 计算各个四格表的| (2)计算各个四格表的|A-T|值; 样本| (3)求|A-T|值≥样本|A-T|值的所有四格表的Pi 值; Pi=(a+b)!(c+d)!(a+c)!(b+d)!/[a!b!c!d!n!] (4)求出确切概率P:P=ΣPi 结果判断: 4、结果判断:在事先确定的显著性水准α下作 出专业结论。 出专业结论。
行×列表资料χ2检验时的注意事项
1、行×列表资料χ2检验对资料的要求是:不宜有1/5以上 检验对资料的要求是:不宜有1 格子的理论数小于5 且理论数应大于1 格子的理论数小于 5 , 且理论数应大于 1 , 若发生上述情 可选用下述三种处理方法 三种处理方法: 况 , 可选用下述 三种处理方法 : ① 适当增大样本含量以 增大理论频数; 增大理论频数 ; ② 将理论数过小的格子所在的行或列与 性质相近的行或列中的实际数合并, 性质相近的行或列中的实际数合并 , 使重新计算的理论 数增大; 删去理论数过小的行或列。 数增大 ; ③ 删去理论数过小的行或列 。 后两种处理方法 有可能损失资料信息, 且可能破坏样本随机性, 有可能损失资料信息 , 且可能破坏样本随机性 , 故不宜 常规使用。 常规使用。 2、当试验效应按照强弱分为若干个级别,试验结果可整理 当试验效应按照强弱分为若干个级别, 为单向有序行×列表资料, 为单向有序行 × 列表资料 , 在比较各处理组间的效应有 无差别时,宜选用秩和检验、Ridit分析 趋势检验等, 分析、 无差别时,宜选用秩和检验、Ridit分析、趋势检验等, 检验只能说明各组构成比的差别有无显著性。 如作χ2检验只能说明各组构成比的差别有无显著性。 3、多个样本率或多个构成比的χ2检验,结果有显著性意义 检验, 只能认为总体率或总体构成之间总的来说有差别, 时,只能认为总体率或总体构成之间总的来说有差别, 不能说明两两之间皆有差别, 不能说明两两之间皆有差别,若要对每两个率或每两个 构成比进行比较,应采用行× 构成比进行比较,应采用行×列表的χ2分割法或者采用 其它率或构成比的多重比较。 其它率或构成比的多重比较。
卡方检验

四格表2检验的校正公式
2界值表是根据连续性的2分布计算出来的,但原 始数据是分类资料,不是连续的,由此计算的 2 值也是不连续的,它仅仅是连续性的2分布的一种 近似。 n≥40&T ≥5时,这种近似效果较好。 但在样本例数较少或出现理论频数小于5时,算出 的2值可能偏大,既求出的概率P值可能偏小,此 时须根据具体情况作不同的处理。
实际频数:表内各格数字为实际资料的数字。
2 检验的基本思想
实际频数和理论频数差异的大小可以用 2 值的大 小来说明,当样本量n和各个按检验假设计算的理 ) 论频数T都足够大时,比如n≥40,T≥5, (A T值近 T 似于2分布,n越大,近似程度越好。
2
2值的计算公式如下:
(A T ) 2 2= T
2 2
(a c)(c d ) (b d )(c d ) c d n n (a c)(c d ) (b d )(c d ) n n (ad bc) 2 n a b c d a c b d
R×C表资料的2检验
R×C表资料的2检验可进行多个率、多组构 成比之间的比较及两个分类变量的关联性分 析。
R×C表资料的2检验的计算公式:
2 ARC (A T ) 2 = =n ( 1) T nR nC 2
ν=(R-1)(C-1)
配对设计资料的2检验
配对设计资料特点:对同一样本的每 一对象分别用两种方法处理,观察其 阳性或阴性结果,调查或实验设计数 据等。
配对设计资料的一般形式
变量1
变量2
阳性 阴性
合计
阳性
阴性 合计
《医学统计学》医统-第九章卡方检验

卡方值
当自由度ν确定后,χ2分布曲线下右侧尾部的面积 为α时,编辑课横件 轴上相应的χ2值记作χ2α,ν
查χ2界值表,得χ20.05,1=3.84,按α=0.05 水 准, 拒绝H0 , 接受H1 , P<0.05,可 以认为两组治疗原发性高血压的总体有 效率不同,即可认为吲达帕胺片治疗原 发性高血压是有效的。
医学统计学
第九章 2检验
公共卫生系 流行病与卫生统计学教研室
祝晓明
一、率
率(rate):率表示在一定空间或时间范围内 某现象的发生数与可能发生的总数之比,说明 某现象出现的强度或频度,通常以百分率 (%)、千分率(‰)、万分率(/万)、或 十万分率(/10万)等来表示。
你们班级的及格率,挂科率怎么算?
❖自由度ν愈大,χ2 值也会愈大;所以 只有考虑了自由度ν的影响,χ2 值才
能正确地反映实际频数A和理论频数T 的吻合程度。
检验的自由度取决于可以自由取值的格子数目,
而不是样本含量n。四格表资料只有两行两 列,ν=1,即在周边合计数固定的情况下,4个基
本数据当中只有一个可以自由取值。
编辑课件
检验步骤: 1.建立检验假设并确定检验水准 H0:π1=π2 即试验组与对照组的总体有效率相等 H1:π1≠π2 即试验组与对照组的总体有效率不等
2
(20 25.77)2
(24 18.23)2
(21 15.23)2
(5 10.77)2
8.40
25.77
18.23
15.23
10.77
(2 1)(2 1) 1
编辑课件
纵高
3.确定P 值,作出推断结论
0.5
0.4
0.3
自由度=1
四格表(1):Pearson卡方检验
此,计划从四格表开始,为大家逐日介绍一系列的扫盲文章。 师姐的名言是“对于统计我已经放弃治疗了。”衷心希望她看完这篇文章后要积极“治疗”。 以下源自H师姐论文的实例。 基本概念
定性资料定性资料是指分析的资料中,结果变量的性质是定性的。定性资料又可细分为名
况如下表,试比较两组胎儿分娩方式中剖宫产率有无差别。 1建立数据文件 2数据加权 3交叉表分析 结果解释1 观察组的剖宫产率为50%,对照组的剖宫产率为33.9%。 结果解释2 由于总例数n=173>40,四个格内没有<5的理论频数(期望计数),因此我们应读取第一 行的皮尔逊卡方值(6.002),P=0.01<0.05。按α=0.05水准,可认为两组的剖宫产率的差别有 统计学意义,即观察组的剖宫产率高于对照组。 注:有 观 点 认 为 在 四 格 表 中 采 用 Fisher精 确 检 验 的 结 果 比 较 可 靠 , 对 于 统 计 软 件 计 算 的 结 果 , 四 格 表 均 可 采 用 Fisher精 确 检 验 的 结 果 , 本例P=0.022<0.05,和上述结果是一致 的。
义资料和有序资料,对于每一个具体的观察单位或个体来说,若观测的指标是定性的,其表现 形式通常不是真实的数据,而只是一个“名称或符号”。名义资料从每个受试对象身上观察的结果 不是一个具体数值,而是一种状态或名称,如某病患者治疗的结果为“治愈”或“未治愈”;检测结 果为“阴性”或“阳性”、职业为“工人”、“农民”或“医生”等。例题某医院对门诊产前检查并住院分娩 的孕36~41周无其他高危因素的孕妇为研究对象中,出现规则变化脐动脉血流频谱曲线的孕晚期 胎儿为观察组,出现正常脐动脉血流频谱的孕晚期胎儿为对照组。两组胎儿的分娩方式情况情
四格表卡方检验
四格表确切概率法的基本思想
在四格表周边合计固定不变的条件下,改 变某一格子的实际频数,列出a、b、c、d各种 组合的四格表,按公式8-9计算每个四格表的概 率,然后计算单侧或双侧累积概率,并与检验 水准α比较,作出是否拒绝H0的结论。
P (a b)!(c d )!(a c)!(b d )! a! b! c! d ! n!
第13页/共42页
例8-1 用专用公式 计算 2 值:
2 (271 26 5 74)2 376 56.77 , df 1
276100 345 31
查
2界
值
表
,
2 0.05,1
3.84
下结论:
2
2 0.05,1
3.84;
P 0.05,按 0.05水准,
拒
绝H
,
0
接
受H
,
1
可
以
认
为
疗
效
四格表确切概率法系英国统计学家fisher于1934年提出又称fisher精切概率法fiserexacttest在四格表周边合计固定不变的条件下改变某一格子的实际频数列出abcd各种组合的四格表按公式89计算每个四格表的概率然后计算单侧或双侧累积概率并与检验水准比较作出是否拒绝h组别改善无效合计红花散1520安慰剂1417181937例83研究中药制剂红花散改善周围血管闭塞性病变患者的皮肤微循环状况以安慰剂作对照将37个病例随机分到两组结果如表85分析红花散的疗效
第6页/共42页
一、卡方检验的基本思想
例8-1 对表8-1资料推断两药的疗效有无差别
H0:
1
,即两药总体有效率相等
2
由于总体有效率未知,将两组数据合并,计算合并
卡方检验方法
31
(3)当n<40,或T<1时,不能用卡方 检验,改用四格表资料的Fisher确切概 率法。
32
3.作出统计结论
以 =1查 2界值表,若 P 0.05,按 0.05 检验
水准拒绝H
,接受 H
0
,可认为两总体率不同;
35
理论频数的计算
实际数
180 215
73 106
理论数
174.10 220.90 78.90 100.10
36
2检验的步骤
(1)建立假设并确定检验水准
H0:两种人群对该抗生素的耐药率相同,
即1 = 2; (两总体率相等)
H1:即两种1≠人群2 ;对(该两抗总生体素不的相耐等药)率不同,
=0.05
37
(2)计算检验统计量
当总例数 n且所有格子的理论频数T>5时:用
检验的基本公式或四格表资料检验的专用公
式:
= = 23.12 2 180 174.102 215 220.902 106 100.102
174 .10
220 .90
100 .10
16
2 分布是一种连续型分布
(Continuous distribution),v 个相
互独立的标准正态变量(standard
normal variable)
的平方和称为 2变量,其分布即为 2
2
分布;自由度(degree of freedom)
为v 。
f
( 2 )
1
2(
2 1 2
A11 (T11) A12 (T12) n1(固定值)
x2检验或卡方检验和校正卡方检验的计算
x2检验或卡方检验和校正卡方检验的计算x2检验(chi-square test )或称卡方检验x2检验(chi-square test )或称卡方检验,是一种用途较广的假设检验方法。
可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。
一、四格表资料的x2检验例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11两种疗法治疗卵巢癌的疗效比较表内用虚线隔开的这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表( fourfold table ),或称2行2列表(2X 2 contingency table )从该资料算出的两种疗法有效率分别为44.2%和77.3%,两者的差别可能是抽样误差所致,亦可能是两种治疗有效率(总体率)确有所不同。
这里可通过x2检验来区别其差异有无统计学意义,检验的基本公式为:£ (A_T,式中A为实际数,以上四格表的四个数据就是实际数。
T为理论数,是根据检验假设推断出来的;即假设这两种卵巢癌治疗的有效率本无不同,差别仅是由抽样误差所致。
这里可将两种疗法合计有效率作为理论上的有效率,即53/87=60.9%,以此为依据便可推算出四格表中相应的四格的理论数。
兹以表20-11资料为例检验如下。
检验步骤:1.建立检验假设:H0 : n 1= n 2H1 : n 1 工n 2a =0.052•计算理论数(TRC,计算公式为:TRC=nR.nc/n 公式(20.13 )式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。
第 1 行 1 列:43 X 53/87=26.2第 1 行 2 列:43 X 34/87=16.8第 2 行 1 列:44 X 53/87=26.8第 2 行 2 列:4 X 34/87=17.2以推算结果,可与原四项实际数并列成表20-12 :表20-12两种疗法治疗卵巢癌的疗效比较因为上表每行和每列合计数都是固定的, 所以只要用TRC 式求得其中一项理论数(例如T1.仁26.2 ),则其余三项理论数都可用同行或同列合计数相减,直接求出,示范 如下:T1.1=26.2 T1.2=43-26.2=16.8 T2.1=53-26.2=26.8 T2.2=44-26.2=17.23•计算x2值按公式20.12代入X y- (d —7")" _____ (19—26*2尸 I (24一 t6- B)* . (34™2G• 8)1丁 26.2 "TeTa" 26. 84.查x2值表求P 值在查表之前应知本题自由度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.为研究某补钙制剂的临床效果,观察56例儿童,其中一组给与这种新
药,另一组给与钙片,观察结果如表,问两种药物预防儿童的佝偻病患病率是
否不同?
表 两组儿童的佝偻病患病情况
组别 病例数 非病例数 合计 患病率(%)
新药组 8 32 40 20.0
钙片组 6 10 16 37.5
合计 14 42 56 25.0
[参考答案]
本题是两组二分类频数分布的比较,用四个表2检验。表中n=56>40,且
有一个格子的理论频数小于5,须采用四个表2检验的校正公式进行计算。
(1)建立检验假设并确定检验水准
0H:21,即新药组与钙片组儿童佝偻病患病概率相同
1
H
:21,即新药组与钙片组儿童佝偻病患病概率不同
=0.05
(2)用四个表2检验的校正公式,计算检验统计量2值:
22(/2)()()()()c|ad-bc|-nn=a+bc+da+cb+d=050.152141640562566321082
=1
3. 确定P值,作出推断结论
以=1查附表7的2界值表得32.12125.0,2<2125.0, P > 0.05。按
05.0
水准,不拒绝0H,无统计学意义,还不能认为新药组与钙片组儿童佝
偻病患病概率不同。