15-2配对四格表资料差别检验的精确概率方法_刘玉秀

合集下载

递进法讲解四格表fisher确切概率法

Ⅳ，ｆ。即：Ｊ）Ｉｌ．二）：
ＣＮ
。
第一步：以假设检验的过程为出发点。首先帮助学生复习假设检验的过程，重强调假设检验都着是在Ｈ成立的条件下，０根据研究的目的、究设计的类型和资研料的特点等选择合适的统计量，比如ｔ统计量统计量等，然后通过统计量与相应的界值做比较，出Ｐ值的范围，得最后与检验水准做比较，得出统计学结论和专业结论。在这里，我们强调Ｐ值范围是基于某一统计量的分布来确定的。
本” 出现概率还要小的所有情况出现的概率之和。
第三步：举一个经典的例子说明超几何分布的含义及其概率的计算方法１２１。
在数理统计学教学中常用的经典例子： —批产品共Ｊ件，７其ｖ
本思想，进行对Ｐ值含义的充分理解，然后基于超几何分布的思想，解析 “ 四格表周边合计不变 ” 的本质，出所有可能的组得合，进而求解当前组合发生的概率和“ 不利于风” 的更极端组合
并进一步体会假设检验的基本过程和Ｐ值的含义。结果证明，应用该法基本可达到教学要求，可供同行借鉴。
关键词：卫生统计学；四格表ｆｈｒｉｅ确切概率法；ｓ递进法；教学
中图分类号：４４Ｇ２文献标识码：Ｂ文章编号：６１１４（０９）００６－２１７ — ２６２０２－０５－－０
３４写的方面．
地择取。我们中等卫生职业学校自编的语文教材就专门设计了
一

四格表资料分析卡方检验以及Poisson资料分析

四格表资料分析卡方检验以及Poisson资料分析内容1四个表和卡方检验原理2成组设计两样本率比较的卡方检验3确切概率法4配对设计两样本率比较的卡方检验5Poisson资料分析概述卡方检验是以卡方分布为基础的一种常用假设检验方法，主要用于分类变量，它基本的无效假设是(不包括配对资料)：卡方检验在H 0为真时，实际观察数与理论数之差A i －T i 应该比较接近0。

所以在H 0为真时，检验统计量2()kA T -方法原理表6.2 使用含氟牙膏与一般牙膏儿童的龋患率牙膏类型患龋齿人数未患龋齿人数调查人数龋患率（%）方法原理理论频数▪基于H 0成立，两样本所在总体无差别的前提下n n方法原理•从卡方的计算公式可见，当观察频数与期望频数完全一致时，卡方值为0；方法原理卡方分布▪显然，卡方值的大小不仅与A、E之差有关，还操作步骤1. 建立检验假设和确定检验水准▪H：使用含氟牙膏和一般牙膏儿童龋患率相等操作步骤4. 确定P值和作出推断结论▪查附表8，χ2界值表，得p>0.05。

按α= 0.05卡方检验假设的等价性两组儿童的龋齿率相同▪两组发生率的比较四格表χ2值的校正英国统计学家Yates认为，χ2分布是一种连续型分布，而四格表资料是分类资料，属离散型分布，由此计算的χ2值的抽样分布也应当是不连续的，分析实例注意：确切概率法不属于χ2检验的范畴，但常作为χ2检验应用上的补充。

分析实例1．建立检验假设和确立检验水准▪H0：新药组与对照组疗效相等，即π1 = π2方法原理在四格表周边合计不变的条件下，在相应的总体中进行抽样，四格表中出现各种排列组合情况的概率方法原理表6.10 在四格表(表6.9)周边合计不变的条件下，π1=π2时的概率分布计算d 0 1 2 3 4 5 6* 7 8一点补充确切概率法可以考虑单边检验对于较大的行乘列表，确切概率法的计算量将变方法原理例6.9 用A、B两种方法检查已确诊的乳腺癌患者140名，A法检出91名(65%)，B法检出77名(55%)，A、B两法一致的检出56名(40%)，问哪种方法阳性方法原理•显然，本例对同一个个体有两次不同的测量，从设计的角度上讲可以被理解为自身配对设计方法原理注意▪考虑该例四格表中两处理阳性检出率是否相同方法原理根据H0得b、c两格的理论数均为T b = T c = (b+c)/2，对注意事项McNemar检验(配对卡方检验)只会利用非主对角线单元格上的信息，即它只关心两者不一致的评价情况，用于比较两个评价者间存在怎样的倾向。

四格表资料的Fisher确切概率法资料讲解

H0成立时, 304例老年胃溃疡患者中胃出血发生人数的分布
9
二、两样本率比较
目的：推断两个样本各自代表的两总体率是否相等应用条件：当两个样本率均满足正态近似条件时，
可用u检验。
up1p2 sp1p2
p1p2
pc(1pc)(n11
1) n2
pc
x1 n1
x2 n2
10
两样本率比较
例5 为研究高血压病的遗传度, 某医师进行了高血压子代患病率调查。其中父母双亲有一方患高血压者调查了205人，其中高血压患者101人；父母双亲均患高血压者调查了153人，其中高血压患者112人。问双亲中只有一方患高血压与双亲均患高血压的子代中，高血压患病率是否相同？本例 p1=101/205=0.49268
H0(=0=50) 成立时,1小时内该装置发出的质点数的概率分布 19
样本阳性数与总体平均数的比较----直接计算概率法
例10 某省肺癌死亡率为35.2/10万，在该省某地抽查10万人，进行三年死亡回顾调查，得肺癌死亡数为82人。已知该地人口年龄别构成与全省基本相同。问该地肺癌死亡率与全省有无差别？
本例π0=0.80，1-π0=0.20，n=10，根据题意需求最少治愈9人的概率。
5
样本率与总体率的比较----直接计算概率法
例2 据以往经验，新生儿染色体异常率一般为1％，某医生观察了当地400名新生儿，发现有1例染色体异常，问该地新生儿染色体异常率是否低于一般？
H0成立时, 400名新生儿中染色体异常例数的概率分布
p1=70/100=0.70 p2=60/120=0.50 pc =(70+60)/(100+120)=0.5909
12

四格表资料的确切概率法

合计
愈合
未愈合
64(57.84) 21(27.16)
51(57.16) 33(26.84)
115
54
合计 85 84
169
愈合率 (%) 75.29 60.71 68.05
表反应变量按二项分类的两个独立样本资料
反应结果
阳性
阴性
观察总频数
阳性频率
样本 1
A11
A12
n1 ( 给定 ) P1 A11 n1
理论频数
f1 F1 2 ( f2 F2 )2 ... ( fk Fk )2
F1
F2
Fk
k 1 (计算理论分布时利用
自由度样本资料估计的参数个数)
（3）确定概率 P 并作出统计推论。
注意：理论频数F不宜过小，如不小于5，否则需要合并
例 6-1 某医学院校医生随机抽取 100 名一年级
0
f
( 2)
1
2( / 2)
2
2
( / 21) e 2 / 2
自由度＝1 自由度＝2 自由度＝3 自由度＝6 P＝0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18卡方值Fra bibliotek性质:若 2 (1 ), 2 (2 )互相独立,
则
2 (1 ) 2 (2 ) 服从 2分布, 自由度 1 2 2 (1 ) 2 (2 )服从 2分布, 自由度 1 2
第二节拟合优度检验
类别或组段观察频数
理论频数
1
f1
F1
2
f2
F2
…
…
…
k
fk
Fk

四格表资料精确检验法的计算程序

两种药物治疗某种疾病结果比较，Ｐ．５＞Ｏ０差别无显著意义。
参考文献
表ｌ新ＩＮ种药物治疗某种疾病结果比较［Ｂ］
１上海第一医学院卫生统计教研室．医学统计方法．１版．上海：第
上海科学技术出版社，９９１５１６１７：２～２．
２宇传华，徐勇勇．四格表精确检验双侧概率计算方法比较．中国
卫生统计，９６１（）４￣４．１９，３４：７９
收稿日期：０９０ —１２０ —８３
作者简介：毕永（９０）男，１６一，汉族，卫生检验师。
＊陕西省子长县人民医院
子长
ＣＳＯｆ３０ＡＩｘ６０Ｐ计算器，一阶乘输入范围０ｚ９， ≤ ≤６置有３８步程序存储器。笔者利用Ｋ寄存器输入变量，编制了确切概率的计算程序，在Ｍ寄存器读取，高了工作效Ｐ可提
率。现介绍如下：
Ｐ（示００４）１显．２５令：ｎ１７Ｋｉ
０Ｋｉｎ２
０Ｋｉ３ｎ
Ｐ２
输入变量
Ｘ！一ＩＮＶ）ｋＮＶｃ１Ｉ — Ｘ！× Ｋｏｔ４ＩｕＮＶ！× Ｋｏｔ５ＩＸｕＮＶＸ！
× Ｋｏｔ６Ｋｉ＋５ＩｕｎＮＶ！－Ｕ－ｕＮＶｘｋＫＯｔ１ｋＫｏｔ５Ｉｘ！
ＬＮ状态Ｒ
Ｐ（示０１３）１显．８６
Ｐｌ
ＩＣＮＶＰＬ
Ｐ２２程序｜

完全随机设计四格表资料的卡方检验,其校正公式

完全随机设计四格表资料的卡方检验,其校正公式在统计学中，卡方检验是用来检验观测频数与期望频数是否存在显著差异的一种常用方法。

在实际应用中，我们经常会遇到完全随机设计四格表资料的情况，而对这种情况进行卡方检验时，需要使用相应的校正公式，以确保检验结果的准确性和可靠性。

让我们来理解一下完全随机设计四格表资料的含义。

完全随机设计是实验设计中的一种常见形式，它要求实验对象被随机分配到各个处理组中，各处理之间相互独立，且每个处理组中的实验对象也是相互独立的。

四格表则是指实验结果按照两个因素分组，形成四个格子，每个格子中包含了不同处理的观测频数。

在这种情况下，我们需要进行卡方检验来判断两个因素之间是否存在相关性或独立性。

在进行卡方检验时，我们首先需要计算期望频数。

期望频数是指在假设两个因素之间不存在相关性或独立性的情况下，每个格子中的理论频数。

一般情况下，完全随机设计四格表资料的期望频数可以通过计算公式进行推导。

在这里，我们就需要使用校正公式来确保计算的准确性。

校正公式是针对完全随机设计四格表资料计算期望频数时可能出现的分母为0或者过小的情况而设计的。

当实际观测频数与期望频数之间存在很大差异时，校正公式能够有效地调整计算结果，提高卡方检验的准确性。

一般来说，校正公式的具体形式会根据不同的实验设计和数据特点而有所不同，需要根据具体情况进行选择和应用。

在进行卡方检验时，我们需要使用校正公式来计算期望频数，并将实际观测频数与校正后的期望频数进行比较，进而得出检验结果。

通过对实际情况进行充分的了解和分析，我们可以更好地理解和运用卡方检验，从而做出科学合理的决策。

回顾本文所涉及的内容，完全随机设计四格表资料的卡方检验及其校正公式是统计学中一个重要且常见的问题，它在实际应用中具有广泛的意义。

通过了解和掌握相关的知识和方法，我们可以更好地进行数据分析和推断，为科学研究和决策提供可靠的依据。

在个人观点和理解方面，我认为掌握卡方检验及其校正公式是统计学学习中的一项基本能力，它不仅可以帮助我们理解实验设计和数据分析的原理，还可以为科学研究和实践工作提供重要的支持。

医学统计学四格表资料的检验

by”选项；从左边源变量名称框中选择频数变量“freq”作为权变量，将其选入”Frequency variable”框中 • “Analyze”→ “Descriptive Statistics” → “Crosstabs”打开 “Crosstabs” … • Row(s): treat • Column(s): effect • Statistics… Chi-square • Cells Expected • 3.结果及解释
1． 2 分布
（1） 2分布是一种连续型分布：按分布的密度函数可给出
自由度=1，2，3，……的一簇分布曲线（图7-1）。
（2） 2分布的一个基本性质是可加性：如果两个独立的
随机变量X1和X2分别服从自由度ν1和ν2的分布，
即
X1
~
2 1
,
X2
~
2 2
，那么它们的和（
X1+X2
）服从自由度
（ ν1+ν2 ）的分 2布，即 ( X1 X～2 )
95.20
对照组 75(83.52) c 21(12.48) d 96 (c+d)
78.13
合计 174(a+c)
26(b+d)
200 (n)
87.00
本例资料经整理成图7-2形式，即有两
个处理组，每个处理组的例数由发生数和
未发生数两部分组成。表内有
99 75
5 21
四个
基本数据，其余数据均由此四个数据推算
α=0.05。
（2）求检验统计量值
T11 104 174 / 200 90.48 ，T12 104 90.48 13.52 T21 174 90.48 83.52 ，T22 26 13.52 12.48 。

福师《生物统计学》答案

一、单选题（共?32?道试题，共?64?分。

）V1.??最小二乘法是指各实测点到回归直线的A. 垂直距离的平方和最小B. 垂直距离最小C. 纵向距离的平方和最小D. 纵向距离最小2.??被观察到对象中的（）对象称为（）A. 部分，总体B. 所有，样本C. 所有，总体D. 部分，样本3.??必须排除______因素导致“结果出现”的可能，才能确定“结果出现”是处理因素导致的。

只有确定了______，才能确定吃药后出现的病愈是药导致的。

A. 非处理因素，不吃药就不可能出现病愈B. 处理因素，不吃药就不可能出现病愈C. 非处理因素，吃药后确实出现了病愈D. 处理因素，吃药后确实出现了病愈4.??张三观察到李四服药后病好了。

由于张三的观察是“个案”，因此不能确定______。

A. 确实进行了观察B. 李四病好了C. 病好的原因D. 观察结果是可靠的5.??四个样本率作比较，χ2>χ20.05,ν可认为A. 各总体率不同或不全相同B. 各总体率均不相同C. 各样本率均不相同D. 各样本率不同或不全相同6.??下列哪种说法是错误的A. 计算相对数尤其是率时应有足够的观察单位或观察次数B. 分析大样本数据时可以构成比代替率C. 应分别将分子和分母合计求合计率或平均率D. 样本率或构成比的比较应作假设检验7.??总体指的是（）的（）对象A. 要研究，部分B. 观察到，所有C. 观察到，部分D. 要研究，所有8.??以下叙述中，除了______外，其余都是正确的。

A. 在比较未知参数是否不等于已知参数时，若p(X>x)<α/2，则x为小概率事件。

B. 在比较未知参数是否等于已知参数时，若p(X=x)<α，则x为小概率事件。

C. 在比较未知参数是否大于已知参数时，若p(X>x)<α，则x为小概率事件。

D. 在比较未知参数是否小于已知参数时，若p(X<x)<α，则x为小概率事件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

南京大学学报(自然科学)第34卷　第5期　JOU RN AL OF NAN JING U NIV ERSIT Y Vol.34,No.5　1998年9月 (N ATU RAL SCIENCES ) Sept .,1998配对四格表资料差别检验的精确概率方法刘玉秀　刘　钧(南京大学医学院临床学院南京军区南京总医院　医务部,210002,南京)摘　要　探讨用于配对四格表资料差别检验的精确概率方法。

方法:在配对四格表资料两组率差为0的无效假设下,根据两项分布的原理,可导出假设检验用的精确概率计算公式,借此公式经逐一计算,给出b ≤20和c ≤10不同组合时的单、双侧检验精确概率值。

提供了配对四格表资料差别检验的精确概率计算公式,并构造出b ≤20和c ≤10的精确概率速查表。

结论:M cN emar 卡方检验方法仅适于b +c >20情形,当b +c ≤20时宜用本文介绍的精确概率方法:或通过公式计算或直接查表。

关键词　配对四格表,假设检验,精确概率分类法　R311a0　引言医学研究中经常会遇到配对形式的四格表资料,该类资料数据处理的目的一般为推断两因素(处理)间有无关联或两处理的结果间有无差异(此种情况更为多见),前者可采用通常四格表资料处理的卡方检验法或Fisher 精确概率法,后者常规应用的方法为M cNem ar 卡方检验法,但此方法需满足一定的条件,当配对四格表中(b+c)较小(<20)时不宜使用,应考虑选用配对四格表资料差别检验的精确概率计算方法。

表1 A 、B 两种检验方法对血中某抗体的检出情况T able 1　T he o utcome o f two test matho dsA B +-合　计+461460-43640合计50501001　举例欲比较两种检验方法对血样中某抗体的检出率,将100份血样同时用两种方法进行检测,结果为阳性或阴性。

根据检测的结果,应以血样本为基本单位,整理成数据对子数为100的配对形式的四格表资料(表1)进行两方法间检出率a收稿日期:1997-07-14;修回日期:1998-03-03第一作者简介:刘玉秀,男,1966年2月生,主治医师,现从事科研管理,曾发表“生物检定数据效价比值的广义线性模型估计”等论文差异的检验时,应进行专用于配对四格表资料的检验方法。

一般,可供应用的检验方法为M cNemar 卡方检验,连续性校正的公式为:V 2=(ûb-c û-1)2b+c,自由度df =1该式的使用有一定的限制条件,不适于b+c<20的情形。

对配对四格表资料差别的检验可基于参数P =0.5的两项分布,用直接计算概率的方法进行,称为精确概率计算法〔1,2〕。

2　精确概率计算的通用步骤a b cd2.1　构造出配对的四格表资料　假设比较的两组结果为属阳性或阴性的两分类数据,以a 代表两组均为阳性的对子数,d 代表两组均为阴性的对子数,b 代表一组为阳性另一组为阴性的对子数,c 代表一组为阴性而另一组为阳性的对子数,n 为总对子数,n=a+b +c+d 。

配对的四格表可简单示意为如右的形式:2.2　建立检验假设　由配对四格表资料可知,第1组的阳性率为(a+b)/n,第2组的阳性率为(a+c)/n 。

比较两组的阳性率,也即是对两组阳性率的差异进行假设检验。

假设为:H 0:P1-P 2=0,两组的阳性率相等;H 1:P 1-P 2≠0,两组的阳性率不等;显著性水平A =0.05。

因两组样本率的差值为(b-c)/n,故两组率差异的假设检验实际上等价于b 和c 差异的假设检验。

在零假设下,对于给定的(b+c)个对子,b 或c 可认为服从于参数P =0.5的两项分布。

以下的精确概率计算方法即是根据此原理而导出的。

2.3　精确概率计算　若b >c ,单侧检验的P 值为〔3,4〕:P 单=∑ci =0(b+c)!i!(b+c-i)!×0.5b +c式中“!”为阶乘的数学符号,指其前整数逐次减少1以后的连乘积。

约定:0!=1。

∑指对其后的算式求和,下同。

若b ≤c,单侧检验的P 值为〔3,4〕:P 单=∑bi =0(b+c)!i!(b+c-i)!×0.5b +c因P =0.5的两项分布为对称分布,故双侧检验的P 值为:P 双=2×P 单2.4　推断结论　根据精确概率的P 值大小,按一定的显著性水平即可对结论进行推断。

事实上,以上的精确概率计算法适于任何情况下配对四格表资料差别的假设检验,只是当b +c >20时的计算量较大,故可选用不失准确性、且简便易用的M cNemar 卡方检验法。

3　例算过程上例采用连续性校正的M cNemar 卡方检验,可计算出检验统计量V 2=4.50,df=1,P =0.0339(<0.05),差异显著,A 方法的检出率高于B 方法。

由于b +c =18<20,故结论的准确性值得怀疑。

为此,最好使用配对四格表资料差别检验的精确概率计算法。

若有足够的理由认为A 方法的检出率不会低于B 方法,应计算单侧精确概率。

将b=14和c=4代入上述公式得:・628・南京大学学报(自然科学)第34卷　 P 单=∑4i =018!i!(18-i)!×0.518=0.01544通常应采用双侧检验,其精确概率为:P 双=2×P 单=2×0.01544=0.03088 按0.05的显著性水平,可拒绝零假设,认为A 方法的检出率比B 方法的检出率高。

此统计结论和采用M cNem ar 卡方检验的结论一致。

当M cNemar 卡方检验法和精确概率计算法的结论不一致时,应以精确概率计算法的推断结论为准。

4　精确概率数值表及其使用为了方便使用者,作者已根据上述的公式,对b ≤20和c ≤10不同组合下的配对四格表计算了单侧和双侧的概率(表2)。

实用中,对配对四格表资料的差别检验不需再进行复杂的计算,直接查表即可获得精确概率P 值。

例如,本例的b=14,c=4,也可直接查配对四格表资料差别检验的精确概率数值表,得单侧P =0.0154,双侧P =0.0309,与计算结果仅存在舍入误差。

表2　配对四格表资料差别检验的精确概率数值表T able 2　Exact pr obability for paired four fold t ables of b ≤20and c ≤10b c0123456789101.50001.00002.2500.5000.5000 1.00003.1250.3125.5000.2500.6250 1.00004.0625.1875.3438.5000.1250.3750.6875 1.00005.0313.1094.2266.3633.5000.0625.2188.4531.7266 1.00006.0156.0625.1445.2539.3770.5000.0313.1250.2891.5078.7539 1.00007.0078.0352.0898.1719.2744.3872.5000.0156.0703.1797.3438.5488.7744 1.00008.0039.0195.0547.1133.1938.2905.3953.5000.0078.0391.1094.2266.3877.5811.7905 1.00009.0020.0107.0327.0730.1334.2120.3036.4018.5000.0039.0215.0654.1460.2668.4240.6072.8036 1.000010.0010.0059.0193.0461.0898.1509.2272.3145.4073.5000.0020.0117.0386.0923.1796.3018.4545.6291.8145 1.000011.0005.0032.0112.0287.0592.1051.1662.2403.3238.4119.5000.0010.0063.0225.0574.1185.2101.3323.4807.6476.8238 1.000012.0002.0017.0065.0176.0384.0717.1189.1796.2517.3318.4159.0005.0034.0129.0352.0768.1435.2379.3593.5034.6636.831813.0001.0009.0037.0106.0245.0481.0835.1316.1917.2617.3388・629・第5期刘玉秀等:　配对四格表资料差别检验的精确概率方法b c 01234567891014.0001.0005.0021.0064.0154.0318.0577.0946.1431.2024.2706.0001.0010.0042.0127.0309.0636.1153.1892.2863.4049.541315.0000.0003.0012.0038.0096.0207.0392.0669.1050.1537.2122.0001.0005.0023.0075.0192.0414.0784.1338.2100.3075.424416.0000.0001.0007.0022.0059.0133.0262.0466.0758.1148.1635.0000.0003.0013.0044.0118.0266.0525.0931.1516.2295.326917.0000.0001.0004.0013.0036.0085.0173.0320.0539.0843.1239.0000.0001.0007.0026.0072.0169.0347.0639.1078.1686.247818.0000.0000.0002.0007.0022.0053.0113.0216.0378.0610.0925.0000.0001.0004.0015.0043.0106.0227.0433.0755.1221.184919.0000.0000.0001.0004.0013.0033.0073.0145.0261.0436.0680.0000.0000.0002.0009.0026.0066.0146.0290.0522.0872.136020.0000.0000.0001.0002.0008.0020.0047.0096.0178.0307.0494.0000.0000.0001.0005.0015.0041.0094.0192.0357.0614.0987 (b>c;上行:单侧概率,下行:双侧概率)本精确概率数值表仅给出b>c 的情形,若遇b<c 时,可将b 、c 对调后查表,并不影响概率P 值。