配对设计2×2列联表的精确检验方法及应用

合集下载

田间试验设计作业答案

田间试验设计作业答案

⽥间试验设计作业答案单项选择题1、对于已分组的⼤样本资料,计算其标准差宜采⽤A. 加权法随机法概率法直接法2、对于未分组的⼤样本资料,计算其⽅差宜采⽤概率法直接法加权法随机法3、投掷硬币5次,其中3次⾯值朝上的概率是B. 0.250.1250.31250.64、在直线回归分析和直线相关分析中,下列说法错误的是C. 相关系数可⽤回归系数表⽰,反之则不然直线回归分析的两相关变量可区分为⾃变量和依变量直线相关分析研究的变量呈平⾏关系两相关变量间的决定系数等于其相关系数的平⽅5、关于试验观测值的准确性和精确性,下列表述错误的是精确性低,准确性⼀定低精确性⾼,准确性⼀定⾼准确性低,精确性有可能⾼准确性⾼,精确性⼀定⾼6、若两相关变量的样本观测值共n对,则其相关系数的⾃由度为n-212n-17、表⽰抽样误差⼤⼩应使⽤⽅差极差标准误标准差8、在种⼦发芽试验中,下列事件中属于基本事件的是1粒种⼦发芽某1粒种⼦发芽⾄少有1粒种⼦发芽⾄多有1粒种⼦发芽9、某样本资料的观测值是:18、5、17,20、11、15、12,则该资料的全距为54152010、检验某品牌花⽣油中油酸含量是否⾼于45%应采⽤F. 适合性检验独⽴性检验⼀尾检验两尾检验11、两相关变量x与y,其SPxy=0.36,SSx=0.2,SSy=0.8,则其相关系数为0.90.60.0720.28812、在编号为1、2、3、…、10的10株⽟⽶中随机抽取1株,下列事件中属于复合事件的是取得编号是6的植株取得编号是偶数的植株取得编号是2的植株取得编号是4的植株13、在3次重复的温度和湿度两因素完全随机设计试验中,进⾏不同温度间的平均数的多重⽐较应采⽤u法SSR发14、在3次重复的单因素完全随机设计试验资料的⽅差分析中,总平⽅和分解为处理平⽅和、误差平⽅和处理平⽅和、重复平⽅和、误差平⽅和处理平⽅和、重复平⽅和重复平⽅和、误差平⽅和15、某棉花品种产量样本的算术平均数为150(kg),标准差为6(kg),则其变异系数是96%75%25%4%16、下列变量中属于离散型随机变量的是⽟⽶植株的⾼度⽔稻的产量奶⽜的产奶量油菜花瓣的颜⾊17、对于未分组的样本资料,计算其算数平均数宜采⽤概率法中值法加权法直接法18、若随机变量u服从N (0,1),则右尾概率为0.005的临界u值是1.642.583.471.9619、某样本n个观测值的乘积开n次⽅所得的值,即为该样本的⼏何平均数n次⽅根20、在拉丁⽅设计中,下列说法错误的是E. 拉丁⽅设计可以控制两个⽅向的环境条件变异对试验指标的影响重复数等于处理数与完全随机设计相同,拉丁⽅设计仅使⽤了试验设计的重复和随机排列的原则横⾏区组数等于直列区组数多项选择题21、在下列χ2检验中,需进⾏连续性矫正的是2×2列联表的独⽴性检验9 : 3 : 4的适合性检验9 : 3 : 3 : 1的适合性检验15 : 1的适合性检验4×3列联表的独⽴性检验22、关于t分布,下列表述正确的是t分布的密度曲线是左右对称的t的⾃由度是n-1t的取值范围是(-∞,+∞)当t=0时,t分布的密度函数取得最⼤值当⾃由度⼀定时,t分布两尾概率越⼤,临界t值的绝对值越⼤23、在直线回归分析和直线相关分析中,下列表述错误的是相关变量x与y的直线回归分析中,回归系数显著表明x与y⼀定呈直线关系两相关变量间的决定系数等于其相关系数的平⽅直线回归分析的两相关变量可区分为⾃变量和依变量对同⼀组数据来说,回归系数和相关系数的假设检验是不等价的相关系数可⽤回归系数表⽰,反之则不然24、下列表述正确的是⽤⼏何平均数⽐⽤算数平均数更能代表作物⽣产的平均增长率⽔平样本平均数是相应总体平均数的⽆偏估计值表⽰某⼀过程不同阶段的平均⽔平时,调和平均数优于算数平均数数据资料呈偏态分布时,中位数的代表性优于算数平均数对于同⼀资料来说,算数平均数≥⼏何平均数≥调和平均数25、常⽤于表⽰计量资料的统计图有圆图线图直⽅图条形图多边形图判断题26、离均差的平⽅和最⼩。

教学设计2:§8.3 列联表与独立性检验

教学设计2:§8.3 列联表与独立性检验

§8.3列联表与独立性检验教学目标1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.教学知识梳理知识点一分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.知识点二2×2列联表1.2×2列联表给出了成对分类变量数据的交叉分类频数.2.定义一对分类变量X和Y,我们整理数据如下表所示:知识点三独立性检验1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.思考独立性检验与反证法的思想类似,那么独立性检验是反证法吗?答案不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.教学案例案例一等高堆积条形图的应用例1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.解:作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.反思感悟等高堆积条形图的优劣点(1)优点:较直观地展示了aa+b与cc+d的差异性.(2)劣点:不能给出推断“两个分类变量有关系”犯错误的概率.跟踪训练1.研究人员选取170名青年男女大学生,对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名.试判断性别与态度之间是否有关系.解:根据题目所给数据建立如下列联表:肯定否定总计女生184260男生2288110总计40130170比较来看,女生中肯定的人数比要高于男生中肯定的人数比,因此可以在某种程度上认为性别与态度之间有关. 案例二 由χ2进行独立性检验 命题角度1 有关“相关的检验”例2.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了 500位老年人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%(2)χ2=500×(40×270-30×160)2200×300×70×430≈9.967.因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.反思感悟 用χ2进行“相关的检验”步骤 (1)零假设:即先假设两变量间没关系. (2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值x α. (4)下结论:比较χ2与x α的大小,并作出结论.跟踪训练2.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),25周岁以下组工人有40×0.05=2(人).从中随机抽取2名工人,记至少抽到一名25周岁以下组工人的事件为A , 故P (A )=1-C 23C 25=710,故所求概率为710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人), 据此可得2×2列联表如下:所以得χ2=(a +b )(c +d )(a +c )(b +d )=100×(15×25-15×45)260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. 命题角度2 有关“无关的检验”例3.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.解:根据列联表中的数据,得到K 2=32468196196)2915716739(3922⨯⨯⨯⨯-⨯⨯=1.78.因为1.78<3.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作心脏病与否与其做过何种手术无关. 反思感悟 独立性检验解决实际问题的主要环节(1)提出零假设H 0:X 和Y 相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值x α比较. (3)根据检验规则得出推断结论.(4)在X 和Y 不独立的情况下,根据需要,通过比较相应的频率,分析X 和Y 间的影响规律. 跟踪训练3.为了研究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高一在校生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关? 解:问题是判断学生选报文、理科是否与对外语的兴趣有关.列出2×2列联表如下:由公式得K 2的观测值k =361×(138×52-73×98)236×125×211×150≈1.871×10-4.因为1.871×10-4<2.706,故可以认为学生选报文、理科与对外语的兴趣无关. 课堂小结 1.知识清单: (1)分类变量. (2)2×2列联表. (3)等高堆积条形图. (4)独立性检验,χ2公式. 2.方法归纳:数形结合.3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题. 当堂检测1.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A .94,96 B .52,50 C .52,60 D .54,52【答案】C【解析】∵a +21=73,∴a =52,b =a +8=52+8=60.2.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.005 C .0.05 D .0.001【答案】C 【解析】由公式得χ2=50×(18×15-8×9)226×24×27×23≈5.059>3.841=x 0.05.∴犯错误的概率不超过0.05.3.(多选)若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( ) A .在犯错误的概率不超过0.01的前提下,认为吸烟和患肺癌有关系 B .1个人吸烟,那么这个人有99%的概率患有肺癌 C .在100个吸烟者中一定有患肺癌的人D .在100个吸烟者中可能一个患肺癌的人也没有 【答案】AD【解析】独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.4.某销售部门为了研究具有相关大学学历和能按时完成销售任务的关系,对本部门200名销售人员进行调查,所得数据如下表所示:根据上述数据能得出结论:有________以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”. 【答案】99% 【解析】由公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得χ2=200×(57×65-42×36)299×101×93×107≈9.67.因为9.67>6.635=x 0.01,所以有99%以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.(1)计算a ,b ,c (2)文科学生总成绩不好与数学成绩不好有关系吗? 解:(1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因为P (K 2≥5.024)≈0.025,所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.。

Fisher_精确检验及实例分析

Fisher_精确检验及实例分析

Fisher 精确检验检验两个二进制变量是否是独立的。

该检验可以分析 2x2 列联表,并产生精确的 p 值,以检验以下假设:· H0:行变量和列变量是独立的· H1:行变量和列变量是相关的Fisher 精确检验中的 p 值对于所有样本数量都是准确的,而当单元格计数较小时,用于检查相同假设的卡方检验的结果可能不准确。

例如,可以使用 Fisher 精确检验来分析下面的竞选结果列联表,以确定投票是否独立于投票人的性别。

候选人 A 候选人 B对于该表,Fisher 精确检验产生的 p 值为 0.263。

由于该 p 值大于常用的 a 水平,因此数据与原假设一致。

因而,没有证据表明在竞选中投票人的性别会影响其选择。

您还可以使用 Fisher 精确检验来确定两个总体比率是否相等。

对于此应用,原假设假定两个总体比率是相等的 (H0:p = p);备择假设可以是左尾 (p < p)、右尾 (p > p),或双尾 (p≠ p)。

Fisher 精确检验作为两个比率的检验十分有用,因为它对于所有样本数量都是准确的,而当事件数小于 5 时,以及试验数减去事件数的结果小于 5 时,基于正态近似的 2 个比率的检验可能不准确。

Fisher 精确检验基于超几何分布。

因此,p 值在表的边际合计中是有条件的。

实例:下面用R语言实现检验:> x=c(1,9,11,3)> alle<-matrix(x, nrow=2)> fisher.test(alle,alternative ="two.sided")Fisher's Exact Test for Count Datadata: allep-value = 0.002759alternative hypothesis: true odds ratio is not equal to 195 percent confidence interval:0.0006438284 0.4258840381sample estimates:odds ratio0.03723312通过> help(fisher.test) 来查看使用说明,alternative = "two.sided"是双侧检验,可以根据说明进行调整为单侧'"greater"' or '"less"'.fisher.test package:stats R DocumentationFisher's Exact Test for Count DataDescription:Performs Fisher's exact test for testing the null of independenceof rows and columns in a contingency table with fixed marginals.Usage:fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,control = list(), or = 1, alternative = "two.sided",conf.int = TRUE, conf.level = 0.95,simulate.p.value = FALSE, B = 2000)Arguments:x: either a two-dimensional contingency table in matrix form, ora factor object.y: a factor object; ignored if 'x' is a matrix.fisher.test {stats}R Documentation Fisher's Exact Test for Count DataDescriptionPerforms Fisher's exact test for testing the null of independence of rows and columns in a contingency table with fixed marginals.Usagefisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,control = list(), or = 1, alternative = "two.sided",conf.int = TRUE, conf.level = 0.95,simulate.p.value = FALSE, B = 2000)Argumentsx either a two-dimensional contingency table in matrix form, or a factor object.一个二维矩阵形式的列联表,或一个因素对象。

列联表资料的SPSS分析

列联表资料的SPSS分析
我们以实验研究列联表资料实例,运用SPSS 软件包进行统计分析,对操作过程和结果解释予 以详细说明,希望能给大家提供借鉴。
1
一、一般四格表(2 × 2 列联表)资料
实验研究一般四格表(2×2 列联表)资料分析目的主 要有 2 个,一是分析两个比率总体的差别有无统计学意义 或两样本某指标的分布(或构成)总体是否相同,二是分 析两个分类特征是否有关联。
别;Kappa 检验(SPSS 不给可信区间),Kappa = 0.824, P < 0. 01,说明两种检查具有较好的一致性。
可以看出, 两种检验结果是矛盾的。为什么呢? McNemar 法一般用于样本含量 n 不太大的资料,因只考 虑结果不一致的情况,而未考虑样本含量 n 和结果一致的 情况,所以,当 n 很大且结果一致率高时,不一致的数值 相对较小,容易出现有统计学意义的检验结果,但实际意 义可能不大。本例即是如此,应以一致性检验结果为准。 实际上,对于两种检验(查)方法或诊断方法结果进行分 析时,主要分析的也就是一致性。根据Kappa 值判断一致 性强度的标准尚有争议,一般认为:Kappa 值< 0.4 时, 一致性较差;在 0.4~0.75 之间有中度至高度一致性;> 0.75 时,有极好的一致性。
列联表资料的SPSS分析
在实验研究与基础实验研究中,所分析的指 标可以是定量的,也可以是定性的。其定量指标, 有时也转化成定性资料进行分析。这些定性资料 或由定量资料转化而来的定性资料,一般都整理 成列联表形式,根据资料性质和分析目的选择恰 当的分析方法进行统计分析,并将统计分析结果 与专业知识相结合, 做出合理的解释。
51
合计
260 182 144
532
有效率(%)
96.60 90.11 81.94

医学统计学案例分析

医学统计学案例分析

指标
表一 很好、好、一般、差的标准
很好

一般
疗效
治愈
显效
好转
住院日(天)
≤15
16-20
21-25
费用(元)
≤1400
1400-1800
1800-2200
差 无效 >25
>2200
表二 两年病人按医疗质量等级的频数分配
指标
年份
很好

一般

2001
160
380
20
40
疗效
2002
170
410
10
60
• 小结 • 卡方检验的用途: • (1)比较两个或多个独立样本频率或独立样本频率分布。
(2)比较配对设计两样本频率分布。 (3)单样本分布的拟合优度。、 注意事项:单项有序的行X列表,不宜用卡方检验比较两组效应,若做卡方检验能证明各处理组
的效应在构成比上有差异。即此种资料采用秩和检验。
秩和检验的适用条件
有统计学意义,更具调查所得的平均住院日与平均费用,可以认
为平均住院日2001年比2002年长,而费用2001年低于2002年。
请讨论以上检验方法是否正确?如不正确,问题出在什么地方?
• 1.本题的研究员用卡方检验对本题做了统计推断而我们知道卡方检验用于计数或计量资料, 而本题是一个等级资料。
• 2.单项有序的行X列表,不宜用卡方检验比较两组效应,若做卡方检验能证明各处理组的效应 在构成比上有差异。

水平上不拒绝H0,尚不能认为两年的疗效有差异。
对于住院日和费用的步骤如上述;由SPSS系统得住院日的数据 Z=2.775 P=0.006 P< α 在α=0.05的水 平上拒绝H0,尚不能认为两年的住院日没有差异。由SPSS系统得费用的数据 Z=2.589 P=0.010 P< α 在α=0.05的水平上拒绝H0,尚不能认为两年的没有差异。

x2检验第六版

x2检验第六版

第二个表显示列联表的资料,一个期望频数小于5(4.8)
皮尔逊卡方值x2(pearson chi-square)
连续校正x2(continuity correction),仅在2×2表计 算
似然比值(likelylihood ratio) 费歇尔精确检验(fisher‘s exact test) 线形组合(linear-by-linear association) 有效例数(N of valid cases)
如果想对其中的两个率进行相互比较时, 最好能够采用更加复杂的分类数据模型, 如对数线性模型或者logistic回归模型进行 分析,采用列联表分割等方法只能得到近 似的结果,最好不要使用。
四、配对设计
(一)配对设计四格表(2×2列联表)
计数资料配对设计的应用: 可用于两种检验方法、培养方法、诊断
有效例数(N of valid cases)
结论:有0个格子的期望频数小于5,最小 期望频数为6.56,符合pearson x2检验的要 求。
皮尔逊卡方值x2=4.130,p=0.042<0.05, 差别有统计学意义。
四格表校正卡方检验
例题9-3
步 骤:
1、定义变量,输入数据 设三个变量: 处理(r):即行号 状况(c):即列号 频数(f)
Rows框:sex columns框:x0 cells: percentages:选择row、column、total →continue→ok
Cells 按钮
首先是处理记录缺失情况报告,可见24例 均为有效值。
第九章 χ2 检 验(卡方检验)
χ2检验(chi square test)是以χ2 分布为理论基础的检验 方法。主要用于分类资料(列联表资料,contingency table)的假设检验。也用于频数分布的拟合优度检验 (goodness of fit).

二乘二列联表解题步骤

二乘二列联表解题步骤

二乘二列联表解题步骤二乘二列联表解题步骤:第一步:明确题意,寻找题干中的两个变量。

在开始列联表解题之前,我们需要先明确题意,找到题干中的两个变量。

例如:一项调查问卷中,记录了被调查者的性别和最喜欢的球类运动。

这个例子中,两个变量分别是“性别”和“最喜欢的球类运动”。

第二步:绘制二乘二列联表。

根据题目所给的两个变量,绘制一个二乘二的列联表。

在第一列和第一行填上两个变量的取值,例如:在性别这一列填上“男”和“女”,在最喜欢的球类运动这一行填上“足球”和“篮球”。

第三步:统计频数。

根据题目的要求,统计出每个交叉分类下的频数,即每个区域内对应的样本数。

例如:在“男性喜欢足球”的区域内,有18位男性被调查者最喜欢足球。

第四步:计算比例。

以每个交叉分类下的频数为基础,计算出每个分类下的比例。

例如:在“男性喜欢足球”的区域内,男性喜欢足球的比例为36%。

第五步:绘制百分比列联表。

把第四步中计算出的比例填写到表格中,以便更好地了解两个变量之间的关系。

例如:在二乘二列联表中,“男性喜欢足球”的区域内,男性喜欢足球的比例为36%。

第六步:进行分析。

通过表格中不同分类下的比例,可以观察到两个变量之间的关系。

例如:在某项调查问卷中,男性喜欢足球的比例高于女性喜欢足球的比例。

这是一个比较明显的性别和运动喜好的关系。

以上就是二乘二列联表解题的基本步骤。

需要注意的是,在进行统计和计算时,应该准确无误地记录数据,避免出现数据误差。

同时,在分析结果时,应该把数据放在一个较大的背景中进行思考,避免单纯地从个别数据中得出结论。

2_2列联表资料的统计分析与SAS软件实现

2_2列联表资料的统计分析与SAS软件实现

本例关心的结果是“复位是否满意的患者创伤 性关节炎发生频率之间的差异有无统计学意义”,其 对应的相对危险度 ( relative risk , RR) 应看第 1 列 风险所对应的结果 。RR = 0. 275 0 ,即复位满意组 创伤性关节炎发生频率是复位不满意组创伤性关节 炎发生频率的 0. 275 0 倍 ,总体 RR 的 95 %置信区 间为[ 0. 101 4 ,0. 745 8 ] 。 若在 SA S 程序中将两行数据交换 ,则对应的 RR = 3. 636 4 ,其 95 %置信区间为[1. 340 9 ,9. 861 4] , 即复位不满意组创伤性关节炎发生频率是复位满意 组创伤性关节炎发生频率的 3. 636 4 倍 ,总体 RR 的 95 %置信区间为[ 1. 340 9 ,9. 861 4 ] 。
95 %置信限
0. 002 9 0. 002 9 0. 101 4 0. 101 4 1. 237 5 1. 237 5
0. 380 8 0. 380 8 0. 745 8 0. 745 8 54. 998 2 54. 998 2
·680 ·
中西医结合学报 2009 年 7 月第 7 卷第 7 期 Journal of Chinese Integrative Medicine , J uly 2009 , Vol . 7 , No . 7
·679 ·
Fisher 精确检验
单元格 (1 ,1) 频数 ( F ) 左侧 Pr < = F 右侧 Pr > = F 表概率 ( P ) 双侧 Pr < = P
34 0. 981 4 0. 034 1 0. 015 6 0. 063 0
由于χ2 = 3. 866 7 , P = 0. 049 3 ,似乎表明两组 不同资历医师的骨折漏诊情况不同 ,即 3 年以下医 师资历的接诊医师的漏诊率 (11. 9 %) 大于 3 年以上 医师资历的接诊医师 (7. 5 %) 。 但这样下结论是不够科学严谨的 ! 因为 χ2 检 验所依赖的理论依据是χ2 分布 ,而此分布原本是用 来描述连续性随机变量变化规律的 ,用来分析定性 资料纯属一种近似计算 ,对资料有一些特殊要求 。 本例虽然总样本量大于 40 ,也没有小于 5 的理论频 数 ,但计算所得到的检验统计量值刚超过最低临界 值 3. 841 ,此时 ,应以校正 χ2 检验结果或 Fisher 精 确检 验 结 果 为 准 , 即 校 正 χ2 = 3. 363 3 , P = 0. 066 7 ;或采用 Fisher 精确检验结果 P = 0. 063 。 对本例而言 ,正确的专业结论是 :虽然 3 年以下医师 资历的接诊医师的漏诊率 (11. 9 %) 大于 3 年以上医 师资历的接诊医师 (7. 5 %) ,但二者之间的差异没有 统计学意义 ,可认为其漏诊率基本相同 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

布是不合理的,此时须采用二项分布的方法进行精确
检验。
配对设计2×2列联表的精确检验
在表1中,如果行变量和列变量的频数分布相同, 那么理论上b和C的比例应为1:1,即两种不一致情 况出现的概率相等,令P=1/2。由此,我们可以给出 无效假设Ho:P=1/2;备择假设H1:p=/:l/2。
令,.=min(b,C)。在Ho:P=1/2成立的前提 下,我们利用二项分布计算累积概率:
SPSSl3.0还提供了配对设计行×列表的精确检 验,此方法是2 X 2列联表的推广。与SAS9.0相比, 这是SPSSl3.0的优点。
参考文献
1.Benard Rosner.Fundamentals of Biostatistics.5th ed.Brooks/Cole, 2000.
2.孙尚拱.生物统计学基础.北京:科学出版社,2004. 3.舢an Agresti.An introduction to categorical data analysis.New York:
万方数据
Chinese Journal of Health Statisticst Oct 2006,V01.23,No;
tables A*B/agree;
weight freq;
SPSSl3.0及SAS9.0软件应用 SPSSl3.0软件应用 例1中令变量A为“电子血压计”,变量B为“水 银血压计”,变量A与B的取值为1=高血压,2=正 常血压;变量freq表示相应的频数(图1)。在统计分析 前,需要进行数据的预处理:用“weight cases”命令,以 #eq为加权变量进行加权。
York:John Wiley&Sons.1981.
(实际工作中通常为两样本率或构成比的比较),则采 用McNemar卡方检验。大多数的国内医学统计书籍
z2:掣 中认为,当b+c≥40时,采用如下公式:

+r
、‘7
公式(1)是未修正的McNemar卡方检验,当b+f
<40时,采用如下公式:
1.北京大学医学部公共卫生学院流行病与卫生统计学系(100083) 2.北京大学第三医院职业病科(100083) 3.北京大学医学部药学院药物分析教研室(100083)
万方数据
proc freq; tables A*B;
exact mcnem;
weight freq;
run;
值得注意的是,当b+C很小时,SAS程序给出的 未修正McNemar卡方检验可能会得出错误的结论(如 例1),此时需要谨慎考察卡方检验的结果。
讨论
对于配对设计2X2列联表的检验方法,目前国内 医学统计书籍通常只介绍McNemar卡方检验方法,而 且提出在b+c<40时采用连续性修正。这样的提法 是很不严谨的。当b+c很小时,由于正态分布不能 很好地近似二项分布,所以采用卡方检验是不合理的, 此时应该采用精确检验。
·450·
·方法介绍·
生垦卫生箕进2Q竖生!Q旦錾21鲞筮§塑
配对设计2×2列联表的精确检验方法及应用
(1)h (2)b
何平平1 王洪源1 郭利霞2
配对设计在医学科研中应用很广泛。病例对照研 究或者实验研究中有时会采用1:1匹配(match)设计 来提高研究效率,控制混杂因素;或者在相同条件下同 一受试者接受两种不同的处理,以评价两种处理是否 有差异。当配对设计中所研究的变量为二分类变量 时,常需要将数据整理成配对设计的2×2列联表,然 后进行相应的统计学检验。对于配对设计的2×2列 联表,目前大多数的国内医学统计书籍介绍McNemar 卡方检验方法。但是此卡方检验的使用,需要满足正 态近似的条件。当正态近似不满足时,此检验是不适 用的,需要采用相应的精确检验方法【10】。常用统计 软件SPSS和SAS中已经给出精确检验方法,但目前 国内医学书籍却较少介绍此方法。本文讨论了配对设 计2×2列联表的精确检验方法,通过实例介绍精确检 验的应用,并给出相应的SPSS和SAS程序。
John Wiley&Sons.1996. 4.Alan Agresti.Categorical data analysis.New York:John Wiley&Sons。
1990. 5.Fleiss,Joseph L.Statistical methods for rates and proportions.New
此例中,b=7,f=1,b+C=8,r=min(b,C) =1,根据公式(3)
1 /Q\
P=2×∑{”一i=jO\(z1//2)8=2×(0.003906-I-
0.03125)=0.070 按照口=0.05,P>0.05,则尚不能认为两种血
压计测量血压有差异。
值得注意的是,若采用公式(1),则z2=4.5,P= 0.0339,即两种血压计测量血压有差异。本例中未修 正的McNemar检验与精确法结论相反!
图1例1的SPSS数据库格式 SPSS软件有两种方法可以进行配对设计2×2列 联表检验。一种是列联表方法(在“crosstabs”菜单中 选择“McNemar”选项):此方法只计算精确检验(公式 (3));另外一种是非参数方法(在“nonparametric tests” 菜单中选择“2 related samples”,然后选择“McNemar” 选项):当b+c<25时,此方法给出精确检验(公式 (3));当b+c≥25时,此方法给出连续性修正的Mc— Nemar卡方检验(公式(2))。 对于例1,因为b+c=8<25,所以两种方法都给 出了精确检验的结果:P=0.070。 SAS9.0软件应用 程序PROC FREQ中,当指定AGREE选项时,可 以计算未修正的McNemar卡方检验(公式(1));当在 EXACT语句中指定MCNEM选项时,可以同时给出 未修正的McNemar卡方检验(公式(1))和精确检验 (公式(3))。程序如下: data McNemar; input A B freq; cards; l 13 127 211 229
有研究提出当b+c<20时,须采用配对设计2X 2列联表的精确检验(1,引。在SPSSl3.0软件中,以b +f<25为精确检验的条件。这两种条件差别不大, 计算结果基本一致。
SPSSl3.0软件中,我们推荐采用非参数方法 Cnonparametric tests”菜单),此方法可以给出精确检 验(当b+c<25时)或者连续性修正的McNemar卡 方检验(当b+f≥25时)。SAS9.0软件中PROC FREQ程序,在EXACT语句中指定MCNEM选项,可 以同时给出未修正的McNemar卡方检验和精确检验。 需要注意的是,当b+c很小时,SAS9.0中未修正的 McNemar卡方检验可能会得出错误结论,此时我们推 荐采用精确检验。
McNemar检验
当配对设计中研究变量为二分类变量时,可以将 数据整理成如下2×2列联表(表1)。
表1配对设计的2×2列联表的卡方检验
李 凯1 吕 筠1 陈 鑫3
z2:山L掣




公式(1)和(2)是将正态分布近似二项分布,其中
公式(2)采用了连续性修正,能更好地近似二项分布。
值得注意的是,当b+c很小时,正态分布近似二项分
根据公式(3)计算P值,若取检验水准口=0.05, 则当P≤0.05时,拒绝H。,认为行变量和列变量的频 数分布不同。
例1【1]:某研究欲比较用电子血压计与水银血压 计测量血压是否有差异。该研究中高血压定义如下: 若收缩压≥160或舒张压≥95,则为高血压。随机入 选20人,分别用两种血压计测量每人的血压,测量结 果见表2,判断两种血压计测量血压是否有差异?
P(X≤r):∑(?¨}(1/2)…
由予通常采用双侧检验,所以计算双侧概率为
公式(3)中({『+。)_矗缟 P:2×妻f?¨I(1/2)b∥
(3)
—i=—0\z

表1中,a和d是行变量和列变量观测结果一致
的匹配对,b和C是行变量和列变量观测结果不一致
的匹配对。 若要比较行变量和列变量的频数分布是否相同
相关文档
最新文档