四格表的Fisher确切概率法
医学统计学试题4及 答案

(1).定量资料亦称计量资料,其变量值是定量的,表现为数值大小,一般有度量衡单位,如调查某年某地7岁女童的生长发育状况,以人为观察单位,女童的身高(cm)、体重(kg)、血红蛋白(g/L)等均属定量资料。
(2).定性资料亦称分类资料,其观察值是定性的,表现为互不相容的类别或属性,分为两种情况:①无序分类资料:包括:①二项分类。
如调查吸毒者的HIV感染情况,结果分为阳性与阴性两类,表现为互不相容的两类属性。
②多项分类。
如人类的AB0血型,以人为观察单位,结果分为A型、B型、AB型与O型,表现为互不相容的多个类别。
②有序分类资料:各类之间有程度的差别,给人以“半定量”的概念,亦称等级资料。
如测定某人群某血清学反应,以人为观察单位,结果可分“-”、“±”、“+”、“++”4级;2. 简述Wilcoxon符号秩和检验的应用。
Wilcoxon符号秩和检验又称Wilcoxon配对法,用于分析配对资料的差值是否来自中位数为零的总体。
资料配对设计计量差值的比较和单一样本与总体中位数的比较。
是在总体不服从正态分布且分布情况不明时,分布成非正态而又无适当的数据转换方法;不能或者未加精确测量,(如等级资料等)的情况下应用。
3. 方差分析的基本思想是什么?就是把全部观察值间的变异—总体变异按设计和需要分解成两个或多个组成部分,每部分与特定的因素相联系。
之后构造检验统计量F,实现对总体均数的推断。
方差分析的应用条件是各组资料取自正态分布,各总体方差齐同。
4. 频数表的主要用途有哪些?频数分布表又称频数表,是对样本量较大的资料进行统计描述的常用方法,主要用途是:(1)描述资料的分布特征和分布类型。
(2)进一步计算有关指标或进行统计分析。
(3)发现特大、特小的可疑值。
(4)据此绘制频数分布图。
5. 简述实验设计的基本原则。
在实验设计中,应当严格遵守对照、随机、重复的基本原则。
1、对照的原则1)设立对照的意义设立对照组的的意义在于使实验组和对照组内的非处理因素的基本一致,即均衡可比。
定性资料常用的统计学方法

定性资料常用的统计学方法一、χ2检验χ2检验(chi-square test)是一种主要用于分析分类变量数据的假设检验方法,该方法主要目的是推断两个或多个总体率或构成比之间有无差别。
(一)四格表资料的χ2检验例17:为了解吲达帕胺片治疗原发性高血压的疗效,将70名高血压患者随机分为两组,试验组用吲达帕胺片加辅助治疗,对照组用安慰剂加辅助治疗,观察结果见表4 -5-1,试分析吲达帕胺片治疗原发性高血压的有效性。
表4 -5-1 两种疗法治疗原发性高血压的疗效1.四格表χ2检验的原理:对于四格表资料,χ2检验的基本公式为:式中,A为实际频数(actual frequency),T为理论频数(theoreticalfrequency)。
理论频数T根据检验假设H0:π1=π2确定,其中π1和π2分别为两组的总体率。
计算理论频数T的公式为:式中Tij 为第i行第j列的理论频数,ni+和n+j分别为相应行与列的周边合计数,n为总例数。
现以例17为例说明χ2检验的步骤:(1)建立检验假设并确定检验水准。
H0:π1=π2,即试验组与对照组的总体有效率相等H1:π1≠π2,即试验组与对照组的总体有效率不等α=0.05(2)计算检验统计量。
按式(4 -5-2)计算T11,然后利用四格表的各行列的合计数计算T12、T21和T22,即T11=(44×41)/70=25.77,T12=44-25.77=18.23T21=41-25.77=15.23,T22=26-15.23=10.77按式(4 -5-3)计算χ2值(3)确定P值,作出推断结论。
以ν=1查χ2分布界值表,得P<0.005。
按α=0.05水准,拒绝H,接受H1,可以认为两组治疗原发性高血压的总体有效率不等,即可以认为吲达帕胺片治疗原发性高血压优于对照组。
2.四格表资料χ2检验的专用公式:在对两样本率比较时,当总例数n≥40且所有格子的T≥5时,可用χ2检验的通用公式(4 -5-1)。
fisher精确概率法的原理

fisher精确概率法的原理一、引言F i sh er精确概率法是一种常用于统计学研究中的假设检验方法。
它起源于20世纪20年代,由英国统计学家R on al dF is he r提出。
该方法主要用于小样本数据,特别是在二分类问题中,以判断某一概率值是否具有显著性差异。
本文将详细介绍Fi sh er精确概率法的原理、应用以及其在实践中的一些限制。
二、原理F i sh er精确概率法基于一个简单的原理,即对于给定的数据,存在一个或多个未知参数。
我们要基于这些数据,根据样本差异来判断这些参数的显著性是否超过某一给定的阈值。
其主要假设为样本的每一项都是独立同分布的。
三、步骤F i sh er精确概率法的步骤如下所示:1.建立零假设H0和备择假设H1:首先,我们需要明确自己的研究问题,并提出一个原始假设H0和备择假设H1。
H0通常表示无显著差异,而H1表示有显著差异。
2.计算观测值的概率:利用给定的数据,计算观测值Oc(观察到的结果)。
这个观测值是由样本数据计算得到的。
3.计算更极端结果的概率:基于零假设H0,通过计算更极端结果的概率P值,来衡量观测值O c与H0的一致性。
4.判断显著性:比较计算得到的P值与显著水平α(一般取0.05),然后根据P值是否小于α,来判断结果是否显著。
四、应用案例现在我们通过一个小案例来解释一下F ish e r精确概率法的应用:假设某药企希望判断他们新研发的药物是否能有效治疗某种疾病。
他们在30名患者身上进行了临床试验,其中20名患者服用了新药,而其他10名患者则服用了安慰剂(对照组)。
最后统计结果显示,在新药组中有16名患者病情好转,而在对照组中只有4名患者病情有所改善。
首先,我们建立零假设H0和备择假设H1。
在这个案例中,H0表示新药与安慰剂之间的治疗效果没有显著差异,H1表示新药具有显著治疗效果。
然后,我们计算观测值的概率。
根据统计结果,在新药组中16名患者病情好转,这个观测值为O c。
四格表资料的Fisher确切概率法资料讲解

9
二、两样本率比较
目的:推断两个样本各自代表的两总体率是否相等 应用条件:当两个样本率均满足正态近似条件时,
可用u检验。
up1p2 sp1p2
p1p2
pc(1pc)(n11
1) n2
pc
x1 n1
x2 n2
10
两样本率比较
例5 为研究高血压病的遗传度, 某医师进行了高血 压子代患病率调查。其中父母双亲有一方患高血压 者调查了205人,其中高血压患者101人;父母双亲 均患高血压者调查了153人,其中高血压患者112人。 问双亲中只有一方患高血压与双亲均患高血压的子 代中,高血压患病率是否相同? 本例 p1=101/205=0.49268
H0(=0=50) 成立时,1小时内该装置发出的质点数的概率分布 19
样本阳性数与总体平均数的比较----直接计算概率法
例10 某省肺癌死亡率为35.2/10万,在该省某 地抽查10万人,进行三年死亡回顾调查,得肺 癌死亡数为82人。已知该地人口年龄别构成与 全省基本相同。问该地肺癌死亡率与全省有无 差别?
本例π0=0.80,1-π0=0.20,n=10, 根据题意需求最少治愈9人的概率。
5
样本率与总体率的比较----直接计算概率法
例2 据以往经验,新生儿染色体异常率一般为1%, 某医生观察了当地400名新生儿,发现有1例染色体 异常,问该地新生儿染色体异常率是否低于一般?
H0成立时, 400名新生儿中染色体异常例数的概率分布
p1=70/100=0.70 p2=60/120=0.50 pc =(70+60)/(100+120)=0.5909
12
四格表资料的确切概率法

愈合
未愈合
64(57.84) 21(27.16)
51(57.16) 33(26.84)
115
54
合计 85 84
169
愈 合 率 (%) 75.29 60.71 68.05
表 反应变量按二项分类的两个独立样本资料
反应结果
阳性
阴性
观察 总频数
阳性 频率
样本 1
A11
A12
n1 ( 给 定 ) P1 A11 n1
理论频数
f1 F1 2 ( f2 F2 )2 ... ( fk Fk )2
F1
F2
Fk
k 1 (计算理论分布时利用
自由度 样本资料估计的参数个数)
(3) 确定概率 P 并作出统计推论。
注意:理论频数F不宜过小,如不小于5,否则需要合并
例 6-1 某 医 学 院 校 医 生 随 机 抽 取 100 名 一 年 级
0
f
( 2)
1
2( / 2)
2
2
( / 21) e 2 / 2
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18卡方值Fra bibliotek性质:若 2 (1 ), 2 (2 )互相独立,
则
2 (1 ) 2 (2 ) 服从 2分布, 自由度 1 2 2 (1 ) 2 (2 )服从 2分布, 自由度 1 2
第二节 拟合优度检验
类别或组段 观察频数
理论频数
1
f1
F1
2
f2
F2
…
…
…
k
fk
Fk
Fisher确切概率法

第三节四格表资料的Fisher确切概率法前面提及,当四格表资料中出现久,或,或用公式(8-1)与公式(8-4)计算出工值后所得的概率巴:::二时,需改用四格表资料的Fisher确切概率(Fisher probabilities in 2 x 2 table)。
该法是由R.A.Fisher(1934 年)提出的,其理论依据是超几何分布(hypergeometric distributen) ,并非工检验的范畴但由于在实际应用中常用它作为四格表资料假设检验的补充,故把此法列入本章<下面以例8-1介绍其基本思想与检验步骤。
例8-1某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表8-3。
问两组新生儿的HBV总体感染率有无差别?表8-3 两组新生儿HBV感染率的比较组别阳性阴性合计感染率(%)预防注射组 4 18 22 18.18非预防组 5 6 11 45.45合计9 24 33 27.27、基本思想在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率厂;再按检验假设用单侧或双侧的累计概率匸,依据所取的检验水准- 做出推断。
1 •各组合概率厂的计算在四格表周边合计数不变的条件下,表内4个实际频数变动的组合数共有“周边合计中最小数+1 ”个。
如例7-4,表内4个实际频数变动的组合数共有卢-1-个,依次为:(1) (2) (3) (4) (5)0 22 1 21 2 20 3 19 4 189 2 8 3 7 4 6 5 5 6ad-bc = -198 ad-bc = -165 ad-bc =:-132 ad-bc =-99 ad-bc = -66⑹(7) (8) (9) (10)5 176 167 158 149 134 7 3 8 2 9 1 10 0 11ad-bc = -33 ad-bc =0 ad-bc =33 ad-bc =66 ad-bc = 99各组合的概率'服从超几何分布,其和为1。
卫生统计学名词解释

卫生统计学名词解释1、抽样误差:有个体变异产生的,抽样造成的样本统计量与总体参数之间的差异,称之。
2、标准误:将样本统计量的标准差称为标准误。
3、均数的标准误:样本均数的标准差也称为均数的标准误(SEM),它反映样本均数间的离散程度,也反映样本均数与相应总体均数间的差异,因而说明了均数抽样误差的大小。
4、u分布:若某一随机变量X服从总体均数为υ、总体标准差为σ的正态分布N(υ,σ2),则通过u变换(X-u/σ)可将一般正态分布转化为标准正态分布N(0,1 2),即u分布。
5、t分布:在实际工作中,由于σ-X未知,用S-X代替,则-X-υ/S-X不再服从标准正态分布,而服从t分布。
6、可信区间:是按照预先给定的概率(1-α)所确定的包含总体均数的区间估计范围。
其确切含义为:如果能够进行重复抽样试验,平均有1-α(如95%)的可信区间包含了总体均数,而不是总体均数落在该可信区间。
7、假设检验:也称为显著性检验,是利用小概率反证法思想,从问题的对立面(Ho)出发间接判定要解决的问题(H1)是否成立。
然后在Ho成立的条件下计算检验统计量,最后获得P值来判断。
8、Ⅰ型错误:拒绝了实际上成立的Ho,这类“弃真”的错误称之。
Ⅱ型错误:“接受”了实际上不成立的Ho,这样的“取伪”的错误称之。
9、检验效能:1-β,即把握度,指当两总体确有差异,按规定检验水准α所能发现该差异的能力。
10、变量转换:是指原始数据作某种函数转换,如转换为对数值等。
1、方差分析:又称变异数分析或 F检验,适用于对多个平均值进行总体的假设检验,以检验实验所得的多个平均值是否来自相同总体。
2、单向方差分析(one way analysis of variance)是指处理因素只有一个。
这个处理因素包含有多个离散的水平,分析在不同处理水平上应变量的平均值是否来自相同总体。
3均方:每种来源的离均差平方和用相应的自由度去除,可得到平均的离均差平方和,简称均方(mean square,MS)4、LSD-t检验:即最小显著性差异t检验,适用于一对或几对在专业上有特殊意义的样本均数间的比较。
Fisher确切概率法

第三节四格表资料的Fisher确切概率法前面提及,当四格表资料中出现,或,或用公式(8-1)与公式(8-4)计算出值后所得的概率时,需改用四格表资料的Fisher确切概率(Fisher probabilities in 2×2 table)。
该法是由,其理论依据是超几何分布(hypergeometric distribution),并非检验的范畴。
但由于在实际应用中常用它作为四格表资料假设检验的补充,故把此法列入本章。
下面以例8-1介绍其基本思想与检验步骤。
例8-1 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表8-3。
问两组新生儿的HBV总体感染率有无差别?表8-3两组新生儿HBV感染率的比较组别阳性阴性合计感染率(%)预防注射组 4 18 22 18.18非预防组 5 6 11 45.45合计9 24 33 27.27一、基本思想在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率;再按检验假设用单侧或双侧的累计概率,依据所取的检验水准做出推断。
1.各组合概率的计算在四格表周边合计数不变的条件下,表内4个实际频数, ,,变动的组合数共有“周边合计中最小数+1”个。
如例7-4,表内4个实际频数变动的组合数共有个,依次为:(1) (2) (3) (4) (5)0 22 1 21 2 20 3 19 4 189 2 8 3 7 4 6 5 5 6ad-bc= -198ad-bc= -165ad-bc= -132ad-bc =-99ad-bc= -66(6) (7) (8) (9) (10)5 176 167 158 149 134 7 3 8 2 9 1 10 0 11ad-bc= -33ad-bc=0ad-bc=33ad-bc=66ad-bc= 99各组合的概率服从超几何分布,其和为1。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、 2 检验的基本思想
2 分布的概念 2 检验的基本思想
P 值的确定
2 检验的基本检验步骤
32
1. 2 分布的概念
卡方检验基本思想
2分布是一种连续型分布(Continuous distribution),
v 个相互独立的标准正态变量(standard normal
variable) u i(i 1 ,2 , ,)的平方和称为 2 变量,
(goodness of fit)中也发现了这一相同的 2 分
布,可用于检验资料的实际频数和理论频数 是否相符等问题。
34
2 分布的密度函数
f
(2)
1
2()
2
( 2
1 2
)2 e 2
2
02 , 1,2,3,...
35
2 分布曲线
2 分布
(=1,2,3,4,6)
卡方检验基本思想
2分布的概念
1. 估计总体平均数的可信区间 (1)直接查表法(X≤50) (2)正态近似法(X>50) 2. 样本平均数与已知总体平均数比较的假设检验 (1)直接计算概率法( μ0<20, X 较小, 作单侧检验) (2)正态近似法( μ0≥20) 3. 两样本平均数比较的假设检验( X1, X2 均大于20 ) (1)两样本观察单位相同 (2)两样本观察单位不同
38
2 分布的分位数 (Percentile)
卡方检验基本思想
2分布的概念
当ν 确定后, 2分布曲线下右侧尾部的面积为
时,横轴上相应的
2
值,记为
2 ,
,如下图。
实际应用时,可根据ν 由 2 界值表 (percentage
points of the 2 distribution )查得。
例11 某省肿瘤研究所分别在甲、乙两县随机抽 查10万育龄妇女,进行追踪观察。三年中甲县 死于宫颈癌的有28人,乙县死于宫颈癌者47人。 问甲乙两县宫颈癌死亡率有无差别?
24
两样本阳性数的比较
例12 某车间在改革生产工艺前,随机测量三次 车间空气中的粉尘浓度,每次取1升空气,分别测 得有38、29、36颗粉尘;改革生产工艺后又测量3 次,每次取1升空气,分别测得有25、18、21颗粉 尘。问工艺改革前后粉尘浓度是否有变化?
例7 已知接种某疫苗时,一般严重反应率为1‰。 现用某批号的该种疫苗接种150人,有2人发生严重 反应,问该批号疫苗的严重反应率是否高于一般?
H0(=0.001)成立时150人中发生严重反应人数的概率分布 17
样本阳性数与总体平均数的比较----直接计算概率法
例8 卫生标准规定, 生活饮用水大肠杆菌数不得 超过3个/ml。现对某饮用水进行抽检,抽取1ml 水样培养得到5个大肠杆菌。问该水样中的大肠 杆菌是否超标?
25
两样本阳性数的比较----u检验
2. 两样本观察单位(时间、面积、容积等 )不同 需先将观察单位化为相等,即分别计算出两样本阳 性数的平均数。
u X1X2 X1 n1X2 n2
26
两样本阳性数的比较
例13 某县防疫站从甲水井取样7次,每次取1ml水 培养,测得菌落数分别为30、70、120、50、80、60、 40;乙水井取水样5次,每次取1ml水培养,测得菌 落数分别为70、90、130、40、80。问两水井的细菌 污染状况有无差别?
p1=70/100=0.70 p2=60/120=0.50 pc =(70+60)/(100+120)=0.5909
13
☆二项分布的应用☆
1. 估计总体率的可信区间 (1)查表法 (n50,特别是p远离0.5时) (2)正态近似法 (n>50 且 np5 和n(1-p) 5 ) 2. 样本率与已知总体率比较的假设检验 (1)直接计算概率法( π0偏离0.5较远, X 较小, 单侧检验 )
2分布的分位数
2 2, 2 2,
P P
2(,)
39
卡方检验基本思想
2. 2 检验的基本思想(以两个样本率的比较为例)
例14 某院欲比较异梨醇口服液(试验组)和 氢氯噻嗪+地塞米松(对照组)降低颅内压的 疗效。将200例颅内压增高症患者随机分为两 组,结果如下。问两组降低颅内压的总体有效
率有无差别?
15
一、样本阳性数与总体平均数的比较
目的:推断样本所代表的未知总体平均数 μ 与 已知总体平均数 μ0 是否相等。
根据资料的具体情况,可选用: 1. 直接计算概率法 2. 正态近似法
16
样本阳性数与总体平均数的比较
1. 直接计算概率法
应用条件:μ0<20,且样本阳性数 X 较小作单侧检 验时。
其分布即为 分布2 ;自由度(degree of freedom)
为v 。
2 u 1 2 u 2 2 u 2
ui
Xi
33
2 分布的拓展与应用
卡方检验基本思想
2 分布的概念
1875年,F. Helmet得出:来自正态总体的样
本方差的分布服从 2 分布;
1900年K. Pearson又从检验分布的拟合优度
H0(=3)成立时, 每毫升水中大肠杆菌数的概率分布
18
样本阳性数与总体平均数的比较
2. 正态近似法
近似
当μ0≥20时, x~N(0,0,) 可利用Poisson分
布的正态近似原理做检验。
u X 0 0
19
样本阳性数与总体平均数的比较----直接计算概率法
例9 质量控制标准规定某装置平均每小时发出质点 数不超过50个。今抽查一次,在1小时内测得该装置 发出的质点数为58个,问该装置是否符合要求?
29
§3 卡方检验
一、 2 检验的基本思想 二、四格表资料的 2 检验 三、行×列表资料的 2检验 四、配对四格表资料的 2检验 五、多个样本率比较的 2分割法
六、有序分组资料的线性趋势检验
七、频数分布拟合优度的 2 检验
八、四格表资料的Fisher确切概率法
30
x2 检验(chi-square test)是以 x2分布为理论依据, 用途颇广的假设检验方法。可用于: 两个或多个样本率的比较; 两个或多个样本构成比的比较; 两个分类变量间关联性的检验; 有序分组资料的线性趋势检验; 频数分布的拟合优度检验。
应用条件:当两个样本率均满足正态近似条件时, 可用u检验。
up1p2
p1p2
sp1p2
pc(1pc)(n 11n 12)
pc
x1 n1
x2 n2
11
两样本率比较
例5 为研究高血压病的遗传度, 某医师进行了高血 压子代患病率调查。其中父母双亲有一方患高血压 者调查了205人,其中高血压患者101人;父母双亲 均患高血压者调查了153人,其中高血压患者112人。 问双亲中只有一方患高血压与双亲均患高血压的子 代中,高血压患病率是否相同? 本例 p1=101/205=0.49268
H0成立时, 400名新生儿中染色体异常例数的概率分布
7
2. 正态近似法
样本率与总体率的比较
应用条件:当π0不太靠近0或1,且样本含量n
足够大;或nπ0≥5且n(1-π0)≥5时,
X近 ~N 似 n 0,n 01 0 p近 ~N 似 0,01n 0
可利用二项分布的正态近似原理做检验。
u X n 0 u p0
21
二、两样本阳性数的比较
目的:推断两个样本各自代表的两总体平 均数是否相等。
当两个样本阳性数X1, X2 均大于20时,可 用 u 检验。
22
两样本阳性数的比较----u检验
1. 两样本观察单位(时间、面积、容积等 )相同
u X1X2 X1X2
或
u X1X2 X1X2
23
两样本阳性数的比较
=1 =2
=3
=4
=6
36
2 分布曲线
卡方检验基本思想
2分布的概念
2 分布
(=10,20,30,50)
=10 =20
=30
=50
37
2 分布特点
卡方检验基本思想
2分布的概念
2 分布的形状依赖于自由度ν 的大小: ① 当自由度ν≤2时, 曲2 线呈“L”型; ② 随着ν 的增加, 2曲线逐渐趋于对称; ③ 当自由度ν →∞时, 曲2 线逼近于正态曲线。
87.00
40
卡方检验基本思想
2 检验的检验统计量为 2 ,其基本公式为:
2 (AT)2
T
(行数 1)列 ( 数 1)
TRCnRn.nC
应用:用于两个或多个样本率(或构成比)的 比较、关联性检验和频数分布拟合优度检验。
41
3. P 值的确定
卡方检验基本思想
2 检验时,要根据自由度ν 查附表9 2 界值表。
5
样本率与已知总体率的比较----直接计算概率法
H0成立时,随机抽查的10人中治愈人数x 的分布
本例π0=0.80,1-π0=0.20,n=10, 根据题意需求最少治愈9人的概率。
6
样本率与总体率的比较----直接计算概率法
例2 据以往经验,新生儿染色体异常率一般为1%, 某医生观察了当地400名新生儿,发现有1例染色体 异常,问该地新生儿染色体异常率是否低于一般?
表 6-1 两组降低颅内压有效率的比较
组别
Байду номын сангаас
有效
无效
合计 有效率(%)
试验组 99(90.48) a 5(13.52) b 104 (a b) 对照组 75(83.52) c 21(12.48) d 96 (c d)
95.20 78.13
合计 174 (a c) 26 (b d) 200 (n)