医学研究的样本例数估计方法

合集下载

临床医学研究对象样本量的估计

临床医学研究对象样本量的估计临床医学研究对象样本量的估计宁夏医学杂志副主编蒋兴国临床医学研究没有绝对的样本量标准，不同的研究⽅法、研究⽬的，研究要求和研究资料决定了样本量。

⼀般⽽⾔，样本越⼩，结果的估计越精确。

但样本过⼤或过⼩均可影响研究的可⾏性。

因此，科学地确定样本量可增加研究的可靠性，得到可信的研究结果。

1.估计样本量的决定因素[1]1.1 资料性质计量资料如果设计均衡,误差控制得好,样本可以⼩于30例; 计数资料即使误差控制严格,设计均衡, 样本需要⼤⼀些,需要30-100例。

1.2 研究事件的发⽣率研究事件预期结局出现的结局（疾病或死亡），疾病发⽣率越⾼，所需的样本量越⼩，反之就要越⼤。

1.3 研究因素的有效率有效率越⾼，即实验组和对照组⽐较数值差异越⼤，样本量就可以越⼩，⼩样本就可以达到统计学的显著性，反之就要越⼤。

1.4 显著性⽔平即假设检验第⼀类（α）错误出现的概率。

为假阳性错误出现的概率。

α越⼩，所需的样本量越⼤，反之就要越⼩。

α⽔平由研究者具情决定，通常α取0.05或0.01。

1.5 检验效能检验效能⼜称把握度，为1－β，即假设检验第⼆类错误出现的概率，为假阴性错误出现的概率。

即在特定的α⽔准下，若总体参数之间确实存在着差别，此时该次实验能发现此差别的概率。

检验效能即避免假阴性的能⼒，β越⼩，检验效能越⾼，所需的样本量越⼤，反之就要越⼩。

β⽔平由研究者具情决定，通常取β为0.2，0.1或0.05。

即1－β=0.8，0.1或0.95，也就是说把握度为80%，90%或95%。

1.6 容许的误差（δ）如果调查均数时，则先确定样本的均数( )和总体均数(m)之间最⼤的误差为多少。

容许误差越⼩，需要样本量越⼤。

⼀般取总体均数（1－α）可信限的⼀半。

1.7 总体标准差(s)⼀般因未知⽽⽤样本标准差s代替。

1.8 双侧检验与单侧检验采⽤统计学检验时,当研究结果⾼于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就⼤; 当研究结果仅⾼于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就⼩。

流行病学中的流行病学调查样本大小计算

流行病学中的流行病学调查样本大小计算在流行病学领域中，流行病学调查样本大小的计算是非常重要的。

样本大小的确定直接影响到研究结果的准确性和可靠性。

本文将介绍流行病学调查样本大小计算的基本原理和方法。

一、引言流行病学调查是研究疾病在人群中的传播和影响的重要手段。

为了得到具有代表性的调查结果，研究人员需要根据研究目的、预期效应大小、研究设计和统计学原理进行样本大小的计算。

二、样本大小的概念样本大小是指在流行病学调查中研究人员需要招募或调查的参与者数量。

样本大小的选择必须兼顾研究目的的需求和可行性，同时保证结果的统计学意义。

三、样本大小计算的方法1. 描述性流行病学研究对于描述性流行病学研究，样本大小的计算通常基于总体中疾病发生率的估计值。

疾病发生率的估计值可以根据历史数据、文献综述或者预调查获得。

确定了疾病发生率估计值后，可以使用统计学方法计算所需样本大小。

2. 分析性流行病学研究对于分析性流行病学研究，样本大小的计算通常以预期效应大小为基础。

预期效应大小可以根据先前的研究结果、专家意见或者 pilot study 获得。

确定了预期效应大小后，可以使用统计学方法计算所需样本大小。

四、常用样本大小计算方法1. 单样本比例估计对于比例估计的样本大小计算，最常用的方法是使用二项式分布的性质进行近似计算。

根据预期效应大小和统计学显著水平，可以计算出所需的参与者数量。

2. 配对样本比例差估计对于配对样本比例差估计的样本大小计算，需要考虑配对设计的特殊性。

通过分析配对差异的方差、预期效应大小和统计学显著水平，可以计算出所需的配对数。

3. 单样本均数估计对于均数估计的样本大小计算，通常使用正态分布的性质进行近似计算。

根据预期效应大小、标准差和统计学显著水平，可以计算出所需的参与者数量。

4. 配对样本均数差估计对于配对样本均数差估计的样本大小计算，需要考虑配对设计的特殊性。

通过分析配对差异的标准差、预期效应大小和统计学显著水平，可以计算出所需的配对数。

医学研究中常用的数据统计方法

医学研究中常用的数据统计方法1.描述统计：描述统计是通过描述、汇总和展示数据的特征来对数据进行分析。

常用的描述统计方法包括：-平均数：用于衡量一个数据集的集中趋势，计算方法是将所有数据相加然后除以数据的个数。

-中位数：将数据按照从小到大的顺序排列，位于中间的值即为中位数，用于描述中间值的位置。

-众数：在数据集中出现次数最多的数值，可以用于描述数据的模式。

-方差和标准差：用于描述数据的离散程度，方差是样本偏离均值的平方和的平均值，而标准差是方差的平方根。

-频率分布表和直方图：将数据按照一定的区间进行分类，并统计各个区间内数据的个数或频率，用于展示数据的分布情况。

2.推断统计：推断统计是根据从样本获得的数据对总体进行推断和判断。

常用的推断统计方法包括：-参数估计：通过样本数据估计总体参数的值，例如使用样本平均数估计总体平均数。

-假设检验：用于判断样本观测值是否支持一些假设的正确性。

常用的方法包括t检验、F检验和卡方检验等。

-置信区间：给出参数估计的上下限，表示估计值的不确定性范围。

例如给出95%的置信区间意味着有95%的把握总体参数位于这个区间内。

-相关分析：用于分析两个或多个变量之间的关系，例如皮尔逊相关系数可用于衡量两个连续变量之间线性关系的强度。

-回归分析：用于建立变量之间的数学关系模型，例如线性回归可用于描述一个自变量与一个因变量之间的线性关系。

3.生存分析：生存分析是研究人口中一些事件(如死亡、复发等)发生的概率和影响因素的统计方法。

常用的生存分析方法包括：-生存函数：生存函数描述了在一些特定时间点之前没有发生事件的概率。

-生存曲线：生存曲线是根据生存函数绘制的曲线图，可以描述出时间和事件之间的关系。

-危险比：危险比用于比较两个或多个不同组中事件的风险，可以得出不同因素对事件发生的相对影响。

- Cox比例风险模型：Cox模型是用于探索自变量对生存时间的影响的一种半参数模型，可以同时考虑多个预测因素。

医学研究的样本例数估计方法

医学研究的样本例数第一附属医院医学统计咨询室、研究生科读者须知在医学研究中样本例数的确定是一个难点医学统计学家认为[1]样本含量的确定有两种方法：公式法和查表法，公式法和查表法本质一样，查表法是统计学家由公式做出的，而公式法需要研究者自己做，因为医学研究中尚有不少问题还搜索不到相应的计算公式来确定样本例数，本书搜集到的公式也十分有限，那么通过搜索文献来估计样本例数也是读者需要学习的一种方法。

须知，不存在无限定条件的样本例数。

现行统计教材中的样本例数没有特别强调这一点，以导致使用时，常提出如下问题：“了解吸烟是否是肺癌的危险因素，需要调查多少人？”，类似这样的问题是没人能回答出的。

医学研究中样本例数都是建立在一组限定条件之下的样本例数，若这一组限定条件改变，那么样本例数的值随之改变。

简言之，样本例数是这一组限定条件的函数。

这种函数关系具体由计算样本例数的公式表述。

那么，确定公式等号右端的各参数就变成了计算样本例数的前提。

根据此思路我们设计了一个确定样本例数的流程图（见下页），同时，这个流程图也是我们撰写本书具体内容和阅读本书的思路。

这个小册子中的例题均来自各种卫生统计学的教材和相关著作，其本质没有变化，但读起来却更加符合人们的认知习惯，你会感觉到更容易读懂了。

本书由一附院医学统计咨询室集体讨论，具体由孙奇执笔撰写和排版，几经修订，历时超过百天。

尽管如此，鉴于我们知识的局限性，也只能做到抛砖引玉，而且书中错误肯定难免。

欢迎读者不吝指正，我们将深表谢意！样本例数估计流程图目录1. 两样本率比较的样本例数 (4)2.多个样本率比较的样本例数 (6)3.两样本均数比较的样本例数 (8)4.多个样本均数比较的样本例数 (10)5.诊断试验的样本例数 (12)6.现况研究的样本例数···············································13 137.病例对照研究的样本例数·········································15 158.队列研究的样本例数···············································17 179.多元统计的样本例数···············································19 1910.其他 (20)11.附表 (21)1 两样本率比较的样本例数1.1提出专业问题某课题的研究目的是比较两种药物治疗乙型肝炎后表面抗原HBsAg 的改善情况，问两组各需要乙肝患者多少名？ 1.2转化为统计问题上述研究所对应的统计问题为：两样本率比较的样本例数 1.3选择相应的公式两样本率比较的样本例数公式（1.3）［1］139221222211112112/)(]/)1(/)1())(1(2[p p Q p p Q p p Z Q Q p p Z N a --+-++-=--β1.4确定公式等号右端各参数1.公式(1.3)中a Z 、βZ 、P 、1P 、2P 、1Q 、2Q 的确定方法如下： (1)a Z 的确定：统计学家建议05.0=a ，则96.12/05.0=Z 。

临床试验样本量的估算

临床试验样本量的估算样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小计数资料的率差、计量资料的均数差值,方差计量资料或合并的率计数资料各组的合并率,一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差;因此样本量估计有些时候不是想做就能做的;SFDA的规定主要是从安全性的角度出发,保证能发现多少的不良反应率；统计的计算主要是从power出发,保证有多少把握能做出显着来;但是中国的国情有多少厂家愿意多做建议方案里这么写：从安全性角度出发,按照SFDA××规定,完成100对有效病例,再考虑到脱落原因,再扩大20%,即120对,240例;或者：本研究为随机双盲、安慰剂平行对照试验,只有显示试验药优于安慰剂时才可认为试验药有效,根据预试验结果,试验组和对照组的有效率分别为%和%,则每个治疗组中能接受评价的病人样本数必须达到114例总共228例,这样才能在单侧显着性水平为5%、检验功效为90%的情况下证明试验组疗效优于对照组;假设因调整意向性治疗人群而丢失病例达10%,则需要纳入病人的总样本例数为250例;非劣性试验α=,β=时：计数资料：平均有效率P 等效标准δN=公式：N=×P1-P/δ2计量资料：共同标准差S 等效标准δN=公式：N=× S/δ2等效性试验α=,β=时：计数资料：平均有效率P 等效标准δN=公式：N=×P1-P/δ2计量资料：共同标准差S 等效标准δN=公式：N=× S/δ2上述公式的说明：1 该公式源于郑青山教授发表的文献;2 N 是每组的估算例数N1=N2,N1 和N2 分别为试验药和参比药的例数；3 P 是平均有效率,4 S 是估计的共同标准差,5 δ 是等效标准;6 通常都规定α=,β=把握度80％上述计算的例数若少于国家规定的例数,按规定为准；多于国家规定的则以计算值为准;具体规定的最小样本量如下：II期,试验组100例；III期,试验组300例；随机对照临床验证如3类化药试验组100例;IV期,2000例;疫苗和避孕药与上述要求不同;例1：某新药拟进行II 期临床试验,与阳性药按1:1 的比例安排例数,考察新药临床治愈率不差于阳性药;根据以往的疗效和统计学的一般要求,取α=,β=,等效标准δ=,平均有效率P=,每组需要多少病例由公式计算得,N=×/=88例以上88 例低于我国最低例数100 例的规定,故新药至少取100 例进行试验;如上例作等效性分析,则得,N=×/=122例;例2：某利尿新药拟进行II 期临床试验,与阳性药按1:1 的比例安排例数,考察24h 新药利尿量不差于阳性药;根据以往的疗效和统计学的一般要求,取α=,β=,等效标准δ=60 ml,已知两组共同标准差S=180 ml,每组需要多少病例由公式得,N=× 180/602=111 例;故本次试验新药和阳性药的例数均不少于111 例;如上例作等效性分析,则得,N=×180/602=154例; s:11临床试验研究中,无论是实验组还是对照组都需要有一定数量的受试对象;这是因为同一种实验处理在不同的受试对象身上表现出的实验效应是存在着变异的;仅凭一次实验观测结果或单个受试者所表现出来的实验效应说明不了什么问题;必须通过一定数量的重复观测才能把研究总体真实的客观规律性显示出来,并且可以对抽样误差做出客观地估计;一般说来重复观测次数越多,抽样误差越小,观测结果的可信度越高;一定数量的重复还可起到部分抵消混杂因素影响的作用,增强组间的可比性;但重复观测次数越多即样本含量越大试验所要消耗的人力、物力、财力和时间越多,可能会使试验研究成为不可能;而且,样本含量过大还会增加控制试验观测条件的难度,有可能引入非随机误差,给观测结果带来偏性bias;所以在实验设计中落实重复原则的一个重要问题就是如何科学合理确定样本含量;由于在各对比组例数相等时进行统计推断效能最高,因此多数情况下都是按各组样本含量相等来估计;但在个别情况下,也可能要求各组样本含量按一定比例来估计;1 与样本含量估计有关的几个统计学参数在估计样本含量之前,首先要对以下几个统计学参数加以确定或作出估计;规定有专业意义的差值δ,即所比较的两总体参数值相差多大以上才有专业意义;δ是根据试验目的人为规定的,但必须有一定专业依据;习惯上把δ称为分辨力或区分度;δ值越小表示对二个总体参数差别的区分度越强,因而所需样本含量也越大;确定作统计推断时允许犯Ⅰ类错误“弃真”的错误的概率α,即当对比的双方总体参数值没有差到δ;但根据抽样观测结果错误地得出二者有差别的推断结论的可能性,α确定的越小,所需样本含量越大;在确定α时还要注意明确是单侧检验的α,还是双侧检验的α;在同样大小的α条件下；双侧检验要比单侧检验需要更大的样本含量;提出所期望的检验效能power,用1-β表示;β为允许犯Ⅱ类错误“取伪”的错误的概率;检验效能就是推断结论不犯Ⅱ类错误的概率1-β称把握度;即当对比双方总体参数值间差值确实达到δ以上时,根据抽样观测结果在规定的α水准上能正确地作出有差别的推断结论的可能性;在科研设计中常把1-β定为或;一般来说1-β不宜低于,否则可能出现非真实的阴性推断结论;给出总体标准差σ或总体率π的估计值;它们分别反映计量数据和计数数据的变异程度;一般是根据前人经验或文献报道作出估计;如果没有前人经验或文献报道作为依据,可通过预实验取得样本的标准差s或样本率P 分别作为σ和π的估计值;σ的估计值越大,π的估计值越接近,所需样本含量越大;在对以上统计学参数作出规定或估计的前提下,就可以根据不同的推断内容选用相应的公式计算出所需样本含量;由于在同样的要求和条件下完全随机设计成组设计所需样本含量最大,故一般都要按完全随机设计作出样本含量的估计;2 常用的估计样本含量的方法两样本均数比较时样本含量估计方法1两样本例数要求相等时可按下列公式估算每组需观察的例数n;n＝2α+βσ/δ^2 公式1式中δ为要求的区分度,σ为总体标准差或其估计值s,α、β分别是对应于α和β的u值,可由t界值表,自由度υ＝∞-行查出来,α有单侧、双侧之分,β只取单侧值;例1,某医师研究一种降低高血脂患者胆固醇药物的临床疗效,以安慰剂作对照;事前规定试验组与对照组相比,平均多降低 mmol/L以上,才有推广应用价值;而且由有关文献中查到高血脂患者胆固醇值的标准差为 mmol/L,若要求犯Ⅰ类错误的的概率不超过5%,犯Ⅱ类错误的概率不超过10%,且要两组例数相等则每组各需观察多少例本例δ＝ mmol/L,σ＝ mmol/L,α＝,β＝,1-β＝,查t界值表自由度为∞一行得单侧＝,＝,代入公式1n＝2+×^2＝44故要达到上述要求,两组至少各需观察44例;2两样本例数要求呈一定比例n2/n1＝c时,可按下列公式求出n1,再按比例求出n2＝cn1;n1＝α+βσ/δ^21+C/C 公式2例2 对例1资料如一切要求都维持不变,但要求试验组与对照组的例数呈2∶1比例即C＝2,问两组各需观察多少例n1＝+×^2×1+2/2 ＝33例对照组所需例数n2＝2×33＝66例试验组所需例数;两组共需观察99例多于两组例数相等时达到同样要求时两组所需观察的总例数2×44＝88;配对设计计量资料样本含量对子数估计方法配对设计包括异体配对、自身配对、自身前后配对及交叉设计的自身对照,均可按下列公式进行样本含量估计;n＝α+βσd/δ^2 公式3式中δ、α、β的含义同前,σd为每对差值的总体标准差或其估计值sd;例 3 某医院采用自身前后配对设计方案研究某治疗矽肺药物能否有效地增加矽肺患者的尿矽排出量;事前规定服药后尿矽排出量平均增加mmol/L以上方能认为有效,根据预试验得到矽肺患者服药后尿矽排出量增加值的标准差 sd＝ mmol/L,现在要求推断时犯Ⅰ类错误的概率控制在以下单侧,犯Ⅱ类错误的概率控制在以下,问需观察多少例矽肺病人本例δ＝ mmol/L, sd＝ mmol/L,α＝,β＝;1-β＝,单侧＝,＝,代入公式3得到;n＝+×89/^2＝54例故可认为如该药确实能达到平均增加尿矽排出量在 mmol/L以上,则只需观察54例病人就能有90%的把握,按照α＝的检验水准得出该药有增加矽肺病人尿矽作用的正确结论;样本均数与总体均数比较时样本含量估计方法可按下式估算所需样本含量n;n＝α+βσ/δ^2 公式4例4已知血吸虫病人血红蛋白平均含量为90g/L,标准差为25g/L,现欲观察呋喃丙胺治疗后能否使血红蛋白增加,事先规定血红蛋白增加10g/L以上才能认为有效,推断结论犯Ⅰ类错误的概率α双侧不得超过,犯Ⅱ类错误的概率β不得超过,问需观察多少例病人本例δ＝10g/L,σ＝25g/L,＝双侧,＝代入公式4得：n＝+×25/10^2＝66例故如果呋喃丙胺确实能使血吸虫病人血红蛋白平均含量增加10g/L以上,则只需观察66例就可以有90%的把握在α=检验水准上得出有增加血吸虫病人血红蛋白平均含量的结论;。

临床研究中的样本容量计算方法

临床研究中的样本容量计算方法在临床研究中，样本容量的计算是确保研究结果具有统计学意义并且能够代表总体的重要环节。

恰当的样本容量能够保证研究的科学性和可靠性，从而对临床实践和医学决策产生有意义的影响。

本文将讨论临床研究中常用的样本容量计算方法，并介绍其主要原理和应用。

一、参数估计的样本容量计算方法1. t检验样本容量计算方法t检验是用于比较两组均数是否具有显著差异的常用统计方法。

在进行t检验样本容量计算时，需要确定所需的显著性水平（通常为0.05）和假设的效应大小。

根据这些参数，可以利用样本均数之差的标准差来计算样本容量。

2. 方差分析样本容量计算方法方差分析是用于比较两个或多个组别均数是否有显著差异的方法。

对于方差分析来说，所需的样本容量计算方法与t检验有些不同。

在方差分析样本容量计算中，需要考虑每个组别的标准差、显著性水平以及所期望的效应大小。

3. 相关性分析样本容量计算方法相关性分析用于评估两个变量之间的线性关系程度。

在相关性分析样本容量计算中，需要确定所需的显著性水平（通常为0.05）和期望的相关系数大小。

样本容量的计算方法基于所期望的相关系数、总体大小和显著性水平。

二、比例估计的样本容量计算方法1. 单个比例样本容量计算方法单个比例样本容量计算用于估计一个总体比例的大小。

在单个比例样本容量计算中，需要确定所需的显著性水平（通常为0.05），预期的比例大小和允许的误差范围。

样本容量的计算方法基于显著性水平、比例大小和允许的误差范围。

2. 两个比例样本容量计算方法两个比例样本容量计算用于比较两个总体比例是否存在显著差异。

在两个比例样本容量计算中，需要确定所需的显著性水平（通常为0.05），两个比例大小以及所期望的差异。

样本容量的计算方法基于显著性水平、比例大小之差和所期望的差异。

三、生存分析的样本容量计算方法生存分析用于评估时间相关的事件发生情况，例如疾病复发、死亡等。

在生存分析的样本容量计算中，需要确定所需的显著性水平（通常为0.05）、有效样本量和事件发生率。

(仅供参考)临床研究中样本量的估计方法

往是在此基础上，用已求得的样本数 !! 再进行评估。即用 $ & !! % $ 的 "! 和 "" 值再求出 !#，再用 $ & !" % $ 的 "! 和 "" 值求出 !$……直至前后两次求得的结果趋于稳定为止，此值即为应采用的样本数。应注意有单双侧之分，而 # 仅取单侧。
例 $：某医生用石杉碱甲治疗阿尔茨海默病，已知该类患者
种观点实际上是不符合设计原则的。 "样本含量的估计一般有以下 * 个条件：0 $ 1 设定检验的
第!类错误概率 "，即检验水准或显著性水平。0 ( 1 设定检验的第#类错误概率 $，或检验效能（把握度）$ 3 $。 0) 1 了解一些由样本推断总体的一些信息。 0* 1 处理组间差别 % 的估计，即确定容许误差。
!( # 王芳* 韩丽莎* 闫秀英* 等 + 旋磁场对糖尿病大鼠血糖及组织细胞学影响的观察 ! , #+ 中国临床康复* "--"* ’ .$ / 0 $(’
!) # 鲁燕莉 + 肩周炎的康复治疗 ! ,# + 中国临床康复* "--"* ’ . ) / 0 11(’
!""# $%&$ ’ ()*% +# *$ ’ $,&- . / !!!" #$%&’(" &)*
论。现将临床上较为常用的样本量估计方法做一介绍。
"’ $ 定量反应结果样本含量的估计
"’ $’ $ 样本均数与总体均数的比较样本含量的计算公式为：
!
,
［（" !
# ""）$］" "

医学研究中样本量的估计

n
(u
u )2
2
（3）样本均数与总体均数比较的样本量估计
COMPUTE n=((1.96 + 1.282) *3/ 1.5 ) **2. EXECUTE.
樱桃.gif
n=43
（4）完全随机设计两样本含量相等时均数比较的样本量估计
例题4：某药厂对新研发的降压中成药与标准降压药的疗效比较。已知
2 2
) )
（11）两样本相关系数比较的样本量估计
COMPUTE n=8 * ((1.645 + 1.282) / (LN(((1 + 0.90)*(1-0.80)) /((1 0.90)*(1+0.80))))) ** 2 + 3.
EXECUTE.
樱桃.gif
（12）不配对病例-对照研究设计（病例数与对照数相等时的样本含量）
EXECUTE.
（8）完全随机设计两样本率比较的样本含量估计（当两样本量相等时）
例题8：拟研究新研制的抗菌药物对某感染性疾病的治疗效果。经预试验，试验药有效率为80%，对照药有效率为60%。问正式临床试验每组需要观察多少病例（假设采用双侧检验）？
单侧：n1 n2 u2
樱桃.gif
2
2 p(1 p) u2 p1 (1 p1 ) p2 (1 p2 )
n
(t
t
)sd
2
（6）配对设计两样本均数比较的样本量估计
COMPUTE n=((1.96 + 1.645) * 25 / 15) ** 2. EXECUTE.
樱桃.gif
n=37
（7）完全随机设计多样本均数比较的样本量估计
例题7：某中医院应用中西医结合治疗肺气虚、脾气虚、肾气虚慢性阻塞性肺疾病（COPD）患者，并与单纯西药为对照组，观察中西医结合治疗 COPD患者不同中医证型的肺功能改善效果，根据查阅相关资料，肺气虚的 FVC（L）为2.44±0.32；脾气虚为樱2桃..g4if0±0.36；肾气虚为2.31±0.29；对照组为2.51±0.32。问该项临床研究估计需要观察多少病例数？

临床科研中的样本含量估计

5. 计算样本含量
À用按设计方案、资料类型及可能涉及的统计分析方法来选择样本含量的计算方法（查书），也可以利用统计软件帮助完成样本含量的计算。
6. 校正样本含量
À由于估算的样本含量是最少需要量，考虑到受试者可能有不合作者、中途失访、意外死亡等情况出现，而减少有效观察对象的例数（失访），因此，应该在估算的样本含量增加若干样本例数。
样本含量的大小
À在临床科研设计中，我们已知样本含量越小，其抽样误差越大。
À若样本含量不足，可重复性差，抽样误差也较大，检验效能低，不能排除偶然因素的影响，其结论缺乏科学性、真实性。
À若样本含量过大，试验条件也难以严格控制，会增加临床研究的困难，容易造成不必要的人力、物力、时间和经济上的浪费。
À2、查表法，简单、方便，但受条件限制，有时不一定完全适用。
三、估计样本含量的步骤
1. 确定设计方法
À任何临床试验，其设计方案是首先需要确定的，而样本含量的估计也是建立在设计方案基础上的。不同的临床科研设计方法，其样本含量的估计方法不相同。
2.确定资料类型
À当临床试验的设计方案确定后，需要确定临床试验所得数据的类型，如，计量、计数、等级，因为样本含量估计的方法与数据类型有关。
À动物实验的样本含量可以参考临床试验的样本含量，并在此基础上适当减少其数量。
4
五、数值变量的样本含量估计简介
两均数比较的估算
两组样本量相等时，可按下式计算每组所需的例数：
n=
2(uα +uβ )2 σ2 δ2
uα为一类错误概率的u值 uβ为二类错误概率的u值 δ 为容许误差，试验组与对照组均数之差的绝对值

样本量计算

单侧α 双侧α/2 β 1-β u值
0.2532 0.5243 0.8417 1.2816 1.6449 1.960
2.3263 2.5758
20
例1：某医院拟用抽样调查评价本地区健康成人白细胞数的水平，要求误差不超过0.2*109/L。根据文献报告，健康成人的白细胞数的标准差约1.5*109/L。问需要调查多少人（双侧α=0.05）

4
样本含量估算就是在保证科研结论具有一定可靠性条件下，确定的最少观察例数。
5
公式计算法查表法软件计算法

6

试验干预与对照干预效应差异的大小需要研究者根据该药物前期的临床研究和临床的实际意义决定。对试验精度的要求把握度（power）检验效能：指两总体确实有差别，按照α水准能发现它们有差别的能力，用1-β表示其概率大小。试验对象的依从性估计试验中病人退出的比例，按照国际惯例，当试验病例退出或释放超过病例总数的20%，试验结果将不可靠。

16

计数（定性）指标死亡与存活，阳性与阴性，正常与异常计量（定量）指标血压、血糖、血清酶

结局指标有多个时，估计样本含量时需要选择其中最重要的结局指标。或按照所需样本量最多的指标。
17

优效性检验：反应试验药效果优于对照药物（安慰剂，阳性药）的试验，常用单侧检验；等效性检验：确认2种或多种治疗的效果差别大小在临床上并无重要意义，试验药与阳性药在疗效上相当，常用双侧检验；非劣效性检验：显示试验药的疗效在临床上不劣于阳性对照药，常用单侧检验。由少到多：安慰剂对照优效试验非劣效性试验等效性试验阳性对照优效试验。
0.01 0.005 0.995

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

须知，不存在无限定条件的样本例数。

医学研究中样本例数都是建立在一组限定条件之下的样本例数，若这一组限定条件改变，那么样本例数的值随之改变。

简言之，样本例数是这一组限定条件的函数。

这种函数关系具体由计算样本例数的公式表述。

那么，确定公式等号右端的各参数就变成了计算样本例数的前提。

根据此思路我们设计了一个确定样本例数的流程图（见下页），同时，这个流程图也是我们撰写本书具体内容和阅读本书的思路。

这个小册子中的例题均来自各种卫生统计学的教材和相关著作，其本质没有变化，但读起来却更加符合人们的认知习惯，你会感觉到更容易读懂了。

本书由一附院医学统计咨询室集体讨论，具体由孙奇执笔撰写和排版，几经修订，历时超过百天。

尽管如此，鉴于我们知识的局限性，也只能做到抛砖引玉，而且书中错误肯定难免。

(2)βZ 的确定：统计学家建议10.0=β，则282.101.0=Z 。

预试验如下：一个研究组将随机抽取的乙肝患者分为2组，试验者要求两组例数不等，其中甲药组的样本含量占55％，乙药组的样本含量占45％；通过试验后测得甲药的转阴率为60％，乙药的转阴率为75％。

(3)1Q 、2Q 的确定：一般由研究者根据试验需要规定。

(4) 样本率1P 、2P ：一般由研究者根据预试验或查文献来估计，见前述预试验：60.01=P 、75.02=P 。

(5)P 的确定：2211P Q P Q P +=＝（0.55×0.6+0.45×0.75）＝0.6675。

1.5计算求出样本例数将96.12/05.0=Z 、282.101.0=Z 、55.01=Q 、45.02=Q 、60.01=P 、75.02=P 、6675.0=P 代入公式（1.3）后可得411≈N 名。

1.6结论比较两种药物治疗乙型肝炎后表面抗原HBsAg 的转阴情况，欲使保持置信水平为 95％，检验功效为0.9，两组共需要411名乙肝患者。

其中甲药组需要 22641155.011=⨯==N Q n 名；乙药组需要 18541145.022=⨯==N Q n 名。

1.7参考文献1.7.1本文参考文献1.方积乾主编．卫生统计学，第5版．北京：人民卫生出版社，2003．1391.7.2其他参考文献1.颜虹主编.医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，2542.周利锋，高尔生主编．卫生研究中样本含量的确定.上海：复旦大学出版社、上海医科大学出版社联合出版，2001，113.孙振球主编.医学统计学，第二版研究生教学用书．北京：人民卫生出版社，2005，6264.王仁安主编.要医学实验设计与统计分析．北京：北京大学医学出版社，1999，235.徐天和主编.医学研究统计设计分册.北京：人民卫生出版，2004，1446.马斌荣主编.医学科研中的统计方法，第三版．北京：科学出版社，2005，1422 多个样本率比较的样本例数2.1提出专业问题某课题的研究目的是比较三种矫治近视眼方法的效果有无差异，问各法需观察多少例？2.2转化为统计问题上述研究所对应的统计问题为：多个样本率比较的样本例数 2.3选择相应的公式多个样本率比较的样本例数公式（2.3）［1］1482min 1max 1)sin 2sin2(2p p n ---=λ2.4确定等号右端各参数1.公式(2.3)中λ、m ax P 、m in P 的确定方法如下： (1)α 的确定：统计学家建议05.0=a 。

(2)β的确定：统计学家建议10.0=β预试验如下：防疫站在某小学采用三种方法矫治近视眼，治疗后得到A 法有效率为37.78％，B 法为18.75％，C 法为27.78％。

(3) λ的确定：附表1查得， 65.122,10.0,05.01,,==-λλβk a 。

(4) m ax P 、m in P 的确定：分别为最大率和最小率，由研究者根据预试验或查文献来估计，3778.0max =P 、1875.0min =P 。

2.5计算求出样本例数将65.12=λ、3=k 、3778.0max =P 、1875.0min =P 代入公式（2.3）后可得138≈n 名。

2.6结论比较三种矫治近视眼方法的效果即采用三种不同的方法矫治近视眼，欲使保持置信水平为95％，检验功效为0.9，每组各需要138名患者，三组共需要414名患者。

2.7参考文献 2.7.1本文参考文献1.杨树勤主编.卫生统计学，第3版.北京：人民卫生出版社，1992．1482.7.2其它参考文献1.颜虹主编.医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，2552 孙振球主编.医学统计学，第二版研究生教学用书．北京：人民卫生出版社，2005，6273.徐天和主编.医学研究统计设计分册.北京：人民卫生出版，2004，1473 两样本均数比较的样本例数3.1提出专业问题某课题的研究目的是欲比较黄芪与生血散对粒细胞减少症的疗效，问每组需要观察多少例？3.2转化为统计问题上述研究所对应的统计问题为：两样本均数比较的样本例数 3.3选择相应的公式两样本均数比较样本例数公式（3.3）［1］146222)(δσβZ Z Na +=()1211--+Q Q3.4确定等号右端各参数1.公式(3.3)中 a Z 、βZ 、σ、δ、1Q 、2Q 的确定方法如下： (1) a Z 的确定：统计学家建议05.0=a ，则96.12/05.0=Z 。

(2) βZ 的确定：统计学家建议20.0=β，则842.020.0=Z 。

预试验如下：一个研究组将随机抽取的粒细胞减少症的病例平均分为两组，分别用黄芪和生血散治疗后测得，黄芪组平均增加粒细胞9101⨯个／Ｌ，生血散组平均增加粒细胞9102⨯个／Ｌ，标准差合值为9108.1⨯=σ个／Ｌ。

(3) σ的确定：此处标准差为两组标准差之合值由公式2/)(2221S S +=σ[2]32计算得出。

(4) δ的确定：见前述预试验，112=-=δ （L /109个⨯）。

(5) 1Q 、2Q 的确定：见前述预试验，5.01=Q 、5.02=Q 。