样本含量的估计PPT课件

合集下载

生物统计第三节样本含量的估计与检验效能1

δ为允许误差 (x m，) 可根据调查要求的准确性确定；
1-a为置信度。
上一张下一张主页退出
在首次计算时，可先用df =∞时 (当置信度为95%时，zα= z0.05=1.96；置信度为99%时， zα = z0.01=2.58)值代入，若算得n<30，再用df=n-1 的za代入计算，直到n稳定为止。
即至少需要调查1025只鸡，才能以95%的置信度使调查所得的样本百分数与总体百分数相差不超过0.03。
此外，当样本百分数接近 0% 或 100% 时，分布呈偏态，应对x作 sin 1 x 转换。此时估算公式为：
n [57.3z / sin 1( / 1 )]2 (9-23)
式中：n为每组试验的动物头数； p为合并百分数，由样本百分数计算， q 1 p；
为预期达到差异显著的百分数差值；
ua为自由度等于∞、两尾概率为a的临界u值： u0.05=1.96, u0.01=2.58；
1-a 为置信度。
上一张下一张主页退出
【例9.13】两种痢疾菌苗对鸡白痢病的免疫效果，初步试验表明，甲菌苗有效率为22／50 = 44%，乙菌苗有效率为28／50 = 56%，今欲以95%的置信度在样本的百分数差值达到10％时检验出两种菌苗免疫效果有显著差异，问试验时每组至少需接种多少只鸡？
已知 π=0.08，α=0.05，Z0.05/2=1.96,δ=0.02 代入公式（6.2）得
n
1.96 0.02
2
0.08
(1
0.08)
707
即需调查707人。如果采用单侧z0.05=1.645，则n= 498
总体百分数如果事先未知，可先从总体中调查一个样本估计。或令z=0.5进行估算。

第十八章样本含量的估算

(2.33 1.645) 25 n(1) 2 49.38 50 20
2
n1=50, 1 49
n(2)
t0.05,49 1.677 t0.01,49 2.405
2
(2.405 1.677) 25 2 52.07 53 20
2
(t t ) s 或 n
2
在此基础上，用已求得的样本数n1 再进行评估。即用=n1 - 1 的tα 和tβ 值再求出n2，再用v = n2 - 1 的tα 和tβ 值求出n3，直至前后两次求得的结果趋于稳定为止，
【例8】正常成年男子脉搏的平均数为 72次/分，标准差为6.0次/分。有某镇静药，服药后的脉搏数要求降至小于或等于69次/分可认为有镇静作用，要求＝0.05（单侧），＝0.10，1－＝0.90，问需要试验多少例？ u0.05＝1.645，u0.10＝1.282， =3，=6
三、样本含量的估算
3.样本率和总体率比较时的n估算
u ＋u n＝（1－ 0） 0
2
此公式适合大样本的研究。式中π0 为已知的总体率, δ =π1 - π0，其中π１为预期试验结果的总体率。
【例10】用传统的方法治疗运动负胫骨结节骨骺损伤的有效率约为85%，现采用小钢针做胫骨结节骨骺穿刺，加上场应理疗的治疗方法，估计有效率为95%，选定α = 0. 05, β = 0. 1 时至少观察多少病例？
≠0的指标，必须达到ｎ例观察数才能满足研究的精度要求。
单、双侧检验

双侧检验所需样本含量ｎ多于单侧检验。Ⅰ类误差有单、双侧概率之分，Ⅱ类误差只取单侧概率。
单侧界值小于双侧界值。

样本含量估计ppt课件

白细胞数的水平，要求误差不超过0.2*109/L。根据文献报告，健康成人的白细胞数的标准差约 1.5*109/L。问需要调查多少人？ ❖ （双侧α=0.05）
26
确定样本量的方法---查表法
σ=1.5 δ=0.2 σ/δ =1.5/0.2=7.5
公式计算法：uα/2=1.96 n=(1.96)2(1.5)2/(0.2)2=216.1≈217
δ
检
检
总总
容
验
验
体体
许
水
效
标率
误
准
能
准
差
差7检验水准（Fra bibliotek值）即假设检验第一类错误出现的概率，也称假阳性率，,即检验水准或显著性。α越小，所需的样本量越大，反之就要越小。α水平由研究者根据具体情况决定，通常α取0.05或0.01。 ❖ 另外还应明确是单侧或双侧检验。
用统计学检验时，当研究结果高于和低于效应指标的界限均有意义时，应该选择双侧检验，所需样本量就大；当研究结果仅高于或低于效应指标的界限有意义时，应该选择单侧检验，所需样本量就小。当进行双侧检验或单侧检验时，其α或β的U界值通过查标准正态分布的分位数表可得。
地区性研究：平均样本人数500－1000人；全国性研究：1500－2500人描述性研究：样本最少占总体的10％，如果总体较小，则最
少占总体20％相关性研究：受试者至少30人以上
6
确定样本量的方法---计算法和查表法
❖ 样本含量估计常用的两种方法。
❖ 需要提前确定以下参数：
TEXT
α
1-β
σ和π
u u 211/ k 2
n

2
试验组样本量为n，对照组样本含量为kn，当两组样本含量相等时，k=1。

样本含量估计

对照组治疗前后十二指肠愈合率P0=90%。
2024/4/18
试验组-对照组= δ
最终所需样本量
1 =0 =113例
总样本量N=226例
15
三、常见研究设计类型的样本含量的估计
两组平行设计、定量、非劣效
某研究者欲评价试验药物A缓解癌症患者癌因性疲乏症状的有效性。以药物B为阳性
药物，设计了一项随机、双盲双模拟、平行对照、多中心临床试验。
-δ
0
-δ
0
δ
非劣效性试验：确定非劣效界值－δ ！
H0：T-C ≤ - δ ；H1：T-C> - δ ；α=0.025（单侧）
由临床专家与统计学专家商量，最终由临床研究者确定。
2024/4/18
7
二、估计样本含量需要考虑的因素——研究设计
目的
假设检验
设计类型：
平行设计
交叉设计
实验设计
-14d
N1=13例；N2=13例
✓ I类错误：α=0.05
✓ II类错误：β=0.20
N1=17例；N2=17例
✓ 脱失率：20%
✓ 统计分布：正态分布
✓ 效应量：文献发现，服用标准药的受试者平均心率为μ1=93 次/分，标准差为σ= 9 次/分，同
2024/4/18
17
一个受试者相邻两次测量值之间相关系数均为ρ=0.7。两组受试者服药后平均心率
病例数
常见ADR概率（%）一般ADR概率（%）罕见ADR概率（%）
假定总发生率为5%
假定总发生率为1% 假定总发生率为0.1%
100
99.41
63.40
9.52
100+300
>99.99

《样本量估计》PPT课件

为总体患病率。
单样本与已知总体检验时样本量的估计及SAS程序
单样本与已知总体检验的样本量估计公式类似。其估计公式为：
N (u u )2 1
式中：δ为容许的误差 2，即允许样本率和已
知总体率（）的最大容许误差为多少。为
已知总体患病率。
两样本率比较样本量估计及SAS程序
式式为中N：为N观察u的对u子数d ， 2 σ为两样本差值标
准差估计值，δ为容许误差。
本章小节
在科学研究方法中，现在越来越强调样本量的估算。确定适当的样本含量，可节约资源，并防止因为样本含量过少引起的检验效能偏低，出现了非真实的阴性结果，这是当前医学研究中值得注意的问题。确定样本含量的主要用途是保证科研设计有适当的样本含量，而且可考察当前的样本含量是否能够保证足够大的检验效能。
配对分类资料多用 2 检验进行处理的，资料的样本含量估计公式为
N

u
2 c u
2
c

a
b
b

a
c c
c

2
抽样调查总体参数估计时的样本量估计及SAS程序
抽样调查估计总体均数的样本含量公式为：
概述
医学研究没有绝对的样本量标准，不同的研究方法、研究目的，研究要求和研究资料决定了样本量。一般而言，样本越大，结果的估计越精确。但样本过大或过小均可影响研究的可行性。因此，科学地确定样本量可增加研究的可靠性，得到可信的研究结果。
样本量估算的影响因素
在科学研究方法中，现在越来越强调样本量的估算。确定适当的样本含量，可节约资源，并防止因为样本含量过少引起的检验效能偏低，出现了非真实的阴性结果，这是当前医学研究中值得注意的问题。确定样本含量的主要用途是保证科研设计有适当的样本含量，而且可考察当前的样本含量是否能够保证足够大的检验效能。

卫生统计学课件：第17章队列研究的样本含量估算与统计分析

6
暴露人群的选择
1）在一次普查的基础上，确定暴露人群。 2）查阅档案资料。可以从职业档案、户口
登记、医疗病历等文件资料中获得暴露人群及暴露水平的线索。 3）一定地理区域内的居民或种族。
7
健康工人效应：
在职业人群队列研究中，由于工作的需要，职业工人的健康状况要比一般人群的健康状况好，这种职业工人与一般人群的不可比性，可能造成比较结果的偏倚。
校正区间发病区间不发累积不发累积发病
数概率病概率病概率概率
(/105) (/105) (/105) (/105)
36389 36127 35824 35464 34960
13.74 8.30 5.58 5.64 5.72
99986.26 99986.26 99991.70 99977.96 99994.42 99972.38 99994.36 99966.74 99994.28 99961.02
优点：是由因及果的分析性研究设计，不容易受混杂因素影响，在论证病因关系时结论更可靠。缺点：较多的对象和较长的时间；费用高昂；工作量大；易发生失访，导致偏倚。
样本含量的估算队列研究的统计描述
队列研究中的暴露组与非暴露组的对比
37
2
h1
Th2
34
三、剂量-反应关系（趋势卡方）
表17-9 剂量－反应关系分析表
暴露因素水平
E0
E1
…
EK
取值
X0
X1
…
XK
出现结局事件的人数
d0
d1
…
dK
观察人年数
T0
T1
…
TK
合计
D T
2
T 2 (T

抽样方法与样本量估计ppt课件

x
Nn
n
率的标准） :误 Sp(（ 1N n)有 p(n 1 1 p 限 ) 总无限体总体 p(1n p)
ppt课件完整
31
4 . 1
例1 欲调查某农村小学学生的蛔虫感染率，该校有学生2000人，若取样本例数 100人，试作单纯随机抽样设计。
解：先将全校学生编号：0，1，2，3，…，1999；再用附表17随机数字表，任意指定某行某列，比如第5行第9列，由此处开始，向右依次抄录随机数字100组，每组4个数字，凡后面出现与前面相同的数字弃去，如得0873，3732，0405，6930， 1609，0588，…。凡首字≥8者减8，≥6者减6，≥4减4，≥2减2，依次得873，1732， 405，930，1609，588，…。
ppt课件完整
5
抽样调查的特点
特点1：抽取的样本作为一个“代表团”来代表总体。而不是随意挑选的个别单位代表总体。
特点2：调查样本一般按随机的原则抽取，在总体中每个单位被抽取的机会相等。因此被抽中的单位在总体中是均匀分布的，不致出现倾向性误差，代表性强。
特点3：所抽取的调查样本数量是根据误差的要求并经过科学的计算确定，在调查样本的数量上有可靠保证。
ppt课件完整
18
滚雪球抽样
通常是先选出一组最初的调查对象，通常是随机选出的，在访谈之后，要求这些被访者推荐一些属于目标总体的其他人，根据这些推选出后面的被访者。与随机的方式相比，被推举的人将具备与推荐人更为翔实的人口及心理特征。优点是：主要目的是估计总体中非常稀少的某些特征。缺点是：这种方式非常耗时。
ppt课件完整
10
对抽样误差认识与使用的误区
一些研究者甚至部分官员不愿意或不习惯接受数据的误差范围，一谈到误差，惟恐别人说数据不准，将数据误差绝对。由于对数据误差的认识存在着误区，在如何使用数据上也存在着误区。抽样调查的数据拿来就用，不谈抽样误差和调查误差，认为调查数据就是总体的真值。在进行工作政绩考核或进行地区间的数据对比时，调查指标数据的高低变成了地区之间排队、政绩评比的依据，忽视了对数据误差的评估。现有的调查数据不仅没有正确地使用，反而还带来地区之间数据高低的相互攀比，同时也影响了以后抽样调查的数据质量。

医学统计学-实验设计PPT课件

例：某中药治疗十二指肠溃疡疗效观察
纳入标准：①年龄在18～70岁之间;②入选前3～5天内经胃镜检查证实为活动期十二指肠溃疡,溃疡长径在0.4ｃｍ～2ｃｍ之间,溃疡数不超过2个;③入组前48小时内停服一切抗溃疡药物。
排除标准：①复合性溃疡或溃疡数超过2个 ; ②有溃疡严重并发症 (出血、穿孔、癌变等 )史;③有胃、十二指肠手术史;④孕妇或哺乳期妇女;⑤心、肝、肾功能异常者;⑥正在服用非类固醇抗炎药或皮质激素类药物。
正常妇女的子宫内膜细胞组：为同期本院门诊正常育龄妇女共15例，于放置宫内节育器前行细管吸宫法获取子宫内膜，术后病理组织检查证实无病理改变。
一、临床试验的定义、特点与要求
临床试验（clinical trial):指对人类对象进行的任何意在发现或证实一种试验用药品的临床、药理学和（或）其他药效学作用；和（或）确定一种试验用药品的任何不良反应；和（或）研究一种试验用药品的吸收、分布、代谢和排泄，以确定药物的安全性和（或）有效性的研究。
直接影响研究的质量—科学性。
实验研究的特点
处理因素是研究者根据研究目的人为设置的，是在研究者完全或部分控制的“非自然条件下”进行的研究。
受试对象接受何种处理与水平是由随机分配而定的。
证据的可靠性强
二、实验设计的三要素
受试对象（subject）实验因素（处理因素，treatment）实验效应（effect）
SARS疫苗I期临床试验
每一个受试者接种疫苗后，要做两个小时的留院查看，随后定期接受随访和相关的血、尿、胸片以及血清抗体的检查。
我国人用禽流感疫苗I期临床研究
中国人用禽流感疫苗由北京科兴生物制品公司和中国疾病预防控制中心共同研制。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

n1
1.960.52 0.1
9
6.0
4
n2 1.98409.10.5298.50 n3 1.98404.10.5298.45
（二）估计总体率（或比例）时所需的样本大小
n z2/2p1 p
2
p z / 2
p(1 p) n
例18-2：某城市欲调查10岁以上儿童参加夏令
营的比例，在预调查中这个比例是80%，要求正式
的样本统计量与总体参数间或样本统计量间的差值，容许误差既可以用绝对误差来表示，也可用相对误差来表示，容许误差值越小，所需样本量越大。
4.总体标准差σ或总体率π，常根据预试验以及前人的研究结果或统计理论进行估计，σ愈大或π愈
远离0.5，所需样本量越大。
.
7
第二节参数估计中样本含量的估计
（一）估计总体均数时所需的样本大小
2t,
t,
2
Nt,t,2Fra bibliotekQ 11Q 21
样本分配比或抽样比： Q11 Q21 1
.
17
例18-6. 据文献报道：用磷酸咯定肌肉注射治疗间日疟，观察疟虫消失时间，2mg/kg肌注组，平均消失时间为48.5小时；4mg/kg肌注组，平均消失时间为43.3小时。两组平均时间的标准差估计为13小时。欲得出两计量的疟原虫消失时间不同的结论在
.
2
大样本得到的结论要比小样本得到的结论更为精确和可靠，但大样本意味着研究者要付出更多的时间、精力、人力和财力，有时还会导致浪费，样本例数太少，就容易把偶然性或巧合的现象当作必然的规律性现象，也不能正确地估计实验误差，
.
3
克服两种倾向：
1、片面追求增大样本
样本含量过大，不仅会增加实际工作中的困难，对质量的严格控制也不易做到，还会造成人力、物力和时间上的不必要的浪费。此外，样本含量过大还可能引入更多的混杂因素，对研究结果造成不良影响。
358
4 10000 0.10 0.90 0.30 3000.00 0.05
54
5 30000 0.30 0.70 0.46 13747.73 0.25
246
合计 150000
55863.75 1.00
1000
第三节假设检验中样本含量的估计方法
（一）样本均数与总体均数比较
n
t/2,
t,
2
例18-5.某药物研究所研究某新药治疗高血压的疗效，若规定要求用药后舒张压下降1.6kpa，才说明该药有实际疗效。预试验结果：治疗后比治疗前舒张
一、单纯随机抽样的样本含量估计
n t S 2
nc
1
n n
N
（ x t/2S/ n ..,.. t/2S/ n)
式中S 为样本标准差，δ为容许误差， x
α一般取双侧 0.05，
.
8
例18-1. 拟用放射免疫法检测某人群（5000人）血液归流脑特异免疫球蛋白含量，根据文献报道，其样本标准差约为0.5mg/L²，允许误差为0.1mg/L，试按单纯随机抽样估计样本例数。
调查得的样本率与未知实体率相差不超过10%的可
能性不大于0.05。如果用简单随机抽样，需要多少
调查对象？
1.9620.810.8
n
61.47
0.12.
10
二、分层随机抽样的样本含量的估计
按比例分配：
最优分配：
ni n.
Ni .i Ni .i
n Ni. i.(1i)
Ni. i.(1i)
ni
n.
Ni N
piq i
Ni piq i
Ni piq i
Ni piqi
ni
n
Ni Ni
piqi piq i
1 35000 0.04 0.96 0.20 6858.57 0.12
123
2 25000 0.40 0.60 0.49 12247.45 0.22
219
3 50000 0.20 0.80 0.40 20000.00 0.36
.
4
2、忽视应当保证足够的样本含量
样本例数过少，所得指标不够稳定，抽样误差大，结论的可靠性差，用于推断总体的精度差，检验效能低，导致总体中存在的差异未能检验出来，出现假阴性(false negative)结果，这是当前医学研究中值得注意的问题。
.
5
二、样本含量估计的影响因素
1.第一类错误概率大小（或置信度1-），越小，
（均数的抽样）（率的抽样）
.
11
例18-3. 欲在15万人口的居民中调查某病患病率。居民区分5层，样本总含量确定为1000人，根据按比例分配和最优分配分层抽样（以三年前各层患病率的数据作为参考），问各层分别应抽取多少人？
.
12
层
1 2 3 4 5 合计
表 18-1 按比例分配抽样各层应抽取的人数
人口数（Ni）抽样比例（Ni/N）样本含量（ni）
35000
0.233
233
25000
0.167
167
50000
0.333
333
10000
0.067
67
30000
0.200
200
150000(N)
1.000
1000(n)
表 18-2 按最优分配抽样各层应抽取的人数
层人口数三年前 qi=1-pi （Ni）患病率 pi
α=0.05，β=0.2的条件下至少需要观察多少例。
.
18
n12 1.9 60 5..8 24 1 2 3 29.1 84
压差值的标准差为3.0kpa。当α=0.05，检验效能1β=0.8时，试估计需要多少病人进行临床试验？
.
15
n1
1.6
40 5.8 1.6
4 2 322.7 14
n2
1.7
20 0.8 1.6
59 322.3
8
n3
1.7
10 4.8 1.6
5 3 822.2 36
（二）两样本均数比较时
n1
n2
第十八章样本含量的估计
.
1
第一节样本含量估计的意义以及影响因素
一、样本含量估计的意义样本含量（sample size），又称样本容量、
样本大小，是指在实验研究和调查研究中，每个样本所包含的观察对象的数量。
它体现研究设计中重复性原则，其意义在于估计研究中的误差，且抽样误差的大小与样本量有关。足够的样本量也是实验研究中保证组间均衡性的基础。
所需要的样本含量越大，根据研究问题的性质和
研究目的决定I型错误的概率值，通常情况下，取 0.05，可取单侧或双侧。
2.第二类错误概率大小，越小，检验效能1-越大，
所需样本量也越大，一般要求检验效能不低于0.80。
一般只取单侧。在参数估计的样本量估计中不涉及，在假设检验的样本量估计中涉及。
.
6
3.容许误差δ，是指研究者要求的或客观实际存在