临床非劣效性与等效性评价的统计学方法二

合集下载

实用文库汇编之非劣效、等效性、优效性

实用文库汇编之非劣效、等效性、优效性

**实用文库汇编之非劣效、等效和优效性检验及其适用范围摘要:在对国内临床研究报告的审评中我们经常遇到以传统的显著性检验代替非劣效等设计的检验的情况,下文探讨了二者的区别及适用范围。

关键词:非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究,以判断和区别其实际的疗效如何,审评中我们常见到的错误是采用如下传统的假设检验:无效假设H0: A药的疗效-B药的疗效=0备择假设H1:A药的疗效≠B药的疗效结论:如P>0.05,按α=0.05的检验水准不能拒绝H0假设,如P≤0.05,则接受H1假设。

目前已经公认这种传统的假设检验(又称显著性检验)用于临床试验判断药物的疗效是不合理的,它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义,因此国际普遍采用非劣效、等效或优效性假设检验。

传统的假设检验之所以不合理,在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等,是纯粹的统计学意义,而未体现实际的临床意义,虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1:μ1-μ2>0(或μ1-μ2<0),但它检验的依然是样本所代表的总体均数的统计学含义,而未将实际临床意义包含进来考虑。

另一方面,对于传统检验的结论,如P>0.05,表示两药疗效的差别无统计学意义, 不拒绝H0假设,说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论,并不是当然的接受H0假设,并非认为H0假设必然成立而两药疗效的总体均数一定相等,此时有可能两药疗效的总体均数确实相似,也有可能是检验效能(把握度)不够,尚需更大样本量进行检验;如P≤0.05,两药疗效的差别有统计学意义,也就是说,两药疗效的总体均数确实不相等,但这种统计学意义的差异不一定具有实际的临床意义,也可能其临床意义却是优效、等效或非劣效的。

因此,临床试验的统计学家们提出了区间假设检验的方法,提出以临床意义的差异Δ来进行假设检验,这就是非劣效、等效和优效性检验的概念和方法。

非劣效、等效和优效性检验及其适用范围

非劣效、等效和优效性检验及其适用范围

发布日期20061120栏目化药药物评价>>临床安全性和有效性评价标题非劣效、等效和优效性检验及其适用范围作者黄钦部门正文内容审评四部审评八室黄钦摘要:在对国内临床研究报告的审评中我们经常遇到以传统的显著性检验代替非劣效等设计的检验的情况,下文探讨了二者的区别及适用范围.关键词:非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究,以判断和区别其实际的疗效如何,审评中我们常见到的错误是采用如下传统的假设检验:无效假设H0:A药的疗效—B药的疗效=0备择假设H1:A药的疗效≠B药的疗效结论:如P>0.05,按α=0.05的检验水准不能拒绝H0假设,如P≤0.05,则接受H1假设。

目前已经公认这种传统的假设检验(又称显著性检验)用于临床试验判断药物的疗效是不合理的,它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义,因此国际普遍采用非劣效、等效或优效性假设检验。

传统的假设检验之所以不合理,在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等,是纯粹的统计学意义,而未体现实际的临床意义,虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1: μ1-μ2〉0(或μ1—μ2〈0),但它检验的依然是样本所代表的总体均数的统计学含义,而未将实际临床意义包含进来考虑。

另一方面,对于传统检验的结论,如P〉0.05,表示两药疗效的差别无统计学意义,不拒绝H0假设,说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论,并不是当然的接受H0假设,并非认为H0假设必然成立而两药疗效的总体均数一定相等,此时有可能两药疗效的总体均数确实相似,也有可能是检验效能(把握度)不够,尚需更大样本量进行检验;如P≤0.05,两药疗效的差别有统计学意义,也就是说,两药疗效的总体均数确实不相等,但这种统计学意义的差异不一定具有实际的临床意义,也可能其临床意义却是优效、等效或非劣效的.因此,临床试验的统计学家们提出了区间假设检验的方法,提出以临床意义的差异Δ来进行假设检验,这就是非劣效、等效和优效性检验的概念和方法。

对临床试验统计学假设检验中非劣效_等效和优效性设计的认识

对临床试验统计学假设检验中非劣效_等效和优效性设计的认识

药政管理对临床试验统计学假设检验中非劣效、等效和优效性设计的认识Considerations on the statistical hypothesis of noninferiority,equi valence and superiority design i n clinical tri al黄钦,赵明(国家食品药品监督管理局药品审评中心,北京100038)HUANG Q i n,Z HAO M i n g(C enter for Drug Evaluation,State Food and D rug Adm inistration,Beijing 100038,China)收稿日期:2006-09-12修回日期:2006-12-14作者简介:黄钦(1969-),男,博士,主管药师,主要从事药品审评工作通讯作者:黄钦Te:l(010)-68585566E-ma il:huangq@ 摘要:在对国内药物注册临床试验报告的审评中,常遇到以传统显著性检验代替非劣效、等效和优效性检验的错误,就它们的区别及适用范围,本文对判断界值的确定、样本含量、推断结论及审评中的主要关注点进行了阐释。

关键词:非劣效检验;等效性检验;优效性检验;显著性检验中图分类号:R954文献标识码:C文章编号:1001-6821(2007)01-0063-05药品临床试验设计要求随机、盲法和对照药物比较,以判断和区别其实际的疗效。

我国药品研发,以仿制国外已上市药品为主;基于临床认识和伦理学因素,临床研究也多选择针对目标适应症的已有治疗药物为对照,即所谓的阳性对照药。

目前,已公认的传统假设检验(又称显著性检验)在临床试验中用于判断药物的疗效是不合理的,它不能准确区分2药疗效差异的方向性和体现差异大小所揭示的临床实际意义。

因此,国际上根据研究目的不同,普遍用非劣效、等效或优效性假设检验。

1显著性检验无效假设H0:A药疗效-B药疗效=0备择假设H1:A药疗效X B药疗效结论:如P>0.05,按A=0.05的检验水准,不能拒绝H0假设;如P[0.05,则接受H1假设。

非劣效、等效和优效性检验及其适用范围

非劣效、等效和优效性检验及其适用范围

发布日期20061120栏目化药药物评价〉>临床安全性和有效性评价标题非劣效、等效和优效性检验及其适用范围作者黄钦部门正文内容审评四部审评八室黄钦摘要:在对国内临床研究报告的审评中我们经常遇到以传统的显著性检验代替非劣效等设计的检验的情况,下文探讨了二者的区别及适用范围。

关键词:非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究,以判断和区别其实际的疗效如何,审评中我们常见到的错误是采用如下传统的假设检验:无效假设H0: A药的疗效—B药的疗效=0备择假设H1:A药的疗效≠B药的疗效结论:如P>0。

05,按α=0。

05的检验水准不能拒绝H0假设,如P≤0。

05,则接受H1假设。

目前已经公认这种传统的假设检验(又称显著性检验)用于临床试验判断药物的疗效是不合理的,它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义,因此国际普遍采用非劣效、等效或优效性假设检验。

传统的假设检验之所以不合理,在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等,是纯粹的统计学意义,而未体现实际的临床意义,虽然有单双侧之分,如单侧为H0:μ1—μ2=0,H1:μ1—μ2>0(或μ1-μ2〈0),但它检验的依然是样本所代表的总体均数的统计学含义,而未将实际临床意义包含进来考虑。

另一方面,对于传统检验的结论,如P>0。

05,表示两药疗效的差别无统计学意义, 不拒绝H0假设,说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论,并不是当然的接受H0假设,并非认为H0假设必然成立而两药疗效的总体均数一定相等,此时有可能两药疗效的总体均数确实相似,也有可能是检验效能(把握度)不够,尚需更大样本量进行检验;如P≤0。

05,两药疗效的差别有统计学意义,也就是说,两药疗效的总体均数确实不相等,但这种统计学意义的差异不一定具有实际的临床意义,也可能其临床意义却是优效、等效或非劣效的。

临床试验研究统计学设计方法简述--优效性设计,等效性设计以及非劣效性设计

临床试验研究统计学设计方法简述--优效性设计,等效性设计以及非劣效性设计

临床试验研究统计学设计方法简述--优效性设计,等效性设计
以及非劣效性设计
李雪迎
【期刊名称】《中国介入心脏病学杂志》
【年(卷),期】2014(000)008
【摘要】干预性研究的核心目的在于验证临床干预手段的临床效能。

为了说明干预效果,对照研究是常用的研究手段。

从验证的目标看,对照研究往往通过与对照干预措施的比较,说明试验方法的临床干预效果。

从二者的有效性对应关系上,临床验证大致可以分为以下三种类型。

1.试验方法优于对照方法; 2.试验方法的效果与对照方法相仿(即试验方法的干预效果既不比对照方法差也不比对照方法好); 3.试验方法的效果不比对照方法差。

【总页数】1页(P482-482)
【作者】李雪迎
【作者单位】100034 北京,北京大学第一医院医学统计室
【正文语种】中文
【相关文献】
1.临床试验配对二项数据基于率比的非劣效性/等效性评价 [J], 刘玉秀;姚晨;陈峰;夏结来
2.有效性试验、非劣效性试验、和等效试验之间的比较 [J], Wang B;Wang H;Tu XM;Feng C
3.差异性、等效性、非劣效性和优效性设计中的t检验 [J], 徐利娜;迭敏;刘丽珍;陈
卫中
4.新型膝关节假体应用于人工膝关节置换的安全性和有效性:前瞻性、随机、阳性平行对照、非劣效性临床试验 [J], 李治锋;孙景东;张江;龚泰芳
5.临床非劣效性/等效性评价的统计学方法 [J], 刘玉秀;姚晨;陈峰;陈启光;苏炳华;孙瑞元
因版权原因,仅展示原文概要,查看原文内容请购买。

戏说临床试验中的非劣效性、优效性和等效性检验_奥咨达统计部_范安_180914

戏说临床试验中的非劣效性、优效性和等效性检验_奥咨达统计部_范安_180914

戏说临床试验中的非劣效性、优效性和等效性检验药物/医疗器械临床试验中,根据试验目的不同,需采用不同检验来验证假设。

实际应用中,大家常听说非劣效、优效、等效等名词,傻傻分不清楚。

本文将从实例角度,对三者戏说漫道,以作区分,望行业内小白也能知其一二,此心甚慰!奥家有两位千金,小彤和小依,均貌美如花。

小彤稍年长,已到了谈婚论嫁的年纪,追求者甚众。

小彤也是精挑细选,终于觅得一位如意郎君,小伙长的贼精神,英俊帅气,高大威猛,身高足有一米八。

小依也到了如花似玉的年纪,看到姐姐幸福美满,十分羡慕,也希望找一个自己满意的男友。

那么问题来了,什么样条件的男友,小依才会认为满意呢?这里首先涉及到临床试验中选取主要评价指标的问题。

用帅来评价可以吗?所谓萝卜青菜,各有所爱,帅这个东西,太主观了,每个人对帅都有自己的定义,人们常说一朵鲜花插牛粪,那是外人的眼光来评价,鲜花自己可能觉得赏心悦目。

因此太主观的指标不太好量化,还是换个标准吧。

这也就是为什么临床试验中,问统计专家该采用什么主要指标评价产品性能的时候,他们总建议采用客观性评价指标(可测量可量化),而不推荐使用主观性指标。

那么该采用什么指标呢?身高(高优指标,越高越好的指标)!这也是众多女生比较喜爱的主要择偶标准之一,客观且好量化。

那好,就采用它来作为小依择男友的评价标准吧。

问题接着来了,到底多高,才是小依对男友满意的身高呢?小依听取了众多闺蜜的意见,大致分成了三类,转换成统计术语如下:(1)非劣效:可以比姐夫矮一点,但是不能矮太多。

多少不算矮太多呢?以姐姐小彤男友的身高作为阳性对照,小依认为,5厘米(非劣效界值)是她可以忍受的差距。

根据这条标准,小依找的男朋友可以比1.80m高,但最低不能低于1.75m(图1),这就是大家常说的非劣效的概念,很明显,这是个单侧的比较。

图1 非劣效图示(2)优效:比姐夫高。

也就是说,小依将来找的男朋友,一定要高于1.80m。

1)假如小依只要男友高于姐夫就好,那么将来男友的身高-姐夫的身高>0cm(优效界值1)即可(图2);2)假如小依对未来男友的身高很有信心,认为肯定可以超过1.85m,那么1.85m-1.80m=5cm(优效界值2),将来男友的身高,只有高于1.85m,才算合格(图3)。

非劣效等效性优效性

非劣效等效性优效性

非劣效、等效和优效性检验及其适用范围摘要:在对国内临床研究报告的审评中我们经常遇到以传统的显着性检验代替非劣效等设计的检验的情况,下文探讨了二者的区别及适用范围;关键词:非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究,以判断和区别其实际的疗效如何,审评中我们常见到的错误是采用如下传统的假设检验:无效假设H0:A药的疗效-B药的疗效=0备择假设H1:A药的疗效≠B药的疗效结论:如P>,按α=的检验水准不能拒绝H0假设,如P≤,则接受H1假设;目前已经公认这种传统的假设检验又称显着性检验用于临床试验判断药物的疗效是不合理的,它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义,因此国际普遍采用非劣效、等效或优效性假设检验;传统的假设检验之所以不合理,在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等,是纯粹的统计学意义,而未体现实际的临床意义,虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1:μ1-μ2>0或μ1-μ2<0,但它检验的依然是样本所代表的总体均数的统计学含义,而未将实际临床意义包含进来考虑;另一方面,对于传统检验的结论,如P>,表示两药疗效的差别无统计学意义,不拒绝H0假设,说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论,并不是当然的接受H0假设,并非认为H0假设必然成立而两药疗效的总体均数一定相等,此时有可能两药疗效的总体均数确实相似,也有可能是检验效能把握度不够,尚需更大样本量进行检验;如P≤,两药疗效的差别有统计学意义,也就是说,两药疗效的总体均数确实不相等,但这种统计学意义的差异不一定具有实际的临床意义,也可能其临床意义却是优效、等效或非劣效的;因此,临床试验的统计学家们提出了区间假设检验的方法,提出以临床意义的差异Δ来进行假设检验,这就是非劣效、等效和优效性检验的概念和方法;非劣效性试验指主要研究目的是显示对试验药的反应在临床意义上不差于非劣于对照药的试验ICH-E9的定义;如果治疗差异A药的疗效-B药的疗效>0,则试验药的疗效较好;治疗差异<0,则对照药疗效较好;如果我们允许A药疗效比B药疗效低一定范围,仍然认为两药疗效相当,即确定Δ表示临床意义上判断疗效不差所允许的最大差异值,则如果治疗差异>-Δ,便是试验药非劣效于对照药,此处的Δ称为非劣效试验的判断界值margin;非劣效试验的假设检验是无效假设H0:A药的疗效-B药的疗效≤-Δ备择假设H1:A药的疗效-B药的疗效>-Δ结论:如P>,按单侧α=的检验水准不能拒绝H0假设,即无法判断A药不差于B药;如P≤,则接受H1假设,可以认为A药不差于B药;等效性试验指主要研究目的是要显示两种或多种处理的反应间差异的大小在临床上并无重要性的试验,通常通过显示真正的差异在临床上可以接受的等效的上下界值之间来证实ICH -E9的定义;等效性试验的假设检验是无效假设H0:A药的疗效-B药的疗效≤-Δ,或A药的疗效-B药的疗效≥Δ备择假设H1:-Δ<A药的疗效-B药的疗效<Δ结论:如P1>或P2>,按2α=的检验水准不能拒绝H0假设,即无法判断A药等效于B药;如P1≤且P2≤,则接受H1假设,可以认为A药等效于B药;优效性试验指主要研究目的是显示所研究的药物的反应优于对比制剂阳性或安慰剂对照的试验ICH-E9的定义;优效性试验的假设检验是无效假设H0:A药的疗效-B药的疗效≤Δ备择假设H1:A药的疗效-B药的疗效>Δ结论:如P>,按单侧α=的检验水准不能拒绝H0假设,即无法判断A药优于B药;如P≤,则接受H1假设,可以认为A药优于B药;实际应用中,更多采用的是可信区间法检验,它是分析时最直接的方法,而且比假设检验提供更多的信息;非劣效性试验中我们仅关注一个方向的可能差异,因此试验药与对照药的疗效差异的单侧%或双侧95%可信区间应当完全在-Δ值的右侧,即其单侧%或双侧95%可信区间的下限应该大于设定的判断界值-Δ,即单侧%CIA-B的下限>-Δ或双侧95%CIA-B下限>-Δ,类似道理,等效性试验中等效的结果应该是其95%可信区间范围包括在-Δ与Δ之间,即-Δ<95%CIA-B<Δ,而优效性试验的结果则应该是其单侧%或双侧95%可信区间的下限大于Δ值,即单侧%CIA-B下限>Δ或双侧95%CIA-B下限>Δ;二、非劣效、等效和优效检验的适用范围对于一个新研发的试验药,通常具有某方面的优势,如给药方便、耐受性较好,毒性较低或价格便宜等等,一般需要与安慰剂进行优效性试验以比较其真正的疗效和安全性,来判断其上市的利益风险;如果当前已有曾经优效性试验证实的有效药物的话,还常常与其进行比较,并判定待验证药物的疗效至少不差于非劣于已有有效药物作为其上市的最低标准;而等效性试验的应用多见于对同一活性成分的生物等效性以及血浆无法测定时的临床等效验证; 非劣效性试验通常用于与已上市的有效药物或标准治疗方案进行比较以求能提供一个新的治疗选择,少数情况下当安慰剂对照不被允许或违反伦理时,用以间接证明试验药优于安慰剂;我国的研发情况是自主创新药品较少,而仿制国外已上市药品占多数,对于国内尚未上市的药品,无论是创新药还是仿制药,如选安慰剂为对照则应证实其优效性,如选国内已上市的同一治疗领域的药物作为阳性对照药,则应至少验证其具有非劣效性;与已上市药物相同活性成分的药品应进行生物等效性或临床等效性验证;。

非劣效临床试验的统计学考虑

非劣效临床试验的统计学考虑

非劣效临床试验的统计学考虑在医学研究和药物开发领域,临床试验是至关重要的环节,用于评估新疗法或新设备的有效性和安全性。

其中,非劣效临床试验旨在验证新疗法或新设备与现有标准疗法或设备的比较效果,本文将详细介绍非劣效临床试验中的统计学考虑。

非劣效临床试验是指通过比较新疗法或新设备与现有标准疗法或设备的疗效,来评估新疗法或新设备是否非劣于现有疗法或设备。

非劣效临床试验通常采用双盲、随机、对照的设计,以消除偏倚和增加试验的可靠性。

在非劣效临床试验中,统计学原理是试验设计和数据分析的基础。

通过运用随机化和对照原则,能够减少偏倚、提高试验的内部效度和外部效度,并最终得出可靠的结果。

在非劣效临床试验中,样本的选取是至关重要的。

通常,研究人员会根据研究目的、研究假设、研究人群和研究资源等因素来制定样本的选取原则。

在确定样本的选取原则后,研究人员需要选择适当的试验组和对照组。

试验组为接受新疗法或新设备的患者,对照组为接受现有标准疗法或设备的患者。

在选择试验组和对照组时,研究人员需要考虑匹配和随机化的原则,以减少偏倚对试验结果的影响。

研究人员还需要评估试验结果的置信区间。

置信区间是用于描述试验结果不确定性的指标,通常是指从样本统计量加减一定比例的抽样误差所得到的一个范围。

在非劣效临床试验中,置信区间的评估对于判断新疗法或新设备的非劣效性具有重要意义。

在非劣效临床试验中,常用的统计学方法包括但不限于以下几种:意向性分析:这是非劣效临床试验中最重要的统计学方法之一。

它按照患者的原始分组进行统计分析,从而能够充分利用所有收集到的数据。

随机化分组和盲法:这些技术有助于减少偏倚,提高试验的内部效度和外部效度。

参数估计和假设检验:这些技术用于描述和解释试验结果,以及推断新疗法或新设备是否非劣于现有疗法或设备。

结论与启示非劣效临床试验在评估新疗法或新设备的疗效方面具有重要意义。

通过运用统计学原理和方法对试验结果进行分析,研究人员可以得出可靠的结论,从而为临床医生和患者提供更多有效的治疗选择。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

临床非劣效性与等效性评价的统计学方法二第一步:非劣效性评价单侧假设检验:z=(2+3)/1.033=4.84>1.645(z0.95),P<0.05单侧95%可信区间下限:CL=2-1.645×1.033=0.301>-3两种方法均显示,在抗高血压效果方面新药AII拮抗剂与标准药ACE抑制剂相比具有非劣效性。

第二步:优效性评价单侧假设检验:z=2/1.033=1.936>1.645,P<0.05单侧95%可信区间下限:CL=0.301>0结果表明,新药AII拮抗剂比标准药ACE 抑制剂的抗高血压效果具有统计学意义优效性。

ICHE9指导原则中的建议[1]更保守些,若按α取0.025的标准判断,非劣效性评价的z=4.84>1.96(z0.975),P<0.025,可下非劣效性结论。

但是,因优效性评价的z=1.936<1.96,P>0.025,尚不能认为具有统计学优效性,更达不到临床意义上的优效性。

有一种情况值得注意,即求得的可信区间的下限大于-δ,但上限却比0小,管理当局比如美国的FDA可能仍然把试验药看作和标准药不等效,甚至比标准药还差,尽管非劣效性的标准已经达到了。

这一额外增加的标准之严格,似乎并不是从统计学意义上考虑的。

事实上,这对很高效地完成试验而出现了窄小的CI可能是不公正的。

4非劣效性/等效性试验样本含量估计及检验效能对服从正态分布的数据(定量指标)和服从二项分布的数据(率指标)分别介绍。

4.1定量指标4.1.1非劣效性试验按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T=S的条件下,非劣效性试验每组需要的样本含量为:n=2[(Z1-α+z1-β)(s/δ)]2检验效能为:1-β=Ф[δ(2s2/n)-1/2-z1-α]式中s为两组的合并标准差。

n为每组的样本含量。

Ф[x]代表标准正态分布下x 左侧的概率Pr[X≤x]。

例3:上例继续。

若按非劣效性设计试验,假定,α=0.05,β=0.10,将有关量:z0.95=1.645,z0.90=1.282,s=8mmHg,δ=3mmHg代入公式则可求得每组的样本含量为:n=2[(1.645+1.282)(8/3)]2=121.8≈1224.1.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2),要求允许的二类误差概率不超过β,在T=S的条件下,等效性试验每组需要的样本含量为:n=2[(Z1-α/2+z1-β)(s/δ)]2检验效能为:1-β=2Ф[δ(2s2/n)-1/2-z1-α]-1例4:上例继续。

假定各参数不变,只是按等效性试验来进行设计,则每组需要样本含量:n=2[(1.96+1.282)(8/3)]2=149.5≈150可见,等效性试验设计的每组的样本含量要比非劣效性试验增加近30例。

4.1.3优效性试验①优于阳性标准对照组的试验:按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T优于S的效应差量为ε,即T-S=ε的条件下,优效性试验每组需要的样本含量为:n=2[(Z1-α+z1-β)(s/ε)]2检验效能为:1-β=Ф[ε(2s2/n)-1/2-z1-α]例5:上例继续。

假定单侧α=0.05,β=0.10,ε=2。

即按0.05的检验水准,在90%的把握度下,检出试验组比阳性对照组优2mmHg每组所需的样本含量为:n=2[(1.645+1.282)(8/2)]2=274.2≈274②优于安慰剂组的试验:按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T优于S有临床意义的差量为Δ时,优效性试验每组需要的样本含量为:n=2[(Z1-α+z1-β)(s/Δ)]21-β=Ф[△(2s2/n)-1/2-z1-α]例6:上例继续。

假定设计为优于安慰剂的试验。

单侧α=0.05,β=0.10,Δ=10。

即按0.05的检验水准,在90%的把握度下,检出试验组比安慰剂组优10mmHg 每组所需的样本含量为:n=2[(1.645+1.282)(8/10)]2=10.97≈12由上可见,采用阳性对照的非劣效性试验、等效性试验、优效性试验所需的样本含量均比安慰剂对照试验要大。

因为:z1-α<z1-α/2,ε<δ<△,所得的样本含量由少到多可依次排列为:安慰剂对照优效试验、非劣效性试验、等效性试验和阳性对照优效试验。

例如,若取δ≤△/2,进行阳性对照等效性试验所需的样本含量至少是安慰剂对照优效性试验的4倍。

上面的例子中δ为△的1/3,阳性对照的非劣效性试验所需的样本含量约是安慰剂对照试验的10倍,其他的情形更甚。

]4.2率指标有关的数学符号及意义同定量指标。

4.2.1非劣效性试验按照单侧的检验水准α,要求允许的二类误差概率不超过β,在两组总体率T=S=π的条件下,非劣效性试验每组需要的样本含量为:n=2[π(1-π)δ-2](z1-α+z1-β)2检验效能为:1-β=Ф[δ{π(1-π)(2/n)}-1/2-z1-α]例7:治疗手足癣常规推荐伊曲康唑100mg用药4周方案,考虑到该药有极高的组织亲和性,停药后可在角质层持续停留4周,这种药动学特性提示服药1周的短程疗法可能对皮肤真菌病有效。

为此设计了400mg1周和100mg4周的比较试验,考察新方案的疗效是否不比常规方案差。

以临床治愈率作为评价终点,假设两方案的疗效相同,根据以前的疗效及有关要求,取:T=S=π=0.80,δ=0.15,α=0.05,β=0.20。

则z0.95=1.645,z0.80=0.845,每组需要的样本含量按公式计算如下:n=2[0.80(1-0.80)0.15-2](1.645+0.845)2=88.2≈884.2.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2),要求允许的二类误差概率不超过β,在两组总体率T=S=π的条件下,等效性试验每组需要的样本含量为:n=2[π(1-π)δ-2](z1-α/2+z1-β)21-β=2Ф[δ{π(1-π)(2/n)}-1/2-z1-α]-1例8:上例如保持各项参数不变,只是按照等效性试验来设计,其每种方案所需的样本含量为:n=2[0.80(1-0.80)0.15-2](1.960+0.845)2=111.9≈112值得提出的是,以上非劣效性/等效性试验样本含量的计算均建立在两组的真实差别为0,即在T=S的前提下,按检验水准α能检验出非劣效性/等效性的概率作为检验效能。

如果试验药效实际上低于阳性对照药,但在δ以内时(这在理论上和实际中均是完全可能的),此时如仍用上述的计算公式计算样本含量,将会低估这一检验效能时所应该需要的样本含量,或者说达不到目前预定的检验效能[8]。

例如[5],按照T=S=π=0.90,δ=0.1,α=0.05,β=0.20设计的等效性试验每组需要142例,如果试验组的的真实疗效是85%而不是90%,两组差别仅为5%,小于允许的10%(δ=0.1),仍符合等效性的条件。

此时如果每组用142例进行试验,则下等效结论的机会仅为25%,检验效能很小,说明样本含量不够。

当然,在实际工作中样本含量的估计还应考虑到病人的脱落等问题[9],此不祥述。

5 讨论传统假设检验差别无显著性(P>α)与非劣效性/等效性试验的非劣效/等效(P≤α)是两种不同的概念,前者表示现有数据因例数少、误差大或参数本身相近等原因尚不能作出两组差别有统计学意义的结论,后者表示根据临床专业上的界值标准及统计上的α水准,可作出两组非劣效或等效且有统计学意义的结论。

从理论及实际分析看[10],两组差别无统计学意义(P>α),不一定存在非劣效性或等效性;两组差别有统计学意义(P≤α),也可能是非劣效或等效的,因此,一般假设检验意义下的结论决不可代替非劣效性或等效性检验。

从实际的结果看,若试验用药组和标准阳性对照组样本效应值的差值小于δ时,可进行非劣效性/等效性的评价。

如果T组比S组样本效应的差值比δ还大时,则无需做上述的任何检验,因为即便做了也必定得不出非劣效或等效的结论。

如果T组比S组的样本效应值好的幅度比δ大时,倒是可以做一下临床意义上的优效性检验,以确认T的疗效在临床疗效上确实比S好,这在临床研究中也是具有非常重要实际意义的[7,10]。

如果开始是按照非劣效性试验来设计的,而且T样本的效应好于S样本,当非劣效性试验的无效假设被拒绝,而可以推断T比S具有非劣效性时,可进一步检验T的优效性[2]。

我们可称之为两步法或步进法。

Morikawa和Yoshida概括为“单侧等效性检验与单侧优效性检验组合法”[11]。

尽管在实际中并不一定要求对检验水准α进行校正,但是,要想这样做,应在设计阶段考虑到,并事先在试验方案中讲明,而不是到统计分析阶段根据检验结论的提示才想到要作进一步分析。

因为我们经常用阳性对照,试验药和阳性药在临床疗效上非劣效、相当或优效时,习惯上都笼统地称为“等效”,可以批准上市。

但严格意义上的等效性与之是有区别的,正如生物利用度等效性研究中的等效性一样,试验药比阳性药效应低到一定程度或高到一定程度都不能说等效[12,13]。

实际上,临床等效性并不要求这么严格,因为我们最关心的是新药是否不比阳性对照药差,至于在另一个方向上的好与不好并不关心,或者说没有必要关心。

因而阳性对照试验中大多数应该属于非劣效性试验。

当然,即使用了等效性试验方法,对新药评审来说,也无可厚非,因为这并未降低标准,从某种程度上说还抬高了标准。

本文所用的统计推断方法和一般情况下统计推断方法应用条件相似,当不符合统计方法的应用条件时应考虑进行校正或另选其它的方法,例如,两组均数比较方差不齐时,可采用Satterthwaite校正法等进行检验[6];两组率比较例数较少或率较接近0或1时,可采用精确概率法等。

随着临床疗效非劣效性/等效性评价的不断应用,对有些统计问题,譬如意向性分析(ITT分析)和符合方案集分析(PP分析)的选用、不符合统计应用条件的处理、缺失值及异常值的处理等还需作更深入的研究和探讨,以满足实际工作的需要和要求的不断提高。

我国目前已提出新药临床等效性试验的要求[14],但仍存在着标准偏低或不够明确的不足。

例如,60对的试验例数在许多情况下检验效能不足,对临床等效界值δ并未明确指出,还有α、β的标准掌握不够一致等问题,这些均不利于新药的审评。

从我国的临床试验实际看,已有进行等效性分析的实例,但往往不是从一开始就按照非劣效性/等效性试验来设计的,因而到最后统计分析时才确定的一些标准,在把握上容易出偏差。

严格讲,非劣效性/等效性试验的标准(如样本含量、δ、α、β等等)都要在设计阶段确定,以后非必要时不得更改。

相关文档
最新文档