非劣效临床试验的统计学考虑_CCTS工作小组

合集下载

Bootstrap法与H-L法中位数差值区间检验在非劣效试验中的模拟比较研究

Bootstrap 法与H-L 法中位数差值区间检验在非劣效试验中的模拟比较研究**基金项目：四川养老与老年健康协同创新中心项目(YLZBZ1818)；成都医学院教育教学改革研究项目(JG201944)△通信作者：陈卫中，E-mail ： wejone@ 126. com成都医学院公共卫生学院(610500)毛昂曾子倩魏敏陈晓芳陈卫中△【提要】目的比较Bootstrap 法和Hodges-Lehmann 法(H-L 法)在中位数差值非劣效性检验中的特点，为相关研究中统计学方法的选择提供依据。

方法以某临床试验中试验组与对照组咽痛消失时间的比较为基础，通过计算机模拟生成单组样本量分别为20、30、50、100、200各500个两独立样本，分别服从参数为90h(试验组)、100 h(对照组)的Poisson 分布。

针对每个样本采用基于正态近似和百分位数的Bootstrap 法、H-L 法求得中位数差值的置信区间，并通过置信区间下限与非劣性界值进行比较，得岀三种方法的检验效能。

结果三种方法均随着样本量增加，检验效能增加。

在样本量为20时,H-L 法与正态近似法检验效能相当(25% vs. 24% )，且都高于百分位数法(19% )。

在样本量为30,50,100时,H-L 法检验效能高于正态近似法与百分位数法，且正态近似法高于百分位数法。

在样本量为200时，三种方法的检验效能相当，均在 95%以上。

结论整体来看,H-L 法获得的区间最窄且最稳定，检验效能最高，尤其在样本量不大时建议选择H-L 法。

【关键词】非参数检验非劣效性试验中位数差值的置信区间检验Bootstrap Hodges-Lehmann 【中图分类号】R195.1 【文献标识码】A DOI 10. 3969/j.issn. 1002 -3674. 2020.06.012非劣效性试验(non-inferiority trials )被广泛应用于药物临床试验研究。

对临床试验统计学假设检验中非劣效_等效和优效性设计的认识

药政管理对临床试验统计学假设检验中非劣效、等效和优效性设计的认识Considerations on the statistical hypothesis of noninferiority,equi valence and superiority design i n clinical tri al黄钦,赵明(国家食品药品监督管理局药品审评中心,北京100038)HUANG Q i n,Z HAO M i n g(C enter for Drug Evaluation,State Food and D rug Adm inistration,Beijing 100038,China)收稿日期:2006-09-12修回日期:2006-12-14作者简介:黄钦(1969-),男,博士,主管药师,主要从事药品审评工作通讯作者:黄钦Te:l(010)-68585566E-ma il:huangq@ 摘要:在对国内药物注册临床试验报告的审评中,常遇到以传统显著性检验代替非劣效、等效和优效性检验的错误,就它们的区别及适用范围,本文对判断界值的确定、样本含量、推断结论及审评中的主要关注点进行了阐释。

关键词:非劣效检验;等效性检验;优效性检验;显著性检验中图分类号:R954文献标识码:C文章编号:1001-6821(2007)01-0063-05药品临床试验设计要求随机、盲法和对照药物比较,以判断和区别其实际的疗效。

我国药品研发,以仿制国外已上市药品为主;基于临床认识和伦理学因素,临床研究也多选择针对目标适应症的已有治疗药物为对照,即所谓的阳性对照药。

目前,已公认的传统假设检验(又称显著性检验)在临床试验中用于判断药物的疗效是不合理的,它不能准确区分2药疗效差异的方向性和体现差异大小所揭示的临床实际意义。

因此,国际上根据研究目的不同,普遍用非劣效、等效或优效性假设检验。

1显著性检验无效假设H0:A药疗效-B药疗效=0备择假设H1:A药疗效X B药疗效结论:如P>0.05,按A=0.05的检验水准,不能拒绝H0假设;如P[0.05,则接受H1假设。

CCTS非劣效临床试验的统计学考虑-中国卫生统计,2012,29(2)：270-274

Chinese Journal of Health Statistics， Apr 2012 ， Vol． 29 ， No． 2
· 271·
1．阳性对照有效性的既有证据（ historical evidence HESDE ）阳性对照效应来 of sensitivity to drug effects，源于文献报道的有良好试验设计的试验结果，这些历史试验已明确显示本次非劣效试验中采用的阳性对照及其类似的药物优于安慰剂，且随时间迁移，药效灵敏度基本维持稳定。根据这些试验结果可以可靠地估计出阳性对照的效应大小。阳性对照的效应大小是非劣既不能用效试验的关键设计参数（确定非劣效界值），历史研究中最好的疗效作为其效应大小的估计，也不能仅用 meta 分析的点估计作为效应大小的估计，效应大小估计时要充分考虑历史研究间的变异。对于缓解症状和 / 或以主观疗效指标为主要评价终点的药物，难以得到阳性对照有效性的既有证据。虽然阳性对照有缓解症状的效果，即使是设计良好的试验，往往也难以重现该药物在缓解特定症状方面优于安慰剂的结论。由于本次非劣效试验中难以确定阳性药物是否有效，基于此试验得出的非劣效结论就不能确证试验药物的有效性。这是缓解症状的药物不能采用非劣效试验的主要原因。 2．阳性对照药物效应的稳定性（ constancy assumption， CA）阳性对照效应的估计来源于历史研究，虽然考虑了历史研究间的变异，但仍有历史局限性，受到
鉴于非劣效临床试验在国内开展地比较广泛，但，在研究设计和评价方面尚未形成相对统一的认识为此中国临床试验生物统计学工作小组（ CCTS），经充分讨论，于 2011 年 10 月 30 日于南京汤山召开工作会议，形成如下共识。非劣效临床试验的意义检定或评价试验药物（ T）的有效性一般采用优效性试验设计，多采用安慰剂（ P ）对照、空白对照、剂量组间对照或阳性药物对照（ C ），其中，安慰剂对照是最直接和高效的对照方式。但在某些临床实践中直接采用安慰剂对照存在伦理学风险，如已有治疗某适应症且可预知由于延误治疗可能导致受试者的有效药物，死亡、病情进展、残疾或不可逆的医学损伤发生，则不宜单纯采用安慰剂对照。剂量组间对照也存在类似的但通过问题。虽然采用阳性对照避免了伦理学风险，临床试验评价试验药物优于公认的阳性对照往往有一定困难。基于此，临床试验中提出了采用阳性对照的 inferiority， NI）试验设计，非劣效（ non此类设计中阳性对照的选择，非劣效界值的确定，样本量的估计，统计推断方法等方面均涉及到统计学问题。非劣效临床试验的应用范围非劣效临床试验设计要求阳性对照药物应具有较稳定的有效性，否则不能采用非劣效设计。非劣效试验一般用于有客观疗效指标的临床研究中（如抗菌药物的临床终点、心血管治疗中的主要不良心血管事件、 2 型糖尿病降糖治疗中肿瘤治疗中死亡或进展事件、的糖化血红蛋白等）。鉴于缓解症状和 / 或以主观疗效指标为主要评价终点的临床试验（如治疗抑郁、过、、）敏性鼻炎咽炎疼痛的药物等疗效评价受试验质

临床非劣效性与等效性评价的统计学方法

临床非劣效性与等效性评价的统计学方法以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准，它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。

然而，如果有现成的疗效肯定的药物，仍用安慰剂对照做临床试验，会面临伦理上的困难。

随着愈来愈多可供应用的有效药物的出现，疗效有突破的新药愈来愈少，因而药物临床研究的目的发生了转变。

在阳性对照试验中，更多的情形是探求新药与标准的有效药物相比其疗效是否不差或疗效相等(严格地说，疗效相等应该是既不比标准药差，也不比标准药好)，而并不一定要知道新药是否优于标准药，由此而提出了非劣效性/等效性试验（noninfer_iority/equivalencetrials）[1]。

非劣效性/等效性试验与通常意义下的优效性试验（superioritytrials）在设计和统计分析上是有区别的。

近年来，尽管对设计和分析该类试验已给予强调，但遗憾的是，许多非劣效性/等效性临床试验的评价缺少针对性，仍仿照安慰剂对照试验的方式进行，因而导致了非劣效性/等效性试验的样本含量估计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理，难以达到设想的目的[2]。

本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题，至于在设计时还必须考虑的有关对照的选定等问题可参考文献[2]及ICH文件E10：“临床试验对照的选择”[3]。

1非劣效性/等效性界值从临床上讲，一种新药的药效不比标准对照药差，到底临床上可接受的最大允许的范围是多少呢？或者说，新药比对照药最低到多大程度才能算“非劣效（noninferiority）”呢？类似地，新药和对照药的疗效相比，最低不能低于多少以及最高不能超过多少才可认为是“等效（eq uivalence)”呢？这就涉及到临床非劣效性/等效性界值（nonferiority/equivalencemargin）的问题。

为叙述方便，我们统一用δ表示界值，并以-δ表示劣侧界值，以δ表示优侧界值。

非劣效性检验的统计学分析_李雪迎

参考文献［1］中华医学会心血管病学分会，中华心血管病杂志编辑委员会．中国心力衰竭诊断和治疗指南2014．中华心血管病杂志，2014，42：98-122．［2］Alahdab MT，Mansour IN，Napan S，et al．Six minute walk test predicts long-term all-cause mortality and heart failurerehospitalization in African-American patients hospitalized withacute decompensated heart failure．J Card Fail，2009，15：130-135．［3］Maisel AS，Peacock WF，Shah KS，et al．Acoustic cardiography S3detection use in problematic subgroups and B-type natriureticpeptide“gray zone”：secondary results from the Heart failure andAudicor technology forＲapid Diagnosis and Initial TreatmentMultinational Investigation．Am J Emerg Med，2011，29：924-931．［4］McMurray JJ，Adamopoulos S，Anker SD，et al．ESC Guidelines for the diagnosis and treatment of acute and chronic heart failure2012：The Task Force for the Diagnosis and Treatment of Acuteand Chronic Heart Failure2012of the European Society ofCardiology．Developed in collaboration with the Heart FailureAssociation（HFA）of the ESC．Eur Heart J，2012，33：1787-1847．［5］Kelder JC，Cowie MＲ，McDonagh TA，et al．Quantifying the added value of BNP in suspected heart failure in general practice：an individual patient data meta-analysis．Heart，2011，97：959-963．（收稿日期：2015-05-05）·医学统计学知识·非劣效性检验的统计学分析李雪迎在临床研究中，经常碰到要验证新的治疗方法与已有的标准治疗方法具有相近的治疗效果。

COMPARZ研究再解读：非劣效研究中的几个统计学问题

COMPARZ研究再解读：非劣效研究中的几个统计学问题在晚期肾癌治疗领域，靶向药物已成为一线的主要治疗选择，作为指南推荐的两种一线治疗药物，培唑帕尼和舒尼替尼的疗效和安全性是否存在差异？大型随机对照研究——COMPARZ研究，采用非劣效设计，头对头比较了两类药物的疗效和安全性，给临床治疗提供了参考依据。

因此，对COMPARZ研究结果的解读，也直接影响到临床对两类药物的疗效和安全性的评估。

非劣效研究设计知多少？非劣效研究的设计在于证明干预组不劣于对照组，即为证实新干预措施劣于对照组的程度，不超过预先设定的基于主要研究终点的一个较小量，这个量被称为非劣效性界值（non-inferiority margin）或称为Δ。

Δ是非劣效研究设计成败的关键，如果Δ过大，超过临床普遍接受的范围，即使研究结果为阳性，也很难被广泛接受；如果Δ过小，则所需样本量非常大，研究可能无法进行。

因此，Δ的选择需经过临床专家和统计学家共同讨论确定。

以COMPARZ研究为例，由于标准治疗组舒尼替尼在干扰素对照的临床研究中，主要研究终点PFS的HR为0.42，经过临床专家和统计学专家的共同讨论，最终将COMPARZ的非劣效界值确定为0.25，一个理由是，综合考虑样本量对临床研究的可行性的影响，以及临床认可的中位PFS缩短时间2个月是极限接受水平。

另外一个理由是，通过两步法确保试验组疗效有足够把握优于安慰剂或干扰素治疗，1.25的界值足够保证证明试验组是相对安慰剂、干扰素治疗优效的药物。

在非劣效研究中，要求存在一个已被证实有效的或已广泛使用的标准治疗。

人群入组要求和主要研究终点方面，应与证实标准治疗疗效的关键III期临床保持一致，必须避免任何可能影响干预组和标准治疗组疗效差异的行为，得出错误的非劣效结论。

如COMPARZ研究中，标准治疗组舒尼替尼一线治疗中显著延长晚期肾透明细胞癌患者的无进展生存期（PFS），则新药培唑帕尼，在研究设计中必须入组未接受治疗的晚期肾透明细胞癌患者，主要研究终点设为PFS。

非劣效临床试验的统计学考虑

非劣效临床试验的应用范围
非劣效临床试验的目的是通过与阳性对照的比较
评价试验药物的有效性和安全性。良好设计的非劣效试验获得的临床研究数据可以推断出：１拒绝试验（）药物的疗效劣于阳性对照药物疗效的假设，即试验药物的疗效非劣于阳性对照；（）或２尚不能拒绝试验药物的疗效劣于阳性对照药物的疗效。非劣效的结论有两层含义：验药的疗效优于安试慰剂（间接推论试验药物的有效性）试验药的疗效若；
计２１０２年４月第２９卷第２期
・
ＣＴＣＳ专家共识・
・ ‘ ◆ ” ◆ …・ ◆ ・ ◆ ◆ ◆ ◆ ’◆ ◆ ◆ ◆ ’・ ◆ ◆ ・ …◆ ・・ ◆ …・ ◆ …・・ ” ・ ◆ ・・ ◆ ¨
定困难。基于此，临床试验中提出了采用阳性对照的非劣效（ｏ — ｆｒｒｙＮＩ试验设计，类设计中阳ｎｎｉｅｏｔ，）ｎｉｉ此性对照的选择，劣效界值的确定，本量的估计，非样统计推断方法等方面均涉及到统计学问题。
，
—
ｉ
・
◆
非劣效临床试验的统计学考虑
ＣＴ工作小组夏结来ＣＳ执笔
鉴于非劣效临床试验在国内开展地比较广泛，但在研究设计和评价方面尚未形成相对统一的认识，为此中国临床试验生物统计学工作小组（ＣＳ，充ＣＴ）经分讨论，２１于０１年１０月３日于南京汤山召开工作会０

非劣效临床试验的统计学考虑_CCTS工作小组

鉴于非劣效临床试验在国内开展地比较广泛，但，在研究设计和评价方面尚未形成相对统一的认识为此中国临床试验生物统计学工作小组（ CCTS），经充分讨论，于 2011 年 10 月 30 日于南京汤山召开工作会议，形成如下共识。非劣效临床试验的意义检定或评价试验药物（ T）的有效性一般采用优效性试验设计，多采用安慰剂（ P ）对照、空白对照、剂量组间对照或阳性药物对照（ C ），其中，安慰剂对照是最直接和高效的对照方式。但在某些临床实践中直接采用安慰剂对照存在伦理学风险，如已有治疗某适应症且可预知由于延误治疗可能导致受试者的有效药物，死亡、病情进展、残疾或不可逆的医学损伤发生，则不宜单纯采用安慰剂对照。剂量组间对照也存在类似的但通过问题。虽然采用阳性对照避免了伦理学风险，临床试验评价试验药物优于公认的阳性对照往往有一定困难。基于此，临床试验中提出了采用阳性对照的 inferiority， NI）试验设计，非劣效（ non此类设计中阳性对照的选择，非劣效界值的确定，样本量的估计，统计推断方法等方面均涉及到统计学问题。非劣效临床试验的应用范围非劣效临床试验设计要求阳性对照药物应具有较稳定的有效性，否则不能采用非劣效设计。非劣效试验一般用于有客观疗效指标的临床研究中（如抗菌药物的临床终点、心血管治疗中的主要不良心血管事件、 2 型糖尿病降糖治疗中肿瘤治疗中死亡或进展事件、的糖化血红蛋白等）。鉴于缓解症状和 / 或以主观疗效指标为主要评价终点的临床试验（如治疗抑郁、过、、）敏性鼻炎咽炎疼痛的药物等疗效评价受试验质
· 270·
中国卫生统计 2012 年 4 月第 29 卷第 2 期

非劣效临床试验的统计学考虑

非劣效临床试验的统计学考虑在医学研究和药物开发领域，临床试验是至关重要的环节，用于评估新疗法或新设备的有效性和安全性。

其中，非劣效临床试验旨在验证新疗法或新设备与现有标准疗法或设备的比较效果，本文将详细介绍非劣效临床试验中的统计学考虑。

非劣效临床试验是指通过比较新疗法或新设备与现有标准疗法或设备的疗效，来评估新疗法或新设备是否非劣于现有疗法或设备。

非劣效临床试验通常采用双盲、随机、对照的设计，以消除偏倚和增加试验的可靠性。

在非劣效临床试验中，统计学原理是试验设计和数据分析的基础。

通过运用随机化和对照原则，能够减少偏倚、提高试验的内部效度和外部效度，并最终得出可靠的结果。

在非劣效临床试验中，样本的选取是至关重要的。

通常，研究人员会根据研究目的、研究假设、研究人群和研究资源等因素来制定样本的选取原则。

在确定样本的选取原则后，研究人员需要选择适当的试验组和对照组。

试验组为接受新疗法或新设备的患者，对照组为接受现有标准疗法或设备的患者。

在选择试验组和对照组时，研究人员需要考虑匹配和随机化的原则，以减少偏倚对试验结果的影响。

研究人员还需要评估试验结果的置信区间。

置信区间是用于描述试验结果不确定性的指标，通常是指从样本统计量加减一定比例的抽样误差所得到的一个范围。

在非劣效临床试验中，置信区间的评估对于判断新疗法或新设备的非劣效性具有重要意义。

在非劣效临床试验中，常用的统计学方法包括但不限于以下几种：意向性分析：这是非劣效临床试验中最重要的统计学方法之一。

它按照患者的原始分组进行统计分析，从而能够充分利用所有收集到的数据。

随机化分组和盲法：这些技术有助于减少偏倚，提高试验的内部效度和外部效度。

参数估计和假设检验：这些技术用于描述和解释试验结果，以及推断新疗法或新设备是否非劣于现有疗法或设备。

结论与启示非劣效临床试验在评估新疗法或新设备的疗效方面具有重要意义。

通过运用统计学原理和方法对试验结果进行分析，研究人员可以得出可靠的结论，从而为临床医生和患者提供更多有效的治疗选择。

临床试验中样本量确定的统计学考虑_陈平雁

1 － β = probt t1 － α + 1）－ 2，－2，
槡
rn A δ2 （ r + 1 ） σ2 （ 8）
)
生存分析的样本量估计虽然有其特殊之处，但上述原理同样适用。以基于指数分布假设的生存分析数据为例，令病例入组时间（ accrual period ）为 AT，试验 up peri时间全长（ total time ）为 TT，随访时间（ followod）为 TTAT。假设第 i 组第 j 个病人生存时间 t ij 服从风险率（ hazard rate ）为 λ i 的指数分布，第 i 组的失访率服从风险率为 η i 的指数分布，入组时间 z ij 服从在 AT 处截断的指数分布，其概率密度函数为 g （ z） =
· 728·
Chinese Journal of Health Statistics， Aug． 2015 ， Vol． 32 ， No． 4
临床试验的样本量通常依据对主要指标做出相应 III 期临床试验中主要指的假定后进行估计的。在 II、标一般是有效性评价指标，上市后的 IV 期临床试验主要指标可以是有效性评价指标，也可以是安全性评价或兼而有之。如果样本量估计应同时依据主要指标，有效性指标和主要安全性指标，在设计时应针对有效性和安全性分别提出统计假设，逐一计算样本量，最终样本量取其中最大者。主要指标应在研究方案中明确定义，通常需根据专业知识确定，应是专业领域具有共识的或认可程度较高的指标，一般源于某一标准或指南，或源于专业领域公开发表的权威论著或专家共识等。主要指标不宜太多，一般只有一个。当主要指标有多个时，样本量估计要考虑假设检验的多重性问题。在定义主要指标过程中，不仅要说明指标的含义，其测量时点、测量手段以及计算方法都应注明。指标的类型要明确，这一点非常重要，因为样本量估计和数据分析都需要依此进行。例如，某些指标可以有定量、定性（如有效和无效）、等级（如痊愈、显效、有效、无效）、生存时间等不同类型。对应于指标的不同类型，样本量估计方法亦不相同。所以，方案中对主要指标的定义要具体到指标类型上。 3. 效应量效应量是样本量估计所需的最重要参数之一，根据不同的指标类型，常见的效应量有：均数的组间差值 HＲ）、 OＲ，或标准化差值，率的组间差值或比值（ＲＲ、或相关系数、回归系数等。效应量参数的确定主要基于下述三种途径：（ 1 ）本项目的任何既往研究结果。即源于同一项目的预试验、探索性试验（ I 期或 II 期临床试验）、单中心试验的结果等作为确定参数的依据。由于此类研究结果属于内部证据，因此是首选途径。（ 2 ）基于他人的研究结果。当本项目的先前研究无法提供确切的参数数据，或尚未开展研究时，参数的确定可以以公开发表的研究结果作为依据。由于此类研究结果属外部证据，因此是次选途径。若公开发表最好是经 meta 分析所得合的同类研究报道不止一个，并效应量作为样本量估计的参数。（ 3 ）基于本试验的预期结果。如果本试验没有任何之前的研究结果可以借鉴（无论是自己的还是他人或以往的研究数据不能得到本试验设计所需的的），参数（如本试验采用交叉设计，而以往研究数据均来），自两平行组设计的研究可以用预期的形式进行预设，通常以广义效应量表达。若对试验药物或器械有充足信心，则预期效应量较大（如设为 0. 8 ），此时所需样本量较小。若对试验药物或器械信心不足，则预期效应量较小（如设为 0. 2 ），此时所需样本量较大。若对试验药物或器械的信心尚可，则预期效应量为中等

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 夏结来：第四军医大学卫生统计学教研室（ 710032 ）， Email： xiajielai @ fmmu． edu． cn
檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾殧
非劣效临床试验的统计学考虑
CCTS 工作小组
夏结来执笔Fra bibliotek测量方法、受试人群的影响较大，难以确定在本次量、试验样本中阳性对照是否仍然保持原有的效应，此类药物的临床试验不宜采用非劣效设计。在下列条件下，应不采用非劣效临床试验设计： 1 ）药物疗效过小导致非劣效试验设计样本量超出可行范围； 2 ）药物疗效的研究间差异过大导致阳性对照药不具备稳定的有效性； 3 ）没有历史数据支持非劣效界值的确定； 4 ）医疗实践的变化使得历史研究中观测到的阳性对照药物疗效不再适用。非劣效临床试验的目的非劣效临床试验的目的是通过与阳性对照的比较评价试验药物的有效性和安全性。良好设计的非劣效试验获得的临床研究数据可以推断出：（ 1 ）拒绝试验药物的疗效劣于阳性对照药物疗效的假设，即试验药物的疗效非劣于阳性对照；或（ 2 ）尚不能拒绝试验药物的疗效劣于阳性对照药物的疗效。非劣效的结论有两层含义：试验药的疗效优于安慰剂（间接推论试验药物的有效性）；试验药的疗效若是比阳性对照药物的疗效差，其差值也是在临床可接。受的范围内多数成功的非劣效临床试验能够提供试验药物有效性的证据，但是能在非劣效试验中确证试验药物与阳性对照药物疗效“相等 ” 或“相似 ” 却并不常见。只有在试验药物疗效的估计值优于阳性对照药物并且 C － T 的 95% CI 上限接近显示优效的情况下，才能推断试验药物与阳性对照药物疗效的相似性。非劣效临床试验的应用条件采用阳性对照的非劣效临床试验要保证试验的检定灵敏度（ assay sensitivity），试验设计必须考虑以下三个方面：
— —中国临床试验生物统计学组（ China Clinical Trial Statistics Work委员会特成立了专题学术讨论工作小组 — ing Group，简称 CCTS）。本刊从本期起连续刊登的临床试验统计学专家共识（ CCTS 专家共识）是 CCTS 成员当前对某问题形成的一致的学术见解，希望推动我国临床试验生物统计学的发展。
表1
指标类型高优指标低优指标检验水准
非劣效临床试验的检验假设
HR， OR）比值（ RR， H 0 ： ln（ C / T） ≥Δ， Δ ＞0 H 1 ： ln（ C / T）＜ Δ H 0 ： ln（ T / C ） ≥Δ， Δ ＞0 H 1 ： ln（ T / C ）＜ Δ α = 0. 025
Chinese Journal of Health Statistics， Apr 2012 ， Vol． 29 ， No． 2
· 271·
1．阳性对照有效性的既有证据（ historical evidence HESDE ）阳性对照效应来 of sensitivity to drug effects，源于文献报道的有良好试验设计的试验结果，这些历史试验已明确显示本次非劣效试验中采用的阳性对照及其类似的药物优于安慰剂，且随时间迁移，药效灵敏度基本维持稳定。根据这些试验结果可以可靠地估计出阳性对照的效应大小。阳性对照的效应大小是非劣既不能用效试验的关键设计参数（确定非劣效界值），历史研究中最好的疗效作为其效应大小的估计，也不能仅用 meta 分析的点估计作为效应大小的估计，效应大小估计时要充分考虑历史研究间的变异。对于缓解症状和 / 或以主观疗效指标为主要评价终点的药物，难以得到阳性对照有效性的既有证据。虽然阳性对照有缓解症状的效果，即使是设计良好的试验，往往也难以重现该药物在缓解特定症状方面优于安慰剂的结论。由于本次非劣效试验中难以确定阳性药物是否有效，基于此试验得出的非劣效结论就不能确证试验药物的有效性。这是缓解症状的药物不能采用非劣效试验的主要原因。 2．阳性对照药物效应的稳定性（ constancy assumption， CA）阳性对照效应的估计来源于历史研究，虽然考虑了历史研究间的变异，但仍有历史局限性，受到
· 270·
中国卫生统计 2012 年 4 月第 29 卷第 2 期
·CCTS 专家共识·
檾檾檾檾檾檾檾檾殧檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾殧［编者按］为推动我国临床试验生物统计学的理论和方法研究，指导和规范临床试验中生物统计学的进一步促进我国临床试验生物统计学的研究与国际接轨，中国卫生信息学会统计理论与方法专业正确应用，檾檾檾檾檾檾檾檾殧
很多因素诸如当时的受试人群、合并治疗方法、疗效指标的定义与判定、阳性对照的剂量、耐药性以及统计分析方法等的影响。因此，采用非劣效试验设计时要尽可能地确保本次临床试验在以上提及的诸多因素方面与历史研究一致。然而与历史研究的可比性只有等到试验结束后才能得到充分评价，如果证实了本次试验与历史试验间存有明显异质性，则应在揭盲前对阳性对照效应的估、计值进行适当保守的调整。如果随着年代的迁移，所治疗的疾病的定义、诊断标准及其治疗方法已经发生变化，则不能采用非劣效试验设计。另外，疗效的一致性与效应大小的度量方法有关。以事件发生率为例，率比 RR 或风险比 HR 较率差相对稳定，尤其是当发生率随年代的迁移降低时，最好用率比或风险比来估计效应大小。 3 ．良好的试验质量（ good quality study ， GQS ）试验质量是非劣效临床试验具有鉴定灵敏度的基础。各种临床试验质量上的缺陷，包括违背方案入组、依从性差、合并影响疗效评价的药物、测量偏差、分组错误、受试者脱落率高等都有可能导致试验组与对照组效应差异的减小。在优效性试验中，这些试验质量上的缺陷不利于优效性结论的成立，但在非劣效试验中却有利于非劣效结论的成立，并，且试验质量越差越易于得出错误的非劣效结论。当然这种质量低劣的试验是不具有检定灵敏度的。
差值（率差，均数差） H 0 ： C － T≥Δ， Δ ＞0 H1 ： C － T ＜ Δ H 0 ： T － C ≥Δ， Δ ＞0 H1 ： T － C ＜ Δ
2. 非劣效界值的确定一般根据阳性非劣效界值的确定是设计的关键，对照药物与安慰剂相比较的效应的既有证据来确定，采用 M eta 分析给出其可信区间估计。如果历史试验可信区间的构建可采用固定效应模型，间同质性较好，否则采用随机效应模型以考虑试验间的变异对阳性对照效应估计的影响。一般构建双侧 95% CI。对于高优指标，构建（ C － P ）区间估计后，取区间记为 M （如此可以认下限作为阳性对照的疗效估计，为本次非劣效试验中的阳性对照的疗效有 97. 5 % 以上的可能大于 M ）。在非劣效试验设计中，可接受最大非劣效界值 M 1 的确定要考虑既有证据的稳定性。如果存在差异，需要在确定 M 1 时根据差异进行调整。若取 M 1 ＜ M ，令 Δ = M1 ，如果拒绝 H 0 ，则可间接推论出试验药疗效优于安慰剂，即 C － T ＜ ΔT － P ＞ C － P － Δ 0 （对于率比或风险比，相当于将率做对数推论过程是一样的）。变换后做差值运算， 0 ＜ f ＜ 1，若取 M 2 = （ 1 － f ） M 1 ，令 Δ = M2 ，如果拒绝 H0 ，则可推论出试验药非劣效于阳性对照，且至少保持了阳性对照疗效 M 的 f 倍，譬如取 f = 0. 5 ，则至少 50% ，保持了阳性对照疗效的即 C － T ＜ ΔT － P ＞ C － P －（ 1 － f ） M 1 T － P f （ C － P）对于低优指标，构建（ P － C ）区间估计后，仍取区间下限作为阳性对照的疗效估计，记为 M 。若取 M 1 ＜ M ，令 Δ = M1 ，如果拒绝 H 0 ，则可间接
鉴于非劣效临床试验在国内开展地比较广泛，但，在研究设计和评价方面尚未形成相对统一的认识为此中国临床试验生物统计学工作小组（ CCTS），经充分讨论，于 2011 年 10 月 30 日于南京汤山召开工作会议，形成如下共识。非劣效临床试验的意义检定或评价试验药物（ T）的有效性一般采用优效性试验设计，多采用安慰剂（ P ）对照、空白对照、剂量组间对照或阳性药物对照（ C ），其中，安慰剂对照是最直接和高效的对照方式。但在某些临床实践中直接采用安慰剂对照存在伦理学风险，如已有治疗某适应症且可预知由于延误治疗可能导致受试者的有效药物，死亡、病情进展、残疾或不可逆的医学损伤发生，则不宜单纯采用安慰剂对照。剂量组间对照也存在类似的但通过问题。虽然采用阳性对照避免了伦理学风险，临床试验评价试验药物优于公认的阳性对照往往有一定困难。基于此，临床试验中提出了采用阳性对照的 inferiority， NI）试验设计，非劣效（ non此类设计中阳性对照的选择，非劣效界值的确定，样本量的估计，统计推断方法等方面均涉及到统计学问题。非劣效临床试验的应用范围非劣效临床试验设计要求阳性对照药物应具有较稳定的有效性，否则不能采用非劣效设计。非劣效试验一般用于有客观疗效指标的临床研究中（如抗菌药物的临床终点、心血管治疗中的主要不良心血管事件、 2 型糖尿病降糖治疗中肿瘤治疗中死亡或进展事件、的糖化血红蛋白等）。鉴于缓解症状和 / 或以主观疗效指标为主要评价终点的临床试验（如治疗抑郁、过、、）敏性鼻炎咽炎疼痛的药物等疗效评价受试验质