非劣效临床试验的统计学考虑_CCTS工作小组
Bootstrap法与H-L法中位数差值区间检验在非劣效试验中的模拟比较研究

Bootstrap 法与H-L 法中位数差值区间检验在非劣效试验中的模拟比较研究**基金项目:四川养老与老年健康协同创新中心项目(YLZBZ1818);成都医学院教育教学改革研究项目(JG201944)△通信作者:陈卫中,E-mail : wejone@ 126. com成都医学院公共卫生学院(610500)毛昂曾子倩魏敏陈晓芳陈卫中△【提 要】目的 比较Bootstrap 法和Hodges-Lehmann 法(H-L 法)在中位数差值非劣效性检验中的特点,为相关研 究中统计学方法的选择提供依据。
方法以某临床试验中试验组与对照组咽痛消失时间的比较为基础,通过计算机模拟 生成单组样本量分别为20、30、50、100、200各500个两独立样本,分别服从参数为90h(试验组)、100 h(对照组)的Poisson 分布。
针对每个样本采用基于正态近似和百分位数的Bootstrap 法、H-L 法求得中位数差值的置信区间,并通过置信区间 下限与非劣性界值进行比较,得岀三种方法的检验效能。
结果 三种方法均随着样本量增加,检验效能增加。
在样本量为20时,H-L 法与正态近似法检验效能相当(25% vs. 24% ),且都高于百分位数法(19% )。
在样本量为30,50,100时,H-L 法检 验效能高于正态近似法与百分位数法,且正态近似法高于百分位数法。
在样本量为200时,三种方法的检验效能相当,均在 95%以上。
结论 整体来看,H-L 法获得的区间最窄且最稳定,检验效能最高,尤其在样本量不大时建议选择H-L 法。
【关键词】非参数检验非劣效性试验中位数差值的置信区间检验Bootstrap Hodges-Lehmann 【中图分类号】R195.1 【文献标识码】A DOI 10. 3969/j.issn. 1002 -3674. 2020.06.012非劣效性试验(non-inferiority trials )被广泛应用 于药物临床试验研究。
对临床试验统计学假设检验中非劣效_等效和优效性设计的认识

药政管理对临床试验统计学假设检验中非劣效、等效和优效性设计的认识Considerations on the statistical hypothesis of noninferiority,equi valence and superiority design i n clinical tri al黄钦,赵明(国家食品药品监督管理局药品审评中心,北京100038)HUANG Q i n,Z HAO M i n g(C enter for Drug Evaluation,State Food and D rug Adm inistration,Beijing 100038,China)收稿日期:2006-09-12修回日期:2006-12-14作者简介:黄钦(1969-),男,博士,主管药师,主要从事药品审评工作通讯作者:黄钦Te:l(010)-68585566E-ma il:huangq@ 摘要:在对国内药物注册临床试验报告的审评中,常遇到以传统显著性检验代替非劣效、等效和优效性检验的错误,就它们的区别及适用范围,本文对判断界值的确定、样本含量、推断结论及审评中的主要关注点进行了阐释。
关键词:非劣效检验;等效性检验;优效性检验;显著性检验中图分类号:R954文献标识码:C文章编号:1001-6821(2007)01-0063-05药品临床试验设计要求随机、盲法和对照药物比较,以判断和区别其实际的疗效。
我国药品研发,以仿制国外已上市药品为主;基于临床认识和伦理学因素,临床研究也多选择针对目标适应症的已有治疗药物为对照,即所谓的阳性对照药。
目前,已公认的传统假设检验(又称显著性检验)在临床试验中用于判断药物的疗效是不合理的,它不能准确区分2药疗效差异的方向性和体现差异大小所揭示的临床实际意义。
因此,国际上根据研究目的不同,普遍用非劣效、等效或优效性假设检验。
1显著性检验无效假设H0:A药疗效-B药疗效=0备择假设H1:A药疗效X B药疗效结论:如P>0.05,按A=0.05的检验水准,不能拒绝H0假设;如P[0.05,则接受H1假设。
CCTS非劣效临床试验的统计学考虑-中国卫生统计,2012,29(2):270-274

Chinese Journal of Health Statistics, Apr 2012 , Vol. 29 , No. 2
· 271·
1. 阳性对照有效性的既有证据( historical evidence HESDE ) 阳性对照效应来 of sensitivity to drug effects, 源于文献报道的有良好试验设计的试验结果 , 这些历 史试验已明确显示本次非劣效试验中采用的阳性对照 及其类似的药物优于安慰剂, 且随时间迁移, 药效灵敏 度基本维持稳定。根据这些试验结果可以可靠地估计 出阳性对照的效应大小。阳性对照的效应大小是非劣 既不能用 效试验的关键设计参数( 确定非劣效界值 ) , 历史研究中最好的疗效作为其效应大小的估计 , 也不 能仅用 meta 分析的点估计作为效应大小的估计 , 效应 大小估计时要充分考虑历史研究间的变异 。 对于缓解症状和 / 或以主观疗效指标为主要评价 终点的药物, 难以得到阳性对照有效性的既有证据。 虽然阳性对照有缓解症状的效果, 即使是设计良好的 试验, 往往也难以重现该药物在缓解特定症状方面优 于安慰剂的结论。由于本次非劣效试验中难以确定阳 性药物是否有效, 基于此试验得出的非劣效结论就不 能确证试验药物的有效性。这是缓解症状的药物不能 采用非劣效试验的主要原因。 2. 阳性对照药物效应的稳定性( constancy assumption, CA) 阳性对照效应的估计来源于历史研究, 虽 然考虑了历史研究间的变异, 但仍有历史局限性, 受到
鉴于非劣效临床试验在国内开展地比较广泛 , 但 , 在研究设计和评价方面尚未形成相对统一的认识 为 此中国临床试验生物统计学工作小组 ( CCTS) , 经充分 讨论, 于 2011 年 10 月 30 日于南京汤山召开工作会 议, 形成如下共识。 非劣效临床试验的意义 检定或评价试验药物( T) 的有效性一般采用优效 性试验设计, 多采用安慰剂 ( P ) 对照、 空白对照、 剂量 组间对照或阳性药物对照( C ) , 其中, 安慰剂对照是最 直接和高效的对照方式。但在某些临床实践中直接采 用安慰剂对照存在伦理学风险, 如已有治疗某适应症 且可预知由于延误治疗可能导致受试者 的有效药物, 死亡、 病情进展、 残疾或不可逆的医学损伤发生, 则不 宜单纯采用安慰剂对照。剂量组间对照也存在类似的 但通过 问题。虽然采用阳性对照避免了伦理学风险, 临床试验评价试验药物优于公认的阳性对照往往有一 定困难。基于此, 临床试验中提出了采用阳性对照的 inferiority, NI) 试验设计, 非劣效( non此类设计中阳性 对照的选择, 非劣效界值的确定, 样本量的估计, 统计 推断方法等方面均涉及到统计学问题 。 非劣效临床试验的应用范围 非劣效临床试验设计要求阳性对照药物应具有较 稳定的有效性, 否则不能采用非劣效设计。 非劣效试 验一般用于有客观疗效指标的临床研究中 ( 如抗菌药 物的临床终点、 心血管治疗中的主要不良心血管事件 、 2 型糖尿病降糖治疗中 肿瘤治疗中死亡或进展事件、 的糖化血红蛋白等 ) 。 鉴于缓解症状和 / 或以主观疗 效指标为主要评价终点的临床试验 ( 如治疗抑郁、 过 、 、 ) 敏性鼻炎 咽炎 疼痛的 药 物 等 疗 效 评 价 受 试 验 质
临床非劣效性与等效性评价的统计学方法

临床非劣效性与等效性评价的统计学方法以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准,它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。
然而,如果有现成的疗效肯定的药物,仍用安慰剂对照做临床试验,会面临伦理上的困难。
随着愈来愈多可供应用的有效药物的出现,疗效有突破的新药愈来愈少,因而药物临床研究的目的发生了转变。
在阳性对照试验中,更多的情形是探求新药与标准的有效药物相比其疗效是否不差或疗效相等(严格地说,疗效相等应该是既不比标准药差,也不比标准药好),而并不一定要知道新药是否优于标准药,由此而提出了非劣效性/等效性试验(noninfer_iority/equivalencetrials)[1]。
非劣效性/等效性试验与通常意义下的优效性试验(superioritytrials)在设计和统计分析上是有区别的。
近年来,尽管对设计和分析该类试验已给予强调,但遗憾的是,许多非劣效性/等效性临床试验的评价缺少针对性,仍仿照安慰剂对照试验的方式进行,因而导致了非劣效性/等效性试验的样本含量估计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理,难以达到设想的目的[2]。
本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题,至于在设计时还必须考虑的有关对照的选定等问题可参考文献[2]及ICH文件E10:“临床试验对照的选择”[3]。
1非劣效性/等效性界值从临床上讲,一种新药的药效不比标准对照药差,到底临床上可接受的最大允许的范围是多少呢?或者说,新药比对照药最低到多大程度才能算“非劣效(noninferiority)”呢?类似地,新药和对照药的疗效相比,最低不能低于多少以及最高不能超过多少才可认为是“等效(eq uivalence)”呢?这就涉及到临床非劣效性/等效性界值(nonferiority/equivalencemargin)的问题。
为叙述方便,我们统一用δ表示界值,并以-δ表示劣侧界值,以δ表示优侧界值。
非劣效性检验的统计学分析_李雪迎

参考文献[1]中华医学会心血管病学分会,中华心血管病杂志编辑委员会.中国心力衰竭诊断和治疗指南2014.中华心血管病杂志,2014,42:98-122.[2]Alahdab MT,Mansour IN,Napan S,et al.Six minute walk test predicts long-term all-cause mortality and heart failurerehospitalization in African-American patients hospitalized withacute decompensated heart failure.J Card Fail,2009,15:130-135.[3]Maisel AS,Peacock WF,Shah KS,et al.Acoustic cardiography S3detection use in problematic subgroups and B-type natriureticpeptide“gray zone”:secondary results from the Heart failure andAudicor technology forRapid Diagnosis and Initial TreatmentMultinational Investigation.Am J Emerg Med,2011,29:924-931.[4]McMurray JJ,Adamopoulos S,Anker SD,et al.ESC Guidelines for the diagnosis and treatment of acute and chronic heart failure2012:The Task Force for the Diagnosis and Treatment of Acuteand Chronic Heart Failure2012of the European Society ofCardiology.Developed in collaboration with the Heart FailureAssociation(HFA)of the ESC.Eur Heart J,2012,33:1787-1847.[5]Kelder JC,Cowie MR,McDonagh TA,et al.Quantifying the added value of BNP in suspected heart failure in general practice:an individual patient data meta-analysis.Heart,2011,97:959-963.(收稿日期:2015-05-05)·医学统计学知识·非劣效性检验的统计学分析李雪迎在临床研究中,经常碰到要验证新的治疗方法与已有的标准治疗方法具有相近的治疗效果。
COMPARZ研究再解读:非劣效研究中的几个统计学问题

COMPARZ研究再解读:非劣效研究中的几个统计学问题在晚期肾癌治疗领域,靶向药物已成为一线的主要治疗选择,作为指南推荐的两种一线治疗药物,培唑帕尼和舒尼替尼的疗效和安全性是否存在差异?大型随机对照研究——COMPARZ研究,采用非劣效设计,头对头比较了两类药物的疗效和安全性,给临床治疗提供了参考依据。
因此,对COMPARZ研究结果的解读,也直接影响到临床对两类药物的疗效和安全性的评估。
非劣效研究设计知多少?非劣效研究的设计在于证明干预组不劣于对照组,即为证实新干预措施劣于对照组的程度,不超过预先设定的基于主要研究终点的一个较小量,这个量被称为非劣效性界值(non-inferiority margin)或称为Δ。
Δ是非劣效研究设计成败的关键,如果Δ过大,超过临床普遍接受的范围,即使研究结果为阳性,也很难被广泛接受;如果Δ过小,则所需样本量非常大,研究可能无法进行。
因此,Δ的选择需经过临床专家和统计学家共同讨论确定。
以COMPARZ研究为例,由于标准治疗组舒尼替尼在干扰素对照的临床研究中,主要研究终点PFS的HR为0.42,经过临床专家和统计学专家的共同讨论,最终将COMPARZ的非劣效界值确定为0.25,一个理由是,综合考虑样本量对临床研究的可行性的影响,以及临床认可的中位PFS缩短时间2个月是极限接受水平。
另外一个理由是,通过两步法确保试验组疗效有足够把握优于安慰剂或干扰素治疗,1.25的界值足够保证证明试验组是相对安慰剂、干扰素治疗优效的药物。
在非劣效研究中,要求存在一个已被证实有效的或已广泛使用的标准治疗。
人群入组要求和主要研究终点方面,应与证实标准治疗疗效的关键III期临床保持一致,必须避免任何可能影响干预组和标准治疗组疗效差异的行为,得出错误的非劣效结论。
如COMPARZ研究中,标准治疗组舒尼替尼一线治疗中显著延长晚期肾透明细胞癌患者的无进展生存期(PFS),则新药培唑帕尼,在研究设计中必须入组未接受治疗的晚期肾透明细胞癌患者,主要研究终点设为PFS。
非劣效临床试验的统计学考虑
非劣 效 临床试验 的 目的是 通过 与 阳性 对 照的 比较
评 价试验 药物 的有效 性 和安全 性 。 良好设 计 的非 劣效 试 验获 得 的临 床 研 究 数据 可 以推 断 出 : 1 拒 绝 试 验 () 药 物 的疗 效劣 于 阳性 对 照药 物 疗 效 的假 设 , 即试 验 药 物 的疗效 非 劣 于 阳性 对 照 ; ( ) 或 2 尚不 能 拒 绝 试 验 药 物 的疗 效劣 于 阳性 对 照药物 的疗效 。 非 劣效 的结论 有 两层 含 义 : 验 药 的疗 效 优 于安 试 慰剂( 间接推 论试 验药 物 的有效 性 ) 试验 药 的 疗效 若 ;
计 2 1 0 2年 4月第 2 9卷第 2期
・
C T C S专 家 共识 ・
・ ‘ ◆ ” ◆ …・ ◆ ・ ◆ ◆ ◆ ◆ ’◆ ◆ ◆ ◆ ’・ ◆ ◆ ・ …◆ ・ ・ ◆ …・ ◆ …・ ・ ” ・ ◆ ・ ・ ◆ ¨
定 困难 。基 于此 , 临床 试 验 中 提 出 了采 用 阳性 对 照 的 非 劣效 ( o — fr ry NI 试 验 设 计 , 类 设 计 中 阳 n ni e o t , ) n ii 此 性对 照 的选择 , 劣效 界 值 的 确定 , 本 量 的估 计 , 非 样 统 计 推断 方法 等方 面均涉 及 到统计学 问题 。
,
—
i
・
◆
非 劣 效 临 床 试 验 的 统 计 学 考 虑
C T 工作小组 夏 结 来 CS 执 笔
鉴 于非劣 效 临床试 验 在 国 内开展 地 比较 广 泛 , 但 在研 究设 计和评 价 方 面 尚未 形 成相 对 统 一 的认 识 , 为 此 中 国临床试 验生 物统 计 学 工 作 小组 ( C S , 充 C T )经 分讨 论 , 2 1 于 0 1年 1 0月 3 日于南 京汤 山 召开工 作 会 0
非劣效临床试验的统计学考虑_CCTS工作小组
鉴于非劣效临床试验在国内开展地比较广泛 , 但 , 在研究设计和评价方面尚未形成相对统一的认识 为 此中国临床试验生物统计学工作小组 ( CCTS) , 经充分 讨论, 于 2011 年 10 月 30 日于南京汤山召开工作会 议, 形成如下共识。 非劣效临床试验的意义 检定或评价试验药物( T) 的有效性一般采用优效 性试验设计, 多采用安慰剂 ( P ) 对照、 空白对照、 剂量 组间对照或阳性药物对照( C ) , 其中, 安慰剂对照是最 直接和高效的对照方式。但在某些临床实践中直接采 用安慰剂对照存在伦理学风险, 如已有治疗某适应症 且可预知由于延误治疗可能导致受试者 的有效药物, 死亡、 病情进展、 残疾或不可逆的医学损伤发生, 则不 宜单纯采用安慰剂对照。剂量组间对照也存在类似的 但通过 问题。虽然采用阳性对照避免了伦理学风险, 临床试验评价试验药物优于公认的阳性对照往往有一 定困难。基于此, 临床试验中提出了采用阳性对照的 inferiority, NI) 试验设计, 非劣效( non此类设计中阳性 对照的选择, 非劣效界值的确定, 样本量的估计, 统计 推断方法等方面均涉及到统计学问题 。 非劣效临床试验的应用范围 非劣效临床试验设计要求阳性对照药物应具有较 稳定的有效性, 否则不能采用非劣效设计。 非劣效试 验一般用于有客观疗效指标的临床研究中 ( 如抗菌药 物的临床终点、 心血管治疗中的主要不良心血管事件 、 2 型糖尿病降糖治疗中 肿瘤治疗中死亡或进展事件、 的糖化血红蛋白等 ) 。 鉴于缓解症状和 / 或以主观疗 效指标为主要评价终点的临床试验 ( 如治疗抑郁、 过 、 、 ) 敏性鼻炎 咽炎 疼痛的 药 物 等 疗 效 评 价 受 试 验 质
· 270·
中国卫生统计 2012 年 4 月第 29 卷第 2 期
非劣效临床试验的统计学考虑
非劣效临床试验的统计学考虑在医学研究和药物开发领域,临床试验是至关重要的环节,用于评估新疗法或新设备的有效性和安全性。
其中,非劣效临床试验旨在验证新疗法或新设备与现有标准疗法或设备的比较效果,本文将详细介绍非劣效临床试验中的统计学考虑。
非劣效临床试验是指通过比较新疗法或新设备与现有标准疗法或设备的疗效,来评估新疗法或新设备是否非劣于现有疗法或设备。
非劣效临床试验通常采用双盲、随机、对照的设计,以消除偏倚和增加试验的可靠性。
在非劣效临床试验中,统计学原理是试验设计和数据分析的基础。
通过运用随机化和对照原则,能够减少偏倚、提高试验的内部效度和外部效度,并最终得出可靠的结果。
在非劣效临床试验中,样本的选取是至关重要的。
通常,研究人员会根据研究目的、研究假设、研究人群和研究资源等因素来制定样本的选取原则。
在确定样本的选取原则后,研究人员需要选择适当的试验组和对照组。
试验组为接受新疗法或新设备的患者,对照组为接受现有标准疗法或设备的患者。
在选择试验组和对照组时,研究人员需要考虑匹配和随机化的原则,以减少偏倚对试验结果的影响。
研究人员还需要评估试验结果的置信区间。
置信区间是用于描述试验结果不确定性的指标,通常是指从样本统计量加减一定比例的抽样误差所得到的一个范围。
在非劣效临床试验中,置信区间的评估对于判断新疗法或新设备的非劣效性具有重要意义。
在非劣效临床试验中,常用的统计学方法包括但不限于以下几种:意向性分析:这是非劣效临床试验中最重要的统计学方法之一。
它按照患者的原始分组进行统计分析,从而能够充分利用所有收集到的数据。
随机化分组和盲法:这些技术有助于减少偏倚,提高试验的内部效度和外部效度。
参数估计和假设检验:这些技术用于描述和解释试验结果,以及推断新疗法或新设备是否非劣于现有疗法或设备。
结论与启示非劣效临床试验在评估新疗法或新设备的疗效方面具有重要意义。
通过运用统计学原理和方法对试验结果进行分析,研究人员可以得出可靠的结论,从而为临床医生和患者提供更多有效的治疗选择。
临床试验中样本量确定的统计学考虑_陈平雁
1 - β = probt t1 - α + 1) - 2, -2,
槡
rn A δ2 ( r + 1 ) σ2 ( 8)
)
生存分析的样本量估计虽然有其特殊之处 , 但上 述原理同样适用。以基于指数分布假设的生存分析数 据为例, 令病例入组时间 ( accrual period ) 为 AT, 试验 up peri时间全长 ( total time ) 为 TT, 随访时间 ( followod) 为 TTAT。假设第 i 组第 j 个病人生存时间 t ij 服从 风险率 ( hazard rate ) 为 λ i 的指数分布, 第 i 组的失访 率服从风险率为 η i 的指数分布, 入组时间 z ij 服从在 AT 处截 断 的 指 数 分 布, 其概率 密 度 函 数 为 g ( z) =
· 728·
Chinese Journal of Health Statistics, Aug. 2015 , Vol. 32 , No. 4
临床试验的样本量通常依据对主要指标做出相应 III 期临床试验中主要指 的假定后进行估计的。在 II、 标一般是有效性评价指标, 上市后的 IV 期临床试验主 要指标可以是有效性评价指标, 也可以是安全性评价 或兼而有之。 如果样本量估计应同时依据主要 指标, 有效性指标和主要安全性指标, 在设计时应针对有效 性和安全性分别提出统计假设, 逐一计算样本量, 最终 样本量取其中最大者。主要指标应在研究方案中明确 定义, 通常需根据专业知识确定, 应是专业领域具有共 识的或认可程度较高的指标, 一般源于某一标准或指 南, 或源于专业领域公开发表的权威论著或专家共识 等。主要指标不宜太多, 一般只有一个。 当主要指标 有多个时, 样本量估计要考虑假设检验的多重性问题 。 在定义主要指标过程中, 不仅要说明指标的含义, 其测量时点、 测量手段以及计算方法都应注明。 指标 的类型要明确, 这一点非常重要, 因为样本量估计和数 据分析都需要依此进行。例如, 某些指标可以有定量、 定性( 如有效和无效 ) 、 等级 ( 如痊愈、 显效、 有效、 无 效) 、 生存时间等不同类型。 对应于指标的不同类型, 样本量估计方法亦不相同。 所以, 方案中对主要指标 的定义要具体到指标类型上。 3. 效应量 效应量是样本量估计所需的最重要参数之一 , 根 据不同的指标类型, 常见的效应量有: 均数的组间差值 HR ) 、 OR , 或标准化差值, 率的组间差值或比值( RR 、 或 相关系数、 回归系数等。 效应量参数的确定主要基于下述三种途径 : ( 1 ) 本项目的任何既往研究结果。即源于同一项 目的预试验、 探索性试验( I 期或 II 期临床试验) 、 单中 心试验的结果等作为确定参数的依据 。由于此类研究 结果属于内部证据, 因此是首选途径。 ( 2 ) 基于他人的研究结果。当本项目的先前研究 无法提供确切的参数数据, 或尚未开展研究时, 参数的 确定可以以公开发表的研究结果作为依据 。由于此类 研究结果属外部证据, 因此是次选途径。 若公开发表 最好是经 meta 分析所得合 的同类研究报道不止一个, 并效应量作为样本量估计的参数 。 ( 3 ) 基于本试验的预期结果。如果本试验没有任 何之前的研究结果可以借鉴 ( 无论是自己的还是他人 或以往的研究数据不能得到本试验设计所需的 的) , 参数( 如本试验采用交叉设计, 而以往研究数据均来 ) , 自两平行组设计的研究 可以用预期的形式进行预 设, 通常以广义效应量表达。 若对试验药物或器械有 充足信心, 则预期效应量较大( 如设为 0. 8 ) , 此时所需 样本量较小。若对试验药物或器械信心不足, 则预期 效应量较小 ( 如设为 0. 2 ) , 此时所需样本量较大。 若 对试验药物或器械的信心尚可, 则预期效应量为中等
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾殧
非劣效临床试验的统计学考虑
CCTS 工作小组
夏结来执笔Fra bibliotek测量方法、 受试人群的影响较大, 难以确定在本次 量、 试验样本中阳性对照是否仍然保持原有的效应 , 此类 药物的临床试验不宜采用非劣效设计。 在下列条件 下, 应不采用非劣效临床试验设计: 1 ) 药物疗效过小导致非劣效试验设计样本量超 出可行范围; 2 ) 药物疗效的研究间差异过大导致阳性对照药 不具备稳定的有效性; 3 ) 没有历史数据支持非劣效界值的确定 ; 4 ) 医疗实践的变化使得历史研究中观测到的阳 性对照药物疗效不再适用。 非劣效临床试验的目的 非劣效临床试验的目的是通过与阳性对照的比较 评价试验药物的有效性和安全性 。良好设计的非劣效 试验获得的临床研究数据可以推断出: ( 1 ) 拒绝试验 药物的疗效劣于阳性对照药物疗效的假设 , 即试验药 物的疗效非劣于阳性对照; 或 ( 2 ) 尚不能拒绝试验药 物的疗效劣于阳性对照药物的疗效 。 非劣效的结论有两层含义: 试验药的疗效优于安 慰剂( 间接推论试验药物的有效性 ) ; 试验药的疗效若 是比阳性对照药物的疗效差, 其差值也是在临床可接 。 受的范围内 多数成功的非劣效临床试验能够提供试验药物有 效性的证据, 但是能在非劣效试验中确证试验药物与 阳性对照药物疗效“相等 ” 或“相似 ” 却并不常见。 只 有在试验药物疗效的估计值优于阳性对照药物并且 C - T 的 95% CI 上限接近显示优效的情况下, 才能推断 试验药物与阳性对照药物疗效的相似性 。 非劣效临床试验的应用条件 采用阳性对照的非劣效临床试验要保证试验的检 定灵敏度( assay sensitivity) , 试验设计必须考虑以下三 个方面:
— —中国临床试验生物统计学组( China Clinical Trial Statistics Work委员会特成立了专题学术讨论工作小组 — ing Group, 简称 CCTS) 。本刊从本期起连续刊登的临床试验统计学专家共识 ( CCTS 专家共识) 是 CCTS 成员 当前对某问题形成的一致的学术见解 , 希望推动我国临床试验生物统计学的发展 。
表1
指标类型 高优指标 低优指标 检验水准
非劣效临床试验的检验假设
HR, OR) 比值( RR, H 0 : ln( C / T) ≥Δ, Δ >0 H 1 : ln( C / T) < Δ H 0 : ln( T / C ) ≥Δ, Δ >0 H 1 : ln( T / C ) < Δ α = 0. 025
Chinese Journal of Health Statistics, Apr 2012 , Vol. 29 , No. 2
· 271·
1. 阳性对照有效性的既有证据( historical evidence HESDE ) 阳性对照效应来 of sensitivity to drug effects, 源于文献报道的有良好试验设计的试验结果 , 这些历 史试验已明确显示本次非劣效试验中采用的阳性对照 及其类似的药物优于安慰剂, 且随时间迁移, 药效灵敏 度基本维持稳定。根据这些试验结果可以可靠地估计 出阳性对照的效应大小。阳性对照的效应大小是非劣 既不能用 效试验的关键设计参数( 确定非劣效界值 ) , 历史研究中最好的疗效作为其效应大小的估计 , 也不 能仅用 meta 分析的点估计作为效应大小的估计 , 效应 大小估计时要充分考虑历史研究间的变异 。 对于缓解症状和 / 或以主观疗效指标为主要评价 终点的药物, 难以得到阳性对照有效性的既有证据。 虽然阳性对照有缓解症状的效果, 即使是设计良好的 试验, 往往也难以重现该药物在缓解特定症状方面优 于安慰剂的结论。由于本次非劣效试验中难以确定阳 性药物是否有效, 基于此试验得出的非劣效结论就不 能确证试验药物的有效性。这是缓解症状的药物不能 采用非劣效试验的主要原因。 2. 阳性对照药物效应的稳定性( constancy assumption, CA) 阳性对照效应的估计来源于历史研究, 虽 然考虑了历史研究间的变异, 但仍有历史局限性, 受到
· 270·
中国卫生统计 2012 年 4 月第 29 卷第 2 期
·CCTS 专家共识·
檾檾檾檾檾檾檾檾殧 檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾檾殧 [ 编者按] 为推动我国临床试验生物统计学的理论和方法研究 , 指导和规范临床试验中生物统计学的 进一步促进我国临床试验生物统计学的研究与国际接轨 , 中国卫生信息学会统计理论与方法专业 正确应用, 檾檾檾檾檾檾檾檾殧
很多因素诸如当时的受试人群、 合并治疗方法、 疗效指 标的定义与判定、 阳性对照的剂量、 耐药性以及统计分 析方法等的影响。因此, 采用非劣效试验设计时要尽 可能地确保本次临床试验在以上提及的诸多因素方面 与历史研究一致。 然而与历史研究的可比性只有等到试验结束后才 能得到充分评价, 如果证实了本次试验与历史试验间 存有明显异质性, 则应在揭盲前对阳性对照效应的估 、 计值进行适当 保守的调整。如果随着年代的迁移, 所 治疗的疾病的定义、 诊断标准及其治疗方法已经发生 变化, 则不能采用非劣效试验设计。 另外, 疗效的一致性与效应大小的度量方法有关 。 以事件发生率为例, 率比 RR 或风险比 HR 较率差相 对稳定, 尤其是当发生率随年代的迁移降低时 , 最好用 率比或风险比来估计效应大小。 3 . 良好的试验质量 ( good quality study , GQS ) 试验质量是 非 劣 效 临 床 试 验 具 有 鉴 定 灵 敏 度 的 基 础 。 各种临床试验质量上 的 缺 陷 , 包括违背方案入 组、 依从 性 差 、 合 并 影 响 疗 效 评 价 的 药 物、 测量偏 差、 分组错误 、 受试者脱落率高等都有可能导致试 验组与对照组效应差异 的 减 小 。 在 优 效 性 试 验 中 , 这些试验质量上的缺陷不 利 于 优 效 性 结 论 的 成 立 , 但在非劣效试验中却有利 于 非 劣 效 结 论 的 成 立 , 并 , 且试验质量 越 差 越 易 于 得 出 错 误 的 非 劣 效 结 论 。 当然这种质量低劣的试验 是 不 具 有 检 定 灵 敏 度 的 。
差值( 率差, 均数差) H 0 : C - T≥Δ, Δ >0 H1 : C - T < Δ H 0 : T - C ≥Δ, Δ >0 H1 : T - C < Δ
2. 非劣效界值的确定 一般根据阳性 非劣效界值的确定是设计的关键, 对照药物与安慰剂相比较的效应的既有证据来确定 , 采用 M eta 分析给出其可信区间估计。 如果历史试验 可信区间的构建可采用固定效应模型 , 间同质性较好, 否则采用随机效应模型以考虑试验间的变异对阳性对 照效应估计的影响。一般构建双侧 95% CI。 对于高优指标, 构建 ( C - P ) 区间估计后, 取区间 记为 M ( 如此可以认 下限作为阳性对照的疗效估计, 为本次非劣效试验中的阳性对照的疗效有 97. 5 % 以 上的可能大于 M ) 。 在非劣效试验设计中, 可接受最大非劣效界值 M 1 的确定要考虑既有证据的稳定性。 如果存在差异, 需 要在确定 M 1 时根据差异进行调整。 若取 M 1 < M , 令 Δ = M1 , 如果拒绝 H 0 , 则可间接 推论出试验药疗效优于安慰剂, 即 C - T < ΔT - P > C - P - Δ 0 ( 对于率比或风险比, 相当于将率做对数 推论过程是一样的) 。 变换后做差值运算, 0 < f < 1, 若取 M 2 = ( 1 - f ) M 1 , 令 Δ = M2 , 如果拒 绝 H0 , 则可推论出试验药非劣效于阳性对照, 且至少 保持了阳性对照疗效 M 的 f 倍, 譬如取 f = 0. 5 , 则至少 50% , 保持了阳性对照疗效的 即 C - T < ΔT - P > C - P - ( 1 - f ) M 1 T - P f ( C - P) 对于低优指标, 构建 ( P - C ) 区间估计后, 仍取区 间下限作为阳性对照的疗效估计 , 记为 M 。 若取 M 1 < M , 令 Δ = M1 , 如果拒绝 H 0 , 则可间接
鉴于非劣效临床试验在国内开展地比较广泛 , 但 , 在研究设计和评价方面尚未形成相对统一的认识 为 此中国临床试验生物统计学工作小组 ( CCTS) , 经充分 讨论, 于 2011 年 10 月 30 日于南京汤山召开工作会 议, 形成如下共识。 非劣效临床试验的意义 检定或评价试验药物( T) 的有效性一般采用优效 性试验设计, 多采用安慰剂 ( P ) 对照、 空白对照、 剂量 组间对照或阳性药物对照( C ) , 其中, 安慰剂对照是最 直接和高效的对照方式。但在某些临床实践中直接采 用安慰剂对照存在伦理学风险, 如已有治疗某适应症 且可预知由于延误治疗可能导致受试者 的有效药物, 死亡、 病情进展、 残疾或不可逆的医学损伤发生, 则不 宜单纯采用安慰剂对照。剂量组间对照也存在类似的 但通过 问题。虽然采用阳性对照避免了伦理学风险, 临床试验评价试验药物优于公认的阳性对照往往有一 定困难。基于此, 临床试验中提出了采用阳性对照的 inferiority, NI) 试验设计, 非劣效( non此类设计中阳性 对照的选择, 非劣效界值的确定, 样本量的估计, 统计 推断方法等方面均涉及到统计学问题 。 非劣效临床试验的应用范围 非劣效临床试验设计要求阳性对照药物应具有较 稳定的有效性, 否则不能采用非劣效设计。 非劣效试 验一般用于有客观疗效指标的临床研究中 ( 如抗菌药 物的临床终点、 心血管治疗中的主要不良心血管事件 、 2 型糖尿病降糖治疗中 肿瘤治疗中死亡或进展事件、 的糖化血红蛋白等 ) 。 鉴于缓解症状和 / 或以主观疗 效指标为主要评价终点的临床试验 ( 如治疗抑郁、 过 、 、 ) 敏性鼻炎 咽炎 疼痛的 药 物 等 疗 效 评 价 受 试 验 质