非劣效性试验

临床非劣效性与等效性评价的统计学方法

以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准，它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。然而，如果有现成的疗效肯定的药物，仍用安慰剂对照做临床试验，会面临伦理上的困难。随着愈来愈多可供应用的有效药物的出现，疗效有突破的新药愈来愈少，因而药物临床研究的目的发生了转变。在阳性对照试验中，更多的情形是探求新药与标准的有效药物相比其疗效是否不差或疗效相等(严格地说，疗效相等应该是既不比标准药差，也不比标准药好)，而并不一定要知道新药是否优于标准药，由此而提出了非劣效性/等效性试验（noninfer_iority/equivalencetrials）。

非劣效性/等效性试验与通常意义下的优效性试验（superioritytrials）在设计和统计分析上是有区别的。近年来，尽管对设计和分析该类试验已给予强调，但遗憾的是，许多非劣效性/等效性临床试验的评价缺少针对性，仍仿照安慰剂对照试验的方式进行，因而导致了非劣效性/等效性试验的样本含量估计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理，难以达到设想的目的。

本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题，至于在设计时还必须考虑的有关对照的选定等问题可参考文献及ICH文件E10：“临床试验对照的选择”。

1非劣效性/等效性界值

从临床上讲，一种新药的药效不比标准对照药差，到底临床上可接受的最大允许的范围是多少呢？或者说，新药比对照药最低到多大程度才能算“非劣效（noninferiority）”呢？类似地，新药和对照药的疗效相比，最低不能低于多少以及最高不能超过多少才可认为是“等效（equivalence)”呢？这就涉及到临床非劣效性/等效性界值（nonferiority/equivalencemargin）的问题。为叙述方便，我们统一用δ表示界值，并以-δ表示劣侧界值，以δ表示优侧界值。显然，非劣效性试验仅用-δ一个界值，而等效性试验要用-δ和δ两个界值。δ是一个有临床意义的值，该值的选定至关重要。若δ选大了，将把药效达不到要求的药物判断为非劣效或等效而推向市场；若δ选小了，则可能会埋没一些本可推广使用的药物。这一数值不应大于安慰剂对照的优效性试验确认有效的效应差值△。一般来说，δ的决定应该由临床学家和统计学家商讨联合做出，而不是单独地依赖统计学家。注意，选定δ时一定要从临床药效角度，结合以往的试验结果，必要时进行成本效益分析等诸多方面反复论证。δ界值必须在试验的设计阶段决定并在试验方案中阐明，一旦确定，事后不得随意更改。除非发现新的δ界值比原先选定的δ界值更合理，在揭盲之前可作更正，并在修订方案中

陈述理由。一旦揭盲，不得更改。

根据既往的经验，对有些临床定量指标的等效界值，有学者提供了可供参考的建议标准，例如血压可取为0.67kPa（5mmHg），胆固醇可取为0.52mmol.L-1（20mg.dl-1），白细胞可取为0.5×109.L-1（500个/mm3）；当难以确定时，可酌取1/5～1/2个标准差或参比组均数的1/10～1/5。对两组率而言，有人建议δ最大不应超过对照组样本率的1/5。有作者指出，δ不能过小，否则，所需的样本含量可能会不切实际。

尽管δ值的选定并不容易，但若试验的目的就是为了确认非劣效性/等效性，人们也不得不面对这些困难并解决之。

药理试验设计与统计

例1：为了显示一种新药血管紧张素Ⅱ拮抗剂（AⅡantagonist）治疗轻中度原发性高血压的降压效果是否不差于标准药血管紧张素转换酶抑制剂（ACEinhibitor），请按照非劣效性试验的要求制定非劣效界值δ。

该试验以药物ACE作为阳性对照，试验的主要终点指标取仰卧舒张压（SDBP,单位为mmHg）。既往的许多ACE与安慰剂的对照试验显示，两组SDBP与基线相比平均舒张压下降值的差值至少达到10mmHg才能认可药物的疗效，即最小的药物效应差值△=10mmHg。基于临床和统计学的综合考虑，经讨论认为用

δ=3mmHg（约为△的30％）作为非劣效性试验的界值是合理的。

2判定非劣效性/等效性的假设检验方法

假设检验（hypothesestesting）是基于一定的检验假设进行推断的一类方法。我们平时所做的绝大多数检验假设为两组相等的零假设，其统计推断往往仅限于两者的差别有无统计学意义，若P>α，意味着统计上“不能拒绝零假设”，但并非说明零假设成立，更没有理由说两组相等，因为检验的效能（poweroftest）未知；如P≤α，虽然可“拒绝零假设”，但也只能推断两者在统计上有差别，而不能评价差别的大小。这难以满足临床实际中需要评价疗效差别的要求。为了能对非劣效性/等效性进行推断，需要建立有别于传统的检验假设。为方便叙述，统一用如下符号作为组别或参数：

T=试验治疗组，也泛指相应组效应的参数（均数或率）

S=标准治疗组，即阳性对照组，也泛指相应组效应的参数（均数或率）

δ=非劣效/等效界值。非劣效性试验用-δ，等效性试验用-δ和δ

2.1检验假设的构建和检验用统计量无效假设（nullhypotheses）和备选假设（alternativehypotheses）分别用H0和Ha表示。以α作为总的检验水准。表1列举了几种不同情形下的检验假设和检验统计量计算的通用公式。

表1不同试验类型的检验假设

本表所示的检验统计量假设数据来自大样本，数据分布正常。其中d为T组样本效应值减去S组样本效应

值的差值，即d=T-S，sd为d的标准误。z为检验统计量，服从标准正态分布。

2.2结论的推断

2.2.1非劣效性试验由于只进行一次单侧检验（one_sidedtest），若P≤α,则H0被拒绝，可推论T非劣效于S；若P>α，则还不能下非劣效的结论。这里的α含义是，当T比S疗效差，其效应差值实际上超过δ时，错误地下T非劣效于S结论的概率。

2.2.2等效性试验由于需要在两个方向上同时进行两次单侧检验（twoone_sidedtests），故亦需分别推断。若P1≤α/2和P2≤α/2同时成立（注意每次检验的水准只用总的检验水准α的一半），则两个无效假设均被拒绝，前者推论T不比S差，后者推论T不比S好，因此综合的推断是T和S具有等效性；若P1和P2中的任何一个大于α/2，则不可下等效的结论。这里的α含义是，当T与S的疗效差值实际超过δ（包括差-δ以下或好δ以上两种情况）时，错误地下T和S等效结论的概率。

2.2.3优效性试验有两种不同的情形。一种是严格意义上的，从统计学的角度考虑的优效性，这时所用的假设为通常的零假设，为单侧检验。目前临床试验中一般用此概念。如果能拒绝无效假设，可下统计学意义上优效的结论。当然这种优效性较弱，有时可看作是边缘优效性。

另一种是从临床意义上提出的优出一定量的优效性，姑且也用δ表示该量。此时若拒绝无效假设，可下临床优效性的结论。

3判定非劣效性/等效性的可信区间方法

可信区间方法亦可用于非劣效性/等效性的判定，该方法通过构建有关参数差别的可信区间（confidenceinterval,缩写为CI）作为评价的决策准则。CI方法在ICH的指导原则中曾予以推荐，指出：对非劣效性或等效性试验安全性与耐受性的评价，应用可信区间比用假设检验更佳。一些具体的方法，可参见文献。

假定总的可信度取100(1-α)％，以CL表示可信区间的下限，以CU表示可信区间的上限。

3.1非劣效性试验按单侧100(1-α)％可信度，计算出T-S可信区间的下限CL，若[CL,∞)完全在[-δ,∞)范围内，或者CL>-δ，可下非劣效性的结论。

3.2等效性试验按双侧100(1-α)％可信度，计算出T-S可信区间的下限CL和上限CU，若完全在[-δ,δ]范围内，或者-δ

3.3优效性试验按单侧100(1-α)％可信度，计算出T-S可信区间的下限CL。若完全超出(-∞,δ)范围，或者CL>δ，可下临床优效性的结论。

例2：继续上例。假使：δ=3mm Hg，两组合并标准差s=8mmHg，两组样本含量均为120，取单侧α=0.05，方案规定可用两步法（见后）。主要指标结果：SDBP与基线相比平均下降值，T=14mmHg，S=12mmHg。

经计算：d=14-12=2mmHg，sd=8(1/120＋1/120)1/2=1.033mmHg。

第一步：非劣效性评价

单侧假设检验：z=(2＋3)/1.033=4.84>1.645(z0.95)，P<0.05

单侧95％可信区间下限：CL=2-1.645×1.033=0.301>-3

两种方法均显示，在抗高血压效果方面新药AII拮抗剂与标准药ACE抑制剂相比具有非劣效性。

第二步：优效性评价

单侧假设检验：z=2/1.033=1.936>1.645，P<0.05

单侧95％可信区间下限：CL=0.301>0结果表明，新药AII拮抗剂比标准药ACE抑制剂的抗高血压效果具有统计学意义优效性。

ICHE9指导原则中的建议更保守些，若按α取0.025的标准判断，非劣效性评价的z=4.84>1.96(z0.975)，P<0.025，可下非劣效性结论。但是，因优效性评价的z=1.936<1.96，P>0.025，尚不能认为具有统计学优效性，更达不到临床意义上的优效性。

有一种情况值得注意，即求得的可信区间的下限大于-δ，但上限却比0小，管理当局比如美国的FDA可能仍然把试验药看作和标准药不等效，甚至比标准药还差，尽管非劣效性的标准已经达到了。这一额外增加的标准之严格，似乎并不是从统计学意义上考虑的。事实上，这对很高效地完成试验而出现了窄小的CI 可能是不公正的。

4非劣效性/等效性试验样本含量估计及检验效能

对服从正态分布的数据（定量指标）和服从二项分布的数据（率指标）分别介绍。

4.1定量指标

4.1.1非劣效性试验按照单侧的检验水准α，要求允许的二类误差概率不超过β，在T=S的条件下，非劣效性试验每组需要的样本含量为：

n=2[(Z1-α＋z1-β)(s/δ)]2

检验效能为：

1-β=Ф[δ(2s2/n)-1/2-z1-α]

式中s为两组的合并标准差。n为每组的样本含量。Ф代表标准正态分布下x左侧的概率Pr。

例3：上例继续。若按非劣效性设计试验，假定，α=0.05，β=0.10，将有关量：z0.95=1.645，z0.90=1.282，s= 8mmHg，δ=3mmHg代入公式则可求得每组的样本含量为：n=2[(1.645＋1.282)(8/3)]2=121.8≈122

4.1.2等效性试验按照双侧的检验水准α（等同于按单侧的α/2），要求允许的二类误差概率不超过β，在

T=S的条件下，等效性试验每组需要的样本含量为：

n=2[(Z1-α/2＋z1-β)(s/δ)]2

检验效能为：

1-β=2Ф[δ(2s2/n)-1/2-z1-α]-1

例4：上例继续。假定各参数不变，只是按等效性试验来进行设计,则每组需要样本含量：

n=2[(1.96＋1.282)(8/3)]2=149.5≈150

可见，等效性试验设计的每组的样本含量要比非劣效性试验增加近30例。

4.1.3优效性试验

①优于阳性标准对照组的试验：按照单侧的检验水准α，要求允许的二类误差概率不超过β，在T优于S

的效应差量为ε，即T-S=ε的条件下，优效性试验每组需要的样本含量为：

n=2[(Z1-α＋z1-β)(s/ε)]2

检验效能为：

1-β=Ф[ε(2s2/n)-1/2-z1-α]

例5：上例继续。假定单侧α=0.05，β=0.10，ε=2。即按0.05的检验水准，在90％的把握度下，检出试验组比阳性对照组优2mmHg每组所需的样本含量为：

n=2[(1.645＋1.282)(8/2)]2=274.2≈274

②优于安慰剂组的试验:按照单侧的检验水准α，要求允许的二类误差概率不超过β，在T优于S有临床意义的差量为Δ时，优效性试验每组需要的样本含量为：

n=2[(Z1-α＋z1-β)(s/Δ)]2

检验效能为：

1-β=Ф[△(2s2/n)-1/2-z1-α]

例6：上例继续。假定设计为优于安慰剂的试验。单侧α=0.05，β=0.10，Δ=10。即按0.05的检验水准，在90％的把握度下，检出试验组比安慰剂组优10mmHg每组所需的样本含量为：

n=2[(1.645＋1.282)(8/10)]2=10.97≈12

由上可见，采用阳性对照的非劣效性试验、等效性试验、优效性试验所需的样本含量均比安慰剂对照试验要大。因为：z1-α

4.2率指标

有关的数学符号及意义同定量指标。

4.2.1非劣效性试验按照单侧的检验水准α，要求允许的二类误差概率不超过β，在两组总体率T=S=π的条件下，非劣效性试验每组需要的样本含量为：

n=2[π(1-π)δ-2](z1-α＋z1-β)2

检验效能为：

1-β=Ф[δ{π(1-π)(2/n)}-1/2-z1-α]

例7：治疗手足癣常规推荐伊曲康唑100mg用药4周方案，考虑到该药有极高的组织亲和性，停药后可在角质层持续停留4周，这种药动学特性提示服药1周的短程疗法可能对皮肤真菌病有效。为此设计了

400mg1周和100mg4周的比较试验，考察新方案的疗效是否不比常规方案差。以临床治愈率作为评价终点，假设两方案的疗效相同，根据以前的疗效及有关要求，取：T=S=π=0.80，δ=0.15，α=0.05，β=0.20。则z0.95= 1.645，z0.80=0.845，每组需要的样本含量按公式计算如下：

n=2(1.645＋0.845)2=88.2≈88

4.2.2等效性试验按照双侧的检验水准α（等同于按单侧的α/2），要求允许的二类误差概率不超过β，在两组总体率T=S=π的条件下，等效性试验每组需要的样本含量为：

n=2[π(1-π)δ-2](z1-α/2＋z1-β)2

检验效能为：

1-β=2Ф[δ{π(1-π)(2/n)}-1/2-z1-α]-1

例8：上例如保持各项参数不变，只是按照等效性试验来设计，其每种方案所需的样本含量为：

n=2(1.960＋0.845)2=111.9≈112

值得提出的是，以上非劣效性／等效性试验样本含量的计算均建立在两组的真实差别为0，即在T=S的前提下，按检验水准α能检验出非劣效性／等效性的概率作为检验效能。如果试验药效实际上低于阳性对照药，但在δ以内时（这在理论上和实际中均是完全可能的），此时如仍用上述的计算公式计算样本含量，将会低估这一检验效能时所应该需要的样本含量，或者说达不到目前预定的检验效能。例如，按照

T=S=π=0.90，δ=0.1，α=0.05，β =0.20设计的等效性试验每组需要142例，如果试验组的的真实疗效是85％而不是90％，两组差别仅为5％，小于允许的10％（δ=0.1），仍符合等效性的条件。此时如果每组用142例进行试验，则下等效结论的机会仅为25％，检验效能很小，说明样本含量不够。

当然，在实际工作中样本含量的估计还应考虑到病人的脱落等问题，此不祥述。

5 讨论

传统假设检验差别无显著性(P>α)与非劣效性/等效性试验的非劣效/等效(P≤α)是两种不同的概念，前者表示现有数据因例数少、误差大或参数本身相近等原因尚不能作出两组差别有统计学意义的结论，后者表示根

据临床专业上的界值标准及统计上的α水准，可作出两组非劣效或等效且有统计学意义的结论。从理论及实际分析看，两组差别无统计学意义(P>α)，不一定存在非劣效性或等效性；两组差别有统计学意义(P≤α)，也可能是非劣效或等效的，因此，一般假设检验意义下的结论决不可代替非劣效性或等效性检验。

从实际的结果看，若试验用药组和标准阳性对照组样本效应值的差值小于δ时，可进行非劣效性/等效性的评价。如果T组比S组样本效应的差值比δ还大时，则无需做上述的任何检验，因为即便做了也必定得不出非劣效或等效的结论。如果T组比S组的样本效应值好的幅度比δ大时，倒是可以做一下临床意义上的优效性检验，以确认T的疗效在临床疗效上确实比S好，这在临床研究中也是具有非常重要实际意义的。如果开始是按照非劣效性试验来设计的，而且T样本的效应好于S样本，当非劣效性试验的无效假设被拒绝，而可以推断T比S具有非劣效性时，可进一步检验T的优效性。我们可称之为两步法或步进法。Morikawa 和Yoshida概括为“单侧等效性检验与单侧优效性检验组合法”。尽管在实际中并不一定要求对检验水准α

进行校正，但是，要想这样做，应在设计阶段考虑到，并事先在试验方案中讲明，而不是到统计分析阶段根据检验结论的提示才想到要作进一步分析。

因为我们经常用阳性对照，试验药和阳性药在临床疗效上非劣效、相当或优效时，习惯上都笼统地称为“等效”，可以批准上市。但严格意义上的等效性与之是有区别的，正如生物利用度等效性研究中的等效性一样，试验药比阳性药效应低到一定程度或高到一定程度都不能说等效。实际上，临床等效性并不要求这么严格，因为我们最关心的是新药是否不比阳性对照药差，至于在另一个方向上的好与不好并不关心，或者说没有必要关心。因而阳性对照试验中大多数应该属于非劣效性试验。当然，即使用了等效性试验方法，对新药评审来说，也无可厚非，因为这并未降低标准，从某种程度上说还抬高了标准。

本文所用的统计推断方法和一般情况下统计推断方法应用条件相似，当不符合统计方法的应用条件时应考虑进行校正或另选其它的方法，例如，两组均数比较方差不齐时，可采用Satterthwaite校正法等进行检验；两组率比较例数较少或率较接近0或1时，可采用精确概率法等。随着临床疗效非劣效性/等效性评价的不断应用，对有些统计问题，譬如意向性分析（ITT分析）和符合方案集分析（PP分析）的选用、不符合统计应用条件的处理、缺失值及异常值的处理等还需作更深入的研究和探讨，以满足实际工作的需要和要求的不断提高。

我国目前已提出新药临床等效性试验的要求，但仍存在着标准偏低或不够明确的不足。例如，60对的试验例数在许多情况下检验效能不足，对临床等效界值δ并未明确指出，还有α、β的标准掌握不够一致等问题，这些均不利于新药的审评。从我国的临床试验实际看，已有进行等效性分析的实例，但往往不是从一开始就按照非劣效性/等效性试验来设计的，因而到最后统计分析时才确定的一些标准，在把握上容易出偏差。

严格讲，非劣效性/等效性试验的标准（如样本含量、δ、α、β等等）都要在设计阶段确定，以后非必要时不得更改。作者认为，对临床非劣效性/等效性试验，应参照生物利用度等效性评价的指导原则，建立起临床疗效的非劣效性/等效性评价的指导性原则或标准，以使研究者有章可循。

本文介绍的主要是有关统计学方面的事项，对其他方面的问题已超出范围，但要提醒大家，非劣效性/等效性试验的所有设计、实施、分析等涉及到的申办者方、研究者方、管理当局等方面的工作程序、职责和要求等一点也不能减少。

-----中国临床药理学杂志，2000，16（6）：448-452.

非劣效性、等效性临床试验(优选内容)

优效性试验（superiority）—显示优效性的设计通过安慰剂对照试验显示优于安慰剂或优于阳性药，或由剂量反应关系证实疗效是最可信的。此类试验称为优效性试验。非劣效性（non-inferiority）—试验/等效性(equivalence)试验—显示非劣效性或等效性的设计，以阳性药物为对照，试验的目标是显示试验药物的疗效与某种已知的阳性药物“不差”或“相当”，分别称为非劣效性试验和等效性试验稳定性假设（constancy assumption）—指阳性对照药物在既往研究（对安慰剂）中的效应量在当前的非劣效性或等效性试验保持不变。检测灵敏度（assay sensitivity）—分辨某种治疗与较差的治疗或无效的治疗之间差别的能力，对优效性试验、非劣效性试验与等效性试验具有不同的意义。优效性试验如果是成功的，即试验显示出试验药与安慰剂之间的差别，则检验灵敏度自然成立；对非劣效性和等效性试验而言，如果阳性药没有检测灵敏度，一个无效的试验药可能会因为非劣效性而错误地确认其疗效。{无效药如何得出非劣效性} 一、非劣效性/等效性试验中的样本含量估计（一）决定非劣效性/等效性试验样本含量估计的要素 1. 非劣效性（non-inferiority）/等效性(equivalence)界值从临床

意义上确认药物的疗效，需要事先确认评价的界值。在优效性试验中，界值指试验药和对照药之间相差的临床上认可的最小值。在非劣效性试验中指临床上可接受的最大值。对非劣效性和等效性试验，它必须小于阳性对照药与安慰剂比较时的效应差值（如果已知，可取去1/3或1/2）。界值的确定需要由主要研究者从临床意义上和统计学专业人员才统计学意义上共同商定，而不是单独依赖于主要研究者或统计学专业人员。优效性试验和非劣效性试验仅用一个界值，用δ0表示；而等效性试验要用劣侧和优侧两个界值，分别用δ01和δ02表示，理论上两侧界值可以取不等距，但实际上有一般取等距。界值确定必须在实验设计阶段完成，并在试验方案中阐明，如有修订，必须在揭盲之前进行并阐述理由，一旦揭盲，不得修改。这一点很重要，若不遵守，则很容易陷入“数字游戏”的危险。根据既往经验，对有些临床定量指标具有专业意义上的变化量，{血压实验组—血压对照组}可根据粗略的界值参考标准，例如血压可取为0.67kPa(5mmHg)，胆固醇可取为0.52mmol/L(20mg/dl),白细胞可取为0.5x109/L(500个/mm3)。非劣效性/等效性试验经常是对变化量间的比较，相应的界值（指变化量之间的差值）应更小{血压变化值实验组—血压变化值对照值}，例如血压变化值的等效界值可取为0.4kPa(3mmHg)，胆固醇变化值的等效界值可取为0.26mmol/L(10mg/dl),白细胞变化值的等效界值可取为0.2x109/L（200个/mm3)。当难以确定时，可酌取1/5~1/2个标准差或参比组均数的1/10~1/5等。{变化值的标准差和变化值的

【科普】差异性、优效性、等效性和非劣效性检验的区别

【科普】差异性、优效性、等效性和非劣效性检验的区别差异性检验在临床研究工作中，我想大部分临床研究者都听说过优效性、等效性和非劣效性检验等，但有很多人尚不太清楚它们之间的区别，本期我们将和大家一起来讨论这一问题。 1、什么是差异性检验？差异性检验，大家天天都在用，其实大家的论文里大部分用的都是差异性检验。比如独立样本t检验，两个可选的假设分别是A=B 和A≠B。这就是差异性检验，或者叫不等的检验，意思就是A和B 两组有差异、不相等。什么意思呢？就是检验A-B=0这一公式成立与否。比如同一批病人，我们随机分成A和B组，然后检验A组和B 组患者血红蛋白水平的高低，这就是差异性检验。即A组和B组之间有差异，什么叫有差异，就是两组间的差异不等于0。跟上述内容相反的是，当我们将A组和B组之间的差异跟一个既定的值（Δ）比较时，就产生了一系列的检验，如优效性、等效性和非劣效性检验。优效性、等效性和非劣效性检验1 跟上述内容相反的是，当我们将A组和B组之间的差异跟一个既定的值（Δ）比较时，就产生了一系列的检验，如优效性、等效性和非劣效性检验。 2、什么是优效性、等效性和非劣效性检验？

上述三种检验在临床药物试验中应用最多，当我们研制一种新药物的时候我们总是盼着新药的疗效比较好，或者跟旧药差不多。我想没有人会盼着研制的新药的疗效差于旧的药物，那么还研制它干嘛啊。基于上述三种情况，就提出了三个用于新药临床试验的检验思路，分别是优效性、等效性和非劣效性检验。下面分别说明，先假设一个例子，某研究者要研究A药与B药的关系，他能够接受的差值是Δ。优效性、等效性和非劣效性检验2 2.1 优效性检验研究目的：A药的效果好于B药。研究假设：（1）无效假设：A-B≤Δ；（2）备择假设：A-B＞Δ。备注：用来证实新药A的效果好于旧药B，来判断新药A上市的情况。它是一个单侧的检验。 2.2 等效性检验研究目的：A药的效果等于B药。研究假设：（1）无效假设：A-B≤-Δ或A-B≥Δ；（2）备择假设：-Δ＜A-B＜Δ。备注：常用于同一活性成分的药物之间的疗效比较，证实的是A 药和B药的疗效相当。它可以是单侧也可以是双侧的检验。 2.3 非劣效性检验研究目的：A药的效果不差于于B药。研究假设：（1）无效假设：A-B≤-Δ；（2）备择假设：A-B＞-Δ。备注：如果A药因给药方便、耐受性好等原因，只要A药的疗效不

非劣效、等效性、优效性

非劣效、等效和优效性检验及其适用范围摘要：在对国内临床研究报告的审评中我们经常遇到以传统的显著性检验代替非劣效等设计的检验的情况，下文探讨了二者的区别及适用范围。关键词：非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究，以判断和区别其实际的疗效如何，审评中我们常见到的错误是采用如下传统的假设检验：无效假设H0: A药的疗效-B药的疗效＝0 备择假设H1：A药的疗效≠B药的疗效结论：如P>0.05,按α＝0.05的检验水准不能拒绝H0假设，如P≤0.05，则接受H1假设。目前已经公认这种传统的假设检验（又称显著性检验）用于临床试验判断药物的疗效是不合理的，它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义，因此国际普遍采用非劣效、等效或优效性假设检验。传统的假设检验之所以不合理，在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等，是纯粹的统计学意义，而

未体现实际的临床意义，虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1: μ1-μ2>0(或μ1-μ2<0),但它检验的依然是样本所代表的总体均数的统计学含义，而未将实际临床意义包含进来考虑。另一方面，对于传统检验的结论，如P>0.05,表示两药疗效的差别无统计学意义, 不拒绝H0假设，说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论，并不是当然的接受H0假设，并非认为H0假设必然成立而两药疗效的总体均数一定相等，此时有可能两药疗效的总体均数确实相似，也有可能是检验效能（把握度）不够，尚需更大样本量进行检验；如P≤0.05，两药疗效的差别有统计学意义,也就是说，两药疗效的总体均数确实不相等，但这种统计学意义的差异不一定具有实际的临床意义，也可能其临床意义却是优效、等效或非劣效的。因此，临床试验的统计学家们提出了区间假设检验的方法，提出以临床意义的差异Δ来进行假设检验，这就是非劣效、等效和优效性检验的概念和方法。非劣效性试验指主要研究目的是显示对试验药的反应在临床意义上不差于（非劣于）对照药的试验(ICH－E9的定义) 。如果治疗差异（A药的疗效-B药的疗效）>0，则试验药的疗效较好；治疗差异<0，则对照药疗效较好；如果我们允许A药疗效比B药疗效低一定范围,仍然认为两药疗效相当,即确定Δ表示临床意义上判断疗效不差所允许的最大差异值,则如果治疗差异>-Δ，便是试验药非劣效于对照药，此处的Δ称为非劣效试验的判断界值

如何确定非劣效试验的判断界值

如何确定非劣效试验的判断界值 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

发布日期化药药物评价>>临床安全性和有效性评价栏目如何确定非劣效试验的判断界值标题黄钦作者部门正文内容审评四部审评八室黄钦摘要：非劣效试验中判断试验药和阳性对照药疗效相当的疗效差异至关重要，也比较复杂，下文探讨了非劣效性试验界值确定的考虑要点及审评中的主要关注点。关键词：非劣效性试验判断界值(margin) 非劣效、等效和优效性试验的区间检验与传统假设检验最大的不同是考虑了临床意义，以临床意义的差异Δ来进行假设检验，那么，如何确定这个疗效差异的判断界值至关重要，若Δ 太大，将把疗效远不如对照药的药物判断为有效或等效；若Δ太小，则可能将本来可以推广应用的有效药物误判为无效而得不到及时上市，并且所需的样本含量可能会大的不切实际，因此Δ的确定应当合适，理论上应该是药效间具有临床意义的最大允许差异值。但实际确定起来往往较为困难和复杂，需要根据已有的文献数据，设计类型及数据的分布类型，临床认识水平及成本效益来综合考虑，是统计学推理和临床判断相结合的结果。没有哪本书或指导原则能够给出一个精确无疑的算法。非劣效试验的Δ值的确定最为复杂，通常参考阳性对照药与安慰剂间的疗效差异即阳性对照药的绝对疗效来判定，需要达到两个目标（满足两个条件）才是适合的判断界值：使试验药物（A）的疗效既要优于安慰剂（P）以保证药物的有效性（A-P>0），又要好到不差于阳性对照药(B)（A-B>-Δ）。因此，ICH及EMEA等均推荐同时包括安慰剂对照和阳性对照药的三个试验组设计的研究，试验药必须证明在统计学意义上优于安慰剂（试验产品与安慰剂差异的双侧 95%可信区间的下限必须大于0，如果试验药和参照药均未能显示在统计学意义上优于安慰剂，

临床试验中采用非劣效设计应该关注的问题

发布日期20061213 栏目化药药物评价>>临床安全性和有效性评价标题临床试验中采用非劣效设计应该关注的问题作者左晓春部门正文内容审评四部左晓春关键词：临床试验非劣效设计、阳性药、界值、检测灵敏度非劣效性设计在国内新药临床研究中被普遍应用，本文就非劣效性试验的适应条件、设计中需要关注的问题进行了阐述，提出非劣效性设计并不是能够普遍应用的临床试验设计方法的观点。临床试验是探索和确证研究药物在特定适应症人群安全有效性的重要研究方法，根据其研究目的主要有两种类型的设计，一种为优效性设计，一种为非劣效性设计。优效性设计的临床试验的目的是要评估研究药物的有效性和或安全性，采用任意一种对照，通过显示研究药物优于对照药(安慰剂或者说无治疗、研究药物的低剂量、阳性药)来证明研究药物的疗效。非劣效性设计的临床试验目的是要评估两种治疗药物的相对疗效、安全性、效益/风险关系，采用阳性药

作为对照，通过显示研究药物与已知的有效药物疗效（即阳性药）不低于一个事先确定的量（即界值）而证明其有效，阳性药的已知疗效即为研究药物的疗效。一、非劣效试验的适应条件众所周知，优效性临床试验相对于非劣效临床试验而言，试验的设计、实施以及结果的分析都相对简单和易于操作，是新药疗效探索和确证性试验中最为普遍应用的设计。然而在有些情况下，非劣效性设计可能是需要的。第一种情况是，上市药物的疗效很好，新研究的药物的疗效要超过标准治疗药物的可能性较小，如新的抗生素类药物，其临床研究通常采用非劣效设计。第二种情况，与上市药物比较，预计其疗效相当，但研究药物可能具有其他特点，如更好的安全性；或者除主要的治疗作用外，在其他作用方面给患者带来益处，如降低LDL-C的降脂药，同时能升高HDL，具有更为全面的调脂作用；更方便或者依从性更好；其他特点。第三种情况是，出于伦理的考虑，对于危及生命的适应症人群，市场已经有确切的安全有效的药物或者治疗手段，安慰剂的对照试验不被接受，需要选择阳性药或者标准治疗手段来确证研究药物的疗效不劣于前者，同时研究药物又具备其他的给患者带来益处的特点。当然这种情况下，非劣效设计是否能够接受，在不同的国家可能有不同的看法，如也有观点认为，对于危及生命的适应症人群，药物疗效是至关重要的，新开发的研究药物在疗效上应该优于已上市药物，非劣效不能接受。

非劣效、等效性、优效性

非劣效、等效和优效性检验及其适用范围摘要：在对国内临床研究报告的审评中我们经常遇到以传统的显著性检验代替非劣效等设计的检验的情况，下文探讨了二者的区别及适用范围。关键词：非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究，以判断和区别其实际的疗效如何，审评中我们常见到的错误是采用如下传统的假设检验：无效假设 H0: A药的疗效-B药的疗效＝0 备择假设 H1： A药的疗效≠B药的疗效结论：如P>0.05,按α＝0.05的检验水准不能拒绝H0假设，如P≤0.05，则接受H1假设。目前已经公认这种传统的假设检验（又称显著性检验）用于临床试验判断药物的疗效是不合理的，它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义，因此国际普遍采用非劣效、等效或优效性假设检验。传统的假设检验之所以不合理，在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等，是纯粹的统计学意义，而未体现实际的临床意义，虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1: μ1-μ2>0(或μ1-μ2<0),但它检验的依然是样

本所代表的总体均数的统计学含义，而未将实际临床意义包含进来考虑。另一方面，对于传统检验的结论，如P>0.05,表示两药疗效的差别无统计学意义, 不拒绝H0假设，说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论，并不是当然的接受H0假设，并非认为H0假设必然成立而两药疗效的总体均数一定相等，此时有可能两药疗效的总体均数确实相似，也有可能是检验效能（把握度）不够，尚需更大样本量进行检验；如P≤0.05，两药疗效的差别有统计学意义,也就是说，两药疗效的总体均数确实不相等，但这种统计学意义的差异不一定具有实际的临床意义，也可能其临床意义却是优效、等效或非劣效的。因此，临床试验的统计学家们提出了区间假设检验的方法，提出以临床意义的差异Δ来进行假设检验，这就是非劣效、等效和优效性检验的概念和方法。非劣效性试验指主要研究目的是显示对试验药的反应在临床意义上不差于（非劣于）对照药的试验 (ICH－E9的定义) 。如果治疗差异（A药的疗效-B药的疗效）>0，则试验药的疗效较好；治疗差异<0，则对照药疗效较好；如果我们允许A药疗效比B药疗效低一定范围,仍然认为两药疗效相当,即确定Δ表示临床意义上判断疗效不差所允许的最大差异值,则如果治疗差异>-Δ，便是试验药非劣效于对照药，此处的Δ称为非劣效试验的判断界值（margin）。非劣效试验的假设检验是无效假设 H0: A药的疗效-B药的疗效≤-Δ

从临床试验实例看优效、等效和非劣效试验[1]

从临床试验实例看优效、等效和非劣效试验 - 结合一些临床试验的例子对优效、等效和非劣效试验再做一点阐述，权当加深理解吧。让我们先看一个简单的例子(J Am Acad Dermatol 2003;48:535-41)：为了证实地氯雷他定对慢性荨麻疹的疗效和安全性，研究者设计了一项地氯雷他定对比安慰剂治疗慢性荨麻疹的随机对照双盲试验。本试验选择的主要终点是与基线相比搔痒评分的变化。假设标准差为 1.0分，每组需要100例病人在0.05的显著性水平上有90％的把握能检验出两组0.5分或更多的差别。最后结果地氯雷他定与基线相比搔痒评分的变化为 1.05，安慰剂组为0.52，p<0.001. 结论地氯雷他定可以有效治疗慢性荨麻疹。以上这个例子就是一个最经典的优效性试验的例子，即通过安慰剂对照试验显示试验药物优于安慰剂，从而证实试验药物的疗效。这种安慰对照的优效性试验在临床试验的发展进程中起到了鼻祖的作用，以前对于某种疾病还没有治疗药物的时候，一种新药物的出现，往往会选择安慰剂对照来证实疗效，当然随着越来越多标准药物的出现，以及出于伦理等方面的考虑，现在安慰剂对照的试验也开始变少，但它在药物研发中的地位是决不能抹杀的。随着医学的发展，现在各个疾病基本上都有自己有效的治疗药物，这时我们推出一种新药，往往在选择对照时，不得不选择那些已有的有效治疗药物，所以相比较安慰剂对照试验，阳性对照试验越来越多，而阳性对照试验最理想的情况是，你的药物优于阳性对照药物，这和上文中提及的安慰剂对照试验一样，是证实你的药物的疗效的最好的也是最有力的方法。这种阳性对照的优效性试验在现在我们的临床试验中发挥了很重要的作用，怎么说呢，一种新药的出现，如果它有突破性的进展，最大的证明就是你的疗效优于现在这种疾病的标准治疗药物，而此时阳性对照的优效性试验就是你证明你疗效的最理想的选择。给大家介绍一个药物研发历史上一个很著名的阳性对照优效性试验的例子－EVIDENCE研究。 2003年3月8日，美国FDA正式批准瑞士雪兰诺公司的Rebif（干扰素beta-1a）治疗复发性多发性硬化。此次FDA批准Rebif上市，打破了另外一种干扰素类药物Avonex的市场专有状态，Avonex在1996年被批准用于多发性硬化的治疗。那么FDA为什么批准呢，其中最重要的依据就是一项Rebif与Avonex直接比较的研究－EVIDENCE研究，而Rebif的批准则说明了如果有另外一种药物比原有药物更有效或者更安全的话，那么就可以打破原有药物的市场专有状态。那么现在我们来看一下EVIDENCE的研究设计和结果吧。EVIDENCE研究是一项比较Rebif与Avonex两种药物治疗复发性多发性硬化效果的大规模的研究，在美国、加拿大以及欧洲的多个中心进行。677名复发性多发性硬化病人被随机分配到Rebif和Avonex

非劣效性／等效性检验的样本含量估计及软件实现

非劣效性／等效性检验的样本含量估计及软件实现【摘要】目的：以标准治疗为对照的非劣性/等效性检验中样本含量估计及软件实现。方法：采用PASS 11软件和相关计算公式，并通过实例分析计算两样本均数和两样本率比较时所需样本含量。结果：应用软件PASS 11和所给的公式计算中，两样本均数比较时结果相等，两样本率比较时非劣效性检验所需样本含量为111例,等效性检验所需样本含量为154例，与软件结果【Abstract】Objective:To realize sample size estimation and software implementation in non-inferiority/ equivalence tests with standard therapy for comparison. Methods:Using PASS 11 and related calculation formula calculate sample size of two sample means and two sample proportions by CaseStudy.Results: The two sample means were equal by using PASS 11 and the formula given. Comparing the two sample proportions, sample size required for non-inferiority tests was 111 cases, and sample size required for equivalence tests was 154 cases, which the result was very close to software等效性检验:其中为样本含量，、为单侧标准正态临界值，双侧标准正态临界值，是估计的共同标准差，是等效标准(界值) 。非劣性检验为单侧检验,因此为β单侧概率，等效性检验为双侧检验，因此β为双侧概率之和[2]。 1.2两样本率比较时，样本含量估算公式为: 非劣性检验:等效性检验:其中是平均有效率，其余指标含义同前。 2软件实现 2.1两样本均数比较时样本含量估算的PASS软件实现【例1】一个新药AAA与对照药进行Ⅱ期临床检验,确认该新药不差于阳性药。根据以往的疗效和统计学的一般要求,取, ,等效标准,已知两组共同标准差,每组需要多少病例? 2.1.1非劣性检验参数设置，见图一。图一非劣性检验参数设置结果显示非劣效性检验所需样本含量为112例，见图二。图二非劣效性检验样本含量估算结果

抗菌药物非劣效临床试验设计技术指导原则

附件13：抗菌药物非劣效临床试验设计技术指导原则一、概述（一）抗菌药物的定义抗菌药物（antibacterial agents)是指具有杀菌或抑菌阳性、主要供全身应用（含口服、肌注、静注、静滴等，部分也可用于局部）的各种抗生素、磺胺药、异烟肼、吡咯类、硝咪唑类、喹诺酮类、呋喃类等化学药物。本指导原则所涉及的抗菌药物仅指具有抗细菌作用的抗菌药物，且符合《药品注册管理办法》（国家食品药品监督管理局令第28号）规定的创新药物。（二）抗菌药物的临床试验抗菌药物临床试验遵循药物研究和开发的基本规律，遵循GCP的相关要求，探索目标适应证和给药方案，包括单次给药剂量、给药频率和治疗持续时间的优化，最终确认药物的安全性和有效性，并为药物注册、临床应用以及说明书的撰写提供依据。简而言之，抗菌药物临床试验包含了临床药理学研究、探索性临床治疗试验和确证性临床治疗试验，并以确定产品上市的有效性为最终研究目的。抗菌药物临床试验遵循《抗菌药物临床试验技术指导原则》的基本要求，但并不完全局限于这些要求。目前，有良好随机对照并能充分说明产品有效性的临床试验已经成为产品上市的前提条件。临床试验中统计学假设检验的选择也是确保良好临床试验的关键，目前常用的统计学假设检验类型包括优效性检验、等效性检验和非劣效性检验，其中非劣

效性检验的目的是以试验药物的治疗效果在临床上不劣于阳性对照药物的形式证实试验药物的有效性。基于抗菌药物的特点和伦理学考虑，以阳性药物为对照的非劣效性统计假设已经成为抗菌药物确证性临床试验中常用的比较方法，用以证明产品的有效性，但并不拒绝其他可行的方法。（三）本指导原则的目的及应用范围本指导原则旨在为药品注册申请人和临床试验研究者在进行抗菌药物的非劣效临床试验设计、实施、数据管理和分析时，提供必要的技术指导，降低研发风险，使安全有效的抗菌药物更好更早地用于临床治疗。本指导原则仅适用于抗菌药物有效性的确证性临床治疗试验设计，不适用于各种探索性临床治疗试验设计。本指导原则主要适用于全身用药的创新抗菌药物的临床试验。局部用药等其他创新抗菌药物的临床试验也可参照执行。二、非劣效临床试验应用条件以阳性药物为对照的非劣效临床试验为确证性临床试验中常用的比较方法，用以证明产品的有效性。其应用前提包括了如下要求：已经进行并基本完成了全面的药学研究、非临床安全有效性研究，质量可控性有一定基础，临床试验有一定的安全性保证，并已经获得药品监督管理机构的临床试验许可；已经进行并基本完成了比较全面的临床药效学研究，人体耐受范围确定，人体药代动力学信息基本全面，量效关系清晰；已经基本完成了探索性临床治疗试验，可以初步对目标病种、单次给药剂量、给药频率和治疗持续时间进行判定，但需要进一步进行确证。三、非劣效临床试验技术要求（一）非劣效临床试验目的

如何确定非劣效试验的判断界值

发布日期20061120 栏目化药药物评价>>临床安全性和有效性评价标题如何确定非劣效试验的判断界值作者黄钦部门正文内容审评四部审评八室黄钦摘要：非劣效试验中判断试验药和阳性对照药疗效相当的疗效差异至关重要，也比较复杂，下文探讨了非劣效性试验界值确定的考虑要点及审评中的主要关注点。关键词：非劣效性试验判断界值(margin) 非劣效、等效和优效性试验的区间检验与传统假设检验最大的不同是考虑了临床意义，以临床意义的差异Δ来进行假设检验，那么，如何确定这个疗效差异的判断界值至关重要，若Δ太大，将把疗效远不如对照药的药物判断为有效或等效；若Δ太小，则可能将本来可以推广应用的有效药物误判为无效而得不到及时上市，并且所需的样本含量可能会大的不切实际，因此Δ的确定应当合适，理论上应该是药效间具有临床意义的最大允许差异值。但实际确定起来往往较为困难和复杂，需要根据已有的文献数据，设计类型及数据的分布类型，临床认识水平及成本效益来综合考虑，是统计学推理和临床判断相结合的结果。没有哪本书或指导原则能够给出一个精确无疑的算

法。非劣效试验的Δ值的确定最为复杂，通常参考阳性对照药与安慰剂间的疗效差异即阳性对照药的绝对疗效来判定，需要达到两个目标（满足两个条件）才是适合的判断界值：使试验药物（A）的疗效既要优于安慰剂（P）以保证药物的有效性（A-P>0），又要好到不差于阳性对照药(B)（A-B>-Δ）。因此，ICH及EMEA等均推荐同时包括安慰剂对照和阳性对照药的三个试验组设计的研究，试验药必须证明在统计学意义上优于安慰剂（试验产品与安慰剂差异的双侧95%可信区间的下限必须大于0，如果试验药和参照药均未能显示在统计学意义上优于安慰剂，可能提示试验不灵敏或者是测定方法不灵敏），然后要用临床判断来评价所观察到的与安慰剂的差异是否具有临床意义。因为有阳性药参照组，可有助于做出这一判断，如果参照药是经注册管理部门批准的药物，并且已知在同类型的试验中通常能得到具有临床意义的效果，那么这一试验中所见的参照药与安慰剂之间的差异有助于评价安慰剂与试验药品之间差异的临床意义。例如，如果试验中试验组的表现优于参照组，则断定试验产品具有临床意义是合理的。但是国内研究设计中更多见的是仅为试验药组和阳性对照组，而没有安慰剂对照组的二试验组研究，而且阳性对照药的绝对疗效常常不易确定，这时就要检索充分的文献，参考历史数据，并进行荟萃分析等以找出所采用的阳性对照药和安慰剂进行比较的同类研究，估计在目标患者人群中阳性对照药物和安慰剂之间的差异，确定药效灵敏度（Sensitivity to Drug Effects）。关于对照药的选择原则及其优缺点的考虑请参见ICH-E10的详细阐述。需要注意的是，药效灵敏度和试验的检测灵敏度（Assay Sensitivity）是不同的，很多情况下药效灵敏度难以维持恒定不变，由于临床实践可

非劣效、等效和优效性检验及其适用范围

非劣效、等效和优效性检验及其适用范围审评四部审评八室黄钦摘要：在对国内临床研究报告的审评中我们经常遇到以传统的显著性检验代替非劣效等设计的检验的情况，下文探讨了二者的区别及适用范围。关键词：非劣效试验等效性试验优效性试验一、传统检验和区间检验药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究，以判断和区别其实际的疗效如何，审评中我们常见到的错误是采用如下传统的假设检验：无效假设H0: A药的疗效-B药的疗效＝0 备择假设H1：A药的疗效≠B药的疗效结论：如P>0.05,按α＝0.05的检验水准不能拒绝H0假设，如P≤0.05，则接受H1假设。目前已经公认这种传统的假设检验（又称显著性检验）用于临床试验判断药物的疗效是不合理的，它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义，因此国际普遍采用非劣效、等效或优效性假设检验。传统的假设检验之所以不合理，在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等，是纯粹的统计学意义，而未体现实际的临床意义，虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1: μ1-μ2>0(或μ1-μ2<0),但它检验的依然是样本所代表的总体均数的统计学含义，而未将实际临床意义包含进来考虑。另一方面，对于传统检验的结论，如P>0.05,表示两药疗效的差别无统计学意义, 不拒绝H0假设，说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论，并不是当然的接受H0假设，并非认为H0假设必然成立而两药疗效的总体均数一定相等，此时有可能两药疗效的总体均数确实相似，也有可能是检验效能（把握度）不够，尚需更大样本量进行检验；如P≤0.05，两药疗效的差别有统计学意义,也就是说，两药疗效的总体均数确实不相等，但这种统计学意义的差异不一定具有实际的临床意义，也可能其临床意义却是优效、等效或非劣效的。因此，临床试验的统计学家们提出了区间假设检验的方法，提出以临床意义的差异Δ来进行假设检验，这就是非劣效、等效和优效性检验的概念和方法。非劣效性试验指主要研究目的是显示对试验药的反应在临床意义上不差于（非劣于）对照药的试验(ICH－E9的定义) 。如果治疗差异（A药的疗效-B药的疗效）>0，则试验药的疗效较好；治疗差异<0，则对照药

EMEA发布的《非劣效性界值选择的指导原则》

发布日期20070405 栏目化药药物评价>>临床安全性和有效性评价标题EMEA发布的《非劣效性界值选择的指导原则》作者黄钦部门正文内容审评四部审评八室黄钦审校伦敦，2005年7月27日索引：EMEA/CPMP/EWP/2158/99 人用药品委员会（CHMP）生效日期2006年1月目录前言 1.背景 2.一般考虑 3.证明疗效

3.1 三个组的试验：试验产品、参照品和安慰剂 3.2 两个组的试验：试验产品和对照产品 3.3 不能肯定优于安慰剂的情况 4.确定与活性对照药相比可接受的疗效 5. 难以证明有合理非劣效性界值的情况 5.1使用显著性水平升高的优效性 5.2在另一方面有优势的产品 6.结论前言许多将一种试验产品与一种活性对照药物进行比较的临床试验被设计为非劣效性试验。目前“非劣效性”这一术语已得到普遍认可，但如果从字面上来理解可能会产生误导。非劣效性试验的目的往往声明为了证实试验产品不亚于对照药物。但只有优效性试验才能证实这一点。事实上非劣效性试验的目的是为了证实试验产品不如对照产品的程度，不超过事先指定的一个较小的量。这个量被称为非劣效性界值（non-inferiority margin），或称为Δ。在许多情况下，可能进行非劣效性试验而不做优效性试验，或者除了做优效性试验，另外再做劣效性试验。这些情况包括： l 在某些情况下不可能进行生物等效性研究时（例如缓释产品或局部用制剂），根据基本上相似的情况提出的申请；

l 与标准治疗相比安全性方面可能有优势的产品需要与标准治疗进行疗效比较，以便进行风险-受益评价； l 需要直接与活性对照进行比较以协助风险受益评价的情况； l 与活性对照相比疗效没有显著降低可以接受的情况； l 不能用安慰剂组，要用活性对照试验以证实试验产品疗效的某些疾病。在以上最后4种情况下，如果能显示优于参照产品则不一定要做非劣效性试验。为证实非劣效性，推荐的方法是在方案中事先指定一个非劣效性的界值。研究完成后，计算出两种药物真正差异的双侧95%可信区间（或单侧97.5%可信区间）。这一区间应当完全在非劣效性界值（non-inferiority margin）的有利一侧。Δ的选择在临床上和统计学方面一定要合理。一定要根据特定的临床情况而具体制定，没有适用于各种情况的统一规则。但某些原则可作为一般指导。以下法规性的指南可供参考用于选择非劣效性或等效性界值。这些指南要与本指南结合起来看。 l ICH指南E9的注释（临床试验的统计学原理）（ICH Note for Guidance E9 (Statistical Principles for Clinical Trials）；

认识非劣效试验设计

310 中国循环杂志 2013年8月第28卷第4期（总第182期）Chinese Circulation Journal，August，2013，Vol. 28 No.4（Serial No.182）作者单位：100037 北京市，中国医学科学院北京协和医学院心血管病研究所阜外心血管病医院心血管疾病国家重点实验室作者简介：黄耀华统计师主要从事生物统计学研究 Email: huangyaohua@https://www.360docs.net/doc/9f16088951.html, 通讯作者：李卫 Email:liwei@https://www.360docs.net/doc/9f16088951.html, 中图分类号：R54 文献标识码：C 文章编号：1000-3614（2013）04-0310-01 doi:10.3969/j.issn.1000-3614.2013.04.021 认识非劣效试验设计黄耀华，王杨，李卫 ·学习园地· 关键词非劣效试验众所周知，证明一种药物（医疗器械/治疗手段）的疗效优于另一种药物（医疗器械/治疗手段）的疗效的优效性试验（Superiority Design）设计是经典的研究设计方法，通过采用任意一种对照，来显示研究药物优于对照药(对照药可以是安慰剂，或者说无治疗、研究药物的低剂量或其他阳性药)。优效性试验设计相对简单，易于操作，能证实研究药物的绝对疗效，结果更具有可靠性。但随着医学的快速发展，在已有非常有效的治疗手段的基础上，进一步证明某种新手段疗效显著优于现有疗法通常是非常难的，特别是当技术上没有大的突破时。同时，对于某些疾病，出于伦理学考虑，并不总能进行安慰剂对照的优效性试验设计，需要选择阳性药物或标准治疗来做对照[1]。因此，目前国际上通常采用一种变通的试验设计方法——非劣效试验设计（N o n -I n f e r i o r i t y D e s i g n ），即：证明某一新药（医疗器械）疗效不差于已知的有效药物。现在已经有越来越多的新药和医疗器械都是通过非劣效试验设计完成了临床试验并通过药品/器械审批部门的审批上市的，比如促成达比加群酯获得多国新药注册的重要依据的临床试验R E -L Y 研究和经导管主动脉瓣替换（T A V R ）的P A R T N E R 研究等。评价某一临床试验结果是否满足预先设计的非劣效结论？是否可以通过比较试验组和对照组的组间差异的显著性检验P 值大于0.05？答案显然是否定的！一般来讲，设计非劣效试验要谨慎选择阳性对照组，合理确定非劣效界值，准确估计样本量等。选择阳性对照的原则是“疗效确切，齐同可比”，是当前临床上被广泛接受的、对于相应适应证确实有效的阳性药物或标准治疗，其疗效经过了设计良好的临床试验的证实，具有较好的预测性和可重复性，且对照组的主治功效、适用范围应与试验组类同。如果阳性对照的疗效不能得到充分保证，使用非劣效试验设计就不合理，此时应增加必要的安慰剂对照，即采用包含试验组、阳性对照组和安慰剂对照组的非劣效试验设计，也就是所谓的“三臂试验”（3-Arms Trial），有人将此种非劣效试验设计视为“金标准”。与优效性试验设计最大不同的是非劣效试验需要本栏目由国家心血管病中心医学研究统计中心协办 “非劣效界值（Non-Inferiority Margin）”，这是指如果想证明一个新的治疗方法与对照方法同样有效，需要先明确两治疗方法间能够被接受的最大差异水平。例如，对照产品的有效率为90%，如果被试产品的有效率仅为65%，那么从临床角度判断，是否还能认为两组的疗效相当？如果对于特定的疾病和治疗方法，临床医生认为试验组与对照组相比，有效率相差只要不超过10%（试验组有效率比对照组疗效低5%），仍可认为被试产品不比对照产品差，那么10%就是本次临床试验的非劣效界值。如比较经导管主动脉瓣替换（TAVR）和手术治疗的PARTNER A 研究显示，TAVR 组和手术组一年期死亡率接近，分别为24.2%和26.8%（P =0.44）。事件发生率的差异为2.6%，该差异的95%可信区间为[-9.3%, 4.1%]，由于可信区间的上限为4.1%，小于预先规定的非劣效界值为7.5%。这样，就证实了TAVR 不劣于手术的结论。非劣效试验虽然仅需证明试验组不差于对照组（不需证明比对照好），但不代表非劣效试验中需要的样本量小于优效试验[2]。决定非劣效试验样本量大小的因素包括：非劣效界值、试验组与对照组的预期疗效、统计学显著性水平及把握度，其中最为关键的就是非劣效界值，通常，非劣效界值越小（越严格），试验所需要的样本量越大，非劣效界值越宽（能够接受的组间差异越大），试验所需要的样本量则越小。总之，非劣效检验不同于传统的差异性检验，在设计和结果解读时都有其相应的特定方法，非劣效试验中最为关键的概念就是非劣效界值，其关系到研究的样本量规模以及最终是否能够得到非劣效的结论。在整个过程中，需要临床专家与生物统计学家通力合作，以保证临床试验获得预期的结果。参考文献 [1] 黄钦,赵明.对临床试验统计学假设检验中非劣效、等效和优效性设计的认识.中国临床药理学杂志,2007,23:63-67. [2] 王杨,李卫,成小如,等. 随机模拟法验证非劣效临床试验样本量计算公式.中国卫生统计,2008,25:26-28. (收稿日期：2013-06-18) （编辑：漆利萍）

差异性、优效性、等效性和非劣效性检验的区别

差异性、优效性、等效性和非劣效性检验的区别在临床研究工作中，我想大部分临床研究者都听说过优效性、等效性和非劣效性检验等，有很多人也很明白，但也有人尚不太清楚它们之间的区别，本期我们将和大家一起来讨论这一问题。 1、什么是差异性检验差异性检验，大家天天都在用，其实大家的论文里大部分用的都是差异性检验。比如独立样本t检验，两个可选的假设分别是A=B和A≠B。这就是差异性检验，或者叫不等的检验，意思就是A和B两组有差异、不相等。什么意思呢就是检验A-B=0这一公式成立与否。比如同一批病人，我们随机分成A和B组，然后检验A组和B组患者血红蛋白水平的高低，这就是差异性检验。即A组和B组之间有差异，什么叫有差异，就是两组间的差异不等于0。跟上述内容相反的是，当我们将A组和B组之间的差异跟一个既定的值（Δ）比较时，就产生了一系列的检验，如优效性、等效性和非劣效性检验。下面这个图可以先看一下： 2、什么是优效性、等效性和非劣效性检验

上述三种检验在临床药物试验中应用最多，当我们研制一种新药物的时候我们总是盼着新药的疗效比较好，或者跟旧药差不多。我想没有人会盼着研制的新药的疗效差于旧的药物，那么还研制它干嘛啊。基于上述三种情况，就提出了三个用于新药临床试验的检验思路，分别是优效性、等效性和非劣效性检验。下面分别说明，先假设一个例子，某研究者要研究A药与B药的关系，他能够接受的差值是Δ。，优效性检验研究目的：A药的效果好于B药。研究假设：（1）无效假设：A-B≤Δ；（2）备择假设：A-B＞Δ。备注：用来证实新药A的效果好于旧药B，来判断新药A上市的情况。它是一个单侧的检验。等效性检验研究目的：A药的效果等于B药。研究假设：（1）无效假设：A-B≤-Δ或A-B≥Δ；（2）备择假设：-Δ＜A-B ＜Δ。备注：常用于同一活性成分的药物之间的疗效比较，证实的是A药和B药的疗效相当。它可以是单侧也可以是双侧的检验。非劣效性检验研究目的：A药的效果不差于于B药。研究假设：（1）无效假设：A-B≤-Δ；（2）备择假设：A-B＞-Δ。 | 备注：如果A药因给药方便、耐受性好等原因，只要A药的疗效不差于B药即可。非劣效性检验的样本量估算与等效性检验基本一致，不同是非劣效检验是单侧检验，而等效性检验单侧、双侧均可。说了那么多大家来看个图吧，请注意该图是以研究目的来分类： 3、在优效、等效和非劣效检验中临界值Δ取多少合适

临床非劣效性与等效性评价的统计学方法二

临床非劣效性与等效性评价的统计学方法二第一步：非劣效性评价单侧假设检验：z=(2＋3)/1.033=4.84>1.645(z0.95)，P<0.05 单侧95％可信区间下限：CL=2-1.645×1.033=0.301>-3 两种方法均显示，在抗高血压效果方面新药AII拮抗剂与标准药ACE抑制剂相比具有非劣效性。第二步：优效性评价单侧假设检验：z=2/1.033=1.936>1.645，P<0.05 单侧95％可信区间下限：CL=0.301>0结果表明，新药AII拮抗剂比标准药ACE 抑制剂的抗高血压效果具有统计学意义优效性。 ICHE9指导原则中的建议[1]更保守些，若按α取0.025的标准判断，非劣效性评价的z=4.84>1.96(z0.975)，P<0.025，可下非劣效性结论。但是，因优效性评价的z=1.936<1.96，P>0.025，尚不能认为具有统计学优效性，更达不到临床意义上的优效性。有一种情况值得注意，即求得的可信区间的下限大于-δ，但上限却比0小，管理当局比如美国的FDA可能仍然把试验药看作和标准药不等效，甚至比标准药还差，尽管非劣效性的标准已经达到了。这一额外增加的标准之严格，似乎并不是从统计学意义上考虑的。事实上，这对很高效地完成试验而出现了窄小的CI可能是不公正的。 4非劣效性/等效性试验样本含量估计及检验效能对服从正态分布的数据（定量指标）和服从二项分布的数据（率指标）分别介绍。 4.1定量指标 4.1.1非劣效性试验按照单侧的检验水准α，要求允许的二类误差概率不超过β，在T=S的条件下，非劣效性试验每组需要的样本含量为： n=2[(Z1-α＋z1-β)(s/δ)]2 检验效能为： 1-β=Ф[δ(2s2/n)-1/2-z1-α]

从临床试验实例看优效、等效和非劣效试验

从临床试验实例看优效、等效和非劣效试验结合一些临床试验的例子对优效、等效和非劣效试验再做一点阐述，权当加深理解吧。让我们先看一个简单的例子(J Am Acad Dermatol 2003;48:535-41) ：为了证实地氯雷他定对慢性荨麻疹的疗效和安全性，研究者设计了一项地氯雷他定对比安慰剂治疗慢性荨麻疹的随机对照双盲试验。本试验选择的主要终点是与基线相比搔痒评分的变化。假设标准差为1.0 分，每组需要100 例病人在0.05 的显著性水平上有90％的把握能检验出两组0.5 分或更多的差别。最后结果地氯雷他定与基线相比搔痒评分的变化为1.05 ，安慰剂组为0.52 ， p<0.001. 结论地氯雷他定可以有效治疗慢性荨麻疹。以上这个例子就是一个最经典的优效性试验的例子，即通过安慰剂对照试验显示试验药物优于安慰剂，从而证实试验药物的疗效。这种安慰对照的优效性试验在临床试验的发展进程中起到了鼻祖的作用，以前对于某种疾病还没有治疗药物的时候，一种新药物的出现，往往会选择安慰剂对照来证实疗效，当然随着越来越多标准药物的出现，以及出于伦理等方面的考虑，现在安慰剂对照的试验也开始变少，但它在药物研发中的地位是决不能抹杀的。随着医学的发展，现在各个疾病基本上都有自己有效的治疗药物，这时我们推出一种新药，往往在选择对照时，不得不选择那些已有的有效治疗药物，所以相比较安慰剂对照试验，阳性对照试验越来越多，而阳性对照试验最理想的情况是，你的药物优于阳性对照药物，这和上文中提及的安慰剂对照试验一样，是证实你的药物的疗效的最好的也是最有力的方法。这种阳性对照的优效性试验在现在我们的临床试验中发挥了很重要的作用，怎么说呢，一种新药的出现，如果它有突破性的进展，最大的证明就是你的疗效优于现在这种疾病的标准治疗药物，而此时阳性对照的优效性试验就是你证明你疗效的最理想的选择。给大家介绍一个药物研发历史上一个很著名的阳性对照优效性试验的例子－EVIDENCE 研究。 2003 年3 月8 日，美国FDA 正式批准瑞士雪兰诺公司的Rebif (干扰素beta-1a ) 治疗复发性多发性硬化。此次FDA 批准Rebif 上市，打破了另外一种干扰素类药物Avonex 的市场专有状态，Avonex 在1996 年被批准用于多发性硬化的治疗。那么FDA 为什么批准呢，其中最重要的依据就是一项Rebif 与Avonex 直接比较的研究－EVIDENCE 研究，而Rebif 的批准则说明了如果有另外一种药物比原有药物更有效或者更安全的话，那么就可以打破原有药物的市场专有状态。那么现在我们来看一下EVIDENCE 的研究设计和结果吧。EVIDENCE 研究是一项比较Rebif 与Avonex 两种药物治疗复发性多发性硬化效果的大规模的研究，在美国、加拿大以及欧洲的多个中心进行。677 名复发性多发性硬化病人被随机分配到Rebif 和Avonex