临床非劣效性与等效性评价的统计学方法二

第一步:非劣效性评价

单侧假设检验:z=（2+3)/1．03３=4．84>1.6４５（z０。95），Ｐ＜0．05

单侧95％可信区间下限：CL=2-１．645×1。03３=0.301〉—3

两种方法均显示，在抗高血压效果方面新药AII拮抗剂与标准药ＡCＥ抑制剂相比具有非劣效性.

第二步：优效性评价

单侧假设检验:ｚ=2/1.０33=１.936〉1。6４5,Ｐ<０．05

单侧95％可信区间下限：ＣL=０．30１〉0结果表明，新药AIＩ拮抗剂比标准药ACＥ抑制剂的抗高血压效果具有统计学意义优效性。

ＩCHE9指导原则中的建议［1]更保守些，若按α取0.025的标准判断，非劣效性评价的z＝4.８4〉１.９６(ｚ０.9７5）,P＜0.025,可下非劣效性结论。但是，因优效性评价的z＝1。9３6<1．96，Ｐ〉0．025，尚不能认为具有统计学优效性，更达不到临床意义上的优效性。

有一种情况值得注意，即求得的可信区间的下限大于－δ，但上限却比0小,管理当局比如美国的FDA可能仍然把试验药看作和标准药不等效，甚至比标准药还差，尽管非劣效性的标准已经达到了。这一额外增加的标准之严格,似乎并不是从统计学意义上考虑的。事实上，这对很高效地完成试验而出现了窄小的ＣＩ可能是不公正的。

４非劣效性/等效性试验样本含量估计及检验效能

对服从正态分布的数据（定量指标)和服从二项分布的数据（率指标）分别介绍.

4.1定量指标

4．1．1非劣效性试验按照单侧的检验水准α，要求允许的二类误差概率不超过β,在T＝Ｓ的条件下,非劣效性试验每组需要的样本含量为:

n=2［(Z1－α+z1-β)（s／δ）］2

检验效能为:

１-β＝Ф［δ(2s２／n)-１/２—ｚ1-α］

式中s为两组的合并标准差.n为每组的样本含量。Ф［x］代表标准正态分布下x左侧的概率Pr［X≤x］。

例3：上例继续。若按非劣效性设计试验，假定,α=0.05,β=0。1０，将有关量：ｚ0.95＝1。645,z0.90=1.2８2，ｓ=8ｍｍHg,δ=3mmHｇ代入公式则可求得每组的样本含量为:n=２[（１.645＋1.282)（８/3)］２=１21.8≈１２２

4。1。2等效性试验按照双侧的检验水准α（等同于按单侧的α/2），要求允许的二类误差概率不超过β,在T＝S的条件下，等效性试验每组需要的样本含量为：

n=２［（Z1－α/2+z1—β）(s/δ)］2

检验效能为：

１—β=2Ф［δ（2ｓ2/n）-１/２—z1—α]-1

例4:上例继续。假定各参数不变，只是按等效性试验来进行设计，则每组需要样本含量：

n＝2［（1。9６＋１.2８2）（8/3）]2＝1４9。5≈150

可见,等效性试验设计的每组的样本含量要比非劣效性试验增加近３0例。

４。1．3优效性试验

①优于阳性标准对照组的试验：按照单侧的检验水准α，要求允许的二类误差概率不超过β,在T优于S的效应差量为ε，即T—S＝ε的条件下,优效性试验每组需要的样本含量为：

ｎ=2［（Z１—α+z1－β)(ｓ/ε)]2

检验效能为：

1—β=Ф［ε（2s２／ｎ）－1/２-z1－α］

例5：上例继续。假定单侧α＝０.05，β=０.１0，ε=2。即按0.05的检验水准,在90％的把握度下，检出试验组比阳性对照组优2mmＨg每组所需的样本含量为：

n＝2[（1。6４5+1.2８2）(8／2）］２=27４.２≈27４

②优于安慰剂组的试验：按照单侧的检验水准α，要求允许的二类误差概率不超过β，在T优于S有临床意义的差量为Δ时，优效性试验每组需要的样本含量为：

n=２[(Z1-α＋ｚ１－β）(s/Δ）]２

检验效能为：

1-β=Ф［△（2s2／ｎ)—1／２—z1—α]

例6：上例继续。假定设计为优于安慰剂的试验.单侧α＝0．０５，β=0．10，Δ＝10.即按０。05的检验水准，在90%的把握度下,检出试验组比安慰剂组优１0mmＨg每组所需的样本含量为：

ｎ=２[（1.6４5＋1．28２)（8/10)]2=1０。9７≈１2

由上可见，采用阳性对照的非劣效性试验、等效性试验、优效性试验所需的样本含量均比安慰剂对照试验要大。因为：z1—α＜ｚ1－α/2,ε<δ<△，所得的样本含量由少到多可依次排列为：安慰剂对照优效试验、非劣效性试验、等效性试验和阳性对照优效试验.例如，若取δ≤△/2，进行阳性对照等效性试验所需的样本含量至少是安慰剂对照优效性试验的４倍.上面的例子中δ为△的１/3，阳性对照的非劣效性试验所需的样本含量约是安慰剂对照试验的10倍,其他的情形更甚。]

4.2率指标

有关的数学符号及意义同定量指标。

4。2。1非劣效性试验按照单侧的检验水准α,要求允许的二类误差概率不超过β,在两组总体率T=S＝π的条件下，非劣效性试验每组需要的样本含量为：

ｎ=２［π（1—π）δ－2](z1－α+z１—β)2

检验效能为：

1－β=Ф[δ｛π(１—π）（2/n)}-１/2—z１—α]

例７:治疗手足癣常规推荐伊曲康唑１00ｍg用药4周方案，考虑到该药有极高的组织亲和性，停药后可在角质层持续停留4周，这种药动学特性提示服药１周的短程疗法可能对皮肤真菌病有效.为此设计了400ｍg１周和100mg4周的比较试验，考察新方案的疗效是否不比常规方案差。以临床治愈率作为评价终点,假设两方案的疗效相同,根据以前的疗效及有关要求，取:T=S＝π＝0。80，δ=0.15，α＝０.05,β=0。20。则z0.95=1．645，ｚ0。８０=0．8４5，每组需要的样本含量按公式计算如下:

ｎ=2［0．８0（1-０.8０）0.1５—2］(1.6４5+0。８４5）2=88。２≈88

4.2.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2），要求允许的二类误差概率不超过β，在两组总体率T=S＝π的条件下，等效性试验每组需要的样本含量为：

ｎ=2[π（１-π)δ-2］（z1－α/2+ｚ１—β）2

检验效能为:

1－β=2Ф［δ{π（1－π）（２/n）｝-1/2-ｚ1-α］—１

例8:上例如保持各项参数不变，只是按照等效性试验来设计，其每种方案所需的样本含量为：

n=2[0．80(１—0。8０）0。15-２]（１.９６0+０。845）２＝1１1．9≈112

值得提出的是,以上非劣效性/等效性试验样本含量的计算均建立在两组的真实差别为0，即在T=S的前提下，按检验水准α能检验出非劣效性/等效性的概率作为检验效能。如果试验药效实际上低于阳性对照药,但在δ以内时（这在理论上和实际中均是完全可能的），此时如仍用上述的计算公式计算样本含量,将会低估这一检验效能时所应该需要的样本含量,或者说达不到目前预定的检验效能［8]。例如[5］,按照Ｔ=S=π=０。90，δ＝0．1，α=0.05，β＝0。2０设计的等效性试验每组需要１42例,如果试验组的的真实疗效是８5%而不是90%，两组差别仅为5%，小于允许的10%(δ=0。１),仍符合等效性的条件。此时如果每组用142例进行试验，则下等效结论的机会仅为25％，检验效能很小，说明样本含量不够.

当然,在实际工作中样本含量的估计还应考虑到病人的脱落等问题[９］,此不祥述。

5 讨论

传统假设检验差别无显著性(P>α）与非劣效性/等效性试验的非劣效/等效（P≤α)是两种不同的概念,前者表示现有数据因例数少、误差大或参数本身相近等原因尚不能作出两组差别有统计学意义的结论，后者表示根据临床专业上的界值标准及统计上的α水准，可作出两组非劣效或等效且有统计学意义的结论。从理论及实际分析看[10］，两组差别无统计学意义（Ｐ〉α）,不一定存在非劣效性或等效性；两组差别有统计学意义（P≤α），也可能是非劣效或等效的,因此，一般假设检验意义下的结论决不可代替非劣效性或等效性检验。

从实际的结果看,若试验用药组和标准阳性对照组样本效应值的差值小于δ时,可进行非劣效性／等效性的评价.如果Ｔ组比S组样本效应的差值比δ还大时，则无需做上述的任何检验,因为即便做了也必定得不出非劣效或等效的结论。如果T组比Ｓ组的样本效应值好的幅度比δ大时，倒是可以做一下临床意义上的优效性检验，以确认T的疗效在临床疗效上确实比Ｓ好,这在临床研究中也是具有非常重要实际意义的［7，1０]。

如果开始是按照非劣效性试验来设计的,而且T样本的效应好于Ｓ样本，当非劣效性试验的无效假设被拒绝，而可以推断T比S具有非劣效性时,可进一步检验T的优效性［2].我们可称之为两步法或步进法.Mｏrikａwa和Yoｓhida概括为“单侧等效性检验与单侧优效性检验组合法”［11]。尽管在实际中并不一定要求对检验水准α进行校正，但是，要想这样做，应在设计阶段考虑到，并事先在试验方案中讲明,而不是到统计分析阶段根据检验结论的提示才想到要作进一步分析.

因为我们经常用阳性对照,试验药和阳性药在临床疗效上非劣效、相当或优效时,习惯上都笼统地称为“等效”，可以批准上市。但严格意义上的等效性与之是有区别的,正如生物利用度等效性研究中的等效性一样,试验药比阳性药效应低到一定程度或高到一定程度都不能说等效［12，１3].实际上,临床等效性并不要求这么严格，因为我们最关心的是新药是否不比阳性对照药差，至于在另一个方向上的好与不好并不关心，或者说没有必要关心.因而阳性对照试验中大多数应该属于非劣效性试验。当然,即使用了等效性试验方法，对新药评审来说，也无可厚非,因为这并未降低标准，从某种程度上说还抬高了标准.

本文所用的统计推断方法和一般情况下统计推断方法应用条件相似，当不符合统计方法的应用条件时应考虑进行校正或另选其它的方法，例如，两组均数比较方差不齐时，可采用Sattｅrthwaitｅ校正法等进行检验［6]；两组率比较例数较少或率较接近０或1时，可采用精确概率法等。随着临床疗效非劣效性/等效性评价的不断应用,对有些统计问题,譬如意向性分析（ITT分析）和符合方案集分析(PP分析）的选用、不符合统计应用条件的处理、缺失值及异常值的处理等还需作更深入的研究和探讨，以满足实际工作的需要和要求的不断提高.

我国目前已提出新药临床等效性试验的要求［14]，但仍存在着标准偏低或不够明确的不足。例如，６0对的试验例数在许多情况下检验效能不足，对临床等效界值δ并未明确指出，还有α、β的标准掌握不够一致等问题，这些均不利于新药的审评。从我国的临床试验实际看,已有进行等效性分析的实例，但往往不是从一开始就按照非劣效性／等效性试验来设计的，因而到最后统计分析时才确定的一些标准，在把握上容易出偏差。严格讲，非劣效性/等效性试验的标准(如样本含量、δ、α、β等等）都要在设计阶段确定，以后非必要时不得更改。作者认为，对临床非劣效性/等效性试验，应参照生物利用度等效性评价的指导原则，建立起临床疗效的非劣效性／等效性评价的指导性原则或标准，以使研究者有章可循。

本文介绍的主要是有关统计学方面的事项,对其他方面的问题已超出范围,但要提醒大家，非劣效性/等效性试验的所有设计、实施、分析等涉及到的申办者方、研究者方、管理当局等方面的工作程序、职责和要求等一点也不能减少。