诊断试验评价与ROC分析方法

诊断试验评价与ROC分析方法

第一节概述

诊断试验包括各种实验室检查诊断、影像诊断和仪器诊断(如X线、超声波、CT扫描、磁共振及纤维内镜等),各种方法的诊断价值如何,必须通过诊断试验确定。传统诊断试验

)、符合率(E)等,这些评价指标为广大的医评价方法有灵敏度(TP)、特异度(1FP

学研究工作者所使用,但是为了使用这些指标必须将诊断试验分成“阴性”和“阳性”两种结果,由于这些指标与所选择的诊断标准或阈值有关,评级结果可能出现不一致性情况。Harris 曾对某文献中的7篇诊断试验的文章进行了分析,发现其中有5篇得到的灵敏度和特异度是明显可以变化的,如果改变分类准则会是另一评价结果,这很容易引导研究人员做出有利于自己的选择。另一个问题是,从临床决策观点看,无论对何种疾病的诊断,最终应当做出“是”或“非”的回答,但实际中只有很少的情况能够给出明确的诊断,多数情况只能根据检查的结果做出一个不确定的判断,如“正常、大致正常、可疑、非常可疑、异常”,一种新的诊断技术的产生尤为如此。如果在评价时按照实验样本归为两类或丢弃中间状态的数据,很容易夸大诊断试验的结果。在实际工作中有相当一些诊断技术由于缺乏准确的评价,在一开始出现时往往过分夸大其作用即与此有关。ROC分析方法则可以更客观的对诊断试验做出评价。

一、诊断试验的ROC分析方法

ROC曲线即受试者工作特征曲线(Receiver operating characteristic curve),ROC曲线及其分析已统计决策理论为基础,起源于电子信号观测理论、用于雷达信号接受能力的评价,目前已经应用于许多医学、非医学领域,如人类感知和决策研究、工业质量控制、军事监控等。ROC曲线从二十世纪八十年代起广泛应用于医学诊断试验的评价。美国生物统计百科全书中关于ROC曲线的定义是:“对于存在或可能存在混淆的两种条件或自然状态,需要受试者、专业诊断学工作者以及预测工作者做出精确判断,或者准确决策的一种定量方法。”在诊断试验的评价研究中,它是以每一个检测结果作为可能的诊断界值(cut-off point),计算得到相应的真阳性率(TP)和假阳性率(FP),以假阳性率(即1-特异度)为横坐标,以真阳性率(即灵敏度)为纵坐标绘制而成的曲线,ROC曲线可从直观上表明诊断试验的准确度。

在医学影像诊断实验研究中,一个突出的问题表现在一些病例难以确定,另一个问题是对不同的医院或不同的观察者(医生),采用的诊断标准可能不一致,如何进行相互间比较,怎样把从不同观察者得到的数据结合起来分析,使分析结果具有较好的一致性。从本质上讲,一个诊断或预后系统的优劣,不应该取决于观察者在操作过程中对“诊断标准”的把握情况,而在与决策变量对疾病的区分能力。ROC分析是一种把灵敏度(TP)和特异度(1-FP)结合起来综合评价诊断准确度的一种方法。其基本思想是不固定诊断标准(阈值),把灵敏度和特异度看作一个连续变化的过程,用ROC曲线描述诊断系统的特性,用曲线下面积说明诊断的准确度。ROC分析有两个基本的特点: 允许诊断结果在“阴性”和“阳性”之间的中间状态; ROC分析结果与诊断标准无关。前一特点使诊断试验应用范围拓宽,并且能够保持信息的完整性;后一特点则能保持诊断试验评价结果的一致性。事实上,实际中只有少数的临床诊断结果具有明确的分类界限,如一个生化检测可能是一个数量化的结果,选择不同的分界点,将会有不同的灵敏度和特异度;当一个诊断结果主要有主观判断(如影像诊断),可以认为医生的诊断结果是通过对潜在的连续变量分组后做出的判断。无论上面那一种情况,分类阈值的选择对ROC曲线都无影响。从应用角度看,ROC分析最大的特点在于可以暂时回避诊断标准的选择问题,并且能够较好的保持信息的准确和完整。

理论上,当诊断试验完全无诊断价值即完全凭机会区分患者和非患者时,ROC曲线是一条由原点到右上角的对角线,这条线称为机会线(chance line),有时也称为参照线(reference line),如果获得的ROC曲线落在这条机会线上,其曲线下面积为0.5;理想的诊

断试验ROC 曲线是从原点垂直上升至左上角,然后水平到达右上角,其曲线下面积为1,该ROC 曲线对应的诊断试验可完全把患者判为阳性、把非患者判为阴性。但实际上这样的诊断试验极少或不存在,诊断试验的ROC 曲线一般会位于机会线的上方,离机会线越远说明诊断准确度越高。ROC 曲线下面积实际的取值范围为0.51,而一般认为对于一个诊断试验,ROC 曲线下面积在0.50.7之间时诊断价值较低,在0.70.9之间时诊断价值中等,在0.9以上时诊断价值较高。

二、 ROC 曲线下面积的估计

ROC 曲线下面积估计的方法有参数法和非参数法,均适用于结果为连续性资料或有序资料的诊断试验准确度的评价,但计算均比较复杂,大多需要借助统计软件实现。 (1)ROC 曲线下面积估计的非参数法

非参数法是根据诊断试验的检测结果直接计算绘制ROC 曲线所需的工作点(真阳性率,假阳性率),由此绘制的ROC 曲线称为经验ROC 曲线,其曲线下的面积可由梯形规则计算得到;Bamber 于1975年发现:经验ROC 曲线下面积等价于患者组和非患者组实验结果秩和检验的Wilcoxon Mann-Whitney 检验统计量,因而可由Wilcoxon Mann-Whitney 统计量估计曲线下面积的大小。如果用A Y 和N Y 分别表示患病组和非患病组的诊断变量,A y 和N y 表示各自的取值,假定检测值较大为异常,曲线下面积θ的估计值可以利用下式计算:

11

1(,)N

A n n A N N A S y y n n θ=∑∑(1-1)

其中:

1,(,)1/2,0,A N A N A N A N y y S y y y y y y

>⎧⎪

==⎨⎪<⎩

(1-2)

A n 和N n 为患病组和非患病组的检测例数。其含义是将患病组的所有检测值分别与正常组所

有的检测值比较,如果A N y y >得分为1,如果相等得分为0.5,否则不得分,然后计算平均得分即为θ。可以看出,ROC 曲线下的真实面积θ是患病组检测值大于正常组检测值的概率,即()A N P Y Y θ=>。ROC 曲线下面积还有另一种解释,即在各种不同诊断特异度下的平均灵敏度。θ的方差估计可以使用Delong 方法计算:

22

11()A N Y Y A N

Var S S n n θ=

+(1-3) 其中:

2

211[()]1A A n Y Aj j A S V Y n θ==--∑,2

2

1

1[()]1N N n Y Nj j N S V Y n θ==--∑

1

1

()(,)N

n Ai Ai Nj j N

V Y S y y n ==

∑,11()(,)A

n Nj Ai Nj i A V Y S y y n ==∑ 对两种诊断方式进行比较时,检验公式为:

u =

(1-4)

式中1()Var θ和2()Var θ为两样本ROC 曲线下面积的方差;12(,)Cov θθ为两样本面积估计的协方差,也可以用Delong 给出的非参数方法计算得到。在独立试验样本情况下,

12(,)0Cov θθ=

(2)ROC 曲线下面积估计的参数法

曲线下面积估计的参数法常常是通过拟合某种统计学模型来实现的,有学者检查了ROC 曲线与各种基本分布如幂、二项式、Poisson 分布、卡方分布和伽玛分布等,发现ROC 曲线非常逼近双正态模型所产生的曲线,因此拟合双正态模型是目前ROC 曲线分析中最常使用的方法。该法假设患者和非患者的实验结果均符合正态分布,根据实验结果拟合双正态模型(binormal distribution model ),由模型拟合的ROC 曲线称为拟合ROC 曲线或称为光滑ROC 曲线,该曲线可用两个参数表示,一个参数用a 表示,是患者组与非患者组实验结果的标准化均数之差;另一个参数可用均数b 表示,是非患者组与患者组实验结果的标准差之比,两个参数可由下式估计得到:

A N

A

y y a s -=

N A s b s = (1-5)

其中

A y 、N y 分别是患者组和非患者组检测结果的均数,A s 、N s 分别是患者组和非患者组检

测结果的标准差。由两个参数可得到绘制光滑ROC 曲线所需的工作点及曲线下面积的估计值。曲线下面积可由下式估计得到:

θ=Φ (1-6)

Φ为标准正态分布函数。

因为患者组和非患者组的检测结果经常不符合双正态分布的条件,一般需经过正态变换,所以双正态模型的两个参数一般不宜直接计算得到,可由最大似然估计法得到。参数法的应用条件为:患者与非患者的实验结果均服从正态分布,但这是指ROC 曲线的函数形式,而不是指检验结果的基本分布,因为变量变换几乎可使任何实验结果转换为双正态分布,而且实际上,当检测结果为有序资料时,数据仅有几个值或几个分类,对这类数据可拟合许多不同的分布。Hajian-Tilaki 等发现,即使数据不服从双正态时,参数与非参数法估计的ROC 曲线下面积及其方差也十分类似,这一结果提示,不必过分要求数据服从双正态,可根据应用的方便性与实用性来选择方法。

参数法估计ROC 曲线下面积的缺点是在极少数情况下,估计的ROC 曲线下面积可能会出现位于机会线下的情况,或者当资料远远偏离其应用条件时,估计的结果可能会严重偏离其真实值。在样本量较大且想通知较少时,参数法和非参数法估计的ROC 曲线下面积常常近似相等。

三、ROC分析方法研究进展简述

作为临床诊断数据评价的一种有效技术,ROC分析已经逐渐为医学研究人员所认可,并引起了更多统计专业人员的注意,把现代发展起来的一些多元统计方法引入ROC分析,使之在理论上有了更稳固的基础,应用范围不断扩大。虽然ROC分析技术在20世纪50年代就提出,但真正在医学诊断领域应用则在80年代;1989年Hanley给出一个综合性的报告,引起更多的统计专业人员注意则是在90年代;2002年周晓华等出版了《Statistical Methods in Diagnostic Medicine》专著,其中对大量地文献做了综述,内容十分丰富。下面简要叙述诊断试验ROC分析的有关内容。

ROC分析有参数和非参数两类方法,最具代表性的参数方法是采用双正态模型作ROC 分析,对于连续和有序测量数据,参数法的优点是可以获得ROC曲线方程,得到曲线下的全面积和部分面积,面积的估计值是无偏的,但对连续测量的数据分布有一定要求。典型的非参数法是Wilcoxon方法,它适合任何类型分布的数据,但无法直接对有协变量的情况进行分析和处理。由于实际中可能有协变量对诊断试验产生影响,如对某种疾病检测方法进行鉴定,各年龄组检测对象的诊断标准不尽相同,其诊断的准确度也可能存在差异,关键的问题是对协变量的影响大小做出判断,并将其影响在诊断试验评价中给予考虑,对此可以采用回归模型的方法。相关结构数据的ROC分析,典型的问题是在影像学诊断试验中由多个阅片者和多种不同诊断方式得到的数据,处理这类问题最困难的是估计量的方差估计,对此有相应的非参数方法,但在考虑协变量的情况下,采用参数回归模型会使分析更加灵活;模型的参数估计可以使用GEE(generalized estimation equation)方法,也可以采用Jackknife和Bootstrap估计方法。还有一个类似的问题是集群数据的问题,例如在乳腺X线照相研究中,乳腺分为5个区域,从而可以从每个患者双侧乳房平片中获得10个诊断数据,即以乳腺分区为基本观察单位,每一患者为一个群,Obuchowski(1997)详细描述了其数据分析的非参数方法。

ROC曲线下部分面积用于描述特殊情况下一种诊断方法的准确性。例如,在影像诊断评价时,不希望被比较的两种诊断方法假阳性率超过20%,即两试验的特异度不得低于0.8,否则诊断将无实际意义,此时用假阳性率为00.2的ROC曲线下部分面积对两种诊断的准确性进行比较,要比用ROC曲线下全面积比较具有更高的灵敏性。使用ROC曲线下部分面积的优点是,涉及此指标的检验统计量比涉及固定FPF灵敏度的检验统计量检验效能高,另外可以将曲线下部分面积转换成人们熟悉的01刻度比例。

在由“金标准”诊断为有许多分类的情况下,可以构造类似于二分类的ROC评价诊断准确度的指标,其非参数ROC分析方法已被提出。与此相似的是联合诊断试验的ROC评价问题,对同一观察对象采取多项检查措施进行诊断,如何对其诊断效果进行ROC评价,是一个有待研究的问题;我们正在考虑采用决策树和支持向量机的方法,有效的计算ROC曲线下的面积及估计误差;另一种考虑是将多维诊断测量降为二维,然后构造二维测量的ROC模型和计算方法。

ROC应用越来越广泛,1995年,美国临床实验室标准化委员会(NCCLS)将ROC曲线引入其标准和指南文件,颁布了《使用ROC曲线评价临床试验的准确度》(GP10-A)批准指南,将ROC分析作为实验室临床诊断试验统计分析的标准。此外,ROC分析方法也可以用于Meta分析(SROC)、质量控制、临床药物疗效评价、基因表达数据分析等多个方面。关于ROC应用软件,目前一些大型商用统计软件尚未包含ROC分析专用程序,多由一些大学的研究人员自己开发和使用,这些计算程序有的是用FORTRAN语言编写,还有一部分是用S和R语言编写,其中部分软件可以免费获得,如ROCKIT、ROC ANAL YSIS和DBM MRMC;另外还有一部分是SAS宏程序,在SAS 9.2版本以后,可使用logistic过程绘制ROC曲线并完成相应的参数估计。有些简单的ROC计算可以借助SAS、SPSS等一些软件,

但对一些较新的ROC 模型及算法不能直接完成,需要适当的编程,从而使其应用受到一定的限制,但随着ROC 分析的广泛应用和方法的成熟,相信会很快将相应的软件模块加入通用统计软件系统。

本章后面涉及的主要内容包括:带有协变量和相关数据的ROC 分析,样本含量估计方法的诊断试验评价问题。

第二节 具有协变量的ROC 分析

本节介绍使用回归模型研究协变量对诊断试验准确度影响的ROC 分析方法,它允许在控制了可能的混杂因素后比较不同试验的准确度,其重点在于构建试验结果为连续型数据和有序数据的ROC 曲线模型。文献中已提出三种ROC 分析的回归模型:第一种方法是给出一个模型,诊断测量结果是关于疾病状态和协变量的函数,在估计协变量效应的同时,得到调整后的测量结果与疾病之间关系的参数方程,最后导出相应的ROC 曲线方程,其特点是程序较易实现;第二种方法是对协变量组合计算试验准确度指标,如用Wilcoxon 方法计算ROC 曲线下面积,然后应用回归模型评价协变量对试验准确度的影响,其特点是可以直接比较不同的诊断试验,但这种方法仅适合分类的协变量,一般需要较大的样本;第三种方法是直接建立协变量影响ROC 曲线的模型,其基本思想是在ROC 曲线中直接加入协变量的效应,使用它可以直接拟合和比较不同的诊断试验,是更一般化的ROC 曲线回归模型,但其计算程序相对不容易实现。本文使用的是第一种ROC 分析方法。

一、具有协变量的ROC 回归模型

假定患病组和非患病组的诊断变量A Y 和N Y 服从任意分布,D 表示按“金标准”诊断的结果,即实际的患病情况,0D =表示“正常”,1D =表示“异常”;又假定两组测量的均数

(1,)(0,)D X D X μμ=>=,则用于诊断评价的ROC 模型形式如下:

((1)''(1))

((0)''(0))c D c c c TP S D X X D FP S D X X D αβγδαβγδ=+=++=⎧⎨

=+=++=⎩(2-1) ROC 曲线方程可以表示为:

1

(){()}D TP FP S S FP -=

现具体说明模型及参数的意义。在相同协变量的情况下,ROC 曲线比较了“有病”与“无病”的实验结果。式中c TP 和c FP 分别表示以c 点作为诊断标准,诊断方法的真阳性率(灵敏度)和假阳性率(1-特异度);123(,,,

,)'p X X X X X =是与诊断有关的p 个协变量,它可能

是某些特征因素(如年龄)、其他检查项目、疾病的亚型等。D S 为患病组的生存分布函数,

D S 为非患病组的生存分布函数;β为疾病状态的效应参数,间接反映诊断测量结果对疾病

的区分能力;c α是与诊断标准c 有关的常数项;参数123(,,,,)'p γγγγγ=,表示协变量

对诊断结果的影响,12(,,

,,0,0

0)',p q p δδδδ=≤,则表示协变量对诊断试验准确性

的干扰作用,即在协变量的不同水平上诊断效果存在差异。

二、连续诊断变量的ROC 模型

假定诊断试验结果Y 服从均值为(,)D X μ和方差为2()D σ的分布,均值与协变量X 之间呈线性关系,Y 经过标准化后的生存函数为0([(,)]/())S y D X D μσ-。在无法确定误差分布的情况下,如果测量值的均数可以写成下面的形式:

(,)''D X a D X XD μβγδ=+++

则ROC 曲线模型为:

1

001122(){()}p p TP FP S a bS FP c X c X c X -=++++

(2-2)

其中:

/(1)a D βσ=-=,(0)/(1)b D D σσ===

/(1)k k c D δσ=-= 1,2,,k p =

模型中的参数可以利用拟似然(quasi-likelihood )方法进行估计:

1

(,)(,)

(

)()0()

n

i i i i i i i D X Y D X D μμα=∂-=∂∂∑(2-3)

式中α表示(,)D X μ中所要估计的参数,两组的方差则分别为:

2

21

(0)[(0,)]/N

n i i N i D Y D X n σμ===-=∑

2

21

(1)[(1,)]/A

n i i A i D Y D X n σμ===-=∑ (2-4)

其中A n 和N n 为两组的检测例数。ROC 曲线的基础生存函数0S 的估计,可以利用非参数方法获得:

1

01

()[(,)/()]n

i

i

i

i

i S y n

I Y D X D y μσ-==-≥∑ (2-5)

函数I 取1或0值。由拟合出的ROC 曲线能够估计出曲线下的面积,其标准误可采用

Bootstrap 方法进行估计。特殊的,在正态分布的情况下,ROC 曲线的模型为:

11122()1{(1)}p p TP FP a b FP c X c X c X -=-Φ+Φ-+++

ROC 曲线下的面积为:

()X θ=Φ=Φ (2-6)

其中Φ为标准正态的分布函数。

在两组方差相近情况下,线性模型参数估计的拟似然估计与最小二乘法相差不是很大,因此实际中也可以采用普通的线性回归方法获得近似的ROC 曲线。最小二乘估计在两组方差不同情况下得到的也是无偏估计,但参数估计的标准误偏大,因此最好使用拟似然法对参数进行估计。

三、有序诊断结果的ROC 模型

对于有序诊断试验,可以采用有序回归模型构建ROC 模型。其基本思想是,将实验结果1,2,

Y g =看作由一个潜在的连续变量*Y 在不同分组截断点

(cut points )上经过分组后得到的结果,在此基础上通过包含位置参数和尺度参数的有序模型作为生存函数,构建合适

的ROC 模型。Toledano (1996)提出了基于正态分布的多变量ROC 模型,并给出了相应面积估计误差公式,但使用这种方法需要特殊的计算程序。我们采用简单的有序logistic 模型作为“生存函数”,相应的ROC 模型为:

11exp[((1)''(1))]1,2,,111exp[((0)''(0))]c c

c c TP D X X D c g FP D X X D αβγδαβγδ⎧

=⎪+-+=++=⎪=-⎨

⎪=

⎪+-+=++=⎩

(2-7)

其中123(,,,

,)'p X X X X X =,123(,,,,)'p γγγγγ=,12(,,,,0,00)',p q p δδδδ=≤。

由于ROC 曲线与分类点的选择无关,消去c α得到ROC 曲线方程:

11

1(1)exp[(')]

TP FP X βδ-=

+--+ (2-8)

ROC 曲线下面积可以通过积分得到,即:

2

1ln 11(1)

ξξθξξ=-

--- (2-9) 其中exp[(')]X ξβδ=+。参数估计时可以诊断测量的结果变量为应变量,以由“金标准”得到的结果变量D 和协变量X 及交互项作为自变量,作有序logistic 回归,得到的参数即为模型(2-7)中的参数估计。根据实际资料得到参数估计值β和'

δ后,可由式(2-9)得到θ的估计值θ。θ的方差估计为:

22

3

(1)ln 2(1)()(

)()[]()(1)d Var Var Var d θξξξθξξξξ+--==- (2-10)

2211

2

221

1

1

21

()()()()()2[()()](,)2[(

)()](,)[exp()]()[[exp()]()]2[[exp()](,q q

i i i i i i q

j i i j

i j

q

q

q

i k k i

k k k i k q

i i k k k Var Var Var Cov Cov X Var X X Var X X Cov ξξξξ

ξβδβδβδδβξξδδδδβδββδδβδβδ==≠====∂∂∂∂=+++

∂∂∂∂∂∂∂∂=++++

+∑∑∑∑∑∑∑121

)]2[[exp()](,)]

q i q

q

i j i j k k i j

k X X X Cov βδδδ=≠=+

+∑∑∑

关于θ的可信区间估计,有两种方法:一是现根据模型参数的方差()Var β、()Var δ和协方差(,)Var βδ求出ξ的可信区间,然后再计算θ的可信区间;二是直接根据()Var θ算出。由于β和δ的正态性较好,使用前者效果更好一些。

一般情况下,正态模型和logistic 模型对数据拟合的结果相近。还有一些可供使用的拟合模型,如双对数、负指数、Poisson 、Gamma 等模型。理论上讲,用哪种模型,与诊断变量的隐变量*

Y 实际分布有关,但有研究表明:实际中无需对其分布做出严格的假定,它基于两个理由:①诊断变量即使真正服从正态分布,实际中选择不同的分类截断点,可以使患病组与非患病组的分布形状有很大的变化,ROC 曲线自然也要发生变化,难以从有序分类结果推断隐变量*

Y 的分布;②ROC 曲线不能为已决定诊断变量的分布,如果对诊断变量实施一些单调变换,将会有不同的基础分部,但ROC 曲线的函数形式却不改变。因此,用不同的有序模型通常差别不大,而仅仅是ROC 曲线的数学表达形式不同。但要注意,理论上用参数较多的模型拟合的效果更好一些,如采用更一般化的有序logistic 模型:log (')/exp(')

c itP Z Z αϕτ=-,结果会更加准确。 四、实例分析

例 1 临床试验显示,动脉硬化患者的脉声中高频含量远比健康者多。根据这一原理有关专业人员在制作“电脑动脉测试仪”时,试验功率谱的相关值SER(5)对检测动脉硬化的区分能力。试验时对经临床诊断的108例动脉硬化患者和198例正常人进行测量,资料如表1.

中的参数是否具有显著意义,可以采用普通线性模型方法进行检验,结果如表2。可以看出,协变量年龄及疾病状态与年龄的交互作用都为显著。注意:这里并没有对数据模型的误差作正态和等方差的假定,因此只是一个意向性的检验。

表2 诊断试验的线性回归参数估计 变量 自由度 参数估计值 标准误 t 值

P 值

截距 1 1.55862 0.09082 17.16 <0.0001

疾病 1 0.45014 0.29426 1.53 0.1271 年龄

1 0.02959 0.00226 13.11 <0.0001 疾病⨯年龄

1

-0.01553

0.00512

-3.04

0.0026

进一步用拟似然的方法拟合线性模型,结果与最小二乘估计的结果相同,即有:

(,) 1.558620.45010.029590.01553D X D X XD μ=++-

根据(2-4)得到(0)0.42319D σ==,(1)0.47497D σ==,因此ROC 曲线方程为:

1

00()(0.947710.89098()0.03270

)TP FP S S FP X -=-++

利用ROC 曲线方程,可以采用梯形法计算出在不同协变量取值下的ROC 曲线下面积

(本例采用300个区间),同时利用1000个Bootstrap

样本计算出面积的标准误。结果见表3,图1给出了三个不同年龄段的经验ROC 曲线。可以看出,用SER(5)诊断动脉硬化对高年龄组更有意义。

上面给出的多变量ROC 模型,可以直接处理实际中诊断测量为连续型,具有协变量混杂或干扰的一些问题。在评价SER(5)对检测动脉硬化例子中,由于不同年龄组的人本身SER(5)就有很大的差别,在评价SER(5)的诊断作用时,必须考虑年龄对诊断的影响,某一水平的SER(5)对年轻人可能属于正常范围,而对老年人则可能是动脉硬化的表现,利用文中给出的模型可以较好地解决这一问题。至于为什么SER(5)对不同年龄组的人

诊断效果不同(交互项作用),对低年龄组(如年龄≤50岁)区分能力低的问题,除测量方法外,也有可能由于所取样本信息不足所致。

例2 采用X 线诊断纵膈淋巴结肿大。先收集了3名放射医生采用5分类评价方法得到的数据,以病理分析结果作为诊断的金标准,其中115例有纵膈淋巴结肿大,94例无踪隔淋巴结肿大,结果见表4。本研究的目的是评价X 线诊断纵膈淋巴结肿大的准确度。

表4 3名放射医生采用X 线诊断纵膈淋巴结肿大的数据 阅片者 疾病 诊断的有序结果

1 2 3 4 5 1 0 18 8 4 2 0 1 1 1 3 6 15 19 2 0 13 8 5 3 1 2 1 2 5 6 10 13 3 0 10 9 7 4 2 3

1

2

5

6

9

13

注:疾病=0表示无纵膈淋巴结肿大;疾病=1表示有纵膈淋巴结肿大。

本例需要考虑由于不同的阅片者是否有不同的X 线诊断准确度,如果不同,在估计ROC 曲线时则必须考虑阅片者的影响。为此,先用有序logistic 模型分析不同阅片者对估计ROC 曲线的影响,即以诊断的有序结果作为应变量,以疾病状态和阅片者作为自变量进行分析。阅片者作为协变量可以定义2个二分类指标1X 和2X ,用12(,)(0,0)X X =表示第一个阅片者,12(,)(1,0)X X =表示第二个阅片者,12(,)(0,1)X X =表示第三个阅片者,交互项为31X X D =和42X X D =,模型参数的估计和检验结果见表5。需要注意的是参数估计的正负号,如果使用logistic 程序,有些软件定义的累计概率(|,)P Y c D X ≤(如SAS ),有些软件定义的是(|,)P Y c D X ≥,ROC 模型使用的是后者,如果属于前者,则需要将效应参数的正负符号取相反。

表5 诊断试验的logistic 回归参数估计 变量名

变量意义 自由度 参数估计值 标准误 2χ值

P 值

D 疾病 1 3.5744 0.4896 53.2887 <0.0001

1X 阅片者2 1 0.5733 0.4793 1.4311 0.2316 2X 阅片者3 1 1.0711 0.4708 5.1765 0.0229 3X

疾病⨯阅片者2

1

-1.0472

0.6316

2.7490

0.0973

4X

疾病⨯阅片者3

1 -1.5459 0.6277 6.0649 0.0138

注:表中未列出截距()c α的参数估计结果,12(,)0.20444,(,)0.21075Cov Cov βδβδ=-=-

从检验结果可以看出,阅片者的煮主效应和交互作用显著(0.05)P <,说明阅片者对估计ROC 曲线产生影响,ROC 曲线方程为:

1

121

1(1)exp[(3.5744 1.0472 1.5459)]

TP FP X X -=

+---- 根据前面给出的公式,可以得到3个阅片者的ROC 曲线下面积和标准误的估计值(见表6)。

表6 3名放射医生用X 线诊断纵膈淋巴结肿大诊断的准确

度估计 医生

面积θ 标准误()SE θ

95%可信限

阅片者1 0.9228 0.0259 (0.8721,0.9735) 阅片者2 0.8484 0.0437 (0.7627,0.9340) 阅片者3 0.7977 0.0517

(0.6965,0.8989)

例3 用有序测量的ROC 模型对例1的数据进行分析。

由于诊断变量Y 是一个连续的测量指标,按5P 、25P 、75P 、95P 四个百分位数分成5个数量等级,其截断点值分别为56、194、1394、4077,分析结果见表7和表8。

表7 有序logistic 回归参数估计

变量 自由度 参数估计值 标准误 2χ值

P 值

疾病 1 -0.7844 1.2953 0.3667 0.5448 年龄 1 -0.1298 0.0123 112.1506 <0.0001 疾病⨯年龄 1

0.0525

0.0225

5.4473

0.0196

表8 对不同年龄SER(5)诊断动脉硬化的ROC 曲线下面积估计

评价指标

30岁 40岁 50岁 60岁 70岁 ()X θ

0.629 0.707 0.776 0.833 0.879 {()}SE X θ

0.105

0.069

0.044

0.035

0.036

由表可见交互项作用显著,表示SER(5)对动脉硬化诊断效果在不同年龄段有所不同,应分别考虑。ROC 曲线方程为:

11

1(1)exp[(0.78440.0525)]

TP FP X -=

+---+

可以看出,与前面的结果相比,用有序logistic 回归计算出的ROC 曲线下面积的估计值略为偏高。

第三节 相关诊断数据的ROC 分析

相关诊断数据是指测量结果在各观察单位之间不完全独立,由诊断试验设计本身产生,它主要包括两种情况:第一种数据结构来自同一观察对象重复接受多次测量或诊断,误差是随机的,它不限于剂量诊断,也可以是按等级分类的实验结果,如影像诊断试验进行多次读片,同一观察对象的试验结果间不独立,存在组内相关性。第二种数据结构产生于同一观察对象接受不同的试验,由于诊断结果在同一患者身上得到,数据间彼此也不完全独立,用数据独立分析方法得到的估计误差与实际不相符,获得的参数区间估计和假设检验结果不准确。以往多是对影像学中多个阅片者的ROC 研究,主要采用混合效应的方差分析(ANOV A )模型,以及Jackknife 和Bootstrap 方法估计不同的方差成分。本节沿用独立诊断数据的ROC 回归模型,但所用的参数估计方法更为复杂。本节采用广义估计方程(GEE )和Bootstrap 两种方法估计误差。

一、连续诊断变量的ROC 分析

1. ROC 曲线模型 在独立诊断数据的ROC 模型基础上进行扩展。连续诊断变量重复测量的ROC 分析,亦有相应的参数估计的方法。为了简单,先考虑只有一种试验的情况,假定对每一例观察对象重复测量的最大次数为m ,则对第i 例观察对象的测量结果可表示为

1i m ⨯的向量,i m 为第i 例观察对象重复测量的次数()i m m ≤。诊断试验结果ij Y 服从均值

为(,)j i i D X μ和方差为()j i D σ的正态分布,均值与协变量X 之间呈线性关系,并记患病组总体标准差为(1)j i D σ=;非患病组总体标准差为(0)j i D σ=;患病组和非患病组的诊断变量jA Y 和jN Y 服从任意分布()jA jN μμ>,A n 和N n 为两组的试验例数。在任意误差分布的情况下,测量值的均数可以写成下面的形式:

(,)''j j j D X D X X D μαβγδ=+++ (3-1)

ROC 曲线模型为:

1001122(){()}p p TP FP F a bF FP c X c X c X -=++++

+ (3-2)

其中:

/(1)a D βσ=-=,(0)/(1)b D D σσ===

/(1)k k c D δσ=-= 1,2,,k p =

2. 模型的参数估计 按照Liang 和Zeger (1986)给出的广义估计方程(generalized estimating equation ,GEE )的方法,式(3-1)的GEE 参数估计为:

[]1

1

(,)(

)(,)0n

i i i i i i i D X V Y D X μμα

-=∂-=∂∑(3-3)

式中α表示(,)D X μ中所要估计的参数向量;1i V -为12(,,

,)i i i i im Y Y Y Y =的协方差矩阵,

为得到这一矩阵,规定如下工作相关矩阵(working correlation matrix ):

12121212

111i

i i i m m i m m R ρρρρρρ⎛⎫

=

⎪ ⎪⎝

相应的协方差矩阵则用下式计算:

1/21/2i i i i i V A R A φ= (3-4)

其中i A 是i i m m ⨯阶表示均数与方差间函数关系的对角阵,即:

1/21/21/21/212[(),(),

,()]i i i i im A Diag νμνμνμ=

特殊地,在正态假定下2

()1,(,)ij i i i D X νμφσ==。

参数α的估计值α可利用通过迭代获得,具体步骤如下: (1)用普通线性模型给出α的初始估计值;

(2)由模型的标准残差对作业相关矩阵R 进行估计; (3)对α的估计值进行迭代,第1r +步迭代值为:

1

''(1)

()

1111n n r r i i i i i i

i i V V μμμμα

α

ααα

α-+--==⎡⎤⎡⎤

∂∂∂∂=+⎢⎥⎢⎥∂∂∂∂⎣⎦⎣⎦

∑∑ (3-5) (4)循环到第2步,直至满足迭代条件进行下一步: (5)参数估计的方差-协方差阵:

111

'''1111111var()n n n i i i i i i i i i i i i i i V V V Y V V βμμμμμμαααααα-------===⎡⎤⎡⎤⎡⎤∂∂∂∂∂∂⎢⎥⎢⎥⎢⎥∂∂∂∂∂∂⎣⎦⎣⎦⎣⎦

∑∑∑(3-6)

其中1var()()()i i i i i Y Y Y μμ-=--。

ROC 模型的GEE 算法,除能解决重复测量问题外,还有一个很大的优点,即在有缺失

数据的情况下,参数估计可以照常进行。在应用时需要注意两个问题:一是作业相关矩阵有多种形式可供选择,由于GEE 估计的稳健性,相关阵R 的选择对模型系数参数估计的影响并不大,但为了能够正确估计组内的方差,根据诊断试验的数据特点,一般情况可以选择对称的可交换(exchangeable )相关矩阵,即同一观察对象的不同测量值具有相同的组内相关;二是GEE 主要考虑的是固定效应的分析,对模型随机成分分析不够,如没有考虑协变量对方差的影响,对方差的分解也仅限于2个水平的情况,对于设计成多个水平的诊断试验,如多中心、多个医生、多次测量的诊断试验,除需要得到ROC 曲线外,常需要对不同水平的方差进行估计,这时最好采用混合效应模型或多水平模型。

3. ROC 曲线下的面积的估计误差 为了简单,ROC 曲线下面积的误差估计使用Bootstrap 法,其过程与步骤简述如下:

(1)从原始“有病”实验样本中又放回地抽取A n 个观察单位,从原始“无病”的试验样本中又放回的抽取N n 个观察单位,然后和在一起形成一个Bootstrap 样本。

(2)对Bootstrap 样本的q 个试验,分别利用拟似然或GEE 方法进行参数估计,获得q 个试验ROC 曲线下面积(1,2,

,)j j q θ=的Bootstrap 估计值*

(1,2,

,)jr r R θ=。

(3)重复前面两个步骤R 次,q 种试验各获得R 个ROC 曲线下面积的估计值。 (4)计算q 种试验的ROC 曲线下面积的协方差矩阵:

****1

1(,)()()1R

j k jr j kr k i Cov R θθθθθθ==---∑ (3-7) 其中:

*

*

1

1

R

j jr

i R

θθ

-==∑

在获得ROC 曲线下面积的协方差矩阵后,可以采用正态理论得到j θ的区间估计,也可以对各试验的ROC 曲线下面积进行假设检验。

二、有序诊断数据的ROC 分析

1. 有序诊断数据的ROC 模型 同样可以在独立诊断数据的有序ROC 基础上进行扩展,可以有T 种不同的诊断方法,每种方法有g 个有序测量结果,每一例观察对象重复测量的最大次数为m ,为了表达简单仅考虑有一种实验的情况,如果采用简单的有序logistic 模型作为“生存函数”,相应的ROC 模型为:

[][]11exp ((1)''(1))1,2,111exp ((0)''(0))c c c c TP D X X D c g FP D X X D αβγδαβγδ⎧

=⎪+-+=++=⎪

=-⎨

⎪=

⎪+-+=++=⎩

(3-8)

123(,,,

)'p X X X X X =,123(,,,)'p γγγγγ=,12(,,,0,0,0)'p δδδδ=,q p ≤。

ROC 曲线方程为:

11

1(1)exp[(')]

TP FP X βδ-=

+--+(3-9)

ROC 曲线面积为:

2

1ln 11(1)

ξξθξξ=-

---(3-10) 其中exp[(')]X ξβδ=+。

这种方法的最大优点是,对于重复测量数据可以利用ROC 模型中的效应参数估计,直接完成ROC 曲线下面积及其误差的估计。

2. ROC 模型参数估计的GEE 估计 假定诊断试验的有序反应变量Y 取值为

1,2,

c g =,由累计概率(|,)P Y c D X ≥可得(|,)c p Y c D X π==的概率:

(|,)(1|,)c p Y c D X p Y c D X π=≥-≥+

若假定对每一例观察对象重复测量的最大次数为m ,把变量Y 化作只取0或1的1g -个二分类的指示变量,则对第i 例观察对象的测量结果可表示为1i gm ⨯的向量,i m 为第i 例观察对象的重复测量次数()i m m ≤,诊断结果可以记作:

1121,1,11222,1,212(1)(,,,,,,,,,,,

,)'i i i i i g i i i g i r i r i g r Y Y Y Y Y Y Y Y Y Y ---=

其中当第t 次测量it Y h =时,1iht Y =0ict Y =()c h ≠,相应的取值概率为:

1121,1,11222,1,212(1)(,,,,,,,,,,,,)'i

i i i i g i i i g i r i r i g r ππππππππππ---=

()ict ict ππα=,1

1g

ict c π==∑;α是需要估计的参数向量,对于ROC 模型(,',')αβγδ=,它

可由下面方程获得:

[]1

1

()'()0n

i i i i i V Y παπα-=∂-=∂∑(3-11) i V 为i Y 的作业方差矩阵,i V 应尽可能选择接近真实协方差矩阵,它是待估计参数α的函数。

为得到这一矩阵,规定如下相关矩阵:

11112221223132

312i

i

i

i i i i i m i i i m i i i i i m i im im im m R ρρρρρρρρρρρρ⎡⎤

⎢⎥⎢⎥

⎥=⎢⎥⎢⎥⎢

⎥⎢⎥⎣

ist ρ是一个(1)(1)g g -⨯-阶矩阵,对角线元素1/21/2

itt it it it

A V A ρ--=。 其中:

()'it it it it V Diag πππ=-,()it Diag π表示主对角元素为it π的对角矩阵

1/21/21/21/21122(1)(1)[{(1)},{(1)},

,{(1)}]it i t i t i t i t i g t i g t A Diag ππππππ------=---

()ist s t ρ≠的确定有不同的方法,理论上讲给出的相关矩阵愈接近实际,估计的效率愈

高。给出相关矩阵后,相应的作业协方差矩阵为:

1/21/2i i i i V A R A =

其中:

1/21/21/21/211112121(1)1(1)11/2

1/2

1/2

1122(1)(1)[{(1)},{(1)},,{(1)},

,

{(1)},{(1)},

,{(1)}]

i i i i i i i i i i i i g i g i m i m i m i m i g m i g m A Diag ππππππππππππ----=------

参数α的估计值α可利用Fisher 得分算法通过迭代获得,得到ROC 模型参数的估计值。 三、实例分析

例4 牙髓电活力测试仪可以对牙髓的“炎症”和“变性/坏死”进行诊断。先对一种国内新开发的数字测试以进行试验,与一种进口的测试仪器进行比较,试验对104名患者用两种仪器进行了测试(表9),每名患者重复测量2次,后经病理学检验其中85名为炎症牙髓,29名患者属坏死牙髓,试对两种仪器的诊断性能进行分析。

表9 两种牙髓电活力测试仪检测牙髓坏死的诊断试验数据 编号

病理诊断 年龄(岁) 自发痛

进口仪器(电压) 国产仪器(电流) 第1次测

第2次测量 第1次测量 第2次测量 1 1 28 1 80 80 200 200 2 0 20 0 24 24 56 57 3 0 31 0 59 60 113 110 4 0 40 0 22 26 64 61 5 0 59 0 28 27 57

55

111 0 42 0 22 86 86 88 112 0 35 1 38 117 117 116 113 0 16 1 36 120 120 123 114

1

28

21

163

163

166

采用连续诊断变量模型,用GEE 方法对回归模型的参数估计进行检验,交互项不显著。不包含交互项的GEE 参数估计值见表10。

表10 诊断试验线性回归模型的GEE 参数估计 变量 进口仪器

国产仪器

参数估计 标准误 Z 值 P 值

参数估计 标准误 Z 值 P 值

截距 1.5118 0.0588 25.69 <0.0001 1.8982 0.0983 19.31 <0.0001 疾病()D 0.2611 0.0486 5.37 <0.0001 0.4220 0.0640 6.59 <0.0001 年龄1()X -0.0037 0.0015 -2.40 0.0166 -0.0067 0.0023 -2.87 0.0041 自发痛2()X 0.1039

0.0548

1.90

0.0580

0.1847

0.0732

2.52

0.0116

进口仪器:12(,) 1.51180.26110.00370.1039D X D X X μ=+-+ 国产仪器:12(,) 1.89820.42200.00670.1847D X D X X μ=+-+ 由式(3-2)给出ROC 曲线方程:

进口仪器:100(){1.16036 1.04165()}TP FP F F FP -=-+ 国产仪器:100(){1.51086 1.18578()}TP FP F F FP -=-+

利用ROC 曲线方程,可以采用梯形法计算出ROC 曲线下面积(本例采用300个区间),同时利用1000个Bootstrap 样本计算出面积的标准误,95%置信区间的估计利用正态原理算出,结果见表11和表12。

表11 两种牙髓电活力测试仪诊断牙患的ROC 模型参数估计值

估计方法 进口仪器

国产仪器

12(,)Cov θθ

1()SE θ

2()SE θ

任意分布 0.8155 0.0411 0.8444 0.0450 0.001207 正态分布 0.7867

0.0411

0.8313

0.0427

0.001161

表12 两种牙髓电活力测试仪诊断牙患的ROC 曲线下面积的95%置信区间 估计方法 进口仪器 国产仪器

下限 上限 下限 上限 任意分布 0.7350 0.8962 0.7563 0.9326 正态分布 0.7061

0.8673

0.7476

0.9150

对两种仪器进行假设检验:

0.7987

Z =

=

=0.05P >,两种电活力测试仪诊断炎症牙髓和坏死牙髓无显著差别。

第四节 诊断试验的样本含量估计

诊断试验评价可以是一种新的诊断方法与“金标准”比较,也可以是一种改进的诊断方法与常规诊断方法进行比较;受检者可能接受的是生化检查的实验室诊断,也可能接受的是影像检查诊断,不同诊断试验设计对样本含量要求不同,一般情况下配对设计所需的样本量比成组设计所需的样本含量小很多,重复测量比单次测量所需的样本量小,连续试验数据比有序分类试验数据所需的样本量小。目前诊断试验已提出多种样本含量估计的公式,主要基于参数方法、非参方法和稳健方法。

一、单个诊断试验评价的样本含量估计

单个诊断试验评价是指一种新的诊断方法与“金标准”进行比较,它所需的样本量可因测量方式和试验数据类型等不同而不同,样本量估计的常用方法有以下几种。

1.双正态法 假设实际诊断试验评价中,,X Y 分别表示非患者和患者诊断试验测量结果,且(,)N N X N μσ∈,(,)A A Y N μσ∈,经单调转换服从正态分布,则可用两个参数确定ROC 曲线,即0()/A N A βμμσ=-,1/N A βσσ=。令A N μμ≥,ROC 曲线下面积θ为:

01[]

()d θββνϕνν+∞

-∞

=Φ+⎰(4-1) 其中Φ是正态分布概率累积函数。对诊断试验评价通常是将待评价试验的准确性与事先规定的无效值0θ比较,即00:0H θθ=-=,此时患病组样本量A N 为;

2/22

()()

A N Z V N αβθ+=

(4-2)

上式中α为I 类错误率,β为II 类错误概率,Z 为标准正态分布的分位数,()var()A V N θθ=,

var()θ是无效假设时θ的方差估计值,值为θ的1α-可信区间长度,即θ的1α-可信区间上限值与下限值之差,()V θ用下式计算:

22222()(1//2)[(1)/2]2V f B R A g B R R fgAB θ=+++++(4-3)

式中,A B 分别为参数01,ββ的估计值,R 为非患病组与患病组样本量的比例。中间量f 、g 的计算方法如下:

22

f =

,22g =

实际计算时使用下式取代公式(4-3):

22222()(1//2)[(1)/2]V f B R A g B R R θ=++++(4-4)

其目的是使公式(3-4)中所隐含的A 、B 的协方差(,)/(2)A Cov A B AB N =为零,得到θ较大的方差,保证估计结果更稳健。实际应用时,通常假定非患病组与患病组的方差相同

(1)B =,A 可以通过预期的曲线下面积θ计算出来,即1()A θ-=Φ,也可以

通过待评价试验预期的灵敏度TP 和特异度1FP -计算A ,即:

11(1)(1)A B FP TP --=Φ--Φ-。

由上式可见,单一诊断试验准确性ROC 评价,用双正态法估计其所需样本量,与下述

条件有关:①I 类错误概率,II 类错误概率;②非患病组和患病组标准差之比;③预期曲线下面积θ,或待评试验预期灵敏度TP 和特异度1FP -;④非患病组和患病组比例R ;⑤预期曲线下面积θ的1α-可信区间长度。

2. 非参数法 用非参数法对ROC 估计时,ROC 曲线下面积估计值的标准误()SE θ与θ和样本量间存在如下关系:

()SE θ=

(4-5)

式中1Q 、2Q 可通过θ做近似估计,即:

1/(2)Q θθ=-,22/(1)Q θθ=+

根据预期的ROC 曲线下面积θ及其标准误()SE θ、患病组样本量A n 与非患病组样本量

N n 的比例,即可导出所需样本含量。

3. 稳健法 当基本分布为连续分布时,用,X Y 分别表示非患病组和患病组的诊断测量结果,此时ROC 曲线下面积()P X Y θ=<,对此单一试验评价时,患者或非患者所需最小样本量min(,)m n 为:

2

/2

(1)

min(,)4m n Z L

αθθ-=(4-6)

上式中,m n 分别为患者和非患者数量,α为I 类错误概率,Z 为相应标准正态分位数,

θ为待评价试验的ROC 曲线下面积。实际应用时,用预期估计值θ代替,L 为θ可信区间

宽度。此方法之所以称为稳健估计是因为:①公式(4-6)中的θ实际方差用其最大方差(1)/min(,)m n θθ-代替,从而获得θ的稳健可信区间,由此逆推而来;②只要AUC 实际值大

于或等于预计值,此样本量即可保证非参θ可信区间估计宽度不高于L 值。

从此方法做样本量估计时所已知条件为:①I 类错误概率;②待评试验预期曲线下面积θ值;③预期θ的可信区间宽度L 。此方法的计算依赖于AUC 估计值渐进正态,以牺牲把握度来达到稳健。当AUC 接近1时,此方法估计的近似值不如AUC 接近0.5时小能耗。再者,此法估计的样本量比双正态法估计的样本量大,两者最小的比例接近1.3。

二、两个诊断试验比较的样本含量估计

当比较两个诊断试验的准确性时,如果受试者同时接受两个试验检测,则试验准确性估计值相关。常用样本量估计有以下方法。

1. 成组比较的非参法样本量估计 本方法的计算,是基于Colton 所提出的样本量计算公式调整,此法计算公式为:

2

n =⎢⎥⎣⎦

(4-7)

式中,α为I 类错误率,β为II 类错误率,/2Z α为相应的标准正态分位数,Z β取单侧。

1V 、2V 计算如下:

211212V Q Q θ=+-,221222V Q Q θ=+-

1Q 、2Q 计算方法同单一诊断试验评价时1Q 、2Q 的计算。

2. 配对与成组设计比较的双正态法样本量估计 先考虑配对设计的情况。假定每一受试者同时接受两个不同的诊断检测,若用11(,)X Y 和22(,)X Y 分别表示两种检测正常组和患病组的实验结果,并假设这些随机变量服从正态分布,表示为:

1121~(,)N N X N μσ 1121~(,)A A Y N μσ 2222~(,)N N X N μσ 2222~(,)A A Y N μσ

两试验准确性分别为1θ、2θ,21θθ=-,则患病组所需样本量A N 为:

2

()()Alt A Z

Z V N αβ⎡⎤

+⎢⎥⎣⎦=(4-8)

式中α为I 类错误率,β为II 类错误率,/2Z α为相应的标准正态分位数,0()var()A V N =,

()var ()Alt A Alt V N =,var()是无效假设时的方差估计值,var ()Alt 是备择假设时的

方差估计值,是最大似然估计值,取备择条件下的期望值,或两种诊断方法准确性的实际差值。0()V 和()Alt V 用下式估计:

1212()()()2(,)V V V C θθθθ=+-(4-9)

无效假设成立时,假设0()V 和()Alt V 相等,若已知待比较的两试验准确性,即两种诊断的ROC 曲线下面积1θ和2θ值,则0()V 的估计值将因无效假设中取1θ值还是2θ值而不同。上式中:

22222()(1//2)[/(1)/2]i i i i i i V f B R A g B R R θ=++++

2

121212121212

2

2221212122121(,)(,)(//2)[()/2]/2/2

A A N A N A A A

C N Cov f f r r B B R r A A g g B B r Rr R f g r A B f g r A B θθθθ==++++++

式中A r 、N r 分别为患病组两试验结果的相关系数、非患病组两试验结果的相关系数。中间参数f 、g 估计方法因一下两种情况而不同:①ROC 曲线下面积是整体面积还是部分面积;②是否为固定FP 情况下不同诊断试验灵敏度准确性评价。

此方法与其他估计法最大不同点是,当诊断试验准确性评价或比较涉及曲线下部分面积时可用此法。当两种诊断方法的ROC 曲线下总面积相等时,ROC 曲线的形状不一定相同,此时用固定试验的灵敏度法估计样本含量也许比较合适,当一种诊断具有中等程度灵敏度,高特异度时,该诊断方法使用与疾病筛检;而当它具有中等特异地、高灵敏度的特性时,适

诊断试验评价与ROC分析方法

诊断试验评价与ROC分析方法 第一节概述 诊断试验包括各种实验室检查诊断、影像诊断和仪器诊断(如X线、超声波、CT扫描、磁共振及纤维内镜等),各种方法的诊断价值如何,必须通过诊断试验确定。传统诊断试验 )、符合率(E)等,这些评价指标为广大的医评价方法有灵敏度(TP)、特异度(1FP 学研究工作者所使用,但是为了使用这些指标必须将诊断试验分成“阴性”和“阳性”两种结果,由于这些指标与所选择的诊断标准或阈值有关,评级结果可能出现不一致性情况。Harris 曾对某文献中的7篇诊断试验的文章进行了分析,发现其中有5篇得到的灵敏度和特异度是明显可以变化的,如果改变分类准则会是另一评价结果,这很容易引导研究人员做出有利于自己的选择。另一个问题是,从临床决策观点看,无论对何种疾病的诊断,最终应当做出“是”或“非”的回答,但实际中只有很少的情况能够给出明确的诊断,多数情况只能根据检查的结果做出一个不确定的判断,如“正常、大致正常、可疑、非常可疑、异常”,一种新的诊断技术的产生尤为如此。如果在评价时按照实验样本归为两类或丢弃中间状态的数据,很容易夸大诊断试验的结果。在实际工作中有相当一些诊断技术由于缺乏准确的评价,在一开始出现时往往过分夸大其作用即与此有关。ROC分析方法则可以更客观的对诊断试验做出评价。 一、诊断试验的ROC分析方法 ROC曲线即受试者工作特征曲线(Receiver operating characteristic curve),ROC曲线及其分析已统计决策理论为基础,起源于电子信号观测理论、用于雷达信号接受能力的评价,目前已经应用于许多医学、非医学领域,如人类感知和决策研究、工业质量控制、军事监控等。ROC曲线从二十世纪八十年代起广泛应用于医学诊断试验的评价。美国生物统计百科全书中关于ROC曲线的定义是:“对于存在或可能存在混淆的两种条件或自然状态,需要受试者、专业诊断学工作者以及预测工作者做出精确判断,或者准确决策的一种定量方法。”在诊断试验的评价研究中,它是以每一个检测结果作为可能的诊断界值(cut-off point),计算得到相应的真阳性率(TP)和假阳性率(FP),以假阳性率(即1-特异度)为横坐标,以真阳性率(即灵敏度)为纵坐标绘制而成的曲线,ROC曲线可从直观上表明诊断试验的准确度。 在医学影像诊断实验研究中,一个突出的问题表现在一些病例难以确定,另一个问题是对不同的医院或不同的观察者(医生),采用的诊断标准可能不一致,如何进行相互间比较,怎样把从不同观察者得到的数据结合起来分析,使分析结果具有较好的一致性。从本质上讲,一个诊断或预后系统的优劣,不应该取决于观察者在操作过程中对“诊断标准”的把握情况,而在与决策变量对疾病的区分能力。ROC分析是一种把灵敏度(TP)和特异度(1-FP)结合起来综合评价诊断准确度的一种方法。其基本思想是不固定诊断标准(阈值),把灵敏度和特异度看作一个连续变化的过程,用ROC曲线描述诊断系统的特性,用曲线下面积说明诊断的准确度。ROC分析有两个基本的特点: 允许诊断结果在“阴性”和“阳性”之间的中间状态; ROC分析结果与诊断标准无关。前一特点使诊断试验应用范围拓宽,并且能够保持信息的完整性;后一特点则能保持诊断试验评价结果的一致性。事实上,实际中只有少数的临床诊断结果具有明确的分类界限,如一个生化检测可能是一个数量化的结果,选择不同的分界点,将会有不同的灵敏度和特异度;当一个诊断结果主要有主观判断(如影像诊断),可以认为医生的诊断结果是通过对潜在的连续变量分组后做出的判断。无论上面那一种情况,分类阈值的选择对ROC曲线都无影响。从应用角度看,ROC分析最大的特点在于可以暂时回避诊断标准的选择问题,并且能够较好的保持信息的准确和完整。 理论上,当诊断试验完全无诊断价值即完全凭机会区分患者和非患者时,ROC曲线是一条由原点到右上角的对角线,这条线称为机会线(chance line),有时也称为参照线(reference line),如果获得的ROC曲线落在这条机会线上,其曲线下面积为0.5;理想的诊

循证检验医学与诊断性试验评价

循证检验医学与诊断性试验评价 什么是循证检验医学? 循证检验医学(Evidence-based medicine,EBM)是指通过收集、分析和评价最新的临床研究和资料,结合临床医生的临床经验和患者的价值观,最终达到制定合理的诊疗方案、提高诊疗质量和临床效果的理论和实践体系。 循证检验医学强调临床决策应该基于最好的可获得的证据,而不是凭借医生的直觉或传统经验。这种理念已经被包括世界卫生组织在内的各大国际组织所接受和推崇。 循证检验医学的主要目的 循证检验医学的主要目的是提高临床决策的准确性和效率,进而改善患者的治疗效果和生存质量。EBM不仅仅是对药物治疗的监管和管理,同时也是对手术、诊断和预防等其他临床决策的质量监控。 循证检验医学的三个基本步骤 循证检验医学需要完成三个基本步骤: 1.收集证据:通过文献检索和研究之间的比较,收集当前最 新的、最好的和最适宜的证据。 2.评价证据:评估证据的质量和信度,以确定其在临床决策 中的可靠性和应用性。

3.应用证据:将评估后的证据应用到临床实践中,并结合患 者的病情、价值观和意愿来做出适当的临床决策。 诊断性试验评价 诊断性试验评价是评价医学诊断准确性和可靠性的一个重要手段。它的主要目的是判断一种测试在诊断一个疾病时的准确性和有效性。 诊断性试验的类型 诊断性试验可以分为两类: 1.敏感性和特异性:这是两个最基本的测量指标。敏感性是 指测试可以识别出病人的百分比,特异性则表示测试可以排除病人的百分比。敏感性和特异性可以帮助医生决定是否需要进一步检查或测试。 2.ROC曲线: ROC曲线是一种受样本大小和预测模型影响较 小的诊断性试验评价方法。它将敏感性和特异性合并成一个质量指标,称为“曲线下面积(area under the curve,AUC)”。AUC 越接近1,则该测试的诊断准确性越高。 如何评价诊断性试验 评价诊断性试验需要考虑以下几个因素: 1.常见失真:诊断性试验可能涉及各种失真,包括选择性报 告、顺序效应、参考标准和治疗可能对测试结果产生的影响等,需要考虑这些因素对试验结果的影响。

诊断试验临床效能评价

诊断试验临床效能评价 诊断试验的临床效能评价是医疗领域中一项重要的工作,它旨在评 估诊断试验的准确性、灵敏性和特异性,从而帮助医生和临床决策者 做出准确的诊断和决策。本文将从准确性、灵敏性和特异性三个方面,分别介绍诊断试验的评价指标和评价方法。 一、准确性评价 准确性是评价诊断试验表现的重要指标之一,它代表了试验结果与 实际情况之间的一致程度。常用的准确性指标有阳性预测值(PPV)、阴性预测值(NPV)、真阳性率(TPR)和真阴性率(TNR)。其中,阳性预测值指的是在试验结果为阳性的情况下,实际患病的比例;阴 性预测值则指的是在试验结果为阴性的情况下,实际未患病的比例。 真阳性率和真阴性率则是指试验结果与实际情况一致的比例。 评价诊断试验准确性的方法主要有对照组研究和交叉验证研究。对 照组研究常用于评价新诊断试验与已有试验或“金标准”之间的一致性,通过比较试验结果与“金标准”结果之间的差异,来评价试验的准确性。交叉验证研究则是指在不同的样本集上进行验证,通过评估试验在不 同样本集上的一致性来评价其准确性。 二、灵敏性评价 灵敏性是评价诊断试验的另一个重要指标,它代表了试验对实际患 者的检出能力。简而言之,灵敏性越高,试验越能检测出真正的患者。

灵敏性的评价常用的指标是真正阳性率(TPR),也称为召回率或敏感性。它表示试验对真正患者的检测比例。 评价诊断试验灵敏性的方法主要有“金标准”对照和受试者工作特征 曲线(ROC曲线)分析。在“金标准”对照中,将试验结果与“金标准” 结果进行对比,来评价试验的灵敏性。ROC曲线分析则常用于评价试 验结果的连续性,通过绘制曲线来显示不同阈值下试验的灵敏性和特 异性。 三、特异性评价 特异性是评价诊断试验的又一个重要指标,它代表了试验对非患者 的判断能力。特异性越高,试验越能排除非患者。特异性的评价常用 的指标是真正阴性率(TNR),即试验对真正非患者的判断比例。 评价诊断试验特异性的方法主要有独立样本验证和交叉验证。独立 样本验证常用于评价试验的可靠性,通过与其他试验进行对比,来评 估试验的特异性。交叉验证则是在不同样本集上进行验证,从而评估 试验的特异性。 综上所述,诊断试验的临床效能评价是医学领域中至关重要的工作。通过准确性、灵敏性和特异性三个方面的评价,可以帮助医生准确定 位患者的病情,做出准确的诊断和决策。然而,在评价过程中需要注 意选择合适的评价方法和指标,并进行严谨的实验设计和数据分析, 以确保评价结果的准确性和可靠性。只有如此,才能为临床提供可靠 的实验依据,提高诊断准确性,促进临床决策的科学化。

ROC分析报告方法概要

第二章ROC曲线分析概要 本文先介绍了ROC理论的一些基础知识如特异度和灵敏度等,然后简要介绍了非参数ROC分析方法,并建立了ROC模型。最后介绍了ROC曲线及在R软件中的绘制。 2.1 ROC分析的基本要素 ROC分析的基本要素包括真阳性和假阳性也称灵敏度和特异度,以及“金标准” “金标准”划分被测试者的真实状态为对照组和病例组两类。常见的金标准有跟踪随访、活组织检查、尸体解剖、手术探查等。虽然“金标准”没有必要是十全十美的,但“金标准”应与评价的诊断系统无关,而且比要评价的诊断系统更可靠。“金标准”不够完美时,可用采用Bayesian、模糊金标准、EM估计等方法解决。 对按照“金标准”确定的二分类总体,对照组和病例组分别用阴性和阳性表示诊断试验结果。假定总体样本量是N,诊断试验的可能结果总共有四种:被测试者患病且被正确诊断为患病者,被测试者无病且被错误诊断为患病者,被测试者无病且被正确诊断为无病者,被测试者无病且被错误诊断为患病者。我们可以用一个2×2的列联表来表示它们之间的关系。 TPR= a+c FPR= b+d 在医学研究中,诊断试验准确度指标最常用的是灵敏度与特异度。 灵敏度(sensitivity),也叫真阳率(true positive rate,即TPR)是被测试者患病且被正确诊断为患病者的样本量在阳性总体中占的比例。灵敏度值越大,假阴率越小。据表2-1 其计算公式是:灵敏度(sensitivity) = 真阳率(TPR) = 1 ?假阴率(FNR)= a a+c 标准误为:SE TPR=√ac/(a+c)3 特异度(specificity),也叫真阴率(true non-positive rate,即TNPR),

医学诊断试验评价的ROC分析

医学诊断试验评价的ROC分析 ROC分析是一种用于评价二分类系统性能的方法。在医学诊断中,通常将诊断结果分为阳性(患病)和阴性(未患病)两类。ROC曲线是以灵敏度(True Positive Rate)为纵轴,以1-特异度(False Positive Rate)为横轴绘制的曲线。曲线下面积(Area Under Curve,AUC)反映了试验的诊断准确性,AUC越大,说明试验的准确性越高。 ROC分析的基本步骤如下: 1.收集数据:收集一组经过相关诊断试验测试的患者数据,包括患病与否的真实情况和试验结果。 2.绘制ROC曲线:根据患病与否的真实情况和试验结果计算出各个患病与否情况下的灵敏度和1-特异度,将这些点连接起来就可以得到ROC 曲线。 3.计算AUC:根据ROC曲线计算出曲线下面积,常用的计算方法有两种:直接计算法和近似计算法。 直接计算法是通过对多个小矩形的面积进行累加得到AUC,公式为AUC=sum((TP+TP')/2*(FP-FP')),其中TP和FP分别表示每个点的灵敏度和1-特异度,TP'和FP'表示下一个点的灵敏度和1-特异度。 近似计算法是通过曲线上多个点的线性插值得到AUC,公式为 AUC=sum((TP+TP')/2*(FP-FP')),其中TP和FP分别表示每个点的灵敏度和1-特异度,TP'和FP'表示下一个点的灵敏度和1-特异度。

4.评价:根据AUC的大小评价诊断试验的准确性,一般认为AUC在0.5-0.7之间的试验判定为低准确性,0.7-0.9之间的试验判定为中等准确性,0.9以上的试验判定为高准确性。 ROC分析的优点是不受患病率的影响,适用于不同患病率的疾病。此外,ROC曲线上任意一个点都可以作为试验的阈值,根据需要选择不同的阈值,灵活性较大。 尽管ROC分析是一种常用的方法,但也存在一些局限性。首先,ROC 曲线只适用于二分类问题,对于多分类问题需要使用其他方法。其次,ROC曲线中负例点(真实阴性和假阳性)比例较高时,可能导致结果不够准确。 在总结上述内容的基础上,可以指出ROC分析是评价医学诊断试验准确性的重要方法之一、通过绘制ROC曲线并计算AUC,可以客观、直观地评估诊断试验的准确性,为医生提供科学依据,在临床实践中具有重要的指导作用。

诊断试验与ROC曲线分析

诊断试验与ROC曲线分析 目录 一、基本概念 1.诊断试验四格表基本统计基本指标 2.ROC曲线: 二、实例分析 1)各诊断项目(变量)分别诊断效果分析: 2)诊断模型分析: 3)比较两预测模型: 4)时间依赖的ROC曲线(Time-dependent ROC)分析 一、基本概念 1.诊断试验四格表基本统计基本指标 诊断试验金标准诊断结果合计 患病(D+)未患病(D-) 阳性a(真阳性)b(假阳性)a+b 阴性c(假阴性)d(真阴性)c+d 合计a+c b+d N=a+b+c+d 1)检测患病率(prevalence): 是指被检测的全部对象中,检测出来的患者的比例。即:检 测患病率 = (a+b)/(a+b+c+d) 2)实际患病率(prevalence): 是指被检测的全部对象中,真正患者的比例。即:实际患病 率 = (a+c)/( a+b+c+d)。实际患病率对被评价的诊断试验也称为验前概率,而预测值属于验后概率。 3)敏感性: 敏感性就是指由金标准确诊有病组内所检测出阳性病例数的比率(%)。即本 实验诊断的真阳性率。其敏感性越高,漏诊的机会就越少。即:敏感性= a/( a+c) 4)特异性: 是指由金标准确诊为无病组内所检测出阴性人数的比率(%),即本诊断实验 的真阴性率。特异性越高,发生误诊的机会就越少。即:特异性= d/(b+d) 5)诊断准确率: 是指临床诊断检测出的真阳性和真阴性例数之和,占总检测人数的比例, 即称本临床实验诊断的准确性。即:准确性= (a+d)/ (a+b+c+d)

6)阳性似然比(positive likelihood ratio): 阳性似然比是指临床诊断检测出的真 阳性率与假阳性率之间的比值,即阳性似然比=敏感性/(1-特异性)= (a/(a+c))/(b/ (b+d))。可用以描述诊断试验阳性时,患病与不患病的机会比。提示正确判断为阳性的 可能性是错误判断为阳性的可能性的倍数。阳性似然比数值越大,提示能够确诊患有该 病的可能性越大。它不受患病率影响,比起敏感度和特异度更为稳定。 7)阴性似然比(negative liklihoodratio): 阴性似然比是指临床实验诊断检测出的假 阴性率与真阴性率之比值,此值越小,说明该诊断方法越好。可用以描述诊断试验阴性 时,患病与不患病的机会比。阴性似然比提示错误判断为阴性的可能性是正确判断为阴 性的可能性的倍数。阴性似然比数值越小,提示能够否定患有该病的可能性越大。阴性 似然比=(1-敏感性)/ 特异性= (c/(a+c))/(d/(b+d)) 8)诊断比值比(OR): 阳性似然比与阴性似然比的比值。数值越大,表明诊断试验区分患 者与非患者的能力越大。诊断比值比= (a/(a+c)/(b/(b+d)) / (c/(a+ c) / (d/(b+d))) = (ab)/(cd) 9)诊断所需检测数(NND): 真阳性率(敏感度)与假阳性率(1-特异度)的差的倒数。诊 断所需检测数, (NND) = 1/(a/(a+c)- b/(b+d)) 10)Yuden 指数: Yuden 指数 = 敏感性+特异性-1 = a/(a+c)+d/(b+d)-1 11)阳性预测值(postivepredictive value): 又称预测阳性结果的正确率,是指待评价的 诊断试验结果判为阳性例数中,真正患某病的例数所占的比例。即:阳性预测值 = 真 阳性/(真阳性+假阳性)= a/ (a+b) 12)阴性预测值(negative predictive value): 又称预测阴性结果的正确率,是指临床诊 断实验检测出的全部阴性例数中,真正没有患本病的例数所占的比例。即:阴性预测值 =真阴性/(真阴性+假阴性)= d/(c+d) 2. ROC曲线: 1)概念:称受试者工作曲线,可以综合考虑一项诊断试验(定量指标)或预测模型(模型的预 测值)在所有诊断界值时的灵敏度和特异度。对于每一个诊断界值,都可以得到相应的灵 敏度和特异度。ROC曲线是以(1-特异度)为横坐标,以灵敏度为纵坐标绘制而成的曲线,它用线段连接每个诊断界值对应的[(1-特异度),灵敏度]的点。对于连续变量,诊断界 值可以取任意一个。对有序分类变量,由不同的诊断结果作为诊断界值时,对应于不同的 灵敏度和特异度,将每种诊断结果对应的[(1-特异度),灵敏度]的点,标在直角坐标系 中,用线段连接各相邻两点,即为有序分类资料的ROC曲线。 2)ROC曲线下面积(AUC):表示所有灵敏度时诊断试验平均特异度,或者所有特异度时诊 断试验的平均灵敏度。通常,ROC曲线下面积在0.5-1之间。曲线下从原点到右上角的对 角线称为机会线,表示无论取任诊断界值,灵敏度=1-特异度,即真阳性率=假阳性率,意 味着无论患者和非患者都有同样的“机会”被诊断为阳性。ROC曲线越接近机会线,即曲 线下面积越接近0.5,表明诊断试验区分患者和非患者的能力越弱;越接近1,表明诊断 试验的准确度越强。一般认为,0.50-0.70之间,诊断价值较小;0.70-0.90之间,诊断

诊断性试验的评价标准

诊断性试验的评价标准 诊断性试验是临床医学中常用的一种研究方法,用于评估医疗检查工具对疾病的诊断能力。在进行诊断性试验时,我们需要根据一定的评价标准来判断检查工具的准确性和可靠性。本文将就诊断性试验的评价标准进行探讨。 首先,我们需要关注的是敏感性和特异性。敏感性是指检查工具能够准确识别患病者的能力,而特异性则是指检查工具能够准确排除非患病者的能力。一个理想的诊断工具应该具有高的敏感性和特异性,即能够准确地诊断出患病者,并排除非患病者,从而避免误诊和漏诊的情况发生。 其次,我们需要考虑阳性预测值和阴性预测值。阳性预测值是指在检查结果为阳性的情况下,患者真正患病的概率;而阴性预测值则是指在检查结果为阴性的情况下,患者真正未患病的概率。这两个指标可以帮助我们更好地理解检查工具的诊断能力,从而进行更准确的诊断和治疗。 此外,我们还需要关注受试者工作特征曲线(ROC曲线)。ROC曲线是一种用于评估诊断工具准确性的图形方法,它可以直观地展现出检查工具的敏感性和特异性之间的平衡关系。通过分析ROC曲线,我们可以确定一个最佳的诊断阈值,从而使检查工具的诊断能力达到最优化。 最后,我们需要考虑诊断试验的重复性和稳定性。重复性是指同一检查工具在不同时间、不同环境下进行重复测试时的一致性,而稳定性则是指检查工具在长时间内保持一致的能力。一个优秀的诊断工具应该具有良好的重复性和稳定性,以确保其在临床应用中的可靠性和稳定性。 综上所述,诊断性试验的评价标准涉及到敏感性、特异性、阳性预测值、阴性预测值、ROC曲线、重复性和稳定性等多个方面。通过综合考量这些评价标准,我们可以更准确地评估诊断工具的诊断能力,为临床医学的诊断和治疗提供更可靠

诊断试验评价与ROC分析方法

诊断试验评价与ROC分析方法 一、诊断试验评价方法的基本概念和指标 1.灵敏度和特异性:灵敏度是指真正例中被正确诊断为阳性的比例,即阳性的患者能够被正确判断出来的概率。特异性是指真反例中被正确诊断为阴性的比例,即阴性的健康人能够被正确判断出来的概率。灵敏度和特异性是评价诊断试验准确性的两个基本指标。 2.阳性预测值和阴性预测值:阳性预测值是指被诊断为阳性的人中,实际为阳性的比例。阴性预测值是指被诊断为阴性的人中,实际为阴性的比例。阳性预测值和阴性预测值与灵敏度和特异性密切相关。 3. ROC曲线:ROC曲线是用来评价诊断试验的灵敏度和特异性之间的权衡关系的一种图示工具。ROC曲线的横轴是1-特异性(false positive rate, FPR),纵轴是灵敏度。曲线下面积即AUC值,是评价诊断试验准确性的重要指标,值越高说明诊断试验越准确。 二、ROC分析方法的步骤和应用 ROC分析方法是用来绘制ROC曲线并计算AUC值的一种方法,具体步骤如下: 1.收集数据:收集与诊断结果相关的数据,包括真实结果和诊断试验结果。 2.绘制ROC曲线:将横轴设为1-特异性(FPR),纵轴设为灵敏度,然后根据不同的诊断试验结果,计算不同的FPR和灵敏度,并将这些点连接起来,得到ROC曲线。

3.计算AUC值:根据绘制的ROC曲线计算曲线下面积,即AUC值。通 常情况下,AUC值在0.5和1之间,值越高说明诊断试验准确性越高。 ROC分析方法的应用非常广泛: 1.临床应用:可用于评价各种诊断试验的准确性,包括各种新型影像 学检查、实验室检验、病理学检查等。 2.试验研究:可用于评价新治疗方法或新药物的疗效,比较不同治疗 方法或药物的效果。 3.生物标志物研究:可用于评价生物标志物在临床诊断中的价值,确 定最优的诊断阈值。 三、ROC分析方法的优势和局限性 1.优势:ROC分析方法能够综合考虑灵敏度和特异性,能够克服单一 指标不足的问题。ROC曲线直观清晰,AUC值可直接用于评价诊断试验准 确性。 2.局限性:ROC分析方法对数据的分布敏感,当正负例分布不平衡时 可能导致AUC值不准确。另外,ROC曲线没有考虑到经济成本和临床实际 情况,不能直接用于决策。 综上所述,诊断试验评价与ROC分析方法在医学和统计学领域具有重 要的应用价值。通过绘制ROC曲线和计算AUC值,可以对不同的诊断试验 进行准确性评价,为临床决策提供科学依据。然而,需要注意的是,ROC 分析方法不是万能的,仍需结合临床经验和具体情况进行综合评估和决策。

诊断试验的评价和ROC分析

诊断试验的评价和ROC分析随着医学和科学技术的不断进步,诊断试验在医疗领域中扮演着至关重要的角色。为了评估一个诊断试验的准确性和可靠性,研究人员和医生们采用了不同的评价方法。本文将重点介绍诊断试验的评价方法之一——ROC曲线分析。 一、诊断试验的评价方法 在评价诊断试验的准确性时,我们通常关注以下几个指标: 1. 灵敏度(Sensitivity):表示诊断试验能够准确检测出患者患病的能力。计算公式为:Sensitivity = 真阳性(TP)/(真阳性(TP)+ 假阴性(FN))。 2. 特异度(Specificity):表示诊断试验能够准确判定非患者为阴性的能力。计算公式为:Specificity = 真阴性(TN)/(真阴性(TN)+ 假阳性(FP))。 3. 阳性预测值(Positive Predictive Value,PPV):表示在诊断试验结果为阳性的情况下,被诊断为患者的概率。计算公式为:PPV = 真 阳性(TP)/(真阳性(TP)+ 假阳性(FP))。 4. 阴性预测值(Negative Predictive Value,NPV):表示在诊断试验结果为阴性的情况下,被诊断为非患者的概率。计算公式为:NPV = 真阴性(TN)/(真阴性(TN)+ 假阴性(FN))。

以上指标可以通过构建混淆矩阵(Confusion Matrix)得出,混淆矩 阵通常包含四个元素:真阳性(TP)、真阴性(TN)、假阳性(FP) 和假阴性(FN)。 二、ROC曲线分析 ROC(Receiver Operating Characteristic)曲线是一种以灵敏度和1- 特异度为纵坐标和横坐标的坐标图。通过画出ROC曲线,我们可以直 观地评估诊断试验的准确性。 ROC曲线的横坐标是1-特异度,纵坐标是灵敏度。曲线上的每个 点都代表了在不同阈值下计算得出的灵敏度和1-特异度。理想的ROC 曲线应该尽可能地靠近左上角,也就是灵敏度和特异度都较高的区域。 在ROC曲线下方的面积被称为AUC(Area Under Curve),AUC 的取值范围在0.5和1之间。当AUC越接近1时,诊断试验的准确性 越高。 三、诊断试验评价与ROC分析实例 为了更好地理解诊断试验评价与ROC分析,我们以乳腺癌检测为 例进行说明: 假设有一项针对乳腺癌检测的试验,我们对100例患者进行了测试。其中,50例患者已被确诊为乳腺癌(真阳性),而另外50例患者未患 乳腺癌(真阴性)。试验结果显示,45例确诊患者出现了阳性检测结 果(假阴性),而5例非患者出现了误报的阳性结果(假阳性)。 根据这些数据,我们可以计算出以上提及的指标:

10诊断试验八大指标和ROC

●ITT原则(意向性分析原则 Intention-To-Treat Principle): 分析应包括所有随机化后的受试者,也即原计划好处理(治疗)的全部受试者都需进入分析,而不是根据实际上完成的受试者。按此原则所作的分析是最好的分析,要求每一个随机分到试验组或对照组的受试者都应该完整地随访,记录研究结果如疗效、安全性评价,不考虑依从性。 ●灵敏度(sensitive) : 又称真阳性率,是由金标准诊断为有病的病例中,经诊断试验检测为阳性例数的比例。即实际有病而被诊断试验正确的判断为有病的百分比。反映了该试验检出病例的能力。=a/(a+c)*100%。 ●特异度(specificity): 真阴性率是在金标准诊断为无病的病例中,经诊断试验检测为阴性例数的比例。即实际无病而被诊断试验正确的判断为无病的百分比。反映了该试验排除非病例的能力 =d/(b+d)*100% ●约登指数Youden指数 YI : 又称正确指数,为灵敏度和特异度之和减1,反应了诊断试验发现病人和非病人的总的能力,其综合了灵敏度,特异度的信息,当两者同等重要时,可使用这一指标。 ●阳性预测值(predictive value): 是指在诊断试验中检测为阳性者,用金标准诊断为有病者所占的比例,即诊断试验结果为阳性者中真正有病的概率。=a/(a+b)*100% ●阴性预测值(negative predictive value): 是指在诊断试验中检测为阴性者,用金标准诊断为无病者所占的比例,即诊断试验结果为阴性者中真正无病的概率。=d/(c+d)*100% ●阳性似然比(positive likelihood ratio): 是真阳性率与假阳性率之比,说明正确判断阳性的可能性是错误判断阳性可能性的倍数,表明诊断试验结果呈阳性时实际患病与不患病机会的比。越大其诊断价值越高。=a/(a+c)除以b/(b+d) ●阴性似然比 (negative likelihood ratio): 是假阴性率与真阴性率之比,说明错误判断阴性的可能性是正确判断阴性可能性的倍数,表明诊断试验结果呈阴性患病与不患病机会的比。越小其诊断价值越高。=c/(a+c)除以d/(b+d) ●正确百分率 又称符合率 agreement rate 是指诊断试验中真阳性和真阴性之和占总受检人数的比例也就是诊断试验的结果与金标准结果的符合程度。反应了真确诊断患者与排除患者的能力。=(a+d)/n *100 ★临床试验的类型: I期临床试验:人体药物的耐受程度,药物在人体中的代谢情况。参加试验的人员是健康人或病人(20左右) II 期临床试验:药疗、安全性的初步评价。患者参加试验(200例以上) III期临床试验:药效与安全性的确认阶段,我国法规要求试验组人数300以上,总人数400-500人 IV期临床试验:上市后的临床研究。更大范围使用后的疗效与安全性 ★临床试验避免偏倚的技巧: 盲法随机化、安慰剂对照 ★临床有效性的统计学评价: 常用指标有(一)正确百分率、(二)灵敏度、(三)特异度、(四)Youden指数、(五)阳性似然比、(六)阴性似然比、(七)阳性预报值、(八)阴性预报值。 ★灵敏度与特异度的优缺点优点:灵敏度与特异度不受患病率的影响,其取值范围均在(0, 1)之间,其值越接近于1,说明其诊断准确性越好。缺点:当比较两个诊断试验时,单独使用灵敏度或特异度,可能出现矛盾。解决办法:将两指标结合:Youden指数、阳性似然比、阴性似然比等阳性预报值与阴性预报值

诊断试验的ROC分析

诊断试验的ROC分析 ROC分析(Receiver Operating Characteristic Analysis)是一种 常用于评估诊断试验性能的方法。它通过绘制接收者操作特征曲线,可以 直观地衡量一种诊断试验在准确性和可靠性方面的表现。本文将深入探讨ROC分析原理和应用,并介绍如何进行ROC分析。 首先,我们需要了解一些概念。在进行ROC分析时,我们通常将疾病 状态分为两类:阳性和阴性,诊断试验结果也可以分为两类:阳性和阴性。通过绘制ROC曲线,我们可以观察到诊断试验结果的灵敏度和特异度之间 的关系。 ROC曲线通过横坐标表示1-特异度(False Positive Rate,FPR), 纵坐标表示灵敏度(True Positive Rate,TPR)。灵敏度是表示在疾病 状态为阳性时,试验结果为阳性的概率,而特异度则是在疾病状态为阴性时,试验结果为阴性的概率。ROC曲线上的每一个点都对应不同的阈值, 通过改变阈值,可以调整灵敏度和特异度的平衡。 在ROC分析中,通常会计算曲线下面积(Area Under the Curve,AUC)。AUC的取值范围在0.5到1之间,AUC越大表示试验的准确性越好。当AUC等于0.5时,表明试验的准确性与随机猜测无异。一般来说,AUC 大于0.7可以被认为是一个良好的诊断试验。 ROC分析的应用广泛。在医学领域,它常被用于评估诊断试验的有效性,如癌症筛查、心脏病诊断等。此外,ROC分析还可以用于评估不同模 型或算法之间的性能比较,并选择最佳模型。 进行ROC分析的步骤如下:

1.收集诊断试验的结果数据,包括阳性和阴性样本的真实疾病状态, 以及试验结果的阳性和阴性判断。 2.根据试验结果和真实疾病状态计算灵敏度和特异度,并根据不同阈 值绘制ROC曲线。 3.计算曲线下面积(AUC)来评估试验的准确性。 4.根据AUC的大小来判断试验的准确性,选择合适的阈值以达到最佳 的灵敏度和特异度平衡。 然而,在进行ROC分析时也需要注意一些问题。首先,ROC分析假设 不同的阈值对于不同样本具有相同的重要性,但实际情况可能是不同的。 其次,ROC分析对于不平衡数据集可能会有偏差,因为在许多实际应用中,阳性样本和阴性样本的比例通常严重不平衡。 另外,提高AUC并不能保证试验的准确性。因此,我们仍然需要结合 实际情况进行综合评估。 综上所述,ROC分析是一种有力的工具,可用于评估和比较诊断试验 的准确性。通过绘制ROC曲线和计算AUC,我们可以直观地了解试验的性能,选择最佳的灵敏度和特异度平衡点,并为临床决策提供可靠的依据。 尽管存在一些局限性,但ROC分析仍然在医学研究和临床实践中发挥着重 要的作用。

ROC分析方法及其在医学研究中的应用

ROC分析方法及其在医学研究中的应用 ROC分析方法及其在医学研究中的应用 摘要:ROC(Receiver Operating Characteristic)分析是一种评估和比较诊断测试准确性的常用方法。本文将介绍ROC分析的基本原理和应用,并探讨其在医学研究中的重要性 和潜在应用。 一、引言 随着医学技术和研究方法的不断发展,人们对诊断测试准确性的要求也越来越高。ROC分析作为一种经典的评估指标, 旨在帮助医学研究者评价不同测试的准确性,并为医学实践提供支持。 二、ROC分析的基本原理 ROC分析的基本原理可以概括为以下几个步骤:首先,根 据研究设计,收集相关数据并将其分为两个组,一组为疾病阳性组,另一组为疾病阴性组。然后,通过调整不同的判别标准,计算出不同判别准则下的真阳性率(Sensitivity)和假阳性 率(1-Specificity)。最后,根据这些数据作出ROC曲线, 并计算出曲线下面积(Area Under Curve,AUC),作为评估 测试准确性的指标。 三、ROC分析的应用 1. 诊断测试准确性的比较 ROC分析可用于比较不同诊断测试的准确性,帮助医生选 择最适合的测试方法。通过计算不同测试的AUC大小,可以判断测试在区分疾病和非疾病样本时的性能优劣。 2. 阈值选择 在某些情况下,医学研究者需要选择合适的分类阈值以根

据测试结果判断疾病的存在与否。ROC分析可以帮助确定最佳 阈值,使得诊断的灵敏度和特异性达到最优。 3. 疾病预后评估 对于某些疾病来说,预后评估是非常重要的,而ROC分析可以帮助确定最佳预后指标。通过计算不同预后指标的AUC, 可以评估其在预测疾病发展和预后情况方面的准确性和可靠性。 4. 新药疗效评估 对于新药的疗效评估,ROC分析也可以起到重要作用。通 过比较治疗组和对照组的测试结果,计算出不同判别标准下的Sensitivity和1-Specificity,并绘制出ROC曲线,可以评 估新药相对于对照组在疾病治疗中的优越性。 四、ROC分析的局限性 尽管ROC分析在医学研究中有广泛的应用,但也存在一些局限性。首先,在数据收集时,样本规模和质量对于ROC分析的结果有着重要影响。其次,ROC曲线只能提供一个概貌,不 能提供具体的数值。此外,ROC分析也无法解决某些问题,比 如测试结果的不确定性等。 五、结论 ROC分析作为一种常见且实用的评估方法,在医学研究中 具有重要的应用价值。通过ROC分析,可以定量评估不同诊断测试的准确性,提供预后评估和疗效评估等指导,并为临床医学实践提供科学依据。然而,研究者在应用ROC分析时应充分考虑其局限性,结合实际情况进行判断和决策。 最后,我们呼吁医学研究者在实践中更加重视ROC分析的应用,并进一步深入研究该方法的拓展和发展。这将有助于在医学领域提高测试准确性,提供更优质的医疗服务,最终造福患者

诊断试验的评价与ROC分析

诊断试验的评价与ROC分析 评价诊断试验的一种常用方法是基于接受者操作特征曲线(ROC曲线)的分析。ROC曲线是一种由敏感性和特异性构成的二维图形,用于评估诊 断试验的性能。 首先,我们需要了解敏感性和特异性这两个概念。敏感性是指在疾病 真实存在的情况下,试验能识别出多少个真阳性(疾病呈阳性的个体)。 特异性是指在疾病真实不存在的情况下,试验能识别出多少个真阴性(疾 病呈阴性的个体)。 ROC曲线的横坐标是1-特异性,纵坐标是敏感性。曲线上的每个点代 表了试验在不同阈值下的敏感性和1-特异性。当试验的阈值设定得很低时,诊断的敏感性会增加,但特异性会降低;当阈值设定得很高时,诊断 的特异性会增加,但敏感性会降低。ROC曲线可以通过计算试验在所有可 能阈值下的敏感性和特异性的组合得到。 ROC曲线上最重要的指标是曲线下面积(AUC),也称为AUC-ROC。AUC的取值范围为0到1,AUC值越大表示试验的性能越好。当AUC=0.5 时,试验相当于随机猜测;当AUC=1时,试验的敏感性和特异性达到了完 美的平衡。 通过比较不同试验的ROC曲线和AUC值,我们可以评估诊断试验的性能。通常,AUC大于0.8被认为是一个较好的诊断试验,而AUC小于0.5 则表示试验性能差。 在使用ROC曲线进行评估时,还可以通过选择一个具体的阈值来计算 相应的敏感性和特异性。根据实际情况,选择具体的阈值可以根据病情严

重程度、诊断费用、治疗效果等因素进行权衡。根据选定的阈值计算出的敏感性和特异性可以提供更具体的诊断指导。 总结来说,ROC分析是一种常用的评估诊断试验性能的方法。通过绘制ROC曲线和计算AUC值,可以对试验的敏感性和特异性进行全面评估。此外,根据具体的实际情况,选择特定的阈值,可以为医生提供更具体的诊断建议。

诊断试验的ROC曲线

诊断试验的ROC 曲线 一、ROC 曲线的概念 在诊断试验中,对诊断指标每一个可能的诊断界值,都能得到一个四格表: 诊断试验 金标准诊断 病人 非病人 合计 + a b 1m - c d 0m 合计 1n 0n n 计算出这些四格表的灵敏度e S 和特异度p S ,以假阳性率p S 1为横轴,以真阳性率e S 为纵轴,在算术坐标纸上作图,所得到的线图称为ROC 曲线(Receiver Operator Characteristic)。 例如:为了研究肌酸激酶(CK )诊断心肌梗塞的作用,对金标准诊断为心肌梗塞的230例病人和130名正常人分别测定了每个人的CK 值,有如下频数表: CK 值 病人组 正常人组 合计 1~ 2 88 90 40~ 13 26 39 80~ 118 15 133 280~ 97 1 98 合计 230 130

将这4种诊断方法的结果列成下表: 诊断界值 e S p S p S -1 1 1 0 1 40 0.9913 0.6769 0.3231 80 0.9348 0.8769 0.1231 280 0.4127 0.9923 0.0077 对上表的数据,以假阳性率p S -1为横轴,以真阳性率e S 为纵轴,在算术坐标纸上描点,将点连成曲线,就得到了ROC 曲线: 二、ROC 曲线的用途 1.评价指标的诊断能力; 2.确定最佳诊断界值; 3.比较两个诊断指标的诊断能力。 三、ROC 曲线评价指标的诊断能力 ROC 曲线下的面积计算

(1)参数法 如果诊断试验的指标在病人和非病人总体中均服从正态分布,可用参数法估计ROC 曲线下的面积。 设诊断指标x 在非病人总体中服从)(2 00 σμN ,在病人总体中服 从)(2 1 1σμN 。 如果01μμ>,1 01) (σμμ-=a ,1 0σσ= b 如果01μμ<,1 10) (σμμ-= a ,1 σσ=b ROC 曲线下的面积为: )1( 2 b a A +Φ= )(u Φ是标准正态分布曲线下(-∞,u )范围中的面积,可通过《医学 统计学》中的附表1查到。 (2)非参数法 如果在病人或非病人总体中,诊断指标的观测值不服从正态分布,可以用非参数法计算ROC 曲线下的面积。 以1n 表示病人组人数,0n 表示非病人组人数,ROC 曲线下的面积为: 1 010)]2/([ˆn n f f f A c ⨯+=∑ 3.假设检验

诊断试验中的统计学方法

诊断试验中的统计学方法 诊断试验是一种用于确认或排除患者是否患有特定疾病或疾病风险的 医学检查方法。这些试验的目的是收集指标数据,例如生物标志物或影像,然后使用统计学方法分析这些数据以确定患病的可能性。 在诊断试验中,有几种常见的统计学方法可用于评估测试的准确性和 可靠性。以下是一些常见的统计学方法: 1.灵敏度和特异度:灵敏度是指测试正确识别真阳性样本的能力,特 异度是指测试正确识别真阴性样本的能力。这些指标可以通过计算真阳性、真阴性、假阳性和假阴性的数量来评估。 2.阳性预测值和阴性预测值:阳性预测值是指在测试结果为阳性时, 个体实际患病的可能性,阴性预测值是指在测试结果为阴性时,个体没有 患病的可能性。这些值可以根据真阳性、真阴性、假阳性和假阴性的数量 计算得出。 3.受试者工作特征曲线(ROC曲线):ROC曲线绘制了在不同阈值下,灵敏度和1-特异度之间的关系。曲线下面积(AUC)可以作为评估测试的 准确性的指标。AUC值越接近1,代表测试的准确性越高。 4.置信区间:置信区间是对于一些参数估计的不确定性的度量。它通 常表示为一个范围,在这个范围内有95%的概率包含真实值。置信区间可 以用来评估估计值的准确性和可靠性。 5.统计模型:统计模型可以应用于诊断试验数据,以建立诊断模型。 常见的模型包括逻辑回归、决策树和支持向量机等。这些模型可以用于预 测患病的概率,评估不同因素对测试结果的影响等。

6.变异系数:变异系数是指标的标准差与均值的比值。在诊断试验中,变异系数可以用来评估测试的稳定性和重复性。较低的变异系数表示测试 的结果比较一致和可靠。 总的来说,诊断试验中的统计学方法广泛应用于评估测试的准确性、 可靠性和预测能力。这些方法可以帮助医生和研究人员更准确地评估患者 的病情,并做出正确的诊断和治疗决策。但需要注意的是,统计学方法只 是诊断过程中的一个工具,医生还需要结合临床经验和其他相关的信息进 行综合评估。

ROC曲线(受试者工作特征曲线)分析详解

ROC曲线(受试者工作特征曲线)分析详解 一、ROC曲线的概念 受试者工作特征曲线(receiver operator characteristic curve, ROC曲线),最初用于评价雷达性能,又称为接收者操作特性曲线。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。 传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此,ROC曲线评价方法适用的范围更为广泛。 二、ROC曲线的主要作用 1.ROC曲线能很容易地查出任意界限值时的对疾病的识别能力。 2.选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。 3.两种或两种以上不同诊断试验对疾病识别能力的比较。在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的ROC 曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的AUC最大,则哪一种试验的诊断价值最佳。 三、ROC曲线分析的主要步骤 1.ROC曲线绘制。依据专业知识,对疾病组和参照组测定结果进行分析,确定测定值的上下限、组距以及截断点(cut-off point),按选择的组距间隔列出累积频数分布表,分别计算出所有截断点的敏感性、特异性和假阳性率(1-特异性)。以敏感性为纵坐标代表真阳

相关主题
相关文档
最新文档