第十四章生存分析的SAS实现

合集下载

SAS的生存分析(正式)

SAS的生存分析(正式)

风险函数
• 它表示已存活到时刻t的观察对象在时刻t的
瞬时死亡率,又称危险函数,常用h(t)表示

Pr ob(t T t t T h(t) lim
t)

f (t)
t
S (t )
• 该函数表示一个已存活到时刻t的观察对象死 于(t,t+△t)小区间内的概率的极限,它实际 上是一个条件瞬时死亡率。 在具体问题中,
• 半常数法不需要对生存时间的分布作出假定,但 却可以通过一个模型来分析生存时间的分布规律 ,以及危险因素对生存时间的影响。这种方法的 代表是Cox比例风险回归分析法,它兼有非常数法 和参数法的优点,是生存分析中最重要的模型分 析法。它在表达形式上与参数模型相似,但在对 模型中各参数进行估计时又不依赖于特定分布的 假设,所以又称其为半参数模型。
生存数据
• 对于截尾数据,既不能简单地弃之,需要采取一 些技术处理。专门处理这种资料的统计方法,称 为生存分析。应为抛弃截尾数据不仅损失了样本 量,最重要的是在这些截尾数据中,特别是右截 尾数据大部分是生存时间较长者的数据,损失掉 这一部分观察对象的信息,分析结果一定是片面 或不稳定的。
• 截尾数据的存在是生存数据与普通数据的根本区 别。处理截尾数据是生存分析的一个重要特点, 本章介绍的生存分析主要处理右截尾数据。
• 半数生存期,指寿命的中位数,表示有且只有50% 的观察对象可以活这么长时间。由于截尾数据的 存在,半数生存期的计算不同于普通的中位数, 它可应用生存函数曲线图或生存函数公式,令生 存率等于50%,然后推算生存时间。
均数、中位数和半数生存期
• 总之,生存分析主要包括四个方面的内容 :①描述生存过程,即研究生存时间的分 布规律;②比较生存过程,即研究两组或 多组生存时间的分布规律,并进行比较; ③分析危险因素,即研究危险因素对生存 过程的影响;④建立数学模型,即将生存 时间与相关危险因素的依存关系用一个数 学式子表示出来。

生存分析的SAS编程操作

生存分析的SAS编程操作
当设置了“plots=”选项时,禁止将删失值显示在图形中。当选择寿命表法进行计算时,无需设置 此选项。
指定一系列时间点,从而在结果中针对这些时间点显示相应的Kaplan-Meier估计值,该时间点在 输出结果中所在的列以“_TIME_”为标识。
指定生存时间四分位数间距可信区间的置信水平(须在0.0001~0.9999之间),默认设置为 “alpha=0.05”。
指定寿命表区间的个数,此选项可被“width=”和“intervals=”所覆盖。当设置“ninterval=”选项 时,lifetest过程将根据所设置的区间个数划分寿命表的区间,但区间端点将会作适当的调整,使 其以整数的形式出现。因此,最终划分的区间数不一定与设置的区间数完全相符。默认设置为 “ninterval=10”。
半参数法:Cox模型分析方法。
B
3
生存分析方法的SAS过程
非参数法:lifetest过程; 参数法:lifereg过程; 半参数法:phreg过程。
B
4
生存分析的非参数方法
B
5
非参数法生存分析示例1
45例乳腺癌患者中,免疫过氧化物酶检测结果 显示9例阳性、36例阴性,比较其生存时间分 布的SAS程序如下。
run;
B
19
phreg过程
phreg过程针对生存数据执行基于Cox比例风 险模型(Cox proportional hazards model)的 回归分析;
可以检验有关回归参数的线性假设; 针对配对病例-对照研究执行条件logistic回归
分析过程; 创建包含有关统计量的输出数据集等。
proc lifetest plots=(s); time time*censor(1); strata immuno;

11.生存分析与SAS程序

11.生存分析与SAS程序

第十一章生存分析与SAS程序在医学研究中,考察研究因素对研究对象的效应,经典的研究设计方法只观察其所出现的结局或结果。

但是在一些诸如癌症等险恶疾病和慢性病的随访研究中,只观察其结局就不够全面,还需要考察研究对象出现某种结局所经历的时间,这段时间称为生存时间(survival time)。

生存分析是用来分析生存时间资料的统计方法,是近几十年来产生且发展甚为迅速的一门应用统计的分支。

到目前为止,生存分析已形成一套完整的体系,包括描述生存规律和进行组间比较的参数和非参数方法以及分析影响生存期因素的回归模型等。

本章主要介绍描述生存规律的寿命表和乘积限估计法,用于组间比较的logrank检验和作预后因素分析的Cox回归模型以及相应的SAS过程。

11.1生存分析的基本概念11.1.1生存时间在医学研究中,对于肿瘤、心血管等慢性疾病,要考察其治疗方法优劣,疾病预后的好坏以及影响疾病预后的因素,通常采用随访研究的方法。

对某一疾病作随访研究时,一般是从某一时间开始,观察到某一规定时间截止,而研究对象是始点以后陆续进入观察。

随访中要规定一个事件作为随访结局,例如:病人死于研究疾病。

如果病人的随访结果是规定的结局,则称为失效或死亡(Failure),那么病人从进入观察随访到规定的结局出现,其间所经历的这段时间称为生存时间或失效时间(Survival time, Failure time, Waiting time)。

通常用Ti表示(i=1,2,…,n, n为观察个体数)。

在随访中,由于客观条件限制,不能也不可能将全部观察对象都观察到规定的结局(Failure)。

在观察截止时,一组观察对象除了出现规定的结局外,还有三种结果:(1)死于其他疾病;(2)由于迁移等原因失去联系(失访);(3)随访截止时尚未出现规定的结局。

这三种结果虽原因不一,但提供的信息是一致的,这类病人不能获得确切的生存时间,而只知道其生存期比随访观察到的时间长的信息。

生存分析SAS实现

生存分析SAS实现
虽然这三种检验方法都属于非参数检验法,对生存时间的分布没 有要求,但当生存时间的分布为威布尔分布或属于比例危险模型 时,Log-rank检验效率较高;当生存时间的分布为近似对数正态 分布时,Wilconxon检验效率较高;当生存时间的分布近似呈指 数分布时likelihood ratio检验效率较高。因此在选择这三种检验方 法生存曲线时,最好对生存时间的分布有个大概的了解。可通过 绘图下面两个图形来确定生存时间的分布。
time x*censor(1);
strata group;
run;
2. 寿命表法
当随访的样本量较大,可将随访资料按生存时间进行分组, 在分组资料的基础上应用寿命表的原理计算生存率。由于 样本量大,计算的生存率比较稳定。
寿命表法时间区间分组不同计算结果也会不同。
例10-2 某医院1946年1月1日到1951年12月31日收治的126例 胃癌病例生存情况见下表,试用寿命表法计算生存率。
生存分析方法的分类
用于生存分析的方法可分为3类:
(1)生存指标的描述:包括估计生存时间的分位数(包括中位生存时 间)、平均数、生存函数,生存时间分布的作图等。
(2)生存指标的假设检验:即检验各水平的生存指标是否一致,常用 方法有对数秩检验(Log-rank test)、威尔科克森检验(Wilcoxon test) 和似然比检验(Likelihood ratio test).
25
1 0 2 0 3 0 4 0 5 0 7 0 8 0 9 0 10 0 11 0 13 0 14 0 15 0 18 0 19 0 20 1 21 0 23 0 26 0 28 0 31 0 37 0 66 0 73 0 124 1
;
proc lifetest data=eg9_1 method=pl;

第十四章生存分析的SAS实现

第十四章生存分析的SAS实现

第十四章生存分析的SAS实现例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。

分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。

SAS分析程序SAS软件输出结果SAS软件输出结果解释该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。

其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。

最后是生存曲线图。

教材中的说明现用Kaplan-Meier法计算生存率,步骤如下:(1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。

(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。

(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。

例如生存时间为32天时,死亡概率为1/170.058824q ==。

(4)计算各t 时刻的生存概率1p q =-(第(7)列)。

例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。

(5)计算各t 时刻的生存率12()i i S t p p p =(第(8)列)。

SAS的生存分析(正式)

SAS的生存分析(正式)

均数、中位数和半数生存期
• 除了上述的生存时间函数外,均数、中位数、半 数生存期等也反映一组生存时间平均水平常用的 统计指标。由于生存资料多呈正偏态分布,更适 宜选用百分位数,包括中位数指标。
• 半数生存期,指寿命的中位数,表示有且只有 50%的观察对象可以活这么长时间。由于截尾数 据的存在,半数生存期的计算不同于普通的中位 数,它可应用生存函数曲线图或生存函数公式, 令生存率等于50%,然后推算生存时间。
• METHOD=方法:指定估计生存率所用的方法; ①PL,要求用乘积极限法(即Kaplam-Meier法) 估计生存率并计算中位生存时间等,为缺省方法 。②LT,要求用寿命表法估计生存率等。③ INTERVALS=(初值 TO 终值 BY 步长) 只能在指 定分析方法为寿命表法时使用。用寿命表法分析 时,程序会自动给定生存时间的区间。如果人为 规定生存时间的分组区间,则需用该选项指定。 步长的缺省值为1。
非参数分析方法 SAS程序
• NOTABLE:指令不输出生存函数估计结果 ,只输出生存时间的截尾数据和完全数据 的个数以及散点图和检验结果。
• TIME语句用于定义生存时间和截尾指示变 量。对截尾指示变量可以指定发生失效事 件的数值,默认失效事件用0来表示,截尾 事件用1来表示。
非参数分析方法 SAS程序
• 非常数法可以用来完成:①估计生存函数 ;②比较两组或多组生存函数;③分析危 险因素对生存时间的影响。缺点是不能建 立生存时间与危险因素之间的数量依存关 系的数学模型。常用的方法有乘积极限法 (PL法)和寿命表法(LT法)。
半参数模型回归分析
• 在特定的假设之下,建立生存时间随多个危险因 素变化的回归方程。
• 生存时间经常服从的分布有指数分布、Weibull分布、 对数正态分布、对数Logistic回归和Gamma分布。

SAS统计分析(第九讲)

SAS统计分析(第九讲)

2020/3/3
8
▪ 半参数法 不知生存时间分布确切类型,用模型的方法对 模型的部分参数作统计描述与推断。常用的是Cox模型。 相应的SAS过程为:phreg。
注:半参数法与参数法可用来研究多个因素对生存时间 的影响,非参数法难以实施多因素生存分析。
非参数法的lifetest过程
❖ 语法格式: proc lifetest [选项];
Test
Chi-Square DF Chi-Square
Log-Rank 时序检验 7.6283 1 0.0057
Wilcoxon Breslow检验 6.5472 1 0.0105
-2Log(LR) 似然比检验 5.0557 1 0.0245
2020/3/3
17
2020/3/3
18
❖ 大样本资料的寿命表法
2020/3/3
13
Summary Statistics for Time Variable t
Point 95% Confidence Interval
Quantile Estimate [Lower, Upper)
四分位数 点估计
95%可信区间
75% 42.0000 30.0000 .
50% 38.0000 13.0000 42.0000
Mean Standard Error 11.8889 3.2806
Summary of the Number of Censored and Uncensored Values
Stratum group
Percent Total Failed Censored Censored
1
A
11
8
3
27.27

生存分析的SAS编程操作

生存分析的SAS编程操作
提供两种秩检验方法和一种似然比检验方法来 检验多组生存函数的同一性,两种秩检验方法 为包括广义Savage(指数得分)检验(即logrank检验)和Wilcoxon检验。
lifetest过程可包含的语句
proc lifetest < options > ; time variable < *censor(list) > ; by variables ; freq variable ; id variables ; strata variable < (list) > < ... variable < (list) > > ; survival options ; test variables ; run ;
proc lifetest data=valung method=lt; time survtime*censor(1); strata cell;
run;
lifetest过程
用以对右侧删失类型的时间数据进行时间分布 的描述以及多组间时间分布的比较(检验两个 或多个样本是否来自具有同一个生存函数的总 体);
intervals=选项的设置方法
端点值间以空格分隔,如“intervals=10 30 50 70”;
端点之间以逗号分隔,如 “intervals=10,30,50,70”;
“a to b”的形式,如“inter,如“intervals=1 to 7 by
当设置了“plots=”选项时,禁止将删失值显示在图形中。当选择寿命表法进行计算时,无需设置 此选项。
指定一系列时间点,从而在结果中针对这些时间点显示相应的Kaplan-Meier估计值,该时间点在 输出结果中所在的列以“_TIME_”为标识。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十四章生存分析的SAS实现例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。

分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。

SAS分析程序SAS软件输出结果SAS软件输出结果解释该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。

其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。

最后是生存曲线图。

教材中的说明现用Kaplan-Meier法计算生存率,步骤如下:(1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。

(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。

(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。

例如生存时间为32天时,死亡概率为1/170.058824q ==。

(4)计算各t 时刻的生存概率1p q =-(第(7)列)。

例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。

(5)计算各t 时刻的生存率12()i i S t p p p = (第(8)列)。

例如生存时间为32天时,生存率为18171616(32)0.94117619181719S =⨯⨯==,由此验证了在没有截尾数据的情况下,式(14-4)与式(14-5)是相同的。

(6)以时间t 为横指标,生存率为纵指标,作生存曲线图(图14-1)。

表14-2 Kaplan-Meier 法计算生存率的计算用表(1) (2)(3)(4)(5)(6) (7) (8) 序号 生存 天数 t 时刻前的例数n t 时刻死亡数d t 时刻后截尾人数c死亡 概率q 生存 概率p 生存率 S (t ) 1 6 19 1 0 0.052632 0.947368 0.947368 2 19 18 1 0 0.055556 0.944444 0.894737 3 32 17 1 0 0.058824 0.941176 0.842105 4 42 16 2 0 0.125000 0.875000 0.736842 6 43 14 0 1 0.000000 1.000000 0.736842 7 94 13 1 0 0.076923 0.923077 0.680162 8 126 12 0 1 0.000000 1.000000 0.680162 9 169 11 0 1 0.000000 1.000000 0.680162 10 207 10 1 0 0.100000 0.900000 0.612146 11 211 9 0 1 0.000000 1.000000 0.612146 12 227 8 0 1 0.000000 1.000000 0.612146 13 253 7 1 0 0.142857 0.857143 0.524696 14 255 6 0 1 0.000000 1.000000 0.524696 15 270 5 0 1 0.000000 1.000000 0.524696 16 310 4 0 1 0.000000 1.000000 0.524696 17 316 3 0 1 0.000000 1.000000 0.524696 18 335 2 0 1 0.000000 1.000000 0.524696 19 3461 0 10.0000001.0000000.524696图14-1 例14-2的生存曲线图例14-3下面是来自于Berkson & Gage(1950)的一个研究队列。

为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。

共有374名患者进入研究队列。

表14-3 寿命表法计算生存率的计算用表(1) (2) (3) (4) (5) (6) (7) (8) (9)序号术后生存年数期初观察例数期内死亡期内截尾人数校正期初人数死亡概率生存概率生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t)1 0~374 90 0 374 0.2406 0.7594 0.75942 1~284 76 0 284 0.2676 0.7324 0.55613 2~208 51 0 208 0.2452 0.7548 0.41984 3~157 25 12 151 0.1656 0.8344 0.35035 4~120 20 5 117.5 0.1702 0.8298 0.29076 5~957 9 90.5 0.0773 0.9227 0.26827 6~79 4 9 74.5 0.0537 0.9463 0.25388 7~66 1 3 64.5 0.0155 0.9845 0.24989 8~62 3 5 59.5 0.0504 0.9496 0.237210 9~54 2 5 51.5 0.0388 0.9612 0.228011 10+47 21 26 34 0.6176 0.3824 0.0872 SAS分析程序SAS软件输出结果本例结果主要包含三个部分:第一部分给出了时间区间的下限和上限,死亡例数(Number Failed),截尾例数(Number Censored),期初观察人数(Effective Sample Size),生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error)等;第二部分列出了完整数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。

最后是生存曲线图。

教材中的说明根据表14-3的生存率估计,则以生存时间为横坐标,生存率为纵坐标,各个点的生存率用折线连接,构成寿命表法的生存率曲线(图14-2)。

图14-2 例14-3的生存曲线图生存率估计同样存在抽样误差,往往需要估计标准误和95%可信区间。

对于上述两种生存率计算方法均可以用Greenwood (1926)提出方法计算标准误tj [S ]SE S =例如3~4年这一段的生存率的标准误为:t4[S ]SE 0.0248==Kalbfleisch & Prentice,1980提出对生存率进行ln(ln(()))S t -转换后估计生存率的95%可信区间可以保证可信区间的范围在(0,1)内,所以被广泛使用,具体计算公式如下:exp( 1.96)()s S t ±,其中()/(ln )t t t s SE S S S = (14-7) 例如对于3~4年这一组段的95%可信区间计算为0.0248/(0.3503ln(0.3503))0.0675S =⨯-=-,则95%可信区间为exp( 1.960.0675)(32)S ⨯ (0.302,0.399)=。

两种方法的比较:①.寿命表法适用于大样本或无法准确得知研究结果出现时间的资料,Kaplan-Meier 法可以用于小样本,也可以用于大样本,但要求每个观察对象都有确切的死亡时间和截尾时间。

②.寿命表法是按照指定的时段来分段,估计的是时间区间右端点上的生存率;Kaplan-Meier法是根据死亡时点分段,逐个估计死亡时点的生存率。

③.寿命表法没有确切的死亡时间和失访时间,假定在每个时间段中的“死亡发生时间”和“失访发生的时间”分别呈均匀分布,因此在每个时间段中的生存率呈线性变化,故各个组段间的生存率用直线相连接,Kaplan-Meier法的生存曲线是右连续的阶梯型曲线。

当样本量较大及死亡时点较多时,阶梯形就不明显了。

例14-4 在例14-3中介绍了McKelvey et al收集了19名3期淋巴瘤病人的生存资料,该研究者还同时收集了4期淋巴瘤病人的生存数据共61例:4,6,10,11,11,11,13,17,20,20,21,22,24,24,29,30,30,31,33,34,35,39,40,41+,43+,45,46,50,56,61+,61+,63,68,82,85,88,89,90,93,104,110,134,137,160+,169,171,173,175,184,201,222,235+,247+,260+,284+,290+,291+,302+,304+,341+,345+。

要比较3期淋巴瘤患者和4期淋巴瘤患者的生存率是否有差异。

SAS分析程序SAS软件输出结果解释SAS软件输出结果解释这里只给出了两个(c=1,2)总体生存率之间是否有差异的检验结果,其他的输出结果与前面类似,不再列出了。

由结果可以发现两组的Log-Rank秩统计量分别为-8.6870和8.6870,检验的2χ统计量为6.7097,p值= 0.0096,所以在α=0.05水准上,拒绝H0,接受H1。

,可认为两个(c=1,2)总体生存率之间存在差异。

图形为两个样本的生存曲线图。

教材中的说明由于检验统计量220.05,13.84χχ>=, P< 0.05, 所以在α=0.05水准上,拒绝H,接受H1。

基于两个样本的生存曲线图,可认为3期淋巴瘤病人人群的生存率高于4期淋巴瘤病人人群的生存率。

图14-5 3期和4期淋巴瘤的病人生存曲线Logrank检验是一种非参数的检验方法,对资料的分布基本没有要求,但要求每组均含有失效事件发生的观察对象资料,可以证明:Logrank检验的检验效能仅与发生失效事件的人数有关。

另外在Logrank检验的时候,一般要求各组生存曲线不能交叉,否则需采用分段分析或者采用多因素方法来分析。

例14-5某医生研究手术是否可以延长晚期胰腺癌患者的生存期。

收集到符合入组条件的80名保守治疗和124名手术治疗的晚期胰腺癌患者,这些患者的生存资料如表14-6所示,请分析两种治疗方案的生存情况。

相关文档
最新文档