生存分析SurvivalAnalysis

合集下载

19 生存分析

19 生存分析

死亡率,记为h(t)。描述某个体的瞬时死亡风险随时间变
化的情况。
ht
lim
△t 0
Pt
T
t △t △t
|
T
t
h(t)=0意味着没有死亡风险,t时刻S(t)平坦;大的h(t)意味 着S(t)的快速下降,风险函数越大,生存函数下降越快。
h(t)是速率而不是概率,其取值范围为0至+∞。
t
S(t) exp[ 0 h(u)du]
(2) 寻找影响生存时间的“危险因素”和“保护因素”; (3) 估计生存率和生存时间长短,进行预后评价。
因变量为连续型资 料,最好满足正态 分布
因变量为分类资料, 二分类、有序分类、 多分类
Байду номын сангаас
因变量为时间+结 局变量,常含有缺 失值
线性回归
Logistic回归
Cox回归
第一节 基本概念
一、生存时间 1. 生存分析(survival analysis):
失去联系等,未能观察到其死亡结局。 ③退出:中途退出试验或改变治疗方案或死于其它与研究无
关的原因。
* 终点事件 + 截尾值
研究起始
* *
+
+ +
*
+
研究终点
4. 生存时间的特点:
① 同时考虑生存结局和生存时间; ② 生存时间可能含有删失数据; ③ 生存时间的分布和常见的统计分布有明显不同,如呈
指数分布Weibull分布、对数正态分布、对数logistic分 布、gamma分布或更为复杂的分布,因此需有能分析 这类数据的特殊的统计方法; ④ 生存时间的影响因素多而复杂且不易控制。
① 如资料中无删失数据,则直接计算生存率。

生存分析

生存分析

19.2.1 寿命表法(life table method)
例21-1 收集374名某恶性肿瘤患者的随访资料,取时间区 间均为1年,整理结果见下午表,试估计各年生存率。
解析:
该生存资料为大样本,生存时间粗略且含有删失数据。
方法原理:
寿命表法
1. 计算期初有效例数,注意删失数据
期初有效例数=期初病例数-期内删失数/2
表19-2 30例膀胱肿瘤患者生存资料的原始记录表
编 号
1 2 3
年龄 肿瘤 肿瘤大 是否 (岁) 分级 小/cm 复发
62 64 52 I I II ≤3.0 ≤3.0 ≤3.0 0 0 1
手术日期
02/10/1996 03/05/1996 04/09/1996
终止观 察日期
12/30/2000 12/03/1999
期间死亡人数:k 初人口数:n 末人口数:n-k
⑴ 死亡概率(probability of death):表示某单位时
段开始存活的个体,在该时段内死亡的可能性;
如年死亡概率。
某年内死亡人数 死亡概率(q) 某年年初人口数
注意:如果年内有删失,则分母用校正人口数: 校正人口数 = 年初人口数—删失例数/2
19 生存分析
常用的回归分析:
回归分析
1个因变量Y Y是数值 变量
两个因变量 (结局分类变量+时间)

生存分析
Cox回归
Y是分类 型变量
① 一元回归
1个自变量X
② 多重回归
2个以上自变量X
③ Logistic 回归
Logistic regression
Simple regression
Multiple regression

生存分析

生存分析

4
5 6
02-08-25
02-10-01 02-10-04
02-11-29
02-11-28 02-12-28
0
0 1

访
96+
59+ 86
死于车祸 复发死亡
(三)死亡概率


死亡概率(mortality probability) 在单位时段开始时存活的个体在该时段 内死亡的可能性大小。
某年内死亡数 q 某年初观察例数
表14.1 6例乳腺癌患者手术后的随访记录
患者 编号 观察记录 开始日期 终止日期 结局 (死=1,生=0) 原因 生存天 数 t
1 2 3
02-09-03 02-09-10 02-09-14
02-12-29 02-12-08 02-12-31
0 1 0
死于“非典” 转移死亡 研究终止
118+ 90 108+
生存分布比较:似然比检验
Weibull分布
生存分布比较:极大似然估计
对数正态分布
生存分布比较:极大似然估计
非参数法



乘积极限法 寿命表法 对数秩检验 Gehan比分检验
Cox-Mantel检验 Cox的F检验 Mantel-Haenszel检验 Kruskal-Wallis检验
生存分析的主要内容



一、生存分析的主要内容 1、描述生存过程 估计生存率及其标准误、绘制生存曲线 2、比较生存过程 对数秩检验、Gehan比分检验

3、生存过程的影响因素分析 常用的多因素生存分析方法Cox比例风险回 归模型ห้องสมุดไป่ตู้
生存分析的基本方法

第十七章生存分析SurvivalAnalysis

第十七章生存分析SurvivalAnalysis
2.观察对象在不同时间接受处理因素(起点不同) 随访方式:临床试验研究(见图17-1,b)
12
动物实验随访数据(图17-1,a)
×为死亡
×
O 为截尾
O O
× ×
0
起始事件时间
如给药
t
研究结
束时间
13
一批病人不同时间进入研究的随访资料
起点
起点
起点
死亡
死亡
失访
起点
90年
91年
起点 92年
存活 存活
93年(研究结
0 2 4 6 8 10 12 14 16 18 20 年
t
“t”表示从研究起点到结局出现时间 22
生存率S(t)的概率乘法估计
S(t)也称累计生存概率,t 时刻存活是t 时刻之前一直生存的累积。
概率乘法原理计算(359页)
s(ti ) pi p1 p2...pi (公式17-2)
Pi 为某时间区间(ti)的生存概率。假定 个体在各时段生存是独立。
该类数据通过随访得到,称为随访资料。
5
随访研究资料
• 当研究事件(y)的结局是两分类数据(发
生,不发生),并且结局与时间(t)有关, 如同时收集事件发生的时间(t),该类数据 称为随访资料,分析该数据的统计方法用生 存分析。
• 生存分析是将“结局”与“时间”两个因素 结合一起研究的统计分析方法。
6
第一节 生存分析的基本概念
一、随访数据概念
1.分析的变量(y) 1) 结局事件:指结局出现的特征,如疾病的死 亡、复发、发生( y=1或0) 。
2)时间间隔变量 记为(t)
t=结局事件出现日期 - 事件的起始日期
(起始日期可规定:如诊断、用药、手术日期

08 SAS生存分析

08 SAS生存分析


S(0)=1;
S(2) :2年生存率,个体生存时间超过 2年的概率
5
二、生存率的基本估计方法
乘积极限法估计生存率

Kaplan-meier法:乘积极限法(ProductLimit Method,PL法) 适用于小样本资料,对删失数据无校正 不需要对被估计的资料分布作任何假设 利用tk时刻之前各时点上生存概率的乘 积来估计在时刻tk的生存率

16
Lifereg 参数回归
17
指数分布

Lamda是指数分布的危险度
18
指数回归模型
19
Weibull分布
20
Weibull回归模型
21
proc lifereg; model days*censor(0)=group renal; run;

proc lifereg; model days*censor(0)=group renal / dist=exponential;run;
8
Strata—by—group-test
9
Strata—by—group-test
10
例15.2





ห้องสมุดไป่ตู้
data life2; input days renal@@; censor=(days<0); group=(_n_>12)+1; days=abs(days); cards; 8 1 52 0 58 1 63 1 63 1 220 0 365 0 452 0 496 0 -528 0 -560 0 -676 0 13 1 18 1 23 1 70 0 76 0 180 0 195 0 210 0 232 0 300 0 396 0 -490 0 -540 0 ; proc lifetest plots=(s); time days*censor(1); strata group; test renal; run;

生存分析(survivalanalysis)

生存分析(survivalanalysis)

⽣存分析(survivalanalysis)⼀、⽣存分析(survival analysis)的定义 ⽣存分析:对⼀个或多个⾮负随机变量进⾏统计推断,研究⽣存现象和响应时间数据及其统计规律的⼀门学科。

⽣存分析:既考虑结果⼜考虑⽣存时间的⼀种统计⽅法,并可充分利⽤截尾数据所提供的不完全信息,对⽣存时间的分布特征进⾏描述,对影响⽣存时间的主要因素进⾏分析。

⽣存分析不同于其它多因素分析的主要区别点:⽣存分析考虑了每个观测出现某⼀结局的时间长短。

应⽤场景 什么是⽣存?⽣存的意义很⼴泛,它可以指⼈或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常⼯作(相对于失效或故障),甚⾄可是是客户的流失与否等。

在⽣存分析中,研究的主要对象是寿命超过某⼀时间的概率。

还可以描述其他⼀些事情发⽣的概率,例如产品的失效、出狱犯⼈第⼀次犯罪、失业⼈员第⼀次找到⼯作等等。

在某些领域的分析中,常常⽤追踪的⽅式来研究事物的发展规律,⽐如研究某种药物的疗效,⼿术后的存活时间,某件机器的使⽤寿命等。

在医学研究中,常常⽤追踪的⽅式来研究事物发展的规律。

如,了解某药物的疗效,了解⼿术的存活时间,了解某医疗仪器设备使⽤寿命等等。

对⽣存资料的分析称为⽣存分析。

所谓⽣存资料就是描述寿命或者⼀个发⽣时间的数据。

更详细的说⼀个⼈的⽣存时间的长短与许多因素有联系的,研究因素与⽣存时间的联系有⽆及程度⼤⼩,称为⽣存分析。

例如研究病⼈感染了病毒后,多长时间会死亡;⼯作的机器多长时间会发⽣崩溃等。

这⾥“个体的存活”可以推⼴抽象成某些关注的事件。

所以SA就成了研究某⼀事件与它的发⽣时间的联系的⽅法。

这个⽅法⼴泛的⽤在医学、⽣物学等学科上,近年来也越来越多⼈⽤在互联⽹数据挖掘中,例如⽤survival analysis去预测信息在社交⽹络的传播程度,或者去预测⽤户流失的概率。

⽣存分析研究的内容 1.描述⽣存过程 研究⽣存时间的分布特点,估计⽣存率及平均存活时间,绘制⽣存曲线等,根据⽣存时间的长短,可以估算出各个时点的⽣存率,并根据⽣存率来估计中位⽣存时间,也可以根据⽣存曲线分析其⽣存特点,⼀般使⽤Kaplan-Meier法和寿命表法。

生存分析

生存分析
生存分析 Survival Analysis
欧春泉 生物统计系
一、生存分析的基本概念
1、生存分析(survival analysis)是将 事件的结果(终点事件)和出现这一 结果所经历的时间(生存时间)结合 起来分析的一种统计分析方法。 它不 同于其它多因素分析的主要区别点就 是生存分析考虑了每个个体出现某一 结局的时间长短。
10
6. 生存分析的特点
9 可以处理删失数据 9 与其它多元分析方法的区别:
▬ ▬
与线性回归不同, 结局变量为长短
9 与所有其它统计资料的分析一样,生存分析包括 以下三方面:
▬ ▬ ▬
计算生存率等指标(描述性分析) 可比较两组/多组的生存时间 (单变量分析) 评价各因素对生存时间的影响(多变量分析)
2. 生存率/生存函数 (survival rate/ survival function)
指观察对象经历t个单位时段后仍存活的 可能性,即生存时间大于等于t的概率 可见,生存率随时间而变化,即生存率是 时间t的函数,称生存函数,用S(t)表示, S(t)=P(T≥t) 。某时间点生存函数的值就 是该时间点的生存率
数据分析中用两个变量定义一个观察对象的 随访结果 δ – 结局变量:反映终点事件是否发 生,为二分类变量 – 1 (若终点事件出现) – 0 (若终点事件未出现) T- 观察时间 – 生存时间(若研究的结局出现) – 随访时间(若研究的结局未出现)
5
表1 16-1
病例号 1 2 3 4 开始日期 11/29/80 06/13/82 03/02/83 08/04/83
1 1 3 3 1 1 2 0 1 0 0 0 0 0 1 0 1 1
23 22 21 18 15 14 13 11 10 9 8 7 6 5 4 3 2 1

14-生存分析

14-生存分析

将原始数据录入计算软件,首先对每个备选的自变量作单因素Cox回 归模型,得到表23-9所示结果。由表23-9可见,在水准上,有统计 学意义的因素为年龄和确诊到手术时间。
Cox回归应用中的注意事项
1.Cox回归分析结论的正确性要以科学的设计、有代 表性的抽样为前提。如果样本例数过少(多因素分析 中死亡例数一般应在自变量个数的10倍以上),或者 抽样不随机而使得某些变量在其各个水平上分布极偏, 很难得到真正的结果。有时回归分析得到的相对危险 度与专业知识相悖,并非是什么专业上的新发现,而 是设计上的缺陷造成。通过计算机软件进行模型拟合 只能保证计算上的准确,不合理的设计得到的数据计 算出的结果只能是错得更复杂。另外,虽然它可以利 用删失数据的信息,但过多的删失很可能会带来分析 结果的偏倚。
2. 截尾原因无偏性 例如,老年患者常因不重视随访而失访,由此可能 使估计的生存率偏高。为防止截尾偏性,常需对被截尾者的年龄、 职业和地区等构成情况进行分析。
3. 生存时间尽可能精确 因为多数生存分析方法都是在生存时间排序的 基础上进行的,即使是小小的舍入误差,也可能改变生存时间顺序 而影响结果。对于随访资料,生存时间最好精确到天数。
完全数据
完全数据(complete data):是指从观 察的起始事件一直达到观察的终点事件。 是生存分析最重要的资料,即观察对象 完整的生存时间。
截尾数据
截尾数据(censored data)在随访工作中,由于某种 原因未能观察到病人的明确结局(即终止事件),所 以不知道该病人的确切生存时间,它所提供关于生存 时间的信息是不完全的。
产生截尾现象的原因: ①病人失访 ②病人的生存期超过了研究的终止期
③在动物实验中,达到了事先规定的终止事件
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Log-rank 检验的实例计算
• 本例的检验统计量计算为
2 (10.26)2 16.79
6.2685
• 查卡方界值表,P<0.001,基于两组生存曲线的位 置,可以认为试验组的生存率高于对照组,差异 有统计学意义。
Stata软件实现
一、用Stata软件计算生存率及95%可信区间
1.定义生存分析的时间变量是time,结果变量是 status
乘积极限法(K-M法)估计生存率
序号
i (1)
1 2 3 4 5 6 7 8 9 10 11
时间 t 时刻期 t 时刻 t 时刻 死亡
生存
(月) 初例数 死亡数 终检数 概率
概率
ti
ni
di
ci q=d/n pi=(ni-di)/ni
(2)
(3)
(4) (5) (6)
(7)
3
20
1
0 0.0500 0.9500
▪ 发生的原因
• 失访 • 随访结束时仍存活 • 死于其他原因 • 治疗措施改变
生存分析的基本概念---生存率
❖生存函数 (累计生存概率):个体生存时间大 于t的概率。任一时刻t对应的生存函数就是该 时点的生存率。
▪ S(0)=1; ▪ 2年生存率:个体生存时间超过2年的概率S(2)
❖ 生存曲线:所有时点的生存率构成生存曲线
起始事件:标志研究对象生存过程开始的特征事件 称为起始事件,与终点事件相对应,如确诊、手术、 开始采取措施,开始观察
生存分析的基本概念---生存时间
❖生存时间survival time(失效时间failure time):终点事件与被观察对象发生终点事件 之间所经历的时间间隔,用t表示
▪ 要获得准确的生存时间 ▪ 研究目的不同,时间单位不同,使用恰当的时间单
stset time status
2.显示Kaplan-Meier方法的计算生存率结果 sts list
Stata软件实现
二、用Stata软件绘制生存曲线
1.定义生存分析的时间变量是time,结果变量是 status
stset time status
2. 绘制Kaplan-Meier法估计的生存曲线 sts graph
▪ 生存时间一般为非正态,故用中位生存期 ▪ 可采用内插法计算:
t0.5=20.4(月) ▪ 如果生存期最长的死亡对象的生存率高于50%,则无法估计中位生
存期。
生存寿命表法计算生存率
❖适用于大样本资料 ❖数据按时间区间分组 ❖利用删失资料信息,按删失资料对进行校正 ❖区间中的删失个体折算半个人时
寿命表法计算生存率
安慰剂组(第2组):1,1,2,2,3,4,4,5,5,8,8,8,8, 11,11,12,12,15,17,22,23
两组生存曲线的统计描述
1.00
0.75
生 存 0.50 率
0.25
0.00 0
group 1
试验组
对照组
group 2
10
20
30
40

Log-rank test 方法

计算时,先将两组每一生存时间t( j ) 的资料列 成一个2×2 表的形式
❖ 针对这类生存资料的分析方法:生存分析
生存分析
❖ 生存分析
研究既有事件的发生时间又有事件结局资料的统计学方法
强调所研究问题的结果变量是某一事件发生的时间
❖ 基本目的
▪ 描述生存过程 ▪ 比较不同人群的生存过程 ▪ 分析生存时间的相关因素
生存资料的特点
❖ 生存资料的特点 ▪ 随访资料 ▪ 时间和结局(失效、删失) ▪ 有不完全数据 ▪ 通常不服从正态分布
活 过 该 时 间 区 间 人 数 p某 时 间 区 间 初 期 尚 存 活 人 数
生存分析的基本概念---终检
❖ 终检censoring:删失值,在终点事件发生前, 由于某种原因被观察对象的观测过程终止了
❖ 右删失:终点事件发生在最后一次观察的右方
▪ 特点:不完全信息(不知道确切生存时间),但可知真 实的生存时间不会短于现在观察到的时间。
0.7594 0.5889 0.5253 0.4377 0.3939 0.2772 0.2376 0.1697
生存率曲线的比较
❖ Log-rank检验:时序检验,属于非参数方法, 比较整个生存时间的分布
▪ 大样本卡方检验 ▪ 2条或多条生存曲线比较
H0:总体生存率曲线相同 H1:总体生存率曲线不同
Stata软件实现
三、用Stata软件进行Log Rank检验
1.确定生存分析的时间变量是week,结局变量是 outcome
Stset week outcome
2.对两条曲线进行Log Rank检验 sts test group,logrank 即:Sts test 分组变量,logrank
7 1000-
8
11
2
7
8 1300-
5
1
3
3.5
9 >1600
1
0
1
---
死亡 概率 q=d/nc (7)
0.2406 0.2245 0.1081 0.1667 0.1000 0.2963 0.1429 0.2857
生存 概率 p=1-q (8)
生存 率 S(t+1) (9)
0.7594 0.7755 0.8919 0.8333 0.9000 0.7037 0.5871 0.7143
生存分析的基本概念---生存率
❖ 生存率计算
▪ 无删失: S(t)t时 刻 仍 总 存 观 活 察 的 例 观 数 察 例 数
▪ 有删失:需分段计算各时间段的生存概率pi ,然后利用
概率乘法将pi相乘得到t时刻的生存率
S(t) S(tp ) 1 p1 p p 2 2 L ...pt p t
▪ 第i个时段开始的人数为 n i ,在第i个时段内死亡人数
生存率曲线的比较
例10.3:现有两组白血病病人的随访研究资料,其缓 解时间(周)记录如下,现欲比较治疗组与安慰剂组 的病人生存曲线是否一样?
• 资料
治疗组(第1组): 6,6,6,7,10,13,16,22,23,6+,9+, 10+,11+,17+,19+,20+,25+,32+,32+,34+,35+
❖例:10.2
序 术后 期初观 期内死 期内终 校正
号 生存 察例数 亡人数 检人数 人数
天数
n
d
c
nc=n-c/2
(1) t
(3)
(4)
(5)
(6)
(2)
1
0-
68
16
3
66.5
2 50-
49
11
0
49
3 100-
38
4
2
37
4 200-
32
5
4
30
5 400-
23
2
6
20
6 700-
15
4
3
13.5
死亡 生存
合计
治疗组(i=1) d1j
n1j-d1j
n1j
Hale Waihona Puke 安慰剂组(i=2) d2j
n2j-d2j
n2j
合计
Dj
Sj
Nj
计算理论死亡数e1i
n1j Dj Nj
计算Log-rank检验统计量
2
(d 1i
e1i
)
2 i
n1 jn2 j D jS j
j N j2 ( N j 1)
H0为真时,Log-rank统计量2服从自由度为1的卡 方分布
生存资料
患者 编号
1 2 3 4 5
性别
男 女 女 男 女
年龄
32 48 26 55 58
从确诊到手 手术时间 终止随访时间 结局 术的时间(月)
10
1994.01.23 1994.12.24 死亡
12
2019.02.14 2019.01.01 失访
6
1992.03.04 2019.04.12 死亡
5
19
1
1 0.0526 0.9474
8
17
1
0 0.0588 0.9412
9
16
2
2 0.1250 0.8750
11
12
1
0 0.0833 0.9167
15
11
1
1 0.0909 0.9091
16
9
1
0 0.1111 0.8889
20
8
1
1 0.1250 0.8750
25
6
1
0 0.1667 0.8333

• 从疾病确诊到死亡 • 从治疗开始到治愈 • 从出生到第一颗乳牙萌出
生存分析的基本概念---死亡概率/生存概率
死亡概率q:在某时间区间内的被观察对象在 该时间区间内(无失访)死亡的概率估计
在 该 时 间 区 间 死 亡 人 数 q某 时 间 区 间 初 期 尚 存 活 人 数
生存概率p:在某时间区间内(无失访)的被观察 对象在该时间区间内生存的概率估计
28
5
1
3 0.2000 0.8000
32
1
1
0 1.000 0.0000
生存率
S(ti) (8) 0.9500 0.9000 0.8471 0.7412 0.6795 0.6177 0.5491 0.4804 0.4004 0.3203 0.0000
总体生存率的区间估计
相关文档
最新文档