第六讲 生存分析要点
生存分析_精品文档

生存分析
有结局和生存时间两个因变量; 生存时间分布不正态—非负且右偏; 可能含有删失数据(censor)。
寿命表法
寿命表法
①
②
③
④
寿命表法曲线为折线。 该法只估计时段右端点的生存率,省略了时段内的生存率估计。
恶性肿瘤患者确诊后5 年内生存率下降较快,5 年后下降较平缓,说明确诊5年内该恶性肿瘤患者的死亡威胁较大。
中位生存期
【电脑实现】 —SPSS
1.数据录入:频数形式
生存分析—寿命表法
【Time 】 生存时间(年) 【 Status 】0:删失数据 1:完全数据(死亡) 【 Freq 】频数
处理删失/截尾数据时两种错误的做法: 错误1:只考虑确切数据,丢弃截尾数据(损失信息); 错误2:将截尾数据当作确切数据处理(低估了生存时间的平均水平)。
在处理正偏态分布数据时两种错误的做法: 错误1:采用平均生存时间而不是采用中位生存时间来表示生存时间的平均水平。 错误2:采用常规 t 检验或方差分析进行组间比较。(应采用log-rank检验比较几组生存时间 )
针对单位时间的
⑴ 死亡概率(probability of death):表示某单位时段开始存活的个体,在该时段内死亡的可能性;如年死亡概率。
注意:如果年内有删失,则分母用校正人口数: 校正人口数 = 年初人口数—删失例数/2
末人口数:n-k
初人口数:n
期间死亡人数:k
⑵ 生存概率(probability of survival) :单位时段开始 时存活的个体,到该时段结束时仍然存活的可能性。
讲稿生存分析

生存分析与临床应用一.概述在医学科研中,我们常常对观察对象作追踪观察,并记录各个时点某事件的发生状况。
对这种资料进行分析时,不仅应该考虑某事件发生的频率,还要考虑从试验开始到该事件发生的时间。
因为即使事件发生的频率相同,但若某事件的发生与时间有关,则仍可提示各个试验组存在差异。
因此,对于随访研究资料而言,仅仅考虑随访的结果是不够的,还应该考虑随访的时间。
生存分析(survival analysis)就是将随访结果与随访时间(times to event)结合起来对资料进行分析的一类统计方法,它充分地利用了研究中所得到的信息,能够更加全面地、准确地分析随访资料。
生存分析中的观察结果可以是任何事件,如死亡、痊愈、发病等,故生存分析可广泛用于医学科研工作中。
生存分析的主要内容包括了生存率的计算、两组或多组生存率的比较,以及多因素的生存分析方法,如Cox回归模型、Logistic回归。
二.生存分析中的常用术语(1)“死亡”事件,或称失败事件(failure event)在生存分析中,用以反映处理因素失败的特征事件,它可以是任何事件,如死亡、痊愈、发病等。
一般来说,做生存分析最好的资料是全部观察对象都已产生特征事件的资料,也就是说截尾值越少越好,而截尾值太多的资料,其分析结果的可靠性较差。
(2)截尾值(终检值,censored value)由于各种原因无法得到观察对象明确的结局事件,不知道观察对象的确切生存时间,属于信息不完整的数据。
如研究者常遇到如下情况:①直到研究结束时点,观察对象尚未发生某事件(未死亡、未缓解等)。
②观察对象死于其他疾病或因某种原因中断了治疗;③观察对象搬迁到其它地区,中断了联系。
这时,无论把这些观察对象归为发生或归为未发生某个事件都不合理,包含有这些情况的资料都不能提供分析所需要的完整信息。
因此,将其数值称为终检值(截尾值,censored value),有终检值的数据称为终检数据(截尾数据,censored data)。
第06讲生存分析(I)ppt课件

?
基本概念
生存、死亡、截尾 起始事件、终点事件 生存时间 生存函数(率)、死亡函数(率) 风险函数 风险比、比例风险
生存时间
survival time, failure time 终点事件与起始事件之间的时间间隔。
终点事件指研究者所关心的特定结局。起始事件 是反映研究对象生存过程的起始特征的事件。
合格的 研究对象 对照组 伴随因素 干扰因素
出现结果
尚未出现结果 失访、脱落
随访研究(follow-up study)示意图
问题1
如何分析?
某肿瘤患者5年生存率
观察人数 20 20 生存人数 0 0
A组 : B组:
OR=?
问题2 如何计算平均数
手术到死亡时间 • 3 7 15 20 25 26 30 平均生存时间 mean=18 3 9 15 20 25+ 27 30+ 中位生存时间 median=20
表1 病例号 1 2 3 4 开始日期 11/29/80 06/13/82 03/02/83 08/04/83 表2 病例号 1 2 3 4
4 例鼻咽癌患者术后随访记录 终止日期 11/04/85 06/08/83 12/31/86 04/10/86 结局 死亡 死亡 失访 死亡 治疗方法 1 1 0 0 性别 F M M F …
没有截尾 有截尾
生 存 时 间 T t 的 病 人 数 S ( t ) P ( T t ) 观 察 病 人 总 数
S ( t ) P ( T t ) p p p . . . . . . p p 1 2 3 t j
t t j
2 死亡率=1-生存率
常见生存函数的类型
生存分析 PPT

12
起始事件
疾病确诊
终点事件
死亡
疾病确诊
治疗开始 治疗开始
生存时间
随访时间
痊愈
死亡 痊愈
症状缓解
接触毒物 接触危险因素
疾病恶化
出现毒次吸烟(毒)
13
基本概念
(二)生存时间
特点:
1. 分布类型不易确定。 一般不服从正态分布,有时近似服从指数分布、Weibull分 布、Gompertz分布等,多数情况下往往不服从任何规则的 分布类型。
人开始职业性铅接触等。
终点事件(endpoint event):又称失效事件(failure event),
指研究者所关心的研究对象的特定结局。如患者死于癌
症、工人出现重症铅中毒症状等。
11
基本概念
(二)生存时间
定义:
广义的 生存时间(survival time):也称失效时间(failure time),指从某个起始事件开始到某个终点事件的发生 (出现反应)所经历的时间。
4
生存分析的历史与应用
17、18世纪:寿命表的提出及其应用。
1926年:Greenwood提出评价生存函数的误差的方法— Greenwood公式。
1958年:生存函数的计算方法—Kaplan-Meier法(乘积极限 法product-limit)的提出。 1960年代中叶:生存时间的组间比较方法的开发—广义 Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-rank test, 又称时序检验) [Mantel,1966年]。 1970年:将协变量的影响模型化—参数模型(假设生存时间 服从Weibull分布、对数正态分布等);半参数模型(比例风险 5 模型,又称Cox回归模型) [Cox,1972年]。
生存分析介绍PPT教学课件

188.000
.
.
.
3 16
188.000 0.7895 0.2105 0.0935 4 15
190.000 0.7368 0.2632 0.1010 5 14
192.000 0.6842 0.3158 0.1066 6 13
206.000 0.6316 0.3684 0.1107 7 12
209.000 0.5789 0.4211 0.1133 8 11
Wilcoxon秩和检验(Gehan,1965年);对数秩检验(logrank test)又称时序检验(Mantel,1966年)。 1970年:将协变量的影响模型化—参数模型:假设生存 时间服从Weibull分布、对数正态分布等;半参数模型: 比例风险模型(Cox,1972年),又称Cox回归模型。
比较的两组之间生存函数是否不同的非参数 检验方法
没有删失的例子
组别j
1
>
2
>
时点i 实际时间
1
23
4
56
45 6 9 10 11
具体计算方法
比较的两组之间生存函数是否不同的非参数 检验方法(续)
有删失的例子
组别j 1
+
2
时点i 实际时间
1
23
4
567
:删失
>
+>
45 6
9 10 11
13
Logrank Test and Wilcoxon Test
病人相对于丙病人的突然死亡风险为:
h0 texp h0 texp
1 2
exp
1
2
可以发现我们在做任何比较时,都
不用关心 h0 t的具体形式。
生存分析(SurvivalAna...

生存分析(SurvivalAna...1. 生存分析生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法。
常见的有1)癌症患者生存时间分析2)工程中的失败时间分析等等。
1.1 定义给定一个实例i ii,我们用一个三元组来表示(Xi,δi,Ti) (X_i, \delta_i, T_i)(Xi,δi,Ti),其中Xi X_iXi表示该实例的特征向量,Ti T_iTi 表示该实例的事件发生时间。
如果该实例发生了我们感兴趣的事件,那么 Ti T_iTi表示的是事件发生时间点到基准时间点之间的时间,同时δi=1 \delta_i = 1δi=1。
如果该实例未发生我们感兴趣的事件,那么 Ti T_iTi表示的是事件发生时间点到观察结束时间点的时间,同时δi=0 \delta_i = 0δi=0。
生存分析的研究目标就是对一个新的实例Xj X_jXj,来估计它所发生感兴趣事件的时间。
1.2 删失(censored)在生存分析研究中,对于某些实例,会出现在我们的研究期间,并没有出现任何感兴趣的时间,我们将这种情况称之为删失(censored)。
出现这种情况的可能原因有:1)实例在研究阶段就是没有出现感兴趣的事件(right-censored)2)在研究阶段,丢失了该实例3)该实例经历了其他的事件导致无法继续跟踪2 生存概率(Survival probability)生存概率也叫作生存方程S(t)=Pr(T>t) S(t) = Pr(T>t)S(t)=Pr(T>t),生存方程指的是实例出现感兴趣的事件的时间 T TT不小于给定的时间 t tt的概率。
2.1 Kaplan-Meier survival estimateKM方法是一种无参数方法(non-parametric)来从观察的生存时间来估计生存概率的方法。
对于研究中的第n nn个时间点tn t_ntn,生存概率可以计算为:S(tn)=S(t n−1)(1−dnrn) S(t_n) = S(t_{n-1})(1-\frac{d_n}{r_n})S(tn)=S(tn−1)(1−rndn)其中,S(t n−1) S(t_{n-1})S(tn−1)指的是在t n−1t_{n-1}tn−1时间点的生存概率;dn d_ndn指的是在时间点tn t_ntn所发生的事件数;rn r_nrn指的是在快要到时间点tn t_ntn时,还存活的人(如果在t n−1t_{n-1}tn−1和tn t_ntn之间有实例censored,那么在计算rn r_nrn时应该将该患者剔除出去);t0=0,S(0)=1 t_0=0, S(0)=1t0 =0,S(0)=1。
医学统计―生存分析课件

t
关系可表示为: S(t) exp h(t)dt (16.9)
0
风险函数与生存函数的关系
17
h1 t 是一种上升的曲线,危险率随时间变化而增加,如
急性白血病患者治疗无效时其危险率随时间呈增加趋势;
h2 t 的曲线为下降趋势,表示危险率逐渐减小,如意
外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;
of survival),即将时刻 t 尚存活看成是前 t 个时段一直
存活的累计结果。如: n年生存率 1p0 1 p11 p2 ......1 pn1 。 14
(四)生存率曲线(survival curve): 是指以时间为横轴、生存率为纵轴,将各个时点的生 存率连接在一起的曲线图。曲线形状分为两种: 1、阶梯形:小样本资料用直接法估计的生存曲线; 2、折线形:大样本资料用频数表法估计的生存曲线。 (五)中位生存期(median survival time): 也称半数生存期,即生存时间的中位数,表示生存率 等于 50%时的时间。反映生存时间的平均水平。
1
0.5000 0.5000
1
1.0000 0.0000
活过该月 的生存率
p(x>t) (7) 0.9000 0.9000 0.7875 0.6750 0.5625 0.5625 0.4219 0.4219 0.2109 0.0000
生存率 标准误
s
(8) 0.0949 . 0.1340 0.1551 0.1651 . 0.1737 . 0.1726 0
2
传统方法在分析随访资料时的困难
时间和生存结局都成为了要关心的因素
•除了生存结局作为判定标准以外,只要能让病人存活 时间延长,这种药物也应当是被认为有效的。即时间 延长也认为有效 •如果将两者均作为应变量拟和多元模型,因为时间分 布不明(一般不呈正态分布,在不同情况下的分布规 律也不同),拟和多元模型极为困难
《生存分析》PPT幻灯片PPT

截尾数据
截尾数据(censored data)在随访工作中,由于某种原 因未能观察到病人的明确结局(即终止事件),所以 不知道该病人的确切生存时间,它所提供关于生存时 间的信息是不完全的。
产生截尾现象的原因: ①病人失访 ②病人的生存期超过了研究的终止期
③在动物实验中,达到了事先规定的终止事件
生存时间资料的特点
生存时间资料常因失访等原因造成观察不完全,因而在资料搜集、统计 分析和质量控制等方面均有其显著的特点。
生存时间资料有如下显著特点: (1)效应变量有2个 一是生存时间(天数),二是结局(死亡与否、是否阳性 等)。 (2)存在截尾数据 如有些病人未观察到底,不知他们究竟能活多长时间。 (3)分布类型复杂 生存时间资料常通过随访获得,因观察时间长且难以控 制混杂因素,故其分布常呈偏态,影响因素较多,规律难以估测。
各种生存数据的表示
×
X
×
X
o
O
1994
1995
×
X
1996
1997
年份
1998 1999
各种生存数据的表示
×
X × X ×
X
o
X 1994 1995 1996 1997 1998 1999 2000
死亡概率
死亡概率(mortality probability)记为q, 是指死于某时段内的可能性的大小。
因此,生存时间资料不宜简单地计算死亡率,也不能简单地计算生存时 间的平均数,必须将两者结合起来分析才能准确地反映疗效和预后的好 坏程度,即必须用生存分析方法作统计分析。
病例随访资料分析
• 基本概念 • 小样本未分组资料分析 • 大样本分组资料分析
基本概念
• 生存时间 • 完全数据 • 截尾数据 • 死亡概率 • 生存概率 • 生存率
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
——以员工离职管理为例
一、生存分析与生存数据
生存分析应用于生物医学、工业、社会科学等领 域,比如肿瘤患者治疗后生存时间、电子设备的 寿命、婚姻持续时间、员工工作时间等等;
生存数据特点:在研究期间结束时在某些个体身 上还没有发生,如果所观测的数据含有事件称为 删失数据。比如,员工在企业的工作时间就是生 存数据,把员工加入企业看作“出生”,离职看 作“死亡”,工作时间就是看作“生存时间”;
其中h0 t 是一个同X无关的基准风险函数。
它是等比例风险模型,这是因为
ht,
ht,
X1 X2
h0 t exp h0 t exp
X 1'
X
' 2
exp X1 X 2 '
极大似然估计
参数估计
Cox模型允许基准风险h0t 的函数形式任意,不需
要为基准风险设定函数形式,可以照常估计回归系 数
六、Cox Regression 风险比例模型分析
因变量:生存时间,时间变量是数值型,状态变 量可以是分类或连续型变量;
自变量:与生存时间有关的一组变量; 比例风险假设:从一个事件到另一个事件的风险
比例不随时间而变化 一般来说,使用向后消去法可以减少漏掉潜在的
有价值的预测因子
实例
根据一组137位肺癌患者生存时间的数据,辨认预测因素
数据说明 数据来源:国内某大型商业银行人力资源部门,1300个
样本
因变量:
Y:员工在职时间 C:是否已经离职
解释变量
X1:户籍 X2:性别 X3:年龄
描述分析 1.整体的描述分析
员工的平均在职时间有多长?
均值?中位数?
2.对比分析 分户籍生存函数 分性别生存函数 分年龄生存函数
模型分析
五、KM分析(Kaplan-Meier分析)
时间变量是数值型 状态变量是二分变量或分类变量 发生的事件可以用一个正数值或用某个范围的连
续数值表示 假设:事件发生的概率仅依赖于时间 案例:根据某医院对58例肾上腺样瘤病人在不同
治疗中的数据,分析在切除或不切除肾脏条件下 两种治疗方案的结果是否有显著差异。
二、生存时间函数
生存函数(累积生存率)
St PZ t
概率密度函数
f t lim Pt Z t t
t 0
危险率函数(风险函数)
t
ht
lim
t 0
Pt
Z
t t
t
|
Z
t
f t S t
St
exp
t
0
hsds
三、Cox回归模型
比例风险模型(Cox模型)
h t h t e1x12x2 k xk 0
KM分析
实际操作
生存函数 对比分析
Cox等比例风险模型分析
参数估计结果
Cox模型的优劣
缺点: 不好懂
优点:
对模型设定要求较弱 应用广泛
课后习题
癌症临床试验数据研究
1.研究目的:对比评估某新治疗方案的疗效; 2.数据介绍:
因变量是病人的生存时间和生存状态, 自变量是不同治疗方案、癌细胞类型、临床打分、 病人年龄; 3.作业要求:做完整的生存数据回归分析,包括参 数估计、假设检验,以及预测评估。
估计方法 极大似然估计
统计学推断
四、生命表分析
生命表用来概括在特定的时期里特定人口的死亡 情况,是一种非参数分析方法
实验研究饮食与肿瘤之间的关系,对90只老鼠分 成3组,在相同环境下,分别给予低脂饮食、饱和 饮食和不饱和饮食,注射等量的肿瘤细胞,观测 200天,做出不同喂养方式下的生存时间表,比较 不同喂养方式下生存的时间是否有显著性差异。
id
患者编号
诊断到治 diagtime 疗时间
time
生存时间
prior
治疗前处
理
0
经过处理 1 未经处理
therapy 治疗方案 1 标准方法 2 实验方法
status cell
病人状态 0 死亡 1 鳞癌
1 删失数据 2 小细胞肺癌 3 腺癌 4大细胞肺癌
七、以员工离职管