生存分析(1)

合集下载

预后的统计学评价方法(生存分析)

在设计时必须明确规定并在研究中严格遵守！
生存分析中的基本概念(2)
❖ 截尾值 (censored value)
随访中由于某种原因未观察到病人的明确结局 (即终点事件)，无法得知该病人的确切生存时间，这些对象的观察值称为截尾值，又称删失值
它提供的生存时间的信息不完全常用符号“ + ”表示，如140+天
生存资料的数据特征
➢ 完全数据：已知事件发生的起始时间和结束时间，能获得完整信息的数据。
➢ 不完全数据（截尾数据）：只能获得事件发生的起始时间或结束时间，得到的部分信息的数据。一般在数据后面加 “+”用以表示。
1 资料收集-随访
2 几个基本概念 3 生存分析的内容和基本方法
随访内容
➢ 明确开始随访的时间 ➢ 随访的结局和终止随访的时间 ➢ 记录影响生存时间的有关因素
多组间的生存率比较方法
（方法选择途径）
“Options”对话框 “Compare Factors”对话框
SPSS操作步骤（K-M法）
Analyze Survival Kaplan-Meier Time框选入时间变量time Status框选入结局变量outcome Define Event 按钮 Single value 框输入 1 Continue Optionns 按钮勾选 Survivla tables 、Mean and median survial、
➢ 截尾原因无偏性； ➢ 生存时间尽可能精确。
Life table
Kaplan-Meiຫໍສະໝຸດ r共同点非参数分析方法、一般用于单因素分析
适用条件大样本资料
大样本、小样本资料
分组生存资料
未分组生存资料

生存分析

例14．1 某医师采用手术疗法治疗12例
宫颈癌患者，随访时间(月)记录如下：1，
2，4，5，7，8+，11，15，18，33+，36， 38+。试估计各时点生存率及其标准误、各时点总体生存率的95％可信区间、中
位生存时间，并绘制生存曲线。
(1)生存率及其标准误的计算
如生存时间t为4月的生存率为
1 1 1 s(t 3) p1 p 2 p3 (1 )(1 )(1 ) 0.7500 12 12 10
各时生存率的标准误，其计算公式为
1 S (tk ) SE[ S (tk )] S ( sk ) nk dk
（14.6）
如S(t3)的标准误SE[S(t3)]为
分组资料两个样本生存曲线的比较；对
数秩检验可用于两个或多个样本生存曲
线的比较，又可用于未分组和分组资料
生存曲线的比较。
2．应用条件交叉。
要求各样本生存曲线不能
3．处理措施优劣的判断均可根据各组生
存曲线位置的高低直观判断，但Gehan 比分检验还可根据V值的正负来判断，V
值为正的一组处理措施的效果较优。
分别为5.1282,11.8718 。
3．求出p值，作出推断结论查附表5，
X2界值表，得p<0．05，拒绝H0，接受 Hl，又因从图14．3可直观地看出放化疗联合组的生存曲线位置较高，故可认为放化疗联合治疗肺癌的效果较好。
二、Gehall比分检验
Gehan比分检验(Gehan score test)仅用于两样本生存曲线的比较。仍以例14．3说
布、Weibull分布、对数正态分布等；
2．非参数法
例如乘积极限法、寿命表

第十七章生存分析SurvivalAnalysis

2.观察对象在不同时间接受处理因素（起点不同）随访方式：临床试验研究（见图17-1，b）
12
动物实验随访数据（图17-1，a）
×为死亡
×
O 为截尾
O O
× ×
0
起始事件时间
如给药
t
研究结
束时间
13
一批病人不同时间进入研究的随访资料
起点
起点
起点
死亡
死亡
失访
起点
90年
91年
起点 92年
存活存活
93年（研究结
0 2 4 6 8 10 12 14 16 18 20 年
t
“t”表示从研究起点到结局出现时间 22
生存率S（t）的概率乘法估计
S（t）也称累计生存概率，t 时刻存活是t 时刻之前一直生存的累积。
概率乘法原理计算(359页)
s(ti ) pi p1 p2...pi （公式17-2）
Pi 为某时间区间（ti）的生存概率。假定个体在各时段生存是独立。
该类数据通过随访得到，称为随访资料。
5
随访研究资料
• 当研究事件（y）的结局是两分类数据(发
生，不发生)，并且结局与时间（t）有关，如同时收集事件发生的时间（t），该类数据称为随访资料，分析该数据的统计方法用生存分析。
• 生存分析是将“结局”与“时间”两个因素结合一起研究的统计分析方法。
6
第一节生存分析的基本概念
一、随访数据概念
1.分析的变量（y） 1）结局事件：指结局出现的特征，如疾病的死亡、复发、发生( y=1或0) 。
2）时间间隔变量记为（t）
t=结局事件出现日期－事件的起始日期
（起始日期可规定:如诊断、用药、手术日期

生存分析（survivalanalysis）

⽣存分析（survivalanalysis）⼀、⽣存分析(survival analysis)的定义⽣存分析：对⼀个或多个⾮负随机变量进⾏统计推断，研究⽣存现象和响应时间数据及其统计规律的⼀门学科。

⽣存分析：既考虑结果⼜考虑⽣存时间的⼀种统计⽅法，并可充分利⽤截尾数据所提供的不完全信息，对⽣存时间的分布特征进⾏描述，对影响⽣存时间的主要因素进⾏分析。

⽣存分析不同于其它多因素分析的主要区别点：⽣存分析考虑了每个观测出现某⼀结局的时间长短。

应⽤场景什么是⽣存？⽣存的意义很⼴泛，它可以指⼈或动物的存活（相对于死亡),可以是患者的病情正处于缓解状态（相对于再次复发或恶化），还可以是某个系统或产品正常⼯作（相对于失效或故障），甚⾄可是是客户的流失与否等。

在⽣存分析中，研究的主要对象是寿命超过某⼀时间的概率。

还可以描述其他⼀些事情发⽣的概率，例如产品的失效、出狱犯⼈第⼀次犯罪、失业⼈员第⼀次找到⼯作等等。

在某些领域的分析中，常常⽤追踪的⽅式来研究事物的发展规律，⽐如研究某种药物的疗效，⼿术后的存活时间，某件机器的使⽤寿命等。

在医学研究中，常常⽤追踪的⽅式来研究事物发展的规律。

如，了解某药物的疗效，了解⼿术的存活时间，了解某医疗仪器设备使⽤寿命等等。

对⽣存资料的分析称为⽣存分析。

所谓⽣存资料就是描述寿命或者⼀个发⽣时间的数据。

更详细的说⼀个⼈的⽣存时间的长短与许多因素有联系的，研究因素与⽣存时间的联系有⽆及程度⼤⼩，称为⽣存分析。

例如研究病⼈感染了病毒后，多长时间会死亡；⼯作的机器多长时间会发⽣崩溃等。

这⾥“个体的存活”可以推⼴抽象成某些关注的事件。

所以SA就成了研究某⼀事件与它的发⽣时间的联系的⽅法。

这个⽅法⼴泛的⽤在医学、⽣物学等学科上，近年来也越来越多⼈⽤在互联⽹数据挖掘中，例如⽤survival analysis去预测信息在社交⽹络的传播程度，或者去预测⽤户流失的概率。

⽣存分析研究的内容 1.描述⽣存过程研究⽣存时间的分布特点，估计⽣存率及平均存活时间，绘制⽣存曲线等，根据⽣存时间的长短，可以估算出各个时点的⽣存率，并根据⽣存率来估计中位⽣存时间，也可以根据⽣存曲线分析其⽣存特点，⼀般使⽤Kaplan-Meier法和寿命表法。

生存分析

随访资料的生存分析
内容
一、生存分析的基本概念二、生存率的Kaplan-Meier 法三、生存率的Life Table 法
四、Cox 比例风险模型简介
例1
一、生存分析的基本概念例1 某医师收集了1998年1月到2003年2月5年间用甲、乙两种手术方法治疗肾上腺肿瘤病人的资料，以了解患者术后结局及其可能的影响因素。术后记录的内容如下表：
•
生存分析（survival analysis）
（1）就是将事件的结果和出现这一结果所经历的时间结合起来分析的一种统计分析方法，它不仅可以从事件结局的好坏，如疾病的痊愈（成功）和死亡（失败），而且可以从事件的持续时间进行分析比较，如某病经治疗后存活的时间长短进行分析比较。（2）能同时分析有结局的完全数据和没有结局的不完全数据，充分利用了信息。因而能够更为全面地反映某种治疗的效果。
---------------------------------------------------------------------------------生存手术手术随访终止时间病历号性别年龄方法时间时间结局组织类型（月） --------------------------------------------------------------------------------------------------217328 男 54 甲 98.02.14 99.01.01 失访高分化 10+ 225468 女 61 甲 00.08.27 03.02.28 存活低分化 30+ 227347 男 75 乙 02.04.11 02.08.20 死亡高分化 4 232435 男 45 乙 99.11.07 02.02.02 死亡高分化 26 224562 女 52 乙 03.01.25 03.02.28 存活低分化 1+ . . . ----------------------------------------------------------------------------------------------------

14-生存分析

将原始数据录入计算软件，首先对每个备选的自变量作单因素Cox回归模型，得到表23-9所示结果。由表23-9可见，在水准上，有统计学意义的因素为年龄和确诊到手术时间。
Cox回归应用中的注意事项
1．Cox回归分析结论的正确性要以科学的设计、有代表性的抽样为前提。如果样本例数过少（多因素分析中死亡例数一般应在自变量个数的10倍以上），或者抽样不随机而使得某些变量在其各个水平上分布极偏，很难得到真正的结果。有时回归分析得到的相对危险度与专业知识相悖，并非是什么专业上的新发现，而是设计上的缺陷造成。通过计算机软件进行模型拟合只能保证计算上的准确，不合理的设计得到的数据计算出的结果只能是错得更复杂。另外，虽然它可以利用删失数据的信息，但过多的删失很可能会带来分析结果的偏倚。
2. 截尾原因无偏性例如，老年患者常因不重视随访而失访，由此可能使估计的生存率偏高。为防止截尾偏性，常需对被截尾者的年龄、职业和地区等构成情况进行分析。
3. 生存时间尽可能精确因为多数生存分析方法都是在生存时间排序的基础上进行的，即使是小小的舍入误差，也可能改变生存时间顺序而影响结果。对于随访资料，生存时间最好精确到天数。
完全数据
完全数据（complete data）：是指从观察的起始事件一直达到观察的终点事件。是生存分析最重要的资料，即观察对象完整的生存时间。
截尾数据
截尾数据（censored data）在随访工作中，由于某种原因未能观察到病人的明确结局（即终止事件），所以不知道该病人的确切生存时间，它所提供关于生存时间的信息是不完全的。
产生截尾现象的原因： ①病人失访 ②病人的生存期超过了研究的终止期
③在动物实验中，达到了事先规定的终止事件

生存分析(1)

表 12-1
协变量登记序号 1 2 3 4 5
7.0 No. 16.0 25.0 34.0 43.0 52.0 1.0 0.0
5 例胰腺癌随访记录
观开始日期察记录原因失访复发死亡研究终止复发死亡转移死亡整理生存天数(t) 142+
167 158
姓名性别(男=1) 手术冯 ×× 李 ×× 黄 ×× 吴 ×× 马 ×× 1 0 1 0 1 0 1 1 0 1 终止日期结局(死=1) 0 1 0 1 1 00-07-08 00-11-27
01 00-07-1 0 00-12-15
00-07-16 00-12-31 00-08-18 00-11-22 00-10-10 00-11-12
7.0 No. 56.0 45.0 14.0 23.0 32.0 1.0 0.0
168+ 96 33
+ +
+ + 33 96 60 90 120 150 158 180
ቤተ መጻሕፍቲ ባይዱ
m=d/n q=d/n0 (n0-d)/n0 (n0-d)/N
(6) . 181 (7) . 167 (8) . 833 (9) . 833
1~
2~ 3~ 4~
10
10 10 10
0
0 0 0
50
40 30 20
45
35 25 15
. 222
. 286 . 400 . 667
. 200
. 250 . 333 . 500
11名接受“手术+化疗”治疗的乳腺癌患者的生存时间： 10,14,15,16+,19,19,20,20+,24,26,28

生存分析入门及其应用领域

生存分析入门及其应用领域生存分析是一种统计方法，用于研究个体在给定时间内生存或发生特定事件的概率。

它广泛应用于医学、生物学、社会科学等领域，帮助研究人员了解个体的生存状况和预测未来事件的发生概率。

本文将介绍生存分析的基本概念和方法，并探讨其在不同领域的应用。

一、生存分析的基本概念和方法1.1 生存函数和生存率生存函数是描述个体在给定时间内存活的概率分布函数。

它可以用来计算个体在不同时间点的生存率。

生存率是指个体在给定时间段内存活下来的概率。

1.2 风险函数和累积风险函数风险函数是描述个体在给定时间点发生事件的概率密度函数。

它可以用来计算个体在不同时间点发生事件的风险。

累积风险函数是指个体在给定时间段内发生事件的累积概率。

1.3 生存分析方法生存分析方法包括Kaplan-Meier方法、Cox比例风险模型等。

Kaplan-Meier方法用于估计生存函数和生存率，适用于无法满足正态分布假设的数据。

Cox比例风险模型用于分析多个协变量对生存时间的影响，可以得出各个协变量的风险比。

二、生存分析在医学领域的应用2.1 癌症生存分析生存分析在癌症研究中广泛应用。

研究人员可以通过分析患者的生存时间和相关协变量，评估不同治疗方法对患者生存率的影响。

此外，生存分析还可以用于预测患者的生存时间和制定个体化治疗方案。

2.2 药物研发生存分析在药物研发中也有重要应用。

研究人员可以通过分析药物对动物或人体的生存时间和相关协变量，评估药物的疗效和安全性。

生存分析可以帮助筛选出具有潜在治疗效果的药物，并为临床试验的设计提供依据。

三、生存分析在社会科学领域的应用3.1 人口统计学生存分析在人口统计学中被广泛应用。

研究人员可以通过分析人群的生存时间和相关协变量，评估不同因素对人口生存率的影响。

生存分析可以帮助政府和决策者制定人口政策和社会福利政策。

3.2 金融风险管理生存分析在金融风险管理中也有应用。

研究人员可以通过分析金融产品的生存时间和相关协变量，评估不同因素对金融产品的风险和收益的影响。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(2) 死亡概率 ( mortality probability )
是指单位时段开始时存活的个体到该时段结束时死亡的可能性，即死于某时段t～t+n内的概率。
年内死亡人数年死亡概率q 年初观察例数年内有删失，分母用校正人口数：
校正人口数= 年初人口数—删失例数 / 2 ＝n0－c/2
＝ d/n0
间的平均水平）。
正偏态（positive skewness）数据两种错误的做法：
错误1：采用平均生存时间而不是采用中位生存时间来表示生存时间的平均水平。错误2：采用常规t检验或方差分析进行组间比较。（应采用log-rank检验比较几组生存时间）
二、生存分析的统计描述指标
1.死亡概率、生存概率 2. 生存率及其标准误 3. 半数生存期（中位数）及四分位数间距
. 800
. 750 . 667 . 500
. 667
. 500 . 333 . 167
；
1 . 死亡率、死亡概率、生存概率 (1) 死亡率 (mortality rate，death rate)
表示某单位时间内的死亡强度。
年内死亡人数年死亡率m 1000 0 00 年平均人口数
年平均人口数=(年初人口数+年末人口数)/2
分布类型复杂：生存时间分布不服从正态分布，常常呈正偏态
分布、Weibull分布、Gamma分布或更为复杂的分布，因此要用特殊的统计方法。
2个效应变量（1）生存时间(天数)，（2）
结局(死亡与否、是否阳性等)
错误1：忽略生存时间，采用Logistic回归分析死亡率错误2：忽略结局，采用t检验、线性回归分析生存时间
01 00-07-1 0 00-12-15
00-07-16 00-12-31 00-08-18 00-11-22 00-10-10 00-11-12
7.0 No. 56.0 45.0 14.0 23.0 32.0 1.0 0.0
168+ 96 33
+ +
+ + 33 96 60 90 120 150 158 180
[例1] 手术治疗60例肺癌病人，术后每年死亡10
例，无删失。试求基本生存分析指标。N=60
术后年内年内年初年数死亡截尾观察例数例数例数年平均例数
死亡率
死亡概率
生存概率 p=1-q
(t+1)年生存率
t
(1) 0~
d
(2) 10
c
(3) 0
n0 n=no-d/2
(4) 60 (5) 55
7
8
9
10
11
12
13
0
30
月份（2000年）图12-1 生存时间原始记录示意 ("+"截尾)
天数图12-2 生存时间排序整理数据示意
生存时间资料的特点
2个效应变量（1）生存时间(天数)，（2）结局(死亡与否、
是否阳性等)
删失（截尾）数据：在规定的观察期内，对某些观察对象
由于某种原因未能观察到死亡结局，并不知道确切的生存时间，称为生存时间的删失数据（censored data）。如表12-1中的1号和 3号病人未观察到底，不知他们究竟能活多长时间。产生结尾原因：(1)迁移 (2)死于其他原因 (3)因其他客观原因中途退出 (4)研究结束时终点事件尚未发生
m=d/n q=d/n0 (n0-d)/n0 (n0-d)/N
(6) . 181 (7) . 167 (8) . 833 (9) . 833
1~
2~ 3~ 4~
10
10 10 10
0
0 0 0
50
40 30 20
45
35 25 15
. 222
. 286 . 400 . 667
. 200
. 250 . 333 . 500
截尾(删失)数据或终检值(censored data)
得不到确切的生存时间，但它们提供的生存时间长于观察期的时间，这种数据为不完全数据。或截尾数据、删失数据或终检值。（如有确切的生存时间，则这种数据称为完全数据。）两种错误的做法：
错误1：丢弃截尾数据，只考虑确切数据。（损失了信息）
错误2：将截尾数据当作确切数据处理。（低估了生存时
生存分析的目的
1. 估计：根据样本生存资料估计总体生存率及其他有关指标（如中位生存期）等。 2. 比较：对不同组生存率进行比较。
3. 影响因素分析：为探索和了解影响生存时间长短的因素，或平衡
某些因素后，研究某个或某些因素对生存的影响。 4. 预测：对具有不同因素、不同水平的个体进行生存预测。
第一节生存时间资料的特点第二节小样本生存率的kaplan-Meier估计第三节大样本生存率的寿命表法估计第四节生存曲线比较的假设检验
(3) 生存概率 ( survival probability ) 指某单位时段开始时存活的个体到该时段结束时仍存活的可能性的大小。
第一节
生存时间资料的特点
一、数据结构二、统计描述指标
三、资料要求
一、数据结构
在临床医学中, 对病人疗效考查： 1. 治疗结局？ 2. 生存时间？
“ 生存时间”的概念
开始事件
生物生存
生存时间
终点事件
死亡
电脑开始使用正常疾病产生疾病治愈
出现故障治愈复发
阴性
阳性
生存时间的三个要点
一、起始事件
表 12-1
协变量登记序号 1 2 3 4 5
7.0 No. 16.0 25.0 34.0 43.0 52.0 1.0 0.0
5 例胰腺癌随访记录
观开始日期察记录原因失访复发死亡研究终止复发死亡ห้องสมุดไป่ตู้转移死亡整理生存天数(t) 142+
167 158
姓名性别(男=1) 手术冯 ×× 李 ×× 黄 ×× 吴 ×× 马 ×× 1 0 1 0 1 0 1 1 0 1 终止日期结局(死=1) 0 1 0 1 1 00-07-08 00-11-27
二、终点事件
三、生存时间
医学例子：起始事件
随访时间
终点事件
疾病确诊治疗开始治疗开始接触危险物治愈出院
死亡死亡痊愈出现反应复发
广义的“生存时间”也可为医疗费用（元）、医疗设备使用次数、车辆行驶总里程(公里)等
随访（follow-up）资料的记录
生存资料一般通过随访收集，记录的项目：（起始与终止）随访事件生存时间（开始观察日期与终止观察日期）（年、月、天、小时、分、秒等）分组变量（处理方法）和其它协变量（性别、年龄、职业、文化程度等）