随访生存分析的统计学基础
预后的统计学评价方法(生存分析)

生存分析中的基本概念(2)
❖ 截尾值 (censored value)
随访中由于某种原因未观察到病人的明确结局 (即终点事件), 无法得知该病人的确切生存时间,这些对象的观察值称为截尾值, 又称删失值
它提供的生存时间的信息不完全 常用符号“ + ”表示,如140+天
生存资料的数据特征
➢ 完全数据:已知事件发生的起始时间和结束时间,能获得 完整信息的数据。
➢ 不完全数据(截尾数据):只能获得事件发生的起始时间 或结束时间,得到的部分信息的数据。一般在数据后面加 “+”用以表示。
1 资料收集-随访
2 几个基本概念 3 生存分析的内容和基本方法
随访内容
➢ 明确开始随访的时间 ➢ 随访的结局和终止随访的时间 ➢ 记录影响生存时间的有关因素
多组间的生存率比较方法
(方法选择途径)
“Options”对话框 “Compare Factors”对话框
SPSS操作步骤(K-M法)
Analyze Survival Kaplan-Meier Time框 选入时间变量time Status框 选入结局变量outcome Define Event 按钮 Single value 框输入 1 Continue Optionns 按钮 勾选 Survivla tables 、Mean and median survial、
➢ 截尾原因无偏性; ➢ 生存时间尽可能精确。
Life table
Kaplan-Meiຫໍສະໝຸດ r共同点非参数分析方法、一般用于单因素分析
适用条件 大样本资料
大样本、小样本资料
分组生存资料
未分组生存资料
随访资料生存分析的统计学基础

表3 肿瘤<3.0cm组生存率及标准误的计算
期初病例数 nt
14
截尾数 ct
0
死亡概率 qt
1/14=0.0714
生存概率 pt
0.9286
生存率 S(t)
0.9268
13
0
1/13=0.0769
0.9231
0.8572
12
0
1/12=0.0833
二、寿命表法
适用于分组的生存资料。 ① 实际工作中,随访结果常常没有每个观 察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
例16-2 收集374名某恶性肿瘤患者随访资料,取时间区
间均为1年,结果间下表,试估计生存率及其标准误,中
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察 到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间 2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正 态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
S(t) u /2SE[S(t)]
本例28月总体生存率的95%可信区间:
0.7144 1.960.1207
即膀胱肿瘤<3.0cm患者28月生存率的95%可信区间为47.78% ~95.10%。 生存曲线尾部的生存率不适合于用该法计算总体生存率的可信区间。
中位生存时间
最新医学统计学第16-章生存分析教案资料

data li16_1; input count c time; cards; 510 715 6 1 10 4 1 15 5 1 20 4 1 25 4 1 30 0 1 35 2 1 40 1 1 45 2 1 50 ; proc lifetest plots=(s) method=life width=5; time time*c(0); freq count; run;
▲
● 起始事件 ●
▲
●
╳
▲ 终点事件
●
▲
●
▲
╳失 访
●
╳
●
╳
○截 尾
●
○
●
○
研究起点
研究时间
研究终点
图 16-1 队列研究示意
●
○
研究时间 研究起点
研究终点
图 16-2 临床随访研究示意
5、生存时间资料的分布特征
生存时间资料常通过随访获得,因观 察时间长且难以控制混杂因素,再加上存 在截尾数据,规律难以估计,一般为正偏 态分布。
平均生存日 数
60.0
749
60.0
958
第一节 生存分析的基本概念 一、基 本 概 念
1、生存时间 (survival time)是任何两 个有联系事件之间的时间间隔,常用符 号t表示。从狭义的角度来讲,生存时间 指患某种疾病的病人从发病到死亡所经 历的时间。广义的生存时间定义为从某 种起始事件到终点事件所经历的时间。
乙
6
02.6.13
05.5.15
乙7
01.7.1
05.5.15
乙8
01.7.3
03.6.13
乙9
01.8.9
05.5.15
随访资料生存分析的统计学基础

2
25 19 19 23 20 29 19 154
3
23 18 16 21 16 26
4
19 18 14 18 16
5
18 18 14 16
6
17 16 13
7
17 16
8
17
120
85
66
46
33
17
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
1 S (t ) SE[ S (t )] S (t ) nt dt
总体生存率的可信区间
假定生存率近似服从正态分布,某时点总体生存率的(1-a)%可 信区间,公式为:
S (t ) u / 2 SE[S (t )]
本例28月总体生存率的95%可信区间:
0.7144 1.96 0.1207
40 20
42 23
44+ 25
45 27
53 + 54 30 34
59 + 37 43 50
表3 肿瘤<3.0cm组生存率及标准误的计算
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1 1 1 1 1 1 1 1 1 0 1 0 1 0
期初病例数 nt
3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法,
用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
医学统计学之生存分析

7
资料仅供参考,不当之处,请联系改正。
截尾值(Censored value)出现的原因
截尾的原因主要有3种: ①失访:生存但中途失访:包括拒绝访问、失去联
系等。 ②退出:中途退出试验、改变治疗方案、死于其它
与研究无关的原因:如肺癌患者死于心机梗塞、 自杀或因车祸死亡,终止随访时间为死亡时间。 ③终止:指观察期结束时仍未出现结局。
生存率(survival rate):指研究对象经历 t 个时段后仍存
活的概率,即生存时间大于等于 t 的概率,用 PT t
表示。
生存率随时间 t 变化而变化,即生存率是相对于时间 t 的
函数,称为生存函数(survival function),记为 S t 。
生存函数在某时点的函数值就是生存率。
8
资料仅供参考,不当之处,请联系改正。
关于截尾或删失
删失的模式图
患者进入期间
随访开始
失访 失访 研究截止时仍存活
事件
研究截止时点
9
资料仅供参考,不当之处,请联系改正。
3.生存时间资料的整理:
对于随访资料,需记录的原始数据包括开始观 察的时点(起始事件发生的时间)、终止观察的 时点、研究对象的结局、考虑的影响因素。生 存时间为反映时间长短的指标,属数值变量:
其研究内容主要包括 3 个方面:① 对生存状况 进行统计描述(生存概率、生存率、中位生存期等); ② 寻找影响生存时间的“危险因素”和“保护因素”; ③ 估计生存率和生存时间长短,进行预后评价。
5
资料仅供参考,不当之处,请联系改正。
一、基本概念
(一)生存时间(survival time): 1.定义:广义的生存时间是指从某个起始事件开
随访资料的生存分析

随访资料的⽣存分析对于需要长期观察的病例,如慢性病或恶性肿瘤,原有疗效指标如有效率、治愈率等就不适⽤,还需要考虑出现结局的时间长短。
⽣存分析(survival analysis)是将结局和出现时间结合起来分析的统计分析⽅法。
⽣存分析最常⽤的⽅法有乘积限法和寿命表法、⽣存率⽐较的log-rank检验和Wilcoxon检验以及Cox⽐例风险回归模型。
⽣存分析的基本概念研究⽣存时间需要通过随访完成,随访有两种形式:1. 从所有观察对象在同⼀时间接受统⼀处理后观察到事先规定的时间或⼀定数量观察对象出现特定结局为⽌2. 观察不同时间接受同⼀处理,然后观察到规定时间或⼀定数量出现特定结局(此状况更常见)。
终点事件(endpoint event):⼜称失效事件(failure event),是指研究对象发⽣的研究者关⼼的特定结局。
起始事件:研究对象⽣存特征的起始特征事件。
⽣存时间(survival time):两个有联系的起始事件和终点事件之间的时间。
为了得到准确的⽣存时间,必须明确规定起点事件和终点事件。
需要注意,虽然名词是“⽣存时间”,但事实上不⼀定是说⽣存,只要符合上⾯定义的任何时间段都可以叫⽣存时间。
⽣存时间需要恰当的测度单位(⼩时、⽇、⽉、年等),⼀般测度时间越⼩,准确性越⾼。
删失(censoring):也叫终检,是指没有观察到终点事件,⽆法得知确切⽣存时间。
包含删失数据称为不完全数据(incomplete data)。
右删失(right censoring):从时间轴上看,终点事件发⽣在最后⼀次随访时间的右⽅,真实⽣存时间只能⼤于这个时间。
产⽣右删失原因:1 随访对象失访2 随访结束仍未出现终点事件3 治疗措施改变⽣存率估计与⽣存曲线常⽤的两种⽅法:乘积限法(product-limit method),⽤于⼩样本未分组资料。
寿命表法(life table method),⽤于⼤样本分组资料。
乘积限法:也叫Kaplan-Meier法或K-M法,主要⽤于⼩样本,也可⽤于⼤样本。
统计学考题(按章节) 第6题【05分】__随访资料的生存分析

五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。
记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。
【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。
资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。
3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。
培训_随访资料的生存分析

2.结果 估计:Kaplan-Meier生存率及生存
曲线。
比较:log-rank检验卡方值及其P值。 因素分析及预测:
变量赋值(数量化方法)表 变量统计描述:
各组病例数和构成比(分类变量) 均数和标准差(数值变量)
列出序号 整理数据
(3) 求年初人数
(4) 求校正年初人数
(5)
计算死亡概率:q =
d/nc (6) 计算生存概率: p =1-q
(7)
计算生存率及其标准
误:利用正态近似法估计总体生
存率的可信区间
3、k年生存率与半数生存期估计
期内 删失 人数
三、对数秩检验(log-rank test) ——非参数检验
检查可能的交互作用项是否显著 (方法:一次引入一个交互作用项, 看其对应的回归系数是否为0)。
模型拟合优度考察:据预后指数PI 分组,比较各组基于Cox模型的生 存 曲 线 与 基 于 kaplan-Meier 法 估 计 的生存曲线,如两组曲线吻合较好, 表明Cox模型拟合较好。
生存率分析:生存曲线不能随意延 长,也不能轻易用于预测预报,经
强调设计的重要性
专业知识角度:选择疾病种类、终 点事件、影响因素及结果的专业解 释等。
统计学角度:样本例数、因素的赋 值、生存时间准确到天数、因素筛 选方法、结果的统计学解释等。
小结(论文报告中应写明)
1.材料与方法 病例来源、起始事件、终点事件、
观察终止时间、截尾情况、随访结 果的获得方法,样本含量、截尾例 数及百分比(%)。 建立数据库方法 统计学处理方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、寿命表法
适用于分组的生存资料。 ① 实际工作中,随访结果常常没有每个观 察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
例16-2 收集374名某恶性肿瘤患者随访资料,取时间区
间均为1年,结果间下表,试估计生存率及其标准误,中
2.截尾数据(censored data):亦称截尾值 (censored value)或终检值。指从观察起点到发 生非“死亡”事件所经历的时间。
截尾原因大致有三种情况:
1. 失访:未继续就诊、拒绝访问或搬迁而失去联系。 2. 死于与研究疾病无关的原因:由于其他原因死亡。 3. 研究终止:研究结束时终点事件尚未发生。
若生存率0.5处所对应的曲线与X轴平行,则中位生存 时间不止
一个。 若各时间点生存率均大于50%,则无法估计中位生存时间。
死亡时点生存率, Kaplan-Meier法 生存曲线为阶梯形 曲线。
曲线 高度 &下 降坡 度
拐点的纵坐标值 在下一个台阶
图5 肿瘤<3.0cm组生存曲线
图6 肿瘤<3.0cm组和肿瘤≥3.0cm生存曲线
1 1 1 1 1 1 1 1 1 0 1 0 1 0
表3 肿瘤<3.0cm组生存率及标准误的计算
期初病例数 nt
14
截尾数 ct
0
死亡概率 qt
1/14=0.0714
生存概率 pt
0.9286
生存率 S(t)
0.9268
13
0
1/13=0.0769
0.9231
0.8572
12
0
1/12=0.0833
随访资料生存分析的统计学基础
丁香园循证版周支瑞整理
传统的生存率计算方法
Hale Waihona Puke 表1 某地1974—1981年胃癌根治术后随访记录
生存年数 年份 例数
12345678 1974 29 28 25 23 19 18 17 17 17 1975 26 24 19 18 18 18 16 16 1976 24 21 19 16 14 14 13 1977 32 27 23 21 18 16 1978 25 23 20 16 16 1979 36 31 29 26 1980 25 23 19 1981 46 36 合计 243 213 154 120 85 66 46 33 17
0.9167
0.7858
11
0
1/11=0.0909
0.9091
0.7144
10
0
1/10=0.1000
0.9000
0.6429
9
0
1/9=0.1111
0.8889
0.5715
8
0
1/8=0.1250
0.8750
0.5001
7
0
1/7=0.1429
0.8571
0.4286
6
0
1/6=0.1667
0.8333
生存率的计算
1.生存时间t:由小到大排列,遇非截尾和截尾值相 同,截尾值排后。
2.死亡数dt:与生存时间t对应。注意:截尾值对应的 个体未发生“死亡”事件,故死亡数为0。
3.期初病例数nt,表示恰好在该时刻以前的病例数。如 n29为10,表示恰好在29月时点前有10人存活。
4.死亡概率qt,表示t月前的观察对象恰好在t月时点 死亡的概率。
观察记录
终止日期
结局 (死=1,生=0)
原因
02-12-29
0
死于肺癌
生存天数 t
118+
02-12-08
1
转移死亡 90
02-12-31
0
研究终止 108+
02-11-29
0
失访
96+
02-11-28
0
死于车祸 59+
02-12-28
1
复发死亡 86
生存时间分为两种类型:
1.完全数据(complete data):指从观察起点到 发生“死亡”事件所经历的时间。提供了观察 对象确切的生存时间。
肿瘤 <3.0cm
14 19 26
28
29
32
36
40
42 44+ 45 53 + 54 59 +
肿瘤 ≥3.0cm
6
7
9
10 11 12 13 20 23 25 27 30 34 37 43 50
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
观察满1年的243例,活满1年的213例:
1年生存率= 213 100% 87.65% 243
观察满2年的病例243 - 46 = 197例, 活满2年的共154例:
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察 到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间 2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正 态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
(2) 失访:拒绝随访、失去联系或中途退出等。终 止随访时间为最后一次访问时间。
(3) 死于与研究疾病无关的原因:终止随访时 间为死亡时间。 (4) 研究终止。研究终止时观察对象仍然存活。 终止随访时间为研究终止时间。
3.影响生存的有关因素:如患者年龄、病情、 病程、术前健康等情况,以便分析这些因素对 生存率的影响。
某年内死亡人数 q 某年年初人口数
四、生存概率
生存概率(probability of survival)表示单位时间 段开始存活的个体,到该段时间结束时仍存活 的可能性。符号p表示。
某年活满一年人数 p 某年年初人口数
p 1q
五、生存率
生存率(survival rate, survival function)表示观察 对象经历tk个单位时间段后仍存活的可能性。
0.3571
5
1
0/5=0.0000
1.0000
0.3571
4
0
1/4=0.2500
0.7500
0.2678
3
1
0/3=0.0000
1.0000
0.2678
2
0
1/2=0.5000
0.5000
0.1339
1
1
0/1=0.0000
1.0000
0.1339
生存率标准误 SE[S(t)]
0.0688 0.0935 0.1097 0.1207 0.1281 0.1323 0.1336 0.1323 0.1281 0.1281 0.1233 0.1233 0.1130 0.1130
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
2.随访的结局和终止随访的时间
随访的结局可能有以下几种:
(1) “死亡”:泛指处理措施失败的事件。如肿瘤化 疗后的复发、肾移植因肾衰或与之有关的原因而 死亡等。终止随访时间为“死亡”时间。
统计推断:估计总体生存率的可信区间、 生存率曲线的比较。
影响因素、预测
生存分析基本方法:
1. 非参数法: 特点是不论资料是什么样的分布类型,只根据样本提 供的顺序统计量对生存率进行估计,常用乘积极限法和寿命表法。 2. 参数法: 特点是假定生存时间服从于特定的参数分布,根据已知 分布的特点对影响生存的时间进行分析,常用指数分布法、 Weibull分布法、对数正态回归分析法和对数logistic回归分析法。 3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法, 用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
生存分析的几个概念:
一、终点事件
终点事件 (terminal event)又称失效事件(failure event) 或“死亡”事件(death event) ,泛指标志某种措施 失败或失效的事件,反映治疗效果特征的事件,是 根据研究目的确定的。如乳腺癌术后死亡、白血病 化疗后复发、肾移植术后的肾衰等,均可作为“死 亡”事件。
位生存时间,并绘制生存曲线。
表4 某恶性肿瘤患者随访资料
序号 确诊后年数 期内死亡数 期内截尾数 期初病例数
二、生存时间
生存时间(survival time)也是一个广义概念,泛 指所关心的某现象的持续时间,即随访观察持 续的时间,常用符号t表示。
表2. 6例乳腺癌患者术后随访记录
患者 编号
1 2 3 4 5 6
开始日期 02-09-03 02-09-10 02-09-14 02-08-25 02-10-01 02-10-04
S(t) u /2SE[S(t)]
本例28月总体生存率的95%可信区间:
0.7144 1.960.1207
即膀胱肿瘤<3.0cm患者28月生存率的95%可信区间为47.78% ~95.10%。 生存曲线尾部的生存率不适合于用该法计算总体生存率的可信区间。
中位生存时间
由表3可见,中位生存时间估计在36月。 采用内插法计算:找到与生存率50%相邻的上下两个生存率及 其生 存时间利用线性比例关系求解中位生存时间。