随访资料生存分析的统计学基础
第16章 生存分析

研究目的 生存过程的比较
非(半)参数方法
参数方法
对数秩(log-rank) 指数分布 检验 分层对数秩检验 Weibull分布 Gehan检验 Gamma分布
广义Wilcoxon检验 Logistic分布 Mantel-Haenszel 检验 对数正态分布
研究目的 影响因素的分析
非(半)参数方法 Cox比例风险模型
标准误 sp (7) 0.0465 0.0641 0.0764 0.0857 0.0929 0.0986 0.1029 0.1060 0.1080 0.1090 0.1090 0.1080 0.1060 0.1029 0.0986 0.0929 - - - - -
78+ 88
+
115+ 124
+
生存函数又称累积生存概率,记为 S(tk), 是病 人活到t时刻仍然存活的概率常用S(tk)=P(Ttk)。 实 际应用中计算:tk时刻仍然存活的例数/观察总例数。 其中T为病人存活的时间。但如果含有截尾数据,分 母分段校正。故采用概率乘法原理计算生存率,生存 概率用p表示,生存率估计的应用公式为: S(tk)=P(Ttk)=p1p2… pk S(0) = 1 S() = 0
(2)尾部总体率的区间估计
生存率的对数变换公式
G(T t ) ln[ ln P(T t )]
G(T>t)的渐近标准误为:
d nd / ( ln ) S G ( T t ) n( n d ) n
G(T>t)的95%CI:
2
G(T t ) 1.96 S G (T t )
分组 编号 开始治疗 日 甲 甲 甲 甲 甲 乙 乙 乙 乙 乙 1 2 3 4 5 6 7 8 9 10 期 05.5.15 02.10.15 01.9.15 05.5.15 05.5.15 05.5.15 05.5.15 03.6.13 05.5.15 02.4.11 生 死 死 生 生 生 生 死 生 死 终止日期 结局 生存 日数 1454 120 88 695 1390 1067 1414 710 1376 221 60.0 958 60.0 749 生存率 (%) 平均生 存日数
病例随访资料的统计分析方法——生存分析

假期生活英文作文范文英文:During my holiday, I had a great time doing a lot of fun activities. One of my favorite things to do was to go hiking with my friends. We went to a nearby mountain and enjoyed the beautiful scenery. We also had a picnic on the mountain top and it was so relaxing.Another thing I did was to visit some museums. I went to the art museum and was amazed by the beautiful paintings and sculptures. I also went to the history museum and learned a lot about the local history and culture.Besides that, I also spent some time with my family. We went to the beach and had a great time playing in the water and building sandcastles. We also had a barbecue party in our backyard and invited some friends over.Overall, my holiday was filled with fun and memorableexperiences. I enjoyed spending time with my loved ones and exploring new places.中文:在我的假期里,我做了很多有趣的事情,度过了愉快的时光。
随访资料生存分析的统计学基础

表3 肿瘤<3.0cm组生存率及标准误的计算
期初病例数 nt
14
截尾数 ct
0
死亡概率 qt
1/14=0.0714
生存概率 pt
0.9286
生存率 S(t)
0.9268
13
0
1/13=0.0769
0.9231
0.8572
12
0
1/12=0.0833
二、寿命表法
适用于分组的生存资料。 ① 实际工作中,随访结果常常没有每个观 察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
例16-2 收集374名某恶性肿瘤患者随访资料,取时间区
间均为1年,结果间下表,试估计生存率及其标准误,中
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察 到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间 2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正 态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
S(t) u /2SE[S(t)]
本例28月总体生存率的95%可信区间:
0.7144 1.960.1207
即膀胱肿瘤<3.0cm患者28月生存率的95%可信区间为47.78% ~95.10%。 生存曲线尾部的生存率不适合于用该法计算总体生存率的可信区间。
中位生存时间
医学统计学考题(按章节)第6题【05分】__随访资料的生存分析

五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。
记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。
【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。
资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。
3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。
最新医学统计学第16-章生存分析教案资料

data li16_1; input count c time; cards; 510 715 6 1 10 4 1 15 5 1 20 4 1 25 4 1 30 0 1 35 2 1 40 1 1 45 2 1 50 ; proc lifetest plots=(s) method=life width=5; time time*c(0); freq count; run;
▲
● 起始事件 ●
▲
●
╳
▲ 终点事件
●
▲
●
▲
╳失 访
●
╳
●
╳
○截 尾
●
○
●
○
研究起点
研究时间
研究终点
图 16-1 队列研究示意
●
○
研究时间 研究起点
研究终点
图 16-2 临床随访研究示意
5、生存时间资料的分布特征
生存时间资料常通过随访获得,因观 察时间长且难以控制混杂因素,再加上存 在截尾数据,规律难以估计,一般为正偏 态分布。
平均生存日 数
60.0
749
60.0
958
第一节 生存分析的基本概念 一、基 本 概 念
1、生存时间 (survival time)是任何两 个有联系事件之间的时间间隔,常用符 号t表示。从狭义的角度来讲,生存时间 指患某种疾病的病人从发病到死亡所经 历的时间。广义的生存时间定义为从某 种起始事件到终点事件所经历的时间。
乙
6
02.6.13
05.5.15
乙7
01.7.1
05.5.15
乙8
01.7.3
03.6.13
乙9
01.8.9
05.5.15
医学统计学-生存分析

A meta-analysis is a two-stage process. 提取单个研究的数据,并估计其进行点估计和可信区间; 决定是否合适将结果汇总,若是,计算其汇总值。
Meta分析不仅是简单将单个研究的数据累加
Meta分析
系统综述的特征:最佳证据
*
规范的临床问题
1
全面、完整的资料
2
对原始研究的质量评价,纳入合格的研究
结果解读(2)
结果解读:生存函数
Gehan比分检验:其基本思想是,在假定无效假设(两总体生存曲线相同)成立的前提下,则两样本来自分布相同的总体,两样本的Gehan比分合计V值应为0,若V值偏离0太远,则无效假设成立的可能性就很小。
对数秩检验:其基本思想是,在假定无效假设(两总体生存曲线相同)成立的前提下,可根据不同日期两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数。若无效假设成立,则实际死亡数与理论死亡数不会相差太大。
检索方法:常未说明 有明确检索策略
文献选择:有潜在偏倚 有明确入选/排除标准
文献评价:方法不统一 有严格评价方法
结果合成:定性 定量/定性
结论推断:有时遵循研究依据 大多遵循研究依据
生存分析的主要内容:
1
描述生存过程(估计生存函数)
2
比较生存过程(比较生存函数)
3
影响生存时间的因素分析
4
SPSS中的菜单位置
第一章
生存率的估计方法有参数法和非参数法。常用非参数法,非参数法主要有二个,即乘积极限法与寿命表法。
01
寿命表法适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有 1个观察值时,寿命表法的计算结果与乘积极限法完全相同。
医学统计学:生存分析(sun)

T T
)
2
组数-1
(14.13)
式中A为实际死亡数,T为理论 死亡数。
用log-rank检验对样本的生存率进行比较 时,要求各组生存曲线不能交叉,生存 曲线的交叉提示存在某种混杂因素,此 时应采用分层的办法或多因素的办法来 校正混杂因素。
第四节 Cox比例风险回归模型
对于生存数据的分析,常见的有生存时间的分位数、 中位生存时间、生存函数估计、log-rank检验等,这些 方法已广泛应用于医学的疗效评价和预后分析。在实 践中,人们发现生存分析资料,尤其是医学临床随访 资料具有一定的特殊性,主要表现在生存时间的分布 种类繁多且难以确定,存在截尾数据,需要考虑多个 协变量的影响等。
Cox模型的注意事项
①注意研究资料的代表性及可靠性,保证研究对象是 总体中的一个随机样本;协变量在研究对象中的分布 要适中,否则会给参数的估计带来困难;应将一切可 能因素都包括在调查分析之中,否则容易造成分析结 果的偏差;②对研究生存时间要有明确的规定,如果 以“发病”作为观察的起点,则要对“发病”有一个 明确的规定,对终止事件也要有一个明确的规定,如 果将“治愈”作为结局的终止事件,则要对“治愈” 有一个明确的规定;③如果研究的变量随时间而发生 变化,可以采用伴时协变量的Cox模型进行分析。④ Cox模型分析时,样本含量不宜过小,一般在40例以上。 随着协变量的增加其样本含量应适当的增加,要求样 本含量为观察协变量的5~20倍。要尽量避免观察对象 的失访,过多的失访容易造成研究结果的偏倚。
四、Cox模型的统计描述
1.回归系数和标准回归系数 Cox模 型在分析时可以给出回归系数和标准回 归系数,回归系数用来反映因素对生存 时间影响的强度,一般而言,回归系数 愈大,则因素对生存时间的影响也愈大。 标准回归系数可以比较不同因素间对生 存时间的影响程度,标准回归系数绝对 值较大的因素对生存时间的影响也较大。
大学精品课件:医学随访资料的生存分析115

3年生存率=
活满3年例数 期初观察例数
5年生存率=
活满5年例数 期初观察例数
生存概率和生存率的计算
例:手术治疗100例食管癌患者,术后 1、2、3年的死亡数分别为10、20、 30,若无截尾数据,试求各年生存概 率及生存率。
生存概率的计算
第1年生存概率=
90 100
例如,某肿瘤医院调查了1991-1995年间 经手术治疗的大肠癌患者150例,对可 能影响大肠癌术后生存时间的因素进行
了调查,如性别、年龄、组织学分类、 肿瘤大小、Dure’S分期等。随访截止日 期为2000年12月30日,随访记录见下 表。
大肠癌 手术日期 (月)
随访终止日 随访 生存时间
期
结局 (天)
1 男 45 6 2 男 50 3 3 女 36 12 4 男 52 2 5 女 56 15 6 女 60 10
---
1991.05.20 1992.01.12 1991.10.24 1994.11.02 1994.06.25 1993.12.05
1995.06.04 1998.08.25 1994.03.18 2000.12.30 1995.03.17 1996.08.16
方法作统计分析。
第二节 生存概率、生存率、生存 曲线、生存中位数
生存概率 生存率 生存曲线 生存中位数
生存概率(probability of survival)
表示某单位时段开始时存活的个体,到
该时段结束时仍存活的可能性。 年生存概率表示年初尚存人口存活满1 年的可能性。
活满一年例数 p 年初观察例数
扩展
第一次发病
终点事件
痊愈 死亡 死亡 缓解 复发 第二次发病
费用 次数 总公里数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
25 19 19 23 20 29 19 154
3
23 18 16 21 16 26
4
19 18 14 18 16
5
18 18 14 16
6
17 16 13
7
17 16
8
17
120
85
66
46
33
17
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
1 S (t ) SE[ S (t )] S (t ) nt dt
总体生存率的可信区间
假定生存率近似服从正态分布,某时点总体生存率的(1-a)%可 信区间,公式为:
S (t ) u / 2 SE[S (t )]
本例28月总体生存率的95%可信区间:
0.7144 1.96 0.1207
40 20
42 23
44+ 25
45 27
53 + 54 30 34
59 + 37 43 50
表3 肿瘤<3.0cm组生存率及标准误的计算
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1 1 1 1 1 1 1 1 1 0 1 0 1 0
期初病例数 nt
3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法,
用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
14 13 12 11 10 9 8 7 6 5 4 3 2 1
截尾数 ct
0 0 0 0 0 0 0 0 0 1 0 1 0 1
死亡概率 qt
1/14=0.0714 1/13=0.0769 1/12=0.0833 1/11=0.0909 1/10=0.1000 1/9=0.1111 1/8=0.1250 1/7=0.1429 1/6=0.1667 0/5=0.0000 1/4=0.2500 0/3=0.0000 1/2=0.5000 0/1=0.0000
0 S (t ) 1 。若无截尾数据,则
tk时刻仍存活的例数 S (tk ) P(T tk ) 观察总例数
若有截尾数据,须分时段计算生存概率。假 定观察对象在各个时段的生存事件独立,应用概 率乘法定理:
S (tk ) P(T tk ) p1. p2 ... pk
pi某时段的生存概率,故生存率又称累积生存概率 (cumulative probabilityof survival)。
随访资料生存分析的统计学基础
丁香园循证版周支瑞整理
传统的生存率计算方法
表1 某地1974—1981年胃癌根治术后随访记录
年份 1974 1975 1976 1977 1978 1979 1980 1981 合计 例数 29 26 24 32 25 36 25 46 243 生存年数
1
28 24 21 27 23 31 23 36 213
死于车祸 复发死亡
生存时间分为两种类型:
1.完全数据(complete data):指从观察起点到
发生“死亡”事件所经历的时间。提供了观察
对象确切的生存时间。 2.截尾数据(censored data):亦称截尾值 (censored value)或终检值。指从观察起点到发 生非“死亡”事件所经历的时间。
生存率标准误 SE[S(t)]
0.0688 0.0935 0.1097 0.1207 0.1281 0.1323 0.1336 0.1323 0.1281 0.1281 0.1233 0.1233 0.1130 0.1130
生存率的计算
1.生存时间t:由小到大排列,遇非截尾和截尾值相 同,截尾值排后。 2.死亡数dt:与生存时间t对应。注意:截尾值对应的 个体未发生“死亡”事件,故死亡数为0。 3.期初病例数nt,表示恰好在该时刻以前的病例数。如
生存分析的几个概念:
一、终点事件
终点事件 (terminal event)又称失效事件(failure event) 或“死亡”事件(death event) ,泛指标志某种措施
失败或失效的事件,反映治疗效果特征的事件,是
根据研究目的确定的。如乳腺癌术后死亡、白血病 化疗后复发、肾移植术后的肾衰等,均可作为“死 亡”事件。
120
150
180
图3 随访资料常见形式示意图
2.观察对象在不同时间接受处理措施,完成 一定数量随访病例或按事先规定的时间停止随访。
图4 随访资料常见形式示意图
生存率的估计与生存曲线:
一、乘积极限法
乘积极限法(product-limit estimate)又称KaplanMeier法,适用于未分组生存资料的分析。
影响因素、预测
生存分析基本方法:
1. 非参数法: 特点是不论资料是什么样的分布类型,只根据样本提
供的顺序统计量对生存率进行估计,常用乘积极限法和寿命表法。
2. 参数法: 特点是假定生存时间服从于特定的参数分布,根据已知 分布的特点对影响生存的时间进行分析,常用指数分布法、 Weibull分布法、对数正态回归分析法和对数logistic回归分析法。
二、寿命表法
适用于分组的生存资料。
① 实际工作中,随访结果常常没有每个观
察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
截尾原因大致有三种情况:
1. 失访:未继续就诊、拒绝访问或搬迁而失去联系。 2. 死于与研究疾病无关的原因:由于其他原因死亡。 3. 研究终止:研究结束时终点事件尚未发生。
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察
到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间
n29为10,表示恰好在29月时点前有10人存活。
4.死亡概率qt,表示t月前的观察对象恰好在t月时点 死亡的概率。
5.生存概率pt,表示t月前的观察对象恰好在t月时 点存活的概率。 6.生存率S(t)。表示该人群恰好活过t 时刻的概率。 它为小于和等于 t 时刻的各时点生存概率的乘积。 7.生存率的标准误SES(t) 。
2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正
态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
某年内死亡人数 q 某年年初人口数
四、生存概率
生存概率(probability of survival)表示单位时间 段开始存活的个体,到该段时间结束时仍存活 的可能性。符号p表示。
某年活满一年人数 p 某年年初人口数
p 1 q
五、生存率
生存率(survival rate, survival function)表示观察 对象经历tk个单位时间段后仍存活的可能性。
3.影响生存的有关因素:如患者年龄、病情、 病程、术前健康等情况,以便分析这些因素对 生存率的影响。
二、随访方式
1.全部观察对象同时接受处理措施,观察到最后 一例出现结果或事先规定的随访截止时间。
7.0 6.0 5.0 4.0 3.0 2.0 1.0 0.0
+ + 36 99 160
0
30
60
90
二、生存时间
生存时间(survival time)也是一个广义概念,泛 指所关心的某现象的持续时间,即随访观察持 续的时间,常用符号t表示。
表2. 6例乳腺癌患者术后随访记录
观察记录 患者 编号 1 2 3 4 5 6 开始日期 02-09-03 02-09-10 02-09-14 02-08-25 02-10-01 02-10-04 终止日期 02-12-29 02-12-08 02-12-31 02-11-29 02-11-28 02-12-28 结局 (死=1,生=0) 0 1 0 0 0 1 原因 死于肺癌 转移死亡 研究终止 失 访 生存天数 t 118+ 90 108+ 96+ 59+ 86
存在的问题
• 1.n年生存率有时出现后一年大于前一年的 现象。 • 2.某时点生存率不能反映整个生存过程,比 较时可能出现不正确的结论。
生存分析的概念:
分析生存资料的统计方法称为生存分析,
(survival analysis),它是将事件的结局和发
生这种结局所经历的时间两个因素综合起 来分析的一种统计方法。它能够处理截尾 数据,并对整个生存过程进行分析或比较
第1年生存概率
0 1
第2年生存概率
2
第3年生存概率
3
1年生存率 2年生存率
3年生存率
图1 生存概率与生存率示意图
六、生存曲线
生存曲线(survival curve):生存时间为横轴, 将各时点所对应的生存率连接在一起的曲线图。
图2 生存曲线
生存分析主要内容:
统计描述:计算生存率、绘制生存率曲线、 计算中位生存时间等。 统计推断:估计总体生存率的可信区间、 生存率曲线的比较。
若生存率0.5处所对应的曲线与X轴平行,则中位生存 一个。
时间不止
若各时间点生存率均大于50%,则无法估计中位生存时间。
死亡时点生存率, Kaplan-Meier法 生存曲线为阶梯形 曲线。 曲线 高度 &下 降坡 度