含有截尾数据的生存分析
合集下载
预后的统计学评价方法(生存分析)

在设计时必须明确规定并在研究中严格遵守 !
生存分析中的基本概念(2)
❖ 截尾值 (censored value)
随访中由于某种原因未观察到病人的明确结局 (即终点事件), 无法得知该病人的确切生存时间,这些对象的观察值称为截尾值, 又称删失值
它提供的生存时间的信息不完全 常用符号“ + ”表示,如140+天
生存资料的数据特征
➢ 完全数据:已知事件发生的起始时间和结束时间,能获得 完整信息的数据。
➢ 不完全数据(截尾数据):只能获得事件发生的起始时间 或结束时间,得到的部分信息的数据。一般在数据后面加 “+”用以表示。
1 资料收集-随访
2 几个基本概念 3 生存分析的内容和基本方法
随访内容
➢ 明确开始随访的时间 ➢ 随访的结局和终止随访的时间 ➢ 记录影响生存时间的有关因素
多组间的生存率比较方法
(方法选择途径)
“Options”对话框 “Compare Factors”对话框
SPSS操作步骤(K-M法)
Analyze Survival Kaplan-Meier Time框 选入时间变量time Status框 选入结局变量outcome Define Event 按钮 Single value 框输入 1 Continue Optionns 按钮 勾选 Survivla tables 、Mean and median survial、
➢ 截尾原因无偏性; ➢ 生存时间尽可能精确。
Life table
Kaplan-Meiຫໍສະໝຸດ r共同点非参数分析方法、一般用于单因素分析
适用条件 大样本资料
大样本、小样本资料
分组生存资料
未分组生存资料
生存分析中的基本概念(2)
❖ 截尾值 (censored value)
随访中由于某种原因未观察到病人的明确结局 (即终点事件), 无法得知该病人的确切生存时间,这些对象的观察值称为截尾值, 又称删失值
它提供的生存时间的信息不完全 常用符号“ + ”表示,如140+天
生存资料的数据特征
➢ 完全数据:已知事件发生的起始时间和结束时间,能获得 完整信息的数据。
➢ 不完全数据(截尾数据):只能获得事件发生的起始时间 或结束时间,得到的部分信息的数据。一般在数据后面加 “+”用以表示。
1 资料收集-随访
2 几个基本概念 3 生存分析的内容和基本方法
随访内容
➢ 明确开始随访的时间 ➢ 随访的结局和终止随访的时间 ➢ 记录影响生存时间的有关因素
多组间的生存率比较方法
(方法选择途径)
“Options”对话框 “Compare Factors”对话框
SPSS操作步骤(K-M法)
Analyze Survival Kaplan-Meier Time框 选入时间变量time Status框 选入结局变量outcome Define Event 按钮 Single value 框输入 1 Continue Optionns 按钮 勾选 Survivla tables 、Mean and median survial、
➢ 截尾原因无偏性; ➢ 生存时间尽可能精确。
Life table
Kaplan-Meiຫໍສະໝຸດ r共同点非参数分析方法、一般用于单因素分析
适用条件 大样本资料
大样本、小样本资料
分组生存资料
未分组生存资料
《生存分析》

精选ppt
2.数据的编码可能会严重地影响结论的可解 释性。对于某些数值型协变量,根据专业上的 考虑转换为等级编码更恰当一些,否则会得到 譬如红细胞每减小一个,患者的死亡率会增加 若干倍的夸大解释;对于无序的多分类协变量, 应设置哑变量进入模型,例如4种血型可转换 为3个0-1型变量拟合模型,并且这3个变量应 作为一个因素整体进出模型,人为地将血型编 码为1,2,3,4会造成回归系数或相对危险度 解释上的困难。
应用条件 除了生存资料的基本要求之外, 还要求各组生存曲线不能交叉。若出现 这种交叉,则提示可能存在混杂因素, 应采用多因素方法来校正混杂作用或分 段作统计分析。
精选ppt
Cox比例风险回归模型
精选ppt
精选ppt
精选ppt
Cox回归实例
346例手术后的大肠癌患者随访资料可以了解 影响术后生存情况的因素。为简单说明问题, 从中抽取30例数据见表23-8。其中术后生存时 间time以月为单位,status表示随访结局(其 值为0表示相应的术后生存时间为删失值)。 三个协变量分别为:性别sex(其值为0表示女 性,1表示男性),年龄age(岁),确诊到进 行手术治疗的时间dtime(月)。试对此数据 作Cox回归分析。
若有截尾数据,则分母用校正例数。
精选ppt
生存率
生存率(survival rate):记为S(tk),是指 观察对象经历tk个时间单位后仍存活的概率。
S(tk)
P(T
tk
)
tk时刻仍存活的例数 观察总例数
若有截尾数据,则分母必须用分时段的校正例 数。
精选ppt
生存率与生存概率的关系
S ( tk ) P ( T tk ) p 1 p 2 p k
精选ppt
2.数据的编码可能会严重地影响结论的可解 释性。对于某些数值型协变量,根据专业上的 考虑转换为等级编码更恰当一些,否则会得到 譬如红细胞每减小一个,患者的死亡率会增加 若干倍的夸大解释;对于无序的多分类协变量, 应设置哑变量进入模型,例如4种血型可转换 为3个0-1型变量拟合模型,并且这3个变量应 作为一个因素整体进出模型,人为地将血型编 码为1,2,3,4会造成回归系数或相对危险度 解释上的困难。
应用条件 除了生存资料的基本要求之外, 还要求各组生存曲线不能交叉。若出现 这种交叉,则提示可能存在混杂因素, 应采用多因素方法来校正混杂作用或分 段作统计分析。
精选ppt
Cox比例风险回归模型
精选ppt
精选ppt
精选ppt
Cox回归实例
346例手术后的大肠癌患者随访资料可以了解 影响术后生存情况的因素。为简单说明问题, 从中抽取30例数据见表23-8。其中术后生存时 间time以月为单位,status表示随访结局(其 值为0表示相应的术后生存时间为删失值)。 三个协变量分别为:性别sex(其值为0表示女 性,1表示男性),年龄age(岁),确诊到进 行手术治疗的时间dtime(月)。试对此数据 作Cox回归分析。
若有截尾数据,则分母用校正例数。
精选ppt
生存率
生存率(survival rate):记为S(tk),是指 观察对象经历tk个时间单位后仍存活的概率。
S(tk)
P(T
tk
)
tk时刻仍存活的例数 观察总例数
若有截尾数据,则分母必须用分时段的校正例 数。
精选ppt
生存率与生存概率的关系
S ( tk ) P ( T tk ) p 1 p 2 p k
精选ppt
医学统计学-生存分析

A meta-analysis is a two-stage process. 提取单个研究的数据,并估计其进行点估计和可信区间; 决定是否合适将结果汇总,若是,计算其汇总值。
Meta分析不仅是简单将单个研究的数据累加
Meta分析
系统综述的特征:最佳证据
*
规范的临床问题
1
全面、完整的资料
2
对原始研究的质量评价,纳入合格的研究
结果解读(2)
结果解读:生存函数
Gehan比分检验:其基本思想是,在假定无效假设(两总体生存曲线相同)成立的前提下,则两样本来自分布相同的总体,两样本的Gehan比分合计V值应为0,若V值偏离0太远,则无效假设成立的可能性就很小。
对数秩检验:其基本思想是,在假定无效假设(两总体生存曲线相同)成立的前提下,可根据不同日期两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数。若无效假设成立,则实际死亡数与理论死亡数不会相差太大。
检索方法:常未说明 有明确检索策略
文献选择:有潜在偏倚 有明确入选/排除标准
文献评价:方法不统一 有严格评价方法
结果合成:定性 定量/定性
结论推断:有时遵循研究依据 大多遵循研究依据
生存分析的主要内容:
1
描述生存过程(估计生存函数)
2
比较生存过程(比较生存函数)
3
影响生存时间的因素分析
4
SPSS中的菜单位置
第一章
生存率的估计方法有参数法和非参数法。常用非参数法,非参数法主要有二个,即乘积极限法与寿命表法。
01
寿命表法适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有 1个观察值时,寿命表法的计算结果与乘积极限法完全相同。
生存分析

结局 (死=1,生=0) 死 , 0 1 0 0 0 1
原因 死于肺癌 转移死亡 研究终止 失 访 死于车祸 复发死亡
生存时间分为两种类型: 生存时间分为两种类型: 分为两种类型
1.完全数据 .完全数据(complete data):指从观察起点到 数据 : 发生“死亡”事件所经历的时间。 发生“死亡”事件所经历的时间。提供了观察 所经历的时间 对象确切的生存时间。 对象确切的生存时间。 2.截尾数据 .截尾数据(censored data):亦称截尾值 : 数据 (censored value)或终检值。指从观察起点到发 或终检值。 或终检值 生非“死亡”事件所经历的时间。 死亡”事件所经历的时间。 所经历的时间
5.生存概率pt,表示 月前的观察对象恰好在 月时 .生存概率 ,表示t月前的观察对象恰好在 月前的观察对象恰好在t月时 点存活的概率。 点存活的概率。 6.生存率 .生存率S(t)。表示该人群恰好活过 时刻的概率。 。表示该人群恰好活过t 时刻的概率。 它为小于和等于 t 时刻的各时点生存概率的乘积。 时刻的各时点生存概率的乘积。 7.生存率的标准误SES(t) 。 .生存率的标准误
三.死亡概率
死亡概率(probability of death)表示单位时 死亡概率 表示单位时 间段开始存活的个体, 间段开始存活的个体,在该段时间内死亡的可 能性。符号 表示 表示。 能性。符号q表示。
某年内死亡人数 q= 某年年初人口数
四.生存概率
生存概率(probability of survival)表示单位 生存概率 表示单位 时间段开始存活的个体, 时间段开始存活的个体,到该段时间结束时仍 存活的可能性。符号 表示 表示。 存活的可能性。符号p表示。
生存分析的几个概念: 生存分析的几个概念: 的几个概念
生存分析

例17-4
甲、乙两种手术后病人的生存时间如下, 乙两种手术后病人的生存时间如下, 甲:1,3,5(3),6(3),7,8,10(2),14+,17,19+, , , , , , , , , 20+,22+,26+,31, 34,34+,44,59, , , , , 乙:1(2),2,3(2),4(3),6(2),8,9(2),10,11, , , , , , , , , , 12,13,15,17,18, , , , , , 问两种手术后病人的生存率有无差别? 问两种手术后病人的生存率有无差别?
log-rank检验步骤 -确定 值下结论 检验步骤3-确定P值下结论 检验步骤
χ2=8.75>3.84
P<0.05
结论:在α=0.05水准处,拒绝 0,接受 1, 水准处, 结论: 水准处 拒绝H 接受H 两组总体生存率的差异有统计学意义。 两组总体生存率的差异有统计学意义。可以 认为甲种手术方法的预后效果高于乙种手术 方法。 方法。
生存分析的基本方法
参数法:假设时间服从特定的分布, 参数法:假设时间服从特定的分布,可根据 已知分布的特点对时间进行分析的方法。 已知分布的特点对时间进行分析的方法。 非参数法:不考虑时间的分布形式,只根据 非参数法:不考虑时间的分布形式, 样本提供的顺序统计量进行分析的方法。 样本提供的顺序统计量进行分析的方法。 半参数法:兼有参数法和非参数法的特点, 半参数法:兼有参数法和非参数法的特点, 用于分析影响生存时间和生存率的因素。 用于分析影响生存时间和生存率的因素。
条件概率即某时刻死亡概率或生存概率
例17-2 17有人采用甲种手术方法治疗了23例肾上腺肿 有人采用甲种手术方法治疗了 例肾上腺肿 瘤病人, 瘤病人,得到手术时间和病人死亡时间或调 查截至时间( 的差值。结果如下: 查截至时间(月)的差值。结果如下: 死亡病人: , , , , , , , , , , 死亡病人:1,3,5,5,5,6,6,6,7,8, 10,10, 17,34,44,59; , , , , , ; 未死亡病人:14+,19+,20+,22+,26+, 未死亡病人: 31+,34+。
《生存分析》

3. 生存时间尽可能精确 因为多数生存分析方法都是在生存时间排序的 基础上进行的,即使是小小的舍入误差,也可能改变生存时间顺序 而影响结果。对于随访资料,生存时间最好精确到天数。
.
小样本未分组资料分析
生存率与标准误 生存率曲线 总体生存率的估计
.
生存率及其标准误
小样本资料(通常为不分组资料),直接 采用概率乘法原理估计生存率,称乘积 极限法。又称Kaplan-Meier(KM)法。 是一种非参数法。
.
各种生存数据的表示
×
X
×
o
X
O
1994
1995
×
X
1996
1997
年. 份
1998 1999
各种生存数据的表示
×
X
×
X
×
X
o
X
1994 1995 1996 1997 1998 1999 2000
.
死亡概率
死亡概率(mortality probability)记 为q,是指死于某时段内的可能性的大小。
.
.
.
截尾数据
截尾数据(censored data)在随访工作中,由于某种 原因未能观察到病人的明确结局(即终止事件),所 以不知道该病人的确切生存时间,它所提供关于生存 时间的信息是不完全的。
产生截尾现象的原因: ①病人失访 ②病人的生存期超过了研究的终止期 ③在动物实验中,达到了事先规定的终止事件
0.8
0.6
0.6
0.4
S(132)=0.5
0.4
0.2
0.2
0.0 0
0.0
100 200 300 400 500
0
Md=158
.
小样本未分组资料分析
生存率与标准误 生存率曲线 总体生存率的估计
.
生存率及其标准误
小样本资料(通常为不分组资料),直接 采用概率乘法原理估计生存率,称乘积 极限法。又称Kaplan-Meier(KM)法。 是一种非参数法。
.
各种生存数据的表示
×
X
×
o
X
O
1994
1995
×
X
1996
1997
年. 份
1998 1999
各种生存数据的表示
×
X
×
X
×
X
o
X
1994 1995 1996 1997 1998 1999 2000
.
死亡概率
死亡概率(mortality probability)记 为q,是指死于某时段内的可能性的大小。
.
.
.
截尾数据
截尾数据(censored data)在随访工作中,由于某种 原因未能观察到病人的明确结局(即终止事件),所 以不知道该病人的确切生存时间,它所提供关于生存 时间的信息是不完全的。
产生截尾现象的原因: ①病人失访 ②病人的生存期超过了研究的终止期 ③在动物实验中,达到了事先规定的终止事件
0.8
0.6
0.6
0.4
S(132)=0.5
0.4
0.2
0.2
0.0 0
0.0
100 200 300 400 500
0
Md=158
应用统计学 生存分析
寿命表 生存曲线 风险函数曲线
Life-Tables过程 (1)寿命表(分三部分讲解)
分析结果
Life-Tables过程 (1)寿命表Ⅰ
1 2 3 4 5
分析结果
1.生存时间的组段下限 3.该组段的删失例数
2.进入该组段的观察例数 4.暴露于危险因素的例数
5.所关心的事件的例数,即死亡例数
Life-urvival Time): 从狭义的角度来说:生存时间是患某病的病人从发病到 死亡所经历的时间跨度。 生存时间 开始发病 病人死亡
从广义的角度:从某种起始事件到达某种终点时间所经历 的时间跨度。 生存时间 起始事件 终点事件
生存时间的数据类型
1. 完全数据( Complete Data)指达到了明确结局的观察对象 的生存时间数据。某个观察对象具有明确的结局时,该观察 对象所提供的关于生存时间的信息是完整的。
分析结果
5
…
6
Kaplan-meier过程 (2)生存时间估计
分析结果
Mean是生存时间的算术均数, Median为中位生存时间, 同时表格中也给出它们的95%的可信区间。
Kaplan-meier过程 (3)水平间的整体比较
分析结果
Log Rank、Breslow和Tarone-Ware三种检验方法的检验统计 量分别为3.282、2.861和3.360,它们的p值分别为0.194、0.239 和0.186,说明三组疗法之间生存时间的差异无显著性
Hazard:累积风险函数估计
Cumulative events:终结事件的累积频数
Kaplan-meier过程
生存分析表 平均生存时间和中位
生存时间及其标准误
和可信区间 累积生存函数曲线
Life-Tables过程 (1)寿命表(分三部分讲解)
分析结果
Life-Tables过程 (1)寿命表Ⅰ
1 2 3 4 5
分析结果
1.生存时间的组段下限 3.该组段的删失例数
2.进入该组段的观察例数 4.暴露于危险因素的例数
5.所关心的事件的例数,即死亡例数
Life-urvival Time): 从狭义的角度来说:生存时间是患某病的病人从发病到 死亡所经历的时间跨度。 生存时间 开始发病 病人死亡
从广义的角度:从某种起始事件到达某种终点时间所经历 的时间跨度。 生存时间 起始事件 终点事件
生存时间的数据类型
1. 完全数据( Complete Data)指达到了明确结局的观察对象 的生存时间数据。某个观察对象具有明确的结局时,该观察 对象所提供的关于生存时间的信息是完整的。
分析结果
5
…
6
Kaplan-meier过程 (2)生存时间估计
分析结果
Mean是生存时间的算术均数, Median为中位生存时间, 同时表格中也给出它们的95%的可信区间。
Kaplan-meier过程 (3)水平间的整体比较
分析结果
Log Rank、Breslow和Tarone-Ware三种检验方法的检验统计 量分别为3.282、2.861和3.360,它们的p值分别为0.194、0.239 和0.186,说明三组疗法之间生存时间的差异无显著性
Hazard:累积风险函数估计
Cumulative events:终结事件的累积频数
Kaplan-meier过程
生存分析表 平均生存时间和中位
生存时间及其标准误
和可信区间 累积生存函数曲线
08 SAS生存分析
S(0)=1;
S(2) :2年生存率,个体生存时间超过 2年的概率
5
二、生存率的基本估计方法
乘积极限法估计生存率
Kaplan-meier法:乘积极限法(ProductLimit Method,PL法) 适用于小样本资料,对删失数据无校正 不需要对被估计的资料分布作任何假设 利用tk时刻之前各时点上生存概率的乘 积来估计在时刻tk的生存率
16
Lifereg 参数回归
17
指数分布
Lamda是指数分布的危险度
18
指数回归模型
19
Weibull分布
20
Weibull回归模型
21
proc lifereg; model days*censor(0)=group renal; run;
proc lifereg; model days*censor(0)=group renal / dist=exponential;run;
8
Strata—by—group-test
9
Strata—by—group-test
10
例15.2
ห้องสมุดไป่ตู้
data life2; input days renal@@; censor=(days<0); group=(_n_>12)+1; days=abs(days); cards; 8 1 52 0 58 1 63 1 63 1 220 0 365 0 452 0 496 0 -528 0 -560 0 -676 0 13 1 18 1 23 1 70 0 76 0 180 0 195 0 210 0 232 0 300 0 396 0 -490 0 -540 0 ; proc lifetest plots=(s); time days*censor(1); strata group; test renal; run;
19 生存分析
生存率的标准误(式17-3)
t
Sp X>t P X>t
n
j 1
j
n
dj
j
dj
生存曲线
• 以生存时间为横轴,生存率为纵轴绘图,即 所谓的Kaplan-Meier生存曲线
1.00 生 存 0.75 率 0.50 0.25 0.00 0 200 400
随访时间
group 2
100(1-)%可信区间为:
P(X>t ) u SPX>p
平均生存时间
• 由于生存时间的分布总是偏态的,故平均 生存时间常用中位生存时间(median survival time)来计算,其意义是50%的 个体存活且有50%的个体死亡的时间,也 即生存率为50%时在生存曲线中所对应的 生存时间。
1 3 43 23 2 1 40 22 存活 3 死亡 3 39 合计 22 4 死亡 3 存活 36 合计 21 合计 甲组 1 3 存活 22 5 死亡 33 23 21 甲组 0 22 22 6 30 20 18 甲组 1 5 18 21 22 乙组 2
0 0
. .
. .
23.809 12.191
常见生存函数的类型示意
风险函数(hazard function)
• 风险函数表示一个生存到时间t的个体,在从t 到 t t 这一区间内死亡概率的极限,也就 是一个生存到时间t的个体在时间t的瞬时死亡 率(条件死亡速率)。 Pr t T t t T t
W u Var (W )
生存资料分析的参数模型(简介)
• 上述方法由于不是直接利用生存时间本身来进行 分析,而是利用生存时间的顺序来计算生存率并 进行比较,这些方法均不假定生存数据的分布类 型,因而属非参数统计范畴。 • 由于这些方法对信息的利用不够充分,为此,统 计学家发展了许多关于生存时间的概率模型,根 据生存时间的分布类型的假定,这类模型常见的 有:指数模型、威布尔模型、Gamma模型、对 数正态模型、泊松模型、Compertz-Makeham 模型等。
生存分析
腺癌的生存分析表
腺癌的生存时间的均数、中位数
Number of Cases: 18 Censored: 1 ( 5.56%) Events: 17 Survival Time Standard Error 95% Confidence Interval Mean均数: 62 12 ( 38, 86 ) Median中位数: 48 6 ( 36, 60 )
生存函数又称生存率S(t) :观察对象活过时点t的概率. S(t)= P(xt) ,为累积生存概率 例如五年生存率500人中490个 人活过5年,490÷500。
S (t ) t时 刻 仍 存 活 的 例 数 开始观察总例数
如果有截尾数据,分母就必须分时段校正,故此式一般不能 直接应用(因为每一段都有失访或者截尾数据)。 生存概率和生存率的区别,前者是单位时段生存概率(一年 一年计算);而后者是多个时段的生存概率,是多个时段 的累积的结果。 生存率的估计:假定病人在各个时段生存的事件相互独立, 则生存率为各时段生存概率之积。
SPSS数据文件
SPSS操作 (一)
dataweight case weight case by : freq OK
SPSS操作(二)
AnalyzeSurvivalLife Tables Time框: time(生存时间变量) Display Time Iiterals:10 to 1 Status框: died(生存状态变量) Define event: single vaule:1 Option 选lietable table plot: 选Survival Ok
.2
生存时间
四种病理类型肺癌患者的生存曲线,鳞癌生存状况较好,其次为 大细胞癌,小细胞癌和腺癌的生存状况较差
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
含有截尾数据的生存分析
提纲
概念介绍
结尾数据
数学方法介绍
生存分析 COX回归 Log-rank test
实例 总结
概念介绍----截尾数据
截尾数据
如果在规定的结束时间,由于失访,死亡,未愈等 没有出现结果事件者称之为截尾,从起点到截尾 日的t时间称为截尾数据
表 12-1 5 例 胰 腺 癌 随 访 记 录
ln
h(t,X) h0 (t)
1 X1
+
2 X2
+
+ pX p
数学方法----COX回归(2/2)
当h0 (t ) mt m1e 时,
h(t ) mt m1 exp( + 1 x1 + 2 x2 + = mt m1e exp(1 x1 + 2 x2 +
+ pxp) + pxp)
当 h0 (t ) e 时,
生存率
病人经过k个单位时间之后依旧存活的概率 它是一个累积值
S (tk ) = P (T ≥ tk ) = p1 p2 … pk
生存分析----主要统计量(4/5)
生存函数
S (t )
P(T
t)
生存时间T t的病人数 观察病人总数
生存分析----主要统计量(5/5)
风险函数
h(t)
死于区间(t,t + t)的病人数 在t时刻尚存的病人数 t
t 0
t
利用cox回归模型
P
h(t; Z ) h0(t) exp( T Z ) h0(t) exp( T k Zk )
其中
Z
为关键因素向量,
T
k 1
为对应的系数向量,
也就是需要估算的值
寿命估算(4/6)
预处理以及前提假设
将观测时间分为不同的段落
Ai=[ai-1 ,ai), i = 1,2,3,4……..,r且a0=0,ar=+
h(t ) exp( + 1 x1 + 2 x2 + + p xp ) =e exp(1 x1 + 2 x2 + + p x p )
因此,指数回归模型和Weibull回归模型 是Cox比例风险模型的特例。
数学方法----log-rank检验(1/3)
定义j=1,2,3……J为离散的观测时间段。对于 第j个观测时间段,用N1j和N2j分别表示在第 一组和第二组(假设只有两组)中在时间 段开始的时刻还存活的样本数目,记 Nj=N1j+N2j。
N j )(N j
Oj )
log-rank检验(3/3)
记
J
(O1 j E1 j )
Z j1 J Vj j 1
做 检2 验,自由度为组数减一,此例中为1
一般和0.05作比较,如果比0.05小,表明零 假设不成立。越小表明差异越大。
实例----寿命估算
UUSee系统中节点寿命的估算
Distilling Superior Peers in Large-Scale P2P Streaming Systems
文章发表在09infocom上,作者每5分钟对网 络进行一次测量,通过得到的数据作者希 望:
提取影响节点寿命的关键因素 提出节点寿命的预测公式
寿命估算(1/6)
生存函数的定义
S(t) P(T t) 1 P(T t) 1 F(t)
其中F(t)为节点寿命的累积分布函数(CDF)
生存函数的估算
生存分析
生存分析,是把事件的结果和出现这一结果所 经历的时间,结合起来分析的一种统计方法.
生存分析----主要统计量(2/5)
生存概率
指某单位时段开始时存活的个体到该时段结束 时仍存活的可能性的大小
年生存概率p 1 死亡概率q
该年活满一年的人数
年初人口数
生存分析----主要统计量(3/5)
序号
姓名
协变量登记 性别(男=1) 手术
1 冯 ××
1
0
2 李 ××
0
1
3 黄 ××
1
1
4 吴 ××
0
0
5 马 ××
1
1
观察记录
整理
开始日期 终止日期 结局(死=1) 原因 生存天数(t)
0 0 - 0 7 - 0 8 0 0 - 1 1 - 2 7 0 失访
142+
00-07-10 00-12-15
用Oj表示在第j个时间段内,两个组被观测 到的死亡个数之和。
零假设为两组独立并有同样的生存函数和 风险函数。
log-rank检验(2/3)
若零假设成立
记E1j= Oj* N1j /(N1j + N2j),这是在j这个观测时间 段内,第一组的死亡数期望
记差异值
Vj
Oj (N1 j
/
N j )(1 N1 j / N j 1
1
^
S (t )
ti t
( ni
ni
di
)
If t < t1 otherwise
ni为第i个计时周期开始时存活的个体数 di为第i个计时周期内消亡的个体数
寿命估算(2/6)
提取关键因素
流的质量 观看人数 加入网络的时间
寿命估算(3/6)
定义风险函数
h(t) lim P(t + t T t | T t)
假设所有的观测都从a0开始 任何在Ai中结束的事件都被记录为在ai时刻发生
寿命估算(5/6)
因此,一个节点的寿命为ti的概率为
i1
[1
a exp(T i
Z
)
]
a exp(T Z ) j
j 1
其中
aj
a j exp( h0 (u)du)
1 复发死亡
158
00-07-16 00-12-31 00-08-18 00-11-22
0 研究终止 1 6 8 +
1 复发死亡
96
0 0 - 1 0 - 1 0 0 0 - 1 1 - 1 2 1 转移死亡
33
No7.0. 1 6.0 2 5.0 3 4.0 4 3.0 52.0
1.0
0.0
7
+ +
结尾数据与生存分析
含有截尾数据的生存分析中的三个问题
如何处理截尾数据 如何判断关键因素 如何估计参数
数学方法----COX回归(1/2)
数学表达式:
ln h(t,X) ln h0 (t) + (1X1 + 2 X 2 + + p X p )
h(t,X) h0 (t) exp(1X1 + 2 X 2 + + p X p )
8
9 10 11 12 13
月 份(2000年) 图12-1 生存时间原始记录示意 ("+"截尾)
No7.0. 56.0 45.0 14.0 23.0 32.0
1.0Байду номын сангаас
0.0
0
+
+
33
96
30 60 90 120
天数 图12-2 生存时间排序整理数据示意
158 150 180
数学方法----生存分析(1/5)
提纲
概念介绍
结尾数据
数学方法介绍
生存分析 COX回归 Log-rank test
实例 总结
概念介绍----截尾数据
截尾数据
如果在规定的结束时间,由于失访,死亡,未愈等 没有出现结果事件者称之为截尾,从起点到截尾 日的t时间称为截尾数据
表 12-1 5 例 胰 腺 癌 随 访 记 录
ln
h(t,X) h0 (t)
1 X1
+
2 X2
+
+ pX p
数学方法----COX回归(2/2)
当h0 (t ) mt m1e 时,
h(t ) mt m1 exp( + 1 x1 + 2 x2 + = mt m1e exp(1 x1 + 2 x2 +
+ pxp) + pxp)
当 h0 (t ) e 时,
生存率
病人经过k个单位时间之后依旧存活的概率 它是一个累积值
S (tk ) = P (T ≥ tk ) = p1 p2 … pk
生存分析----主要统计量(4/5)
生存函数
S (t )
P(T
t)
生存时间T t的病人数 观察病人总数
生存分析----主要统计量(5/5)
风险函数
h(t)
死于区间(t,t + t)的病人数 在t时刻尚存的病人数 t
t 0
t
利用cox回归模型
P
h(t; Z ) h0(t) exp( T Z ) h0(t) exp( T k Zk )
其中
Z
为关键因素向量,
T
k 1
为对应的系数向量,
也就是需要估算的值
寿命估算(4/6)
预处理以及前提假设
将观测时间分为不同的段落
Ai=[ai-1 ,ai), i = 1,2,3,4……..,r且a0=0,ar=+
h(t ) exp( + 1 x1 + 2 x2 + + p xp ) =e exp(1 x1 + 2 x2 + + p x p )
因此,指数回归模型和Weibull回归模型 是Cox比例风险模型的特例。
数学方法----log-rank检验(1/3)
定义j=1,2,3……J为离散的观测时间段。对于 第j个观测时间段,用N1j和N2j分别表示在第 一组和第二组(假设只有两组)中在时间 段开始的时刻还存活的样本数目,记 Nj=N1j+N2j。
N j )(N j
Oj )
log-rank检验(3/3)
记
J
(O1 j E1 j )
Z j1 J Vj j 1
做 检2 验,自由度为组数减一,此例中为1
一般和0.05作比较,如果比0.05小,表明零 假设不成立。越小表明差异越大。
实例----寿命估算
UUSee系统中节点寿命的估算
Distilling Superior Peers in Large-Scale P2P Streaming Systems
文章发表在09infocom上,作者每5分钟对网 络进行一次测量,通过得到的数据作者希 望:
提取影响节点寿命的关键因素 提出节点寿命的预测公式
寿命估算(1/6)
生存函数的定义
S(t) P(T t) 1 P(T t) 1 F(t)
其中F(t)为节点寿命的累积分布函数(CDF)
生存函数的估算
生存分析
生存分析,是把事件的结果和出现这一结果所 经历的时间,结合起来分析的一种统计方法.
生存分析----主要统计量(2/5)
生存概率
指某单位时段开始时存活的个体到该时段结束 时仍存活的可能性的大小
年生存概率p 1 死亡概率q
该年活满一年的人数
年初人口数
生存分析----主要统计量(3/5)
序号
姓名
协变量登记 性别(男=1) 手术
1 冯 ××
1
0
2 李 ××
0
1
3 黄 ××
1
1
4 吴 ××
0
0
5 马 ××
1
1
观察记录
整理
开始日期 终止日期 结局(死=1) 原因 生存天数(t)
0 0 - 0 7 - 0 8 0 0 - 1 1 - 2 7 0 失访
142+
00-07-10 00-12-15
用Oj表示在第j个时间段内,两个组被观测 到的死亡个数之和。
零假设为两组独立并有同样的生存函数和 风险函数。
log-rank检验(2/3)
若零假设成立
记E1j= Oj* N1j /(N1j + N2j),这是在j这个观测时间 段内,第一组的死亡数期望
记差异值
Vj
Oj (N1 j
/
N j )(1 N1 j / N j 1
1
^
S (t )
ti t
( ni
ni
di
)
If t < t1 otherwise
ni为第i个计时周期开始时存活的个体数 di为第i个计时周期内消亡的个体数
寿命估算(2/6)
提取关键因素
流的质量 观看人数 加入网络的时间
寿命估算(3/6)
定义风险函数
h(t) lim P(t + t T t | T t)
假设所有的观测都从a0开始 任何在Ai中结束的事件都被记录为在ai时刻发生
寿命估算(5/6)
因此,一个节点的寿命为ti的概率为
i1
[1
a exp(T i
Z
)
]
a exp(T Z ) j
j 1
其中
aj
a j exp( h0 (u)du)
1 复发死亡
158
00-07-16 00-12-31 00-08-18 00-11-22
0 研究终止 1 6 8 +
1 复发死亡
96
0 0 - 1 0 - 1 0 0 0 - 1 1 - 1 2 1 转移死亡
33
No7.0. 1 6.0 2 5.0 3 4.0 4 3.0 52.0
1.0
0.0
7
+ +
结尾数据与生存分析
含有截尾数据的生存分析中的三个问题
如何处理截尾数据 如何判断关键因素 如何估计参数
数学方法----COX回归(1/2)
数学表达式:
ln h(t,X) ln h0 (t) + (1X1 + 2 X 2 + + p X p )
h(t,X) h0 (t) exp(1X1 + 2 X 2 + + p X p )
8
9 10 11 12 13
月 份(2000年) 图12-1 生存时间原始记录示意 ("+"截尾)
No7.0. 56.0 45.0 14.0 23.0 32.0
1.0Байду номын сангаас
0.0
0
+
+
33
96
30 60 90 120
天数 图12-2 生存时间排序整理数据示意
158 150 180
数学方法----生存分析(1/5)