随访资料的生存分析
病例随访资料的统计分析方法——生存分析

假期生活英文作文范文英文:During my holiday, I had a great time doing a lot of fun activities. One of my favorite things to do was to go hiking with my friends. We went to a nearby mountain and enjoyed the beautiful scenery. We also had a picnic on the mountain top and it was so relaxing.Another thing I did was to visit some museums. I went to the art museum and was amazed by the beautiful paintings and sculptures. I also went to the history museum and learned a lot about the local history and culture.Besides that, I also spent some time with my family. We went to the beach and had a great time playing in the water and building sandcastles. We also had a barbecue party in our backyard and invited some friends over.Overall, my holiday was filled with fun and memorableexperiences. I enjoyed spending time with my loved ones and exploring new places.中文:在我的假期里,我做了很多有趣的事情,度过了愉快的时光。
随访资料生存分析的统计学基础

表3 肿瘤<3.0cm组生存率及标准误的计算
期初病例数 nt
14
截尾数 ct
0
死亡概率 qt
1/14=0.0714
生存概率 pt
0.9286
生存率 S(t)
0.9268
13
0
1/13=0.0769
0.9231
0.8572
12
0
1/12=0.0833
二、寿命表法
适用于分组的生存资料。 ① 实际工作中,随访结果常常没有每个观 察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
例16-2 收集374名某恶性肿瘤患者随访资料,取时间区
间均为1年,结果间下表,试估计生存率及其标准误,中
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察 到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间 2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正 态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
S(t) u /2SE[S(t)]
本例28月总体生存率的95%可信区间:
0.7144 1.960.1207
即膀胱肿瘤<3.0cm患者28月生存率的95%可信区间为47.78% ~95.10%。 生存曲线尾部的生存率不适合于用该法计算总体生存率的可信区间。
中位生存时间
医学统计学考题(按章节)第6题【05分】__随访资料的生存分析

五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。
记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。
【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。
资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。
3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。
随访数据的统计分析方法

2.求 t时刻期初例数n0 本例最后时刻期初人数n5=1,其它 时刻由下往上累计获得,例如,
n03=n04+d3+c3=2+1+0=3,n02=n03+d2+c2=3+2 +0=5(见第5列)
3.求t时刻死亡概率q=d/n0。(见第 6列) 4.求t时刻生存概率p=1-q。(见第7列) 5.计算生存率及其标准(见第8,9列)
S(t)=P(T≥t)=p1p2…pk 式中pj可用校正人数估计,可处理截尾数据。 上例:3年生存率为
S(3)=10/40=0.250 由式(12-5)求得例12-1的3年生存率为
S(3)=p1p2p3=0.750×0.667×0.500=0.250
浙江大学医学院流行病与卫生统计学教研室 沈毅
(2)生存率的标准误:生存率的标准误有不同的估计方法, 其中Greenwood’s法(1926)比较常用,其公式为
生存时间的统计分析方法起源于19世纪对寿命表的研究,在第 二次世界大战期间,由于对武器的可靠性的要求,使这一分析方法 得到了很大的发展,并不断扩展应用的其他研究领域中。近40年来, 在医学研究,特别是在临床随访研究中,也引进了生存分析的方法, 用来分析病人的随访资料。由于临床研究资料的多样性和复杂性, 反过来又进一步推动了生存时间分析技术的发展。到目前为止,生 存分析作为统计学的一个分支,已形成了一套完整的体系,包括参 数法,非参数法以及回归分析方法等。
浙江大学医学院流行病与卫生统计学教研室 沈毅
(二)生存时间数据的类型:
1.完全数据 某个观察对象具有明确的结局时,该观察对象所 提供的关于生存时间的信息是完整的。我们把达到了明确结局 的观察对象的生存时间数据称为完全数据(Complete Data)。
《生存分析》

.
小样本未分组资料分析
生存率与标准误 生存率曲线 总体生存率的估计
.
生存率及其标准误
小样本资料(通常为不分组资料),直接 采用概率乘法原理估计生存率,称乘积 极限法。又称Kaplan-Meier(KM)法。 是一种非参数法。
.
各种生存数据的表示
×
X
×
o
X
O
1994
1995
×
X
1996
1997
年. 份
1998 1999
各种生存数据的表示
×
X
×
X
×
X
o
X
1994 1995 1996 1997 1998 1999 2000
.
死亡概率
死亡概率(mortality probability)记 为q,是指死于某时段内的可能性的大小。
.
.
.
截尾数据
截尾数据(censored data)在随访工作中,由于某种 原因未能观察到病人的明确结局(即终止事件),所 以不知道该病人的确切生存时间,它所提供关于生存 时间的信息是不完全的。
产生截尾现象的原因: ①病人失访 ②病人的生存期超过了研究的终止期 ③在动物实验中,达到了事先规定的终止事件
0.8
0.6
0.6
0.4
S(132)=0.5
0.4
0.2
0.2
0.0 0
0.0
100 200 300 400 500
0
Md=158
病例随访资料分析

续上表
N t dn q
p
S(t)
10 182+ 0 3 0.0000 1.0000 0.4000
11 209+ 0 2 0.0000 1.0000 0.4000
12 224+ 0 1 0.0000 1.0000 0.4000 上表为单纯手术治疗肝癌,其不同时
间段累计生存率的变化。
用同样的方法可以对手术加放疗 治疗肝癌病人计算不同时刻的生 存率,见表3。
4 0.2500 0.5 0.0000
0.8462 0.8947 0.8621 0.7000 0.7500 1.0000
0.8462 0.7571 0.6527 0.4569 0.3426 0.3426
计算公式 Lx+1=Lx – Wx – Dx
Lx 期初观察人数 Dx 期内死亡人数 Wx 期内失访人数(失访和到期人数)
表4 A和B两方法预期死亡数计算
组 随访 死亡数 存活数 预期死亡
别 天数 A B T A B T A B
A 52 1 0 1 11 11 22 0.52 0.48
组别 A
死亡 1
生存 11
合计 12
0.52
1 23
12
B0 合计 1
11 11 0.48 1 11
22 23
23
组 随访 死亡数 存活数 预期死亡 别 天数 A B T A B T A B A 78 1 0 1 11 11 22 0.50 0.50 B 79 0 1 1 10 11 21 0.48 0.52 A 92 1 0 1 10 10 20 0.50 0.50 B 95 0 1 1 9 10 19 0.47 0.53 A 96 1 0 1 9 9 18 0.50 0.50
随访资料生存分析的统计学基础

2
25 19 19 23 20 29 19 154
3
23 18 16 21 16 26
4
19 18 14 18 16
5
18 18 14 16
6
17 16 13
7
17 16
8
17
120
85
66
46
33
17
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
1 S (t ) SE[ S (t )] S (t ) nt dt
总体生存率的可信区间
假定生存率近似服从正态分布,某时点总体生存率的(1-a)%可 信区间,公式为:
S (t ) u / 2 SE[S (t )]
本例28月总体生存率的95%可信区间:
0.7144 1.96 0.1207
40 20
42 23
44+ 25
45 27
53 + 54 30 34
59 + 37 43 50
表3 肿瘤<3.0cm组生存率及标准误的计算
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1 1 1 1 1 1 1 1 1 0 1 0 1 0
期初病例数 nt
3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法,
用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
随访时间资料分析

00-12-01 00-12-31 00-12-31
1
研究终止
30+
+为截尾数据
第二节 生存率的估计
小样本资料生存率的Kaplan-Meier估计 当随访的病例数较少时,不需要对病人
的随访时间进行分组,而是直接计算生 存率。生存率的计算常采用乘积极限法 (product-limited method),该法 由Kaplan-Meier于1958年提出,故又 称为Kaplan-Meier法。它利用条件概率 及概率乘法的原理来计算生存率。
生存时间区
间(月) ti-1
(1) 0~ 1~ 2~ 3~ 4~ 5~ 6~ 7~ 8~ 9~ 10~ 11~ 12~ 13~ 14~ 15~ 16~ 17~ 18~ 19~ 20~
表 15-5 2238 例肺癌病人生存率及其标准误计算
死亡人数 截尾人数 期初观察 校正观察 死亡概率 生存概率
di
二、大样本资料的生存分析
在样本较大时,随访病例的生存时间常 可按年、月或日进行分组,得出具有若 干时间段的频数表。对于分组的生存数 据可按寿命表(life table)法计算生存率, 其基本原理是首先求出研究对象在起始 事件后各个时期的生存概率,然后根据 概率的乘法原理,将各时期生存概率相 乘,即可得到自观察开始到各时点的生 存率。并对生存率或生存分布之间的差
时间(月)
生存函数 死亡密度函数
期初例数 期内死亡数 sˆ(t)
fˆ (t)
t
0~
40
5
1.000
0.025
5~
35
7
0.875
0.035
10~
28
6
0.700
0.030
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十五章生存分析第一节生存资料的特点前面有关章节介绍了多种定量资料和定性资料的统计分析方法。
下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。
某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。
试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。
化疗组1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。
临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。
显然,结局为“生存”且存活时间越长,其疗效就越好。
反之,结局为“死亡”且存活时间越短,其疗效就越差。
结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。
从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。
但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。
退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。
因此,不宜采用t检验或方差分析。
秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
因此,该资料也不适宜采用秩和检验。
那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?如果勉强把带“+”号的患者看作“生存”的话,该资料可转化为二分类(结局为“生存”和“死亡”)的四格表资料:化疗组2人生存,9人死亡;放化疗联合组3人生存,8人死亡。
由于样本含量小(2240n=<),可采用四格表资料确切概率法进行统计分析。
但这种处理有失妥当:一是带“+”号的患者并不都是存活的患者;二是将定量资料转化为定性资料会损失部分信息。
更为重要的是,转化为定性资料后采用四格表资料Fisher确切概率法进行分析,只是比较两种治疗措施的结局(生存率)有无差别,而未比较患者接受两种治疗措施后的生存时间有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
因此,将该资料转化为定性资料后采用四格表资料确切概率法进行统计分析亦欠妥当。
综上所述,这种类型的资料采用前面章节介绍的定量资料或定性资料的统计分析方法进行统计分析均不合适。
那么,这种类型的资料究竟有些什么特点、适宜采用何种统计方法进行统计分析?在医学科学研究中,与之相类似的资料还有很多。
在这类研究中,研究者不仅关心某事件发生的结局,同时还关心发生这种结局所经历的时间。
如恶性肿瘤、糖尿病、高血压、心血管疾病等慢性病治疗措施的疗效评价,不仅要考虑治愈率或缓解率,还要考虑治愈时间或缓解时间;预防保健措施的效果评价,不仅要考虑使用保健措施的结果(“好”或“坏”),同时还要考虑出现这种结果所经历的时间,如采取健康教育控制青少年吸烟的效果评价,不仅要考虑青少年接受健康教育后是否吸烟,还要考虑从戒烟到复吸的时间长短;疾病预后的影响因素评价,也要同时考虑疾病的结局(“生存”和“死亡”)和出现这种结局所经历的时间,如肾移植患者术后效果的影响因素评价,不仅要考虑患者是否存活,还要考虑其生存时间。
这类资料在统计学上被称为生存资料(survival data),概括起来具有以下几个共同特点:①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止;④常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂,不能简单地套用前面介绍过的统计方法,如t检验、方差分析、2χ检验、四格表资料确切概率法或秩和检验进行分析。
分析生存资料的统计方法称为生存分析(survival analysis),它是将事件的结局和发生这种结局所经历的时间进行综合分析的一大类统计方法。
生存分析是近30多年来逐步发展和完善起来的一种新的数理统计学分支,具有相对独立的理论体系。
随着其理论体系的不断完善和计算机技术的飞速发展,目前已广泛应用于工业、农业、国防和医学等领域。
本章首先介绍生存分析的基本内容及几个基本概念,然后重点介绍未分组资料和分组资料的生存分析,以及生存曲线比较的假设检验方法。
第二节生存分析的基本内容及几个基本概念一、生存分析的基本内容1. 描述生存过程:研究生存时间的分布特点,估计生存率及其标准误、绘制生存曲线等。
例如,根据乳腺癌患者手术后的生存资料,可以估计不同时间点的生存率及其标准误,如1年生存率、3年生存率、5年生存率等,还可以绘制生存曲线,观察乳腺癌患者手术后的生存过程。
常用方法有乘积极限法和寿命表法。
2. 比较生存过程:获得生存率及其标准误的估计值后,可进行两组或多组生存曲线(生存过程)的比较。
例如,比较两种不同治疗措施治疗恶性肿瘤患者的生存曲线,可了解哪种治疗措施较优,从而为临床决策提供依据。
常用方法有对数秩检验。
3. 生存过程的影响因素分析:例如,为了改善鼻咽癌患者的预后,应先了解可能影响患者预后的因素,如年龄、病程、病情、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养状况等,通过随访收集患者术后的生存时间和上述因素的资料,然后采用多因素生存分析方法确定影响患者预后的主要因素,从而为在手术前后进行预防或干预提供参考依据。
常用的多因素生存分析方法有Cox比例风险回归模型(见第十六章)。
二、生存分析中的几个基本概念1. 死亡事件(death event) 又称失效事件(failure event)或终点事件,死亡事件是一个广义概念,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。
一般是在设计阶段根据研究目的来确定,如乳腺癌患者手术后的死亡、白血病患者化疗后的复发、肾移植患者的肾功能衰竭、接受健康教育戒烟后的青少年复吸烟、接受某种健康保险方式后的中途退保等,均可作为死亡事件。
2. 生存时间(survival time) 指观察到的存活时间,可用天、周、月、年等时间单位记录,常用符号t表示。
如表15.1中6个患者的生存时间分别为117,89,108,96,58,85天。
表15.1 6例乳腺癌患者手术后的随访记录患者编号观察记录生存天数t开始日期终止日期结局(死=1,生=0)原因1 2002-09-03 2002-12-29 0 死于肺癌117+2 2002-09-10 2002-12-08 1 转移死亡893 2002-09-14 2002-12-31 0 研究终止108+4 2002-08-25 2002-11-29 0 失访96+5 2002-10-01 2002-11-28 0 死于车祸58+6 2002-10-04 2002-12-28 1 复发死亡85一般情况下,较细的时间单位准确性较高,因为多数生存分析方法都是在生存时间排序的基础上进行统计处理的,即使是较小的舍入误差,也可能改变生存时间顺序而影响分析结果。
但实际工作中有时很难采用较细的时间单位来度量生存时间,如研究者知道某乳腺癌患者在2002年11月间死亡,但可能不知道具体是哪一天,此时只能用较粗的时间单位“月”来度量,或用2002年11月15日作为该患者死亡时间的粗略估计值。
生存时间也是一个广义概念,不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间,如白血病患者化疗后的缓解时间、肾移植患者的存活时间、接受健康教育后青少年的戒烟时间、投保某种健康险至中途退保的时间等。
生存时间根据其不同的特点,可分为以下两种类型:(1) 完全数据(complete data):指从观察起点到发生死亡事件所经历的时间,如表15.1中2和6号患者对应的生存天数89天和85天。
(2) 截尾数据(censored data):简称截尾值(censored value),又称删失值或终检值。
生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored)。
截尾的主要原因有以下三种:①失访(withdrawal):指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;②退出:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;③终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。
从观察起点到截尾时点所经历的生存时间称为截尾数据,习惯上在生存时间右上标注“+”表示,如表15.1中1, 3, 4, 5号患者的生存天数分别记录为117+, 108+, 96+, 58+。
完全数据提供了观察对象确切的生存时间,是生存分析的主要依据;截尾数据仅提供了部分信息,研究者并不知道观察对象确切的生存时间。
因此,截尾数据太多会影响生存分析的效果。
3. 死亡概率与生存概率(1) 死亡概率(mortality probability):记为q ,是指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。
年死亡概率的计算公式为:q =某年内死亡数某年年初观察例数(15.1)若年内有截尾,则分母用校正人口数:截尾例数年初观察例数校正人口数21-= (15.2) (2) 生存概率(survival probability):记为p ,与死亡概率相对立,表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。
某年生存概率的计算公式为:1p q =-=某年活满一年人数某年年初观察例数(15.3)分子即年底尚存人数,若年内有截尾,则分母用校正人口数。
4. 生存率与生存曲线(1) 生存率(survival rate):记为ˆ()kS t ,是指观察对象活过t k 时刻的概率。
生存率也是一个广义概念,研究者定义的死亡事件不同,其含义亦不同,可以是缓解率、有效率等。
如定义白血病化疗的死亡事件为白血病复发,此时生存率即为缓解率;定义预防接种腮腺炎疫苗的死亡事件为接种儿童发生腮腺炎,此时生存率即为疫苗的有效率;定义安置宫内节育器的死亡事件为因带环受孕取出节育器,此时生存率即为节育器的保留率。