COX回归模型的样本含量的计算方法及软件实现_徐英

　收稿日期:2007-10-20 通讯作者:骆福添　＊中山大学公共卫生学院卫生统计与流行病学系

The Optimum Analysis with Queuing Theory Model in Hospital Management

Han Xinhuan ,e t al

(Department o f mathematics and computer ,Nanjing Med ical University ,Nanjing 210029)A bstract This ar ticle analy sed queuing theo ry model and defined suitable medical resoume fo r outpatient services in o rder to receive be st benefit .It o ffered reference that the hospital g overnors improve medical serv -ice with queuing theo ry .

Key words queuing theo ry ;random mo del ;hospital manag ement

文章编号:1004-4337(2008)01-0018-02 中图分类号:R195.1 文献标识码:A

·医学数学模型探讨·

COX 回归模型的样本含量的计算方法及软件实现

徐　英骆福添＊

(广东药学院卫生统计学教研室　广州510310)

摘　要:　目前生存分析中COX 回归模型到底需要多少样本量往往靠经验法来估计。旨在介绍并推广生存分析中COX 回归模型所需样本量的计算公式及其目前可以实现该计算方法的软件,并通过实例说明了该公式的应用,以期提高今后研究工作的效率。

关键词:　生存分析;　COX 回归模型;　样本量;　统计软件

CO X 回归模型在生存分析中应用非常广泛,然而,关于应用该模型到底需要多少样本含量的问题一直未得到很好地解决。主要原因就是生存分析中往往涉及到数据删失的问题,如果不考虑删失数据,则可以利用率的比较所需样本量的计算公式。但是,简单的忽略这部分数据,往往会造成信息的损失。如果考虑删失数据,则样本量的计算又变得非常复杂,因此,直到今天,这个问题依然是国内外统计学者研究的热点之一。本研究仅介绍其中一种较为成熟的计算方法及其相应的实现软件,并通过实例说明该公式应该逐渐被研究者们广泛应用,从而达到提高研究效率的目的。1　公式介绍

以往,对于CO X 回归模型所需的样本量往往凭经验去估计,即至少需要相当于协变量个数10～15倍的阳性结局事件。1983年,Schoenfeld 在Bio me trics 杂志上撰文,提出了一个计算比例风险模型样本含量的公式[1,2]:

D =(Z 1-α+Z β)2[P (1-P )lo g Δ)2

]

-1

这里,D 是指发生阳性结局的总人数,P 是指分配到第一

治疗组人数所占的比例。lo g Δ是指风险比的对数。该公式主要是用来计算随机化分组研究的设计所需的样本量,适用于二分类自变量。同时,当考虑其他协变量对生存时间的影响时,则要求主要感兴趣的研究变量与其他变量间相互独立。

然而,在实际的工作当中,变量之间有时并不能满足独立性。因此,2000年,H sieh 和L avo ri 在Contro lled Clinical T ri -als 上将Schoenfeld 的计算公式进行了扩展[3],现介绍如下:

N =(Z 1-α/2+Z 1-β)2

P (1-R 2)σ2B

等号左边,N 表示所需要的样本含量。

等号右边Z 1-α/2,Z β表示给定检验水准和检验功效时的z 界值;P 表示整个研究期间阳性结局事件的发生率;B 表示对

数风险比,即lo g Δ;σ2

表示感兴趣的研究因素X 1的方差,这

里假定X 1服从正态分布,对于非正态分布的X 1,如二项分布,可通过p (1-p )进行估计,这里,p 表示X 1取“0”或“1”的比例。与Scho enfeld 的计算公式不同的是,该公式引入了“方差膨胀因子”(V IF ),即1/(1-R 2)。R 2表示X 1对其他协变量作回归分析时的确定系数,取值范围0～1,当取值为“0”时,

18·Journal o f M athematical M edicine

Vo l .21 No .1 2008

一般表示只考虑一个自变量X1的情形。亦即当变量间不满足独立性时,需要通过VIF来增加参数估计值的方差。

上述各指标可通过查阅相关文献或进行预试验确定。

2　软件实现

目前,有许多统计软件可以用来计算生存分析所需的样本量,但是大部分软件都是针对log-rank检验的,或是要求生存时间服从指数分布,比如S-plus、PS、N Q ue ry A dv iso r、S T A-T A、PA SS等。然而,逐渐地也有不少软件开始引入针对CO X回归分析所需样本量的计算程序,比如ST A T A和PA SS。现介绍如下:

2.1　ST A T A软件的应用

程序如下:stpow er COX[coef][,o ptions]

[coef]:用来设定感兴趣的研究因素X1的对数风险比,即logΔ;

[,options]:选择项,常用的有:

＊alpha(numlist):检验水准,默认0.05;

＊po wer(numlist):检验效能,默认0.8;

＊onesided:单侧检验,默认双侧检验;

＊sd(#):感兴趣的研究因素X1的标准差,默认0.5;

＊r2(#):确定系数,默认0;

＊failpr ob(#):阳性结局事件发生率,默认100%。

2.2　P ASS软件的应用

PA SS是N CSS软件中执行检验功效分析和计算样本量大小的一个功能模块。操作步骤如下:

①打开N CSS软件,进入类似SPSS的操作界面;

②点击PA SS下拉菜单,选择“survival and reliability”子菜单,选择“CO X reg re ssio n”,进入相关参数设置对话框;

③设置相关参数,点击工具栏“play”,完成操作。

3　实例应用

K rall,U thoff and Har ley(1975)研究了65例多发性骨髓瘤患者预后的影响因素,一共9个变量(具体数据参见sas phreg过程中的数据集M yelo ma)。如研究者主要感兴趣的变量为X1(lo gBU N),预估计其对数风险比lo gΔ=1,研究结束时死亡率P=48/65=73.8%,按照单侧0.05的检验水准和预期80%的检验效能,估计所需的样本量的计算过程如下:

①估计X1的标准差,得σ=0.3126;

②对X1和其他协变量作多重线性回归分析,得R2=0.1839;

③利用ST A T A或PA SS软件,将上述参数带入计算,得样本含量N=107。

按照Hsieh和Lav ori所提供的公式,若要达到80%的检验效能,估计所需的样本量为107例。故对于该项研究而言,若只研究65例患者,则需慎重对待所得结论。

4　讨论

本研究中提到的公式,有效地解决了在生存分析中广泛应用的COX回归模型的样本含量的计算问题,为医学科研工作者在今后的研究中提高研究效率、节省人力物力财力提供了一定的科学依据。

该公式适用于任何分布的生存时间,只要满足CO X比例风险假定即可。另外,该公式不仅适用正态分布的自变量,也适用非正态分布的自变量,比如二分类的自变量,此时,可以计算出近似所需的样本量。

该公式不仅仅局限于对单个影响因素的研究,还可以综合考虑其他协变量的影响。这一点在公式中主要体现在R2的取值上。对于单个自变量的研究,R2取“0”即可;对于多个自变量的研究,则需要通过回归分析估计R2。

由于ST A T A软件被广大研究者所熟悉,而PA SS界面又非常友好,操作简单,只需要输入相应的参数既可以得到所需的结果。此外,该公式相对较简单,亦可以直接计算。因此,期待能在今后的生存分析中得到广泛的应用,以提高研究的工作效率。另外,当已知样本含量时,也可以利用该公式和上述两个软件估计检验功效,以判断当阴性结果出现时,是否由于样本含量不足导致。

参　考　文　献

1　S choenfeld,David A.Sample-Size Formu la fo r the Proportional-Hazards Regres s ion M odel.Biometrics,1983,39:499～503.

2　赵耐青.生存分析的最小样本含量计算.上海医科大学学报,1994, 21(5):333～337.

3　H sieh,F.Y.and Lavori,P.W.Sample-Siz e Calcu lation s fo r th e COX Proportional Hazards Regression M odel w ith Nonbinary Co-variates.Controlled Clinical Trials,2000,21:552～560.

数理医药学杂志2008年第21卷第1期

非参数回归模型与半参数回归模型

第七章非参数回归模型与半参数回归模型第一节非参数回归与权函数法一、非参数回归概念前面介绍的回归模型，无论是线性回归还是非线性回归，其回归函数形式都是已知的，只是其中参数待定，所以可称为参数回归。参数回归的最大优点是回归结果可以外延，但其缺点也不可忽视，就是回归形式一旦固定，就比较呆板，往往拟合效果较差。另一类回归，非参数回归，则与参数回归正好相反。它的回归函数形式是不确定的，其结果外延困难，但拟合效果却比较好。设Y 是一维观测随机向量，X 是m 维随机自变量。在第四章我们曾引进过条件期望作回归函数，即称 g (X ) = E (Y |X ) （7.1.1）为Y 对X 的回归函数。我们证明了这样的回归函数可使误差平方和最小，即 22)]([min )]|([X L Y E X Y E Y E L -=- （7.1.2）这里L 是关于X 的一切函数类。当然，如果限定L 是线性函数类，那么g (X )就是线性回归函数了。细心的读者会在这里立即提出一个问题。既然对拟合函数类L (X )没有任何限制，那么可以使误差平方和等于0。实际上，你只要作一条折线(曲面)通过所有观测点(Y i ，X i )就可以了是的，对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样，我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法，不管是核函数法，最近邻法，样条法，小波法，实际都有参数选择问题(比如窗宽选择，平滑参数选择)。所以我们知道，参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Y i ，X i )，属于参数回归；用多个低次多项式去分段拟合(Y i ，X i )，叫样条回归，属于非参数回归。二、权函数方法非参数回归的基本方法有核函数法，最近邻函数法，样条函数法，小波函数法。这些方法尽管起源不一样，数学形式相距甚远，但都可以视为关于Y i 的线性组合的某种权函数。也就是说，回归函数g (X )的估计g n (X )总可以表为下述形式： ∑==n i i i n Y X W X g 1 )()( （7.1.3）

cox回归结果解析

筛选变量的方法：第一步，结合临床，临床认为有关的变量均筛选出来。第二步.应用双变量的相关分析，把显著相关的变量筛选出来，保留临床意义更大的那个。第三步，应用Kaplan-Meier法对每个危险因素的两个暴露水平做生存曲线，若曲线存在交叉，则不能应用Cox生存分析（Cox生存分析也称比例风险回归，它包含一个假定，即在随访期间暴露于预后因素与非暴露的风险比例维持恒定），这类变量需应用更复杂的非比例风险回归模型，这里将不详述了。第四步，单因素分析。可应用COX生存分析的第0步结果作为单因素分析的结果。可在SPSS的Cox回归里选择任何一种前进法，在Option中选择at each step，取因子筛选第0步的Score检验结果作为单因子Cox回归分析的结果。也有文章的单因素分析对于离散型变量应用卡方检验和连续型变量应用t检验，等级资料应用双变量相关分析。最后，将进行Cox回归分析。应用SPSS中analysis-survival-cox regression.在time一栏中选择生存时间；在state一栏中选择数据状态（在数据编码中已经介绍），在激活的define event一栏中设定single value为1。这里要强调几个小问题：1，SPSS可以支持研究者做两个或以上的变量的共同效应，需在主对话框中同时选中需研究的变量两个或两个以上，这样协变量框中的>a*b>才会被激活。2，分类变量，在这里被称为哑变量，需单击categorical，然后将分类变量选入对话框。最后得到的结果，B为协变量的系数，Exp（B）为相对危险度。可得到比例风险模型：h（t，x）=h0（t）exp（Σβ ixi）公式1－1 预后指数也称预后得分，PI(prognostic index)= （Σβ ixi） PI=0代表危险率处于平均水平，PI<0，代表危险率低于平均水平；PI>0，代表危险率高于平均水平。由公式1－1可以求得全部病人的预后指数。将所有的预后指数做等级变换，例如分组的界点PI＝-1，0，1，以PI为分类变量做COX回归，并估计生存率，便获得预后指数分类生存率，若样本量很大，或代表性比较好，可用内插法分别估计不同预后指数水平的人群的k年生存率，以及中数生存期，编制成参照表，便可用于临床，根据每个病人的PI值，预测其存活k年的概率，以及期望的生存年数。最后一段摘自方积乾主编的第二版《医学统计学与电脑试验》。如果我们能够象国外一样做大规模多中心前瞻的研究，我一定要做到最后一步。其实这个问题关键还是在你自己，就是你为何要定义分类变量？如果变量是连续变量或者是具有等级关系的，那么一般是不定义为分类变量的，比如年龄，身高，体重等等。如果变量的数值之间没有等级关系，比如组别，我们用1表示A组，2表示B性，3表现C组，这个在分析的时候是需要定义为分类变量的，因为这个数值的大小是没有意义的。所以关键怎么选择，还是需要看楼主这几个变量所代表的具体意义。 COX回归时如果需要分析的自变量中为有序多分类，为保证结果的准确性，应将其指定为亚变量进行分析(严格的讲，两分类变量也应进行指定，但不指定时的分析结果是等价的)，所以您定义为categorical后的计算结果是可信的 the final multivariate Cox regression model, xx was identified as an independent prognostic factor with an adjusted hazard ratio of 1.60 (95% confidence interval 1.07–2.41)‖,而有的文章则是这样描述―Cox regression indicated that ING4 expression is an independent prognostic factor for overall 5-year survival (Relative risk = 2.50, 95% confidence interval = 1.09–5.74, P = 0.031)‖请问这两种描述有什么区别？hazard ratio与relative risk又有什么不同？谢谢大家！

cox回归分析

生存分析之COX回归分析 1、生存分析,就是将终点事件出现与否与对应时间结合起来分析得一种统计方法; 2、生存时间,就是从规定得观察起点到某一特定终点事件出现得时间,如膀胱癌术后5年存活率研究,及膀胱癌手术为观测起点,死亡为事件终点,两点为生存时间; 3、完全数据,观测起点到终点事件所经历得时间,上述例子即膀胱癌手术到因膀胱癌死亡得时间; 4、删失数据,因失访、研究结束终点事件未发生或患者死于规定得终点事件以外得原因而终止观察,不能确定具体生存时间得一类数据; 5、生存概率,表示某时段开始存活得个体到该时段结束仍存活得概率,p=活满某时段得人数/该时段期初有效人口数; 6、生存率,为观察起点起到研究时间点内各个时段得生存概率得累积概率,S(tk)=p1、p2、pk=S(tk-1)、pk; 7、生存曲线,以生存时间为横轴,将各个时间点得生存率连在一起得曲线图; 8、中位生存期,又称半数生存期,表示50%得个体存活得时间; 9、PH假定(等比例风险假定),某研究因素对生存得影响不随时间得改变而改变,就是COX回归模型建立得前提条件。 Cox回归分析及其SPSS操作方法概述前面我们已经讲过生存分析及KM法得内容,详细可以回复数字26－28查瞧。但有对统计不太熟悉得“微粉”还不太明白生存分析与一般统计得区别,不知道如何区别Cox回归与Logistic回归。在我们做研究时,有时我们不仅关心某种结局就是否出现,还会关心结局出现得时间,例如肺部手术后观察五年生存率,一个有在1年之后死亡,另外一个人在在4、5后死亡,如果只瞧第5年时得结局,两者就是一样得(均死亡),但就是实际我们认为后者得治疗效果可能优于前者,即生存分析同时考虑结局与结局出现得时间,而一般分析只考虑结局。另外在队列随访时,可能有人在没有到5年时就失访了,如迁徙或者电话更改,我们不了解其结局如何,在一般得分析中这种病例无法使用,而中间失访得病例结局可能更差,如果直接扔掉,可能会产生偏倚;而用生存分析,这种病例可以给我们提供部分资料,即我们记录最后一次随访时病例得状态,失访前得资料可以用于分析。我们先回顾一下生存分析得KM法与寿命表法(回复数字26与27可以查瞧KM法得详细内容),其共同点就是只能分析一种因素与生存率得关系,Log-Rank法也就是比较一个因素两种水平间得生存差别,如果生存率得影响因素有很多,我们怎么避免其它混杂因素得影响呢？我们可以使用回归分析方法,但如果使用logistic回归,也就是只能观察影响因素与结局得关联,没有考虑结局发生得时间因素。Cox回归可以解决这个问题。Cox回归一般模型假设为其中h(t,X)就是在时刻t得风险函数又可称瞬时死亡率,h(0,t)就是基线风险率,其它与logistic回归模型相同。βj大于0则x j越大,病人死亡风险越大,βj小于0则x j越大,病人死亡风险越小,βj等于0则x j 越与死亡率没有影响。Exp(β)为危险比(HR)或相对危险度(RR)。下面以一个例子说明在SPSS中作Cox回归如何操作。

非参数回归模型与半参数回归模型

Cox回归分析—非常详细的SPSS操作介绍

患者生存状态的影响因素分析 ——生存资料的COX回归分析1、问题与数据某研究者拟观察某新药的抗肿瘤效果，将70名肺癌患者随机分为两组，分别采用该新药和常规药物进行治疗，观察两组肺癌患者的生存情况，共随访2年。研究以死亡为结局，两种治疗方式为主要研究因素，同时考虑调整年龄和性别的影响，比较两种疗法对肺癌患者生存的影响是否有差异。变量的赋值和部分原始数据见表1和表2。表1. 某恶性肿瘤的影响因素与赋值表2. 两组患者的生存情况 group gender age time survival 0 1 0 22 1 0 1 1 10 1 0 1 1 64 1 0 1 1 12 1 0 1 0 17 1 1 0 0 19 1 1 1 1 4 1 1 0 1 1 2 0 1 0 0 5 0 1 1 1 27 0 2、对数据结构的分析该研究以死亡为结局，治疗方式为主要研究因素，每个研究对象都有生存时

间（随访开始到死亡、失访或随访结束的时间），同时考虑调整年龄和性别的影响。欲了解两种疗法对肺癌患者生存的影响是否有差异，可以用Cox比例风险模型（Cox proportional-hazards model，也称为Cox回归）进行分析。实际上，Cox回归的结局不一定是死亡，也可以是发病、妊娠、再入院等。其共同特点是，不仅考察结局是否发生，还考察结局发生的时间。在进行Cox回归分析前，如果样本不多而变量较多，建议先通过单变量分析（KM法绘制生存曲线、Logrank检验等）考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。即使样本足够大，也不建议把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。单因素分析后，应当考虑应该将哪些自变量纳入Cox回归模型。一般情况下，建议纳入的变量有：1）单因素分析差异有统计学意义的变量（此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素）；2）单因素分析时，没有发现差异有统计学意义，但是临床上认为与因变量关系密切的自变量。 3、SPSS分析方法（1）数据录入SPSS

多种类型的回归模型

数学建模第二次作业例一：（线性模型）针叶松数据该数据包含70棵针叶松的测量数据，其中y 表示体积（单位立方英尺），x 1为树的直径（单位：英寸），x 2为树的高度（单位：英尺）。 x 1 4.6 4.4 5.0 5.1 5.1 … 19.4 23.4 x 2 33 38 40 49 37 … 94 104 解答：（1）问题分析：首先根据这组数据做自变量与因变量之间的关系图，如图1.1 。由图可知y 随x 1、x 2的增加而增加，从而可大致判断y 与x 1，x 2呈线性关系。判断是线性回归模型后进行细节的量纲分析，得出具体模型，从而利用已知的线性模型，借助R 软件求解出估计量0β，1β，β2的值得出最终结果。图1.1 （2）模型基础设变量Y 与变量X 1,X 2,…,XP 间有线性关系 Y=εββββ+++++P P X X X (22110) 其中N ~ε(0,2σ),P βββ,...,,10和2σ是未知参数，p ≥2，称上述模型为多元线性回归模型，则模型可以表示为： n i x x y i ip p i i ,...,2,1,...110=++++=εβββ 其中() 2,0σεN i ∈，且独立分布即令

? ???????????=n y y y y 21，??????????????=p ββββ 10，??? ? ? ? ? ???? ???=np n n p p x x x x x x x x x X ...1...1 (12) 1 222 21 11211 ，? ???????????=n εεεε 21 则多元线性回归模型可表示为 εβ+=X Y , 其中Y 是由响应变量构成的n 维向量，X 是n ?（p+1）阶设计矩阵，β是p+1维向量，并且满足 E （ε）=0，Var （ε）=2σI n 与一元线性回归类似，求参数β的估计值β ?，就是求最小二乘函数 Q （β）= ()()ββX y X y T -- 达到最小的β的值。 β的最小二乘估计 () y X X X T T 1 ?-=β 从而得到经验回归方程 P P X X Y βββ????11+++= （3）问题求解：由于体积与长度的量纲不一致，为了使等式两边量纲统一，首先利用excel 软件对数据进行预处理，即对y 进行三次开方的处理。其中，选择线的性模型为：i i i i x x y εβββ+++=221103，i=1,…,70 3 y 计算结果如下表1.1 0β=0.0329 1β=0.1745 2β=0.0142

SPSS学习笔记之——生存分析的Cox回归模型(比例风险模型)

一、生存分析基本概念 1、事件（Event）指研究中规定的生存研究的终点，在研究开始之前就已经制定好。根据研究性质的不同，事件可以是患者的死亡、疾病的复发、仪器的故障，也可以是下岗工人的再就业等等。 2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念，不仅仅指医学中的存活，也可以是机器出故障前的正常运行时间，或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间，比如汽车在出故障前的行驶里程，也可以作为生存时间来考虑。 3、删失（Sensoring）指由于所关心的事件没有被观测到或者无法观测到，以至于生存时间无法记录的情况。常由两种情况导致：（1）失访；（2）在研究终止时，所关心的事件还未发生。 4、生存函数（Survival distribution function）又叫累积生存率，表达式为S（t）=P(T>t),其中T为生存时间，该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1，随着t的增加S(t)递减（严格的说是不增），1-S(t)为累积分布函数，表示生存时间T不超过t的概率。二、生存分析的方法

1、生存分析的主要目的是估计生存函数，常用的方法有Kaplan-Meier法和寿命表法。对于分组数据，在不考虑其他混杂因素的情况下，可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素，可以使用Cox回归模型（也叫比例风险模型），利用数学模型拟合生存分布与影响因子之间的关系，评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变，如果不满足这个条件，则应使用含有时间依存协变量的Cox回归模型。下面用一个例子来说明SPSS中Cox回归模型的操作方法。例题要研究胰腺癌术中放疗对患者生存时间的影响，收集了下面所示的数据：

cox回归模型

王江源 SPSS学习笔记之——生存分析的Cox回归模型（比例风险模型）王江源 https://www.360docs.net/doc/4c14964671.html,/u/1153366774 2012-09-22 19:05:29 一、生存分析基本概念 1、事件（Event）指研究中规定的生存研究的终点，在研究开始之前就已经制定好。根据研究性质的不同，事件可以是患者的死亡、疾病的复发、仪器的故障，也可以是下岗工人的再就业等等。 2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念，不仅仅指医学中的存活，也可以是机器出故障前的正常运行时间，或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间，比如汽车在出故障前的行驶里程，也可以作为生存时间来考虑。 3、删失（Sensoring）指由于所关心的事件没有被观测到或者无法观测到，以至于生存时间无法记录的情况。常由两种情况导致：（1）失访；（2）在研究终止时，所关心的事件还未发生。 4、生存函数（Survival distribution function）又叫累积生存率，表达式为S（t）=P(T>t),其中T为生存时间，该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1，随着t的增加S(t)递减（严格的说是不增），1-S(t)为累积分布函数，表示生存时间T不超过t的概率。二、生存分析的方法 1、生存分析的主要目的是估计生存函数，常用的方法有Kaplan-Meier法和寿命表法。对于分组数据，在不考虑其他混杂因素的情况下，可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素，可以使用Cox回归模型（也叫比例风险模型），利用数学模型拟合生存分布与影响因子之间的关系，评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变，如果不满足这个条件，则应使用含有时间依存协变量的Cox回归模型。下面用一个例子来说明SPSS中Cox回归模型的操作方法。例题要研究胰腺癌术中放疗对患者生存时间的影响，收集了下面所示的数据：

多元自适应样条回归模型

多元自适应样条回归模型多元自适应回归样条法是一种专门针对高维数据拟合的回归方法口。因其建模速度快，可解释性强得到广泛的应用。该方法以样条函数的张量积作为基函数，自动选择插入基函数的节点，构成基函数集合来逼近样本数据。MARS算法自提出后，很多学者做了研究和改进。由Friedman提出的Fast MARS算法能在略微降低模型精度的同时加快建模速度。Sergey Bakin等提出的BMARS使用了并行算法，加快建模速度，同时使模型变得光滑。但是当样本数据存在一定干扰时，MARS 可能在干扰点处插入基函数，建立的模型会贴近干扰点，后向剪枝过程不能删除这样的基函数，导致模型在干扰点附近的预测能力下降。多元自适应回归样条(MARS)是由Fried--man引入的一种回归分析形式，它是一种非参数回归技术，可以看作模拟变量之间的非线性和相互作用的线性模型的扩展，MARS模型的一般插入点。为了能够增加模型的鲁棒性，准确反映系统特征，对样本数据采用10折交叉验证的建模方法，确保所有数据都有机会参与模型的训练和预测。MARS 是一种基于分段策略的非线性、非参数回归方法。该方法无需假设输入变量与输出变量之间潜在的特定函数关系，而是将数据的训练集划分为独立的不同梯度的分段线段，每个分段线段称为基函数;各段的端点称为结点，一个结点标记数据的一个区域的结束和下一个区域的开始。由此得到的基函数将给予模型更大的灵活性，允许产生弯曲、阂值他偏离线性的情况。MARS通过逐步搜索以生成基函数，利用自适应回归算法以选择结点位置。MARS算法分为前向选择、后向剪枝

2个步骤:前向选择过程是对输入的样本数据进行划分处理，用样条函数代替划分的小区间拟和得到新的基函数，继而得到一个拟合模型;后向剪枝过程是对所产生的基函数进行筛选处理，剔除对模型拟合贡献较小的基函数，以避免出现过拟合情况，进而产生最优模型。MARS 是一个数据建模的过程，为使模型符合式，应先对数据的训练集进行前向选择程序。通过采用常数项和基函数对生成模型，尽量减小训练误差;对含有N个基函数的模型，下一对加入模型的基函数形式中月利用最小二乘法求得。模型加入新的基函数时，也会考虑其与模型中已有基函数之间的相互作用。若基函数数目达到模型预定的最大数量，将产生一个过拟合的模型。分子是MARS模型数据训练集的均方误差，分母为惩罚函数。模型复杂度越高，方差就会越大。二不仅决定模型的基函数数目，而且影响结点数。一般默认d值取3〔‘3〕。后向过程中，在已预设最大基函数个数的前提下，该算法通过不断地剔除基函数使式(5)取得最小值，直至找到一个合适的模型。由于基函数的选择和可变结点的位置是依据数据和具体研究问题决定的，因此MARS是一种自适应的模型。得出最优MARS模型后，通过将涉及同一个变量的所有基函数组合在一起，并采用方差分析比较变量的统计学显著性，以此来评价输入变量和基函数的贡献。另外，由于最大基函数个数是事先预设的，若预设值不合理，可能导致最终的模型并不是最优模型。因此可以试验多组预设值，并选取合适的评价指标，观察评价指标随预设值的变化情况，以此确定最终模型的预设最大基函数个数。本文最终模型的选取主要参考3个评

COX回归模型的样本含量的计算方法及软件实现_徐英

收稿日期:2007-10-20 通讯作者:骆福添　＊中山大学公共卫生学院卫生统计与流行病学系 The Optimum Analysis with Queuing Theory Model in Hospital Management Han Xinhuan ,e t al (Department o f mathematics and computer ,Nanjing Med ical University ,Nanjing 210029)A bstract This ar ticle analy sed queuing theo ry model and defined suitable medical resoume fo r outpatient services in o rder to receive be st benefit .It o ffered reference that the hospital g overnors improve medical serv -ice with queuing theo ry . Key words queuing theo ry ;random mo del ;hospital manag ement 文章编号:1004-4337(2008)01-0018-02 中图分类号:R195.1 文献标识码:A ·医学数学模型探讨· COX 回归模型的样本含量的计算方法及软件实现徐　英骆福添＊ (广东药学院卫生统计学教研室　广州510310) 摘　要:　目前生存分析中COX 回归模型到底需要多少样本量往往靠经验法来估计。旨在介绍并推广生存分析中COX 回归模型所需样本量的计算公式及其目前可以实现该计算方法的软件,并通过实例说明了该公式的应用,以期提高今后研究工作的效率。关键词:　生存分析;　COX 回归模型;　样本量;　统计软件 CO X 回归模型在生存分析中应用非常广泛,然而,关于应用该模型到底需要多少样本含量的问题一直未得到很好地解决。主要原因就是生存分析中往往涉及到数据删失的问题,如果不考虑删失数据,则可以利用率的比较所需样本量的计算公式。但是,简单的忽略这部分数据,往往会造成信息的损失。如果考虑删失数据,则样本量的计算又变得非常复杂,因此,直到今天,这个问题依然是国内外统计学者研究的热点之一。本研究仅介绍其中一种较为成熟的计算方法及其相应的实现软件,并通过实例说明该公式应该逐渐被研究者们广泛应用,从而达到提高研究效率的目的。1　公式介绍以往,对于CO X 回归模型所需的样本量往往凭经验去估计,即至少需要相当于协变量个数10～15倍的阳性结局事件。1983年,Schoenfeld 在Bio me trics 杂志上撰文,提出了一个计算比例风险模型样本含量的公式[1,2]: D =(Z 1-α+Z β)2[P (1-P )lo g Δ)2 ] -1 这里,D 是指发生阳性结局的总人数,P 是指分配到第一治疗组人数所占的比例。lo g Δ是指风险比的对数。该公式主要是用来计算随机化分组研究的设计所需的样本量,适用于二分类自变量。同时,当考虑其他协变量对生存时间的影响时,则要求主要感兴趣的研究变量与其他变量间相互独立。然而,在实际的工作当中,变量之间有时并不能满足独立性。因此,2000年,H sieh 和L avo ri 在Contro lled Clinical T ri -als 上将Schoenfeld 的计算公式进行了扩展[3],现介绍如下: N =(Z 1-α/2+Z 1-β)2 P (1-R 2)σ2B 2 等号左边,N 表示所需要的样本含量。等号右边Z 1-α/2,Z β表示给定检验水准和检验功效时的z 界值;P 表示整个研究期间阳性结局事件的发生率;B 表示对数风险比,即lo g Δ;σ2 表示感兴趣的研究因素X 1的方差,这里假定X 1服从正态分布,对于非正态分布的X 1,如二项分布,可通过p (1-p )进行估计,这里,p 表示X 1取“0”或“1”的比例。与Scho enfeld 的计算公式不同的是,该公式引入了“方差膨胀因子”(V IF ),即1/(1-R 2)。R 2表示X 1对其他协变量作回归分析时的确定系数,取值范围0～1,当取值为“0”时, · 18·Journal o f M athematical M edicine Vo l .21 No .1 2008

cox回归分析

生存分析之COX回归分析 1.生存分析，是将终点事件出现与否与对应时间结合起来分析的一种统计方法； 2.生存时间，是从规定的观察起点到某一特定终点事件出现的时间，如膀胱癌术后5年存活率研究，及膀胱癌手术为观测起点，死亡为事件终点，两点为生存时间； 3.完全数据，观测起点到终点事件所经历的时间，上述例子即膀胱癌手术到因膀胱癌死亡的时间； 4.删失数据，因失访、研究结束终点事件未发生或患者死于规定的终点事件以外的原因而终止观察，不能确定具体生存时间的一类数据； 5.生存概率，表示某时段开始存活的个体到该时段结束仍存活的概率，p=活满某时段的人数/该时段期初有效人口数； 6.生存率，为观察起点起到研究时间点内各个时段的生存概率的累积概率，S(tk)=p1.p2.pk=S(tk-1).pk; 7.生存曲线，以生存时间为横轴，将各个时间点的生存率连在一起的曲线图； 8.中位生存期，又称半数生存期，表示50%的个体存活的时间； 9.PH假定（等比例风险假定），某研究因素对生存的影响不随时间的改变而改变，是COX回归模型建立的前提条件。 1. Cox回归分析及其SPSS操作方法概述前面我们已经讲过生存分析及KM法的内容，详细可以回复数字26－28查看。但有对统计不太熟悉的“微粉”还不太明白生存分析与一般统计的区别，不知道如何区别Cox回归与Logistic回归。在我们做研究时，有时我们不仅关心某种结局是否出现，还会关心结局出现的时间，例如肺部手术后观察五年生存率，一个有在1年之后死亡，另外一个人在在4.5后死亡，如果只看第5年时的结局，两者是一样的（均死亡），但是实际我们认为后者的治疗效果可能优于前者，即生存分析同时考虑结局和结局出现的时间，而一般分析只考虑结局。另外在队列随访时，可能有人在没有到5年时就失访了，如迁徙或者电话更改，我们不了解其结局如何，在一般的分析中这种病例无法使用，而中间失访的病例结局可能更差，如果直接扔掉，可能会产生偏倚；而用生存分析，这种病例可以给我们提供部分资料，即我们记录最后一次随访时病例的状态，失访前的资料可以用于分析。我们先回顾一下生存分析的KM法和寿命表法（回复数字26和27可以查看KM法的详细内容），其共同点是只能分析一种因素与生存率的关系，Log-Rank法也是比较一个因素两种水平间的生存差别，如果生存率的影响因素有很多，我们怎么避免其它混杂因素的影响呢？我们可以使用回归分析方法，但如果使用logistic回归，也是只能观察影响因素与结局的关联，没有考虑结局发生的时间因素。Cox回归可以解决这个问题。Cox回归一般模型假设为其中h(t,X)是在时刻t的风险函数又可称瞬时死亡率，h(0,t)是基线风险率，其它与logistic回归模型相同。βj大于0则x j越大，病人死亡风险越大，βj小于0则x j越大，病人死亡风险越小，βj等于0则x j越与死亡率没有影响。Exp(β)为危险比（HR）或相对危险度（RR）。下面以一个例子说明在SPSS中作Cox回归如何操作。

生存分析的cox回归模型案例——spss

生存分析的ｃox回归模型案例——spss

————————————————————————————————作者: ————————————————————————————————日期: ?

一、生存分析基本概念 1、事件(Evｅｎt）指研究中规定的生存研究的终点，在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survｉvaｌtiｍｅ）指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活，也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间，比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。３、删失（Ｓｅnsorｉｎg）指由于所关心的事件没有被观测到或者无法观测到，以至于生存时间无法记录的情况。常由两种情况导致:（1）失访;(2）在研究终止时，所关心的事件还未发生。４、生存函数(Surｖｉval distributioｎfunｃｔioｎ）又叫累积生存率，表达式为S(ｔ)=Ｐ(T>t）,其中Ｔ为生存时间,该函数的意义是生存时间大于时间点t的概率。ｔ＝０时S(ｔ)=1，随着t的增加S（t)递减(严格的说是不增)，1-Ｓ(t）为累积分布函数，表示生存时间Ｔ不超过t的概率。? 二、生存分析的方法 1、生存分析的主要目的是估计生存函数，常用的方法有Kapｌan-Meier法和寿命表法。对于分组数据，在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素，可以使用Cox回归模型（也叫比例风险模型）,利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件，则应使用含有时间依存协变量的Cox回归模型。下面用一个例子来说明SＰSS中Cox回归模型的操作方法。例题要研究胰腺癌术中放疗对患者生存时间的影响，收集了下面所示的数据:

cox回归生存分析在stata中实现汇总

为了评价各种指标对透析患者生存时间的影响，资料如下，为避免受过大值的影响，实际拟合模型中，ntprobnp数据取对数，记为ntprobnp1 gen ntprobnp1 = log(ntprobnp 资料如下： time die crea bun alb age therapy ntprobnp ntprobnp1 12 1 1032 34 28 45 0 20 2.995732 26 1 1324 46 26 66 1 34 3.526361 38 1 1520 49 31 56 0 56 4.025352 45 1 870 28 32 62 1 112 4.718499 99 1 990 34 39 35 0 1020 6.927558 120 0 785 23 42 29 0 1920 7.560081 120 0 456 19 43 35 0 45 3.806663 120 0 570 23 39 27 0 88 4.477337 120 0 1020 33 41 42 0 211 5.351858 120 0 780 29 40 23 0 455 6.120297 120 0 670 22 39 19 0 2100 7.649693

120 0 932 28 35 23 0 1320 7.185387 120 0 689 27 44 56 0 44 3.78419 35 1 670 33 28 66 1 66 4.189655 67 1 1210 34 34 72 1 77 4.343805 1. 预后因素筛选： logrank time die, by(crea 检测肌酐是否影响生存率 chi2(13 = 29.07 Pr>chi2 = 0.0064 P<0.05，说明肌酐对预后影响大 logrank time die, by(bun logrank time die, by(alb logrank time die, by(age logrank time die, by(therapy logrank time die, by(ntprobnp1 由于bun P>0.05，在COX模型中去除改因素 2. 用COX比例风险模型分析 cox time crea alb age therapy ntprobnp1, dead(die Cox regression -- no ties Entry time 0 Number of obs = 15 ① LR chi2(5 = 26.21

cox回归结果解析

c o x回归结果解析-CAL-FENGHAI.-(YICAI)-Company One1

筛选变量的方法：第一步，结合临床，临床认为有关的变量均筛选出来。第二步.应用双变量的相关分析，把显着相关的变量筛选出来，保留临床意义更大的那个。第三步，应用Kaplan-Meier法对每个危险因素的两个暴露水平做生存曲线，若曲线存在交叉，则不能应用Cox生存分析（Cox生存分析也称比例风险回归，它包含一个假定，即在随访期间暴露于预后因素与非暴露的风险比例维持恒定），这类变量需应用更复杂的非比例风险回归模型，这里将不详述了。第四步，单因素分析。可应用COX生存分析的第0步结果作为单因素分析的结果。可在SPSS的Cox回归里选择任何一种前进法，在Option中选择at each step，取因子筛选第0步的Score检验结果作为单因子Cox回归分析的结果。也有文章的单因素分析对于离散型变量应用卡方检验和连续型变量应用t检验，等级资料应用双变量相关分析。最后，将进行Cox回归分析。应用SPSS中analysis-survival-cox regression.在time一栏中选择生存时间；在state一栏中选择数据状态（在数据编码中已经介绍），在激活的define event一栏中设定single value为1。这里要强调几个小问题：1，SPSS可以支持研究者做两个或以上的变量的共同效应，需在主对话框中同时选中需研究的变量两个或两个以上，这样协变量框中的>a*b>才会被激活。2，分类变量，在这里被称为哑变量，需单击categorical，然后将分类变量选入对话框。最后得到的结果，B为协变量的系数，Exp（B）为相对危险度。可得到比例风险模型：h（t，x）=h0（t）exp（Σβ ixi）公式1－1 预后指数也称预后得分，PI(prognostic index)= （Σβ ixi） PI=0代表危险率处于平均水平，PI<0，代表危险率低于平均水平；PI>0，代表危险率高于平均水平。由公式1－1可以求得全部病人的预后指数。将所有的预后指数做等级变换，例如分组的界点PI＝-1，0，1，以PI为分类变量做COX回归，并估计生存率，便获得预后指数分类生存率，若样本量很大，或代表性比较好，可用内插法分别估计不同预后指数水平的人群的k年生存率，以及中数生存期，编制成参照表，便可用于临床，根据每个病人的PI值，预测其存活k年的概率，以及期望的生存年数。最后一段摘自方积乾主编的第二版《医学统计学与电脑试验》。如果我们能够象国外一样做大规模多中心前瞻的研究，我一定要做到最后一步。其实这个问题关键还是在你自己，就是你为何要定义分类变量如果变量是连续变量或者是具有等级关系的，那么一般是不定义为分类变量的，比如年龄，身高，体重等等。如果变量的数值之间没有等级关系，比如组别，我们用1表示A组，2表示B性，3表现C组，这个在分析的时候是需要定义为分类变量的，因为这个数值的大小是没有意义的。所以关键怎么选择，还是需要看楼主这几个变量所代表的具体意义。 COX回归时如果需要分析的自变量中为有序多分类，为保证结果的准确性，应将其指定为亚变量进行分析(严格的讲，两分类变量也应进行指定，但不指定时的分析结果是等价的)，所以您定义为categorical后的计算结果是可信的 the final multivariate Cox regression model, xx was identified as an independent prognostic factor with an adjusted hazard ratio of (95% confidence interval –”,而有的文章则是这样描述“C ox regression indicated that ING4 expression is an independent prognostic factor for overall 5-year survival (Relative risk= , 95% confidence interval = –, P = ”请问这两种描述有什么区别hazard ratio与relative risk又有什么不同谢谢大家！