logistic spss
Spss软件之logistic回归分析

…
n
0
1
Xn01
X n02
…
1
0
X n11
X n12
…
2
0
Xn21
X n22
…
Xk X 10k X 11 k X 12k
X iMk
X n0k X n1 k X n2k
M
0
XnM1
XnM2
…
X nMk
Conditional logistic regression
用Pi表示第i层在一组危险因素作用下发病的概率, 条 件 logistic 模型可表示为
n
L
1
i1 1
M
k exp
j (X itj X i0 j )
t 1
j1
可以看出,条件logistic 回归分析只估计了表示危 险因素作用的βj值,表示匹配组效应的常数项βi0 则被自动地消去了。
Conditional logistic regression
对上述条件似然函数L取自然对数后,用非线性 迭代法求出参数的估计值bi及其标准误Sbi。回归 系数的假设检验及分析方法与非条件logistic回归 完全相同。
c1 1, c0 0,
Xj
1, 暴露
0,非暴露
ORj exp( j )
Logistic regression analysis
0,
ORj
1
无作用
ORj exp( j ), j >0, ORj 1 危险因子
0, ORj 1 保护因子
二、模型的参数估计
在logistic回归模型中,回归系数的估计通常用最大 似然法(MLE)。其基本思想是先建立一个样本 的似然函数,求似然函数达到最大值时参数的取 值,即为参数的极大似然估计值。
logistic回归模型 SPSS例析

Logistic 回归Logistic 回归是多元回归分析的拓展,其因变量不是连续的变量;在logistic 分析中,因变量是分类的变量;logistic 和probit 回归皆为定性回归方程的一种;他们的特点就在于回归因变量的离散型而非连续型。
Logistic 回归又分为binary 和multinominal 两类;1、Logistic 回归原理Logistic 回归Logistic 回归模型描述的是概率P 与协变量12,.......k x x x 之间的关系,考虑到P 的取值在0----1之间,为此要首先把Plogistic 变换为()ln()1pf p p=-,使得它的取值在+∞-∞到之间,然后建立logistic 回归模型P=p(Y=1)()ln()1pf p p=-=011+......k k x x βββ++011011+......+......1k kk kx x x x e p eββββββ++++⇒=+Logistic 回归模型的数据结构观察值个数 取1的观察值个数 取0的观察值个数 协变量12,.......k x x x 的值 N1 r1 n1-ri ……………………… N2 r2 n2-r2 ………………………. . . . . . . . .Nt rt nt-rt ………………………. 根据数据,得到参数0 1....k βββ的似然函数011011011+ (1)+......+......1()()11k ki i ik k k kx x r n r t i x x x x e e eβββββββββ++-=++++∏++使用迭代算法可以求得0 1....k βββ的极大似然估计。
2、含名义数据的logistic 模型婚姻状况是名义数据,分为四种情形:未婚、有配偶、丧偶、离婚;在建立logistic 模型时,定义变量M1、M2、M3,使得(M1=1,M2=0,M3=0)表示未婚; (M1=0,M2=1,M3=0)表示有配偶 (M1=0,M2=0,M3=1)表示丧偶 (M1=-1,M2=-1,M3=-1)表示离婚 也可以将三变量定义为(M1=1,M2=0,M3=0)表示未婚; (M1=0,M2=1,M3=0)表示有配偶 (M1=0,M2=0,M3=1)表示丧偶 (M1=0,M2=0,M3=0)表示离婚 一般来说,只要矩阵[]1111122213331444a b c a b c a b c a b c非奇异,可以定义(M1=a1,M2=b1,M3=c1)表示未婚; (M1=a2,M2=b2,M3=c2)表示有配偶 (M1=a3,M2=b3,M3=c3)表示丧偶 (M1=a4,M2=b4,M3=c4)表示离婚3、含有有序数据的logistic 回归文化程度是有序的定性变量,他有一个顺序,由低到高为文盲、小学、中学、高中、中专;大学。
SPSS—二元Logistic回归结果分析

SPSS—二元Logistic回归结果分析2011-12-02 16:48身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为,标准误差为:那么wald =( B/²=² = , 跟表中的“几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^ = , 其中自由度为1, sig为,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 =x¯ = 16951 / 489 =所以:∑(Xi-x¯)² =y¯(1-y¯)= *()=则:y¯(1-y¯)* ∑(Xi-x¯)² = * = 5则:[∑Xi(yi - y¯)]^2 =所以:= / 5 = = (四舍五入)计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为,刚好跟计算结果吻合!!答案得到验证~!!!!1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和 Nagelkerke R方拟合效果都不太理想,最终理想模型也才:和,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR 方的值!提示:将Hosmer 和 Lemeshow 检验和“随机性表” 结合一起来分析1:从Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:,而临界值为:CHINV,8) =卡方统计量< 临界值,从SIG 角度来看: > , 说明模型能够很好的拟合整体,不存在显著的差异。
SPSS的Logistics回归

SPSS的Logistics回归实验⽬的学会使⽤SPSS的简单操作,Logistic回归。
实验要求使⽤SPSS。
实验内容实验步骤 (1)⼆项分类Logistic回归SPSS分析,使⽤Hosmer和Lemeshow于1989年研究低出⽣体重婴⼉的影响因素作为演⽰例⼦。
结果变量为“是否娩出低出⽣体重⼉”,考虑影响因素有8个,详见Logistics_step.sav⽂件。
本例题主要演⽰“⾃变量的筛选与逐步回归”。
操作如下:点击【分析】→【回归】→【⼆元Logistics回归】,在打开的对话框中,把待结果变量LOW选⼊【因变量】中,将变量LWT,AGE,SMOKE,PTL,HT,UI,FTV,RACE选⼊【协变量】中。
点击【分类】,把RACE选⼊【分类协变量】→【第⼀个】→【变化量】→【继续】,【块】⾥的【⽅法(M)】选【向前:LP】,【选项】→【Exp(B)的置信区间】→【继续】,单击【运⾏】。
主要分析结果如下:分类变量编码频率参数编码(1)(2)种族⽩⼈96.000.000⿊⼈26 1.000.000其他种族67.000 1.000 上表输出race在产⽣哑变量时的编码情况,以⽩⼈为参照⽔平。
未包括在⽅程中的变量得分⾃由度显著性步骤 0变量产妇体重 4.6161.032产妇年龄 2.4071.121产妇在妊娠期间是否吸烟 4.9241.026本次妊娠前早产次数7.2671.007是否患有⾼⾎压 4.3881.036应激性 4.2051.040随访次数.9341.334种族 5.0052.082种族(1) 1.7271.189种族(2) 1.7971.180总体统计29.1409.001 输出的是拟合包含常数项和任⼀⾃变量的Logistics回归模型检验统计量、⾃由度及P值。
其中race产⽣两个哑变量,因此其总⾃由度为2。
由上表可以发现,本次妊娠前早产次数(ptl)的score统计量最⼤,P=0.007,⼩于SPSS默认选⼊变量的标准(0.05)因此下⼀步将它⾸先选⼊模型。
SPSS操作方法:逻辑回归

SPSS操作方法之五SPSS操作方法:逻辑回归例证8.3: 在一次关于公共交通的社会调查中,一个调查项目是“乘公交车上下班,还是骑自行车上下班”因变量Y=1表示乘车,Y=0表示骑车。
自变量X1表示年龄;X2表示表示月收入;X3表示性别,取1时为男性,取0时为女性。
调查对象为工薪族群体。
数据见下表:试建立Y与自变量之间的Logistic回归。
逻辑回归SPSS操作方法的具体步骤:1.选择Analyze→Regreessin→Binary Logistic,打开对话框如图1所示:图1 主对话框Logistic回归。
2.选择因变量Y进入Dependent框内,将自变量选择进入Convariates框。
也可以将不同的自变量组放在不同的块(block)中,可以分析不同的自变量组对因变量的贡献。
3.在Mothed框内选择自变量的筛选策略:Enter表示强行进入法;(本例选择)Forword和Bacword都表示逐步筛选策略;Forword 为自变量逐步进入,Bacword是自变量逐步剔出。
Conditional ;LR; Wald分别表示不同的检验统计量,如Forword Wald表示自变量进入方程的依据是Wald统计量。
4.在Selection中选择一个变量作为条件变量,只有满足条件的变量数据才能参与回归分析。
5.单击Categorical打开Categorical对话框如图2所示:对定性变量的自变量选择参照类。
常用的方法是Indicator,即以某个特定的类为参照类,Last表示以最大值对应的类为参照类(系统默认),First表示以最小值对应的类为参照类。
选择后点击Continue按钮返回主对话框。
(本例不作选择性)图2 Categorical对话框6.单击Option按钮,打开Option对话框如图3所示图3:Option对话框(1)从Statistics and Plots框中选择输出图和分析结果。
Classification Plots:表示绘制因变量实际值与预测分类值的关系图(本例选择)。
无序多分类Logistic回归-SPSS教程

无序多分类Logistic回归-SPSS教程一、问题与数据为了探讨基因X突变与恶性肿瘤Y不同组织类型发生风险的关系,某医生设计了一项病例对照研究。
该医生纳入所在科室一年收治的145名该恶性肿瘤患者,并从医院体检数据库中随机选择了100名未患该肿瘤的体检者作为对照。
相关信息整理成表1:表1 各病例组织类型与突变情况变量赋值情况如表2:表2 变量及变量赋值情况二、对问题分析该研究中,“病例”与“对照”的关系不再是简单的“患病”与“不患病”,而是病例分为四类(本例中包含对照组共四类),且各类别无次序关系。
或者说,因变量Y不再是二分类的,而是无序多分类的。
通过无序多分类的Logistic回归分析可以将三种不同组织类型的病例分别与对照组进行对比,分别得到基因X 突变与三种肿瘤组织类型的暴露-风险关系。
三、SPSS操作A. 数据录入SPSS若数据格式如表1所示,则首先在SPSS变量视图(Variable View)中新建三个变量:ID代表患者编号,Y代表组织类型,X代表是否突变,赋值参考表2.然后在数据视图(Data View)中录入数据。
B. 选择Analyze →Regression →Multinomial LogisticC. 选项设置将变量Y选入因变量(Dependent)位置,变量X选入因子(Factors)位置。
如果自变量中还有连续型变量,则需要放入协变量(Covariate)位置。
由于因变量Y有多个分类,而无序多分类Logistic回归的原理是先指定一个类别为参考类别,然后将其他类别分别与参考类别对比。
故需点击Reference Category 设置参考类别(本例中作为参考类别的为对照组)。
SPSS默认选择因变量赋值中按升序排列后最后类别(即赋值最大者)为参考类别(即对照组),而本研究中参考类别Y赋值为0,故可以点击First Category 或直接在Custom中输入0,点击Continue。
SPSS有话说:二元logistic回归
如果因变量Y仅有两个类别,分别是有⽆之类的分类数据,则属于⼆元Logistic回归分析。
如果因变量Y有两个以上的类别,并且类别之间没有⾼低、顺序关系,⽐如⾎型“A型、B型、AB型和O型”,则可以使⽤多元⽆序Logistic回归分析。
如果因变量Y的类别有两个以上的类别,并且类别之间有⾼低、顺序关系,如伤痛级别“轻度、中度、重度”,则可以使⽤多元有序Logistic回归分析(⼆)选⼊相应的因变量和⾃变量,如图所⽰。
(三)单击“分类”,将各分类变量选⼊“分类协变量”框中,将参考类别选中“第⼀个”,单击“更改”。
注:在参考类别的右侧选择First(表⽰选择变量COPD中,赋值最⼩的,即“0”作为参照。
如果选择Last则表⽰以赋值最⼤的作为参照)。
(四)单击“选项”,勾选“Hosmer-Lemeshow拟合度”和“exp”(OR值),继续。
结果解释①该结果显⽰各变量的编码情况。
②模型系数的Omnibus检验表明该模型总体有意义,R平⽅值越接近1,回归模型拟合越好。
③“Hosmer-Lemeshow”检验,sig=0.443>0.05,即模型拟合优度较⾼。
④该结果显⽰,学历(P<0.01,OR=1.684)、独⽣⼦⼥(P=<0.01,OR=0.599)纳⼊模型中有统计学意义,性别(P>0.05)⽆统计学意义;常量,即截距,在模型中⽆实际意义。
根据上述的结果,研究⽣的就业意愿是本科⽣的1.684倍,⾮独⽣⼦⼥的就业意愿是独⽣⼦⼥的1.669倍(1/0.599)。
特别提⽰OR值的含义为:相对于赋值较低的研究对象,赋值较⾼的研究对象发⽣某种情况风险的多少倍。
例如,男⽣吸烟发⽣的可能性是⼥⽣的1.292倍。
对于连续型变量,如:年龄,即年龄每增加1岁,患⿐咽癌的风险增加OR倍。
(完整版)spss的logistic分析教程
Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。
还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。
二值logistic回归:选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。
有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。
把你的自变量选到协变量的框框里边。
细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。
我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。
那么我们为了模型的准确,就把这个交互效应也选到模型里去。
我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。
然后在下边有一个方法的下拉菜单。
默认的是进入,就是强迫所有选择的变量都进入到模型里边。
除去进入法以外,还有三种向前法,三种向后法。
一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。
再下边的选择变量则是用来选择你的个案的。
一般也不用管它。
选好主面板以后,单击分类(右上角),打开分类对话框。
在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。
你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。
SPSS—回归—二元Logistic回归案例分析
SPSS—回归—⼆元Logistic回归案例分析数据分析真不是⼀门省油的灯,搞的⼈晕头转向,⽽且涉及到很多复杂的计算,还是书读少了,⼩学毕业的我,真是死了不少脑细胞,学习⼆元Logistic回归有⼀段时间了,今天跟⼤家分享⼀下学习⼼得,希望多指教!⼆元Logistic,从字⾯上其实就可以理解⼤概是什么意思,Logistic中⽂意思为“逻辑”但是这⾥,并不是逻辑的意思,⽽是通过logit变换来命名的,⼆元⼀般指“两种可能性”就好⽐逻辑中的“是”或者“否”⼀样,Logistic 回归模型的假设检验——常⽤的检验⽅法有似然⽐检验(likelihood ratio test)和 Wald检验)似然⽐检验的具体步骤如下:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL02:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InL13:最后⽐较两个对数似然函数值的差异,若两个模型分别包含l个⾃变量和P个⾃变量,记似然⽐统计量G的计算公式为 G=2(InLP - InLl). 在零假设成⽴的条件下,当样本含量n较⼤时,G统计量近似服从⾃由度为 V = P-l 的 x平⽅分布,如果只是对⼀个回归系数(或⼀个⾃变量)进⾏检验,则 v=1.wald 检验,⽤u检验或者X平⽅检验,推断各参数βj是否为0,其中u= bj / Sbj, X的平⽅=(bj / Sbj), Sbj 为回归系数的标准误这⾥的“⼆元”主要针对“因变量”所以跟“曲线估计”⾥⾯的Logistic曲线模型不⼀样,⼆元logistic回归是指因变量为⼆分类变量是的回归分析,对于这种回归模型,⽬标概率的取值会在(0-1),但是回归⽅程的因变量取值却落在实数集当中,这个是不能够接受的,所以,可以先将⽬标概率做Logit变换,这样它的取值区间变成了整个实数集,再做回归分析就不会有问题了,采⽤这种处理⽅法的回归分析,就是Logistic 回归设因变量为y, 其中“1” 代表事件发⽣, “0”代表事件未发⽣,影响y的 n个⾃变量分别为 x1, x2 ,x3 xn等等记事件发⽣的条件概率为 P那么P= 事件未发⽣的概理为 1-P事件发⽣跟”未发⽣的概率⽐为( p / 1-p ) 事件发⽣⽐,记住Odds将Odds做对数转换,即可得到Logistic回归模型的线性模型:还是以教程“blankloan.sav"数据为例,研究银⾏客户贷款是否违约(拖⽋)的问题,数据如下所⽰:上⾯的数据是⼤约700个申请贷款的客户,我们需要进⾏随机抽样,来进⾏⼆元Logistic回归分析,上图中的“0”表⽰没有拖⽋贷款,“1”表⽰拖⽋贷款,接下来,步骤如下:1:设置随机抽样的随机种⼦,如下图所⽰:选择“设置起点”选择“固定值”即可,本⼈感觉200万的容量已经⾜够了,就采⽤的默认值,点击确定,返回原界⾯、2:进⾏“转换”—计算变量“⽣成⼀个变量(validate),进⼊如下界⾯:在数字表达式中,输⼊公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0"为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置⼀个“选择条件”点击“如果”按钮,进⼊如下界⾯:如果“违约”变量中,确实存在缺失值,那么当使⽤"missing”函数的时候,它的返回值应该为“1”或者为“true",为了剔除”缺失值“所以,结果必须等于“0“ 也就是不存在缺失值的现象点击 ”继续“按钮,返回原界⾯,如下所⽰:将是“是否曾经违约”作为“因变量”拖⼊因变量选框,分别将其他8个变量拖⼊“协变量”选框内,在⽅法中,选择:forward.LR⽅法将⽣成的新变量“validate" 拖⼊"选择变量“框内,并点击”规则“设置相应的规则内容,如下所⽰:设置validate 值为1,此处我们只将取值为1的记录纳⼊模型建⽴过程,其它值(例如:0)将⽤来做结论的验证或者预测分析,当然你可以反推,采⽤0作为取值记录点击继续,返回,再点击“分类”按钮,进⼊如下页⾯在所有的8个⾃变量中,只有“教育⽔平”这个变量能够作为“分类协变量” 因为其它变量都没有做分类,本例中,教育⽔平分为:初中,⾼中,⼤专,本科,研究⽣等等, 参考类别选择:“最后⼀个” 在对⽐中选择“指⽰符” 点击继续按钮,返回再点击—“保存”按钮,进⼊界⾯:在“预测值"中选择”概率,在“影响”中选择“Cook距离” 在“残差”中选择“学⽣化”点击继续,返回,再点击“选项”按钮,进⼊如下界⾯:分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别⽤值“1“和“0”代替,在“分类变量编码”中教育⽔平分为5类,如果选中“为完成⾼中,⾼中,⼤专,⼤学等,其中的任何⼀个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究⽣“ 频率分别代表了处在某个教育⽔平的个数,总和应该为 489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“⽅程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029⼏乎接近,是因为我对数据进⾏的向下舍⼊的关系,所以数据会稍微偏⼩,B和Exp(B) 是对数关系,将B进⾏对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中⾃由度为1, sig为0.000,⾮常显著1:从“不在⽅程中的变量”可以看出,最初模型,只有“常数项”被纳⼊了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, ⽽其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了⼀个平⽅)下⾯来举例说明这个计算过程:(“年龄”⾃变量的得分为例)从“分类表”中可以看出:有129⼈违约,违约记为“1” 则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 = 0.2638036809816x¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216则:y¯(1-y¯)* ∑(Xi-x¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五⼊)计算过程采⽤的是在 EXCEL ⾥⾯计算出来的,截图如下所⽰:从“不在⽅程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~1:从“块1” 中可以看出:采⽤的是:向前步进的⽅法,在“模型系数的综合检验”表中可以看出:所有的SIG ⼏乎都为“0” ⽽且随着模型的逐渐步进,卡⽅值越来越⼤,说明模型越来越显著,在第4步后,终⽌,根据设定的显著性值和⾃由度,可以算出卡⽅临界值,公式为:=CHIINV(显著性值,⾃由度) ,放⼊excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR⽅和 Nagelkerke R⽅拟合效果都不太理想,最终理想模型也才:0.305 和 0.446,最⼤似然平⽅的对数值都⽐较⼤,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR⽅的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含⾃变量的检验)再根据公式:即可算出:Cox&SnellR⽅的值!提⽰:将Hosmer 和 Lemeshow 检验和“随机性表” 结合⼀起来分析1:从 Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡⽅统计量为:11.919,⽽临界值为:CHINV(0.05,8) =15.507卡⽅统计量< 临界值,从SIG ⾓度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。
SPSSLogistic回归
Logistic回归模型
e P= β 0 + β1 x1 + β 2 x2 +⋅⋅⋅+ β p x p 1+ e 或 1 1-P = β 0 + β1 x1 + β 2 x2 +⋅⋅⋅+ β p x p 1+ e
β 0 + β1 x1 + β 2 x2 +⋅⋅⋅+ β p x p
Logistic回归模型
χ
2 m
模型的拟和评价
• 拟合分类表(Classification Table) Logistic回归模型,对样本重新判别分类,大于 0.5得病,小于0.5不得病。一部分人被错判,算 一致率或错判率。 符合率越高,模型拟合越好。 • 最大似然函数值L。 L 越接近1越好。 SPSS提供了-2ln(L),此值越小(越接近0),越 好。 • 注意:Logistic回归用于判别分类比较粗劣。
ห้องสมุดไป่ตู้
关于自变量
• 可以为分类变量,也可以为连续变量。 • 自变量为二分类变量时,可以当作连续变 量赋值(常用0、1或者1、2赋值),也可 以通过“categorical”来指定哑变量。 • 多分类无序变量需通过“categorical”来指 定哑变量。不必自己拆分。 • 有序分类资料(等级资料),哑变量方式 赋值或连续性变量赋值。
logistic回归北大医学部流行病学与统计学系logistic回归常用于探讨疾病的危险因素应用广泛尤其在流行病学研究主要用于因素分析暴露与疾病之间的关系多因素分析可以控制混杂其次用于判别分析
Logistic回归
北大医学部流行病学与统计学系 李凯
• logistic回归常用于探讨疾病的危险因 素,应用广泛,尤其在流行病学研究 中。 • 主要用于因素分析,暴露与疾病之间 的关系,多因素分析可以控制混杂, 其次用于判别分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类资料的回归分析------Logistic回归 例1 在一次关于公共交通的社会调查中,一个调查项目为“是坐公交车上下班还是骑自行车上下班”。因变量1y表示主要乘坐公交车上下班,0y表示主要
骑自行车上下班。自变量1x是年龄;2x是月收入;3x是性别,31x表示男性,
30x表示女性。调查对象为工薪群体,数据如下表,建立y与自变量间的回归。 序号 1x 2x(元) 3x y 序号 1x
2x 3x
y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 18 21 23 23 28 31 36 42 46 48 55 56 58 18 850 1200 850 950 1200 850 1500 1000 950 1200 1800 2100 1800 850 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 1 1 1 0 1 1 0 0 15 16 17 18 19 20 21 22 23 24 25 26 27 28 20 25 27 28 30 32 33 33 38 41 45 48 52 56 1000 1200 1300 1500 950 1000 1800 1000 1200 1500 1800 1000 1500 1800 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 1 0 0 0 0 0 1 0 1 1 1.模型建立
理论回归模型:011223ln,1ppxxxp其中13(1,...,)ppyxx。
获得容量为n的样本123,,,,1,...,iiiixxxyin后可得样本回归模型: 011223ln,1iiipii
pxxxp
其中13(1,...,)iippyxx,1,...,in。
一般情况:01122ln...,1pppxxxp其中1(1,...,)pppyxx。 2.参数估计 极大似然估计或者加权最小二乘估计
3.系数解释 从数学上来讲,与多重线形回归模型中系数的解释并无不同,即i表示ix改变一
个单位时ln1pp的改变量。在实际中此改变量表示什么含义?请看例2。 例2 本例是探讨妇女使用雌激素与患子宫内膜癌的研究资料。 使用 未使用 患病 未患病 55 128
19 164
资料的计算机输入格式 结果变量(因变量)Y 暴露因素x(自变量) 频数 1 1 55 0 1 19 1 0 128 0 0 164
模型: 011ln,1pxp Logistic回归结果 变量 估计系数 标准误差SE z P OR 95%CI x 1.3107 0.2911 4.503 0.000 3.7089 2.0964—6.5615
常数项 -0.2478 0.1179 -2.101 0.036
优势odds:1pp 表示某个事件的相对危险度 0x时:
1x时: 回归模型中的系数与有时比有极为密切的关系,同时与自变量的量化方法密切相关。 4.补充说明 (1)关于自变量类型 自变量的常见类型:连续型变量、二水平的分类变量、多水平的分类变量、等级变量。 多水平的分类变量:例如个体的血型、民族、职业、工种等等 如何处理? 产生哑变量,所谓哑变量就是一组取值1和0的二值分类变量,用来表示一个分类变量。 例 为了了解冠心病与种族的关系,某研究所调查了100个个体,数据如下表。试估计各种族间患冠心病的相对危险度。(logistic3) 冠心病 黑人 白人 其他种族 1 0 20 10 5 20 25 20
等级变量:如文化程度 如何处理?一般以最小等级或最大等级为参考组,并按等级顺序依次取为0,1,2... 例如 对于变量年龄,令 25-34=0; 35-44=1;45-54=2;55-64=3;65-74=4;75+=5 (2) 多类结果的logistic回归、有序结果的累积优势logistic回归、有序结果的相邻优势logistic回归。 5. Spss实现: 例1 (1)录入数据 点击variable view定义变量名;点击data view 输入数据(按行输入 一个数据一行);点击file-save或save as 保存数据 (2)分析 Analyze--Regression----Binary Logistic 主对话框界面说明: Dependent 框 : 用于选入二分类的应变量,只能选入一个。 Block按钮组:由previous 和 next两个按钮组成,用于将下面的covariates框中选入的自变量分组。 Covariates框:用于选入自,左侧的>a*b>钮用于选入交互作用项。 Method框:用于选择变量进入方法,有进入法、逐步法和后退法三大类。 其中Enter:进入法,所有变量一次全部进入方程。 Forward:逐步向前法 Backward:后退法
Categorial 子对话框界面说明: 如果自变量为多分类变量(血型),那么就需要产生哑变量,如果变量分为k类,则系统自动产生k-1个哑变量,Categorial 子对话框就是用于设置各哑变量的取值方式的。 Covariates框:列出所有数值型自变量,他们均可被指定为分类变量。 Categorical covariates框:用于选入分类变量 Change contrast框组:设置每个变量的哑变量组中的具体取值和对照组。Contrast 下拉列表用于选择哑变量取值情况,默认indicator ,refrence category单选框组用于设置第一水平或最后一个水平为对照。若以最后一分类为对照,当分类变量取1(黑人)时,哑变量赋值1 0;当分类变量取2(白人)时,哑变量赋值0 1;当分类变量取3(其他种族)时,哑变量赋值0 0。
Save 子对话框界面说明: 将中间结果保存下来供以后分析,共有预测值、影响强度因子和残差三大类。 Predicted框:将预测结果作为新变量保存到数据窗口。 其中probabilities:预测概率值; Group membership:根据预测概率值判定所属类别。 Influnence 复选框组:反映影响强度的变量,共有三个。 Residuals复选框组:保存各种残差值。
Options 子对话框界面说明:略 (3)保存结果 File---export
(4)结果分析 Logistic Regression 数据处理情况汇总,包括多少记录纳入分析,多少例缺失。
Case Processing Summary Unweighted Casesa N Percent Selected Cases Included in Analysis 366 100.0 Missing Cases 0 .0 Total 366 100.0 Unselected Cases 0 .0 Total 366 100.0 a. If weight is in effect, see classification table for the total number of cases.
应变量赋值情况,默认以)1(YP建立模型。 Dependent Variable Encoding Original Value Internal Value 不患病 0 患病 1
现在开始进行模型拟合,首先给出的是模型不含任何自变量,而只有常数项是
的模型。第一张表(Block 0: Beginning Block)输出预测分类结果,可见当模型中不含任何自变量时,所有观察对象皆被预测为不患病,总的预测准确率为50.3%。
Block 0: Beginning Block Classification Tablea,b Observed Predicted y Percentage Correct 不患病 患病 Step 0 y 不患病 184 0 100.0 患病 182 0 .0 Overall Percentage 50.3 a. Constant is included in the model. b. The cut value is .500
第二张表(Variables in the Equation)给出的是模型中各参数的检验结果,此处只有常数项,系数为-0.011,由于是常数项,有无统计学意义关系不大。 Variables in the Equation B S.E. Wald df Sig. Exp(B) Step 0 Constant -.011 .105 .011 1 .917 .989
第三张表(Variables not in the Equation)的输出结果反映的是如果将现有模型外的各个变量纳入模型,则整个模型的拟合优度改变是否有统计学意义。结果显示若将x引入,则模型改变有统计意义(score=21.443, P<0.05)。 Variables not in the Equation Score df Sig. Step 0 Variables x 21.443 1 .000 Overall Statistics 21.443 1 .000
Block 1 开始输出模型中引入自变量后的结果。Method=enter 说明在该