二分类Logistic回归的详细SPSS操作

合集下载

二水平二分类logistic回归分析步骤

二水平二分类Logistic回归分析步骤数据库：health.sav，因变量：两周患病率；自变量：性别、年龄分组1、所有分类变量由“度量”转换为“名义”2、选择分析命令3、在“数据结构”界面将“family标识”（水平2）和“水平1标识”先后拖拽到“主体”处4、在“字段与效应”的“目标”里，选择“两周患病率”，同时勾选“二元logistic回归”5、“固定效应你”中将字段框中的“性别”和“年龄分组”拖拽至右框“效应构建器”，其中“截距”为默认状态6、“随机效应”中自动将family（水平2）纳入随机效应块中7、点击“运行”按钮，可见结果8、双击激活，进入模型浏览器，可查看详细结果第一个结果——模型摘要，似然比值。

对照于老师PPT看，第一个值为AIC，第二个值为BIC。

如果有英文版的SPSS，可以对应着看看。

第四个结果——固定效应，默认为“图表”，在左下角选择“表”，即可出现固定效应模型F 检验及显著性水平第五个结果——固定系数，默认为图表，在左下角选择表，出现表格形式结果，再点击左下角的“指数”及表格中的“系数”，即可出现我们喜闻乐见的结果式样。

从结果来看，年龄与患病率有显著关联，即以agegroup=2为参照水平，年龄越小，危险性越大，与从卡方检验相反。

仔细再看，患病率的参考类别为yes，与我们日常设置的正好相反。

此时，则需要在“构建选项”中将“分类目标的排列顺序”和“预测变量的排列顺序”均改为“降序”，则结果显示患病率的参考类别为no，且年龄与患病率的关联与卡方检验结果一致。

因变量的参考值亦可在“目标”下的“更多”中选择“自定义参考”，点击“no”作为参考类别。

第七个结果——随机效应的协方差参数，默认为残差，点击左下角块1，即可出现水平2（family）方差分析的估计值及检验结果。

0、空模型：判断水平2是否有聚集性，步骤同前，不同的是在固定模型处不添加任何自变量。

点开第7个结果，可见方差及显著性水平，P<0.001，患病率在水平2上存在聚集性，因此需要多二水平的logistic 回归分析。

SPSS的Logistics回归

SPSS的Logistics回归实验⽬的学会使⽤SPSS的简单操作，Logistic回归。

实验要求使⽤SPSS。

实验内容实验步骤（1）⼆项分类Logistic回归SPSS分析，使⽤Hosmer和Lemeshow于1989年研究低出⽣体重婴⼉的影响因素作为演⽰例⼦。

结果变量为“是否娩出低出⽣体重⼉”，考虑影响因素有8个，详见Logistics_step.sav⽂件。

本例题主要演⽰“⾃变量的筛选与逐步回归”。

操作如下：点击【分析】→【回归】→【⼆元Logistics回归】，在打开的对话框中，把待结果变量LOW选⼊【因变量】中，将变量LWT,AGE,SMOKE,PTL,HT,UI,FTV,RACE选⼊【协变量】中。

点击【分类】，把RACE选⼊【分类协变量】→【第⼀个】→【变化量】→【继续】，【块】⾥的【⽅法（M）】选【向前：LP】，【选项】→【Exp（B）的置信区间】→【继续】，单击【运⾏】。

主要分析结果如下：分类变量编码频率参数编码(1)(2)种族⽩⼈96.000.000⿊⼈26 1.000.000其他种族67.000 1.000 上表输出race在产⽣哑变量时的编码情况，以⽩⼈为参照⽔平。

未包括在⽅程中的变量得分⾃由度显著性步骤 0变量产妇体重 4.6161.032产妇年龄 2.4071.121产妇在妊娠期间是否吸烟 4.9241.026本次妊娠前早产次数7.2671.007是否患有⾼⾎压 4.3881.036应激性 4.2051.040随访次数.9341.334种族 5.0052.082种族(1) 1.7271.189种族(2) 1.7971.180总体统计29.1409.001 输出的是拟合包含常数项和任⼀⾃变量的Logistics回归模型检验统计量、⾃由度及P值。

其中race产⽣两个哑变量，因此其总⾃由度为2。

由上表可以发现，本次妊娠前早产次数（ptl）的score统计量最⼤，P=0.007，⼩于SPSS默认选⼊变量的标准（0.05）因此下⼀步将它⾸先选⼊模型。

二分类Logistic回归的详细SPSS操作.pdf

二分类Logistic回归的详细SPSS操作.pdf二分类指的是因变量的数据只有两个值，代表事物的两种类别，典型的二分类变量如性别、是否患病等。

因变量为二分变量原则上是无法做回归的，在回归方程中的因变量实质上是概率，而不是变量本身。

在理解二分类变量以后，我们看看如何做二分类变量的logistic 回归。

打开数据以后，菜单栏上依次点击：analyse--regression--binary logistic，打开二分回归对话框将因变量和自变量放入格子的列表里，如图所示，上面的是因变量，下面的是自变量，我们看到这里有三个自变量设置回归方法，这里选择最简单的方法：enter，它指的是将所有的变量一次纳入到方程。

其他方法都是逐步进入的方法，在前面的文章中有介绍，这里就不再熬述。

点击ok，开始处理数据并检验回归方程，等待一会就会弹出数据结果窗口看到的第一个结果是对case的描述，第一个列表告诉你有多少数据参与的计算，有多少数据是缺省值；第二个列表告诉你因变量的编码方式，得分为1代表患病，得分为0代表没有患病这个列表告诉你在没有任何自变量进入以前，预测所有的case 都是患病的正确率，正确率为%52.6下面这个列表告诉你在没有任何自变量进入以前，常数项的预测情况。

B是没有引入自变量时常数项的估计值，SE它的标准误，Wald 是对总体回归系数是否为0进行统计学检验的卡方。

下面这个表格结果，通过sig值可以知道如果将模型外的各个变量纳入模型，则整个模型的拟合优度改变是否有统计学意义。

sig 值小于0.05说明有统计学意义这个表格是对模型的全局检验，为似然比检验，供给出三个结果：同样sig值<0.05表明有统计学意义。

下面的结果展示了-2log似然值和两个伪决定系数。

两个伪决定系数反应的是自变量解释了因变量的变异占因变量的总变异的比例。

他们俩的值不同因为使用的方法不同。

分类表，这里展示了使用该回归方程对case进行分类，其准确度为%71.8。

SPSS实验8-二项Logistic回归分析

SPSS作业8：二项Logistic回归分析为研究和预测某商品消费特点和趋势，收集到以往胡消费数据.数据项包括是否购买，性别,年龄和收入水平。

这里采用Logistic回归的方法，是否购买作为被解释变量（0/1二值变量）,其余各变量为解释变量，且其中性别和收入水平为品质变量，年龄为定距变量。

变量选择采用Enter方法，性别以男为参照类，收入以低收入为参照类。

（一）基本操作：（1)选择菜单Analyz e－Regression－Binary Logistic；（2)选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Enter方法，结果如下：消费的二项Logistic分析结果（一）（强制进入策略）Categorical Variables CodingsFrequency Parameter coding （1) (2)收入低收入132 .000 .000中收入144 1.000 。

000高收入155 。

000 1。

000性别男191 。

000女240 1.000分析：上表显示了对品质变量产生虚拟变量的情况，产生的虚拟变量命名为原变量名（编码)。

可以看到，对收入生成了两个虚拟变量名为Income（1）和Income（2），分别表示是否中收入和是否高收入，两变量均为0时表示低收入；对性别生成了一个虚拟变量名为Gedder（1），表示是否女，取值为0时表示为男。

消费的二项Logistic 分析结果（二）（强制进入策略）Block 0: Beginning BlockClassification Table a,bObserved Predicted是否购买 Percentage Correct不购买购买Step 0是否购买不购买 269 0 100。

购买162。

0 Overall Percentage62。

4a 。

Constant is included in the model 。

利用 SPSS 进行 Logistic 回归分析简要步骤

利用SPSS 进行Logistic 回归分析简要步骤
现实中的很多现象可以划分为两种可能，或者归结为两种状态，这两种状态分别用0
和1 表示。

如果我们采用多个因素对0－1 表示的某种现象进行因果关系解释，就可能应用到logistic 回归。

Logistic 回归分为二值logistic 回归和多值logistic 回归两类.
第一步：整理原始数据。

数据整理内容包括两个方面：一
是对各地区按照三大地带的分类结果赋值，用0、1 表示，二是将城镇人口比重转换逻辑值，变量名称为“城市化”。

第二步：打开“聚类分析”对话框。

沿着主菜单的“Analyze→Regression→Binary Logistic
K
”的路径（图8-1-3）打开二值
Logistic 回归分析选项框.
第三步：选项设置。

首先，在源变量框中选中需要进行分析的变量，点击右边的箭头符号，将需要的变量调
入Dependent（因变量）和Covariates（协变量）列表框中（图8-1-5）。

在本例中，将名义变
量“城市化”调入Dependent（因变量）列表框，将“人均GDP”和“中部”调入Covariates （协变量）列表框中。

在Method（方法）一栏有七个选项。

采用第一种方法，即系统默认的强迫回归方法（Enter）。

接下来进行如下4 项设置：
⒈设置Categorical（分类）选项：定义分类变量.
⒉设置Save（保存）选项,
⒊设置Options
第四步,结果解读.。

因变量二分类资料的logistic回归

因变量二分类资料的logistic回归▪个概念：RR和OR▪二分类资料的logistic回归SPSS操作示例▪几个需要注意的问题：样本量、哑变量、模型拟合效果和拟合优度检验、多重共线【1】两个概念RR（Relative Risk）：相对危险度，也称危险比（Risk Ratio）或率比（Rate Ratio），在前瞻性研究中用以表示暴露与疾病发生的关联强度，说明暴露组发病危险是非暴露组发病危险的多少倍，是两组发病率之比，计算公式为：OR（Odds Ration）：比值比，优势比，比数比。

在病例对照研究中说明暴露与疾病的关联强度，它是患病组中暴露率P1与非暴露率（1-P1）之比与对照组中暴露率P2与非暴露率（1-P2）之比的比值。

可以进一步简化成为病例组中暴露数与非暴露数之比与对照组中暴露数与非暴露数之比的比值。

比值（odd）表示发生的可能性与不发行的可能性之比，odds1=P1/（1-P1），odds2=P2/（1-P2）。

OR=odds1/odds2=ad/bc在logistic回归中，各自变量的回归系数βi表示自变量Xi每改变一个单位，比值比的自然对数值该变量，而exp(βi)即OR，表示自变量Xi每改变一个单位，阳性结果出现概率与不出现概率之比是变化前相应比值的倍数，即优势比。

当阳性结果出现概率较小时（一般小于0.05）或者较大时（大于0.95），OR=（P1/（1-P1））/（P2/(1-P2)）≈P1/P2=RR【2】二分类资料的logistic回归SPSS操作示例适用条件：①因变量为二分类变量，自变量可以是连续变量也可以是分类变量；②各观测间相互独立；③自变量与因变量logit（P）之间存在线性关系；④自变量间不存在多重共线；⑤尽量避免异常值，残差服从二项分布合计为零；⑥研究对象无论是病例组还是对照组，样本量至少是需要分析的自变量个数的10倍，多分类自变量的哑变量的参照水平频数至少为30。

利用SPSS进行logistic回归分析(二元、多项)

线性回归是很重要的一种回归方法，但是线性回归只适用于因变量为连续型变量的情况，那如果因变量为分类变量呢？比方说我们想预测某个病人会不会痊愈，顾客会不会购买产品，等等，这时候我们就要用到logistic回归分析了。

Logistic回归主要分为三类，一种是因变量为二分类得logistic回归，这种回归叫做二项logistic回归，一种是因变量为无序多分类得logistic回归，比如倾向于选择哪种产品，这种回归叫做多项logistic回归。

还有一种是因变量为有序多分类的logistic回归，比如病重的程度是高，中，低呀等等，这种回归也叫累积logistic回归，或者序次logistic回归。

二值logistic回归：选择分析——回归——二元logistic，打开主面板，因变量勾选你的二分类变量，这个没有什么疑问，然后看下边写着一个协变量。

有没有很奇怪什么叫做协变量？在二元logistic回归里边可以认为协变量类似于自变量，或者就是自变量。

把你的自变量选到协变量的框框里边。

细心的朋友会发现，在指向协变量的那个箭头下边，还有一个小小的按钮，标着a*b，这个按钮的作用是用来选择交互项的。

我们知道，有时候两个变量合在一起会产生新的效应，比如年龄和结婚次数综合在一起，会对健康程度有一个新的影响，这时候，我们就认为两者有交互效应。

那么我们为了模型的准确，就把这个交互效应也选到模型里去。

我们在右边的那个框框里选择变量a，按住ctrl，在选择变量b，那么我们就同时选住这两个变量了，然后点那个a*b的按钮，这样，一个新的名字很长的变量就出现在协变量的框框里了，就是我们的交互作用的变量。

然后在下边有一个方法的下拉菜单。

默认的是进入，就是强迫所有选择的变量都进入到模型里边。

除去进入法以外，还有三种向前法，三种向后法。

一般默认进入就可以了，如果做出来的模型有变量的p值不合格，就用其他方法在做。

再下边的选择变量则是用来选择你的个案的。

SPSS二项Logistic回归综述

b. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.
从上表中可知，-2倍的对上似然函数值较高；Cox & Snell R2和 Nagelkerke R2的值均接近0，说明模型的拟合优度较低。
➢ 基本操作：
选择分析（analyze）--回归（regression）--二元Logistic回归
被解释变量的选择
解释变量的选择
选择解释变量的筛选策略
条件变量的选择，只有满足条件变量值的样本才参与回归分析
选择解释变量的筛选策略（1）进入（enter）：表示解释变量全部强行进入模型；（2）向前：条件（forward: conditional）表示向前筛选变量且变量进入模型的依据是比分检验统计量，剔除出模型的依据是条件参数估计原则下的似然率卡方（首选选择使变化量变化最小的解释变量剔除出模型）；（3）向前：LR（forward: LR）表示向前筛选变量且变量进入模型的依据是比分检验统计量，剔除出模型的依据是极大似然估计原则下的似然比卡方；（4）向后：条件（backward: conditional）表示向后筛选变量且变量剔除出模型的依据是条件参数估计原则下的似然比卡方；（5）向后：LR（ backward : LR）表示向后筛选变量且变量剔除出模型的依据是极大似然估计原则下的似然比卡方；（6）向后：Wald（ backward : Wald）表示向后筛选变量且变量剔除出模型的依据是wald统计量；
➢上表中step行是本步与前一步相比的似然比卡方；Block行是本块与前一块相比的似然比卡方；Model行是本模型与前一模型相比的似然比卡方。 ➢本例中没有设置解释变量块且解释变量是一次性强制进入，所以三行结果相同。 ➢模型显著性检验的零假设：各回归系数同时为0，解释变量全体与logit P的线性关系不显著；备择假设：·······。如果显著性水平为0.05，因为概率P值0.001 小于0.05，应拒绝零假设，认为‘所有回归系数不同时为0，解释变量全体与 Logit P之间的关系显著，采用该模型是合理的’。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

SPSS操作：二分类Logistic回归作者：张耀文1、问题与数据某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系，开展了一项成组设计的病例对照研究。

选择该科室内肺癌患者为病例组，选择医院内其它科室的非肺癌患者为对照组。

通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息：性别、年龄、BMI、COPD病史和是否吸烟。

变量的赋值和部分原始数据见表1和表2。

该医生应该如何分析？表1. 肺癌危险因素分析研究的变量与赋值表2. 部分原始数据ID gender age BMI COPD smoke cancer1 0 34 0 1 1 02 1 32 0 1 0 13 0 27 0 1 1 14 1 28 0 1 1 05 1 29 0 1 0 06 0 60 0 2 0 07 1 29 0 0 1 18 1 29 1 1 1 19 1 37 0 1 0 010 0 17 0 0 0 011 0 20 0 0 1 112 1 35 0 0 0 013 0 17 1 0 1 1…………………2、对数据结构的分析该设计中，因变量为二分类，自变量（病例对照研究中称为暴露因素）有二分类变量（性别、BMI和是否吸烟）、连续变量（年龄）和有序多分类变量（COPD 病史）。

要探讨二分类因变量与自变量之间的关系，应采用二分类Logistic回归模型进行分析。

在进行二分类Logistic回归（包括其它Logistic回归）分析前，如果样本不多而变量较多，建议先通过单变量分析（t检验、卡方检验等）考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。

即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。

本例中单变量分析的结果见表3（常作为研究报告或论文中的表1）。

表3. 病例组和对照组暴露因素的单因素比较病例组（n=85）对照组(n=259) χ2 /t统计量P性别，男（%）56 (65.9) 126 (48.6) 7.629 <0.01年龄（岁），x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI，n (%)正常48 (56.5) 137 (52.9) 0.329 0.57超重或肥胖37 (43.5) 122 (47.1)COPD病史，n (%)无21 (24.7) 114 (44.0) 14.123 <0.01轻中度24 (28.2) 75 (29.0)重度40 (47.1) 70 (27.0)是否吸烟，n(%)否18 (21.2) 106 (40.9) 10.829 <0.01是67 (78.8) 153 (59.1)单因素分析中，病例组和对照组之间的差异有统计学意义的自变量包括：性别、COPD病史和是否吸烟。

此时，应当考虑应该将哪些自变量纳入Logistic回归模型。

一般情况下，建议纳入的变量有：1）单因素分析差异有统计学意义的变量（此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素）；2）单因素分析时，没有发现差异有统计学意义，但是临床上认为与因变量关系密切的自变量。

本研究中，年龄和BMI与因变量没有统计学关联。

但是，临床认为年龄也是肺癌发生的可能危险因素，因此Logistic回归模型中，纳入以下自变量：性别、年龄、COPD病史和是否吸烟。

此外，对于连续变量，如果仅仅是为了调整该变量带来的混杂（不关心该变量的OR值），则可以直接将改变量纳入Logistic回归模型；如果关心该变量对因变量的影响程度（关心该变量的OR值），一般不直接将该连续变量纳入模型，而是将连续变量转化为有序多分类变量后纳入模型。

这是因为，在Logistic回归中直接纳入连续变量，那么对于该变量的OR值的意义为：该变量每升高一个单位，发生结局事件的风险变化（比如年龄每增加1岁，患肺癌的风险增加1.02倍）。

这种解释在临床上大多数是没有意义的。

3、SPSS分析方法（1）数据录入SPSS（2）选择Analyze→Regression→Binary Logistic（3）选项设置1）主对话框设置：将因变量cancer送入Dependent框中，将纳入模型的自变量sex, age, BMI和COPD变量Covariates中。

本研究中，纳入age变量仅仅是为了调整该变量带来的混杂（不关心该变量的OR值），因此将age直接将改变量纳入Logistic回归模型。

对于自变量筛选的方法（Method对话框），SPSS提供了7种选择，使用各种方法的结果略有不同，读者可相互印证。

各种方法之间的差别在于变量筛选方法不同，其中Forward: LR法（基于最大似然估计的向前逐步回归法）的结果相对可靠，但最终模型的选择还需要获得专业理论的支持。

2）Categorical设置：该选项可将多分类变量（包括有序多分类和无序多分类）变换成哑变量，指定某一分类为参照。

本研究中，COPD是多分类变量，我们指定“无COPD病史”的研究对象为参照组，分别比较“轻/中度”和“重度”组相对于参照组患肺癌的风险变化。

点击Categorical→将左侧Covariates中的COPD变量送入右侧Categorical Covariates中。

点击Contrast右侧下拉菜单，选择Indicator（该下拉菜单内的选项是几种与参照比较的方式，Indicator方式最常用，其比较方法为：第一类或最后一类为参照类，每一类与参照类比较）。

在Reference Category的右侧选择First（表示选择变量COPD中，赋值最小的，即“0”作为参照。

如果选择Last则表示以赋值最大的作为参照）→点击Change→点击Continue。

3）Options设置中，勾选如下选项及其意义：Hosmer-Lemeshow goodness-of-fit：检验模型的拟合优度；CI for exp(B)：结果给出OR值的95%可信区间；Display→At last step：仅展示变量筛选的最后一步结果。

→Continue→回到主界面→OK4、结果解读Logistic回归的结果给出了很多表格，我们仅需要重点关注三个表格。

（1）Omnibus Tests of Model Coefficients：模型系数的综合检验。

其中Model 一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果。

P<0.05表示本次拟合的模型中，纳入的变量中，至少有一个变量的OR值有统计学意义，即模型总体有意义。

（2）Hosmer and Lemeshow Test：是检验模型的拟合优度。

当P值不小于检验水准时（即P>0.05），认为当前数据中的信息已经被充分提取，模型拟合优度较高。

（3）Variables in the Equation：1）由于本次统计过程中筛选变量的方式是Forward: LR法，因此Variables in the Equation表格中列出了最终筛选进入模型的变量和其参数。

其中Sig.一列表示相应变量在模型中的P值，Exp (B)和95% CI for EXP (B)表示相应变量的OR值和其95%可信区间。

对于sex, smoke这两个二分类变量，OR值的含义为：相对于赋值较低的研究对象（sex赋值为“0”的为女性；smoke赋值为“0”的为不吸烟），赋值较高的研究对象（男性、吸烟者）发生肺癌的风险为是多少（2.308倍、3.446倍）。

2）对于多分类变量COPD，设置中以“0”组作为参照，则得到的结果是“1”组、“2”组分别对应于“0”组的OR值。

在Logistic回归中，设置过哑变量的多分类变量是同进同出的，即只要有一组相对于参照组的OR值有统计学意义，则该变量的全部分组均纳入模型。

COPD变量的第一行没有OR值，其P值代表该变量总体检验的差异有统计学意义（即至少有一组相对于参照组的OR值有统计学意义）。

3）本研究中的COPD变量以“0”组作为参照，因此COPD (1)行的参数中给出了“1”相对于“0”组的OR值和P值，而在COPD (2)行的参数中给出了“2”组相对于“0”组的OR值和P值。

4）Constant为回归方程的截距，在模型中一般没有实际意义，大家可不必关注。

5、撰写结论本研究发现，85例肺癌患者中，吸烟者67例（78.8%）；259例非肺癌患者中，吸烟者153例（59.1%），肺癌患者和非肺癌患者中的吸烟率的差异有统计学意义（χ2 =10.829, P<0.01）。

Logistic回归模型在调整了性别和COPD病史后，吸烟者相对于不吸烟者，发生肺癌的风险增加（OR=3.45, 95% CI: 1.86-6.40）。

多变量分析的结果见表4（常作为研究报告或论文中的表2）。

表4. 肺癌危险因素的Logistic回归分析OR (95% CI) P值性别女 1.00男 2.31 (1.34-3.97) <0.01COPD病史无 1.00轻/中度 1.58 (0.81-3.10)重度 3.60 (1.90-6.82) <0.01吸烟无 1.00有 3.45 (1.86-6.40) <0.01更多统计学教程，可关注“医咖会”微信公众号。