利用 SPSS 进行Logistic 回归分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第8 章利用SPSS 进行Logistic 回归分析

现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0

和1 表示。如果我们采用多个因素对0-1 表示的某种现象进行因果关系解释,就可能应用到logistic 回归。Logistic 回归分为二值logistic 回归和多值logistic 回归两类。首先用实例讲

述二值logistic 回归,然后进一步说明多值logistic 回归。在阅读这部分内容之前,最好先看看有关SPSS 软件操作技术的教科书。

§8.1 二值logistic 回归

8.1.1 数据准备和选项设置

我们研究2005 年影响中国各地区城市化水平的经济地理因素。城市化水平用城镇人口

比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。我们用各地区的地带分类代表地理位置。

第一步:整理原始数据。这些数据不妨录入Excel 中。数据整理内容包括两个方面:一

是对各地区按照三大地带的分类结果赋值,用0、1 表示,二是将城镇人口比重转换逻辑值,变量名称为“城市化”。以各地区2005 年城镇人口比重的平均值45.41%为临界值,凡是城镇人口比重大于等于45.41%的地区,逻辑值用Yes 表示,否则用No 表示(图8-1-1)

图8-1-1 原始数据(Excel 中,局部)

将数据拷贝或者导入SPSS 的数据窗口(Data View)中(图8-1-2)。

图8-1-2 中国31 个地区的数据(SPSS 中,局部)

第二步:打开“聚类分析”对话框。

沿着主菜单的“Analyze→Regression→Binary Logistic K”的路径(图8-1-3)打开二值Logistic 回归分析选项框(图8-1-4)。

图8-1-3 打开二值Logistic 回归分析对话框的路径

对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显著。至于反映地区位置的分类变量,不宜一次性的全部引入,至多引入两个,比方说东部和

中部。通过尝试,发现引入中部地带为变量比较合适。因此,为了实例的典型性,我们采用两个变量作为自变量:一是数值变量人均GDP,二是分类变量中部地带。

图8-1-4 Logistic 回归分析选项框

第三步:选项设置。

首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调

入Dependent(因变量)和Covariates(协变量)列表框中(图8-1-5)。在本例中,将名义变量“城市化”调入Dependent(因变量)列表框,将“人均GDP”和“中部”调入Covariates (协变量)列表框中。

在Method(方法)一栏有七个选项。采用第一种方法,即系统默认的强迫回归方法(Enter)。

图8-1-5 Logistic 回归分析的初步设置

接下来进行如下4 项设置:

⒈设置Categorical(分类)选项:定义分类变量(图8-1-6)。

将中部调入Categorical Covariates(分类协变量)列表框,其余选项取默认值即可。完

成后,点击Continue 继续。

图8-1-6 定义分类变量选项

⒉设置Save(保存)选项:决定保存到Data View 的计算结果(图8-1-7)。

选中Leverage values、DfBeta(s)、Standardized 和Deviance 四项。完成后,点击Continue 继续。

图8-1-7 Logistic 回归分析的存储选项

⒊设置Options:有三个选项区(图8-1-5)。

第一个是Statistics and Plots(统计和画图)选项,包括六种可以兼容的选择(复选项)。选中Classification plots、Hosmer-Lemeshow goodness-of-fit 和CI for exp(B)三个选项。

第二个是Display(显示)选项,选择At last step(最后一步),这样,输出结果将仅仅给出最终结果,而省略每一步的计算过程。

由于我们采用强迫回归,Probability for Stepwise(逐步回归概率)选项可以不管。

图8-1-8 Logistic 回归分析的选项设置

此外还有一个选项需要说明。一是Classification cutoff(分类临界值),默认值为0.5,

即按四舍五入的原则将概率预测值化为0 或者1。如果将数值改为0.6,则大于等于0.6 的概率值才表示为1,否则为0。其情况余依此类推。二是Maximum Iterations(最大迭代值),规定系统运算的迭代次数,默认值为20 次,为安全起见,我们将迭代次数增加到50。原因是,有时迭代次数太少,计算结果不能真正收敛。三是Include constant in model(模型中包括常数项),即模型中保留截距。除了迭代次数之外,其余两个选项均采用系统默认值。完成后,点击Continue 继续。

8.1.2 结果解读

全部选项设置完毕以后,点击如图8-1-5 所示的OK 按钮确定,即可得到Logistic 回归

分析结果。输出结果可以分为三大部分,下面逐一说明。

1. Case Processing Summary(样品处理摘要)。在输出结果中,首先给出样品处理摘要

报告,包括如下信息:选择了多少样品,没有选择的有多少样品;在选择的样品里,分析多少样品,缺失了多少样品——缺失样品一般是因为数据中存在缺失值;选择的样品总数以及全体样品总数(图8-1-9)。用N 表示各类样品数目,Percent 表示各类样品的百分比。在正常情况下,这些信息对我们的分析没有什么用处。但是,如果样本很大并且构成很复杂,涉

相关文档
最新文档