SPSS实验8_ 二项Logistic回归分析报告

合集下载

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析2011-12-02 16:48身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 = 0.16x¯ = 16951 / 489 = 34.2所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.16 *(1-0.16 )=0.216则:y¯(1-y¯)* ∑(Xi-x¯)² =0.216 * 30074.9979 = 5 840.9044060372 则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.76 = 7.46 (四舍五入)计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~!!!!1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和 Nagelkerke R方拟合效果都不太理想,最终理想模型也才:0.305 和 0.446,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR 方的值!提示:将Hosmer 和 Lemeshow 检验和“随机性表” 结合一起来分析1:从Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:CHINV(0.05,8) = 15.507卡方统计量< 临界值,从SIG 角度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。

SPSS—二元Logistic回归结果分析.docx

SPSS—二元Logistic回归结果分析.docx

SPSS—二元Logistic回归结果分析2011-12-02 16:48身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 = 0.2638036809816x¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216则:y¯(1-y¯)* ∑(Xi-x¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五入)计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~!!!!1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和 Nagelkerke R方拟合效果都不太理想,最终理想模型也才:0.305 和 0.446,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR 方的值!提示:将Hosmer 和 Lemeshow 检验和“随机性表” 结合一起来分析1:从Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:CHINV(0.05,8) = 15.507卡方统计量< 临界值,从SIG 角度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。

利用SPSS进行logistic回归分析(二元、多项)【范本模板】

利用SPSS进行logistic回归分析(二元、多项)【范本模板】

线性回归是很重要的一种回归方法,但是线性回归只适用于因变量为连续型变量的情况,那如果因变量为分类变量呢?比方说我们想预测某个病人会不会痊愈,顾客会不会购买产品,等等,这时候我们就要用到logistic回归分析了。

Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。

还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。

二值logistic回归:选择分析-—回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量.有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。

把你的自变量选到协变量的框框里边。

细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的.我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。

那么我们为了模型的准确,就把这个交互效应也选到模型里去。

我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。

然后在下边有一个方法的下拉菜单.默认的是进入,就是强迫所有选择的变量都进入到模型里边。

除去进入法以外,还有三种向前法,三种向后法。

一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。

再下边的选择变量则是用来选择你的个案的。

SPSS—回归—二元Logistic回归案例分析

SPSS—回归—二元Logistic回归案例分析

SPSS—回归—⼆元Logistic回归案例分析数据分析真不是⼀门省油的灯,搞的⼈晕头转向,⽽且涉及到很多复杂的计算,还是书读少了,⼩学毕业的我,真是死了不少脑细胞,学习⼆元Logistic回归有⼀段时间了,今天跟⼤家分享⼀下学习⼼得,希望多指教!⼆元Logistic,从字⾯上其实就可以理解⼤概是什么意思,Logistic中⽂意思为“逻辑”但是这⾥,并不是逻辑的意思,⽽是通过logit变换来命名的,⼆元⼀般指“两种可能性”就好⽐逻辑中的“是”或者“否”⼀样,Logistic 回归模型的假设检验——常⽤的检验⽅法有似然⽐检验(likelihood ratio test)和 Wald检验)似然⽐检验的具体步骤如下:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL02:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InL13:最后⽐较两个对数似然函数值的差异,若两个模型分别包含l个⾃变量和P个⾃变量,记似然⽐统计量G的计算公式为 G=2(InLP - InLl). 在零假设成⽴的条件下,当样本含量n较⼤时,G统计量近似服从⾃由度为 V = P-l 的 x平⽅分布,如果只是对⼀个回归系数(或⼀个⾃变量)进⾏检验,则 v=1.wald 检验,⽤u检验或者X平⽅检验,推断各参数βj是否为0,其中u= bj / Sbj, X的平⽅=(bj / Sbj), Sbj 为回归系数的标准误这⾥的“⼆元”主要针对“因变量”所以跟“曲线估计”⾥⾯的Logistic曲线模型不⼀样,⼆元logistic回归是指因变量为⼆分类变量是的回归分析,对于这种回归模型,⽬标概率的取值会在(0-1),但是回归⽅程的因变量取值却落在实数集当中,这个是不能够接受的,所以,可以先将⽬标概率做Logit变换,这样它的取值区间变成了整个实数集,再做回归分析就不会有问题了,采⽤这种处理⽅法的回归分析,就是Logistic 回归设因变量为y, 其中“1” 代表事件发⽣, “0”代表事件未发⽣,影响y的 n个⾃变量分别为 x1, x2 ,x3 xn等等记事件发⽣的条件概率为 P那么P= 事件未发⽣的概理为 1-P事件发⽣跟”未发⽣的概率⽐为( p / 1-p ) 事件发⽣⽐,记住Odds将Odds做对数转换,即可得到Logistic回归模型的线性模型:还是以教程“blankloan.sav"数据为例,研究银⾏客户贷款是否违约(拖⽋)的问题,数据如下所⽰:上⾯的数据是⼤约700个申请贷款的客户,我们需要进⾏随机抽样,来进⾏⼆元Logistic回归分析,上图中的“0”表⽰没有拖⽋贷款,“1”表⽰拖⽋贷款,接下来,步骤如下:1:设置随机抽样的随机种⼦,如下图所⽰:选择“设置起点”选择“固定值”即可,本⼈感觉200万的容量已经⾜够了,就采⽤的默认值,点击确定,返回原界⾯、2:进⾏“转换”—计算变量“⽣成⼀个变量(validate),进⼊如下界⾯:在数字表达式中,输⼊公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0"为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置⼀个“选择条件”点击“如果”按钮,进⼊如下界⾯:如果“违约”变量中,确实存在缺失值,那么当使⽤"missing”函数的时候,它的返回值应该为“1”或者为“true",为了剔除”缺失值“所以,结果必须等于“0“ 也就是不存在缺失值的现象点击 ”继续“按钮,返回原界⾯,如下所⽰:将是“是否曾经违约”作为“因变量”拖⼊因变量选框,分别将其他8个变量拖⼊“协变量”选框内,在⽅法中,选择:forward.LR⽅法将⽣成的新变量“validate" 拖⼊"选择变量“框内,并点击”规则“设置相应的规则内容,如下所⽰:设置validate 值为1,此处我们只将取值为1的记录纳⼊模型建⽴过程,其它值(例如:0)将⽤来做结论的验证或者预测分析,当然你可以反推,采⽤0作为取值记录点击继续,返回,再点击“分类”按钮,进⼊如下页⾯在所有的8个⾃变量中,只有“教育⽔平”这个变量能够作为“分类协变量” 因为其它变量都没有做分类,本例中,教育⽔平分为:初中,⾼中,⼤专,本科,研究⽣等等, 参考类别选择:“最后⼀个” 在对⽐中选择“指⽰符” 点击继续按钮,返回再点击—“保存”按钮,进⼊界⾯:在“预测值"中选择”概率,在“影响”中选择“Cook距离” 在“残差”中选择“学⽣化”点击继续,返回,再点击“选项”按钮,进⼊如下界⾯:分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别⽤值“1“和“0”代替,在“分类变量编码”中教育⽔平分为5类,如果选中“为完成⾼中,⾼中,⼤专,⼤学等,其中的任何⼀个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究⽣“ 频率分别代表了处在某个教育⽔平的个数,总和应该为 489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“⽅程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029⼏乎接近,是因为我对数据进⾏的向下舍⼊的关系,所以数据会稍微偏⼩,B和Exp(B) 是对数关系,将B进⾏对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中⾃由度为1, sig为0.000,⾮常显著1:从“不在⽅程中的变量”可以看出,最初模型,只有“常数项”被纳⼊了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, ⽽其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了⼀个平⽅)下⾯来举例说明这个计算过程:(“年龄”⾃变量的得分为例)从“分类表”中可以看出:有129⼈违约,违约记为“1” 则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 = 0.2638036809816x¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216则:y¯(1-y¯)* ∑(Xi-x¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五⼊)计算过程采⽤的是在 EXCEL ⾥⾯计算出来的,截图如下所⽰:从“不在⽅程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~1:从“块1” 中可以看出:采⽤的是:向前步进的⽅法,在“模型系数的综合检验”表中可以看出:所有的SIG ⼏乎都为“0” ⽽且随着模型的逐渐步进,卡⽅值越来越⼤,说明模型越来越显著,在第4步后,终⽌,根据设定的显著性值和⾃由度,可以算出卡⽅临界值,公式为:=CHIINV(显著性值,⾃由度) ,放⼊excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR⽅和 Nagelkerke R⽅拟合效果都不太理想,最终理想模型也才:0.305 和 0.446,最⼤似然平⽅的对数值都⽐较⼤,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR⽅的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含⾃变量的检验)再根据公式:即可算出:Cox&SnellR⽅的值!提⽰:将Hosmer 和 Lemeshow 检验和“随机性表” 结合⼀起来分析1:从 Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡⽅统计量为:11.919,⽽临界值为:CHINV(0.05,8) =15.507卡⽅统计量< 临界值,从SIG ⾓度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。

spss回归分析报告

spss回归分析报告

SPSS回归分析报告1. 引言本报告旨在使用SPSS软件进行回归分析,并对分析结果进行解释和总结。

回归分析是一种用于探索自变量与因变量之间关系的统计方法。

通过对相关变量的分析,我们可以了解自变量对因变量的影响程度和方向。

2. 数据描述我们使用的数据集包含了X和Y两个变量的观测值。

X代表自变量,Y代表因变量。

数据集总共包含了N个观测值。

3. 数据处理在进行回归分析之前,我们需要对数据进行处理,包括数据清洗和变量转换。

数据清洗的目的是去除异常值和缺失值,确保数据的质量和完整性。

变量转换可以根据需要对变量进行归一化、对数化等操作,以满足回归分析的前提条件。

4. 模型建立我们选择了线性回归模型来研究自变量X对因变量Y的影响。

线性回归模型的表达式如下:Y = β0 + β1*X + ε其中,Y代表因变量,X代表自变量,β0和β1是回归系数,ε是误差项。

我们希望通过对数据进行回归分析,得到最佳的回归系数估计值。

5. 回归结果经过回归分析,我们得到了以下结果:回归方程:Y = a + b*X回归系数a的估计值为x,回归系数b的估计值为y。

回归方程可以用来预测因变量Y在给定自变量X的情况下的取值。

6. 模型评估为了评估我们建立的回归模型的拟合程度,我们使用了一些统计指标。

其中,R方(R^2)是衡量模型拟合优度的指标,它的取值范围在0到1之间,越接近1说明模型的拟合度越好。

我们得到的R方为r。

另外,我们还计算了回归系数的显著性检验。

显著性检验可以帮助我们判断回归系数是否具有统计学意义。

我们得到的显著性水平为p。

通过对这些统计指标的分析,我们可以评估回归模型的有效性和可靠性。

7. 结论通过SPSS软件进行回归分析,我们得到了自变量X对因变量Y的影响程度和方向。

根据我们的回归方程和回归系数,我们可以预测因变量Y在给定自变量X 的情况下的取值。

然而,需要注意的是,回归分析只能显示自变量和因变量之间的关系,并不能确定因果关系。

详解利用SPSS进行Logistic_回归分析

详解利用SPSS进行Logistic_回归分析

第8 章利用SPSS 进行Logistic 回归分析现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1 表示。

如果我们采用多个因素对0-1 表示的某种现象进行因果关系解释,就可能应用到logistic 回归。

Logistic 回归分为二值logistic 回归和多值logistic 回归两类。

首先用实例讲述二值logistic 回归,然后进一步说明多值logistic 回归。

在阅读这部分内容之前,最好先看看有关SPSS 软件操作技术的教科书。

§8.1 二值logistic 回归8.1.1 数据准备和选项设置我们研究2005 年影响中国各地区城市化水平的经济地理因素。

城市化水平用城镇人口比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。

地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。

我们用各地区的地带分类代表地理位置。

第一步:整理原始数据。

这些数据不妨录入Excel 中。

数据整理内容包括两个方面:一是对各地区按照三大地带的分类结果赋值,用0、1 表示,二是将城镇人口比重转换逻辑值,变量名称为“城市化”。

以各地区2005 年城镇人口比重的平均值45.41%为临界值,凡是城镇人口比重大于等于45.41%的地区,逻辑值用Yes 表示,否则用No 表示(图8-1-1)图8-1-1 原始数据(Excel 中,局部)将数据拷贝或者导入SPSS 的数据窗口(Data View)中(图8-1-2)。

图8-1-2 中国31 个地区的数据(SPSS 中,局部)第二步:打开“聚类分析”对话框。

沿着主菜单的“Analyze→Regression→Binary Logistic K”的路径(图8-1-3)打开二值Logistic 回归分析选项框(图8-1-4)。

图8-1-3 打开二值Logistic 回归分析对话框的路径对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显著。

利用SPSS进行Logistic回归分析

利用SPSS进行Logistic回归分析

利用SPSS进行Logistic回归分析第8章利用SPSS进行Logistic回归分析现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1表示。

如果我们采用多个因素对0-1表示的某种现象进行因果关系解释,就可能应用到logistic回归。

Logistic回归分为二值logistic回归和多值logistic回归两类。

首先用实例讲述二值logistic回归,然后进一步说明多值logistic回归。

在阅读这部分内容之前,最好先看看有关SPSS软件操作技术的教科书。

§8.1 二值logistic回归8.1.1 数据准备和选项设置我们研究2005年影响中国各地区城市化水平的经济地理因素。

城市化水平用城镇人口比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。

地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。

我们用各地区的地带分类代表地理位置。

第一步:整理原始数据。

这些数据不妨录入Excel中。

数据整理内容包括两个方面:一是对各地区按照三大地带的分类结果赋值,用0、1表示,二是将城镇人口比重转换逻辑值,变量名称为“城市化”。

以各地区2005年城镇人口比重的平均值45.41%为临界值,凡是城镇人口比重大于等于45.41%的地区,逻辑值用Yes表示,否则用No表示(图8-1-1)。

图8-1-1 原始数据(Excel中,局部)将数据拷贝或者导入SPSS的数据窗口(Data View)中(图8-1-2)。

图8-1-2 中国31个地区的数据(SPSS中,局部)第二步:打开“聚类分析”对话框。

沿着主菜单的“Analyze→Regression→Binary LogisticK”的路径(图8-1-3)打开二值Logistic回归分析选项框(图8-1-4)。

图8-1-3 打开二值Logistic回归分析对话框的路径对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显著。

SPSS学习笔记之——二项Logistic回归分析

SPSS学习笔记之——二项Logistic回归分析

SPSS学习笔记之——二项Logistic回归分析[转载]SPSS学习笔记之——二项Logistic回归分析一、概述Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。

他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。

因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。

下面学习一下Odds、OR、RR的概念:在病例对照研究中,可以画出下列的四格表:------------------------------------------------------暴露因素病例对照-----------------------------------------------------暴露 a b非暴露 c d-----------------------------------------------比值、比数,是指某事件发生的可能性(概率)与不发生的可能Odds: 称为性(概率)之比。

在病例对照研究中病例组的暴露比值为:odds1 = (a/(a+c))/(c(a+c)) = a/c,对照组的暴露比值为:odds2 = (b/(b+d))/(d/(b+d)) = b/dOR:比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) =ad/bc换一种角度,暴露组的疾病发生比值:odds1 = (a/(a+b))/(b(a+b)) = a/b非暴露组的疾病发生比值:odds2 = (c/(c+d))/(d/(c+d)) = c/dOR = odds1/odds2 = ad/bc与之前的结果一致。

OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。

OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SPSS作业8:二项Logistic回归分析为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。

数据项包括是否购买,性别,年龄和收入水平。

这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。

变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。

(一)基本操作:(1)选择菜单Analyze-Regression-Binary Logistic;(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下:消费的二项Logistic分析结果(一)(强制进入策略). 专业专注.分析:上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。

可以看到,对收入生成了两个虚拟变量名为Income (1)和Income(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder(1),表示是否女,取值为0时表示为男。

. 专业专注.消费的二项Logistic分析结果(二)(强制进入策略)Block 0: Beginning Block分析:上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。

可以看到:269人中实际没购买且模型预测正确,正确率为. 专业专注.100%;162人中实际购买了但模型均预测错误,正确率为0%。

模型总的预测正确率为62.4%。

消费的二项Logistic分析结果(三)(强制进入策略)分析:上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,Wald检验统计量的观测值,自由度,Wald检验统计量的概率p值,发生比。

由于此时模型中未包含任何解释变量,因此该表没有实际意义。

消费的二项Logistic分析结果(四)(强制进入策略). 专业专注.分析:上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。

可以看到,如果下一步Age 进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。

如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。

但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。

消费的二项Logistic分析结果(五)(强制进入策略)Block 1: Method = Enter. 专业专注.分析:上表显示了Logistic分析第一步时回归方程显著性检验的总体情况,各数据项的含义依次为似然比卡方的观测值,自由度和概率p值。

可以看到,在本步所选变量均进入方程(Method=Enter)。

与前一步相比,似然比卡方检验的观测值18.441,概率p值为0.001。

如果显著性水平a为0.05,由于概率p值小于显著性水平a,应拒绝零假设,认为所有回归系数不同时为0,解释变量的全体与Logit P之间的线性关系显著,采用该模型是合理的。

在这里分别输出了三行似然比卡方值。

其中,Step行是本步与前一步相比的似然卡方比;Block行是本块(Block)与前一块相比的似然卡方比;Model行是本模型与前一模型相比的似然卡方比。

在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入模型,所以三行结果都相同。

. 专业专注.消费的二项Logistic分析结果(六)(强制进入策略)分析:上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为-2倍的对数似然函数值,Cox&SnellR^2。

-2倍的对数似然函数值越小则模型的拟合优度越高。

这里该值较大,所以模型的拟合优度并不理想。

从NagelkerkeR^2也可以看到其值接近零,因此拟合优度比较低。

消费的二项Logistic分析结果(七)(强制进入策略)Classification Table aObserved Predicted. 专业专注.分析:上表显示了当前所得模型的错判矩阵。

可以看到,脚注中的The Cut value is .500意味着:如果预测概率值大于0.5,则认为被解释变量的分类预测值为1,如果小于0.5,则认为被解释变量的分类预测值为0.;在实际没购买的269人中,模型正确识别了236人,识别错误了131人,正确率为19.1%。

模型总的预测正确率为61.9%。

与前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。

因此模型预测效果并不十分理想。

. 专业专注.消费的二项Logistic分析结果(八)(强制进入策略)分析:上表显示了当前所得模型中各个回归系数方面的指标。

可以看出,如果显著性水平a为0.05,由于Age的Wald检验概率p值大于显著性水平a,不应拒绝零假设,认为该回归系数与0无显著差异,它与Logit P的线性关系是不显著的,不应保留在方程中。

由于方程中包含了不显著的解释变量,因此该模型是不可用的,应重新建模。

. 专业专注.下面是对模型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(Forward:LR),分析的具体操作以及结果如下:(二)基本操作:(1)选择菜单Analyze-Regression-Binary Logistic;(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Forward:LR方法,在Option框中对模型做近一步分析,结果如下:消费的二项Logistic分析结果(一)(逐步筛选策略)Block 1: Method = Forward Stepwise (Likelihood Ratio). 专业专注.消费的二项Logistic分析结果(二)(逐步筛选策略)分析:上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。

这里略去了第零步分析的结果。

结果上面的两个表共同分析。

在Step1中,模型中包含常数项和INCOME。

如果此时剔除INCOME将使-2LL减少10.543,即10.543是INCOME进入模型引起的,-285.325即为零模型的对数似然比;在Step2中,模型中包含常数项,INCOME,GENDER。

此时剔除GENDER,即-2LL将减少5.917,即5.917是在Step1基础上GENDER所引起的,-280.053即为Step1模型的对数似然比,此时-2*285.325+2*280.053=10.543,即INCOME引起的。

其他同理。

可以. 专业专注.看到,如果显著性水平a为0.05,由于各步的概率p值均小于显著性水平a,因此此时模型中的解释变量全体与Logit P的线性关系是显著,模型合理。

消费的二项Logistic分析结果(三)(逐步筛选策略). 专业专注.分析:上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。

可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a,因此均拒绝零假设,意味它们与Logit P的线性关系是显著,应保留在方程中。

表中的第七,第八列分别是发生比的95%的置信区间。

最终年龄变量没有引入方程,因为如果引入则相应的Score检验的概率p值大于显著性水平a,不应拒绝零假设,它与Logit P的线性关系不显著,不应进入方程。

具体结果如下:消费的二项Logistic分析结果(四)(逐步筛选策略). 专业专注.消费的二项Logistic分析结果(五)(逐步筛选策略). 专业专注.分析:上表显示了模型拟合优度方面的测度指标。

最终模型的-2倍的对数似然函数值为554.190,仍然较高,说明模型的拟合优度不甚理想。

同时,NagelkerkeR^2距1较远,也说明了模型的拟合优度不高。

消费的二项Logistic分析结果(六)(逐步筛选策略)消费的二项Logistic分析结果(七)(逐步筛选策略). 专业专注.分析:上面是Hosmer-Lemeshow检验的结果。

最终模型中,Hosmer-Lemeshow统计量的观测值为8.943,概率p值为0.063,大于显著性水平a,因此不应拒绝零假设,认为该组的划分与被解释变量的取值不相关,说明模型的拟合优度较低。

它与NagelkerkeR^2分析的结果是一致的。

消费的二项Logistic分析结果(八)(逐步筛选策略). 专业专注.Step number: 2Observed Groups and Predicted Probabilities160 ┼┼││││F ││R 120 ┼┼. 专业专注.E ││Q ││U │ 1 │E 80 ┼ 1 1 1 ┼N │ 1 1 1 1 1 │C │ 0 0 1 1 1 │Y │ 0 0 1 1 1 │40 ┼ 0 0 0 0 0 0 ┼│ 0 0 0 0 0 0 ││ 0 0 0 0 0 0 ││ 0 0 0 0 0 0 │Predicted ─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼──────────Prob: 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1Group: 0000000000000000000000000000000000000000000000000011111111111111111111111111111111111111111111111111Predicted Probability is of Membership for 购买The Cut Value is .50Symbols: 0 - 不购买1 - 购买Each Symbol Represents 10 Cases.图:消费的二项Logistic分析预测分类图. 专业专注.分析:上表显示了各模型的错判矩阵。

第一个模型的总体正确率为62.4%,对不购买人群预测的准确率极高,但对购买人群预测的准确率极低;第二个模型的总体正确率为60.6%,对不购买人群预测的准确率下降了,但对购买人群预测的准确率提高了。

从应用角度看第二个模型较第一个模型的应用性略强一些。

在上图中,符号0表示实际未购买,1表示实际购买,一个符号代表10个样本。

预测概率值大于0.5的样本属于购买类,小于0.5的属于未购买类。

可以看出:在模型预测出的购买类中,仍有40个左右(4个0,精确值为44)实际未购买;同样,在模型预测出的未购买类中,仍有110个左右(11个1,精确值为126)实际购买了。

相关文档
最新文档