SPSS回归分析(精彩)

SPSS回归分析回归分析简介探察变量之间的数量变化规律,并通过一定的数学表达
式来描述这种关系,进而确定一个或几个变量的变化对
另一个变量的影响程度回归分析是研究变量间统计关系的方法。侧重考察回归
分析的类型因变量与自变量都是定量变量的回归分析回归分析因变量是定量变量,自变量中有定性变量的回归分析含有哑变量的回归分析因变量是定性变量的回归分析Logistic回归分析Logistic回归分析一元线性回归分析一元线性回归(简单线性回归):研究两个变量间的统
计关系。应用例子某高档消费品的销量与城镇居民收入储蓄额与居民收入。工业产值与用电量。某只股票的收益率和大盘指数的收益率企业的利润率和资产商品的销量和广告投入一元线性回归分析一元线性回归模型通过一定数量的样本观测值,用最小二乘法求解出回归
方程但是只有当满足一定的假设条件下,样本数据的最小二乘估计才是总体参数的最佳无偏估计。一元线性回归分析回归模型的进一步说明又称偏回归系数partial regression coefficient
,简称回归系数。表示其它变量不变,x变化时所预测
y的平均变化率一元线性回归分析回归方程的假定条件正态性假定零均值假定等方差假定独立性假定以上假定条件全部满足时,回归方程才有意义一元线性回归分析正态性假设:要求总体误差项服从正态分布。如果违反这一假
设则最小二乘估计不再是最佳无偏估计,不能进行区间估计。
(如果不涉及假设检验和区间估计,则此假定可以忽略)零均值性:即在自变量取一定值的条件下,其总体各误差项的
条件平均值为零。如果违反这一假设则由最小二乘估计得到的
估计不再是无偏估计等方差性:即在自变量取一定值的条件下,其总体各误差项的
条件方差为一常数。如果违反这一假设则最小二乘估计不再是
有效估计,不能进行区间估计独立性假设:误差项之间相互独立(不相关),误差项与自变
量之间应相互独立如果违反这一假设则误差项之间可能出现序
列相关,最小二乘估计不再是有效估计。回归分析Analyze->Regression 可实现:线性回归:简单线性回归和多元线性回归,由Linear过程实现分类变量为因变量的回归二项Logistic回归多项Logistic回归Ordinal回归Probit回归非线性回归曲线估计非线性估计权重估计两阶最小二乘最优尺度回归分析分析步骤做出散点图观察变量间的趋势。多个变量则做出散点图矩阵、重叠散点图和
三维散点图考察数据

的分布,做必要的预处理
分析变量的正态性和方差齐等问题。进行直线回归分析残差分析,检查残差的独立性和正态性强影响点的诊断和多重共线性问题的判断回归分析常用指标偏回归系数:反映相应一个自变量上升一个单位时,应变量取值的变动
情况决定系数R2即相应的相关系数的平方,用R2表示。反映应变量y的全部变异中能够
通过回归关系被自变量解释的比例。R2越接近1越好。多元回归时,决定系数缺乏可靠性,此时可参考调整的决定系数R2回归分析回归直线意义的F检验统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因
变量的解释力度很差,拟合的回归直线没有意义,相反若概率值(SPSS
中以sig表示,越小越好)残差的独立性检验Durbin-Watson检验的参数D的取值范围是0自变量越独立。见下图回归分析-SPSS实现一元回归分析引例研究我国31个省市自治区的人均食品支出与人均收入的依存关系,
数据见“人均食品支出.sav”回归分析-SPSS实现Regression->LinearDependent:人均食品支出,Independent(s):人均收入设置Statistics ,Plot选项回归分析-SPSS实现部分输出结果常数项的检验结果是其影响不显著的,所以需要进一步改善
模型,考虑建立不含常数项的回归方程回归分析-SPSS实现不含常数项的回归模型的部分输出结果回归诊断诊断模型:残差分析残差分析用于判断你对模型的假定是否符合:线性关系;误差项等方差;误差项相互独立;误差项正态分布;还可以检测出异常值和有影响的点回归分析-SPSS实现残差分析结果回归分析-SPSS实现回归诊断-异常值探查SPSS中设定和检测异常值Regression->Linear->Statistics Residuals->Case diagnostics :设定超过几倍标准
差的观测作为异常值(Outliers outside n standard
deviations)残差散点图回归诊断-异常值探查以数据”人均食品支出.sav“,为例,进行异常点检Regression->Linear->StatisticsResiduals->case diagnostics ,并选中outlier
outside ….,填入2Plots: Scatter:ZRESID->Y, ZPRED->X ,做残差与
预测值的散点图回归分析-异常值探查输出结果因变量和自变量?事实上,只要系数之间是线性组合的,并可通过变
换可转换为线性方程的,都可尝试用线性模型进行
拟合一般线性模型潜在的一些假设回归方程具有特定的形式。例如,因变量表示为截距、自变量的线
性组合,及残差的和。不满足这一假设,可能原因忽略了重要的自变量包含了不相关的自变量非线性-因变量和自变量之间的关系是非线性

的变动的参数-数据收集期间,方程中参数不是常数非可加性-自变量中某个给定变量的影响是附随着其
它变量的残差为零均值。违反该假设,易导致截距的有偏估
计残差不是自相关的所有自变量都是非随机的观测数大于未知系数在解释变量之间不存在确切的线性关系练习数据:world95.sav目的:利用生育率(fertility)预测妇女的平均预期寿命
(lifeexpf)要求:探索性分析两个变量,探察两个变量中是否存在异常点?您
获得的对两个变量的哪些认识?做两个变量的散点图,建立两个变量的线性回归模型,是否合理呢?利用生育率来预测妇女的预期寿命。并设置相关选项,以进一步检验关于线性回归的一些假定此数据满足吗?并进行回
归诊断,对模型的系数进行解释。从输出结果,您是否可以
得出如果妇女多要一个小孩对她的寿命有多大影响吗?练习数据:waste.sav要求:提出有意义的问题有时比解决问题更重要利用学过的统计方法,看看您能够进行哪些分析,从各种分
析中,您能够得出哪些有意义的结论多元线性回归分析多元回归分析研究多个变量间的关系,因变量如何受到多个自变量的影响,用多
个自变量预测因变量的值多元线性回归是研究多个变量间因果关系的常用方法之一多个变量中有一个是因变量。其它的变量都是自变量,个数在两个以上每个自变量和因变量之间的关系都是线性的
例:超市中商品的价格、摆放位置、促销手段如何影响销售量;如何用客户的个人资料(职业、收入、家庭成员人数、婚姻状
况、是否有抵押等)进行信用预测;连锁旅店的利润主要受哪些因素影响;宏观经济指标预测多元线性回归分析多元线性回归的方程为偏回归系数表示在其它变量保持不变的情况下,自变量变动一
个单位所引起的因变量y的平均变动。回归方程的显著性检验(模型拟合效果的检验)自变量的筛选多重共线性问题影响点的探察β
ββ12p、、βi多元线性回归分析方程的检验认识总变差的分解:判定系数:多重相关系数R调整(修正)的判定系数:?
??=
??×221
1 1(1 )nnpAdjRR=2/
RSSRSST2R=+SSTSSRSSE多元线性回归分析方程的检验问题:因变量和所有自变量的集合之间的线性关系是否
显著?检验假设:利用F统计量,构造F统计量及拒绝域结论β
ββ====L012: 0pHα??==>??/
/(1)(, 1)SSRp
MSR
MSESSEnpFFpnp多元线性回归分析回归系数的检验目的:检验每个自变量对因变量的线性影响是
否显著检验假设:利用t检验,构造t统计量及拒绝

域结论β
β=≠01: 0 : 0iiHH多元线性回归分析自变量筛选自变量筛选的目的多元回归分析引入多个自变量。如果引入的自变量个数较少
,则不能很好的说明因变量的变化;并非自变量引入越多越好有些自变量可能对因变量的解释没有贡献,留在模型中的自变量
应该是对因变量的变化贡献较大的变量自变量间可能存在较强的线性关系,即:多重共线性,因而不能
全部引入回归方程多重共线性问题多元线性回归分析-自变量筛选自变量筛选方法全回归法-Enter向前删除法-Forward向后删除法-Backward 逐步回归法-Stepwise强迫剔除法-Remove多元线性回归分析-SPSS实现例:一汽车工业集团跟踪调查了其不同车型的销
售情况,该集团希望建立合理的模型,以期发现
不同类型的车型与销售额的关系,以探察影响销
售额的模型car_sales.savSPSS实现:Analyze->Regression->LinearLog-transformed sales
Dependent (这是一种经验做
法,因为对数销售额比销售额更接近正态分布)Vehicle type [type]
…Fuel efficiency (mpg)->
Independent(s)Statistics选项:Estimates, Model fit 以上设置,将建立Vehicle type [type]
…Fuel
efficiency (mpg)等10个变量为自变量,对数销售额为
因变量的多元回归模型多元线性回归分析-SPSS实现输出结果:见下面的方程分析表从模型的F检验的结果来看,方程是有意义的。从以上R2看出,模型解释了对数销售额近一半的变差多元线性回归分析-SPSS实现近一步分析,我们希望找出哪些自变量对销售额的影响
更大?可以通过标准化系数的绝对值大小,衡量哪个变量对因
变量的影响最大通过标准化系数估计值,可以看出Price in thousands对
数销售额的影响较Vehicle Type大多元线性回归分析-SPSS实现尽管从以上的输出结果,模型看似较好,但是从下表
我们发现……偏回归系数中有很多是非显著的,表明它们相应的自变量可能
对销售额并没有显著影响,因此模型中引入这些变量并没有什
么实际意义!多重共线性问题出现上述矛盾结果的原因是什么呢?以上的现象正是我们在多元回归中必须关注的问题在多元线性回归模型中,
是指自变量之间存在线性相关的关系多重共线性存在时会使得系数估计的标准误差增大,从而使得模型的预测精度会大大地降低。我们将无法确定任一自变
量对因变量的单独影响。单个系数的符号可能与实际不符多重共线性问题多重共线性的标志R平方较大但没有几个显著的t统计量,预示着多重共线性的
存在。实际上,有可能回归方程的F统计量高度显著,而每

个t统计量不显著一对或多对解释变量的简单相关系数相对比较高可能意味着
多重共线的存在例:从前面的多重回归分析的模型的输出结果,我们已经看到模型整体是显著的,但是对于模型系数的检验却表明,很
多变量对Sales的影响并非显著。表明前面所建立的模型很
可能存在共线性的问题识别多重共线性SPSS提供了多种共线性的诊断方法,包括:容限法、
方差膨胀因子法、特征值方法和方差比例法相关说明::即某一自变量不能被其它变量解释的
变差占其总变差的百分比。因此容限越小表明该变量
与其它变量的相关性越强(Variance Inflation Factors,简记作
): 刻画了相比多重共线性不存在时回归系数估计的方
差增大了多少。越大说明多重共线性问题越严重。其中是自变量关于模型中其余自变量线性回归模型的
。称为容限经验法则:VIF >10==
?211
1j
jjVIF
RTOL2
jRjx2RjTOL识别多重共线性特征值法当有的特征值接近于0时,表明变量间具有高度的相关性,
数据值的改变可能导致系数估计较大改变条件指数条件指数大于15说明可能存在共线性的问题,条件指数大
于30时,说明有严重的共线性问题方差比例法对于大的条件指数,如果同时存在两个以上变量的方差分量大于50%,则说明这些变量间存在共线性的问题多重共线性问题-SPSS实现续car_sales.sav分析Statistics->Part and partial correlations,Collinearity
diagnostics多重共线性问题-SPSS实现输出其中Zero-order correlation即Pearson correlation, 简单相关系数,
part and partial correlation 指部分相关和偏相关。可以看到:“Price
in thousand”的部分相关和偏相关系数相对一阶零相关系数,减少很多,
这表明“Price”对Sales的影响中,一部分是由于与Price有关的自变量产生的。多重共线性诊断-SPSS实现从容限(tolerance)可以看出,对于给定的自变量,其变化程度大
约有70%-90%是可以通过其它变量来解释的多重共线性问题-SPSS实现从方差膨胀因子(VIF)输出结果来看,最小值为3.293.通常方
差膨胀因子大于2就可能存在共线性的问题多重共线性问题-SPSS实现Linear Regression->Statisticscollinearitydiagnostics 进行共线性“诊断”大部分特征值接近于0,表明自变量之间是高度线性相关的,即便
是自变量的微小变动,都可能导致回归系数估计值的很大波动多重共线性问题-SPSS实现输出的条件数进一步印证了该模型的高度共线性性。注意到
,大多数自变量的条件数大于15多元线性回归分析-逐步回归分析如何来解决共线性的问题?共线性问题不仅增大模型复杂度,而且降低

了模型精度!如何建立恰当模型,使模型仅仅包含有用的变量?-可以克服共线性,因为此时模型将只
保留对因变量有一定影响的变量Linear RegressionMethod->stepwise(逐步)多元线性回归分析-逐步回归分析部分输出结果由上表可以看出:逐步回归方法最终选择price in thousands
(价格),Wheelbase, Engine size, horsepower建立模型回归系数均是显著的,即所选因变量都是对Sales有显著影响的多元线性回归分析-逐步回归分析只选入两个自变量建立模型,那么模型整体的精确性如何?可以看出最终确定的模型是有意义的10个预
测因子
2个预
测因子多元线性回归分析-逐步回归分析多重共线性性是否依然存在?从多重共线性的“诊断”结果可以看出,表明逐步回归的方法克服了
多重共线性的问题,但是似乎还存在一些问题?原因何在呢?多元线性回归分析-逐步回归分析关于方程系数的检验能否进一
步改进?多元线性回归分析-逐步回归分析去掉截距项后的部分输出结果多元线性回归分析-逐步回归分析通过了模型及其系数显著性检验和共线性性诊断,有必要理解模
型的意义!模型最终选择价格(price)和大小(指Wheelbase-z轴距大小),及类
型(Vehicle type)作为预测变量.可以看出价格对销量Sales的影响是
负面的,即价格升高销量将下降,而对于Wheelbase,这是越大越有利于
销售。应该注意Vehicle type的解释,它的系数表明在其它同等情况下
,卡车(truck)比汽车(automobile)的销量好结论:基于以上的模型,我们可以说车型大且便宜的卡车销量相对其它
型车销量好残差分析模型的残差中蕴含着丰富的信息,通过分析残差可以实现对
所建模型的相关诊断几种残差简介残差标准化残差删除残差标准化残差学生残差学生删除残差多元线性回归分析-回归诊断多元线性回归的回归诊断检验模型假定是否成立与一元线性回归一样,通过残差分析,检验有关假定是否成立,
如正态性、独立性、等方差性等异常值探查通过标准化残差来探察影响点探查所谓影响点,是指其非标准化残差并不大,但删去后回归直线
发生很大改变的点影响点的检测主要包括以下几种方法与杠杆率有关的检测逐步排除异常个案是否影响回归系数的方差多元线性回归分析-回归诊断影响点的检测方法与杠杆率有关的检测LEVER centered leverage,是各观测自变量的各取值在模型中
作用的度量。该值越大,表明影响力越大。一般认为超过
2×(p/N),则影响力过大COOK
’s距离,用于衡量第i个观测被删除后,

回归系数的改变。
是残差和中心化杠杆率的函数。Cook’s 值越大,影响力越强。
经验上,一般COOK’s距离大于1 ,通常认为是影响点Mahanobis距离:为杠杆值的n-1倍,是自变量上个案的值与所
有个案的平均值相异程度的度量。大的Mahalanobis距离表示
个案在一个或多个自变量上具有极值多元线性回归分析-回归诊断影响点的检测方法逐步排除异常个案回归系数的变化及其标准化DfBeta,从模型中删去一个特定观测后,比较回归系数的前后变化标准化DfBeta,通常该值大于2/sqrt(n)时,认为是影响点预测值变化及其标准化DfFit从模型中删除某个观测后引起的预测值的变化标准化DfFit,通常默认的标准是该值大于2/sqrt(p/n)时,为影响
点。其中p为包括常数项的参数个数多元线性回归分析-回归诊断影响点的检测方法是否影响回归系数的方差协方差比例,指的是个案对参数估计的“方差-协方差矩
阵”的影响度,等于删除后协方差矩阵行列式/全部个案的
协方差矩阵的行列式、接近于1时,表明影响不大。经验
上|协方差比例-1|>3×(P/N)的点可视为影响点多元线性回归分析-回归诊断以Car_sales.sav逐步回归模型为例Linear Regression Plots选项:Scatter: SDRESID->Y, ZPRED->X,选择HistogramSave选项:Predicted Values,Residuals均选择
Standarized,Distances:Cook’s,LeverageStatistics选项-Residuals:选择Casewisediagnostics,选中Outliers outside,并填入“2”(即把绝对值超过2倍标准差的
标准化残差作为“Outliers”)多元线性回归分析-回归诊断部分输出结果标准化残差的直方图显示出,除个别观测外,残差基本上服从
正态分布进一步探查这些
”个别观测”,看以下Casewisediagnostics的输
出结果多元线性回归分析-回归诊断Casewisediagnostics 输出结果”3000GT”与“Cultass”具有最大的负的残差,也就是说相对于其它型
号的汽车,这两种型号的汽车市场销量要差一些多元线性回归分析-回归诊断残差的进一步分析:残差对选入模型的各自变量的散点图残差对价格(Price in thousands)的散点图:注:若模型建立的充分,标准化残差分布应该与自变量无关,并且基本以0为中
心,在[-2,2]内上下波动多元线性回归分析-回归诊断标准化残差对Wheelbase及Vehicle type的散点图:“残差”中蕴藏着无穷奥妙,实际问题中要充分利用残差分析,
来建立尽可能优良的模型多元线性回归分析-回归诊断影响点的探查:SPSS实现继续对“car_sales.sav”的分析Linear RegressionSave->Distances: 选择Cook‘s, Leverage values(SPSS将保
存这些变量,可以进行影响点的分析)Graphs

-Scatter/DotCook
’s Distance ->Y Axis, centered leverage value->X
AxisModel->Label Cases by多元线性回归分析-回归诊断从输出结果可以看出,“3000GT”具
有最大的Cook’s距离(Cook’s
Distance),但是它的中心杠杆率
(Centered Leverage Value)较
小,因此该观测并不会模型参数的
估计有太大的影响再看右下角CL500
”等观测,尽管它
们具有较大的中心杠杆率,但是
Cook‘s 距离确较小,所以这些观测
可能并不会对模型参数的估计有过
度的影响但是观测
“SL-Class ”同时具有较大
的Cook’s距离和中心杠杆率,所以
可以认为SL-Class相应的观测为影
响点多元线性回归分析-回归诊断以上通过散点图的方法,探查影响点。另外,也可以通
过各观测对应的标准化DfBeta(s),DfFit的序列图(
sequence),来探查影响点Linear RegressionSave选项:选择算StardardizedDfBeta(s), Stardardized
DfFit,则SPSS将把这些变量保存到数据集Graph->sequence SDF_1->Variables,ok
以上设置将生成DFFIT的序列图Graph->sequence
SDB0_1,SDB1_1, …SDB10_1->variables, ok
该设置将生成DfBeta(s)序列图多元线性回归分析-回归诊断输出结果(注:按照默认标准,此时DfFit)从以上序列图中很明显地可以看出,Prowler相应的观测为强影响点多元线性回归分析-回归诊断练习数据:world95.sav要求:建立female life expectancy关于fertility,grossdemestic
product(GDP)/capita, density of population,percentof people
living in cities ,and female literacy的多元线性回归模型。具体问
题如下先利用探索性分析,了解这些预测因子(自变量)的分布情况,是否有些
国家在这些变量上的取值同时是异常的?利用散点图了解female life
expantancy与其余几个自变量之间的关系,存在明显的异常点吗?建立female life expectancy关于以上所列出的几个自变量的线性回归方
程。描述该回归模型。哪个变量是显著的预先因子呢?哪个变量是最好的
预测因子呢?线性回归的假定满足吗?是否存在可能影响结果的异常观测
呢?练习数据:world95.sav要求:首先利用逐步回归的方法,建立female life expectancy关于
fertility,grossdemesticproduct(GDP)/capita, density of
population,percentof people living in cities ,and female
literacy,population increase和the log of population to predict
female lift expectancy,最佳的拟合模型是什么?利用backward(向后)方法,同样利用以上的因变量和自变量建立回归方程
,两种方法拟合出的回归方程一致吗?练习数据:world95.sav要求:对于以上练习中,由backward(向后)方法建立的回归方程进行共
线性诊断。您需要完成以下练习对该方法所选出

的自变量进行相关性分析,是否存在明显的迹象表明潜
在的共线性的存在呢?建立female life expectancy关于backward方法所出来的预测因子之间
的线性回归方程,并进行共线性诊断。您有发现共线性现象存在?存在
的话,是什么呢?如果时间允许的话,试图找到其它解决共线性的办法移出变量female literacy,重新建立回归方程。是否共线性问题有所
减轻呢?如果仍存在共线性问题,现在是否可以忽略呢。移出变量female literac,重新建立female life expectancy关于backward方法所出来的预测因子之间的线性回归方程,并要求进行影响
点探察,包括标准化残差,Cook’s距离,以及其它的您偏好的指标练习利用Case Summarizes(个案汇总)过程来列出这些统计量的取值
。记得把变量country添加到变量列表中,以便识别个案。您有发
现异常值吗?根据汇总结果,您是否会建议在分析中移出一些国家
呢?为什么?重新以上建立回归方程,但不包括country变量为,Kuwait. Saudi
Arabia和United Arab Emirates的个案。这次您得出什么结果呢?
异常点的问题解决了吗?

相关文档
最新文档