SPSS回归分析(精彩)

SPSS回归分析回归分析简介探察变量之间的数量变化规律，并通过一定的数学表达
式来描述这种关系，进而确定一个或几个变量的变化对
另一个变量的影响程度回归分析是研究变量间统计关系的方法。侧重考察回归
分析的类型因变量与自变量都是定量变量的回归分析回归分析因变量是定量变量，自变量中有定性变量的回归分析含有哑变量的回归分析因变量是定性变量的回归分析Logistic回归分析Logistic回归分析一元线性回归分析一元线性回归（简单线性回归）：研究两个变量间的统
计关系。应用例子某高档消费品的销量与城镇居民收入储蓄额与居民收入。工业产值与用电量。某只股票的收益率和大盘指数的收益率企业的利润率和资产商品的销量和广告投入一元线性回归分析一元线性回归模型通过一定数量的样本观测值，用最小二乘法求解出回归
方程但是只有当满足一定的假设条件下，样本数据的最小二乘估计才是总体参数的最佳无偏估计。一元线性回归分析回归模型的进一步说明又称偏回归系数partial regression coefficient
，简称回归系数。表示其它变量不变，x变化时所预测
y的平均变化率一元线性回归分析回归方程的假定条件正态性假定零均值假定等方差假定独立性假定以上假定条件全部满足时，回归方程才有意义一元线性回归分析正态性假设：要求总体误差项服从正态分布。如果违反这一假
设则最小二乘估计不再是最佳无偏估计，不能进行区间估计。
（如果不涉及假设检验和区间估计，则此假定可以忽略）零均值性：即在自变量取一定值的条件下，其总体各误差项的
条件平均值为零。如果违反这一假设则由最小二乘估计得到的
估计不再是无偏估计等方差性：即在自变量取一定值的条件下，其总体各误差项的
条件方差为一常数。如果违反这一假设则最小二乘估计不再是
有效估计，不能进行区间估计独立性假设：误差项之间相互独立（不相关）,误差项与自变
量之间应相互独立如果违反这一假设则误差项之间可能出现序
列相关，最小二乘估计不再是有效估计。回归分析Analyze－>Regression 可实现：线性回归：简单线性回归和多元线性回归，由Linear过程实现分类变量为因变量的回归二项Logistic回归多项Logistic回归Ordinal回归Probit回归非线性回归曲线估计非线性估计权重估计两阶最小二乘最优尺度回归分析分析步骤做出散点图观察变量间的趋势。多个变量则做出散点图矩阵、重叠散点图和
三维散点图考察数据

的分布，做必要的预处理
分析变量的正态性和方差齐等问题。进行直线回归分析残差分析，检查残差的独立性和正态性强影响点的诊断和多重共线性问题的判断回归分析常用指标偏回归系数：反映相应一个自变量上升一个单位时，应变量取值的变动
情况决定系数R2即相应的相关系数的平方，用R2表示。反映应变量y的全部变异中能够
通过回归关系被自变量解释的比例。R2越接近1越好。多元回归时，决定系数缺乏可靠性，此时可参考调整的决定系数R2回归分析回归直线意义的F检验统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因
变量的解释力度很差，拟合的回归直线没有意义，相反若概率值(SPSS
中以sig表示，越小越好)残差的独立性检验Durbin-Watson检验的参数D的取值范围是0自变量越独立。见下图回归分析－SPSS实现一元回归分析引例研究我国31个省市自治区的人均食品支出与人均收入的依存关系，
数据见“人均食品支出.sav”回归分析－SPSS实现Regression->LinearDependent:人均食品支出,Independent(s):人均收入设置Statistics ，Plot选项回归分析－SPSS实现部分输出结果常数项的检验结果是其影响不显著的，所以需要进一步改善
模型，考虑建立不含常数项的回归方程回归分析－SPSS实现不含常数项的回归模型的部分输出结果回归诊断诊断模型：残差分析残差分析用于判断你对模型的假定是否符合：线性关系；误差项等方差；误差项相互独立；误差项正态分布；还可以检测出异常值和有影响的点回归分析－SPSS实现残差分析结果回归分析－SPSS实现回归诊断－异常值探查SPSS中设定和检测异常值Regression->Linear->Statistics Residuals－>Case diagnostics :设定超过几倍标准
差的观测作为异常值(Outliers outside n standard
deviations）残差散点图回归诊断－异常值探查以数据”人均食品支出.sav“，为例，进行异常点检Regression->Linear->StatisticsResiduals->case diagnostics ,并选中outlier
outside ….，填入2Plots: Scatter：ZRESID->Y, ZPRED->X ,做残差与
预测值的散点图回归分析－异常值探查输出结果因变量和自变量？事实上，只要系数之间是线性组合的，并可通过变
换可转换为线性方程的，都可尝试用线性模型进行
拟合一般线性模型潜在的一些假设回归方程具有特定的形式。例如，因变量表示为截距、自变量的线
性组合，及残差的和。不满足这一假设，可能原因忽略了重要的自变量包含了不相关的自变量非线性－因变量和自变量之间的关系是非线性

的变动的参数－数据收集期间，方程中参数不是常数非可加性－自变量中某个给定变量的影响是附随着其
它变量的残差为零均值。违反该假设，易导致截距的有偏估
计残差不是自相关的所有自变量都是非随机的观测数大于未知系数在解释变量之间不存在确切的线性关系练习数据：world95.sav目的：利用生育率(fertility)预测妇女的平均预期寿命
（lifeexpf）要求：探索性分析两个变量，探察两个变量中是否存在异常点？您
获得的对两个变量的哪些认识？做两个变量的散点图，建立两个变量的线性回归模型，是否合理呢？利用生育率来预测妇女的预期寿命。并设置相关选项，以进一步检验关于线性回归的一些假定此数据满足吗？并进行回
归诊断，对模型的系数进行解释。从输出结果，您是否可以
得出如果妇女多要一个小孩对她的寿命有多大影响吗？练习数据：waste.sav要求：提出有意义的问题有时比解决问题更重要利用学过的统计方法，看看您能够进行哪些分析，从各种分
析中，您能够得出哪些有意义的结论多元线性回归分析多元回归分析研究多个变量间的关系，因变量如何受到多个自变量的影响，用多
个自变量预测因变量的值多元线性回归是研究多个变量间因果关系的常用方法之一多个变量中有一个是因变量。其它的变量都是自变量，个数在两个以上每个自变量和因变量之间的关系都是线性的
例：超市中商品的价格、摆放位置、促销手段如何影响销售量；如何用客户的个人资料（职业、收入、家庭成员人数、婚姻状
况、是否有抵押等）进行信用预测；连锁旅店的利润主要受哪些因素影响；宏观经济指标预测多元线性回归分析多元线性回归的方程为偏回归系数表示在其它变量保持不变的情况下，自变量变动一
个单位所引起的因变量y的平均变动。回归方程的显著性检验（模型拟合效果的检验）自变量的筛选多重共线性问题影响点的探察β
ββ12p、、βi多元线性回归分析方程的检验认识总变差的分解：判定系数：多重相关系数R调整（修正）的判定系数：?
??=
??×221
1 1(1 )nnpAdjRR=2/
RSSRSST2R=+SSTSSRSSE多元线性回归分析方程的检验问题：因变量和所有自变量的集合之间的线性关系是否
显著？检验假设:利用F统计量，构造F统计量及拒绝域结论β
ββ====L012: 0pHα??==>??/
/(1)(, 1)SSRp
MSR
MSESSEnpFFpnp多元线性回归分析回归系数的检验目的：检验每个自变量对因变量的线性影响是
否显著检验假设：利用t检验，构造t统计量及拒绝

域结论β
β=≠01: 0 : 0iiHH多元线性回归分析自变量筛选自变量筛选的目的多元回归分析引入多个自变量。如果引入的自变量个数较少
，则不能很好的说明因变量的变化；并非自变量引入越多越好有些自变量可能对因变量的解释没有贡献，留在模型中的自变量
应该是对因变量的变化贡献较大的变量自变量间可能存在较强的线性关系，即：多重共线性，因而不能
全部引入回归方程多重共线性问题多元线性回归分析－自变量筛选自变量筛选方法全回归法－Enter向前删除法－Forward向后删除法－Backward 逐步回归法－Stepwise强迫剔除法－Remove多元线性回归分析－SPSS实现例：一汽车工业集团跟踪调查了其不同车型的销
售情况，该集团希望建立合理的模型，以期发现
不同类型的车型与销售额的关系，以探察影响销
售额的模型car_sales.savSPSS实现：Analyze->Regression->LinearLog-transformed sales
Dependent （这是一种经验做
法，因为对数销售额比销售额更接近正态分布）Vehicle type [type]
…Fuel efficiency (mpg)->
Independent(s)Statistics选项：Estimates, Model fit 以上设置，将建立Vehicle type [type]
…Fuel
efficiency (mpg)等10个变量为自变量，对数销售额为
因变量的多元回归模型多元线性回归分析－SPSS实现输出结果：见下面的方程分析表从模型的F检验的结果来看，方程是有意义的。从以上R2看出，模型解释了对数销售额近一半的变差多元线性回归分析－SPSS实现近一步分析，我们希望找出哪些自变量对销售额的影响
更大？可以通过标准化系数的绝对值大小，衡量哪个变量对因
变量的影响最大通过标准化系数估计值，可以看出Price in thousands对
数销售额的影响较Vehicle Type大多元线性回归分析－SPSS实现尽管从以上的输出结果，模型看似较好，但是从下表
我们发现……偏回归系数中有很多是非显著的，表明它们相应的自变量可能
对销售额并没有显著影响，因此模型中引入这些变量并没有什
么实际意义！多重共线性问题出现上述矛盾结果的原因是什么呢？以上的现象正是我们在多元回归中必须关注的问题在多元线性回归模型中，
是指自变量之间存在线性相关的关系多重共线性存在时会使得系数估计的标准误差增大，从而使得模型的预测精度会大大地降低。我们将无法确定任一自变
量对因变量的单独影响。单个系数的符号可能与实际不符多重共线性问题多重共线性的标志R平方较大但没有几个显著的t统计量，预示着多重共线性的
存在。实际上，有可能回归方程的F统计量高度显著，而每

个t统计量不显著一对或多对解释变量的简单相关系数相对比较高可能意味着
多重共线的存在例：从前面的多重回归分析的模型的输出结果，我们已经看到模型整体是显著的，但是对于模型系数的检验却表明，很
多变量对Sales的影响并非显著。表明前面所建立的模型很
可能存在共线性的问题识别多重共线性SPSS提供了多种共线性的诊断方法，包括：容限法、
方差膨胀因子法、特征值方法和方差比例法相关说明：：即某一自变量不能被其它变量解释的
变差占其总变差的百分比。因此容限越小表明该变量
与其它变量的相关性越强(Variance Inflation Factors,简记作
): 刻画了相比多重共线性不存在时回归系数估计的方
差增大了多少。越大说明多重共线性问题越严重。其中是自变量关于模型中其余自变量线性回归模型的
。称为容限经验法则：VIF >10==
?211
1j
jjVIF
RTOL2
jRjx2RjTOL识别多重共线性特征值法当有的特征值接近于0时，表明变量间具有高度的相关性，
数据值的改变可能导致系数估计较大改变条件指数条件指数大于15说明可能存在共线性的问题，条件指数大
于30时，说明有严重的共线性问题方差比例法对于大的条件指数，如果同时存在两个以上变量的方差分量大于50％，则说明这些变量间存在共线性的问题多重共线性问题－SPSS实现续car_sales.sav分析Statistics->Part and partial correlations,Collinearity
diagnostics多重共线性问题－SPSS实现输出其中Zero-order correlation即Pearson correlation, 简单相关系数，
part and partial correlation 指部分相关和偏相关。可以看到：“Price
in thousand”的部分相关和偏相关系数相对一阶零相关系数，减少很多，
这表明“Price”对Sales的影响中，一部分是由于与Price有关的自变量产生的。多重共线性诊断－SPSS实现从容限(tolerance)可以看出，对于给定的自变量，其变化程度大
约有70%-90%是可以通过其它变量来解释的多重共线性问题－SPSS实现从方差膨胀因子(VIF)输出结果来看，最小值为3.293.通常方
差膨胀因子大于2就可能存在共线性的问题多重共线性问题－SPSS实现Linear Regression->Statisticscollinearitydiagnostics 进行共线性“诊断”大部分特征值接近于0，表明自变量之间是高度线性相关的，即便
是自变量的微小变动，都可能导致回归系数估计值的很大波动多重共线性问题－SPSS实现输出的条件数进一步印证了该模型的高度共线性性。注意到
，大多数自变量的条件数大于15多元线性回归分析-逐步回归分析如何来解决共线性的问题？共线性问题不仅增大模型复杂度，而且降低

了模型精度！如何建立恰当模型，使模型仅仅包含有用的变量？－可以克服共线性,因为此时模型将只
保留对因变量有一定影响的变量Linear RegressionMethod->stepwise（逐步）多元线性回归分析-逐步回归分析部分输出结果由上表可以看出：逐步回归方法最终选择price in thousands
（价格）,Wheelbase, Engine size, horsepower建立模型回归系数均是显著的，即所选因变量都是对Sales有显著影响的多元线性回归分析-逐步回归分析只选入两个自变量建立模型，那么模型整体的精确性如何？可以看出最终确定的模型是有意义的10个预
测因子
2个预
测因子多元线性回归分析-逐步回归分析多重共线性性是否依然存在？从多重共线性的“诊断”结果可以看出，表明逐步回归的方法克服了
多重共线性的问题，但是似乎还存在一些问题？原因何在呢？多元线性回归分析-逐步回归分析关于方程系数的检验能否进一
步改进？多元线性回归分析-逐步回归分析去掉截距项后的部分输出结果多元线性回归分析-逐步回归分析通过了模型及其系数显著性检验和共线性性诊断，有必要理解模
型的意义！模型最终选择价格（price）和大小（指Wheelbase-z轴距大小），及类
型（Vehicle type）作为预测变量.可以看出价格对销量Sales的影响是
负面的，即价格升高销量将下降，而对于Wheelbase，这是越大越有利于
销售。应该注意Vehicle type的解释，它的系数表明在其它同等情况下
，卡车（truck）比汽车（automobile）的销量好结论：基于以上的模型，我们可以说车型大且便宜的卡车销量相对其它
型车销量好残差分析模型的残差中蕴含着丰富的信息，通过分析残差可以实现对
所建模型的相关诊断几种残差简介残差标准化残差删除残差标准化残差学生残差学生删除残差多元线性回归分析-回归诊断多元线性回归的回归诊断检验模型假定是否成立与一元线性回归一样,通过残差分析，检验有关假定是否成立，
如正态性、独立性、等方差性等异常值探查通过标准化残差来探察影响点探查所谓影响点，是指其非标准化残差并不大，但删去后回归直线
发生很大改变的点影响点的检测主要包括以下几种方法与杠杆率有关的检测逐步排除异常个案是否影响回归系数的方差多元线性回归分析-回归诊断影响点的检测方法与杠杆率有关的检测LEVER centered leverage,是各观测自变量的各取值在模型中
作用的度量。该值越大，表明影响力越大。一般认为超过
2×(p/N),则影响力过大COOK
’s距离，用于衡量第i个观测被删除后，

回归系数的改变。
是残差和中心化杠杆率的函数。Cook’s 值越大，影响力越强。
经验上，一般COOK’s距离大于1 ，通常认为是影响点Mahanobis距离：为杠杆值的n-1倍，是自变量上个案的值与所
有个案的平均值相异程度的度量。大的Mahalanobis距离表示
个案在一个或多个自变量上具有极值多元线性回归分析-回归诊断影响点的检测方法逐步排除异常个案回归系数的变化及其标准化DfBeta,从模型中删去一个特定观测后，比较回归系数的前后变化标准化DfBeta，通常该值大于2/sqrt(n)时，认为是影响点预测值变化及其标准化DfFit从模型中删除某个观测后引起的预测值的变化标准化DfFit，通常默认的标准是该值大于2/sqrt(p/n)时，为影响
点。其中p为包括常数项的参数个数多元线性回归分析-回归诊断影响点的检测方法是否影响回归系数的方差协方差比例，指的是个案对参数估计的“方差－协方差矩
阵”的影响度，等于删除后协方差矩阵行列式/全部个案的
协方差矩阵的行列式、接近于1时，表明影响不大。经验
上|协方差比例－1|>3×（P/N）的点可视为影响点多元线性回归分析-回归诊断以Car_sales.sav逐步回归模型为例Linear Regression Plots选项:Scatter: SDRESID->Y, ZPRED->X，选择HistogramSave选项:Predicted Values,Residuals均选择
Standarized,Distances:Cook’s，LeverageStatistics选项-Residuals:选择Casewisediagnostics,选中Outliers outside，并填入“2”（即把绝对值超过2倍标准差的
标准化残差作为“Outliers”）多元线性回归分析-回归诊断部分输出结果标准化残差的直方图显示出，除个别观测外，残差基本上服从
正态分布进一步探查这些
”个别观测”，看以下Casewisediagnostics的输
出结果多元线性回归分析-回归诊断Casewisediagnostics 输出结果”3000GT”与“Cultass”具有最大的负的残差，也就是说相对于其它型
号的汽车，这两种型号的汽车市场销量要差一些多元线性回归分析-回归诊断残差的进一步分析：残差对选入模型的各自变量的散点图残差对价格(Price in thousands)的散点图：注：若模型建立的充分，标准化残差分布应该与自变量无关，并且基本以0为中
心，在[-2,2]内上下波动多元线性回归分析-回归诊断标准化残差对Wheelbase及Vehicle type的散点图：“残差”中蕴藏着无穷奥妙，实际问题中要充分利用残差分析，
来建立尽可能优良的模型多元线性回归分析-回归诊断影响点的探查：SPSS实现继续对“car_sales.sav”的分析Linear RegressionSave->Distances: 选择Cook‘s, Leverage values（SPSS将保
存这些变量，可以进行影响点的分析）Graphs

－Scatter/DotCook
’s Distance ->Y Axis, centered leverage value->X
AxisModel->Label Cases by多元线性回归分析-回归诊断从输出结果可以看出，“3000GT”具
有最大的Cook’s距离（Cook’s
Distance）,但是它的中心杠杆率
（Centered Leverage Value）较
小，因此该观测并不会模型参数的
估计有太大的影响再看右下角CL500
”等观测，尽管它
们具有较大的中心杠杆率，但是
Cook‘s 距离确较小，所以这些观测
可能并不会对模型参数的估计有过
度的影响但是观测
“SL-Class ”同时具有较大
的Cook’s距离和中心杠杆率，所以
可以认为SL-Class相应的观测为影
响点多元线性回归分析-回归诊断以上通过散点图的方法，探查影响点。另外，也可以通
过各观测对应的标准化DfBeta(s)，DfFit的序列图（
sequence），来探查影响点Linear RegressionSave选项：选择算StardardizedDfBeta(s), Stardardized
DfFit，则SPSS将把这些变量保存到数据集Graph->sequence SDF_1->Variables,ok
以上设置将生成DFFIT的序列图Graph->sequence
SDB0_1,SDB1_1, …SDB10_1->variables, ok
该设置将生成DfBeta(s)序列图多元线性回归分析-回归诊断输出结果(注：按照默认标准，此时DfFit)从以上序列图中很明显地可以看出，Prowler相应的观测为强影响点多元线性回归分析-回归诊断练习数据：world95.sav要求：建立female life expectancy关于fertility,grossdemestic
product(GDP)/capita, density of population,percentof people
living in cities ,and female literacy的多元线性回归模型。具体问
题如下先利用探索性分析，了解这些预测因子（自变量）的分布情况，是否有些
国家在这些变量上的取值同时是异常的？利用散点图了解female life
expantancy与其余几个自变量之间的关系，存在明显的异常点吗？建立female life expectancy关于以上所列出的几个自变量的线性回归方
程。描述该回归模型。哪个变量是显著的预先因子呢？哪个变量是最好的
预测因子呢？线性回归的假定满足吗？是否存在可能影响结果的异常观测
呢？练习数据：world95.sav要求：首先利用逐步回归的方法，建立female life expectancy关于
fertility,grossdemesticproduct(GDP)/capita, density of
population,percentof people living in cities ,and female
literacy，population increase和the log of population to predict
female lift expectancy，最佳的拟合模型是什么？利用backward(向后)方法，同样利用以上的因变量和自变量建立回归方程
，两种方法拟合出的回归方程一致吗？练习数据：world95.sav要求：对于以上练习中，由backward(向后)方法建立的回归方程进行共
线性诊断。您需要完成以下练习对该方法所选出

的自变量进行相关性分析，是否存在明显的迹象表明潜
在的共线性的存在呢？建立female life expectancy关于backward方法所出来的预测因子之间
的线性回归方程，并进行共线性诊断。您有发现共线性现象存在？存在
的话，是什么呢？如果时间允许的话，试图找到其它解决共线性的办法移出变量female literacy，重新建立回归方程。是否共线性问题有所
减轻呢？如果仍存在共线性问题，现在是否可以忽略呢。移出变量female literac，重新建立female life expectancy关于backward方法所出来的预测因子之间的线性回归方程，并要求进行影响
点探察，包括标准化残差，Cook’s距离，以及其它的您偏好的指标练习利用Case Summarizes（个案汇总）过程来列出这些统计量的取值
。记得把变量country添加到变量列表中，以便识别个案。您有发
现异常值吗？根据汇总结果，您是否会建议在分析中移出一些国家
呢？为什么？重新以上建立回归方程，但不包括country变量为，Kuwait. Saudi
Arabia和United Arab Emirates的个案。这次您得出什么结果呢？
异常点的问题解决了吗？