应用数理统计大作业1——逐步回归法分析终

合集下载

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终应用数理统计多元线性回归分析（第一次作业）学院：机械工程及自动化学院姓名：学号：2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要：本文针对自动化物料搬运系统 (Automatic Material Handling System，AMHS)的仿真结果，根据逐步回归法，使用软件IBM SPSS Statistics 20，对仿真数据进行分析处理，得到多元线性回归方程，建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型，并对影响年产量箱数的显著性因素进行了分析，介绍了基本假设检验的情况。

关键词：逐步回归；残差；SPSS；AMHS；物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (6)3.1确定自变量和因变量 (6)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (9)4.1输入／移去的变量 (9)4.2模型汇总 (10)4.3方差分析 (10)4.4回归系数 (11)4.5已排除的变量 (12)4.6残差统计量 (13)4.7残差分布直方图和观测量累计概率P-P图 (14)5、异常情况说明 (15)5.1异方差检验 (15)5.2残差的独立性检验 (17)5.3多重共线性检验 (17)6、结论 (18)参考文献 (20)1、引言回归被用于研究可以测量的变量之间的关系，线性回归则被用于研究一类特殊的关系，即可用直线或多维的直线描述的关系。

这一技术被用于几乎所有的研究领域，包括社会科学、物理、生物、科技、经济和人文科学。

逐步回归是在剔除自变量间相互作用、相互影响的前提下，计算各个自变量x与因变量y之间的相关性，并在此基础上建立对因变量y有最大影响的变量子集的回归方程。

SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一，目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution，意为“统计产品与服务解决方案”。

北航数理统计第一次大作业

数理统计第一次课程论文广州恒大队在２0１5赛季亚冠的进球数的多元线性回归模型学号： SＹ15272０5姓名：郭谢有摘要本赛季亚洲冠军联赛，来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队，三年之内第二次夺得亚冠冠军。

为了研究恒大的夺冠过程，本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

最终确定了进球数与各因素之间关系的“最优”回归方程。

关键词：多元线性回归,逐步回归法，广州恒大,SPSS目录摘要 (1)1.引言 (3)2.符号说明 (3)3.数据的采集和整理 (3)3.1数据的采集 (3)3.2建模 (4)4.数据分析及计算 (4)4.结论 (9)参考文献 (10)致谢 (10)1.引言一场足球比赛的进球数说明了一支球队攻击力的强弱，也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。

而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。

并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析，从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。

２.符号说明3.数据的采集和整理３.1数据的采集本文统计数据时，查阅了搜达足球数据库，确定恒大在亚冠1４场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量，具体数据见下表1。

3.２建模本文选取了恒大在亚冠比赛中的进球数作为因变量y，并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。

这里构建模型如下：7⋅X i+εy=β0+∑βii=1其中,其中ε为随机误差项，β0为常数项，βi为待估计的参数。

逐步回归分析

逐步回归分析逐步回归分析１、逐步回归分析的主要思路在实际问题中, ⼈们总是希望从对因变量有影响的诸多变量中选择⼀些变量作为⾃变量, 应⽤多元回归分析的⽅法建⽴“最优”回归⽅程以便对因变量进⾏预报或控制。

所谓“最优”回归⽅程, 主要是指希望在回归⽅程中包含所有对因变量影响显著的⾃变量⽽不包含对影响不显著的⾃变量的回归⽅程。

逐步回归分析正是根据这种原则提出来的⼀种回归分析⽅法。

它的主要思路是在考虑的全部⾃变量中按其对的作⽤⼤⼩, 显著程度⼤⼩或者说贡献⼤⼩, 由⼤到⼩地逐个引⼊回归⽅程, ⽽对那些对作⽤不显著的变量可能始终不被引⼈回归⽅程。

另外, ⼰被引⼈回归⽅程的变量在引⼊新变量后也可能失去重要性, ⽽需要从回归⽅程中剔除出去。

引⼈⼀个变量或者从回归⽅程中剔除⼀个变量都称为逐步回归的⼀步, 每⼀步都要进⾏检验, 以保证在引⼈新变量前回归⽅程中只含有对影响显著的变量, ⽽不显著的变量已被剔除。

逐步回归分析的实施过程是每⼀步都要对已引⼊回归⽅程的变量计算其偏回归平⽅和(即贡献), 然后选⼀个偏回归平⽅和最⼩的变量, 在预先给定的⽔平下进⾏显著性检验, 如果显著则该变量不必从回归⽅程中剔除, 这时⽅程中其它的⼏个变量也都不需要剔除(因为其它的⼏个变量的偏回归平⽅和都⼤于最⼩的⼀个更不需要剔除)。

相反, 如果不显著, 则该变量要剔除, 然后按偏回归平⽅和由⼩到⼤地依次对⽅程中其它变量进⾏检验。

将对影响不显著的变量全部剔除, 保留的都是显著的。

接着再对未引⼈回归⽅程中的变量分别计算其偏回归平⽅和, 并选其中偏回归平⽅和最⼤的⼀个变量, 同样在给定⽔平下作显著性检验, 如果显著则将该变量引⼊回归⽅程, 这⼀过程⼀直继续下去, 直到在回归⽅程中的变量都不能剔除⽽⼜⽆新变量可以引⼊时为⽌, 这时逐步回归过程结束。

２、逐步回归分析的主要计算步骤(1) 确定检验值在进⾏逐步回归计算前要确定检验每个变量是否显若的检验⽔平, 以作为引⼈或剔除变量的标准。

实用统计学—11.逐步回归分析

从未解释变差 (残差平方和)角度考虑, 图中 ||e||2是中心化数据 y 对所有自变量 (x2, ·, xk )回归的未解释变差(残差 · · 平方和), ||e*||2是中心化数据 y 对自变量x3, ·, xk (剔除了 · · x2 )回归的未解释变差 (残差平方和).由勾股定理, 得||e*||2 - ||e||2 = ||e(2) ||2. ||e(2) ||2就是未解释变差的增加部分, 也就是变量 x2 的偏解释变差V2 .
2
( n k )V k / Q
与统计量 Fj = (n-k)Vj / Q 完全相同.
2、逐步回归法
逐步回归法的基本思想：在考虑 Y 对已知的一群变量( X2, ·,Xk )回归时, 从变量X2, · · ·,Xk中, 逐步选出对已解释变差的贡献 (也就是偏解释变差) · · 最大的变量,进入回归方程. 而对已解释变差的贡献大小的判别依据, 就是包含了偏解释变差的 F 统计量Fj. 统计量Fj 的值 fj 最大的 xj , 先进入方程; 最后一个进入方程的自变量 xj , 也应当满足: 统计量的值 fj 的显著性概率 p 小于等于选定的显著性水平 (即, 要求其系数 j 显著异于 0). 逐步回归法也可以按照反过来的顺序进行. 先把 Y 对所有的自变量 X2, ·,Xk 回归, 然后逐步把 fj 最小的 xj 剔除出方程. · · 所有剔除出方程的 xj , 在剔除时, 其统计量的值 fj 的显著性概率 p 大于选定的显著性水平 (即, 要求其系数j 与 0 没有显著性差异).
从 2 (n-k)分布)相互独立.
ˆ2 若再记: V )Vj / Q 服从F ( 1, n-k) 分布.
把 Fj 的显著性概率 p 与置信度水平比较, 就可以判断一个变量 xj 是否应当成为自变量:

数理统计北航大作业

北京市财政收入的逐步回归模型研究摘要：财政收入水平高低是反映一国经济实力的重要标志，关系着一个国家经济的发展和社会的进步。

本文根据北京市2012年度统计年鉴，选取了农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值，共10个指标，对北京市财政收入及其可能的影响因素进行了研究。

文中运用逐步线性回归方法建立了多元线性回归模型，分析各因素对该地区财政收入的影响；利用SPSS软件进行求解。

通过分析SPSS软件计算的数据，从相关性检验、多重共线性检验、方差分析以及残差分析四个角度，分别对模型合理性进行了验证。

结果表明，北京市财政收入与建筑业总产值和农林牧渔也总产值呈显著线性关系。

其中与建筑业正相关，与农林牧渔业负相关。

关键字：财政收入，多元，逐步线性回归，SPSS1. 引言财政收入是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而集中的一切资金的综合，包括税收、企事业收入、能源交通重点建设基金收入、债务收入、规费收入、罚没收入等[1]。

财政收入水平高低是反映一国经济实力的重要标志，关系着一个国家经济的发展和社会的进步。

因此，研究财政收入的增长及就显得尤为必要[2]。

一个地区的财政收入可能受到诸多因素的影响，如工业总产值、农业总产值、建筑业总产值、人口数等。

本文以北京市为例，以财政收入为因变量，选取农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值这10个指标为自变量，利用SPSS统计软件进行回归分析，建立财政收入影响因素模型，分析影响财政收入的主要因素及其影响程度。

2. 理论概述2.1 多元线性回归[3]在许多实际问题中，影响一个事物的因素常常不止一个，采用多元线性回归分析方法可以找出这些因素与事物之间的数量关系。

数理统计第一次大作业——回归分析

北京市农业经济总产值的逐步回归分析姓名：学号：摘要：农业生产和农村经济是国民经济的基础，影响农村经济总产值的因素有多种，主要包括农林牧渔业。

本文以北京市农业生产和农村经济总产值为对象，首先分析了各种因素的线性相关性，建立回归模型，再利用逐步回归法进行回归分析，得到最符合实际情况的回归模型。

以SPSS 17.0为分析工具，给出了实验结果，并用预测值验证了结论的正确性。

关键词：农业生产和农村经济，线性回归模型，逐步回归分析，SPSS1.引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。

军委系统的农林牧渔业生产（除军马外）也应包括在内，但不包括农业科学试验机构进行的农业生产。

在近几年中国经济快速增长的带动下，各地区农林牧渔业也得到了突飞猛进的发展。

以北京地区为例，2005年的农业总产值为1993年的6倍。

因此用统计方法研究分析农业总产值对指导国民经济生产，合理有效的进行产业布局，提高生产力等有着重要意义。

表1 北京市农业经济产值及各产品产量统计数据本文以北京市农生产为对象，分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系，并建立农业经济总产值的回归模型。

表1中列出了1999年至2008年间的统计数据（数据来源于北京统计信息网）。

2.线性回归模型的建立2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系，必须要建立二者之间的数学模型。

数学模型可以有多种形式，比如线性模型，二次模型，指数模型，对数模型等等。

而实际生活中，影响农业经济总产值的因素很多，并且这些因素的影响不能简单的用某一种模型来描述，所以要建立农业经济总产值的数学模型往往是很难的。

但是为了便于研究，我们可以先假定一些前提条件，然后在这些条件下得到简化后的近似模型。

以下我们假定两个前提条件：1) 农产品的价格是不变的。

经典推荐逐步回归分析法及其应用

经典推荐逐步回归分析法及其应用导读：逐步回归分析是多元回归分析中的一种方法，在经济研究建模中发挥着重要的作用。

文章系统介绍了逐步回归分析，并分析了逐步回归分析在经济研究（建模与预测）中的应用步骤与需要注意的问题。

来源 | 统计与决策作者丨游士兵，严研，武汉大学经济与管理学院原文有删减01引言逐步回归分析是多元回归分析中的一种方法。

回归分析是用于研究多个变量之间相互依赖的关系，而逐步回归分析往往用于建立最优或合适的回归模型，从而更加深入地研究变量之间的依赖关系。

目前，逐步回归分析被广泛应用于各个学科领域，如医学、气象学、人文科学、经济学等。

经济现象纷繁复杂并多变，经济问题往往需要研究一个（或多个）变量（如一国的产出）与其他变量（如资本、劳动力、人口、技术等）相互间的关系，从而揭示经济现象背后的经济规律，用于解决现实中的经济问题，制定经济政策等。

因此，多元回归分析在现代经济学，尤其是其分支学科计量经济学中常常得到应用。

随着统计学与计量经济学软件的开发与应用，经济研究者在经济学的实证分析过程中越来越多的采用逐步回归分析的方法来建立多元回归模型。

因此，研究逐步回归分析及其在经济学研究中的应用具有理论与实践意义。

目前，国内外对于逐步回归分析的研究主要停留在理论叙述，不少学者提出了修正逐步回归法的新方法，如类逐步回归法、基于单元步的逐步回归法、“宜取回归方程”的逐步回归法等。

赵希男（1994）提出并在理论上证明可将逐步回归算法从静态系统拓广到其他系统（动态系统、分布参数等系统）。

传统的逐步回归法通常用于静态系统，即自变量为非随机变量时。

当自变量为分布型变量时，基于传统的逐步回归法，由于统计量的分布非常复杂，基于统计量的算法难以实现。

该文运用泛函分析，按照传统逐步回归法一致思想和相似的步骤，加以拓广，以有效性（剩余相关系数）为标准剔除或是引入变量，从而使得逐步回归法应用范围更广。

张华嘉、舒元（1998）提出单元步的概念来修正传统逐步回归法，并以实例证明这种方法的优势。

北航数理统计大作业(逐步回归)

应用数理统计
第一次大作业
学号：姓名：班级：
? B11 班
2015 年 12 月
民航客运量的多元线性回归分析
摘要：本文为建立以民航客运量为因变量的多元线性回归模型，选取了 1996
年至 2013 年的统计数据，包含国民生产总值，民航航线里程，过夜入境旅游人数，城镇居民可支配收入等因素，利用统计软件 SPSS 对各因素进行了筛选分析，采用逐步回归法得到最优多元线性回归模型，并对模型的回归显着性、拟合度以及随机误差的正态性进行了检验，并采用 2014 年的数据进行检验，得到的结果达到预期，证明该模型建立是较为成功的。
12123
111764
13827
115583
15968
125656
18576
135670
19251
146193
23052
152451
26769
168145
29316
473104
146192
31896
189337
35397
210597
模型的建立
以民航客运量 y 为因变量，以上 5 种影响因素为自变量 Xi ，构建回归方程：
通过最优回归方程，我们可以发现航空客运量与城镇居民的可支配收入线性相关十分显着，这是符合常识的，只有居民可支配收入越来越高，才会选择航空这种昂贵的客运方式。
图7
参考文献：
[1] 2015 年中国统计年鉴 [2] 孙海燕、周梦、李卫国、冯伟. 应用数理统计.北京航空航天大学出版社，2009
[3] 朱卫卫. 基于偏最小二乘回归的我国民航客运量影响因素分析[J]. 中国市场. 2010(41): 110-112 精心搜集整理，只为你的需要

数理统计大作业

数理统计大作业-标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII应用数理统计（论文）国家财政收入的逐步回归分析指导教师院系名称学号学生姓名2012年11月18日摘要财政收入是国民经济基础，是实现国家职能的财力保证。

本文采用SPSS统计软件中的逐步回归分析方法，得出影响我国财政收入的显著性变量，建立国家财政收入回归模型，并将所得的模型给予合理的经济解释。

关键字：国家财政收入，逐步回归，SPSS1 引言财政收入是指国家财政参与社会产品分配所取得到的收入，是实现国家职能的财力保证。

影响财政收入的因素有很多，包括工业总产值、农业总产值、建筑业总产值、社会商品零售总额、人口数、受灾面积等等。

在经济模型的建立中，其中有些自变量对问题的研究可能并不重要，有些自变量数据的质量可能很差，有些变量可能和其它变量有很大程度的重叠。

如果用回归模型把这些变量都包含进来不但会使模型计算复杂，而且往往会扩大估计方差，降低模型精度，直接影响到回归方程的应用。

另外，选进太多的自变量又会造成共线性的存在。

因此，本文采用线性回归中的逐步回归方法，利用SPSS多元统计软件得出影响我国财政收入的显著性变量，剔除了不显著的变量，并且克服了变量间的多重共线性，得出了一个较合理的财政回归模型。

2初始模型的建立及数据分析2.1 自变量与因变量的提出本模型是研究1997年至2011年国家财政收入与主要影响因素之间的定量关系。

本文选取财政收入Y(亿元)为因变量，自变量选取如下：第一产业国内生产总值X1(亿元)，第二产业国内生产总值X2(亿元，第三产业国内生产总值X3(亿元)，社会消费品零售总额X4（亿元），人口数X5（万人），受灾面积X6（万公顷）。

根据《中国统计年鉴》获取1997-2011年共十五年的统计数据，见表1。

表11997-2011年财政收入与部分项目的统计数据财政收入（亿元）第一产业国内生产总值（亿元）第二产业国内生产总值（亿元）第三产业国内生产总值（亿元）社会商品零售总额（亿元）人口总数（万人）受灾面积（万公顷）1997 8651.14 14441.89 37543.00 26988.15 31252.90 123626.00 5342.70 1998 9875.95 14817.63 39004.19 30580.47 33378.10 124761.00 5014.50 1999 11444.08 14770.03 41033.58 33873.44 35647.90 125786.00 4998.00 2000 13395.23 14944.72 45555.88 38713.95 39105.70 126743.00 5468.80 2001 16386.04 15781.27 49512.29 44361.61 43055.40 127627.00 5221.50 2002 18903.64 16537.02 53896.77 49898.90 48135.90 128453.00 4694.60 2003 21715.25 17381.72 62436.31 56004.73 52516.30 129227.00 5450.60 2004 26396.47 21412.73 73904.31 64561.29 59501.00 129988.00 3710.60 2005 31649.29 22420.00 87598.09 74919.28 67176.60 130756.00 3881.80 2006 38760.20 24040.00 103719.54 88554.88 76410.00 131448.00 4109.10 2007 51321.78 28627.00 125831.36 111351.95 89210.00 132129.00 4899.20 2008 61330.35 33702.00 149003.44 131339.99 114830.10 132802.00 3999.00 2009 68518.30 35226.00 157638.78 148038.04 132678.40 133450.00 4721.40 2010 83101.51 40533.60 187383.21 173595.98 156998.40 134091.00 3742.60 2011 103874.43 47486.20 220412.80 204982.50 183918.60 134735.00 3247.10 2.2 做散点图，设定理论模型作数据散点图，并进行线性拟合，观察因变量与自变量之间关系是否有线性特点。

逐步回归分析法及其应用

逐步回归分析法及其应用逐步回归分析法是一种广泛应用于统计学和数据分析领域的统计技术，它被用来探索变量之间的关系，以及预测和解释数据的模式。

逐步回归分析法通过逐步添加变量和移除变量，找到最优的变量组合来解释因变量，同时使模型的复杂性最小化。

本文将介绍逐步回归分析法的基本原理、应用场景、案例分析以及需要注意的事项。

逐步回归分析法的基本原理逐步回归分析法基于最小二乘回归，通过向前逐步添加变量和向后逐步移除变量来建立最优的回归模型。

它通过构造一个评价函数，如AIC (Akaike Information Criterion)或BIC (Bayesian Information Criterion)，来评估模型的复杂度和拟合度。

逐步回归分析法的目标是找到一个既能解释因变量又能使模型复杂性最小的最优模型。

应用场景逐步回归分析法适用于多种数据分析和统计学应用场景，例如：因果分析：通过逐步回归分析法，可以找出哪些自变量对因变量有显著影响，以及它们的影响程度。

特征选择：在处理高维数据时，逐步回归分析法可以用来选择最重要的特征，以便构建更有效的模型。

时间序列预测：通过逐步回归分析法，可以建立时间序列预测模型，预测未来的趋势和变化。

案例分析以一个实际的例子来说明逐步回归分析法的应用。

假设我们有一个数据集包含了汽车的各项性能指标（如马力、油耗、车重等）和汽车的销售价格。

我们想知道哪些性能指标最能影响汽车的销售价格。

我们使用逐步回归分析法建立一个价格预测模型。

通过向前逐步添加变量和向后逐步移除变量，我们最终找到了一个最优模型，该模型仅包含两个变量：马力（Horsepower）和车重（Weight）。

这个模型告诉我们，汽车的马力越大、车重越轻，销售价格就越高。

接下来，我们使用残差和斜率进一步分析这个模型。

残差是实际值与模型预测值之间的差异，斜率是因变量对自变量的变化率。

通过观察残差和斜率，我们可以得出以下马力对价格的影响比车重更大，因为马力的斜率大于车重的斜率。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

应用数理统计大作业1——逐步回归法分析终-标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII应用数理统计多元线性回归分析（第一次作业）学院：机械工程及自动化学院姓名：学号：2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要：本文针对自动化物料搬运系统 (Automatic Material Handling System，AMHS)的仿真结果，根据逐步回归法，使用软件IBM SPSS Statistics 20，对仿真数据进行分析处理，得到多元线性回归方程，建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型，并对影响年产量箱数的显著性因素进行了分析，介绍了基本假设检验的情况。

这一技术被用于几乎所有的研究领域，包括社会科学、物理、生物、科技、经济和人文科学。

SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能，而且用它处理正交试验设计中的数据程序简单，分析结果明了。

基于以上优点，SPSS已经广泛应用于自然科学、社会科学中，其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。

本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”，在庆安集团新建的320厂房建立自动化物料搬运系统（AMHS），使用生产仿真软件EM-Plant对该系统建模并仿真，设计实验因子及各水平如表1-1，则共有3*4*6=72组实验结果，如表所示。

为方便描述，将各因子定义为：X1表示AGC物料交换服务水平，X2表示周转箱交换周期，X3表示EMS数量，Y表示因变量年产量箱数。

本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系。

表1-1 三因子多水平实验方案表1-2 实验结果2、逐步回归法原理回归分析是研究因变量和自变量之间变动比例关系的一种方法，最终结果一般是建立某种经验性的回归方程。

回归分析因变量的多少有一元回归和多元回归之分，本文中的回归模型因有3个因变量故为多元回归。

在实际研究中，影响因变量Y的因素有很多，而这些因素之间可能存在多重共线性，特别是在各个解释变量之间有高度的相互依赖性，如温度和雨量、雨量与雨日之间的关系密切，这就给回归系数的估计带来不合理的解释。

为了得到一个可靠的回归模型，需要一种方法能有效地从众多影响Y的因素中挑选出对Y贡献大的变量，在它们和Y的观测数据基础上建立“最优”的回归方程。

逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法，它是在多元线性回归基础上派生出来的一种算法技巧。

逐步回归分析法在筛选变量方面较为理想，故目前多采用该方法来组建回归模型。

该方法也是从一个自变量开始，视自变量对Y作用的显著程度，从大到小地依次逐个引入回归方程。

但当引入的自变量由于后面变量的引入而变得不显著时，要将其剔除掉。

引入一个自变量或从回归方程中剔除一个自变量，为逐步回归的一步。

对于每一步都要进行F值检验，以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。

这个过程反复进行，直至既无不显著的变量从回归方程中剔除，又无显著变量可引入回归方程时为止。

本文运用IBM SPSS Statistics 20软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量，组建回归方程。

当F引 =F剔=0时，则所有的变量全部被引入，逐步回归分析结果就和一般的多元线性回归分析结果相同。

当F取值比较大时，理论和实践都表明，在相同的F水平上，用逐步回归筛选出的显著变量个数往往比先引入全部变量后再剔除的办法要少一些。

为了从挑选因子中筛选出尽可能多的因子建立回归预测模型，本系统可以自己给出F 临界值，计算机默认的F引为0.05，F剔为0.1，如果入选的自变量因子数目不多，可通过人为降低F临界值的水平而筛选出更多的因子。

如此时入选的因子太多，可人为提高F临界值的水平而筛选出有代表性因子来组建回归预测模型。

如最后建立的回归预测模型的复相关系数不大，回归模型的拟合精度不太高，可根据这些入选因子来组建多元非线性回归预测模型。

3、模型建立3.1 确定自变量和因变量根据表1-1可知，本文目标是确定年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系，其中AGC物料交换服务水平分为水平1、水平2和水平3，分别表示自动交换、人工交换（积极）和人工交换（消极），周转箱交换周期分为2、4、6和8小时，EMS数量有2、4、6、8、10和12辆。

3.2 分析数据准备打开SPSS软件，在变量视图中定义变量：自变量X1、X2和X3分别表示AGC物料交换服务水平、周转箱交换周期和EMS数量，因变量Y表示年产量箱数，如图3-1所示。

图3-1 定义变量将表1-2中的仿真结果输入到SPSS的数据视图中，如图3-2所示。

图3-2 仿真数据输入3.3 逐步回归分析单击SPSS工具栏中的分析，选择回归→线性，如图3-3所示，打开如图3-4所示的线性回归对话框。

图3-3 线性回归分析图3-4 线性回归对话框在该对话框中选择相应的自变量和因变量，方法中选择逐步，在绘制中选中直方图、正态概率图和产生所有部分图。

图3-5 绘制单击继续后回到线性回归对话框，再单击确定进行回归计算。

4、结果输出及分析逐步回归分析得到的结果为6张表和2幅图，分别为变量引入/剔除方式信息表、模型汇总表、方差分析表、模型回归系数表、被剔除的变量信息表、残差统计表、残差分布直方图和观测量累计概率P-P图。

4.1 输入／移去的变量表4-1 输入／移去的变量a模型输入的变量移去的变量方法1 周转箱交换周期.步进（准则: F-to-enter 的概率 <= .050，F-to-remove 的概率 >= .100）。

2 EMS数量. 步进（准则: F-to-enter 的概率 <= .050，F-to-remove 的概率 >= .100）。

3 AGC服务水平.步进（准则: F-to-enter 的概率 <= .050，F-to-remove 的概率 >= .100）。

a.因变量：年产量箱数表4-1显示变量的引入和剔除，以及引入或剔除的标准。

系统在进行逐步回归过程中产生了3个模型，模型1是按照F检验的标准概率值，先将与Y （年产量箱数）最密切的自变量X2（周转箱交换周期）引入模型，建立Y与X2之间的一元线性回归模型，然后再把X3（EMS数量）引入模型，建立了Y 与X2，X3之间的二元线性模型，最后把X1（AGC服务水平）引入模型，建立了它们与Y之间的三元线性模型。

4.2 模型汇总表4-2 模型汇总d模型R R 方调整 R 方标准估计的误差Durbin-Watson1 .632a .399 .390 11757.832152 .727b .529 .515 10486.436253 .776c .602 .584 9710.99811 .845a. 预测变量: (常量)，周转箱交换周期。

b. 预测变量: (常量)，周转箱交换周期， EMS数量。

c. 预测变量: (常量)，周转箱交换周期，EMS数量， AGC服务水平。

d. 因变量: 年产量箱数表4-2中显示了各模型的拟合情况，回归模型概述表中给出了各模型的相关系数R，用来对生成的模型进行评估，R值越接近于1说明估计的模型对观测值的拟合越好。

从表中可以看出，从模型1到模型3，随着预测变量的增多，相关系数(0.390<0.515<0.584)不断增大，说明模型3是比较好的拟合模型。

4.3 方差分析表4-3显示各模型的方差分析结果，对模型1：F等于46.449，显著性概率Sig. <0.001；对模型2：F等于38.699，显著性概率Sig. <0.001；对模型3：F等于34.237，显著性概率Sig. <0.001，可以认为Y(年产量箱数)与X2(周转箱交换周期)、X3(EMS数量)和X1（AGC物料服务水平）存在高度显著的线性关系。

4.4 回归系数表4-4 系数aa. 因变量: 年产量箱数表4-4中显示各模型的偏回归系数，标准化偏回归系数及其对应的检验值。

根据表中数据非标准化系数B的数值可知，逐步回归过程中先后建立的三个模型分别是：模型1：Y = 54823.917-4223.408X2模型2：Y = 43783.242-4223.408X2+1577.239X3模型3：Y = 53678.408-4223.408X2+1577.239X3-4947.583X1t值表示对回归系数的显著性检验，其概率值Sig小于0.05时才可以认为有意义，即自变量对因变量有显著性影响。

在模型中，系数均小于0.05，可认为回归是显著的。

模型 3中各因子95%的知置信区间为：常亮——[44486.618,62870.198]，周转箱交换周期——[-5244.718，-3202.098]，EMS数量——[908.635,2245.844]，AGC服务水平——[-7744.556,-2150.611]。

4.5 已排除的变量表4-5中显示逐步回归过程所建立的三个模型中剔除掉的变量信息，包括各变量的Beta值、t统计量值、双尾显著性概率、偏相关系数以及多重共线性统计（Collinearity Statistics）的容差。

应用数理统计大作业1——逐步回归法分析终