北航数理统计大作业-多元线性回归

合集下载

多元线性回归模型习题与答案

多元线性回归模型习题与答案

第三章多元线性回归模型习题与答案1、极大似然估计法的基本思想2、多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性的过程中,哪些基本假设起了作用?3、以企业研发支出(R&D)占销售额的比重为被解释变量(Y),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个有32容量的样本企业的估计结果如下:099 .0)046.0()22.0()37.1(05.0)log(32.0472.022 1=++ =RX XY其中括号中为系数估计值的标准差。

(1)解释log(X1)的系数。

如果X1增加10%,估计Y会变化多少个百分点?这在经济上是一个很大的影响吗?(2)针对R&D强度随销售额的增加而提高这一备择假设,检验它不虽X1而变化的假设。

分别在5%和10%的显著性水平上进行这个检验。

(3)利润占销售额的比重X2对R&D强度Y是否在统计上有显著的影响?4、1960-1982年美国对子鸡的需求。

为了研究美国每人的子鸡消费量,我们提供如下的数据:表1 1960-1982年子鸡的消费情况年份Y X2 X3 X4 X5 X61960 27.8 397.5 42.2 50.7 78.3 65.8 1961 29.9 413.3 38.1 52.0 79.2 66.9 1962 29.8 439.2 40.3 54.0 79.2 67.8 1963 30.8 459.7 39.5 55.3 79.2 69.6 1964 31.2 92.9 37.3 54.7 77.4 68.7 1965 33.3 528.6 38.1 63.7 80.2 73.6 1966 35.6 560.3 39.3 69.8 80.4 76.3 1967 36.4 624.6 37.8 65.9 83.9 77.2 1968 36.7 666.4 38.4 64.5 85.5 78.1 1969 38.4 717.8 40.1 70.0 93.7 84.7 1970 40.4 768.2 38.6 73.2 106.1 93.3 1971 40.3 843.3 39.8 67.8 104.8 89.7 1972 41.8 911.6 39.7 79.1 114.0 100.7 1973 40.4 931.1 52.1 85.4 124.1 113.5 1974 40.7 1021.5 48.9 94.2 127.6 115.3 1975 40.1 1165.9 58.3 123.5 142.9 136.7 1976 42.7 1349.6 57.9 129.9 143.6 139.2 1977 44.1 1449.4 56.5 117.6 139.2 132.0 1978 46.7 1575.5 63.7 130.9 165.5 132.1 1979 50.6 1759.1 61.6 129.8 203.3 154.4 1980 350.1 1994.2 58.9 128.0 219.6 174.91981 51.7 2258.1 66.4 141.0 221.6 180.8 198252.92478.770.4168.2232.6189.4资料来源:Y 数据来自城市数据库;X 数据来自美国农业部。

北航数理统计回归分析大作业

北航数理统计回归分析大作业

应用数理统计第一次大作业学号:姓名:班级:2013年12月国家财政收入的多元线性回归模型摘 要本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程:46ˆ578.4790.1990.733yx x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。

关键词:多元线性回归,逐步回归法,财政收入,SPSS0符号说明变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额X 6进出口总额X71 引言中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。

近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。

经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。

政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。

所以对国家财政的收入状况进行研究是十分必要的。

国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。

为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。

而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。

本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。

北航数理统计第一次大作业

北航数理统计第一次大作业

数理统计第一次课程论文广州恒大队在2015赛季亚冠的进球数的多元线性回归模型学号: SY1527205姓名:郭谢有摘要本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。

为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

最终确定了进球数与各因素之间关系的“最优”回归方程。

关键词:多元线性回归,逐步回归法,广州恒大,SPSS目录摘要 (1)1.引言 (3)2.符号说明 (3)3.数据的采集和整理 (3)3.1数据的采集 (3)3.2建模 (4)4.数据分析及计算 (4)4.结论 (9)参考文献 (10)致谢 (10)1.引言一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。

而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。

并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。

2.符号说明3.数据的采集和整理3.1数据的采集本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。

3.2建模本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。

这里构建模型如下:7⋅X i+εy=β0+∑βii=1其中,其中ε为随机误差项,β0为常数项,βi为待估计的参数。

北航应用数理统计大作业多元线性回归

北航应用数理统计大作业多元线性回归

多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。

并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。

关键字:回归分析;线性;相关系数;正态分布1. 引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。

以探求影响居民消费水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

本文将分为5章进行论述。

在第2章,我们介绍多元线性回归模型的概念。

第3章,我们进行模型的建立与数据的收集和整理。

我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。

在第5章,我们进行总结。

数理统计 北航 大作业

数理统计 北航 大作业

北京市财政收入的逐步回归模型研究摘要:财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

本文根据北京市2012年度统计年鉴,选取了农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值,共10个指标,对北京市财政收入及其可能的影响因素进行了研究。

文中运用逐步线性回归方法建立了多元线性回归模型,分析各因素对该地区财政收入的影响;利用SPSS软件进行求解。

通过分析SPSS软件计算的数据,从相关性检验、多重共线性检验、方差分析以及残差分析四个角度,分别对模型合理性进行了验证。

结果表明,北京市财政收入与建筑业总产值和农林牧渔也总产值呈显著线性关系。

其中与建筑业正相关,与农林牧渔业负相关。

关键字:财政收入,多元,逐步线性回归,SPSS1. 引言财政收入是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而集中的一切资金的综合,包括税收、企事业收入、能源交通重点建设基金收入、债务收入、规费收入、罚没收入等[1]。

财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

因此,研究财政收入的增长及就显得尤为必要[2]。

一个地区的财政收入可能受到诸多因素的影响,如工业总产值、农业总产值、建筑业总产值、人口数等。

本文以北京市为例,以财政收入为因变量,选取农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值这10个指标为自变量,利用SPSS统计软件进行回归分析,建立财政收入影响因素模型,分析影响财政收入的主要因素及其影响程度。

2. 理论概述2.1 多元线性回归[3]在许多实际问题中,影响一个事物的因素常常不止一个,采用多元线性回归分析方法可以找出这些因素与事物之间的数量关系。

数理统计第一次大作业——回归分析

数理统计第一次大作业——回归分析

北京市农业经济总产值的逐步回归分析姓名:学号:摘要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。

本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。

以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。

关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS1.引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。

军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。

在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。

以北京地区为例,2005年的农业总产值为1993年的6倍。

因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。

表1 北京市农业经济产值及各产品产量统计数据本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。

表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网)。

2.线性回归模型的建立2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。

数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。

而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。

但是为了便于研究,我们可以先假定一些前提条件,然后在这些条件下得到简化后的近似模型。

以下我们假定两个前提条件:1) 农产品的价格是不变的。

多元线性回归模型(习题与解答)

多元线性回归模型(习题与解答)

多元线性回归模型(习题与解答)第三章多元线性回归模型一、习题(一)基本知识类题型3-1.解释下列概念:1)多元线性回归2)虚变量3)正规方程组4)无偏性5)一致性6)参数估计量的置信区间7)被解释变量预测值的置信区间8)受约束回归9)无约束回归10)参数稳定性检验3-2.观察下列方程并判断其变量是否呈线性?系数是否呈线性?或都是?或都不是?1)i i i X Yεββ++=3102)i i i X Yεββ++=log103)i i i X Yεββ++=log log104)i i i X Yεβββ++=)(2105)i ii X Yεββ+=106)i i i X Yεββ+−+=)1(1107)i i i i X X Yεβββ+++=10221103-3.多元线性回归模型与一元线性回归模型有哪些区别?3-4.为什么说最小二乘估计量是最优的线性无偏估计量?多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计的条件是什么?3-5.多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性的过程中,哪些基本假设起了作用?3-6.请说明区间估计的含义。

(二)基本证明与问答类题型3-7.什么是正规方程组?分别用非矩阵形式和矩阵形式写出模型:i ki k i i i u x x x y+++++=ββββL22110,n i,,2,1L =的正规方程组,及其推导过程。

3-8.对于多元线性回归模型,证明:(1)∑=0i e(2)0)ˆˆˆ(ˆ110=+++=∑∑iki k i i i e x x e yβββL3-9.为什么从计量经济学模型得到的预测值不是一个确定的值?预测值的置信区间和置信度的含义是什么?在相同的置信度下如何才能缩小置信区间?为什么?3-10.在多元线性回归分析中,t检验与F检验有何不同?在一元线性回归分析中二者是否有等价的作用?3-11.设有模型:u x x y+++=22110βββ,试在下列条件下:(1)121=+ββ(2)21ββ=分别求出1β和2β的最小二乘估计量。

北师大应用多元统计分析作业——回归分析

北师大应用多元统计分析作业——回归分析

应用多元统计分析作业(七)——回归分析4-2:利用回归分析方法分析某种消费品的销售量于相关指标之间的关系。

解:●执行SAS程序代码:data dxiti42;input number x1 x2 x3 x4 Y;cards;1 82.9 92.0 17.1 94.0 8.42 88.0 93.0 21.3 96.0 9.63 99.9 96.0 25.1 97.0 10.44 105.3 94.0 29.0 97.0 11.45 117.7 100.0 34.0 100.0 12.26 131.0 101.0 40.0 101.0 14.27 148.2 105.0 44.0 104.0 15.88 161.8 112.0 49.0 109.0 17.99 174.2 112.0 51.0 111.0 19.610 184.7 112.0 53.0 111.0 20.8;proc reg data=dxiti42;model Y = x1 x2 x3 x4;run;quit;●结果分析:输出结果首先给出了回归模型的方差分析表:Model 4 169.5535 42.38838 1021.41 <.0001Error 5 0.2075 0.0415Corrected Total 9 169.761以及回归模型的一些统计量的值:0.20.9988Dependent Mean14 Adj R‐Sq 0.9978Coeff Var 1.45从以上两表中可以看出,此回归模型的拟合效果较好,R2值达到了0.9978;同时回归模型的F值也很大,为1021.41;并且F的p值很小(<0.0001),小于显著性水平α=0.05。

综上,可以判定此回归模型在α = 0.05 的水平上是显著的。

进一步给出了回归模型参数估计的一些信息:Intercept 1 ‐17.6677 5.9436 ‐2.97 0.0311 x1 1 0.09006 0.02095 4.3 0.0077x2 1 ‐0.23132 0.07132 ‐3.24 0.0229x3 1 0.01806 0.03907 0.46 0.6633x4 1 0.42075 0.11847 3.55 0.0164从上表中的最后一栏可以看出,截距项、x1、x2、x4的回归系数的t统计量的尾概率均小于显著水平α=0.05,而x3的回归系数的t统计量的尾概率大于显著水平α=0.05。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用数理统计多元线性回归分析(第一次作业)学院:姓名:学号:2013年12月交通运输业产值的多元线性回归分析摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。

关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。

它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。

交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。

根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。

变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2012年《中国统计年鉴》取1996年-2011年共16年间的数据,利用SPSS软件对影响交通运输业发展的因素进行讨论构造多元线性线性回归模型。

以探求影响交通运输业发展水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

2,基础知识及相关理论2.1 回归分析回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。

回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。

在实际问题回归分析模型的建立和分析中有几个重要的阶段:●根据研究的目的设置指标变量回归分析模型主要是揭示事物间相关变量的数量联系。

首先要根据所研究问题的目的设置因变量Y,然后再选取与Y有统计关系的一些变量作为自变量。

●收集、整理统计数据回归分析模型的建立是基于回归变量的样本统计数据。

当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。

●确定理论回归模型的数学形式当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。

如果因变量与自变量的散点图近似一条直线,可考虑用线性回归模型去拟合这条直线,如果二者之间无线性关系,则需要使用非线性模型构造回归模型。

●模型参数的估计回归理论模型确定之后,便可以利用收集、整理的样本数据对模型的未知参数给出估计。

位置参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。

●模型的检验当模型的位置参数估计出来后,需要通过对模型的检验才能决定参数估计是否合适。

模型的检验一般需要进行统计检验和模型经济意义的检验。

统计检验是对回归方程的显著性检验、以及回归系数的显著性检验,还有拟合优度的检验,残差的独立性检验等。

回归模型的运用当一个问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,就可以运用这个模型来进一步研究此问题。

在客观问题的研究中,我们需要参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在客观问题研究中得到正确运用。

2.2 多元回归分析一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。

这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展。

设随机变量Y与个一般变量的线性回归模型可表示为:称为回归常数,称为偏回归系数,他们决定了因变量Y与自变量的线性关系的具体形式;是随机误差,满足。

如果获得满足条件的n组观测数据,其中,则线性回归模型可表示为其中。

上式写成方程组形式为记,,,则回归模型成为2.3 逐步回归法在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。

所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量y影响显著的自变量而不包含对y影响不显著的自变量的回归方程。

逐步回归分析正是根据这种原则提出来的一种回归分析方法。

它的主要思路是在考虑的全部自变量中按其对y的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对y作用不显著的变量可能始终不被引人回归方程。

另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。

引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行F检验, 以保证在引人新变量前回归方程中只含有对y影响显著的变量, 而不显著的变量已被剔除。

由此可见,逐步回归法是一种向前法和向后法的一种结合,具体步骤是(预先给定一个F出和F进或α出和α进,为避免死循环,要求F出≤F进):1)逐步回归法的前两部与向前法的前两步相同,并假定已建立了不完全的相关模型;2)当引入变量X2(XL2)后,对X1(XL1)做偏F检验,看X1是否需要剔除(即为向后法):<1>如果F L1>F出,则不剔除X L1,并继续引入下一个变量;<2>如果F L1<F出,则从模型中剔除X L1,再继续引入下一个变量。

重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。

3,模型建立本文查询了1996年至2011间共16的交通运输业增加值,详细分析了影响交通运输业发展的相关因素,利用统计软件SPSS逐步回归法尝试建立交通运输业增加值与各个因素间的线性回归模型。

3.1 设置变量近年来,国内交通运输业得到了大力发展,交通运输业产值可以作为衡量交通运输业发展水平的重要指标,本文设置交通运输业产值作为指标变量。

交通运输业作为为国民经济服务的第三产业,其发展受到工农业的发展、能源生产的影响,同时国内外贸易交流水平近年来也深刻影响了运输业的发展,作为交通运输主要对象的居民,居民消费水平、旅游花费等也影响了运输业的发展。

经过分析,本文选择农业生产总值、工业生产总值、能源生产总量、进出口总额、居民消费价格指数、国民旅游总花费以及交通运输年客运量共7个因素作为解释变量研究交通运输业的发展。

各变量具体设置为:解释变量:X1:农业生产总值(亿元)X2:工业生产总值(亿元)X3:能源生产总量(万吨标准煤)X4:进出口总额(亿元)X5:居民消费价格指数X6:国民旅游总花费(亿元)X7:客运量(万人)指标变量:Y:交通运输增加值(亿元)3.2 数据收集和整理本文所用数据均来源于《中国统计年鉴》(2012年),选取1996年-2011数据作为回归模型样本。

数据见表1所示。

表 1 1996年-2011年各变量数据4,数据处理与分析本文基于表1数据样本建立多元线性回归模型并进行检验,研究思路为:首先对解释变量进行相关性分析筛选主要影响因素,然后利用逐步回归法,取显著性水平采用SPSS软件对回归系数进行估计,最后从回归方程显著性、拟合度以及残差三个方面对模型进行检验,证实模型的有效性。

4.1 初步确定理论回归模型研究指标变量与各个解释变量的相关性可以利用散点图直观分析剔除相关性不显著的因素,也可以利用SPSS软件直接计算Pearson相关系数筛选主要影响因素。

本文利用SPSS软件计算各因素相关系数如表2所示。

表 2 各影响因素与指标变量的相关系数相关系数可以数值的方式精确的反应两个变量间线性关系的强弱,样本相关系数为r,|r|>0.8时认为高度相关,0.5<|r|<0.8中度相关,0.3<|r|<0.5低度相关,|r|<0.3相关程度极弱,可视为不相关。

从表2中可知,Y与X5相关系数为0.305,相关程度很弱,在建立回归模型中可以忽略该因素的影响;而Y与其他因素都高度相关,从相关性选取回归模型主要影响因素X2、X3和X4。

图1与图2分别表示指标变量Y与解释变量X5和X2的散点图,从图中也可直观分析出影响Y变量的X变量的线性相关性。

图 1 Y 与X5散点图图 2 Y 与X2散点图交通运输业产值与居民消费价格指数相关性很弱,这是因为居民消费价格指数反映的是一定时期内城乡居民做购买的生活消费品和服务价格变动趋势和程度,居民消费水平受到多种因素影响,不能以它作为影响交通运输业发展的主要线性因素。

而交通运输业的发展主要受益于工业水平的发展,以及能源生产水平的发展,近年来受国内外贸易交流影响增大,故选这三个主要因素作为回归模型分析。

回归模型建立为:0234234Y X X X ββββε=++++ 4.2 模型参数估计确定主要影响因素X2、X3和X4后,采用逐步回归法,取显著性水平使用SPSS 软件对原始数据作线性回归分析,得到最优回归方程,逐步回归法得到回归系数表如表3所示。

表 3 模型回归系数表逐步回归模型中采用F检验引入解释变量显著性水平阈值10.05α=,剔除解释变量显著性水平20.1α=。

从表3可知逐步回归得到两个模型,其中模型2为最优模型,回归方程为:ˆ1676.2090.0820.0244Y X X=++由回归方程可知,对Y有显著影响的是X2和X4,即影响交通运输业产值的主要因素时工业产值与进出口总额,换句话说就是影响交通运输业发展的主要因素时工业水平的发展与国家进出口贸易水平。

相关文档
最新文档