北航数理统计回归分析大作业

合集下载

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名:学号:2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。

关键词:逐步回归;残差;SPSS;AMHS;物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (6)3.1确定自变量和因变量 (6)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (9)4.1输入/移去的变量 (9)4.2模型汇总 (10)4.3方差分析 (10)4.4回归系数 (11)4.5已排除的变量 (12)4.6残差统计量 (13)4.7残差分布直方图和观测量累计概率P-P图 (14)5、异常情况说明 (15)5.1异方差检验 (15)5.2残差的独立性检验 (17)5.3多重共线性检验 (17)6、结论 (18)参考文献 (20)1、引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。

这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。

逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。

SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。

北航数理统计大作业2-聚类与判别分析讲解

北航数理统计大作业2-聚类与判别分析讲解

应用数理统计作业二学号:姓名:电话:二〇一四年十二月对NBA球队的聚类分析和判别分析摘要:NBA联盟作为篮球的最高殿堂深受广大球迷的喜爱,联盟的30支球队大家也耳熟能详,本文选取NBA联盟30支球队2013-2014常规赛赛季场均数据。

利用spss软件通过聚类分析对27个地区进行实力类型分类,并利用判断分析对其余3支球队对分类结果进行验证。

可以看出各球队实力类型与赛季实际结果相吻合。

关键词:聚类分析,判别分析,NBA目录1. 引言 (4)2、相关统计基础理论 (5)2.1、聚类分析 (5)2.2,判别分析 (6)3.聚类分析 (7)3.1数据文件 (7)3.2聚类分析过程 (9)3.3 聚类结果分析 (11)4、判别分析 (12)4.1 判别分析过程 (12)4.2判别检验 (17)5、结论 (20)参考文献 (21)致谢 (22)1. 引言1896年,美国第一个篮球组织"全国篮球联盟(简称NBL)"成立,但当时篮球规则还不完善,组织机构也不健全,经过几个赛季后,该组织就名存实亡了。

1946年4月6日,由美国波士顿花园老板沃尔特.阿.布朗发起成立了“美国篮球协会”(简称BAA)。

1949年在布朗的努力下,美国两大篮球组织BAA和NBL合并为“全国篮球协会”(简称NBA)。

NBA季前赛是 NBA各支队伍的热身赛,因为在每个赛季结束后,每支球队在阵容上都有相当大的变化,为了让各队磨合阵容,熟悉各自球队的打法,确定各队新赛季的比赛阵容、同时也能增进队员、教练员之间的沟通,所以在每个赛季开始之前,NBA就举办若干场季前赛,使他们能以比较好的状态投入到漫长的常规赛的比赛当中。

为了扩大NBA在全球的影响,季前赛有约三分之一的球队在美国以外的国家举办。

从总体上看,NBA的赛程安排分为常规赛、季后赛和总决赛。

常规赛采用主客场制,季后赛和总决赛采用七场四胜制的淘汰制。

[31]NBA常规赛从每年的11月的第一个星期二开罗,到次年的4月20日左右结束。

北航数理统计回归分析大作业

北航数理统计回归分析大作业

应用数理统计第一次大作业学号:姓名:班级:2013年12月国家财政收入的多元线性回归模型摘 要本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程:46ˆ578.4790.1990.733yx x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。

关键词:多元线性回归,逐步回归法,财政收入,SPSS0符号说明变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额X 6进出口总额X71 引言中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。

近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。

经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。

政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。

所以对国家财政的收入状况进行研究是十分必要的。

国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。

为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。

而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。

本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。

北航数理统计第一次大作业

北航数理统计第一次大作业

数理统计第一次课程论文广州恒大队在2015赛季亚冠的进球数的多元线性回归模型学号: SY1527205姓名:郭谢有摘要本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。

为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

最终确定了进球数与各因素之间关系的“最优”回归方程。

关键词:多元线性回归,逐步回归法,广州恒大,SPSS目录摘要 (1)1.引言 (3)2.符号说明 (3)3.数据的采集和整理 (3)3.1数据的采集 (3)3.2建模 (4)4.数据分析及计算 (4)4.结论 (9)参考文献 (10)致谢 (10)1.引言一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。

而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。

并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。

2.符号说明3.数据的采集和整理3.1数据的采集本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。

3.2建模本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。

这里构建模型如下:7⋅X i+εy=β0+∑βii=1其中,其中ε为随机误差项,β0为常数项,βi为待估计的参数。

北航应用数理统计大作业多元线性回归

北航应用数理统计大作业多元线性回归

多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。

并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。

关键字:回归分析;线性;相关系数;正态分布1. 引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。

以探求影响居民消费水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

本文将分为5章进行论述。

在第2章,我们介绍多元线性回归模型的概念。

第3章,我们进行模型的建立与数据的收集和整理。

我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。

在第5章,我们进行总结。

北航数理统计大作业(逐步回归)

北航数理统计大作业(逐步回归)

北京航空航天大事BEIHANG UNIVERSITY应用数理统计第一次大作业学号:______姓名:______________班级: __________20 15年12月民航客运量得多元线性回归分析摘要:本文为建立以民航客运量为因变量得多元线性回归模型,选取了199 6年至2013年得统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计•软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型得回归显著性、拟合度以及随机误差得正态性进行了检验,并采用201 4年得数据进行检验,得到得结果达到预期,证明该模型建立就是较为成功得.关键词:多元线性回归,逐步回归法,民航客运量0、符号说明变量符号民用航空客运量Y国民生产总值X,民航航线里程X3城镇居民人均可支配收入X51、引言随着社会得进步,人民生活水平得提高,如何获得更快捷方便得交通成为人们日益关注得问题•因为航空得安全性,快速且价格水平越来越倾向大众,越来越多得人们选择航空这种交通方式。

近年来,我国得航空客运量已经进入世界前列,为掌握航空客运得动态,合理安排班机数量•科学地对我国民航客运量得影响因素得分析,并得出其回归方程,进而能够估计航空客运量就是非常有必要得。

本文收集整理了与我国航空客运量相关得历年数据,运用SPSS软件对数据进行分析,研究199 6年起至20 13年我国民航客运量y(万人)与国民生产总值Xi(亿元)、铁路客运量X2(万人)、民航航线里程X3 (万公里)、入境过夜旅游人数X4 (万人)、城镇居民人均可支配 收入X5 (元)得关系。

采用逐步回归法建立线 性模型,选出较优得线性回归模型。

2、数据得统计与分析本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2 0 14》以及中国 知网数据查询中得数据,收集了 19 96年至201 3年各个自变量因素得数据,分析它们 之间得联系。

数理统计 北航 大作业

数理统计 北航 大作业

北京市财政收入的逐步回归模型研究摘要:财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

本文根据北京市2012年度统计年鉴,选取了农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值,共10个指标,对北京市财政收入及其可能的影响因素进行了研究。

文中运用逐步线性回归方法建立了多元线性回归模型,分析各因素对该地区财政收入的影响;利用SPSS软件进行求解。

通过分析SPSS软件计算的数据,从相关性检验、多重共线性检验、方差分析以及残差分析四个角度,分别对模型合理性进行了验证。

结果表明,北京市财政收入与建筑业总产值和农林牧渔也总产值呈显著线性关系。

其中与建筑业正相关,与农林牧渔业负相关。

关键字:财政收入,多元,逐步线性回归,SPSS1. 引言财政收入是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而集中的一切资金的综合,包括税收、企事业收入、能源交通重点建设基金收入、债务收入、规费收入、罚没收入等[1]。

财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

因此,研究财政收入的增长及就显得尤为必要[2]。

一个地区的财政收入可能受到诸多因素的影响,如工业总产值、农业总产值、建筑业总产值、人口数等。

本文以北京市为例,以财政收入为因变量,选取农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值这10个指标为自变量,利用SPSS统计软件进行回归分析,建立财政收入影响因素模型,分析影响财政收入的主要因素及其影响程度。

2. 理论概述2.1 多元线性回归[3]在许多实际问题中,影响一个事物的因素常常不止一个,采用多元线性回归分析方法可以找出这些因素与事物之间的数量关系。

数理统计第一次大作业——回归分析

数理统计第一次大作业——回归分析

北京市农业经济总产值的逐步回归分析姓名:学号:摘要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。

本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。

以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。

关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS1.引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。

军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。

在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。

以北京地区为例,2005年的农业总产值为1993年的6倍。

因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。

表1 北京市农业经济产值及各产品产量统计数据本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。

表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网)。

2.线性回归模型的建立2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。

数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。

而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。

但是为了便于研究,我们可以先假定一些前提条件,然后在这些条件下得到简化后的近似模型。

以下我们假定两个前提条件:1) 农产品的价格是不变的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数理统计(课程大作业1) 逐步回归分析学院:机械工程学院专业:材料加工工程日期:2014年12月7日摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。

关键字:多元线性回归 逐步回归法 财政收入 SPSS1 引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。

为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。

数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。

财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。

财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。

财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。

2 多元线性回归2.1 多元线性回归简介在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。

由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。

对多元线性回归模型简要介绍如下:如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式:εββββ++++=m m x x x y 22110 2,0σεε==D E(2.1)其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

式(2.1)为m 元理论线性回归模型,其中m ββββ 210,,为回归系数,m x x x 21,为回归因子或设计因子。

),,2,1(m i i =β实际上反映了因子),,2,1(m i x i =对观测值y 的作用,因此也称),,2,1(m i i =β为因子),,2,1(m i x i =的效应。

通过对回归系数),,2,1(m i i =β进行最小二乘估计后,可以得到m 元经验回归方程为:mm x x x y ββββˆˆˆˆˆ22110++++=(2.2)也称式(2.2)为m 元线性回归方程。

0ˆβ为回归常数,也称回归系数,m βββˆˆ,ˆ21 称为回归系数。

2.2 逐步回归法在多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。

通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。

因此,人们常根据某种规则对自变量进行筛选。

本次选用的方法是逐步回归法。

1)回归效果的显著性检验y 与变量m x x x 21,线性相关的密切程度可以用回归平方和U 在总平方和yyL 中所占的比例来衡量。

称yyL UR =为y 关于m x x x 21,的样本复相关系数,yyL UR =2为样本决定系数。

在多元线性回归的实际应用中,用复相关系数来表示回归方程对原有数据拟合程度的好坏。

显然102≤≤R ,其越接近1,回归方程拟合程度越高。

2)偏F 检验检验某个自变量对y 的影响是否显著的正规方法是偏F 检验。

设原回归方程(全模型)为:mm i i i i i i x x x x x x y βββββββˆˆˆˆˆˆˆˆ111122110++++++++=++--去掉变量i x 后的新回归方程(减模型)为:mm i i i i x x x x x y ββββββˆˆˆˆˆˆˆ111122110+++++++=++-- 全模型的复相关系数的平方为2R ,减模型的复相关系数的平方为2i R ,定义222i i R R R -=∆。

若2i R ∆几乎为零,则说明x 对y 没有显著影响,反之则表示x 对y 有其它变量不可替代的显著影响。

检验假设:0:;0:2120≠∆=∆i i R H R H当0H 为真时,检验统计量为)1,1(~ˆ)1/()1(2222--=---∆=m n F c S m n R R F iii i i β 对于给定显著性水平α,由样本计算出i F 的值,若),1,1(1--≥-m n F F i α则拒绝0H ,说明x 对y 有显著影响,应在减模型中引入自变量x ;反之则应剔除x ,使之成为减模型。

偏F 检验通常被用作变量筛选的依据。

逐步回归法中就是对各变量采用偏F 法进行检验的。

3) 逐步回归法的步骤逐步回归法的基本思想是:将变量逐个引入,引入条件是该变量的偏F 检验是显著的。

同时,每引入一个新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。

具体步骤如下:1、对m 个自变量分别与y 建立回归模型ii i x y )0()0(0ˆˆˆββ+=,对它们分别计算i F ,得i F 中最大的那个值,比如1L F 。

(Ⅰ)如果进F F L <1,则计算结束,即y 与所有自变量均线性无关; (Ⅱ)如果进F F L ≥1,则引入1x L ,建立回归方程1)1(1)1(0ˆˆˆL x y ββ+= (2.3)2、建立y 与自变量子集},{1i L x x (1L i ≠)的二元回归模型ii L i i x x y )0()0(1)0(0ˆˆˆˆ1βββ++= (2.4)以式(2.4)为全模型,式(2.3)为减模型求i F 值,并取得i F 中最大的那个值,比如说2L F 。

⑴如果进F F L <2,则计算结束,这时建立的模型为式(2.3); ⑵如果进F F L ≥2,则引入2x L ,建立回归方程21)2(2)2(1)2(0ˆˆˆˆL L x x y βββ++= (2.5)3、当引入2x L 后,对1x L 做偏F 检验,看1x L 是否需要剔除; ⑴如果出F F L >1,则不剔除1x L ,并继续引入下一个变量; ⑵如果出F F L ≤1,则从式2.4中剔除1L x ,再继续引入下一个变量。

重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。

3 财政收入回归分析实例本次作业利用SPSS 软件和逐步回归法,对原始数据进行了回归分析,并最终获得了“最优”回归方程,解决这个问题。

3.1 数据收集及处理首先进行参考数据的选择,根据查阅书籍以及中国统计局网站得到的数据资料,归纳出可能影响国家财政收入的一些主要因素,包括国内生产总值(亿元),人口数(万人)等。

本文从中选取了国内生产总值(亿元),人口数(万人),能源生产总量(标准煤)(万吨),农作物总播种面积(千公顷),货运量(万吨),出口总额(亿元),进口总额(亿元),建筑业总产值(亿元)8个因素作为本次考查的重点,并对其与财政收入的相关关系进行分析。

表1所示为所选取的自1995年至2012年18年间财政收入与所选变量的数据汇总。

3.2 建立回归模型过程为了研究财政收入与各种影响因素的关系,必须要建立二者之间的数学模型。

数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。

而实际生活中,影响财政收入的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立财政收入的数学模型往往是很难的。

但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:Y=α1X 1+α2X2+α3X 3+α4X 4+α5X 5+α6X 6+α7X 7+α8X 8其中,Y 是因变量, i X 是自变量,i 是各个自变量的系数。

各变量符号的定义见表2。

3.3 线性回归模型的验证通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。

然而这些假设是否合理,所建模型是否接近实际的工业生产总值,需要进一步验证。

故作出数据散点图,观察因变量与自变量之间关系是否有线性特点。

散点图结果如图1所示。

(1)(2)(3)(4)(5)(6)(7)(8)(1)财政收入与国内生产总值散点图;(2)财政收入与人口数散点图;(3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图;(5)财政收入与货运量散点图;(6)财政收入与出口总额散点图;(7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图图1 财政收入与各种因素散点图由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。

所以首先判断因变量和自变量是否存在非线性关系。

从图1可以看出,人口数X与财政收入Y之间大致呈指数关系,而农作物总播种2与财政收入Y之间的线性关系很不显著,都是可以首先剔除的变量。

其面积X4余变量错误!未找到引用源。

都与财政收入Y具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。

3.4 线性回归的结果及分析利用统计数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。

由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。

被选择的判据是变量进入回归方程的F的概率不大于0.05,被剔除的判据是变量进入回归方程的F的概率不小于0.10。

表4显示三个模型的拟合情况,模型3的复相关系数R=1.000,可决系数2R =0.999,调整可决系数为0.999,估计值的标准差为916.74710,可见模型3的拟合度较高。

从表5中看出方差分析结果可以看出,三个模型的F 值检验Sig 值远小于0.01,可见,最终模型的整体线性关系是成立的。

如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。

结果模型中所有变量系数的t检验Sig值都接近或小于0.01,说明这些系数都显著的不为0,因此,最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。

如表7所示,给出的是所有未进入最终模型的变量检验信息,由t检验的Sig 值都大于0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。

进口总额(亿-.037b-.779 .449 -.204 .030 元)建筑业总产值.319b 1.660 .119 .406 .002 (亿元).073c 1.478 .163 .379 .016 3 出口总额(亿元)进口总额(亿.101c 2.111 .055 .505 .014 元)建筑业总产值.188c 1.142 .274 .302 .001 (亿元)a.模型中的预测变量: (常量) , 货运量(万吨)b.模型中的预测变量: (常量), 货运量(万吨), 国内生产总值(亿元)c模型中的预测变量: (常量), 货运量(万吨), 国内生产总值(亿元), 能源生产总量(万吨)d. 因变量: 财政收入表8 残差统计量极小值极大值均值标准偏差N预测值5652.1587 116279.0000 38679.2983 34698.46056 18 残差-1919.03113 1378.36218 .00000 831.93444 18 标准预测值-.952 2.236 .000 1.000 18 标准残差-2.093 1.504 .000 .907 18 a. 因变量: 财政收入(亿元)图2 标准化残差直方图标准化残差的P-P图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。

相关文档
最新文档