北航数理统计大作业(逐步回归)

合集下载

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名:学号:2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。

关键词:逐步回归;残差;SPSS;AMHS;物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (6)3.1确定自变量和因变量 (6)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (9)4.1输入/移去的变量 (9)4.2模型汇总 (10)4.3方差分析 (10)4.4回归系数 (11)4.5已排除的变量 (12)4.6残差统计量 (13)4.7残差分布直方图和观测量累计概率P-P图 (14)5、异常情况说明 (15)5.1异方差检验 (15)5.2残差的独立性检验 (17)5.3多重共线性检验 (17)6、结论 (18)参考文献 (20)1、引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。

这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。

逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。

SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。

北航数理统计大作业2-聚类与判别分析讲解

北航数理统计大作业2-聚类与判别分析讲解

应用数理统计作业二学号:姓名:电话:二〇一四年十二月对NBA球队的聚类分析和判别分析摘要:NBA联盟作为篮球的最高殿堂深受广大球迷的喜爱,联盟的30支球队大家也耳熟能详,本文选取NBA联盟30支球队2013-2014常规赛赛季场均数据。

利用spss软件通过聚类分析对27个地区进行实力类型分类,并利用判断分析对其余3支球队对分类结果进行验证。

可以看出各球队实力类型与赛季实际结果相吻合。

关键词:聚类分析,判别分析,NBA目录1. 引言 (4)2、相关统计基础理论 (5)2.1、聚类分析 (5)2.2,判别分析 (6)3.聚类分析 (7)3.1数据文件 (7)3.2聚类分析过程 (9)3.3 聚类结果分析 (11)4、判别分析 (12)4.1 判别分析过程 (12)4.2判别检验 (17)5、结论 (20)参考文献 (21)致谢 (22)1. 引言1896年,美国第一个篮球组织"全国篮球联盟(简称NBL)"成立,但当时篮球规则还不完善,组织机构也不健全,经过几个赛季后,该组织就名存实亡了。

1946年4月6日,由美国波士顿花园老板沃尔特.阿.布朗发起成立了“美国篮球协会”(简称BAA)。

1949年在布朗的努力下,美国两大篮球组织BAA和NBL合并为“全国篮球协会”(简称NBA)。

NBA季前赛是 NBA各支队伍的热身赛,因为在每个赛季结束后,每支球队在阵容上都有相当大的变化,为了让各队磨合阵容,熟悉各自球队的打法,确定各队新赛季的比赛阵容、同时也能增进队员、教练员之间的沟通,所以在每个赛季开始之前,NBA就举办若干场季前赛,使他们能以比较好的状态投入到漫长的常规赛的比赛当中。

为了扩大NBA在全球的影响,季前赛有约三分之一的球队在美国以外的国家举办。

从总体上看,NBA的赛程安排分为常规赛、季后赛和总决赛。

常规赛采用主客场制,季后赛和总决赛采用七场四胜制的淘汰制。

[31]NBA常规赛从每年的11月的第一个星期二开罗,到次年的4月20日左右结束。

北航数理统计第一次大作业

北航数理统计第一次大作业

数理统计第一次课程论文广州恒大队在2015赛季亚冠的进球数的多元线性回归模型学号: SY1527205姓名:郭谢有摘要本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。

为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

最终确定了进球数与各因素之间关系的“最优”回归方程。

关键词:多元线性回归,逐步回归法,广州恒大,SPSS目录摘要 (1)1.引言 (3)2.符号说明 (3)3.数据的采集和整理 (3)3.1数据的采集 (3)3.2建模 (4)4.数据分析及计算 (4)4.结论 (9)参考文献 (10)致谢 (10)1.引言一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。

而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。

并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。

2.符号说明3.数据的采集和整理3.1数据的采集本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。

3.2建模本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。

这里构建模型如下:7⋅X i+εy=β0+∑βii=1其中,其中ε为随机误差项,β0为常数项,βi为待估计的参数。

北航应用数理统计大作业多元线性回归

北航应用数理统计大作业多元线性回归

多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。

并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。

关键字:回归分析;线性;相关系数;正态分布1. 引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。

以探求影响居民消费水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

本文将分为5章进行论述。

在第2章,我们介绍多元线性回归模型的概念。

第3章,我们进行模型的建立与数据的收集和整理。

我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。

在第5章,我们进行总结。

北航数理统计答案

北航数理统计答案

北航数理统计答案【篇一:北航数理统计考试题】术部2011年12月2007-2008学年第一学期期末试卷一、(6分,a班不做)设x1,x2,…,xn是来自正态总体n(?,?2)的样本,令t?x?x),试证明t服从t-分布t(2)二、(6分,b班不做)统计量f-f(n,m)分布,证明1f的?(0?1)的分位点x?是1f1??(n,m)。

三、(8分)设总体x的密度函数为?(1??)x?,0?x?1p(x;?)??0,其他?其中???1,是位置参数。

x1,x2,…,xn是来自总体试求参数?的矩估计和极大似然估计。

四、(12分)设总体x的密度函数为?1?x???exp???,x???p(x;?)??????,??0,其它其中???????,?已知,??0,?是未知参数。

x1,x2,…,xn是来自总?体x的简单样本。

(1)试求参数?的一致最小方差无偏估计?;(2)?是否为?的有效估计?证明你的结论。

五、(6分,a班不做)设x1,x2,…,xn是来自正态总体n(?简单样本,y1,y2,…,yn是来自正态总体n(?两样本相互独立,其中?设h0:?1??2,h1:?1??2,1221?,?1)2的,?2)的简单样本,且21,?1,?2,?222是未知参数,???22。

为检验假可令zi?xi?yi, i?1,2,...,n ,???1??2 ,则上述假设检验问题等价于h0:?1?0,h1:?1?0,这样双样本检验问题就变为单检验问题。

基于变换后样本z1,z2,…,zn,在显著性水平?下,试构造检验上述问题的t-检验统计量及相应的拒绝域。

六、(6分,b班不做)设x1,x2,…,xn是来自正态总体n(?简单样本,?0已知,?2未知,试求假设检验问题h0:?2,?)02的??0,h1:?22??02的水平为?的umpt。

七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面?八、(6分)设方差分析模型为?xij????i??j??ij?2??ij服从正态总体分布n(0,?)且?ij相互独立??i?1,2,...,p;j?1,...,q?pq??和?满足??i?0,??j?0.j?ii?1j?1?总离差平方和pst?sa?sb?se中sa?q?(xi??x),x?i?1x??pqi?1j?11pqij,xi??1qijx?qj?1,且e(se)=(p-1)(q-1)?.?...??p?0的拒绝2试求e(sa),并根据直观分析给出检验假设h0:?1??2域形式。

北航数理统计大作业(逐步回归)

北航数理统计大作业(逐步回归)

北京航空航天大事BEIHANG UNIVERSITY应用数理统计第一次大作业学号:______姓名:______________班级: __________20 15年12月民航客运量得多元线性回归分析摘要:本文为建立以民航客运量为因变量得多元线性回归模型,选取了199 6年至2013年得统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计•软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型得回归显著性、拟合度以及随机误差得正态性进行了检验,并采用201 4年得数据进行检验,得到得结果达到预期,证明该模型建立就是较为成功得.关键词:多元线性回归,逐步回归法,民航客运量0、符号说明变量符号民用航空客运量Y国民生产总值X,民航航线里程X3城镇居民人均可支配收入X51、引言随着社会得进步,人民生活水平得提高,如何获得更快捷方便得交通成为人们日益关注得问题•因为航空得安全性,快速且价格水平越来越倾向大众,越来越多得人们选择航空这种交通方式。

近年来,我国得航空客运量已经进入世界前列,为掌握航空客运得动态,合理安排班机数量•科学地对我国民航客运量得影响因素得分析,并得出其回归方程,进而能够估计航空客运量就是非常有必要得。

本文收集整理了与我国航空客运量相关得历年数据,运用SPSS软件对数据进行分析,研究199 6年起至20 13年我国民航客运量y(万人)与国民生产总值Xi(亿元)、铁路客运量X2(万人)、民航航线里程X3 (万公里)、入境过夜旅游人数X4 (万人)、城镇居民人均可支配 收入X5 (元)得关系。

采用逐步回归法建立线 性模型,选出较优得线性回归模型。

2、数据得统计与分析本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2 0 14》以及中国 知网数据查询中得数据,收集了 19 96年至201 3年各个自变量因素得数据,分析它们 之间得联系。

数理统计 北航 大作业

北京市财政收入的逐步回归模型研究摘要:财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

本文根据北京市2012年度统计年鉴,选取了农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值,共10个指标,对北京市财政收入及其可能的影响因素进行了研究。

文中运用逐步线性回归方法建立了多元线性回归模型,分析各因素对该地区财政收入的影响;利用SPSS软件进行求解。

通过分析SPSS软件计算的数据,从相关性检验、多重共线性检验、方差分析以及残差分析四个角度,分别对模型合理性进行了验证。

结果表明,北京市财政收入与建筑业总产值和农林牧渔也总产值呈显著线性关系。

其中与建筑业正相关,与农林牧渔业负相关。

关键字:财政收入,多元,逐步线性回归,SPSS1. 引言财政收入是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而集中的一切资金的综合,包括税收、企事业收入、能源交通重点建设基金收入、债务收入、规费收入、罚没收入等[1]。

财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

因此,研究财政收入的增长及就显得尤为必要[2]。

一个地区的财政收入可能受到诸多因素的影响,如工业总产值、农业总产值、建筑业总产值、人口数等。

本文以北京市为例,以财政收入为因变量,选取农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值这10个指标为自变量,利用SPSS统计软件进行回归分析,建立财政收入影响因素模型,分析影响财政收入的主要因素及其影响程度。

2. 理论概述2.1 多元线性回归[3]在许多实际问题中,影响一个事物的因素常常不止一个,采用多元线性回归分析方法可以找出这些因素与事物之间的数量关系。

数理统计第一次大作业——回归分析

北京市农业经济总产值的逐步回归分析姓名:学号:摘要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。

本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。

以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。

关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS1.引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。

军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。

在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。

以北京地区为例,2005年的农业总产值为1993年的6倍。

因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。

表1 北京市农业经济产值及各产品产量统计数据本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。

表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网)。

2.线性回归模型的建立2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。

数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。

而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。

但是为了便于研究,我们可以先假定一些前提条件,然后在这些条件下得到简化后的近似模型。

以下我们假定两个前提条件:1) 农产品的价格是不变的。

北航数理统计大作业任务(逐步回归)

应用数理统计第一次大作业学号:姓名:班级:B11班2015年12月民航客运量的多元线性回归分析摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。

关键词:多元线性回归,逐步回归法,民航客运量0.符号说明变量符号国民生产总值X1铁路客运量X2民航航线里程X3入境过夜旅游人数X4城镇居民人均可支配收入X51.引言随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。

因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。

近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。

科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。

本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。

采用逐步回归法建立线性模型,选出较优的线性回归模型。

2.数据的统计与分析本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。

整理如表1所示。

表1:2.1模型的建立以民航客运量y为因变量,以上5种影响因素为自变量X i,构建回归方程:y=β0+βi X i+ε其中β0为常数项,ε为误差项。

北航研究生数理统计答案完全版

m
) , y ~ N ( 2 ,
2
n
),
(m 1) S12m

2
~ (m 1) ,
2
2 (n 1) S 2 n

2
~ 2 (n 1) ,
于是有, ( x 1 ) ~ N (0,
2
m
2 ) , ( y 2 ) ~ N (0,
2
n
2),

( x 1 ) ( y 2 ) ~ N (0, (
解:
E( X )
1 1 1 xdx xdx 0 2 2(1 ) 1 1 2 1 1 (1 2 ) 2 2 2(1 ) 2 1 1 1 2 (1 ) 4 4 4

第 4 页 /第 23 页
北京航空航天大学
研究生应用数理统计
书后部分习题解答整理版
做矩估计, x
1 2 , 4 1 。 2
ˆ 2x 可得 的矩估计,
9. ( P80.7)
解: (1)由分布函数得出概率密度函数
f ( x; )
d ( F ( x; ) x 1 x 1 dx 0x 1
n
2
(1 x ) ,

ln L n n - 2 (1 x ) 0 ,得到 2 x 1 , 2 2 2
i
ˆ x ˆ x min{x } 。 于是 2 的极大似然估计为 2 1 i
13. ( P81.12) x1 , x 2 ,…, x n 为来自总体 X 的简单样本,试证明下列估计量来自m , nm n

ˆz 于是有,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用数理统计第一次大作业
学号:
姓名:
班级:B11班
2015年12月
民航客运量的多元线性回归分析
摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。

关键词:多元线性回归,逐步回归法,民航客运量
0.符号说明
变量符号
国民生产总值X1
铁路客运量X2
民航航线里程X3
入境过夜旅游人数X4
城镇居民人均可支配收入X5
1.引言
随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。

因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。

近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。

科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。

本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。

采用逐步回归法建立线性模型,选出较优的线性回归模型。

2.数据的统计与分析
本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。

整理如表1所示。

表1:
201026769397983.5168145276.54753.8419109.4 201129316473104146192349.054924.3221809.8 201231896519470.1189337328.015668.6324564.7 201335397568845.2210597410.65562.3926955.1
2.1模型的建立
以民航客运量y为因变量,以上5种影响因素为自变量X i,构建回归方程:
其中为常数项,为误差项。

先观察自变量与因变量的关系,用SPSS得到各个自变量与因变量的散点图:
图1 民航客运量与国内生产总值散点图
图2 民航客运量与铁路客运量散点图
图3 民航客运量与航线里程散点图
图4 民航客运量与入境过夜人数散点图
图5 民航客运量与人均可支配收入散点图
从以上五张散点图,我们可以看出因变量民航客运量与国内生产总值,入境
过夜旅游人数和城镇居民人均可支配收入均有较好的线性关系
,这说明建立线性模型是有意义的。

继续下一步逐步回归分析,逐步回归的基本思想是将变量逐个引入模型,每引入一个变量后都要进行F检验,并对已经选入的变量逐个进行t检验,当原来引入的变量由于后面变量的引入变得不再显著时,则将其删除。

以确保每次引入新的变量之前回归方程中只包含先主动变量。

这是一个反复的过程,直到既没有显著的变量选入回归方程,也没用不显著的变量从回归方程中剔除为止。

在SPSS 软件中可直接进行逐步回归分析,得出以下结果:
由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其他自变量都没有进入模型,模型2在1的基础上再纳入了过夜入境旅游人数,其他的自变量也都被排除了。

表2
输入/移去的变量a
模型输入的变量移去的变量方法
1 城镇居民人均可支配
收入
. 步进(准则:
F-to-enter 的概率
<= .050,F-to-remove
的概率 >= .100)。

2 过夜游客. 步进(准则:
F-to-enter 的概率
<= .050,F-to-remove
的概率 >= .100)。

a. 因变量: 民用航空客运量表3
2.2拟合度检验
由表4,模型1的决定系数R2=0.992,模型2的决定系数R2=0.995,可以看出回归方程都高度显著,且模型2比模型1更优。

2.3回归方程的显著性检验:
由表5,方差分析表Sig值都<0.05,说明每个模型都拒绝回归系数均为0的假设,每个方程都是显著的。

表5
Anova a
模型平方和df均方F Sig.
1回归1678659397.18411678659397.1842183.841.000b 残差12298767.26116768672.954
总计1690958164.44417
2回归1684069181.3702842034590.6851833.437.000c 残差6888983.0751*******.538
总计1690958164.44417
a. 因变量: 民用航空客运量
b. 预测变量: (常量), 城镇居民人均可支配收入。

c. 预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。

由表6可以得到两个模型的回归方程分别:
1.以城镇居民可支配收入为自变量的拟合函数:
y=-1698.669+1.406X5
2. 以城镇居民可支配收入和过夜入境旅游人数为自变量的拟合函数:
y=-3267.728+0.817X5+2.871X4
且所有系数的显著性水平都小于0.05,每个回归方程都是有意义的。

表6
系数a
模型非标准化系数标准系数t Sig.
B标准误差试用版
1
(常量)-1698.669423.955-4.007.001城镇居民人均可支配收入 1.406.030.99646.732.000
2(常量)-3267.728562.492-5.809.000城镇居民人均可支配收入.817.173.579 4.721.000过夜游客 2.871.837.421 3.432.004
a. 因变量: 民用航空客运量
表7是残差统计结果。

主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。

残差平方和Q描述的是随机误差
引起因变量Y的分散程度,Q越大分散性也越大,则线性关系越不明显。

由表7
可见标准化残差的最大绝对值为1.758。

而且标准残差的均值为0,说明随机误差对Y值的影响很小。

表7
残差统计量a
极小值极大值均值标准偏差N
预测值4581.80435339.83615600.4449953.034418
残差-1191.5225973.1963.0000636.580218
标准预测值-1.107 1.983.000 1.00018
标准残差-1.758 1.436.000.93918
a. 因变量: 民用航空客运量
2.4多重共线性的诊断
表8是SPSS软件的多重共线性诊断表,它包括3项诊断值:特征值、条件数和方差比率。

特征值表明在自变量中存在多少截然不同的维数,当几个特征值都接近0是,变量是高度相关的。

条件数是最大特征值对每一个连续特征值的比率的平方根,若条件数大于15则表明可能存在多重共线问题,若大于30则表明存在严重的多重共线性问题。

显然表8中变量X4过夜入境旅游人数的条件数大于30,说明回归方程存在多重共线性。

2.5残差检验
如图6是残差分布直方图。

在回归分析中,总是假定残差服从正态分布,这个图就是根据样本数据的计算结果显示残差分析的实际情况。

从图来看标准化残差还是近似服从正态分布的。

图6
如图7残差的积累概率图基本围绕在假设直线(正态分布)周围,说明残差分布基本符合正态分布,说明民航客运量这个因变量基本上可以用线性回归方法建立模型。

3.结论
为了解决多重共线性的问题,排除模型2,考虑到模型1的拟合度也是很好的,综合来看认为模型1为更优。

最终得到的回归方程为:
y=-1698.669+1.406X5
并以2014年的数据检验该回归方程,2014年航空客运量为39195万人,城镇居民人均可支配收入为28843.9,将自变量X5带入回归方程得到y=38855.85万人,与实际的客运量39195万人的误差为0.86%。

因此可以认为该模型基本达到了预期的目标。

通过最优回归方程,我们可以发现航空客运量与城镇居民的可支配收入线性相关十分显著,这是符合常识的,只有居民可支配收入越来越高,才会选择航空这种昂贵的客运方式。

图7
参考文献:
[1] 2015年中国统计年鉴
[2] 孙海燕、周梦、李卫国、冯伟. 应用数理统计.北京航空航天大学出版社,
2009
[3] 朱卫卫. 基于偏最小二乘回归的我国民航客运量影响因素分析[J]. 中国
市场. 2010(41): 110-112
如有侵权请联系告知删除,感谢你们的配合!。

相关文档
最新文档