北航应用数理统计大作业多元线性回归

合集下载

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名:学号:2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。

关键词:逐步回归;残差;SPSS;AMHS;物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (6)3.1确定自变量和因变量 (6)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (9)4.1输入/移去的变量 (9)4.2模型汇总 (10)4.3方差分析 (10)4.4回归系数 (11)4.5已排除的变量 (12)4.6残差统计量 (13)4.7残差分布直方图和观测量累计概率P-P图 (14)5、异常情况说明 (15)5.1异方差检验 (15)5.2残差的独立性检验 (17)5.3多重共线性检验 (17)6、结论 (18)参考文献 (20)1、引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。

这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。

逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。

SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。

北航数理统计回归分析大作业

北航数理统计回归分析大作业

应用数理统计第一次大作业学号:姓名:班级:2013年12月国家财政收入的多元线性回归模型摘 要本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程:46ˆ578.4790.1990.733yx x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。

关键词:多元线性回归,逐步回归法,财政收入,SPSS0符号说明变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额X 6进出口总额X71 引言中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。

近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。

经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。

政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。

所以对国家财政的收入状况进行研究是十分必要的。

国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。

为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。

而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。

本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。

北航数理统计第一次大作业

北航数理统计第一次大作业

数理统计第一次课程论文广州恒大队在2015赛季亚冠的进球数的多元线性回归模型学号: SY1527205姓名:郭谢有摘要本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。

为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

最终确定了进球数与各因素之间关系的“最优”回归方程。

关键词:多元线性回归,逐步回归法,广州恒大,SPSS目录摘要 (1)1.引言 (3)2.符号说明 (3)3.数据的采集和整理 (3)3.1数据的采集 (3)3.2建模 (4)4.数据分析及计算 (4)4.结论 (9)参考文献 (10)致谢 (10)1.引言一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。

而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。

并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。

2.符号说明3.数据的采集和整理3.1数据的采集本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。

3.2建模本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。

这里构建模型如下:7⋅X i+εy=β0+∑βii=1其中,其中ε为随机误差项,β0为常数项,βi为待估计的参数。

北航应用数理统计大作业多元线性回归

北航应用数理统计大作业多元线性回归

多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。

并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。

关键字:回归分析;线性;相关系数;正态分布1. 引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。

以探求影响居民消费水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

本文将分为5章进行论述。

在第2章,我们介绍多元线性回归模型的概念。

第3章,我们进行模型的建立与数据的收集和整理。

我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。

在第5章,我们进行总结。

北大应用多元统计分析课件第三章

北大应用多元统计分析课件第三章
聚类分析的分类
02
根据聚类过程中数据点之间的相似性度量方式,聚类分析可以分为基于距离的聚类和基于密度的聚类。
聚类分析的数学基础
03
聚类分析的数学基础主要包括距离度量、相似性度量和概率统计等。
通过聚类分析将市场划分为不同的细分市场,为企业的市场策略提供依据。
市场细分
根据客户的行为和属性特征,将客户划分为不同的群体,便于企业进行个性化营销和服务。
Y = β0 + β1X1 + β2X2 + ... + βpXp + ε,其中Y是因变量,X1, X2, ..., Xp是自变量,β0, β1, β2, ..., βp是模型的参数,ε是误差项。
多元线性回归模型的特点
它不仅可以处理多个自变量对因变量的影响,而且可以处理自变量之间的交互作用和多元共线性问题。此外,通过引入虚拟变量,多元线性回归模型还可以处理分类自变量和有序分类因变量的情况。
北大应用多元统计分析课件第三章
目录
多元线性回归模型主成分分析因子分析聚类分析
多元线性回归模型
多元线性回归模型
在统计学中,多元线性回归模型是一种用于探索和预测多个自变量与因变量之间关系的统计方法。它假设因变量和自变量之间存在一种线性关系,即因变量的变化可以由自变量的线性组合来解释。
多元线性回归模型的一般形式
最小二乘法:最小二乘法是一种常用的参数估计方法,它通过最小化预测值与实际值之间的残差平方和来估计模型的参数。这种方法基于一种假设,即误差项的均值为零,且误差项之间相互独立。
线性关系检验:在多元线性回归模型中,需要检验因变量与自变量之间是否存在线性关系。可以通过绘制散点图和残差图来直观判断是否存在非线性关系。如果存在非线性关系,可以考虑使用其他模型或对自变量进行变换来满足线性关系假设。

2010新版北航研究生应用数理统计习题参考答案

2010新版北航研究生应用数理统计习题参考答案

n
xi 1
2

1
n
2n
e
2
(1 x )
, 1 xi ( i )
由 2 0 ,则似然函数为 1 的单调递增函数,且 - 1 xi ( i ) ,由极大似
ˆ min{x } 。 然估计定义可知, 1 的极大似然估计为 1 i
i
对 2 , ln L(1, 2 ) -n ln 2
- 2 , x1 ,x 2 ,…,x n 为来自总体的简单样本,求参数 1 及 2 的极大似然估计。
解:由 f ( x;1 , 2 ) 为概率密度函数可知, 2 0 。 似然函数为 L(1 , 2 ; x1 , x2 ,, xn )
1

2n
e

i 1
第 6 页 /第 23 页
北京航空航天大学
研究生应用数理统计
书后部分习题解答整理版
ˆ 0 min{xi } 。 x 0 的极大似然估计为 x
i
12. ( P81.11) )设总体 X 的概率密度函数为 f ( x;1 , 2 )
1
2
e

x 1
2
, - 1 x ,
2 1m
2

2 (n 1) S 2 n
2
( x 1 ) ( y 2 )
2 (m 1) S12m (n 1) S 2 n mn2
2
m

2
n
~ t (m n 2) 。
6. ( P80.1)设总体 X 服从两点分布 B(1, ) , 0 1 , x1 , x 2 ,…, x n 为简单随机样 本,⑴ 求 q( ) Var ( x ) ;⑵ 求 q( ) 的频率估计。

数理统计 北航 大作业

数理统计 北航 大作业

北京市财政收入的逐步回归模型研究摘要:财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

本文根据北京市2012年度统计年鉴,选取了农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值,共10个指标,对北京市财政收入及其可能的影响因素进行了研究。

文中运用逐步线性回归方法建立了多元线性回归模型,分析各因素对该地区财政收入的影响;利用SPSS软件进行求解。

通过分析SPSS软件计算的数据,从相关性检验、多重共线性检验、方差分析以及残差分析四个角度,分别对模型合理性进行了验证。

结果表明,北京市财政收入与建筑业总产值和农林牧渔也总产值呈显著线性关系。

其中与建筑业正相关,与农林牧渔业负相关。

关键字:财政收入,多元,逐步线性回归,SPSS1. 引言财政收入是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而集中的一切资金的综合,包括税收、企事业收入、能源交通重点建设基金收入、债务收入、规费收入、罚没收入等[1]。

财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

因此,研究财政收入的增长及就显得尤为必要[2]。

一个地区的财政收入可能受到诸多因素的影响,如工业总产值、农业总产值、建筑业总产值、人口数等。

本文以北京市为例,以财政收入为因变量,选取农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值这10个指标为自变量,利用SPSS统计软件进行回归分析,建立财政收入影响因素模型,分析影响财政收入的主要因素及其影响程度。

2. 理论概述2.1 多元线性回归[3]在许多实际问题中,影响一个事物的因素常常不止一个,采用多元线性回归分析方法可以找出这些因素与事物之间的数量关系。

北航数理统计期末考试题

北航数理统计期末考试题

材料学院研究生会学术部2011 年12 月2007-2008学年第一学期期末试卷一、(6 分,A 班不做)设x1,x2,⋯,x n是来自正态总体N( , 2) 的样本,令2(x1 x2)T(x3 x4)2 (x5 x6)2 ,试证明T 服从t-分布t(2)二、( 6 分, B 班不做 ) 统计量F-F(n,m) 分布,证明1的 (0< <1)的分位点x 是1。

F F1 (n,m) 。

三、(8分)设总体X 的密度函数为其中1,是位置参数。

x1,x2,⋯,x n是来自总体X 的简单样本,试求参数的矩估计和极大似然估计。

四、(12分)设总体X 的密度函数为1xexp ,xp(x; )0 , 其它其中, 已知,0, 是未知参数。

x1,x2,⋯,x n 是来自总体X 的简单样本。

1)试求参数的一致最小方差无偏估计;2) 是否为的有效估计?证明你的结论。

五、(6分,A 班不做)设x1,x2,⋯,x n是来自正态总体N( 1, 12) 的简单样本,y1,y2,⋯,y n 是来自正态总体N( 2, 22) 的简单样本,且两样本相互独立,其中1, 12, 2, 22是未知参数,1222。

为检验假设H0 :可令z i x i y i, i 1,2,..., n ,1 2 ,1 2, H1 : 1 2,则上述假设检验问题等价于H0 : 1 0, H1: 1 0,这样双样本检验问题就变为单检验问题。

基于变换后样本z1,z2,⋯,z n,在显著性水平下,试构造检验上述问题的t-检验统计量及相应的拒绝域。

六、(6 分,B 班不做)设x1,x2,⋯,x n是来自正态总体N( 0, 2) 的简单样本,0 已知,2未知,试求假设检验问题H0: 202, H1: 202的水平为的UMPT。

七、(6 分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面?八、(6 分)设方差分析模型为总离差平方和试求E(S A ) ,并根据直观分析给出检验假设H0 : 1 2 ... P 0的拒绝域形式。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。

并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。

关键字:回归分析;线性;相关系数;正态分布1. 引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。

以探求影响居民消费水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

本文将分为5章进行论述。

在第2章,我们介绍多元线性回归模型的概念。

第3章,我们进行模型的建立与数据的收集和整理。

我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。

在第5章,我们进行总结。

2.预备知识2.1 回归分析回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。

回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。

在实际问题回归分析模型的建立和分析中有几个重要的阶段:●根据研究的目的设置指标变量回归分析模型主要是揭示事物间相关变量的数量联系。

首先要根据所研究问题的目的设置因变量Y,然后再选取与Y有统计关系的一些变量作为自变量。

●收集、整理统计数据回归分析模型的建立是基于回归变量的样本统计数据。

当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。

●确定理论回归模型的数学形式当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。

如果因变量与自变量的散点图近似一条直线,可考虑用线性回归模型去拟合这条直线,如果二者之间无线性关系,则需要使用非线性模型构造回归模型。

●模型参数的估计回归理论模型确定之后,便可以利用收集、整理的样本数据对模型的未知参数给出估计。

位置参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。

●模型的检验当模型的位置参数估计出来后,需要通过对模型的检验才能决定参数估计是否合适。

模型的检验一般需要进行统计检验和模型经济意义的检验。

统计检验是对回归方程的显著性检验、以及回归系数的显著性检验,还有拟合优度的检验,残差的独立性检验等。

●回归模型的运用当一个问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,就可以运用这个模型来进一步研究此问题。

在客观问题的研究中,我们需要参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在客观问题研究中得到正确运用。

2.2 多元回归分析一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。

这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展。

设随机变量Y与P(P≥2)个一般变量X1,X2,…,X P的线性回归模型可表示为:Y=β0+β1X1+β2X2+⋯+βP X P+εβ0称为回归常数,β1,…,βP称为偏回归系数,他们决定了因变量Y与自变量X1,X2,…,X P的线性关系的具体形式;ε是随机误差,满足ε~N(0,σ2)。

如果获得满足条件ε=(ε1ε2⋮εn)n×1{Y=Xβ+εE(ε)=0,D(ε)=σ2I nQεσ2~χ2(n−p−1)的n组观测数据(x i1,x i2,…,x ip;y i),其中i=1,2,…,n,则线性回归模型可表示为y i=β0+β1x i1+β2x i2+⋯+βP x iP+εi其中i=1,2,…,n。

上式写成方程组形式为{y1=β0+β1x11+β2x12+⋯+βP x1P+ε1 y2=β0+β1x21+β2x22+⋯+βP x2P+ε2…y n=β0+β1x n1+β2x n2+⋯+βP x nP+εn记Y=(y1y2⋮y n)n×1,X=(1x11x12⋯x1p1x21x22⋯x2p⋮1⋮x n1⋮x n2⋱⋯⋮x np),β=(β0β1⋮βp)(p+1)×1,ε=(ε1ε2⋮εn)n×1则回归模型成为{Y=Xβ+εE(ε)=0,D(ε)=σ2I n。

3.模型建立与数据收集本文根据不同地区居民消费的影响因素进行分析,寻找居民消费水平与各个因素间的关系。

根据回归模型的具体实现步骤,进行如下模型建立与数据收集工作。

3.1 设置指标变量现实生活中,影响一个地区居民消费的因素有很多。

从人口、财政收入、财政支出、能源、产业结构,到各个项目的居民消费支出,都将会影响到此地区军民的消费。

根据现实生活的经验,我们分别选择各地区人均生产总值、职工平均工资、食品花费、衣着花费、居住花费、医疗花费、教育花费、失业人员人数以及人均电力耗费量等9个解释变量研究城镇居民家庭平均每人全年的消费性支出。

解释变量具体为:X1:各地区人均生产总值(单位:元)X2:各地区职工平均工资(单位:元)X3:各地区食品花费(单位:元)X4:各地区衣着花费(单位:元)X5:各地区居住花费(单位:元)X6:各地区医疗花费(单位:元)X7:各地区教育花费(单位:元)X8:各地区失业人员(单位:万人)X9:各地区人均电力耗费量(单位:万千瓦小时)3.2 数据的收集和整理数据选自2011年《中国统计年鉴》我国31个省、市、自治区2010年的数据,以居民的消费性支出(单位:元)为因变量,以如上9个解释变量做回归分析。

数据如表1所示。

表1 2010年不同地区居民消费支出表4.数据处理与分析4.1 确定理论回归模型的数学形式利用SPSS软件计算城镇居民消费支出数据的样本相关系数。

计算结果如表2所示。

表2 城镇居民消费支出数据样本相关系数从相关系数表中我们可以看出,Y与X1、X2、X3、X5、X7的相关系数均在0.8以上,说明其与因变量Y高度线性相关,因此我们选用多元线性回归模型,讨论居民消费支出与X1、X2、X3、X5、X7这五个影响因素之间的关系。

另外,从相关系数表中我们可以看出,Y与X8、X9的相关系数偏小(相关系数小于0.4)。

对于X8,其为各地区失业人员人数,参考各地区失业人数以及失业人数比例,我们可以获知各地区失业人数比例大致相似,因此其对总体消费水平的影响较小也在情理之中。

对于X9,其为各地区人均电力耗费量,虽然消费水平与能源(电力)耗费量具有一定的关系,但由于各个地区能源耗费方式不同,能源耗费方式更多地与地域条件有关。

因此其对总体消费水平的影响较小,但也具有一定的影响(相关系数接近0.4)。

4.2 模型参数的估计在确定X1、X2、X3、X5、X7这五个影响因素后,我们利用逐步回归法,取显著性水平采用SPSS软件对原始数据作线性回归分析,得到回归系数表如表3所示。

表3 回归系数表模型非标准化系数标准系数t Sig.从输出结果看到,逐步回归的最优子集为模型3,回归方程为:Ŷ=−5351.353+0.409X1+1.127X3+3.112X5由回归方程亦可看出,对居民的消费支出有显著影响的是X1、X3和X5这3个解释变量。

即各地区人均生产总值、各地区食品花费以及各地区居住花费。

回归方程中3个自变量的系数都为正,即,这3种因素值越大,居民的消费支出就越多。

同时,从表中还可以看到逐步回归的选元过程。

本例逐步回归的选元过程为第一步引入X1,第二步引入X3,第三步引入X5,在回归过程中剔除了X2和X7两个变量。

因此,各地区职工平均工资以及各地区教育花费虽然对国民消费水平产生了一定的影响,但未起到决定性作用。

从经济层面上看,各地区人均生产总值与各地区国民消费水平必然有直接影响。

从实际生活中我们也可以看到,由于中国仍然为发展中国家,食品花费依然对国民消费水平具有决定性的影响。

然而,随着近1年住房价格的提升,各地区居住花费对国民消费水平的影响开始凸显,这是我们必须要注意到的特点。

4.3 模型的检验4.3.1 回归方程的显著性检验对回归方程的显著性检验就是要看自变量X1、X2、…X P从整体上对随机变量Y是否有明显的影响,显著性检验有两种方法:一是回归方程显著性的F检验,二是回归系数显著性的t检验。

这里仅对F检验进行论述,t检验原理相同。

F检验原假设H0假定自变量系数β1=β2=⋯=βP=0当所构造F检验统计量F>Fα(n−p−1)时拒绝原假设,认为回归方程显著;或P=P{F>Fα(n−p−1)}<α时,拒绝原假设,回归方程显著。

选定α=0.05,利用SPSS软件计算出的方差分析表如表4所示。

表4 方差分析表输出结果中,Sig即显著性P值,小于0.05,因此拒绝原假设,所得回归方程高度显著。

4.3.2 拟合度检验拟合度用于检验回归方程对样本观测值的拟合程度。

定义样本决定系数为R2=U L yy其值越接近1,表明回归拟合的效果越好。

表5展示了逐步回归过程中3个模型的相关系数R2值。

表5 模型汇总表模型R R 方调整 R 方标准估计的误差1 .962a.926 .924 1628.1802 .974b.949 .945 1380.0703 .978c.957 .952 1291.709由表5可知,模型3相关系数R=0.978,R2=0.957最大,表明模型3的拟合效果最好,Y与X1、X3和X5这3个解释变量之间具有很强的线性关系。

4.3.3 残差服从正态分布的检验如图4.1和图4.2分别是残差分布直方图和观测量累计概率P-P图。

相关文档
最新文档