应用回归课程教学设计
应用回归分析
课程设计报告
课程:应用回归分析
题目:人均可支配收入的分析年级:11金统
专业:金融统计
学号:
姓名:
指导教师:
徐州师范大学
数学科学学院
基于多元线性回归模型对我国城镇居民家
庭人均可支配收入的分析
摘要:收入分配和消费结构都是国民经济的重要课题居民消费的主要来源
是居民收入而消费又是拉动经济增长的重要因素。本文将通过多远统计分析方法对我国各地区城镇居民收入的现状进行分析。通过分析找出我国城镇居民收入特点及其中存在的不足。城镇居民可支配收入是检验我国社会主义现代化进程的一个标准。本文根据我国城镇居民家庭人均可支配收入为研究对象,选取可能影响我国城镇居民家庭人均可支配收入的城乡居民储蓄存款年底余额、城乡居民储蓄存款年增加额、国民总收入、职工基本就业情况、城镇居民家庭恩格尔系数(%)5个因素,运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和多重共线性诊断,用迭代法消除了自变量之间的自相关。对于多重共线性问题,先是用逐步回归和剔除变量的方法,最终转变为用方差扩大因子法城乡居民储蓄存款年增加额剔除城镇居民家庭恩格尔系数(%)
解决多重共线性,建立最终回归方程
432108.0039.0012.0470.5305x x x y +++-=∧
标准化回归方程
**
3*24108.0863.0031.0x x x y ++=∧
以其探究最后进入回归方程的几个变量在影响城镇居民收入孰轻孰重,达到学习与生活结合的效果。分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。
关键词:多元线性回归 异方差 自相关 多重共线性 逐步回归 方差扩
大因子
(一)引言:
改革开放以来我国的国民经济增长迅速居民的收入水平也大幅提高但居
民收入分配差距也在不断扩大。2008年的金融危机为我国带来的后遗症还在继续影响着居民正常生活物价上涨和通货膨胀的压力仍然困扰着老百姓收入和消费支出体系的健康发展至关重要。消费是拉动国民经济增长的一架重要马车收入又是决定居民消费的最主要因素。我国人口基数大消费群体众多但由于居民收入分配差距大直接影响到居民消费需求的降低从而影响经济增长。而且随着中国特色的市场经济体制的建立各种收入分配问题也愈发明显。因此鉴于篇幅限制本文就只针对城镇居民的收入进行分析。中国网北京7月13日讯 国家统计局今日发布数据显示,我国城乡居民收入稳定增长,农村居民收入增长较快。上半年,城镇居民家庭人均总收入12076元。其中,城镇居民人均可支配收入11041元,同比增长13.2%,扣除价格因素,实际增长7.6%。在城镇居民家庭人均总收入中,工资性收入同比名义增长11.5%,转移性收入增长9.9%,经营净收入增长31.2%,财产性收入增长20.4%。农村居民人均现金收入3706元,同比增长20.4%,扣除价格因素,实际增长13.7%。其中,工资性收入同比名义增长20.1%,家庭经营收入增长21.0%,财产性收入增长7.5%,转移性收入增长23.2%。财政部副部眨楼继伟就调整城镇中低收入居民收 入政策符记者问中说:“由于城乡居民收入增长趋缓,居民对未来支出增加的预期增强, 消费意愿减弱,导致消费需求不旺。针对有效需求不足这一突出问题,党中央利国务院 决定, 积极调整收入分配政策,通过提高国有企业下岗职工等低收入者的生活保障水平 和增加机关事业单位职工工资等措施,逐步改变居民收入预期下降、支出预期I:列、高 收入者消费意愿不强、低收入者消费能力不足的状况,旨在刺激消费需求,健进国民经 济持续快速健康发展。”
下面通过统计数据对我国城镇居民家庭人均可支配收入的总体现状和发展态势进行分析了解我国居民收入分配情况。
(二)问题重述
以1991年-2011年的城镇居民家庭人均可支配收入y 为因变量,选取城乡居民储蓄存款年底余额x1、城乡居民储蓄存款年增加额x2、国民总收入x3、职工基本就业情况x4、城镇居民家庭恩格尔系数(%)x5为自变量。
(三)模型分析与建立
①多元线性回归模型
1.多元线性回归模型的一般形式
设随机变量y 与一般变量p x x x ,,,21Λ 的线性回归模型为
εββββ+++++=p p x x x y Λ22110 (4.1)
其中,p βββ,,,10Λ是1+p 个未知参数,0β称为回归常数,p ββ,,1Λ称为回归系
数。y 称为被解释变量(因变量),p x x x ,,,21Λ是p 个可以精确测量并控制的一般变量,称为解释变量(自变量)。 ε是随机误差,与一元线性回归一样,对随机误差项我们常假定
???==2
)var(0)(σ
εεE (4.2)
称
εββββ+++++=p p x x x y E Λ22110)( (4.3) 为理论回归方程。
对一个实际问题,如果我们获得n 组观测数据
),,2,1(),,,(;21n i y x x x i ip i i ΛΛ=,则线性回归模型(4.1)式可表示为
??
????
?+++++=+++++=+++++=n
np p n n n p p p p x x x y x x x y x x x y εββββεββββεββββΛΛΛΛ221102
2222211021
112211101 (4.4) 写成矩阵形式为
εβ+=X y (4.5)
其中
?
???
???
??=n y y y y M
21 ????
???????
???=np n n p p x x x x x x x x x X Λ
ΛΛΛΛ
ΛΛ
Λ2
1
2222111211111 ???????
?????????=p βββββM 210 ??????
??????????=n εεεεεM 210 (4.6)
X 是一个)1(+?p n 阶矩阵,称为回归设计矩阵或资料矩阵。 2.多元线性回归模型的基本假定
为了方便地进行模型的参数估计,对回归方程(4.4)式有如下一些基本假定:
(1)解释变量p x x x ,,,21Λ是确定性变量,不是随机变量,且要求
n p X rank <+=1)(。这里的n p X rank <+=1)(,表明设计矩阵X 中的自变量列
之间不相关,样本量的个数应大于解释变量的个数,X 是一满秩矩阵。
(2)随机误差项具有零均值和等方差,即
?
?
?
?
?=???≠====n j i j i j i n i E j i i ,,2,1,,,0,),cov(,,2,1,0)(2ΛΛσεεε (4.7) 这个假定常称为高斯—马尔柯夫条件。0)(=i E ε,假设观测值没有系统错误,
随机误差项i ε的平均值为0。随机误差项i ε的协方差为0,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。
(3)正态分布的假定条件为
??
?=相互独立
n i n
i N εεεσε,,,,,2,1),,0(~212ΛΛ (4.8) 对于多元线性回归的矩阵模型(4.5)式, 这个条件便可表示为
),0(~2n I N σε (4.9)
由上述假定和多元正态分布的性质可知,随机变量y 服从n 维正态分布,回归模型(4.5)式的期望向量
βX y E =)( (4.10)
n I y 2)var(σ= (4.11)
因此 ),(~2n I X N y σβ (4.12) ②回归参数的普通最小二乘估计
线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各个参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。
对于(4.5)式表示的回归模型εβ+=X y ,所谓最小二乘法,就是寻找参
数p ββββ,,,,210Λ的估计值p
ββββ?,,?,?,?210Λ,使离差平方和2221101210)(),,,,(ip p i i n
i i p x x x y Q ββββββββ-----=∑=ΛΛ达到极小,即寻找
p
ββββ?,,?,?,?210Λ满足 2221101210)(),,,,(ip p i i n
i i p x x x y Q ββββββββ-----=∑=ΛΛ
2
1
22110
,
,,)(min 210∑=-----=
n
i ip p i i i
x x x y p
βββββ
βββΛΛ
(4.13)
依照(4.13)式求出的p ββββ?,,?,?,?210Λ就称为回归参数p
ββββ,,,,210Λ的最小二乘估计。
p
p x x x y ββββ?????22110++++=Λ (4.14) 为经验回归方程。
(四)问题分析
①数据说明
以1991年-2011年的城镇居民家庭人均可支配收入y 为因变量,选取城乡居民储蓄存款年底余额x1、城乡居民储蓄存款年增加额x2、国民总收入x3、职工基本就业情况x 4、城镇居民家庭恩格尔系数(%)x 5为自变量。数据来源国家统计局网站统计年鉴。
②求解分析
直接进入法
模型汇总
模型 R R 方
调整 R 方 标准 估计的误差
1
.999a
.999
.999
212.39403
a. 预测变量: (常量), 家庭恩格尔系数, 年增加额, 就业情况, 国民总收入, 年底余额。
可以看出调整后的决定系数999.02 R ,说明回归方程的拟合优度比较好。
方差分析表可以看出,F 检验的检验值F=2990.552非常大,再看F 检验的P 值
≈0.000,可知此回归方程高度显著,即做出5个自变量整体对因变量y 产生显
著线性影响的判断所犯错误的概率仅为0.000。
此时得到的回归方程为:
43221248.7102.0036.0011.0004.0278.4471x x x x x y -++++-=∧
复决定系数为0.999,F-检验高度显著(F=2990.552,P=0.000),说明模型整体拟合效果不错。
首先看t 检验结果, j β的t 统计量)5,,2,1(Λ=j t j 及其相应的p 值就是上表第五
列(Sig.)的结果。我们可以发现显著性水平05.0=α时只有国民总收入(3x )和就业情况(4x )通过了显著性检验。尽管回归方程的显著性检验高度显著,但也会出现有某些自变量j x (甚至每个j x )对y 无显著影响的情况。
接着看看回归系数的置信区间除了有国民总收入(3x )系数95%置信区间[0.025,0.047]和就业情况(4x )系数95%置信区间[0.057,0.147]不包含0,这也反映了回归系数的不合理。
那么究竟是什么原因导致回归方程出现上述结果呢,我们猜想可能是下列原因导致的。
(1)异方差和自相关
在回归模型的基本假设中,假定随机误差性n εεε,,,Λ21具有相同的方差,独立或不相关,即对于所有样本点,有
?
?
???
???=≠====n j i j i j i n i E j i i ,,2,1,,0,),cov(,,2,1,0)(2
ΛΛσεεε
但在建立实际问题的回归模型时,经常存在于此假设相违背的情况,一种是计量经济建模中常说的异方差性,即)var()var(j i εε≠,当j i ≠时另一种是自相关性,即
0)(cov ≠j i εε,,当j i ≠时,异方差带来的问题:
当一个回归问题存在异方差时,如果仍用普通最小二乘发估计位置参数,将引起不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。
当存在异方差时,参数向量β
?的方差大于在同方差条件下的方差,如果用普通最小二乘发估计参数,将出现低估β
?的真是方差的情况,进一步将导致高估回归系数的t 检验值,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带来一定影响。
当存在异方差是,普通最小二乘估计存在以下问题:
1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
2、参数的显著性检验失效。
3、回归方程的应用效果极不理想。
自相关带来的问题:
当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下,序列自相关性会带来下列问题: 1、最小二乘估计量仍然是线性的和无偏的。
2、最小二乘估计量不是有效的,即OLS 估计量的方差不是最小的,估计量不是最优线性无偏估计量(BLUE)。
3、OLS 估计量的方差是有偏的。用来计算方差和OLS 估计量标准误的公式会严重的低估真实的方差和标准误,从而导致t 值变大,使得某个系数表面上显著不为零,但事实却相反。
4、t 检验和F 检验不是可信的。
5、计算得到的误差方差2σ=df SSE /(残差平方和/自由度)是真实2σ的有偏估计量,并且很可能低估了真实的2σ。
6、计算的2R 也不能真实的反映实际2R 。
7、计算的预测方差和标准误差通常是无效的。 (2)多重共线性
多元线性回归有一个基本假设,就是要求设计矩阵X 的秩1)(+=p X rank ,即要求X 中的列向量之间线性无关。如果存在不全为零的1+p 个数
p c c c c ,,,,210Λ,使得
,022110=++++ip p i i x c x c x c c Λ n i ,,2,1Λ= (5.1)
则自变量p x x x ,,,21Λ之间存在完全多重共线性。在实际问题中,完全的多重共线性并不多见,常见的是(5.1)式近似成立的情况,即存在不全为零的1+p 个数
p c c c c ,,,,210Λ,使得
,022110≈++++ip p i i x c x c x c c Λ n i ,,2,1Λ= (5.2)
当自变量p x x x x ,,,,210Λ存在(5.2)式的关系时,称自变量p x x x x ,,,,210Λ之间存在多重共线性(multi-collinearity ),也称为复共线性。 多重共线性到来的影响:
(1)完全共线性下参数估计量不存在
(2)近似共线性下OLS 估计量非有效,多重共线性使参数估计值的方差增大,
)1/(12r 为方差扩大因子(Variance Inflation Factor, VIF)
(3)参数估计量经济含义不合理
(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外 (5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
方程的异方差、自相关以及多重共线性诊断 1.异方差诊断
这里使用等级相关系数法检验,计算残差绝对值||i e (见附录2)与自变量i x 的相关性时采用Spearman 等级相关系数,而不采用Pearson 简单相关系数,这是由于等级相关系数可以反映非线性相关的情况,而简单相关系数不能如实反映非线性相关情况。
残差绝对值与自变量储蓄存款年底余额1x 的相关系数为s r =0.023
残差绝对值与自变量储蓄存款年增加额2x 的相关系数为s r =0.121
残差绝对值与自变量国民总收入3x 的相关系数为s r =0.047
残差绝对值与自变量就业情况4x 的相关系数为s r =-0.281
残差绝对值与自变量家庭恩格尔系数5x 的相关系数为s r =-0.183
因为在显著性水平05.0=α下,每个p 值都大于05.0=α,认为残差绝对值||i e 与自变量i x 不显著相关,即认为不存在异方差。 2.自相关诊断
这里我们采用DW 检验。可以用SPSS 算出DW 的值,结果如下
由表5我们可以得到DW=1.892,查DW 表,n=21,k=6,显著性水平05.0=α,得
96.1,83.0==U L d d 。由L d DW ≤≤0,可知残差是有自相关。 消除自相关
这里我们用迭代法消除自相关,需要求出t y '和t i x ,',其中
???-='
-='--1,,1
t t i t
i t t t x x x y y y ρρ 5,,2,1Λ=i (5.3)
(5.3)式中自相关系数ρ是未知的,用DW 2
1
-1?≈ρ来估计ρ,计算出ρ后,
带入(5.3)式,计算变换因变量t y '和变换自变量t i x ,'(见附录1),然后用变换得到自变量和因变量作普通最小二乘回归,看看自相关是否消除。
由表6我们可以得到DW=1.782,查DW 表,n=20,k=6,显著性水平05.0=α,得
99.1,79.0==U L d d 。由U L d DW d ≤<,可知不能判定残差是否有自相关。
多重共线性诊断
这里采用方差扩大因子和条件数检验回归方程的多重共线性。方差扩大因子法中,当10≥j VIF 时,就说明自变量j x 与其与自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。条件数法中,当100<≤k 时,没有多重共线性;10010<≤k 时,存在较强的多重共线性;100≥k 时,存在严重的多重共线性
可以看出储蓄存款年底余额(1x )国民总收入(3x )的方差扩大因子很大,分别为650.2591=VIF ,802.1893=VIF ,,远远超过10,说回归方程存在着严重的多重共线性。
消除多重共线性
变量之间的多重共线性比较严重,我们先用逐步回归的方法剔除一些变量。用普通最小二乘回归对迭代法得到的数据进行分析
可以看出储蓄存款年底余额(1x )的方差扩大因子650.2591=VIF 最大,应该剔除变
元(1x ),用y 与剩下的自变量建立回归方程,有关计算结果如下。
可以看到方差扩大因子10,1053>>VIF VIF ,依然存在多重共线性。继续剔除家庭恩格尔系数(5x ) 结果如下:
可以看出所有的方差扩大因子都小于10,回归系数也都有合理的经济解释,说明此回归系数也都有合理的经济解释,说明此回归模型不存在强多重共线性,可以作为最终回归模型。回归方程为
432108.0039.0012.0470.5305x x x y +++-=∧
标准化回归方程
**3*24108.0863.0031.0x x x y ++=∧
(五)模型优劣分析
①模型评价 优点
本文以多元线性回归建立模型,分别选用了等级相关系数法诊断异方差;图示检验法和DW 检验法诊断自相关迭代法消除自相关;方差和扩大因子法诊断多重共线性方差扩大因子法建立回归方程。用多元线性回归模型得到的回归方程能很明白的说明问题,容易理解。 缺点
为了解决多重共线性问题,选取的5个自变量未能全部进入最后的回归方程。 ②模型推广
本文建立的多元线性回归模型很好地决绝了实际问题,并且能够推广应用到
现实生活中的很多问题,如:
1、分析国家财政收入与选取自变量之间的关系,并对其作出短期预测;
2、分析股票变动与选取自变量之间的关系,并对其作出短期预测。
(六)参考文献
[1] 薛薇,《SPSS统计分析方法及应用(第二版)》,北京:电子工业出版社,2009年
[2] 茆诗松,《概率论与数理统计》,北京:高等教育出版社,2011年
[3] 何晓群,《应用回归分析(第三版)》,北京:中国人民大学出版社,2011年
[4] 贾俊平,《统计学》,北京:清华大学出版社,2004年
附录1
Y X1 X2 X3 X4 X5 X6 X7
7080.84 8957.8 8514.36 51672.44 131419.
84
188836.
52
4490.1216 85.792
8275.64 10082 9436 63380.12 138229.
24
193728.
44
6184.7204 126.692
9591.16 11222.3
2
10505.9
2
79901.8
146560.
6
199439.
76
9646.9536 159.776
10588.4 8 11768.6
8
11631.6 96336.72
155215.
04
201179.
48
13082.8588 173.072
11339.8 4 12129.0
8
12668.6
8
111711.9
6
165542.
36
203510.
84
16193.5556 183.576
11852.4 12794.0
8
13632.6
154248.6
4
171921.
28
206439.
44
18797.8224 188.184
12593.6 4 13728.7
2
14383.6
4
164824.3
6
173762.
76
207310.
36
19844.6312 199.6
13532.1 2 14609.3
2
14849.6
8
173624.4
174238.
52
198797.
8
22246.4584 207.324
15116.6 4 15662.5
2
15660.6
185789.3
2
178700.
52
200200.
8
23800.7984 228.84
16536.8 16329.2
8
17026.0
4
201374.6
4
184890.
32
210082.
92
25799.1204 258.296
19748.8 8 18761
18603.6
8
233168.4
8
191154.
68
225696.
68
28705.0328 292.16
23751.0 4 22482.6
4
20686.2
4
268341.1
2
201544.
68
237754.
28
33006.2564 390.676
29498.5 6 27340.3
6
23737.2
319747.5
2
228432.
68
252335.
84
40889.2592 535.428
38726.2 4 34516.5
2
27382.6
8
383611.5
6
264917.
76
273763.
92
52168.7776 633.532
46724.2 8 43245.4
8
31172.2
4
439821.0
8
295764.
68
292827.
48
65367.5896 713.048
57468.8 8 51805.7
2
35657.8
4
508922.6
324755.
16
310390.
92
81722.9552 887.64
69691.0 4 60665.2
40839.9
6
596849.1
2
352937.
28
331133.
28
102215.512
4
1092.71
2
76297.0 8 64006.1
2
44146.4
8
665480.6
8
369990.
24
348715
128343.998
4
1179.49
2
86333.8 71303.6
8
46935.2
4
737139.3
2
388252.
44
354640.
04
168146.816
4
1640.06
8
99710.4 79744.0
4
52473.1
6
872830.3
2
410800.
16
387261.
16
210204.162
4
2212.76