第四章多元线性回归模型(20201121231208)
第四章多元线性回归模型
在一元线性回归模型中,解释变量只有一个。但在实际问题中,影响因变量的变量可能不止一个,比如根据经济学理论,人们对某种商品的需求不仅受该商品市场价格的影响,而且受其它商品价格以及人们可支配收入水平的制约;影响劳动力劳动供给意愿(用劳动参与率度量)的因素不仅包括经济形势(用失业率度量),而且包括劳动实际工资;根据凯恩斯的流动性偏好理论,影响人们货币需求的因素不仅包括人们的收入水平,而且包括利率水平等。当解释变量的个数
由一个扩展到两个或两个以上时,一元线性回归模型就扩展为多元线性回归模型。本章在理论分析中以二元线性回归模型为例进行。
一、预备知识
(一)相关概念
对于一个三变量总体,若由基础理论,变量x1, x2和变量y之间存在因果关
系,或x i,x2的变异可用来解释y的变异。为检验变量x i,x2和变量y之间因果关系是否存在、度量变量洛公2对变量y影响的强弱与显著性、以及利用解释变量x「X2去预测因变量y,引入多元回归分析这一工具。
将给定x ii, X2条件下y的均值
E(y i 区凶)J?。「X i「2X2:(4.1)定义为总体回归函数(Population Regression Function,PRF )。定义% -E(y i |X iiXi)为误差项(error term ),记为叫,即叫二y i - E(% |冷,X2J,这样y i =E(% |心凶)*,或
y i = - 0 ■ - 1 X1i ■ - 2 X2i 川= (4.2 )(4.2)式称为总体回归模型或者随机总体回归函数。其中,X1,X2称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项」解释了因变量的变动中不能完全被自变量所解释的部分。
在总体回归模型(4.2 )中参数r「1「2是未知的,7是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本(y i , X1i , x2i ), i = 1,2,…,n,对(4.1 )式进行估计,若E(y i | x1i , x2i),■ 0,■ 1, '2 的估
A A A A
计量分别记为y i「o「1「2,则定义(4.3 )式为样本回归函数
A A A A
y i 八0 :1 X1i :2 X2i (i = 1,2/ , n )
(4.3 )
AAA
注意,样本回归函数随着样本的不同而不同,也就是说r「1「2是随机变量,它们的随机性是由于y i的随机性(同一组(X1i,X2i)可能对应不同的yj、X1 ,X2各
自的变异、以及X i ,X 2之间的相关性共同引起的。定义% - y 为残差项(residual
A A
term ),记为 e ,即 e = y i - y i ,这样 y i = y i + e ,或
A A
y i 二 5」X i y ( i =1,2, ,n )
(4.4) (4.4)式称为样本回归模型或者随机样本回归函数。样本回归模型中残差项e i 可 视为
总体回归模型中误差项 叫的估计量。
(二)多元线性回归模型的矩阵表示
多元线性回归模型的参数估计比一元线性回归模型要复杂得多, 为了便于计 算和分析,便于将结果由三变量总体推广到一般的多变量总体, 引入矩阵这一工 具简化计算和分析。
设(y i ,X ii ,X 2i ),i =1,2,…,n 是取自总体的一组随机样本。在该组样本下,总体 回
归模型(4.2 )式可以写成方程组的形式
y i = - 0 ■ - 1X 11 ■- 2X 21 川'丄1
y 2 - 一 0 一 1X 12 一 2X
22 川’丄2 利用矩阵运算,可表示为
则在该组样本下,总体回归模型的矩阵表示为
(4.6)
则样本回归模型的矩阵表示为
A
y = X 1 e
(4.7)
(三)模型假定
假定1回归模型是参数线性的,并且是设定正确的。
y n 一0 -1X 1n _2X 2n "n
■yj
y 2 ■yj
y 2 X 11 X 12 J X 21 X 22
Xm Xm X 2n
X 21 I X 22 X 2n
'P e l (4.5)
_e n
_ej
e 2
e =
假定2随机误差项与解释变量不相关。即
cov(X ji,叫)=0 , j =1,2。
如果解释变量是非随机的,则该假设自动满足。假定3零均值假定。即
E(叫)=0, i =1,2, ,n
假定4同方差假定。即
2
var(叫)-;「,i =1,2, , n
假定5无自相关假定。即两个误差项之间不相关
COV(叫,?ij)=0 i = j,i =1,2, ,n,j =1,2,…,n
假定6解释变量X1与X2之间不存在完全共线性,即两个解释变量之间无确切的的线性关系。
假定7正态性假定。即
2
叫?N(0,匚),i =1,2, , n
(四)参数估计与估计量的分布系数向量:的OLS估计为
A
一(X T X)」X T y (4.8 )其中,X T为X的转置矩阵。在随机误差项服从正态分布的假定下,系数向量的估计量也服从正态分布,即
A
'■?N(点2(X T X)‘)(4.9 )记C=(X T X)°的第j个主对角元素为C jj ,则
A
■j ?N(j;「2C jj)
(4.10
)
有了系数估计量的分布,就可以对总体参数做假设检验。与双变量总体相同,
A
总体误差叫是不可观察的,因而其方差二2是未知的。若用二2的无偏估计量二2代替二2,则OLS估计量服从自由度为n -3的t分布,而不是正态分布,即
打一j
j
A
j?t(n -3) se( : j)(4.11 )
其中,se(:j)二2 C jj
A 丁2
2 ■—e i
,匚o 0
n - 3
(五)预测原理
回归分析的目的之- 「是利用回归模型预测因变量。假设三变量总体的回归模
型为(4.2 ),即
y — Mi 「2X 2i
(4.2)
在一组随机样本(y i ,X ii ,X 2i ),i =1,2, ,n 下,利用OLS 求得样本回归函数为(4.3 )
A A A A y i :i X !i 「2i X 2i ( i =1,2,…,n ) (4.3 )
给定样本外一点X f =(1,X if ,X 2f )T ,贝U 因变量y 的点预测为
y f = 'o' ■ 1 X 1 ■ 2 X 2 f A
点预测y f
的标准误为 因变量yf 的置信度为1 -:的区间预测为
A A A A [y f -t.2(n-3)se(y f ), y f t :.2(n- 3)se(y f )]
(4.14 )
二、案例 [案例1] Woody 餐馆的选址分析
Woody 餐馆是一家价位适中、24小时营业的家庭连锁店,公司邀请你决策下 一家
连锁店的选址问题。你决定建立一个回归模型来解释每一家连锁餐馆的毛销 售额Y (the gross sales volume ),通过文献的阅读,你认为以下变量对毛销 售额的影响较大,
N =竞争变量:餐馆位置半径2里以内市场直接竞争者的数量;
P=人口:
餐馆位置半径3里以内人口的数量; 匸收入: 餐馆位置半径3里以内家庭平均收入。
并且通过调研,你获得了 33家Woody 餐馆连锁店的数据。 [案例2]经济形势和实际工资对人们工作意愿的影响
在第三章,我们根据劳动经济学理论,分析了经济形势对人们工作意愿的影 响存在
两种效应:受挫工人效应和增加工人效应;并且利用1980-2002年的数据 实证了受挫工人效应占主导地位。
但根据劳动经济学理论,影响人们工作意愿的因素,除了经济形势以外,还 有实际
的工资水平。从理论上说,实际工资增加对劳动供给具有两种效应: 替代 效应与收入效应。替代效应趋于使劳动供给增加,而收入效应则趋于使劳动供给 降低,两种效应的相对影响取决于家庭的偏好(参考文献 [4] ,p49)。
本案例考察实际工资对人们工作意愿是否有影响,以及在有影响的情况下, 那种效
应占优。数据见表3.1。
三、实验目的
[案例1] Woody 餐馆的选址分析
(4.12 )
A A
se(y f )「1 x ;(X T X)」X f
(4.13)
1、 绘制丫对N P 、I 的散点图,并在散点图中附加回归线。
2、 建立丫对N 、P 、I 的线性回归模型,并定性分析解释变量
N 、P 、I 对丫的影
响。 3、 利用样本数据及OLS 法对回归模型进行估计,并报告回归结果。
4、 观察回归系数的显著性和方程的显著性,并解释回归系数的含义。
[案例2]经济形势和实际工资对人们工作意愿的影响
1、 绘制clfpr 对ahe82的散点图,并附回归线,观察城市劳动参与率与实际工 资之间的线性关系。
2、 建立clfpr 对ahe82的一元线性回归模型,利用1980-2002年的数据估计模 型,并观察回归系数的显著性和方程的显著性。
3、 同时考虑经济形势与实际工资对人们工作意愿的影响,建立二元线性回归模 型,利用1980-2002年的数据估计模型,观察回归系数的显著性和方程的显著性, 并解释回归系数的经济含义。
4、 对上面(2)与(3)中估计结果的差别进行解释。
5、 模型的选择问题,在以下三个模型之间,哪个模型更好呢?
clfpn = J reunn t
(I) clfpr t 二 ■ ■■ ■1ahe82^ -t (n)
clfpr t = 0 :j ahe82t :2
cunr ; t (E) 四、 实验原理
五、 实验步骤
[案例1] Woody 餐馆的选址分析
1、打开Eviews 工作文件 Woody.wfl ,按住Ctrl 键,点击工作文件目录中的序 列丫、N 、P 、I 图标,点击鼠标右键,点击 Open/as Group,出现包含序列丫、N 、 P 、I 的组对象窗口。
点击组对象窗口工具栏的 View 按钮,选择Graph ,在Specifi 选项中选择
180,000 180,000 160,000 140,000 120,000 100,000 80,000 -
0 10 160,000 140,000 120,000 100,000 80,000 100,000 200,000 300,000 图4-1 ¥对N P 、I 的散点图
180,000
160,000
140,000
120,000
100,000
20,000 30,000 40,000
80,000 10,000