第四章多元线性回归模型(20201121231208)

第四章多元线性回归模型

在一元线性回归模型中，解释变量只有一个。但在实际问题中，影响因变量的变量可能不止一个，比如根据经济学理论，人们对某种商品的需求不仅受该商品市场价格的影响，而且受其它商品价格以及人们可支配收入水平的制约；影响劳动力劳动供给意愿（用劳动参与率度量）的因素不仅包括经济形势（用失业率度量），而且包括劳动实际工资；根据凯恩斯的流动性偏好理论，影响人们货币需求的因素不仅包括人们的收入水平，而且包括利率水平等。当解释变量的个数

由一个扩展到两个或两个以上时，一元线性回归模型就扩展为多元线性回归模型。本章在理论分析中以二元线性回归模型为例进行。

一、预备知识

（一）相关概念

对于一个三变量总体，若由基础理论，变量x1, x2和变量y之间存在因果关

系，或x i,x2的变异可用来解释y的变异。为检验变量x i,x2和变量y之间因果关系是否存在、度量变量洛公2对变量y影响的强弱与显著性、以及利用解释变量x「X2去预测因变量y，引入多元回归分析这一工具。

将给定x ii, X2条件下y的均值

E（y i 区凶）J?。「X i「2X2：（4.1）定义为总体回归函数（Population Regression Function,PRF ）。定义% -E（y i |X iiXi）为误差项（error term ）,记为叫，即叫二y i - E（% |冷，X2J，这样y i =E（% |心凶）*，或

y i = - 0 ■ - 1 X1i ■ - 2 X2i 川= （4.2 ）（4.2）式称为总体回归模型或者随机总体回归函数。其中，X1,X2称为解释变量（explanatory variable ）或自变量（independent variable ）；y 称为被解释变量（explained variable ）或因变量（dependent variable ）;误差项」解释了因变量的变动中不能完全被自变量所解释的部分。

在总体回归模型（4.2 ）中参数r「1「2是未知的，7是不可观察的，统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本（y i , X1i , x2i ）, i = 1,2,…，n，对（4.1 ）式进行估计，若E（y i | x1i , x2i）,■ 0,■ 1, '2 的估

A A A A

计量分别记为y i「o「1「2，则定义（4.3 ）式为样本回归函数

A A A A

y i 八0 ：1 X1i ：2 X2i （i = 1,2/ , n ）

（4.3 ）

AAA

注意，样本回归函数随着样本的不同而不同，也就是说r「1「2是随机变量，它们的随机性是由于y i的随机性（同一组（X1i,X2i）可能对应不同的yj、X1 ,X2各

自的变异、以及X i ,X 2之间的相关性共同引起的。定义％ - y 为残差项（residual

A A

term ）,记为 e ,即 e = y i - y i ，这样 y i = y i + e ，或

A A

y i 二 5」X i y （ i =1,2, ,n ）

（4.4）（4.4）式称为样本回归模型或者随机样本回归函数。样本回归模型中残差项e i 可视为

总体回归模型中误差项叫的估计量。

（二）多元线性回归模型的矩阵表示

多元线性回归模型的参数估计比一元线性回归模型要复杂得多，为了便于计算和分析，便于将结果由三变量总体推广到一般的多变量总体，引入矩阵这一工具简化计算和分析。

设（y i ,X ii ,X 2i ）,i =1,2,…，n 是取自总体的一组随机样本。在该组样本下，总体回

归模型（4.2 ）式可以写成方程组的形式

y i = - 0 ■ - 1X 11 ■- 2X 21 川'丄1

y 2 - 一 0 一 1X 12 一 2X

22 川’丄2 利用矩阵运算，可表示为

则在该组样本下，总体回归模型的矩阵表示为

(4.6)

则样本回归模型的矩阵表示为

y = X 1 e

（4.7）

（三）模型假定

假定1回归模型是参数线性的，并且是设定正确的。

y n 一0 -1X 1n _2X 2n "n

■yj

y 2 ■yj

y 2 X 11 X 12 J X 21 X 22

Xm Xm X 2n

X 21 I X 22 X 2n

'P e l (4.5)

_e n

_ej

e 2

e =

假定2随机误差项与解释变量不相关。即

cov（X ji,叫）=0 , j =1,2。

如果解释变量是非随机的，则该假设自动满足。假定3零均值假定。即

E（叫）=0, i =1,2, ,n

假定4同方差假定。即

var（叫）-；「，i =1,2, , n

假定5无自相关假定。即两个误差项之间不相关

COV（叫，?ij）=0 i = j，i =1,2, ,n，j =1,2,…,n

假定6解释变量X1与X2之间不存在完全共线性，即两个解释变量之间无确切的的线性关系。

假定7正态性假定。即

叫?N（0,匚），i =1,2, , n

（四）参数估计与估计量的分布系数向量：的OLS估计为

一（X T X）」X T y （4.8 ）其中，X T为X的转置矩阵。在随机误差项服从正态分布的假定下，系数向量的估计量也服从正态分布，即

'■?N（点2（X T X）‘）（4.9 ）记C=（X T X）°的第j个主对角元素为C jj ,则

■j ?N（j；「2C jj）

（4.10

）

有了系数估计量的分布，就可以对总体参数做假设检验。与双变量总体相同，

总体误差叫是不可观察的，因而其方差二2是未知的。若用二2的无偏估计量二2代替二2，则OLS估计量服从自由度为n -3的t分布，而不是正态分布，即

打一j

j?t(n -3) se( : j)(4.11 )

其中，se(:j)二2 C jj

A 丁2

2 ■—e i

，匚o 0

n - 3

（五）预测原理

回归分析的目的之- 「是利用回归模型预测因变量。假设三变量总体的回归模

型为（4.2 ），即

y — Mi 「2X 2i

(4.2)

在一组随机样本(y i ,X ii ,X 2i ),i =1,2, ,n 下,利用OLS 求得样本回归函数为(4.3 )

A A A A y i ：i X !i 「2i X 2i ( i =1,2,…，n ) (4.3 )

给定样本外一点X f =(1,X if ,X 2f )T ，贝U 因变量y 的点预测为

y f = 'o' ■ 1 X 1 ■ 2 X 2 f A

点预测y f

的标准误为因变量yf 的置信度为1 -:的区间预测为

A A A A [y f -t.2(n-3)se(y f ), y f t ：.2(n- 3)se(y f )]

(4.14 )

二、案例 [案例1] Woody 餐馆的选址分析

Woody 餐馆是一家价位适中、24小时营业的家庭连锁店，公司邀请你决策下一家

连锁店的选址问题。你决定建立一个回归模型来解释每一家连锁餐馆的毛销售额Y (the gross sales volume ),通过文献的阅读，你认为以下变量对毛销售额的影响较大，

N =竞争变量：餐馆位置半径2里以内市场直接竞争者的数量；

P=人口：

餐馆位置半径3里以内人口的数量；匸收入：餐馆位置半径3里以内家庭平均收入。

并且通过调研，你获得了 33家Woody 餐馆连锁店的数据。 [案例2]经济形势和实际工资对人们工作意愿的影响

在第三章，我们根据劳动经济学理论，分析了经济形势对人们工作意愿的影响存在

两种效应：受挫工人效应和增加工人效应；并且利用1980-2002年的数据实证了受挫工人效应占主导地位。

但根据劳动经济学理论，影响人们工作意愿的因素，除了经济形势以外，还有实际

的工资水平。从理论上说，实际工资增加对劳动供给具有两种效应：替代效应与收入效应。替代效应趋于使劳动供给增加，而收入效应则趋于使劳动供给降低，两种效应的相对影响取决于家庭的偏好(参考文献 [4] ，p49)。

本案例考察实际工资对人们工作意愿是否有影响，以及在有影响的情况下，那种效

应占优。数据见表3.1。

三、实验目的

[案例1] Woody 餐馆的选址分析

(4.12 )

A A

se(y f )「1 x ；(X T X)」X f

(4.13)

1、绘制丫对N P 、I 的散点图，并在散点图中附加回归线。

2、建立丫对N 、P 、I 的线性回归模型，并定性分析解释变量

N 、P 、I 对丫的影

响。 3、利用样本数据及OLS 法对回归模型进行估计，并报告回归结果。

4、观察回归系数的显著性和方程的显著性，并解释回归系数的含义。

［案例2］经济形势和实际工资对人们工作意愿的影响

1、绘制clfpr 对ahe82的散点图，并附回归线，观察城市劳动参与率与实际工资之间的线性关系。

2、建立clfpr 对ahe82的一元线性回归模型，利用1980-2002年的数据估计模型，并观察回归系数的显著性和方程的显著性。

3、同时考虑经济形势与实际工资对人们工作意愿的影响，建立二元线性回归模型，利用1980-2002年的数据估计模型，观察回归系数的显著性和方程的显著性，并解释回归系数的经济含义。

4、对上面(2)与(3)中估计结果的差别进行解释。

5、模型的选择问题，在以下三个模型之间，哪个模型更好呢？

clfpn = J reunn t

(I) clfpr t 二 ■ ■■ ■1ahe82^ -t (n)

clfpr t = 0 ：j ahe82t ：2

cunr ; t (E) 四、实验原理

五、实验步骤

［案例1］ Woody 餐馆的选址分析

1、打开Eviews 工作文件 Woody.wfl ，按住Ctrl 键，点击工作文件目录中的序列丫、N 、P 、I 图标，点击鼠标右键，点击 Open/as Group,出现包含序列丫、N 、 P 、I 的组对象窗口。

点击组对象窗口工具栏的 View 按钮，选择Graph ，在Specifi 选项中选择

180,000 180,000 160,000 140,000 120,000 100,000 80,000 -

0 10 160,000 140,000 120,000 100,000 80,000 100,000 200,000 300,000 图4-1 ￥对N P 、I 的散点图

180,000

160,000

140,000

120,000

100,000

20,000 30,000 40,000

80,000 10,000