第4章回归模型中的随机误差项问题

合集下载

第4章回归模型中的随机误差项问题

2014年4月25日山东财经大学统计学院计量经济教研室第23页
机动目录上页下页返回结束
2
2
例4.1 根据随机抽取的21个农村家庭年底储蓄余额与年内家庭纯货币收入的资料，按收入排序后的数据见下表。其中， x为年内家庭纯货币收入（元）， y为年底家庭储蓄余额（元）。
表4.1 家庭储蓄余额与纯货币收入数据表
• 最小二乘估计量仍然是线性无偏的，但不再具有最小方差性。 • 参数的显著性检验和置信区间的建立发生困难。 • 虽然最小二乘法参数的估计量是无偏的，但这些参数方差的估计量、是有偏的。 • 预测的精确度降低。
2014年4月25日
山东财经大学统计学院计量经济教研室
第17页
机动目录上页下页返回结束
第 9页
机动目录上页下页返回结束
第二节异方差一、异方差及其产生的原因
当不能满足同方差的假设，即u的条件方差在不同次的观测中不再是一个常数，而是取得不同的数值，即
Var(u | xi ) i2 常数
(i 1,2, ,n)
则称随机误差项u具有异方差性(Heteroscedasticity)。如果被解释变量观测值的分散程度是随解释变量的变化而变化的，如图4.1所示，可以把异方差看成是由于某个解释变量的变化而引起的，则
Y X u
使得其中的 U 重新满足假定2(同方差性)和假定3(无序列相关性)。这样就可以对上式使用OLS估计参数，从而使得上式的OLSE仍然为BLUE。若因假定2和假定3不满足时，有
2 Cov(u) E(uu) u
其中Ω≠I， Ω是一个n×n的正定对称方阵。
2014年4月25日山东财经大学统计学院计量经济教研室第 7页

计量经济学课程第4章(多元回归分析)

Page 2
§4.1 多元线性回归模型的两个例子
一、例题1：CD生产函数
Qt AKt 1 Lt 2 et
这是一个非线性函数，但取对数可以转变为一个对参数线性的模型
ln Qt 0 1 ln Kt 2 ln Lt t
t ~ iid(0, 2 )
注意：“线性”的含义是指方程对参数而言是线性的
R 2 1 RSS /(N K 1) TSS /(N 1)
调整思想：对 R2 进行自由度调整。
Page 20
基本统计量TSS、RSS、ESS的自由度：
1.
TSS的自由度为N-1。基于样本容量N，TSS

N i1
(Yi
Y
)2
因为线性约束 Y 1 N
Y N
i1 i
而损失一个自由度。
分布的多个独立统计量平方加总，所得到的新统计量就服从
2 分布。
《计量经济学》，高教出版社2011年6月，王少平、杨继生、欧阳志刚等编著
Page 23
双侧检验
概率密度
概率1－
0
2 1 / 2
2 /2
图4.3.1

2
（N-K-1）的双侧临界值
双侧检验：统计值如果落入两尾中的任何一个则拒绝原假设
《计量经济学》，高教出版社2011年6月，王少平、杨继生、欧阳志刚等编著
Page 24
单侧检验
概率密度
概率概率
0
2 1
2
图4.3.2 （2 N-K-1）的单侧临界值
H0：
2

2，
0
HA :

2

2 0

(整理)第四章多元线性回归模型

第四章多元线性回归模型在一元线性回归模型中，解释变量只有一个。

但在实际问题中，影响因变量的变量可能不止一个，比如根据经济学理论，人们对某种商品的需求不仅受该商品市场价格的影响，而且受其它商品价格以及人们可支配收入水平的制约；影响劳动力劳动供给意愿（用劳动参与率度量）的因素不仅包括经济形势（用失业率度量），而且包括劳动实际工资；根据凯恩斯的流动性偏好理论，影响人们货币需求的因素不仅包括人们的收入水平，而且包括利率水平等。

当解释变量的个数由一个扩展到两个或两个以上时，一元线性回归模型就扩展为多元线性回归模型。

本章在理论分析中以二元线性回归模型为例进行。

一、预备知识（一）相关概念对于一个三变量总体，若由基础理论，变量21,x x 和变量y 之间存在因果关系，或21,x x 的变异可用来解释y 的变异。

为检验变量21,x x 和变量y 之间因果关系是否存在、度量变量21,x x 对变量y 影响的强弱与显著性、以及利用解释变量21,x x 去预测因变量y ，引入多元回归分析这一工具。

将给定i i x x 21,条件下i y 的均值i i i i i x x x x y E 2211021),|(βββ++= （4.1）定义为总体回归函数（Population Regression Function,PRF ）。

定义),|(21i i i i x x y E y -为误差项（error term ）,记为i μ，即),|(21i i i i i x x y E y -=μ，这样i i i i i x x y E y μ+=),|(21，或i i i i x x y μβββ+++=22110 （4.2）（4.2）式称为总体回归模型或者随机总体回归函数。

其中，21,x x 称为解释变量（explanatory variable ）或自变量（independent variable ）；y 称为被解释变量（explained variable ）或因变量（dependent variable ）；误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。

应用回归分析,第4章课后习题参考答案

第4章违背基本假设的情况思考与练习参考答案4.1 试举例说明产生异方差的原因。

答：例4.1：截面资料下研究居民家庭的储蓄行为Y i=β0+β1X i+εi其中：Y i表示第i个家庭的储蓄额，X i表示第i个家庭的可支配收入。

由于高收入家庭储蓄额的差异较大，低收入家庭的储蓄额则更有规律性，差异较小，所以εi的方差呈现单调递增型变化。

例4.2：以某一行业的企业为样本建立企业生产函数模型Y i=A iβ1K iβ2L iβ3eεi被解释变量：产出量Y，解释变量：资本K、劳动L、技术A，那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。

由于每个企业所处的外部环境对产出量的影响程度不同，造成了随机误差项的异方差性。

这时，随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化，呈现复杂型。

4.2 异方差带来的后果有哪些？答：回归模型一旦出现异方差性，如果仍采用OLS估计模型参数，会产生下列不良后果：1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说，当模型出现异方差性时，参数OLS估计值的变异程度增大，从而造成对Y的预测误差变大，降低预测精度，预测功能失效。

4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。

答：普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。

其中每个平方项的权数相同，是普通最小二乘回归参数估计方法。

在误差项等方差不相关的条件下，普通最小二乘估计是回归参数的最小方差线性无偏估计。

然而在异方差的条件下，平方和中的每一项的地位是不相同的，误差项的方差大的项，在残差平方和中的取值就偏大，作用就大，因而普通最小二乘估计的回归线就被拉向方差大的项，方差大的项的拟合程度就好，而方差小的项的拟合程度就差。

由OLS 求出的仍然是的无偏估计，但不再是最小方差线性无偏估计。

所以就是：对较大的残差平方赋予较小的权数，对较小的残差平方赋予较大的权数。

计量经济学课后思考题答案庞皓版

第一章绪论思考题1.1怎样理解产生于西方国家的计量经济学能够在中国的经济理论研究和现代化建设中发挥重要作用？答：计量经济学的产生源于对经济问题的定量研究，这是社会经济发展到一定阶段的客观需要。

计量经济学的发展是与现代科学技术成就结合在一起的，它反映了社会化大生产对各种经济因素和经济活动进行数量分析的客观要求。

经济学从定性研究向定量分析的发展，是经济学逐步向更加精密、更加科学发展的表现。

我们只要坚持以科学的经济理论为指导，紧密结合中国经济的实际，就能够使计量经济学的理论与方法在中国的经济理论研究和现代化建设中发挥重要作用。

1.2理论计量经济学和应用计量经济学的区别和联系是什么？答：计量经济学不仅要寻求经济计量分析的方法，而且要对实际经济问题加以研究，分为理论计量经济学和应用计量经济学两个方面。

理论计量经济学是以计量经济学理论与方法技术为研究内容，目的在于为应用计量经济学提供方法论。

所谓计量经济学理论与方法技术的研究，实质上是指研究如何运用、改造和发展数理统计方法，使之成为适合测定随机经济关系的特殊方法。

应用计量经济学是在一定的经济理论的指导下，以反映经济事实的统计数据为依据，用计量经济方法技术研究计量经济模型的实用化或探索实证经济规律、分析经济现象和预测经济行为以及对经济政策作定量评价。

1.3怎样理解计量经济学与理论经济学、经济统计学的关系？答：1、计量经济学与经济学的关系。

联系：计量经济学研究的主体—经济现象和经济关系的数量规律；计量经济学必须以经济学提供的理论原则和经济运行规律为依据；经济计量分析的结果：对经济理论确定的原则加以验证、充实、完善。

区别：经济理论重在定性分析,并不对经济关系提供数量上的具体度量；计量经济学对经济关系要作出定量的估计，对经济理论提出经验的内容。

2、计量经济学与经济统计学的关系。

联系：经济统计侧重于对社会经济现象的描述性计量；经济统计提供的数据是计量经济学据以估计参数、验证经济理论的基本依据；经济现象不能作实验，只能被动地观测客观经济现象变动的既成事实，只能依赖于经济统计数据。

第四章--方差分量线性回归模型

第四章方差分量线性回归模型本章考虑的线性模型不仅有固定效应、随机误差，而且有随机效应。

我们先从随机效应角度理解回归概念，导出方差分量模型，然后研究模型三种主要解法。

最后本章介绍关于方差分量模型的两个前沿研究成果，是作者近期在《应用数学学报》与国际数学杂志《Communications in Statistics 》上发表的。

第一节随机效应与方差分量模型一、随机效应回归模型前面所介绍的回归模型不仅都是线性的，而且自变量看作是固定效应。

我们从资料对npi i i X X Y 11},,{ 出发建立回归模型，过去一直是把Y 看作随机的，X 1，…，X p 看作非随机的。

但是实际上，自变量也经常是随机的，而并不是我们可以事先设计好的设计矩阵。

我们把自变量也是随机变量的回归模型称为随机效应回归模型。

究竟一个回归模型的自变量是随机的还是非随机的，要视具体情况而定。

比如一般情况下消费函数可写为)(0T X b C C（4.1.1）这里X 是居民收入，T 是税收，C 0是生存基本消费，b 是待估系数。

加上随机扰动项，就是一元线性回归模型)(0T X b C C（4.1.2）那么自变量到底是固定效应还是随机效应?那要看你采样情况。

如果你是按一定收入的家庭去调查他的消费，那是取设计矩阵，固定效应。

如果你是随机抽取一些家庭，不管他收入如何都登记他的收入与消费，那就是随机效应。

对于随机效应的回归模型，我们可以从条件期望的角度推导出与最小二乘法则等价的回归函数。

我们希望通过X 预测Y ，也就是要寻找一个函数),,()(1p X X M X M Y ，当X 的观察值为x 时，这个预测的误差平均起来应达到最小，即22)]([min )]([X L Y E X M Y E L（4.1.3）这里min 是对一切X 的可测函数L(X)取极小。

由于当)|()(X Y E X M（4.1.4）时，容易证明0)]()()][([ X L X M X M Y E（4.1.5）故当)|()(X Y E X M 时，222)]()([)]([)]([X L X M E X M Y E X L Y E（4.1.6）要使上式左边极小，只有取)|()()(X Y E X M X L 。

计量经济学习题及答案

第一章绪论一、填空题：1．计量经济学是以揭示经济活动中客观存在的__________为内容的分支学科，挪威经济学家弗里希，将计量经济学定义为__________、__________、__________三者的结合。

2．数理经济模型揭示经济活动中各个因素之间的__________关系，用__________性的数学方程加以描述，计量经济模型揭示经济活动中各因素之间__________的关系，用__________性的数学方程加以描述。

3．经济数学模型是用__________描述经济活动。

4．计量经济学根据研究对象和内容侧重面不同，可以分为__________计量经济学和__________计量经济学。

5．计量经济学模型包括__________和__________两大类。

6．建模过程中理论模型的设计主要包括三部分工作，即__________、____________________、____________________。

7．确定理论模型中所包含的变量，主要指确定__________。

8．可以作为解释变量的几类变量有__________变量、__________变量、__________变量和__________变量。

9．选择模型数学形式的主要依据是__________。

10．研究经济问题时，一般要处理三种类型的数据：__________数据、__________数据和__________数据。

11．样本数据的质量包括四个方面__________、__________、__________、__________。

12．模型参数的估计包括__________、__________和软件的应用等内容。

13．计量经济学模型用于预测前必须通过的检验分别是__________检验、__________检验、__________检验和__________检验。

14．计量经济模型的计量经济检验通常包括随机误差项的__________检验、__________检验、解释变量的__________检验。

-第4章-一元线性回归-计量经济学及Stata应用

第4章一元线性回归4.1 一元线性回归模型为什么在青少年时期要选择上学？除了满足好奇心、求知欲及个人成长外，一个重要原因是教育能提高未来的收入水平。

如何从理论上解释教育投资的回报率(returns to schooling)？12Mincer (1958)提出基于效用最大化的理性选择模型：个体选择多上一年学，则需推迟一年挣钱(另需交学费)；为弥补其损失，市场均衡条件要求给予受教育多者更高的未来收入。

由此可得工资对数与教育年限的线性关系：ln w s αβ=+ (4.1)ln w 为工资对数，s 为教育年限(schooling)，而α与β为参数。

α为截距项，表示当教育年限为0时的工资对数水平，因为ln 0w αβα=+⋅=。

3β为斜率，表示教育年限对工资对数的边际效应，即每增加一年教育，将使工资增加百分之几，因为对方程(4.1)两边求导可得ln dw wd w w w ds ds sβ∆==≈∆ (4.2)教育年限只是影响工资的因素之一。

严格来说，方程(4.1)应为ln w s αβ=++其他因素 (4.3)将其他因素记为ε，则有ln w s αβε=++(4.4)方程(4.4)即劳动经济学(labor economics)中著名的明瑟方程(the Mincer equation)的基本形式(Mincer, 1974)。

但多上一年学，究竟能使未来收入提高百分之几？这取决于参数β的取值。

明瑟模型并未提供关于α与β具体取值的信息。

对于这种定量问题(quantitative question)，只有通过数据才能给出定量回答(quantitative answer)。

需要用计量经济学方法，通过样本数据来估计未知参数α与β。

4明瑟模型推断工资对数与教育年限为线性关系，此预言是否与现实数据相符？使用数据集grilic.dta来考察，此数据集包括758位美国年轻男子的教育投资回报率数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 原假设为：H0：u同方差，即σ21=…=σ2n • 备择假设为： H1：u是递增异(或递减)方差，即 σ2i随
xi递增(或递减) (i=1,2,…,n)
2020年4月4日山东财经大学统计学院计量经济教研室
第21页
机动目录上页下页返回结束
G-Q检验的步骤：
1.将n对样本观察值(xi , yi)按观察值xi的大小排队。 2.将序列中间的c个观察值除去，并将剩下的观察值
GLSE的协方差矩阵为：
Cov(βˆ )
(
X%X%)1
2 u
(
X
1
X
)1
2 u
2020年4月4日山东财经大学统计学院计量经济教研室
第9页
机动目录上页下页返回结束
第二节异方差
一、异方差及其产生的原因
当不能满足同方差的假设，即u的条件方差在不同次的观测中不再是一个常数，而是取得不同的数值，即
若因假定2和假定3不满足时，有
Cov(u) E(uu) u2
其中Ω≠I， Ω是一个n×n的正定对称方阵。
2020年4月4日山东财经大学统计学院计量回结束
此时可以觅得一个n×n的非奇异矩阵P，使得： PΩ P′=I 即 P′ P = Ω-1
然后用觅得的P乘以(4.7)的两边，有：
（三）White检验
White检验的基本思想：如果存在异方差，其方差与解释变量有关，可以分析方差是否与解释变量有某些形式的联系以判断异方差性。但是方差一般是未知的，可用OLS 法估计的残差平方作为其估计量。在大样本的情况下，做对常数项，解释变量，解释变量的平方及其交叉乘积等所构成的辅助回归，利用辅助回归相应的检验统计量，即可判断是否存在异方差性。
划分为较小与较大的相同的两个子样本，每个子样样本容量均为(n-c)/2。注意：对于n≥30时，c=n/4最合适。 3.对每个子样分别进行OLS回归，并计算各自的残差平方和。分别用RSS1与RSS2表示较小与较大的残差平方和，它们的自由度均为(n-c)/2–k–1，k为模型中自变量个数。
4.选择统计量
第15页
机动目录上页下页返回结束
注意： ☆异方差问题多在于截面数据中而非时间序列数据中。 ☆本教材只讨论横截面数据的异方差问题。
2020年4月4日山东财经大学统计学院计量经济教研室
第16页
机动目录上页下页返回结束
二、异方差产生的后果
• 最小二乘估计量仍然是线性无偏的，但不再具有最小方差性。
yi：第i个家庭的储蓄额 xi：第i个家庭的收入
高收入家庭：储蓄的差异较大低收入家庭：储蓄则更有规律性，差异较小 ui的方差呈现单调递增型变化
2020年4月4日山东财经大学统计学院计量经济教研室
第12页
机动目录上页下页返回结束
y
E( y | xi ) 0 1xi
x
图 4.2 收入-储蓄模型中的异方差
2020年4月4日山东财经大学统计学院计量经济教研室
第13页
机动目录上页下页返回结束
例: 以某一行业的企业为样本建立企业生产函数模型 Q = A KαL eu
其中，Q为产出量，K为资本，L为劳动力，u为随机项。
u在该问题中表示了包括不同企业在设计上、生产工艺上的区别，技术熟练程度和管理上的差别以及其它因素。这些因素在小企业之间差别不大，而在大企业之间，这些因素都相差甚远，即随机项的方差随着解释变量的增大而增大。
检验异方差性，也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。
(一)图示法
随机项u的异方差与解释变量的变化有关。因此，可利用因变量y与解释变量x的散点图或残差e2i 与x的散点图，对随机项u的异方差作近似的直观判断。
2020年4月4日山东财经大学统计学院计量经济教研室
关于随机项正态性分布的假定，如果我们的目的仅仅是估计，这种假定并不是绝对必要的。事实上，无论是否是正态分布，OLSE估计式都是BLUE。
剩下的四个假定将在下面的四节中分别加以讨论。
2020年4月4日山东财经大学统计学院计量经济教研室
第5页
机动目录上页下页返回结束
三、广义最小二乘法（GLS）
假定5：u服从正态分布
ui ~ N(0, u2 )
i=1,2, …, n
2020年4月4日山东财经大学统计学院计量经济教研室
第2页
机动目录上页下页返回结束
有了以上这些假定，根据高斯－马尔可夫
（Gauss-Markov）定理，我们知道古典回归模型的最小二乘估计量（OLSE）是线性最优无偏估计量 (BLUE)，而且服从正态分布。因此，就可以进行参数的区间估计，而且也可以检验真实总体回归系数的显著性。
1890.58
664
20
11575.48
2098.25
871
21
12500.84
2499.58
1033
y 1589 2209 2878 3722 5350 8080 11758 15839 18196 20954
2020年4月4日山东财经大学统计学院计量经济教研室
第24页
机动目录上页下页返回结束
2020年4月4日山东财经大学统计学院计量经济教研室
第4页
机动目录上页下页返回结束
关于假定1，一般地我们认为假定E(ui|xi)=0 是合理的。因为随机项u是多种因素的综合，而每种因素的影响都 “均匀”地微小，它对因变量的影响不是系统的，且正负影响相互抵消，故所有可能取值平均起来为零。即使有轻度的违反，从实践的观点来看可能不会产生严重的后果，因为它可能只影响回归方程的截距项。
2020年4月4日山东财经大学统计学院计量经济教研室
第14页
机动目录上页下页返回结束
异方差产生的原因
1、模型中省略的解释变量
如果将某些未在模型中出现的重要影响因素归入随机误差项，而且这些影响因素的变化具有差异性，则会对被解释变量产生不同的影响，从而导致误差项的方差随之变化，即产生异方差性。
2020年4月4日山东财经大学统计学院计量经济教研室
第22页
机动目录上页下页返回结束
如果检验递增方差：
如果检验递增方差：
RSS2 F
(n
2
c
k
1)
RSS2
RSS1
(n c k 1) 2
RSS1
RSS1 F
(n
c 2
k
1)
RSS1
RSS2
(n c k 1) 2
RSS2
5.进行检验可以证明，在原假设下，F
给定线性回归模型
Y = Xβ + u
(4.7)
若古典假定完全满足，根据Gauss-Markov定理，其系数的最小二乘估计量
B ＝(X′X) –1 X′Y
(4.8)
具有 BLUE性质。
若古典假定得不到完全满足，特别是假定2（同方差性）和假定3（无序列相关性）得不到满足时，对OLSE的影响更大。
2020年4月4日山东财经大学统计学院计量经济教研室
（二）Goldfeld-Quandt检验
• 该方法该检验方法是Goldfeld和Quandt于1965年提出的，用于检验是否存在递增或递减异方差，要求观测值为大样本。基本思想是将样本分为两部分，然后分别对两个样本进行回归，并计算比较两个回归的剩余平方和是否有明显差异，以此判断是否存在异方差。
x
y
家庭编号
x
590.2
107
12
2827.73
664.94
123
13
3084.17
809.5
159
14
3462.71
875.54
189
15
3932.52
991.25
233
16
5150.79
1109.95
312
17
7153.35
1357.87
401
18
9076.85
1682.8
522
19
10448.21
2、测量误差
一方面，解释变量取值越大测量误差会趋于增大；另一方面，测量误差可能随时间而变化。
3、截面数据中总体各单位的差异如前面家庭储蓄行为中高低收入家庭的差异。
4. 模型函数形式设定错误
如把变量间本来为非线性的关系设定为线性，也可能导致异方差。
2020年4月4日山东财经大学统计学院计量经济教研室
第23页
机动目录上页下页返回结束
例4.1 根据随机抽取的21个农村家庭年底储蓄余额与年内家庭纯货币收入的资料，按收入排序后的数据见下表。其中， x为年内家庭纯货币收入（元）， y为年底家庭储蓄余额（元）。
家庭编号 1 2 3 4 5 6 7 8 9 10 11
表4.1 家庭储蓄余额与纯货币收入数据表
所以，(4.14) 满足同方差性和无序列相关性，即可以采用OLS估计参数了。其参数的OLSE为：
βˆ (X%X%)1 X%Y% [(PX )(PX )]1(PX )PY [ X PPX ]1 X PPY [ X 1X ]1 X 1Y (4.16)
上式中的 βˆ 称为广义最小二乘估计量（GLSE），可以证明，它具有线性、无偏性和最小方差性，即它是最优线性无偏估计量（BLUE）
第6页
机动目录上页下页返回结束
广义最小二乘法（General Least Squares－GLS）就是为了解决上述问题提出的。其基本思路是：若假定2同方差性）和假定3（无序列相关性）得不到满足时，我们可以采取适当的变换，使原模型变为以下的形式：

第4章 回归模型中的随机误差项问题