第15章工具变量与两阶段最小二乘.doc

合集下载

第15章-工具变量

Cov( z, y) 1Cov( z, x) Cov( z, u)
现在，在式 (15.4) 中 Cov(z，u)=0 与式(15.5) 中 Cov(z,x)≠0 的假定下 ,我们可以解出 1 为：
Cov( z, y ) 1 Cov( z, x)
(15.9)
[注意到，若 z 与 x 不相关，即 Cov(z,x)=0，这个简单的代数关系便不成立。]方程 (15.9)表明， 1 是 z 和 y 之间的总体协方差除以 z 和 x 之间的总体协方差，这说明 1 被识别了。给定一个随机样本，我们用对应样本量来估计总体量。
score 0 1skipped u
(15.8)
其中，score 是期末考试成绩, skipped 是该学期逃课的总次数。
当然，我们可能担心 skipped 与 u 中其他因素相关：越有能力而又积极的学生可能逃课也越少。因而 score 对 skipped 的简单回归，可能不会给出逃课之因果效应的可靠估计。
这样一来 , 我们便把 abil 放人误差项中，而只留下简单回归模型： Log（wage） =β 0+β 1educ+u （15.1 ）其中，u 包含 abil。当然，如果用 OLS 估计方程 (15.1) ，若 educ 与 abil 相关，则得到的结果将是 1 的有偏而又不一致估计量。
即使能获得，如果我们的兴趣在于变量的影响，而该变量又不随时间而变化，它对于我们也几无用处：一阶差分或固定效应估计排除了不随时间而变化的变量。此外,迄今为止我们所研究的面板数据方法，还不能解决与解释变量相关的时变（即随着时间而不断变化的）遗漏变量问题。
在本章，我们对内生性问题采用了一种不同的方法。你将看到如何用工具变量法 (IV)来解决一个或多个解释变量的内生性问题。就应用计量经济学中线性方程的估计而言，两阶段最小二乘法 (2SLS 或 TSLS)的受欢迎程度仅次于普通最小二乘。

工具变量估计与两阶段最小二乘法

检验的策略： y 0 1 z 2 X ei H 0 : 1 0 x 0 1z v H0 : 1 0 参数的识别： Cov z , y 1Cov z , x Cov z , u Cov z , y 1 ; Cov z , x ˆ z z y y i 1 i
2 0.014 n 428, R 0.118
edu 10.24 0.269 fatheduc n 428, R 2 0.173 n 428, R 2 0.093 log wage 0.441 0.059educ
0.446 0.035
ˆ u2 SSTx Rx2, z
ˆ 的方差越小； n，或，或越大， 1
2 x 2 x,z
在高斯-马尔科夫假定下，OLS估计量的方差：
ˆ Var 1 SSTx

2
例1 估计已婚女性的教育回报
log wage 0.185 0.109educ
0.185 0.28 0.029
IV 0.132 （0.055） 0.108 （0.024） -0.0023 （0.0003）
Black
Smsa South 观测数 R2
-0.199 （0.018）
0.136 （0.02） -0.148 （0.026） 3010 0.300
-0.147 （0.054）
ˆ ˆ y ˆ z 0 1 i 2 2 i1 0
i1

z y
i 1 i2
ˆ ˆ y ˆ z 0 1 i 2 2 i1 0 ˆ ˆ y ˆ z 0 1 i 2 2 i1 0

z y

题目什么是工具变量请简要解释两阶段最小二乘法的原理

题目什么是工具变量请简要解释两阶段最小二乘法的原理工具变量是经济学研究中常用的一种样本选择技术，在解决内生性问题时发挥重要的作用。

而两阶段最小二乘法（Two-stage Least Squares, 2SLS）则是一种通过工具变量解决内生性问题的统计方法。

本文将简要解释什么是工具变量，并介绍两阶段最小二乘法的原理。

一、什么是工具变量？工具变量是一种被用来估计因果效应的技术。

在经济学研究中，我们通常希望通过观察变量之间的关系来推断因果关系。

然而，当我们的解释变量与误差项存在内生性的时候，观察到的关系可能是虚假的。

内生性指的是解释变量与误差项之间存在相关性，从而导致回归结果的偏误。

例如，假设我们想要研究教育对收入的影响，但教育水平与个体的天赋能力存在相关性，那么在简单的回归模型中，教育水平的系数可能是被天赋能力所驱动的，而隐藏了教育对收入的真实影响。

为了解决内生性问题，我们需要引入工具变量。

工具变量是与解释变量相关但与误差项无关的变量。

通过利用工具变量的性质，我们可以有效地分离出解释变量与误差项之间的关系。

二、两阶段最小二乘法的原理两阶段最小二乘法是一种使用工具变量估计内生变量系数的方法。

它将估计过程分为两个阶段，通过两个回归模型来实现。

第一阶段：通过工具变量来解决内生性问题。

首先，选择一个与内生变量相关的工具变量。

然后，利用工具变量进行回归，得到内生变量的预测值。

这个预测值具有以下性质：它与误差项无关，并且与内生变量存在相关性。

第二阶段：根据第一阶段得到的内生变量的预测值，再次进行回归。

这一次回归的目的是估计解释变量对因变量的影响，并控制了内生性的影响。

通过这两个阶段的回归，我们可以得到内生变量系数的一致估计。

两阶段最小二乘法的核心思想是利用工具变量来消除内生性问题，进而获得内生变量系数的一致估计。

通过第一阶段的回归得到的预测值，我们可以将内生变量视为无误差的外生变量，并在第二阶段的回归中进行计算。

北大计量经济学讲义-工具变量与两阶段最小二乘法

nehS naY ,scirtemonocE etaidemretnI
计估SLO的1b到得们我�时x=z当 . 1b
计估�时在存VI当 noitamitsE :elbaliavA si VI na nehW
91
nehS naY ,scirtemonocE etaidemretnI
计估�时在存VI当 noitamitsE :elbaliavA si VI na nehW
�量变具工用使何为 ?selbairaV latnemurtsnI esU yhW
7
nehS naY ,scirtemonocE etaidemretnI
题问差误量测的典经决解来用可VI�且而 melborp selbairav-ni-srorre cissalc eht evlos ot desu eb nac VI ,yllanoitiddA � 差偏量变漏遗决解来用以可VI�以所 saib elbairav dettimo fo melborp eht sserdda ot desu eb nac VI ,suhT �
�
定决资工�子例 noitanimreted egaw :elpmaxE
41
nehS naY ,scirtemonocE etaidemretnI
。关相项差误和育教与时同它。不 .mret rorre eht dna noitacude htob htiw setalerroc tI .oN � �吗量变具工的好是QI ?tnemurtsni doog a QI sI �
。计估致一的1b是计估VI明证律定数大用应以可�时立成 )5.51(和 )4.51(定假当 .srebmun egral fo wal eht gniylppa retfa ,1b rof tnetsisnoc si rotamitse VI eht taht wohs nac eno ,dloh )5.51( dna )4.51( snoitpmussa nehW �

第十五章工具变量估计与TSLS-2

第二阶段，用ŷ2代替内生变量y2
y1对 ŷ2 和z1回归

TS】核心用户 By微0渺上传
临近大学作为教育的IV【爱】核心用户 By微0渺上传两阶段最小二乘（TSLS）

结构方程：

y1=b0+b1y2+b2z1+u y2的工具变量z2
ˆ ˆ ˆ ˆ y2 0 1z1 2 z2 e y2 e

第一阶段：简化模型的OLS回归

通常不能保证Corr(z,u)=0，只能保证： |Corr(z,u)|<|Corr(x,u)| 若Corr(z,x)很低，IV估计量的偏差可能更大【爱】核心用户 By微0渺上传
抽烟对婴儿体重的影响
log(bwght)=b0+b1packs+u

生活环境越糟糕，可能越容易抽烟：孕妇抽烟量与婴儿体重的其他影响因素相关工具变量：香烟价格cigprice
工具变量合适吗？【爱】核心用户 By微0渺上传
IV估计中的R2

R2=1-SSR/SST 对于OLS估计： SST=SSE+SSR R2[0, 1] 对于IV估计： SSR可能大于SST， R2可能为负 IV估回归模型的IV估计

三个方程，三个未知的b参数若y2外生，z2=y2，IV估计等同于 OLS估计工具变量的相关性检验： y2=0+1z1+2z2+v2 H0: 2=0【爱】核心用户 By微0渺上传
简单的扩展：

多个内生解释变量和外生解释变量 y1=b0+b1y2+b2y3+b3z1+b4z2+u 假设存在两个外生变量z3和z4【爱】核心用户 By微0渺上传

两阶段最小二乘法步骤

两阶段最小二乘法步骤
两阶段最小二乘法是一种分离策略，将内生变量分离为可以被工具变量线性表出的部分，以及随机干扰部分。

其具体步骤如下：
1. 第一阶段：让工具变量z对内生x进行回归，得到估计值$x^$。

2. 第二阶段：利用$x^$对y做回归，得到系数估计值。

这种方法通过将估计分成两个步骤（阶段）回归，因此得名“两阶段最小二乘法”。

对于联立方程组，可以采用三阶段最小二乘法。

如果存在弱工具变量问题，可以采取对信息不太敏感的有限信息极大似然估计法。

c15 工具变量估计与两阶段最小二乘法

第15章工具变量估计与两阶段最小二乘法摘要: 本章继续讨论如何解决模型中的内生解释变量(endogenous explanatory variables )问题。

遗漏变量(omitted variables )是导致内生性问题的一个原因。

本章采用工具变量法(method of instrumental variables,IV )来解决模型中的一个或多个解释变量的内生性问题。

所采用的估计方法被称为两阶段最小二乘估计(method of two stage least squares ,2SLS or TSLS),其受欢迎程度仅次于OLS. IV 也能在某些特定的情形下解决变量带误差(errorsin-variables )的问题.15.1 动机: 简单回归中的遗漏变量如何处理可能发生的变量遗漏带来的偏误，已有三种选择: 1)直接忽略，讨论偏误的方向；2）寻找一个合适的代理变量；3）如果该遗漏变量不随时间变化时，采用FE 或FD 方法。

工具变量法的思路：不是考虑如何处理遗漏变量(此时遗漏变量在误差项中)，而是寻找被遗漏的解释变量的替代变量，使得替代变量和误差项不再存在相关性。

y =β0+β1x +u ,此时该模型不满足MLR.4,从而不能保证Cov (x,u )=0,特别地，假定Cov (x,u )≠0. 如果x 的替代变量z 同时满足下面两个条件:1) 工具外生性(instrument exogeneity )条件:Cov (z,u )=0,2) 工具相关性(instrument relevance )条件:Cov (z,x )≠0,则称z 为x 的工具变量(instrumental variable )，或简称工具(instrumental ). 几点说明:1) 工具变量的外生性意味着z 对y 没有偏效应(当x 和u 中遗漏变量被控制时)，同时也和其它被遗漏变量不相关；2) 工具外生性检验在多数情况下只能通过经济行为或反思来判断；3) 工具相关性检验借助t 和F 检验就行；外生性和相关性假设足以帮助我们识别(Identification )出β1=COv(z,y)Cov(z,x),那么β1的工具变量估计(instrumental variables (IV) estimator )为：β̂1=∑(z i −z ̅)(y i −y ̅)n i=1∑(z i −z ̅)(x i −x ̅)n i=1, 其是β1的一致但有偏的估计；4)β̂1显然当z=x,该估计就是OLS 估计，但这要以x 和u 无关为条件，也即工具变量法适于u 和x 无关的情形。

工具变量

2
在教育回报率的例子中，假定真实模型将对数工资对教育和能力回归：现在能力不可观测，而且没有代理变量没有代理变量IQ 没有代理变量事实上使用的回归：将对数工资对教育回归，但由于误差项包含能力，并且教育水平与能力相关，此时会出现教育的内生性问题内生性问题。内生性问题一个好的IV应当与教育水平高度相关，并且与误差项不相关。 ——问：IQ是好的工具变量吗？ ——答：不。它同时与教育和误差项相关。文献中使用的IV：(1) 父母亲的教育水平；(2) 兄弟姐妹数目，依赖的假说是：兄弟姐妹越多，平均受教育水平越低注意：无论我们使用其中的哪一个作为IV，我们都需要肯定它们与能力不相关。满足零条件均值条件：OLS x u 内生性：OLS估计将有偏 x y u y 工具变量的解决思路 z x u y=β0+ β1x+u(x)→→dy/dx=β1+du/dx
6
例 15.1 已婚妇女的教育回报率的估计 . reg lwage educ if inlf==1
Source Model Residual Total lwage educ _cons SS 26.3264193 197.001022 223.327441 Coef. .1086487 -.1851968 df 1 426 427 MS 26.32641 93 .4624437 13 .5230150 84 t 7 .55 -1 .00 P>|t| 0.000 0.318 Number of obs F( 1, 426) Prob > F R-squared Adj R-squared Root MSE = = = = = = 428 56.93 0.0000 0.1179 0.1158 .68003
σ2 ˆ ˆ β1的渐近方差是 Var β1 = 2 2 nσ x ρ x , z

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第15章工具变量估计与两阶段最小二乘法在本章中，我们进一步研究多元回归模型中的内生解释变量（endogenous explanatory variable ）问题。

在第3章中，我们推导出，遗漏一个重要变量时OLS 估计量的偏误；在第5章中，我们说明了在遗漏变量（omitted variable ）的情况下，OLS 通常是非一致性的。

第9章则证明了，对未观测到的解释变量给出适宜的代理变量，能消除（或至少减轻）遗漏变量偏误。

不幸的是，我们不是总能得到适宜的代理变量。

在前两章中，我们解释了存在不随时间变化的遗漏变量的情况下，对综列数据如何用固定效应估计或一阶差分来估计随时间变化的自变量的影响。

尽管这些方法非常有用，可我们不是总能获得综列数据的。

即使能获得，如果我们的兴趣在于变量的影响，而该变量不随时间变化，它对于我们也几无用处：一阶差分或固定效应估计排除了不随时间变化的变量。

此外，迄今为止我们已研究出的综列数据法还不能解决与解释变量相关的随时间而变化的遗漏变量的问题。

在本章中，我们对内生性问题采用了一个不同的方法。

你将看到如何用工具变量法（IV ）来解决一个或多个解释变量的内生性问题。

就应用计量经济学中线性方程的估计而言，两阶段最小二乘法（2SLS 或TSLS ）是第二受人欢迎的，仅次于普通最小二乘。

我们一开始先说明，在存在遗漏变量的情况下，如何用IV 法来获得一致性估计量。

此外，IV 能用于解决含误差变量（errors-in-variable ）的问题，至少是在某些假定下。

下一章将证明运用IV 法如何估计联立方程模型。

我们对工具变量估计的论述严格遵照我们在第1篇中对普通最小二乘的推导，其中假定我们有一个来自基本总体的随机样本。

这个起点很合人意，因为除了简化符号之外，它还强调了应根据基本总体来表述对IV 估计所做的重要的假定（正如用OLS 时一样）。

如我们在第2篇中所示，OLS 可以应用于时间序列数据，而工具变量法也一样可以。

第15.7节讨论IV 法应用于时间序列数据时出现的一些特殊问题。

在第15.8节中，我们将论述在混合横截面和综列数据上的应用。

15.1 动机：简单回归模型中的遗漏变量面对可能发生的遗漏变量偏误（或未观测到的异质性），迄今为止我们已讨论了三种选择：（1）我们可以忽略此问题，承受有偏、非一致性估计量的后果；（2）我们可以试图为未观测到的变量寻找并使用一个适宜的代理变量；（3）我们可以假定遗漏变量不随时间变化，运用第`13与14章中的固定效应或一阶差分方法。

若能把估计值与关键参数的偏误方向一同给出，则第一个回答是令人满意的。

例如，如果我们能说一个正参数（譬如职业培训对往后工资的影响）的估计量有朝零偏误，并且我们找到了一个统计上显著的正的估计值，那么我们还是学到了一些东西：职业培训对工资有正的影响，而我们很可能低估了该影响。

不幸的是，相反的情况经常发生，我们的估计值可能在数值上太大了，以致我们要得出任何有用的结论都非常困难。

第9.2节中讨论的代理变量解也能获得令人满意的结果，但并不是总可以找到一个好的代理。

该方法试图通过用代理变量取代不可观测的变量，来解决遗漏变量的问题。

另一种方法是将未观测到的变量留在误差项中，但不是用OLS 估计模型，而是运用一种承认存在遗漏变量的估计方法。

这便是工具变量法所要做的。

举例来说，考虑成年劳动者的工资方程中存在未观测到的能力的问题。

一个简单的模型为：,)log(210e abil educ wage +++=βββ其中e 是误差项。

在第9章中，我们说明了在某些假定下，如何用诸如IQ 的代理变量代替能力，从而通过以下回归可得到一致性估计量)log(wage 对IQ educ , 回归然而，假定不能得到适当的代理变量（或它不具备足以获取一致性估计量所需的性质）。

这样一来，我们将abil 放入误差项中，留下来的就是简单的回归模型：,)log(10u educ wage ++=ββ （15.1）其中u 包含了abil 。

当然，如果用OLS 估计方程（15.1），若是educ 与abil 相关，得到的结果将是1β的有偏、非一致性估计量。

最后证明是，假如我们能为educ 找到一个工具变量，我们仍可以根据方程（15.1）来进行估计。

为描述该方法，将简单回归模型写成：,10u x y ++=ββ（15.2）其中我们认为x 与u 相关： .0),(Cov ≠u x （15.3）工具变量法无论x 与u 相关与否都行得通，但是，如果x 与u 不相关，我们应该使用OLS ，其原因我们将在后面看到。

为了获得x 与u 相关时0β和1β的一致性估计量，我们还需要一些另外的信息。

这些信息由一个满足某些性质的新变量给出。

假定我们有一个可观测到的变量z ，它满足两个假定：（1）z 与u 不相关，即，.0),(Cov =u z （15.4）（2）z 与x 相关，即，.0),(Cov ≠x z （15.5）我们则称z 是x 的工具变量（instrumental variable ）。

有时候，人们把所需条件（15.4）概括为“z 在方程（15.2）中是外生的”。

从遗漏变量的角度看，这意味着z 应当对y 无偏效应，也不应当与其它影响y 的因素相关。

方程（15.5）意味着z 必然与内生解释变量x 有着正的或负的关系。

对工具变量的两个要求之间有一个非常重要的差别。

因为（15.4）是z 与不可观测的误差u 的协方差，我们无法对它进行验证或哪怕是检验：我们必须求助于经济行为或内心感受来维持这一假定。

相比之下，给定一个来自总体的随机样本，z 与x 相关（在总体中）的条件则可加以检验。

做到这一点最容易的方法是估计一个x 与z 之间的简单回归。

在总体中，我们有.10v z x ++=ππ （15.6）从而，由于)(V ar ),Cov(1z x z =π，（15.5）中的假定当且仅当01≠π时成立。

因而我们就能够以充分小（习惯说充分高——译者）的显著水平（5%或1%）拒绝虚拟假设0 :H 10=π （15.7）并接受双侧对立假设0 :H 10≠π。

如果真是这样，我们能相当有把握肯定（15.5）是成立的。

对于（15.1）中的log(wage )方程，educ 的工具变量z 必须：（1）与能力（以及其它影响工资的不可观测的因素）不相关，（2）与教育相关。

诸如一个人的社会福利登记号的最后一位数字之类的变量，几乎一定满足第一个必需条件：与能力不相关，因为它是随机决定的。

然而，该变量与教育不相关，因而是educ的一个低劣的工具变量。

我们所谓的用于遗漏变量的代理变量因相应的原因成为低劣的IV 。

例如，在遗漏能力的log(wage )例子中，abil 的代理变量应该尽可能地与abil 高度相关。

而工具变量必须与abil 不相关。

因此，尽管IQ 是abil 的一个好的代理变量候选者，它却不是educ 的好的工具变量。

对其它可能的工具变量候选者，这些必需条件更加不确定。

劳动经济学家已在工资方程中使用家庭背景变量作为教育的IV 。

例如，母亲的教育（motheduc ）与孩子的教育是正相关的，这一点通过收集劳动者数据样本并做educ 对motheduc 的简单回归便可以看出来。

因此，motheduc 满足方程（15.5）。

问题是，母亲的教育也可能与孩子的能力相关（通过母亲的能力和可能通过孩子幼年所受的教养的质量）。

（15.1）中educ 的另一个IV 选择是成长过程中兄弟姊妹的数目（sibs ）。

一般地说，较多的兄弟姊妹与较低的平均教育水平相联系。

这样，如果兄弟姊妹的数目与能力不相关，它可以充当educ 的工具变量。

再举一个例子，考虑估计逃课对期末考试成绩的因果影响的问题。

在一个简单的回归框架中，我们有 ,10u skipped score ++=ββ （15.8）其中score 是期末考试成绩，skipped 是该学期逃课的总数目。

当然，我们可能担心skipped 与u 中其它因素相关：较好的学生可能逃课较少。

因而score 对skipped 的简单回归可能不会给我们一个对逃课的因果影响的好的估计。

什么可能是skipped 的好的IV ？我们所需要的是对score 无直接效应，且与学生能力不相关的IV 。

同时，该IV 必须与skipped 相关。

一个选择是利用住宿区与学校之间的距离。

一所大规模的大学中将有部分学生乘车去学校，这也许会增加逃课的可能性（由于恶劣的天气、睡过头等等）。

因而，skipped 可能与distance 正相关；这一点可通过skipped 对distance 的回归并作一个t 检验得以验证，正如前面所描述的。

distance 是否与u 不相关？在简单回归模型（15.8）中，u 中的一些因素可能与distance 相关。

例如，低收入家庭的学生可能不住在学校；如果收入影响到学生的行为，可能会导致distance 与u 相关。

第15.2节说明如何在多元回归的情况下使用IV ，以便其他影响score 的因素能直接地包含在模型中。

那么，distance 也许是skipped 的一个好的IV 。

如果学生能力有一个好的代理，例如以往学期的累积GPA ，IV 法可能根本就不需要。

现在我们来证明可得到的工具变量能够用于进行方程(15.2)中的一致性参数估计。

特别地，我们将说明（15.4）与（15.5）[等价地，（15.4）与（15.7）]中的假定足以识别参数1β。

在这一点上，参数的识别（identification ）意味着我们可以根据总体矩写出1β，总体矩可用样本数据来估计。

为了根据总体协方差写出1β，我们利用方程（15.2）：z 与y 之间的协方差为).,(Cov ),(Cov ),(Cov 1u z x z y z +=β现在，在（15.4）中0),(Cov =u z 与（15.5）中0),(Cov ≠x z 的假定下，我们可以解出1β为： .),(Cov ),(Cov 1x z y z =β （15.9） [注意到如果z 与x 不相关，即0),(Cov =x z ，该简单代数式不成立。

] 方程（15.9）表明1β是z 、y 之间的总体协方差除以z 、x 之间的总体协方差的商，这说明了1β被识别。

给定一个随机样本，我们用对应样本量来估计总体的量。

在分子和分母中约去样本容量后，我们得到1β的工具变量（IV ）估计量（instrumentalvariables (IV) estimator ）：.))(())((ˆ111∑∑==----=n i i in i i i x x z zy y z z β (15.10) 给定x 、y 和z 的样本数据，很容易获得（15.10）中的IV 估计量。