第15章工具变量与两阶段最小二乘

合集下载

第15章-工具变量

Cov( z, y) 1Cov( z, x) Cov( z, u)
现在，在式 (15.4) 中 Cov(z，u)=0 与式(15.5) 中 Cov(z,x)≠0 的假定下 ,我们可以解出 1 为：
Cov( z, y ) 1 Cov( z, x)
(15.9)
[注意到，若 z 与 x 不相关，即 Cov(z,x)=0，这个简单的代数关系便不成立。]方程 (15.9)表明， 1 是 z 和 y 之间的总体协方差除以 z 和 x 之间的总体协方差，这说明 1 被识别了。给定一个随机样本，我们用对应样本量来估计总体量。
score 0 1skipped u
(15.8)
其中，score 是期末考试成绩, skipped 是该学期逃课的总次数。
当然，我们可能担心 skipped 与 u 中其他因素相关：越有能力而又积极的学生可能逃课也越少。因而 score 对 skipped 的简单回归，可能不会给出逃课之因果效应的可靠估计。
这样一来 , 我们便把 abil 放人误差项中，而只留下简单回归模型： Log（wage） =β 0+β 1educ+u （15.1 ）其中，u 包含 abil。当然，如果用 OLS 估计方程 (15.1) ，若 educ 与 abil 相关，则得到的结果将是 1 的有偏而又不一致估计量。
即使能获得，如果我们的兴趣在于变量的影响，而该变量又不随时间而变化，它对于我们也几无用处：一阶差分或固定效应估计排除了不随时间而变化的变量。此外,迄今为止我们所研究的面板数据方法，还不能解决与解释变量相关的时变（即随着时间而不断变化的）遗漏变量问题。
在本章，我们对内生性问题采用了一种不同的方法。你将看到如何用工具变量法 (IV)来解决一个或多个解释变量的内生性问题。就应用计量经济学中线性方程的估计而言，两阶段最小二乘法 (2SLS 或 TSLS)的受欢迎程度仅次于普通最小二乘。

工具变量估计与两阶段最小二乘法

检验的策略： y 0 1 z 2 X ei H 0 : 1 0 x 0 1z v H0 : 1 0 参数的识别： Cov z , y 1Cov z , x Cov z , u Cov z , y 1 ; Cov z , x ˆ z z y y i 1 i
2 0.014 n 428, R 0.118
edu 10.24 0.269 fatheduc n 428, R 2 0.173 n 428, R 2 0.093 log wage 0.441 0.059educ
0.446 0.035
ˆ u2 SSTx Rx2, z
ˆ 的方差越小； n，或，或越大， 1
2 x 2 x,z
在高斯-马尔科夫假定下，OLS估计量的方差：
ˆ Var 1 SSTx

2
例1 估计已婚女性的教育回报
log wage 0.185 0.109educ
0.185 0.28 0.029
IV 0.132 （0.055） 0.108 （0.024） -0.0023 （0.0003）
Black
Smsa South 观测数 R2
-0.199 （0.018）
0.136 （0.02） -0.148 （0.026） 3010 0.300
-0.147 （0.054）
ˆ ˆ y ˆ z 0 1 i 2 2 i1 0
i1

z y
i 1 i2
ˆ ˆ y ˆ z 0 1 i 2 2 i1 0 ˆ ˆ y ˆ z 0 1 i 2 2 i1 0

z y

第15章工具变量与两阶段最小二乘.doc

第15章工具变量估计与两阶段最小二乘法在本章中，我们进一步研究多元回归模型中的内生解释变量（endogenous explanatory variable ）问题。

在第3章中，我们推导出，遗漏一个重要变量时OLS 估计量的偏误；在第5章中，我们说明了在遗漏变量（omitted variable ）的情况下，OLS 通常是非一致性的。

第9章则证明了，对未观测到的解释变量给出适宜的代理变量，能消除（或至少减轻）遗漏变量偏误。

不幸的是，我们不是总能得到适宜的代理变量。

在前两章中，我们解释了存在不随时间变化的遗漏变量的情况下，对综列数据如何用固定效应估计或一阶差分来估计随时间变化的自变量的影响。

尽管这些方法非常有用，可我们不是总能获得综列数据的。

即使能获得，如果我们的兴趣在于变量的影响，而该变量不随时间变化，它对于我们也几无用处：一阶差分或固定效应估计排除了不随时间变化的变量。

此外，迄今为止我们已研究出的综列数据法还不能解决与解释变量相关的随时间而变化的遗漏变量的问题。

在本章中，我们对内生性问题采用了一个不同的方法。

你将看到如何用工具变量法（IV ）来解决一个或多个解释变量的内生性问题。

就应用计量经济学中线性方程的估计而言，两阶段最小二乘法（2SLS 或TSLS ）是第二受人欢迎的，仅次于普通最小二乘。

我们一开始先说明，在存在遗漏变量的情况下，如何用IV 法来获得一致性估计量。

此外，IV 能用于解决含误差变量（errors-in-variable ）的问题，至少是在某些假定下。

下一章将证明运用IV 法如何估计联立方程模型。

我们对工具变量估计的论述严格遵照我们在第1篇中对普通最小二乘的推导，其中假定我们有一个来自基本总体的随机样本。

这个起点很合人意，因为除了简化符号之外，它还强调了应根据基本总体来表述对IV 估计所做的重要的假定（正如用OLS 时一样）。

如我们在第2篇中所示，OLS 可以应用于时间序列数据，而工具变量法也一样可以。

北大计量经济学讲义-工具变量与两阶段最小二乘法

nehS naY ,scirtemonocE etaidemretnI
计估SLO的1b到得们我�时x=z当 . 1b
计估�时在存VI当 noitamitsE :elbaliavA si VI na nehW
91
nehS naY ,scirtemonocE etaidemretnI
计估�时在存VI当 noitamitsE :elbaliavA si VI na nehW
�量变具工用使何为 ?selbairaV latnemurtsnI esU yhW
7
nehS naY ,scirtemonocE etaidemretnI
题问差误量测的典经决解来用可VI�且而 melborp selbairav-ni-srorre cissalc eht evlos ot desu eb nac VI ,yllanoitiddA � 差偏量变漏遗决解来用以可VI�以所 saib elbairav dettimo fo melborp eht sserdda ot desu eb nac VI ,suhT �
�
定决资工�子例 noitanimreted egaw :elpmaxE
41
nehS naY ,scirtemonocE etaidemretnI
。关相项差误和育教与时同它。不 .mret rorre eht dna noitacude htob htiw setalerroc tI .oN � �吗量变具工的好是QI ?tnemurtsni doog a QI sI �
。计估致一的1b是计估VI明证律定数大用应以可�时立成 )5.51(和 )4.51(定假当 .srebmun egral fo wal eht gniylppa retfa ,1b rof tnetsisnoc si rotamitse VI eht taht wohs nac eno ,dloh )5.51( dna )4.51( snoitpmussa nehW �

第15章工具变量估计与两阶段最小二乘法

具体的IV估计量可从k+1个矩条件对应的样本方程求出：
Eu 0, Ez1u 0,L , E zk1u 0, E zku 0
15.3 两阶段最小二乘法
如果一个内生解释变量有多个工具变量，如何有效运用多个工具变量？以下面结构模型为例： y1 0 1y2 2z1 u1
则称z是x的工具变量（IV）。工具变量可得能够用于一致估计回归方程的参数。
15.1 动机：简单回归模型中的遗漏变量
借助于工具变量，回归方程的参数是可识别（identification），即参数可用总体矩表示，而总体矩可用样本矩来估计。用工具变量z 对回归方程两边协方差：
cov z, y 1 cov z, x cov z,u
对此也没有合理的解释。
15.2 多元回归模型中的IV估计
简单回归模型IV估计很容易延伸到多元回归
y1 0 1 y2 2 z1 L k zk1 u1
借用联立方程模型的形式和术语，此方程称为结构方程（structural equation）。 z1, z2 ,L , zk1是外生变量，y2 被怀疑是内生的，即可能与u相关。需要找到其工具变量
有效的工具变量 zk 需满足：（1）是未包含的外生变量，即它不在结构方程中且与u不相关。
15.2 多元回归模型中的IV估计
（2）zk 与 y2 存在某种偏相关，即约简型方程
y2 0 1z1 L k1zk1 k zk v
的系数满足： k 0
同样要求（1）不能检验，只能寄希望于经济逻辑和反思。要求（2）可对约简型方程估计后直接检验。
第十五章工具变量估计与两阶段最小二乘法
本章研究多元回归模型中的内生解释变量问题。解释变量的内生性常来自遗漏变量问题，这使OLS估计不一致。尽管代理变量法和面板数据的固定效应法可在某些情况下解决内生性问题，但远未完善。本章讨论另一解决解释变量内生性问题的方法：工具变量法（IV）。其受欢迎程度仅次于OLS。

第15章-工具变量讲解

这样一来 , 我们便把 abil 放人误差项中，而只留下简单回归模型： Log（wage） =β 0+β 1educ+u （15.1 ）其中，u 包含 abil。当然，如果用 OLS 估计方程 (15.1) ，若 educ 与 abil 相关，则得到的结果将是 1 的有偏而又不一致估计量。
第15章工具变量估计与两阶段最小二乘法
在本章中，我们进一步研究多元回归模型中的内生解释变量 (endogenous explanatory Variables）问题。在第 3 章中，我们推导出遗漏一个重要变量时 OLS 估计量的偏误，在第 5 章中，我们说明了在遗漏变量(omitted variables)的情况下，OLS 通常是不一致的。
举例来说，考虑成年劳动者的工资方程中存在无法观测之能力因素的问题。一个简单的模型为： log（wage）=β 0+β 1educ+β 2abil+e 其中，e 是误差项。
在第 9 章中，我们证明了在某些假定下，如何用诸如 IQ 的代理变量代替能力，从而通过以下回归可得到一致估计量 log(wage)对 educ，IQ 回归然而假定不能得到适当的代理变量（或它不具备足以获取 1 一致估计量所需的性质）。
我们一开始先说明，在存在遗漏变量的情况下，如何用 IV 法获得一致估计量。此外， IV 至少能在某些假定下用于解决变量误差 (errors-in-variables)问题。下一章将证明运用 IV 法如何估计联立方程模型。
我们对工具变量估计的论述严格遵照我们在第 1 篇中对普通最小二乘的推导，其中假定我们有一个来自潜在总体的随机样本。这个起点很合人意，因为除了简化符号之外，它还强调用潜在总体来表述对 IV 估计所做的重要假定 (正如用 OLS 时一样)。

第十五章工具变量法

σu OLS: plim β1 = β1 + Corr( x, u) • σx
~
多元回归情形中的工具变量估计
• 工具变量IV 估计可以推广到多元回归的情形中 • 称我们所感兴趣的方程为结构型方程 • 我们的问题在于其中一个或多个变量是内生的 • 对每个内生的变量我们都需要一个工具变量
多元回归工具变量 IV (续)
两阶段最小二乘 (2SLS)
• 可以使用多个工具变量 • 考虑原始的结构型方程, 并令 y2 = π0 + π1z1 + π2z2 + π3z3 + v2 • 在这里我们假定 z2 和 z3 是有效的工具变量 – 它们不出现在结构型方程中并且和结构误差u1是不相关的
最优工具变量
• 可以使用 z2 或 z3 作为工具变量 • 最优工具变量是所有外生变量的线性组合, y2* = π0 + π1z1 + π2z2 + π3z3 • 我们可以通过y2 对 z1, z2 和 z3来估计 y2* – 这一步称为第一阶段回归 • 如果在结构型方程中y2 的拟和值 ŷ2 和工具变量有相同的相关系数
第十五章工具变量 & 两阶段最小二乘
y = β0 + β1x1 + β2x2 + . . . βkxk + u x1 = π0 + π1z + π2x2 + . . . πkxk + v
为什么使用工具变量?
• 工具变量 (IV) 估计,是在模型中存在内生变量 x的时候使用 • 如果Cov(x,u) ≠ 0 • 因此, 工具变量（IV）可以用来处理遗漏变量偏误的问题 • 另外, 工具变量（IV）可以用来解决传统的含误差变量问题

两阶段最小二乘法步骤

两阶段最小二乘法步骤
两阶段最小二乘法是一种分离策略，将内生变量分离为可以被工具变量线性表出的部分，以及随机干扰部分。

其具体步骤如下：
1. 第一阶段：让工具变量z对内生x进行回归，得到估计值$x^$。

2. 第二阶段：利用$x^$对y做回归，得到系数估计值。

这种方法通过将估计分成两个步骤（阶段）回归，因此得名“两阶段最小二乘法”。

对于联立方程组，可以采用三阶段最小二乘法。

如果存在弱工具变量问题，可以采取对信息不太敏感的有限信息极大似然估计法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第15章工具变量估计与两阶段最小二乘法在本章中，我们进一步研究多元回归模型中的内生解释变量（endogenous explanatory variable ）问题。

第9章则证明了，对未观测到的解释变量给出适宜的代理变量，能消除（或至少减轻）遗漏变量偏误。

不幸的是，我们不是总能得到适宜的代理变量。

在前两章中，我们解释了存在不随时间变化的遗漏变量的情况下，对综列数据如何用固定效应估计或一阶差分来估计随时间变化的自变量的影响。

尽管这些方法非常有用，可我们不是总能获得综列数据的。

此外，迄今为止我们已研究出的综列数据法还不能解决与解释变量相关的随时间而变化的遗漏变量的问题。

在本章中，我们对内生性问题采用了一个不同的方法。

你将看到如何用工具变量法（IV ）来解决一个或多个解释变量的内生性问题。

就应用计量经济学中线性方程的估计而言，两阶段最小二乘法（2SLS 或TSLS ）是第二受人欢迎的，仅次于普通最小二乘。

我们一开始先说明，在存在遗漏变量的情况下，如何用IV 法来获得一致性估计量。

此外，IV 能用于解决含误差变量（errors-in-variable ）的问题，至少是在某些假定下。

下一章将证明运用IV 法如何估计联立方程模型。

我们对工具变量估计的论述严格遵照我们在第1篇中对普通最小二乘的推导，其中假定我们有一个来自基本总体的随机样本。

这个起点很合人意，因为除了简化符号之外，它还强调了应根据基本总体来表述对IV 估计所做的重要的假定（正如用OLS 时一样）。

如我们在第2篇中所示，OLS 可以应用于时间序列数据，而工具变量法也一样可以。

第15.7节讨论IV 法应用于时间序列数据时出现的一些特殊问题。

在第15.8节中，我们将论述在混合横截面和综列数据上的应用。

15.1 动机：简单回归模型中的遗漏变量面对可能发生的遗漏变量偏误（或未观测到的异质性），迄今为止我们已讨论了三种选择：（1）我们可以忽略此问题，承受有偏、非一致性估计量的后果；（2）我们可以试图为未观测到的变量寻找并使用一个适宜的代理变量；（3）我们可以假定遗漏变量不随时间变化，运用第`13与14章中的固定效应或一阶差分方法。

若能把估计值与关键参数的偏误方向一同给出，则第一个回答是令人满意的。

例如，如果我们能说一个正参数（譬如职业培训对往后工资的影响）的估计量有朝零偏误，并且我们找到了一个统计上显著的正的估计值，那么我们还是学到了一些东西：职业培训对工资有正的影响，而我们很可能低估了该影响。

不幸的是，相反的情况经常发生，我们的估计值可能在数值上太大了，以致我们要得出任何有用的结论都非常困难。

第9.2节中讨论的代理变量解也能获得令人满意的结果，但并不是总可以找到一个好的代理。

该方法试图通过用代理变量取代不可观测的变量，来解决遗漏变量的问题。

另一种方法是将未观测到的变量留在误差项中，但不是用OLS 估计模型，而是运用一种承认存在遗漏变量的估计方法。

这便是工具变量法所要做的。

举例来说，考虑成年劳动者的工资方程中存在未观测到的能力的问题。

一个简单的模型为：,)log(210e abil educ wage +++=βββ其中e 是误差项。

在第9章中，我们说明了在某些假定下，如何用诸如IQ 的代理变量代替能力，从而通过以下回归可得到一致性估计量)log(wage 对IQ educ , 回归然而，假定不能得到适当的代理变量（或它不具备足以获取一致性估计量所需的性质）。

这样一来，我们将abil 放入误差项中，留下来的就是简单的回归模型：,)log(10u educ wage ++=ββ （15.1）其中u 包含了abil 。

当然，如果用OLS 估计方程（15.1），若是educ 与abil 相关，得到的结果将是1β的有偏、非一致性估计量。

最后证明是，假如我们能为educ 找到一个工具变量，我们仍可以根据方程（15.1）来进行估计。

为描述该方法，将简单回归模型写成：,10u x y ++=ββ（15.2）其中我们认为x 与u 相关： .0),(Cov ≠u x （15.3）工具变量法无论x 与u 相关与否都行得通，但是，如果x 与u 不相关，我们应该使用OLS ，其原因我们将在后面看到。

为了获得x 与u 相关时0β和1β的一致性估计量，我们还需要一些另外的信息。

这些信息由一个满足某些性质的新变量给出。

假定我们有一个可观测到的变量z ，它满足两个假定：（1）z 与u 不相关，即，.0),(Cov =u z （15.4）（2）z 与x 相关，即，.0),(Cov ≠x z （15.5）我们则称z 是x 的工具变量（instrumental variable ）。

有时候，人们把所需条件（15.4）概括为“z 在方程（15.2）中是外生的”。

从遗漏变量的角度看，这意味着z 应当对y 无偏效应，也不应当与其它影响y 的因素相关。

方程（15.5）意味着z 必然与内生解释变量x 有着正的或负的关系。

对工具变量的两个要求之间有一个非常重要的差别。

因为（15.4）是z 与不可观测的误差u 的协方差，我们无法对它进行验证或哪怕是检验：我们必须求助于经济行为或内心感受来维持这一假定。

相比之下，给定一个来自总体的随机样本，z 与x 相关（在总体中）的条件则可加以检验。

做到这一点最容易的方法是估计一个x 与z 之间的简单回归。

在总体中，我们有.10v z x ++=ππ （15.6）从而，由于)(V ar ),Cov(1z x z =π，（15.5）中的假定当且仅当01≠π时成立。

因而我们就能够以充分小（习惯说充分高——译者）的显著水平（5%或1%）拒绝虚拟假设0 :H 10=π （15.7）并接受双侧对立假设0 :H 10≠π。

如果真是这样，我们能相当有把握肯定（15.5）是成立的。

对于（15.1）中的log(wage )方程，educ 的工具变量z 必须：（1）与能力（以及其它影响工资的不可观测的因素）不相关，（2）与教育相关。

诸如一个人的社会福利登记号的最后一位数字之类的变量，几乎一定满足第一个必需条件：与能力不相关，因为它是随机决定的。

然而，该变量与教育不相关，因而是educ的一个低劣的工具变量。

我们所谓的用于遗漏变量的代理变量因相应的原因成为低劣的IV 。

例如，在遗漏能力的log(wage )例子中，abil 的代理变量应该尽可能地与abil 高度相关。

而工具变量必须与abil 不相关。

因此，尽管IQ 是abil 的一个好的代理变量候选者，它却不是educ 的好的工具变量。

对其它可能的工具变量候选者，这些必需条件更加不确定。

劳动经济学家已在工资方程中使用家庭背景变量作为教育的IV 。

例如，母亲的教育（motheduc ）与孩子的教育是正相关的，这一点通过收集劳动者数据样本并做educ 对motheduc 的简单回归便可以看出来。

因此，motheduc 满足方程（15.5）。

问题是，母亲的教育也可能与孩子的能力相关（通过母亲的能力和可能通过孩子幼年所受的教养的质量）。

（15.1）中educ 的另一个IV 选择是成长过程中兄弟姊妹的数目（sibs ）。

一般地说，较多的兄弟姊妹与较低的平均教育水平相联系。

这样，如果兄弟姊妹的数目与能力不相关，它可以充当educ 的工具变量。

再举一个例子，考虑估计逃课对期末考试成绩的因果影响的问题。

在一个简单的回归框架中，我们有 ,10u skipped score ++=ββ （15.8）其中score 是期末考试成绩，skipped 是该学期逃课的总数目。

当然，我们可能担心skipped 与u 中其它因素相关：较好的学生可能逃课较少。

因而score 对skipped 的简单回归可能不会给我们一个对逃课的因果影响的好的估计。

什么可能是skipped 的好的IV ？我们所需要的是对score 无直接效应，且与学生能力不相关的IV 。

同时，该IV 必须与skipped 相关。

一个选择是利用住宿区与学校之间的距离。

一所大规模的大学中将有部分学生乘车去学校，这也许会增加逃课的可能性（由于恶劣的天气、睡过头等等）。

因而，skipped 可能与distance 正相关；这一点可通过skipped 对distance 的回归并作一个t 检验得以验证，正如前面所描述的。

distance 是否与u 不相关？在简单回归模型（15.8）中，u 中的一些因素可能与distance 相关。

例如，低收入家庭的学生可能不住在学校；如果收入影响到学生的行为，可能会导致distance 与u 相关。

第15.2节说明如何在多元回归的情况下使用IV ，以便其他影响score 的因素能直接地包含在模型中。

那么，distance 也许是skipped 的一个好的IV 。

如果学生能力有一个好的代理，例如以往学期的累积GPA ，IV 法可能根本就不需要。

现在我们来证明可得到的工具变量能够用于进行方程(15.2)中的一致性参数估计。

特别地，我们将说明（15.4）与（15.5）[等价地，（15.4）与（15.7）]中的假定足以识别参数1β。

在这一点上，参数的识别（identification ）意味着我们可以根据总体矩写出1β，总体矩可用样本数据来估计。

为了根据总体协方差写出1β，我们利用方程（15.2）：z 与y 之间的协方差为).,(Cov ),(Cov ),(Cov 1u z x z y z +=β现在，在（15.4）中0),(Cov =u z 与（15.5）中0),(Cov ≠x z 的假定下，我们可以解出1β为： .),(Cov ),(Cov 1x z y z =β （15.9） [注意到如果z 与x 不相关，即0),(Cov =x z ，该简单代数式不成立。

] 方程（15.9）表明1β是z 、y 之间的总体协方差除以z 、x 之间的总体协方差的商，这说明了1β被识别。

给定一个随机样本，我们用对应样本量来估计总体的量。

在分子和分母中约去样本容量后，我们得到1β的工具变量（IV ）估计量（instrumentalvariables (IV) estimator ）：.))(())((ˆ111∑∑==----=n i i in i i i x x z zy y z z β (15.10) 给定x 、y 和z 的样本数据，很容易获得（15.10）中的IV 估计量。