第六讲 工具变量回归概要
计量经济学-工具变量

利用E(zii)=0,在大样本下可得到:
~1
zi yi zi xi
关于0 的估计,仍用~0 Y ~1X 完成。
这种求模型参数估计量的方法称为工具变 量法(instrumental variable method),相应的估 计 量 称 为 工 具 变 量 法 估 计 量 ( instrumental variable (IV) estimator)。
CONSP 0 1GDPP 由于:居民人均消费支出(CONSP)与人 均国内生产总值(GDPP)相互影响,因此,
容易判断GDPP与同期相关(往往是 正相关),OLS估计量有偏并且是非一致的
(低估截距项而高估计斜率项 )。
OLS估计结果:
(13.51) (53.47) R2=0.9927 F=2859.23 DW=0.5503 SSR=23240.7
用OLS估计模型,相当于用xi去乘模型两边、对i求 和、再略去xii项后得到正规方程:
xi yi 1 xi2
解得:
ˆ1
xi yi xi2
(*)
由于Cov(Xi,i)=E(Xii)=0,意味着大样本下: (xii)/n0
表明大样本下:
ˆ1
xi yi xi2
2. 工具变量并没有替代模型中的解释变量, 只是在估计过程中作为“工具”被使用。
上述工具变量法估计过程可等价地分解成下 面的两步OLS回归:
第一步,用OLS法进行X关于工具变量Z的回归:
Xˆ i ˆ0 ˆ1Zi
Yˆi ~0 ~1 Xˆ i
容易验证仍有:
~1
zi yi zi xi
如果用GDPPt-1为工具变量,可得如下工具 变量法估计结果:
工具变量法

工具变量法工具变量法一、工具变量法得主要思想在无限分布滞后模型中,为了估计回归系数,通常得做法就是对回归系数作一些限制,从而对受限得无限分布滞后模型进行估计。
在这里,考伊克模型、适应性期望模型与部分调整模型给出了很好得解决此类问题得思路。
经过变换,新得模型中,随机扰动项得表达式为:考伊克模型: ( ,为衰减率) (1、1);适应性期望模型:(,为期望系数)(1、2);部分调整模型:( ,为调整系数) (1、3)。
为原无限分布滞后模型中得扰动项,为变换后得扰动项。
在原模型中得随机扰动项满足经典假设得前提下,部分调整模型也满足经典假设,但就是考伊克模型与适应性期望模型得随机扰动项由于存在原随机扰动项得滞后项,也就就是说考伊克模型与适应性期望模型得解释变量势必与误差项相关,因此,可能会出现上述两个模型得最小二乘估计甚至就是有偏得这样严重得问题。
那么,我们就是否可以找到一个与高度相关但与不相关得变量来替代?在这里,一个可行得估计方法就就是工具变量法。
在讨论工具变量法之前,我们先来了解一下外生变量与内生变量。
一般来说:一个回归模型中得解释变量有得与随机扰动项无关,我们称这样得解释变量为外生变量;而模型中有得解释变量与随机扰动项相关,我们可称这样得解释变量为内生解释变量。
内生解释变量得典型情况之一就就是滞后应变量为解释变量得情形,如上述考伊克模型与适应性期望模型中得。
外生解释变量:回归模型中得解释变量与随机扰动项无关;内生解释变量:回归模型中得解释变量与随机扰动项无关;了解了内生变量与外生变量得概念,我们接着讨论工具变量法得主要思想:工具变量法与普通最小二乘法就是模型参数估计得两类重要方法,在多元线性回归模型中,如果出现解释变量与随机误差项相关(即出现内生变量)时,其回归系数得普通最小二乘估计就是非一致得,这时就需要引入工具变量。
工具变量,顾名思义就是在模型估计过程中被作为工具使用,以替代模型中与随机误差性相关得随机解释变量(即内生变量)。
chap06stata基本回归分析

无自相关
误差项之间不存在自相关,即 误差项的过去值不应该影响当 前值。
线性关系
因变量和自变量之间存在线性 关系,即它们之间的关系可以 用直线来描述。
无异方差性
误差项的方差应该是一个常数, 以确保模型具有一致性。
无随机误差项
误差项应该是随机的,并且与 自变量无关。
04
Stata基本回归分析操作
Stata回归分析命令
考虑数据的非线性关系
线性回归假设自变量和因变量之间存在线性关系。如果实际关 系是非线性的,可以考虑使用其他模型或对自变量进行转换。
重视多元共线性问题
当多个自变量之间高度相关时,可能会导致多元共线性问题, 影响回归结果的稳定性。在实际应用中,应重视这一问题,并 采取相应措施解决或缓解。
THANKS
感谢观看
检查模型假设条件
回归分析需要满足一定的假设条件,如线性关系、 误差项独立同分布等,需要对这些假设条件进行 检查。
优化模型
根据评估结果,对模型进行优化,可以考虑增加 或删除自变量、改变模型形式等,以提高模型的 拟合优度和预测精度。
06
案例分析
数据来源与处理
总结词
数据清洗与整理
详细描述
在进行回归分析之前,需要确保数据的准确性和完整性。数据来源应可靠,避免出现异常值和缺失值。使用 Stata进行数据清洗和整理,包括数据排序、变量转换、缺失值处理等步骤,为后续分析做好准备。
解释回归系数的意
义
回归系数的大小和正负可以用来 解释自变量对因变量的影响程度 和方向,从而深入理解数据之间 的关系。
考虑其他因素的影
响
在解释回归结果时,需要综合考 虑其他潜在因素的影响,以避免 对结果的过度解读或误导。
计量经济学 詹姆斯斯托克 第九章:工具变量回归与联立方程

由于“简化式模型”中,所有方程中的解释变量都是 外生变量,因此这些解释变量与随机项之间就不再相 关了, 因此我们可以用OLS得到对全部“简化式参数”的最 佳线性无偏估计量。
25
1、间接最小二乘法 (ILS: Indirect Least Square)
如何将“结构式模型”转变为“简化式模型”?
最初的工具变量回归
谁开创了工具变量回归? 1928年的著作的“The Tariff on Animal and Vegetable Oils”的附录B。 作者是谁? Philip Wright 或者是他的儿子Sewall Wright 文体计量学的分析
最初的工具变量回归
Philip Wright的问题 Philip Wright关心的是那个时期的一个重 要经济问题:即如何对诸如黄油,大豆油这样的 动植物油和食用动物设臵进口关税。 而理解关税的经济效应的关键在于要有商品 需求和供给曲线的定量估计。
如何应对?
工具变量回归的实质: 用工具变量(Z) 与原有变量共同构造 一个估计量。
工具变量回归
例如,过原点的回归方程:
Yi X i ui
利用“矩条件”有: E ( XY ) E ( XX ) E( Xu) 按照经典假设:E(XU)=0 有: X Y E ( XY ) i i ˆ
E ( XX )
X X
i
矩估计
i
工具变量回归
类似得,我们可以得到如下等式: E (ZY ) E (ZX ) E (Zu) 利用工具变量的性质E(Zu)=0 可得
E ( ZY ) E ( ZX )
Stata面板数据回归分析中的工具变量法如何选择合适的工具变量

Stata面板数据回归分析中的工具变量法如何选择合适的工具变量工具变量法(Instrumental Variable,简称IV)在面板数据回归分析中被广泛应用。
它通过引入外生变量作为工具变量来解决内生性问题,从而使得回归结果更具可靠性和稳健性。
在Stata软件中,选择合适的工具变量对于IV估计的准确性起着至关重要的作用。
本文将介绍在Stata面板数据回归分析中如何选择合适的工具变量。
一、IV方法简介在介绍IV方法如何选择合适的工具变量之前,先简要介绍一下IV方法的原理和步骤。
IV方法是通过引入工具变量来解决内生性问题,从而得到一致性的估计。
其基本思想是找到一个与内生变量相关但与误差项不相关的变量作为工具变量,从而通过工具变量的外生性来消除内生性引起的估计偏误。
IV方法的具体步骤如下:1. 识别工具变量:首先需要找到一个与内生变量相关但与误差项不相关的变量作为工具变量。
工具变量的选择要满足两个条件:与内生变量有相关性,与误差项无相关性。
2. 检验工具变量:选择好的工具变量需要经过检验,以确保其满足与内生变量相关但与误差项不相关的要求。
常用的检验方法有Hausman检验和Sargan检验。
3. 使用工具变量进行回归:将选定的工具变量引入回归方程中,通过工具变量的外生性来消除内生性引起的估计偏误。
二、选择合适的工具变量在选择合适的工具变量时,需要考虑以下几个因素:1. 相关性:工具变量应该与内生变量有一定的相关性,才能正确地估计内生变量对因变量的影响。
相关性可以通过计算相关系数来衡量,一般要求相关系数大于0.1。
2. 排除性:工具变量与误差项无相关性,即工具变量不能受到其他未观测到的因素的影响。
排除性通常通过进行统计检验来验证,常用的检验方法有Hausman检验和Sargan检验。
3. 弱工具变量:如果工具变量过弱,即相关系数过小,会导致估计结果的方差增大,同时降低估计的准确性和稳健性。
一般来说,工具变量的F统计量应大于10,同时第一阶段回归的R-squared要大于0.1。
工具变量估计算法

工具变量估计算法
工具变量估计算法是一种统计方法,用于处理回归分析中的内生性问题。
在回归分析中,如果解释变量与误差项相关,会导致估计结果有
偏误。
工具变量估计算法通过使用一个或多个与内生解释变量相关,
但与误差项无关的变量作为工具变量,来估计回归系数的一致性估计量。
工具变量的选择必须满足一定条件:
1. 与所替代的内生解释变量高度相关;
2. 与误差项不相关;
3. 与模型中其他解释变量不相关;
4. 在同一模型中引入多个工具变量时,这些工具变量之间不相关。
工具变量估计算法的步骤包括:
1. 对一阶段回归的残差进行 IID 检验,检验结果显示扰动项非 IID;
2. 进行不可识别检验,P 值(K-P LM)均为 0.000,拒绝不可识别的
原假设;
3. 进行弱工具变量检验,F 值(K-P Wald)分别为 547.812 及
386.131,远大于 16.38 的临界值,说明不存在弱工具变量问题;
4. 进行过度识别检验,Sargan 检验的 P 值为 0.3096,接受工具变
量与结构方程扰动项不相关的原假设;
5. 进行冗余检验,P 值均为 0.000,说明工具变量不冗余;
6. 进行内生性检验,P 值为 0.000,需要返回第四步,将 IV 估计改为 GMM 估计,Sargan 统计量改为 Hansen 统计量,再次检验显示Hansen-J 检验估计结果与前文一致。
通过以上步骤,可以使用工具变量估计算法对回归分析中的内生性问题进行处理,并获得一致性估计量。
《工具变量SLSG》课件

未来的工具变量slsg将更加注重智能化和人性化的设计。通过人工智能和机器学习技术,实现工具变 量slsg的自动化和智能化;同时,将更加注重用户体验和人机交互,使工具变量slsg更加易于使用和 操作。
05
工具变量slsg的实际应用与案例分析
工具变量slsg在经济学中的应用
总结词
经济学中,工具变量slsg被广泛应用于解 决内生性问题,如遗漏变量偏差和同时 性偏差。
《工具变量slsg》ppt课件
• 工具变量slsg简介 • 工具变量slsg的基本原理 • 工具变量slsg的实证分析 • 工具变量slsg的未来发展与展望 • 工具变量slsg的实际应用与案例分析
01
工具变量slsg简介
定义与特点
定义
工具变量(SLSG)是一种用于解决内生性问题的方法,通过引入一个或多个 外生的工具变量来替代或估计内生解释变量,以获得一致的估计结果。
实证分析的案例与结果
数据处理
对收集到的数据进行预处理和 清洗,确保数据的质量和一致 性。
结果分析
对拟合结果进行详细分析,评 估模型的适用性和解释能力。
案例选择
选择具有代表性的案例进行实 证分析,确保案例的典型性和 可信度。
模型拟合
使用所选模型对数据进行拟合 ,得到拟合结果。
结果比较
将实证分析结果与其他相关研 究进行比较,验证结果的可靠 性和创新性。
人工智能与机器学习在工具变量slsg中的应用
随着人工智能和机器学习技术的发展,越来越多的研究开始探索如何将这些技术应用于 工具变量slsg中,以提高其效率和准确性。
大数据处理与分析在工具变量slsg中的研究
随着大数据时代的到来,如何有效地处理和分析大规模数据成为工具变量slsg面临的重 要挑战。当前的研究热点是如何利用先进的数据处理和分析技术,从海量数据中提取有
工具变量法

工具变量法一.为什么需要使用工具变量法?当模型存在内生解释变量问题,一般为以下三种情形:(1)遗漏变量:如果遗漏的变量与其他解释变量不相关,一般不会造成问题。
否则,就会造成解释变量与残差项相关,从而引起内生性问题。
(2)解释变量与被解释变量相互影响(3)度量误差 (measurement error ):由于在关键变量的度量上存在误差,使其与真实值之间存在偏差,这种偏差可能会成为回归误差的一部分,从而导致内生性问题。
Ex :i 01122Y i i k ik i X X X ββββμ=+++⋅⋅⋅++ 其中:X 2为内生解释变量 当22Cov(X ,)=E[X ]0i i i i μμ≠时,内生解释变量与随机干扰项同期相关。
此时会导致回归参数估计量是有偏的且不一致,需要用工具变量法进行回归。
二.如何使用工具变量? (一)判断是否需要用工具变量当存在内生性变量时,则需使用工具变量,所以需要对内生性变量进行检验。
在实践中,往往是通过经济学理论先说明是否存在内生性变量,最后再通过检验证明确实存在内生变量。
(1)豪斯曼检验(Hausman )原假设H 0:所有解释变量均为外生变量将内生解释变量关于工具变量与外生变量进行OLS 回归估计 记录残差序列(^^IV OLS ββ−),加入原模型后进行OLS 估计 结果:若差值依概率收敛于0,接受原假设;反之,拒绝。
(2)杜宾-吴-豪斯曼检验(DWH )注:存在异方差的情况下传统豪斯曼检验不适用。
回归模型:'1122y x x ββε=++ z=(x 1,z 2) 第一阶段回归:''21x x z v γδ=++ 检验扰动项v 与ε相关性模型:=v+ερξ 其中:ρ为ε对v 回归系数,ε与v 不相关则ρ=0. 对 ^'''1122y=x x v e ββρ+++ 回归 对原假设H 0:ρ=0. 进行t 检验。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
该数据集中包括以下变量:lw(工资对数), s(受教育年限),age(年龄),expr(工龄), tenure(在现单位的工作年数),iq(智商), med(母亲的受教育年限),kww(在 “knowledge of the World of Work”测试 中的成绩),mrt(婚姻虚拟变量,已婚=1), rns(美国南方虚拟变量,住在南方=1), smsa(大城市虚拟变量,住在大城市=1), year(有数据的最早年份,1966—1973年中 的某一年)。
工具变量回归
差项彼此之间不相关。
OLS经典假设 所有的解释变量Xi与随机误
Cov(ui, Xi ) 0
若解释变量Xi和ui相关,则OLS估计量是非一 致的,也就是即使当样本容量很大时,OLS估 计量也不会接近回归系数的真值。 当解释变量和随机误差项相关时,模型存在着 内生性问题。
在计量经济学中,把所有与扰动项相关 的解释变量都称为“内生变量”。这与 一般经济学理论中的定义有所不同。 1。与误差项相关的变量称为内生变量 (endogenous variable)。 2。与误差项不相关的变量称为外生变量 (exogenous variable)。
Yi 0 1 Xi vi
0 1 Xi [ 1( Xi Xi ) ui]
vi 1( Xi Xi) ui
可知,误差项中包含 所以可以得到:如果
Xi Xi Cov( Xi Xi, Xi) 0
则回归结果有偏,非一致 我们假设 则有
工具变量有效性的检验
工具变量相关性 工具变量相关性越强,也就是工具变量能解释越多 的X变动,则IV回归中能用的信息就越多,因此利用 相关性更强的工具变量得到的估计量也更精确。 弱工具变量:如果虽然
Cov( Zi, Xi ) 0 0
但是 Cov( Zi, Xi ) 弱工具变量几乎不能解释X的变动。
工具变量外生性的检验
刚才我们提到:只有恰好识别和过度识别才 能用IV方法估计。 一个很重要的命题是:只有过度识别情况下 才能检验工具变量的外生性,而恰好识别情 况下无法检验。
过度识别约束检验
基本思想: 假设有一个内生回归变量,两个工具变量且没 有包含的外生变量。则你可以计算两个不同的 TSLS估计量:其中一个利用第一个工具变量, 而另一个利用第二个工具变量。由于抽样变异 性,这两个估计量不会相同,但如果两个工具 变量都是外生的,则这两个估计量往往比较接 近。如果由这两个工具变量得到估计非常不同, 则你可以得出其中一个或两个工具变量都有内 生性问题的结论。
上述检验的缺点是,它假设在H0成立的情况 下,OLS 最有效率。但如果存在异方差, OLS 并不最有效率(不是 BLUE)。故传统的 豪斯曼检验不适用于异方差的情形。 此时可以使用杜宾-吴-豪斯曼检验(DWH), 该检验在异方差的情况下也适用,更为稳健。 stata命令: estat endogenous
弱工具变量检验准则
1. 偏R2(Shea’s partial R2) 含义:在第一阶段回归中,在控制外生变量 影响的前提下,看其它变量对某内生变量的 解释力,或者说,在第一阶段回归中,剔除 掉外生变量的影响。 2.最小特征值统计量F:经验上F应该大于10。 Stata 命令: estat firststage,all forcenonrobust
广义矩估计法:GMM
基本思想: 求解如下一般化目标函数,使之最小化 J(b_GMM) = n*g(b_GMM)'*W*g(b_GMM) 其中,W 为权重矩阵 在球型扰动项的假定下,2SLS 是最有效的。但如果 扰动项存在异方差或自相关,则广义矩估计方法效 果更好。 GMM方法又分为两步GMM法和迭代GMM方法。
(2) 考察智商与受教育年限的相关关系。 pwcorr iq s,sig (3) 建立如下方程:
lw80 1s80 2 exp r80 3tenure80 ui
reg lw80 s80 expr80 tenure80
继续对方程进行分析:我们发现了如下问题: 1。遗漏变量问题:认为方程遗漏了“能力” 这个变量,加入iq(智商)作为“能力”的代 理变量。 reg lw80 s80 iq expr80 tenure80
可以推导出:
Cov( Xi, ui) r1 u / (1 r1 1)
2
遗漏变量偏差可采用在多元回归中加入遗漏变 量的方法加以解决,但前提是只有当你有遗漏 变量数据时上述方法才可行。 双向因果关系偏差是指如果有时因果关系是从 X到Y又从Y到X时,此时仅用多元回归无法消 除这一偏差。同样, 变量有测量误差也无法用我们前面学过的方法 解决。 因此我们就必须寻找一种新的方法。
我们的工作就是要寻找相应的工具变量将解 释变量分解成内生变量和外生变量,然后利 用两阶段最小二乘法(TSLS)进行估计。
工具变量的选取
一个有效的工具变量必须满足称为工具变量相关 性和工具变量外生性两个条件:即
(1)工具变量相关性:工具变量与所替代 的随机解释变量高度相关;
Cov( Zi, Xi ) 0
(2)工具变量外生性:工具变量与随机误差 项不相关;
Cov(ui, Zi ) 0
两阶段最小二乘估计量
若工具变量Z满足工具变量相关性和外生性的 条件,则可用称为两阶段最小二乘(TSLS)的 IV估计量估计系数ß1。 两阶段最小二乘估计量分两阶段计算: 第一阶段把X分解成两部分:即与回归误差项 相关的一部分以及与误差项无关的一部分。 第二阶段是利用与误差项无关的那部分进行估 计。
一般IV回归模型
1. 因变量 Yi。 2. 外生解释变量 W1i、 W2i、… Wri。
3. 内生解释变量 X1i、 X2i、… Xki。
4. 我们引入工具变量Z1i、 Z2i、… Zmi 。
第一阶段回归:利用OLS建立每个内生变量 ( X1i、 X2i、… Xki)关于工具变量( Z1i、 Z2i、… Zmi)和外生变量(W1i、 W2i、… Wri) 的回归,并得到所有回归结果的拟合值Xi_hat。 第二阶段回归:用Xi_hat取代原有的Xi,与原有 的外生变量Wi一起进行第二次回归,得到TSLS 统计量β TSLS。 注意:工具变量出现在第一阶段回归,但不出 现在第二阶段回归。
第二个选择是利用弱工具变量继续进行实证分 析,但采用的方法不再是TSLS。而是对弱工 具变量不太敏感的有限信息极大似然法 (LIML)。在大样本下,LIML 与2SLS是渐近 等价的,但在存在弱工具变量的情况下, LIML 的小样本性质可能优于2SLS。 LIML 的 Stata 命令为 ivregress liml depvar [varlist1] (varlist2 =instlist)
这是一个两期面板数据,初始期为当以上变量 有数据的最早年份,结束期为1980 年。不带 80字样的变量名为初始期,带80字样的变量 名为1980年数据。比如,iq 指的是初始期的 智商,而lw80指的是1980年的工资对数。
(1) 先看一下数据的统计特征。 use grilic.dta,clear sum
工具变量(instrumental variable, IV)回 归是当回归变量X与误差项u相关时获得总体 回归方程未知系数一致估计量的一般方法。 我们经常称其为IV估计。 其基本思想是:假设方程是:
我们假设ui与Xi相关,则OLS估计量一定是 有偏的和非一致的。工具变量估计是利用另 一个“工具”变量Z将Xi分离成与ui相关和 不相关的两部分。
3. Cragg-Donald Wald F 统计量 4. Kleibergen-Paap Wald rk F 统计量” Stata命令:ivreg2
如果存在弱工具变量该怎么办?
1. 如果有很多工具变量,有部分强工具变量和部分 弱工具变量,可以舍弃较弱的工具变量而选用相关性 较强的工具变量子集。在stata中,可以使用ivreg2 命令进行“冗余检验”,以决定选择舍弃哪个工具变 量。(直观上,冗余工具变量是那些第一阶段回归中 不显著的变量。) 2. 如果系数是恰好识别的,则你不能略去弱工具变 量。在这种情况下,有两个选择: 第一个选择是寻找其他较强的工具变量。(难度较大)
引入工具变量的个数
假设我们有n个内生解释变量,引入了m个工 具变量,n和m的关系是什么? n=m 恰好识别 n<m 过度识别 n>m 不可识别 只有恰好识别和过度识别才能用IV方法估计。
两阶段最小二乘法的stata命令: ivregress 2sls depvar [varlist1] (varlist2 =instlist),r,first 其中,“depvar”为被解释变量,varlist1 为外生解释变量,varlist2为所有的内生解 释变量集合,instlist为工具变量集合。 选择项r表示使用异方差稳健的标准误,选 择项“first”表示显示第一阶段的回归。
有关 GMM 的 Stata 命令为 ivregress gmm y x1 (x2=z1 z2) (两步 GMM) ivregress gmm y x1 (x2=z1 z2),igmm (迭代 GMM) estat overid (过度识别检验)
例一
Mincer (1958)最早研究了工资与受教育年 限的正相关关系,但遗漏了“能力”这个变 量,导致遗漏变量偏差。针对美国面板调查 数据中的年轻男子组群(Young Men’s Cohort of the National Longitudinal Survey,简记 NLS-Y),Griliches (1976) 采用工具变量法对遗漏变量问题进行了校正。 Blackburn and Neumark (1992)更新 了 Griliches (1976)的数据,即这个例子中 将要使用的数据集grilic.dta。
造成误差项与回归变量相关(内生性)的原 因很多,但我们主要考虑如下几个方面: 遗漏变量偏差 变量有测量误差 双向因果关系。