RD断点回归法

合集下载

断点回归法名词解释

断点回归法名词解释

断点回归法名词解释
RD方法(regression discontinuity design),即断点回归方法。

断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。

断点回归可以分为两类,第一类,临界值是确定的(Sharp),即在临界值一侧的所有的观测点都接受了处置,反之,在临界值另一侧的所有观测点都没有接受处置。

此时,接受处置的概率从临界值一侧的0跳转到另一侧的1;临界点是模糊的(Fussy),即在临界值附近,接受处置的概率是单调变化的。

Hahn et al(2001)在一定的假设下,证明了无论是哪一类型的断点回归,都可以利用临界值附近样本的系统性变化来研究处置和其它经济变量之间的因果关系。

Stata:断点回归(RDD)教程

Stata:断点回归(RDD)教程

Stata:断点回归(RDD)教程作者:张子楠 (浙江财经大学)E-mail:******************Stata连享会计量专题 || 公众号合集点击查看完整推文列表连享会直播:我的特斯拉—实证研究设计(连玉君主讲)课程主页:/arlionn/Live•1. RDD基本原理•2. 图形观察o 2.1 生成模拟数据o 2.2 断点效应的图形观察•3. 政策效应估计o 3.1 局部线性回归o 3.2 局部多项式回归o 3.3 全局多项式回归•4. RDD有效性检验o 4.1 局部平滑性的检验o 4.2 驱动变量不受人为控制的检验•5. 稳健性检验o 5.1 断点的安慰剂检验o 5.2 样本选择的敏感性检验o 5.3 带宽选择的敏感性检验1. RDD基本原理断点回归分析被认为是最接近随机实验的检验方法,能够缓解参数估计的内生性问题,近来在越来越多的研究中得到使用。

现有资料已经对断点回归方法的基本原理和效应识别进行了较为广泛的介绍,但对阶数选择和稳健性检验等问题的仍相对较少涉及。

本文将基于Stata软件来系统介绍断点回归方法的图形观测、效应识别和有效性和稳健性检验。

限于篇幅,本文将内容限定于清晰断点回归方法(Sharp Regression Discontinuity Design ),且只考虑只有一个断点和一个分配变量的问题。

2. 图形观察2.1 生成模拟数据我们先生成一份模拟数据,并保存为 RDD_simu_data0 。

生成的数据中, z1 和 z2 为控制变量。

y1 为结果变量(outcome variable)。

x 为分配变量(assignment vaiable)。

分配点(cutoff point)设定为 0.5 ,从而x大于0.5 的为实验组,小于0.5的为对照组。

此外,在RDD检验中,我们通常还会对分配变量进行去中心化处理,即用分配变量减去分配点值。

如本文中,令xc=x-0.5 。

模糊断点回归的stata指令

模糊断点回归的stata指令

模糊断点回归的stata指令
模糊断点回归(FuzzyRegressionDiscontinuity,FRD)是一种用于估计因果效应的方法,它在某个阈值处对样本进行分组,然后对这些组别进行比较。

这种方法通常用于政策或政策变化的评估。

在Stata中进行FRD的实现需要使用rdrobust指令,该指令可以进行任意阶段的多项式拟合。

具体使用方法如下:
1. 导入数据:使用Stata中的import命令将数据导入到Stata 中。

2. 定义阈值:根据研究问题和数据特征,定义一个阈值变量。

3. 进行回归:使用rdrobust指令进行模糊断点回归分析。

指令的基本格式为:rdrobust y x, c(cutoff) kernel(triangle)
bw(0.05)。

其中,y表示因变量,x表示解释变量,cutoff表示阈值变量,kernel表示核函数类型,bw表示带宽,可以根据数据特征进行调整。

4. 结果分析:对回归结果进行检验和分析,包括残差分析、稳健性检验、拟合优度等。

通过上述步骤,可以在Stata中进行模糊断点回归分析,得出政策或政策变化对因变量的影响效应。

- 1 -。

RD方法

RD方法

RD方法(regression discontinuity design)什么是regression discontinuity design下面将用一篇文章来介绍:如何理解「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短年」7月8日发表在《美国国家科学院院刊》(PNAS)的一篇论文,向已经逐渐意识到空气污染危害的中国民众再次展现了残酷的现实:以淮河为界,烧煤供暖的中国北方地区空气污染水平高于中国南方,北方5亿居民因严重的空气污染,平均每人失去5年寿命。

这篇文章由清华大学的李宏彬、北京大学的陈玉宇和另外两位作者共同完成。

前两位完成了这篇论文的主要部分。

这个回答首先介绍他们的研究方法,再谈一谈研究者和媒体对这篇文章的引申。

科学家如何得出「使用燃煤取暖中国5亿北方居民预期寿命将缩短年」这个结论的首先要说的是这篇文章使用的RD方法(regression discontinuity design),即断点回归方法。

断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。

在早期的研究中,要识别一个处理(Treatment)的效果,我们必须拥有随机性,比如两组随机分开的小白鼠,一组加上某种处理,一组没有处理,最后观察两者的区别。

为什么我们那么需要随机性呢因为研究的基础需要几组十分类似的群体,他们的任何特征都服从一个相同的分布,无论是性别、年龄、教育、健康程度……这样,我们才能确定几组对象之间出现的差别是来自于实验处理的差异,而非某些个人特征。

从一个大样本中严格随机抽取的样本,正好满足这样的同分布假设。

但对于政策研究来说,我们不可能找到这样随机分开的两组人,而且也无法用实验的方法来获得结果——你能将随机分开的100人放在干净空气中,将另外100人放在肮脏空气中并观察一段时间吗一些研究者面对这种缺乏随机性的情况,采用了增加控制变量的方式。

比如,把性别年龄教育健康程度全部放进回归式中,然后声称,两组人之间由于性别年龄教育健康的不同而造成的差别都已经去掉了,剩下的就是这个政策的效果了。

断点回归RDD

断点回归RDD

工具变量法( Instrumental Variable,IV) 、双重差分法( Difference-in-Difference,DID) 和断点回归设计( Regression Discontinuity Design,RDD) 成为应用微观计量研究中运用最广泛的方法。

断点回归是拟随机实验方法中揭示因果效应最有效的一种方法,可以视作是一种特殊的倾向值匹配,它不需要对多个混淆变量控制,而是考虑一个个体是否接受某个自变量的影响。

RDD 优势:更接近于随机试验的拟随机实验方法,从理论上讲是一种更好的因果识别方法。

拟随机实验方法是以统计控制模拟实验控制,从而检验因果假设。

Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。

1960 年就已被Thistlethwaite 和Campbell( 1960)提出,Lee 和Lemieux ( 2010)提出了运用RDD 做经验研究的规范。

RDD 适用条件:符合非混淆假设。

在断点附近有较多观测值,对数据要求很高。

强制变量一定要非常干净,强制变量的临界值不得用于作为实验之外的干预。

断点回归设计的基本逻辑哲学逻辑:Holland(1986)通过总结自然科学、社会科学的大量研究和讨论,提出科学的解决方案和统计的解决方案两种解决因果问题的方案,科学的解决方案主要包括重复实验和随机实验。

断点回归的主要思想,运用随机实验思想,控制研究的样本近似于随机分布在临界值附近,小于临界值的样本作为控制组,大于临界值的样本作为实验组,通过比较它们的差别来研究干预变量和结果变量之间的因果联系。

统计逻辑:通过统计控制,使得非实验的调查数据尽可能地随机分布在临界值附近,同时,满足非混淆假设,就是要求结果变量独立于干预变量。

解决了传统方法中个体异质性和混杂因素的问题。

非混淆假设要求研究对象是随机地分配到实验组和对照组,即二分量D(实验处置变量)本身和最后的实验结果Y1(接受实验的结果——事实)、Y0(未接受实验的结果——反事实)没有关系(工具变量思想),换句话说,Y1、Y0独立于D。

让跳跃更有意义:断点回归设计(RDD)

让跳跃更有意义:断点回归设计(RDD)

让“跳跃”更有意义:断点回归设计(RDD) 在一个高度依赖规则的世界里,有些规则的出现十分随意,这种随意性为我们提供了性质良好的实验(Angrist&Pischke,2009)。

断点回归设计(RegressionDiscontinuity Design)是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。

Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。

断点回归方法首先是由美国西北大学心理学家Campbell于1958年提出的;并与1960年,与Thistlethwaite正式发表了第一篇关于断点回归的论文,提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。

1963年,Campbell and Stanley为断点回归提供了更加清晰化的概念,但由于当时还缺乏严密的统计证明,加之IV 方法在处理内生性的思路和范式上具有更广阔的适用范围,因此在随后的几十年间,RD 方法一直没有得到经济学者的重视。

直到上世纪90 年代末,随着该方法的理论基础得到进一步发展,大量经济学文献才开始使用RD 方法对变量之间的因果关系进行识别。

断点回归可以分为两类,一类是模糊断点回归(Fuzzy RD),另一类是清晰断点回归(Sharp RD)。

清晰断点回归可以看作是一种基于可观察变量进行的选择(selection-on-observablesstory),而模糊断点回归则常被视为一种工具变量的方法(instrumental-variables-type)。

清晰断点回归(Sharp RD)当处理状态是协变量确定型、不连续函数时,可以使用清晰间断点回归法。

对于清晰断点回归,个体在临界值的一边接受处理效应(treatment effect)的概率为0,而在临界值另一边的概率则为1。

模糊断点回归

模糊断点回归

模糊断点回归在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。

断点回归便是仅次于随机实验的, 能够有效利用现实约束条件分析变量之间因果关系的实证方法。

断点回归设计是由美国西北大学的心理学家campbell在1958年首先提出来的,到20世纪80年代,campbell及其同事一直从事断点回归的设计和研究工作。

断点回归设计(regressiondiscontinuity design)是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。

断点回归可以分为两类,一类是模糊断点回归(fuzzy rd),其特征是断点x=c处,个体得到处理的概率从0跳跃到1;另一类是清晰断点回归(sharp rd),其特征是断点x=c 处,个体得到处理的概率从a跳跃到b,其中0<a<b<1。

rd的目的是选取其他特征相似的组,考察临界值区间上下不同比如考察进清华对收入的影响。

考687分的不能上清华,考689分的可以进去。

只差2分。

这两类人的基本能力其实没什么区别。

两组人,围绕688分的分割线,研究工资差异的内在效度很高,因为他们之间唯一的区别就是进不进清华。

其他都一样。

将这种想法扩展到控制其他变量。

数据分为1)688以下和2)688以上。

回归线应该斜率差不多,但截距明显不同。

截距项可以理解为招生带来的收入差。

rd需要数据更少,主要是考虑临界值附近的影响关于断点回归的基本逻辑、方法和应用,可参考中南财经政法大学罗胜博士在“统计与决策”上的《断点回归设计:基本逻辑、方法、应用评述》一文。

关于断点回归的操作,可参考三篇文献:第一是香樟经济学圈发表的基于lee,and lemieux, 2010,"regression discontinuity designs in economics ",journal of economic literature, vol. 48: 281–355.的推文,【香樟推文0620】运用断点回归设计做研究的规定动作()第二是2017年aer论文pinotti, paolo. "clicking on heaven's door: the effect of immigrant legalization on crime." american economicreview107.1(2017): 138-68.第三是一篇实际操作的比较thoemmes,felix, wang liao, and ze jin. "the analysis of the regression-discontinuity design in r." journal of educational and behavioral statistics 42.3 (2017): 341-360.以及史冬波梳理断点回归设计的标准操作()运用断点回归设计做研究的规定动作第1步检查配置变量(assignment variable,又叫running variable、forcing variable)是否被操纵。

《因果推断实用计量方法》大学教学课件--第12章-断点回归

《因果推断实用计量方法》大学教学课件--第12章-断点回归

方法,虽然它使用的是观测数据而非真正的实验数据。
断点回归的数据要求
断点回归的数据要求一
断点回归的数据需要包含3个基本变量
✓ 配 置 变 量 ( Assignment Variable ) , 也称作 驱 动 变 量 ( Forcing Variables,
Running Variables):配置变量是个体的一个连续特征变量,匹配变量的值
• 接受治疗的平均潜在健康状况 1 和收入关系的函数为
1 =
• 未接受治疗的平均潜在健康状况 0 和收入关系的函数为
0 =
• 给定收入水平,病人平均治疗效果为
τ = 1 − 0 = −
• 本文利用美国企业成立工会投票事件来估计工会对债券价格的因果影响。当
成立工会投票结果公布后,企业的债券价格会对投票结果做出反映,RDD的方
法是通过比较工会得票率在50%左右企业的债券价格变化来估计工会的影响。
变量
• 配置变量(vote_for_share):支持成立工会的得票率;
• 断点:得票率为50%。如果支持工会成立得票率大于或等于50%,企业必须成
(5.2) 局部多项式回归(rdrobust)
多项式次数
带宽选择
权重选择
RDD运用实例
文章背景
• 文章引用:Murillo Campello, Janet Gao, Jiaping Qiu, and Yue Zhang, "Bankruptcy
and the Cost of Organized Labor: Evidence from Union Elections," Review of
(1) , ≤ 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

You jump, I will not jump!断点回归的连续性假设
断点回归RD是当代社会科学因果推断的最基本无害的大招之一。

比如我们要研究上一本大学是否能提高一个人的工资,如果直接对比上了一本大学和没上一本大学群体的工资,可能会因为上一本大学的天生能力更强而得出有偏误的结论,而能力等不可观测变量无法控制。

RD给我们提供了一个思想——观察一本线附近上下几分学生的工资。

比一本线低2分、1分的人工资差距不大,高2分、1分的差距也不大,但比一本线低1分的和正好达线的工资上有个跳跃,那这个跳跃就是一本大学对工资的作用。

一本线产生了一个天然的跳跃(两侧的人分别上一本和二本),如果在一本线两侧我们也看到了关注变量(工资)的跳跃,那么就识别了因果效应。

直觉上来看,RD的成立还需要一个关键假设:一本线产生了一个天然的跳跃,但一本线附近学生各特征不能有跳跃!否则就混淆了一本大学对工资的作用。

这就是连续性假设。

1、断点回归背景介绍
Thistlethwaite and Campbell(1960)使用了RD方法后的40年,RD并没有在经济学中大规模使用,一大原因就是RD太像自然科学的随机实验了,太不像经济学传统方法了(比如上周我们BLUE_OLS读Black(1999)关于择校会使房价上升的论文(”Do better schools matter? Parental valuation of elementary education”),该文利用学区边界推断因果,应该说思想跟RD 很像,但没有按照RD框架来写,可能的原因是作者写作年代RD还并不流行)。

直到Hahn, Todd, and van der Klaauw(2001)把RD纳入到了我们熟悉的“反事实因果推断”框架下,如下图(原文图2)。

我们把断点看成一种treatment,断点右侧的是处理组,断点左侧的是控制组。

可以观测到处理后的处理组,和未处理的控制组。

在离断点很近的区间里(图中是X=2),控制组Y(0)观测不到的那段就可以作为处理组Y(1)观测到的那段的反事实,从而推断出因果效应。

从这里能很清楚地看出“连续性假设”的重要性,如果违反连续性,就不能作为另一组的反事实。

但这里还存在两个难题:1.我们都知道连续性假设很重要,但该假设在经济学语言里很不传统,有点怪怪的。

2.如果从“selection on observables”角度来看,我们通常的2个传统假设——ignorance(unconfoundedness)和overlap,在RD设计里,第一个假设天然满足,因为控制X后,断点两侧样本在是否处理上没有变差了(一侧D=1,一侧D=0);但overlap 肯定不满足,没有交叠部分。

从这个角度来看,我们需要增加连续性假设,用来补偿overlap 不能满足。

RD是不是valid,就取决于这个连续性假设。

2怎样用经济学语言表述连续性假设?
先看一个RD的最简单设定形式:
这里,W不需要假定外生,只要前定于V;并且不需要附加W、U、V之间关系的假设。

下面就可以给“连续性假设”下定义了。

还是以考一本大学为例,假设大家目标都是考上一本,过一本线就行,分数再高也意义不大。

x=0是一本线,黑色粗线代表Complete control,所有人的分数都刚好达线,完美控制,恰到好处一分不浪费。

点线代表Precise control,即所有人都能通过控制自己的行为,虽然不能确定自己具体分数,但能控制自己都考上一本,所以密度函数是截断的。

虚线代表Imprecise control,即你可以部分控制自己的分数,比如多努力一些考上一本的概率就大,自己分数的分布就可以往右边推推,但是你不能确定你到底考多少分,也不能保证一定考上一本。

RD要求我们都是Imprecise control即可!即便我们可以控制自己行为,只要在断点处是Imprecise control即可,那么断点附近的Pr(W=w,U=u|X=x)就是连续的。

这一点可以通过贝叶斯公式来看:
按照定义,如果我们是Imprecise control,那么f(x|W=w,U=u)就是连续的。

这个东西连续,根据公式(3),Pr(W=w,U=u|X=x)就是连续的,此式连续,就意味着局部随机。


局部随机了,RD设计在断点附近的两侧就拥有同样的分布。

这也是RD吸引人的地方:只要有Imprecise control,则在断点附近就像随机试验一样好。

也就是说,RD设计通过断点处一个天然跳跃造成关注变量的跳跃,从而识别因果。

重要前提连续性假设——因为Imprecise control,所以断点跳,(W,U)不跳。

由此,我们就可以进行因果推断了:
最后一步的公式化简靠的就是连续性假设。

3、那如何检验连续性呢?
我们无法直接检验Pr(W=w,U=u|X=x)的连续性,因为U不可观测。

退而求其次,就检验可观测前定变量W在treatment group和control group之间的平衡性,这类似于其他因果推断检验的思路。

可观测的都平衡,不可观测的可以预计也将平衡(当然,还有种补充性的检验方式。

回顾公式(3),可以直接检验X本身的密度,如果存在跳跃,那就要怀疑RD 的可信性了)。

下面这个图就可以看的很清楚了RD和随机试验的关系。

不过,RD的这个检验比随机试验的平衡性检验更重要,因为如果真的做随机试验了,那么W和U在2组之间就是平的了。

然而Imprecise control这个完全是靠我们说的,所以更要给出令人信服的检验。

上图B部分展示了断点回归的核心内容——从You jump, I jump 到You jump, I will not jump。

这也是每篇RD论文必汇报的内容,这背后,隐藏的是一个关于连续性假设的故事。

比如之前我们公众号推送的Chen Yuyu et al.(2013)PNAS上那篇很火的“淮河RD-空气污染-北方人预期寿命少5.5年”,两副令人印象深刻的You jump, I jump 和You jump, I will not jump。

4、结语
这两个最基本内容做完后,RD论文的后续标准化流程就是各种稳健性检验:换换多次项形式、调调带宽、扩大缩小一下断点附近的样本、人为设置一个断点证伪检验、看看有没有data heaping,这里不再赘述了。

相关文档
最新文档