让跳跃更有意义:断点回归设计(RDD)
rdd断点回归模型 第一阶段、简化形式和第二阶段

RDD(Regression Discontinuity Design)断点回归设计是一种常用的因果推断方法,用于评估某一处理对于结果变量的影响。
在实际的社会科学、经济学和政策评估研究中,对于RDD方法的应用越来越广泛。
本文将重点讨论RDD断点回归模型的第一阶段、简化形式和第二阶段,以便更好地理解和运用这一方法。
一、RDD断点回归模型的第一阶段在RDD设计中,被处理的对象根据其自身特征在一个阈值点上被分成了处理组和对照组。
第一阶段就是指在这个阈值点附近对处理组和对照组的特征变量进行回归分析,以检验处理(介入)变量是否对阈值附近特征变量产生了影响。
在RDD的第一阶段中,我们可以利用条件平行趋势假设(Common Regression Discontinuity Design Assumption)来进行估计。
在这个假设下,我们假设在阈值附近的处理组和对照组具有类似的趋势,即在阈值点之前,处理组和对照组之间的特征变量值变化趋势是相似的。
利用这一假设,我们可以通过回归分析来估计处理变量对结果变量的影响。
二、RDD断点回归模型的简化形式在实际应用中,为了简化模型和提高回归估计的效率,我们可以将RDD模型进行简化。
简化形式的RDD模型主要是通过截断线性回归模型(Truncated Linear Regression Model)来进行估计。
在这种模型中,我们只对阈值点附近一段范围内的数据进行回归分析,以减少其他无关变量的干扰。
简化形式的RDD模型还可以采用局部多项式回归(Local Polynomial Regression)来进行估计,以更好地适应数据的非线性特征。
通过简化形式的模型,我们可以更好地控制回归估计的方差,提高估计的准确性。
三、RDD断点回归模型的第二阶段在RDD设计中,第二阶段主要是通过控制第一阶段的回归估计结果,进一步对处理变量对结果变量的影响进行评估。
第二阶段的方法主要有两种:鲁宾斯特因果效应估计(Rubin Causal Effect Estimation)和平行趋势检验(Parallel Trend Test)。
断点回归设计的步骤

近在做一个需要利用断点回归设计的研究。
为了保证实践的规范性,并且避免未来审稿中可能面对的质疑,花了几天时间梳理了一下断点回归设计的标准操作,整理出来,供来人参考。
本文参考了三篇文献,先摆在这里,建议大家去读原文:第一篇:Lee, and Lemieux, 2010," Regression Discontinuity Designs in Economics ",Journal ofEconomic Literature, Vol. 48: 281–355.第二篇:Pinotti, Paolo. "Clicking on heaven's door: The effect of immigrant legalization oncrime." American Economic Review107.1 (2017): 138-68.第三篇:Thoemmes, Felix, Wang Liao, and Ze Jin. "The Analysis of the Regression-DiscontinuityDesign in R." Journal of Educational and Behavioral Statistics 42.3 (2017): 341-360.1.断点回归常规操作流程第1步检查配置变量(assignment variable,又叫running variable、forcing variable)是否被操纵。
这里的配置变量,其实就是RD中决定是否进入实验的分数(Score),是否被操纵的意思就是,是否存在某种跳跃性的变化。
在实际操作中有两种方式来检验,一是画出配置变量的分布图。
最直接的方法,是使用一定数量的箱体(bin),画出配置变量的历史直方图(histogrm)。
为了观察出分布的总体形状,箱体的宽度要尽量小。
Stata:断点回归(RDD)教程

Stata:断点回归(RDD)教程作者:张子楠 (浙江财经大学)E-mail:******************Stata连享会计量专题 || 公众号合集点击查看完整推文列表连享会直播:我的特斯拉—实证研究设计(连玉君主讲)课程主页:/arlionn/Live•1. RDD基本原理•2. 图形观察o 2.1 生成模拟数据o 2.2 断点效应的图形观察•3. 政策效应估计o 3.1 局部线性回归o 3.2 局部多项式回归o 3.3 全局多项式回归•4. RDD有效性检验o 4.1 局部平滑性的检验o 4.2 驱动变量不受人为控制的检验•5. 稳健性检验o 5.1 断点的安慰剂检验o 5.2 样本选择的敏感性检验o 5.3 带宽选择的敏感性检验1. RDD基本原理断点回归分析被认为是最接近随机实验的检验方法,能够缓解参数估计的内生性问题,近来在越来越多的研究中得到使用。
现有资料已经对断点回归方法的基本原理和效应识别进行了较为广泛的介绍,但对阶数选择和稳健性检验等问题的仍相对较少涉及。
本文将基于Stata软件来系统介绍断点回归方法的图形观测、效应识别和有效性和稳健性检验。
限于篇幅,本文将内容限定于清晰断点回归方法(Sharp Regression Discontinuity Design ),且只考虑只有一个断点和一个分配变量的问题。
2. 图形观察2.1 生成模拟数据我们先生成一份模拟数据,并保存为 RDD_simu_data0 。
生成的数据中, z1 和 z2 为控制变量。
y1 为结果变量(outcome variable)。
x 为分配变量(assignment vaiable)。
分配点(cutoff point)设定为 0.5 ,从而x大于0.5 的为实验组,小于0.5的为对照组。
此外,在RDD检验中,我们通常还会对分配变量进行去中心化处理,即用分配变量减去分配点值。
如本文中,令xc=x-0.5 。
断点回归和读者的提问解答

断点回归和读者的提问解答本文包括两部分:政策评估方法里的断点回归设计(regression discontinuity design),附加了部分倾向匹配分析方法,和读者3个提问的解答(文章后面)。
断点回归是一种准实验设计。
如果政策在一个关于个人背景的连续的变量(例如考试成绩、家庭人均收入等)上设定一个临界值(Cutoff/Threshold),使得在临界值一侧的个体接受政策干预,而在临界值另一侧的个体不接受干预,则在临界值附近就构成了一个准实验。
我们把这个决定了是否接受干预的连续变量叫做强制变量(Forcing Variable),由于强制变量是连续的,所以在临界值两侧的个体应该是类似的、可比的,则这两侧的个体在产出上的差异就应该是干预造成的差异。
当个体是否接受政策干预由强制变量值与临界值之间的关系决定时,我们可以用如下数学表达式:现在假设设立了奖学金,且只有成绩高于一个临界点的学生才能获得,则获得这个奖学金对上大学概率的影响可以用公式(10)来表达:应用断点回归的一个经典研究是Lemieux&Milligan(2008)(17)。
他们研究社会救助会不会影响就业率。
劳动力经济学家根据理论推测,增加社会救济会减少接受救济的人群工作的必要性,从而减少劳动力供给、降低就业率。
Lemieux&Milligan(2008)研究的这个社会救助项目规定30岁以下的人只能获得185美元,而一旦超过30岁,就可以获得507美元,这是一个巨大的差额。
因此年龄就是这个政策的强制变量,临界点是30岁。
图4展示了1986年人口普查时30岁以下和30以上的人群获得社会救助的额度。
可以看到在临界点两侧,人们的救助收入有一个飞跃。
因此,实际情况完全符合政策设计。
图5展示了人口普查当天在临界点30岁附近,就业率的情况。
可以看到,在30岁附近的就业率确实有一个跳跃。
这就是在30岁时大幅增加社会救助的干预效应——降低就业率。
regression discontinuity design in economics

regression discontinuity design in economics
回归断点设计(Regression Discontinuity Design,RDD)是经济学研究中常用
的一种估计因果关系的方法。
它通过利用自然实验的断点,解决了传统实验设计很难实现或不现实的限制,同时可以更准确地估计因果效应。
在回归断点设计中,存
在一个或多个变量作为配置变量(score),它们决定了个体是否被包含在实验中。
具体操作上,可以通过画出配置变量的分布图和因变量均值对配置变量的散点图来观察是否存在回归断点。
在散点图中,如果存在断点,那么在断点处的跳跃是否正常可以为我们提供一些启示。
为了更好地观察分布的总体形状,箱体的宽度要尽量小。
回归断点设计在经济学的应用中有很多优点,例如可以更准确地估计因果效应,并且可以通过利用自然实验的断点来解决传统实验设计的限制。
但也有其局限性和潜在的挑战,例如存在多重处理的问题、必须存在合适的断点和需要选择适当的配置变量等。
总之,回归断点设计是一种估计因果关系的方法,它在经济学中有广泛的应用。
但也需要考虑其局限性和潜在的挑战,以实现更为准确和可靠的估计。
Stata:不可不知的4种断点回归(RDD)中的平滑性检验方法

Stata:不可不知的4种断点回归(RDD)中的平滑性检验方法Stata: 不可不知的4种断点回归 (RDD) 中的平滑性检验方法断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。
Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应,在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。
此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。
Hahn et al(2001)提供了断点回归在计量经济学理论基础。
目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。
参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
在进行断点回归(RD)设计时,一般需要检验参考变量分布连续性检验/检验内生分组这里检验内生分组,即主要检验配置变量,其实就是RD中个体是否将自行进入断点两侧,决定是否进入实验的,并是否存在某种跳跃性的变化。
如果存在内生分组,个体将自行进入实验,导致在断点两侧的分布不均匀,这样分组变量x的密度函数f(x)在x=c处不连续,出现左右极限不相等的情况。
McCrary(2008)提出了一种核密度函数的检验方法(命令是DCdensity,介绍见下述操作),将参考变量划分成不同的区间并计算各区间中的个体数量,如果个体能够操纵参考变量,我们将能观测到断点左右个体数量有较大差别,比如很多个体通过操纵到了断点的右侧,那么,在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量,利用带宽选择和曲线拟合方法,可以检验在断点处c是否存在跳跃。
断点回归RDD

工具变量法( Instrumental Variable,IV) 、双重差分法( Difference-in-Difference,DID) 和断点回归设计( Regression Discontinuity Design,RDD) 成为应用微观计量研究中运用最广泛的方法。
断点回归是拟随机实验方法中揭示因果效应最有效的一种方法,可以视作是一种特殊的倾向值匹配,它不需要对多个混淆变量控制,而是考虑一个个体是否接受某个自变量的影响。
RDD 优势:更接近于随机试验的拟随机实验方法,从理论上讲是一种更好的因果识别方法。
拟随机实验方法是以统计控制模拟实验控制,从而检验因果假设。
Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。
1960 年就已被Thistlethwaite 和Campbell( 1960)提出,Lee 和Lemieux ( 2010)提出了运用RDD 做经验研究的规范。
RDD 适用条件:符合非混淆假设。
在断点附近有较多观测值,对数据要求很高。
强制变量一定要非常干净,强制变量的临界值不得用于作为实验之外的干预。
断点回归设计的基本逻辑哲学逻辑:Holland(1986)通过总结自然科学、社会科学的大量研究和讨论,提出科学的解决方案和统计的解决方案两种解决因果问题的方案,科学的解决方案主要包括重复实验和随机实验。
断点回归的主要思想,运用随机实验思想,控制研究的样本近似于随机分布在临界值附近,小于临界值的样本作为控制组,大于临界值的样本作为实验组,通过比较它们的差别来研究干预变量和结果变量之间的因果联系。
统计逻辑:通过统计控制,使得非实验的调查数据尽可能地随机分布在临界值附近,同时,满足非混淆假设,就是要求结果变量独立于干预变量。
解决了传统方法中个体异质性和混杂因素的问题。
非混淆假设要求研究对象是随机地分配到实验组和对照组,即二分量D(实验处置变量)本身和最后的实验结果Y1(接受实验的结果——事实)、Y0(未接受实验的结果——反事实)没有关系(工具变量思想),换句话说,Y1、Y0独立于D。
社会科学研究中的断点回归设计

社会科学研究中的断点回归设计
断点回归设计是社会科学研究中常用的一种方法,旨在探究某个自变量在一个或多个特定阈值点发生变化时,对因变量产生的影响。
在断点回归设计中,研究者首先选择一个或多个自变量作为断点,并通过对该自变量的某个或多个阈值点进行分割,将样本观测值划分为低于、高于或等于阈值的不同组别。
然后,通过运用回归分析,分别对每个组别进行回归分析,以探究自变量在不同组别中对因变量的影响。
主要应用领域包括经济学、教育学、社会学等社会科学领域。
例如,在经济学中,研究者可能对所得水平进行断点回归分析,以探究所得对消费行为的影响是否存在非线性关系。
断点回归设计的优点包括能够识别自变量与因变量之间的不同关系模式,帮助理解自变量对因变量的影响方式;同时,通过考察阈值点,还可以揭示政策或实践上的相关意义。
然而,断点回归设计也存在一些限制和挑战。
例如,确定合适的阈值点需要在理论和实证的基础上进行推断,具有一定的主观性和不确定性;此外,样本选择和内生性问题也可能对分析结果产生影响。
总而言之,断点回归设计是一种用于社会科学研究中探究自变量对因变量影响的方法,其在研究领域中应用广泛,可以帮助研究者更深入地理解相关关系,并为政策制定提供参考依据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
矿产资源开发利用方案编写内容要求及审查大纲
矿产资源开发利用方案编写内容要求及《矿产资源开发利用方案》审查大纲一、概述
㈠矿区位置、隶属关系和企业性质。
如为改扩建矿山, 应说明矿山现状、
特点及存在的主要问题。
㈡编制依据
(1简述项目前期工作进展情况及与有关方面对项目的意向性协议情况。
(2 列出开发利用方案编制所依据的主要基础性资料的名称。
如经储量管理部门认定的矿区地质勘探报告、选矿试验报告、加工利用试验报告、工程地质初评资料、矿区水文资料和供水资料等。
对改、扩建矿山应有生产实际资料, 如矿山总平面现状图、矿床开拓系统图、采场现状图和主要采选设备清单等。
二、矿产品需求现状和预测
㈠该矿产在国内需求情况和市场供应情况
1、矿产品现状及加工利用趋向。
2、国内近、远期的需求量及主要销向预测。
㈡产品价格分析
1、国内矿产品价格现状。
2、矿产品价格稳定性及变化趋势。
三、矿产资源概况
㈠矿区总体概况
1、矿区总体规划情况。
2、矿区矿产资源概况。
3、该设计与矿区总体开发的关系。
㈡该设计项目的资源概况
1、矿床地质及构造特征。
2、矿床开采技术条件及水文地质条件。