断点回归(RD)学习手册

合集下载

stata做断点回归结果解读

stata做断点回归结果解读

stata做断点回归结果解读
断点回归是一种计量经济学方法,常用于分析连续变量在某一个特定点处的变化情况,例如政策出台前后的变化、不同收入水平下的消费行为等。

使用Stata进行断点回归的结果解读,需要重点关注以下几个方面:
- 断点位置:观察断点的估计值,及其在统计上是否显著。

如果断点位置的估计值在统计上显著,则说明在该点处,因变量的变化趋势可能发生了变化。

- 效应大小:比较断点两侧因变量的均值差异,以及相应的统计显著性水平。

如果差异显著,则说明因变量在该点处的变化幅度较大。

- 显著性检验:检查模型的整体显著性,以及各变量的显著性水平。

如果模型显著,并且各变量的显著性水平较高,则说明模型的拟合效果较好。

- 预测能力:根据模型的预测值与实际值之间的差异,评估模型的预测能力。

如果模型的预测误差较小,则说明模型的预测能力较强。

在进行断点回归结果解读时,需要综合考虑以上各方面的结果,并结合实际问题进行分析和解释。

如果需要更详细的解释和分析,可以考虑咨询专业的统计学家或经济学家。

断点回归法名词解释

断点回归法名词解释

断点回归法名词解释
RD方法(regression discontinuity design),即断点回归方法。

断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。

断点回归可以分为两类,第一类,临界值是确定的(Sharp),即在临界值一侧的所有的观测点都接受了处置,反之,在临界值另一侧的所有观测点都没有接受处置。

此时,接受处置的概率从临界值一侧的0跳转到另一侧的1;临界点是模糊的(Fussy),即在临界值附近,接受处置的概率是单调变化的。

Hahn et al(2001)在一定的假设下,证明了无论是哪一类型的断点回归,都可以利用临界值附近样本的系统性变化来研究处置和其它经济变量之间的因果关系。

空间断点回归命令 stata

空间断点回归命令 stata

空间断点回归命令 stata
空间断点回归是一种在计量经济学中常用的分析方法,用于研究某个特定事件对某个变量的影响。

它可以帮助我们判断某个特定事件是否对变量产生了显著的影响,以及影响的方向和大小。

在Stata中,进行空间断点回归分析可以使用命令"rdrobust"。

该命令可以帮助我们实现断点回归的估计和推断,提供了一系列功能,如断点回归模型的估计、断点位置的选择、断点效应的推断等。

使用"rdrobust"命令进行空间断点回归分析的步骤如下:
1. 导入数据:首先需要将需要分析的数据导入到Stata中,可以使用"import"命令或者直接在Stata界面中打开数据文件。

2. 创建变量:根据具体的研究问题,可以创建需要分析的变量,如自变量、因变量、断点变量等。

3. 运行命令:使用"rdrobust"命令进行空间断点回归分析。

命令的语法通常包括自变量、因变量和断点变量等参数。

4. 解释结果:通过命令的输出结果,可以解释分析的结果,如断点位置的选择、断点效应的推断等。

需要注意的是,在进行空间断点回归分析时,需要满足一定的假设条件,如断点位置的选择要合理,样本数据要足够等。

此外,还可以通过绘制图表等方式对分析结果进行可视化展示,以更好地理解
和解释分析结果。

空间断点回归分析是一种重要的计量经济学方法,可以帮助我们研究某个特定事件对变量的影响。

在Stata中,使用"rdrobust"命令可以方便地进行空间断点回归分析,并通过结果解释来判断事件对变量的影响是否显著。

stata断点回归结果解读

stata断点回归结果解读

stata断点回归结果解读引言:断点回归是一种常用的统计方法,用于研究自变量对因变量的影响是否存在阈值效应。

Stata是一款流行的统计软件,可以进行断点回归分析并得出相应的结果。

本文将介绍如何解读Stata断点回归的结果,以帮助读者更好地理解和应用这一方法。

一、断点回归模型的基本原理断点回归模型是一种非线性回归模型,它假设自变量对因变量的影响在某个阈值点发生突变。

在Stata中,我们可以使用命令"regress"来拟合断点回归模型,并通过"margins"命令计算出相应的边际效应。

二、断点回归结果的解读1. 断点位置的确定在进行断点回归分析时,首先需要确定断点的位置。

Stata提供了一种自动选择断点的方法,即"rdrobust"命令。

该命令可以根据数据的特征自动选择最佳的断点位置,并给出相应的结果。

在解读断点回归结果时,需要注意断点位置的确定是否合理,是否与实际情况相符。

2. 断点效应的解读断点回归结果中最重要的是断点效应的解读。

断点效应可以通过计算边际效应来得到。

边际效应表示因变量在自变量达到断点时的变化情况。

在Stata中,可以使用"margins"命令来计算边际效应。

通过观察边际效应的符号和大小,可以判断断点对因变量的影响方向和程度。

3. 断点回归的显著性检验在解读断点回归结果时,还需要进行显著性检验。

Stata提供了多种方法来进行显著性检验,如t检验、F检验等。

通过观察p值的大小,可以判断断点回归结果是否显著。

一般来说,p值小于0.05可以认为结果是显著的。

4. 断点回归的模型拟合度除了断点效应和显著性检验外,还需要考虑断点回归模型的拟合度。

在Stata中,可以使用R方值来评估模型的拟合度。

R方值越接近1,说明模型的拟合度越好。

通过观察R方值,可以判断断点回归模型的拟合程度。

三、断点回归结果的应用1. 确定政策效果断点回归方法常用于评估政策效果。

模糊断点回归的stata指令

模糊断点回归的stata指令

模糊断点回归的stata指令
模糊断点回归(FuzzyRegressionDiscontinuity,FRD)是一种用于估计因果效应的方法,它在某个阈值处对样本进行分组,然后对这些组别进行比较。

这种方法通常用于政策或政策变化的评估。

在Stata中进行FRD的实现需要使用rdrobust指令,该指令可以进行任意阶段的多项式拟合。

具体使用方法如下:
1. 导入数据:使用Stata中的import命令将数据导入到Stata 中。

2. 定义阈值:根据研究问题和数据特征,定义一个阈值变量。

3. 进行回归:使用rdrobust指令进行模糊断点回归分析。

指令的基本格式为:rdrobust y x, c(cutoff) kernel(triangle)
bw(0.05)。

其中,y表示因变量,x表示解释变量,cutoff表示阈值变量,kernel表示核函数类型,bw表示带宽,可以根据数据特征进行调整。

4. 结果分析:对回归结果进行检验和分析,包括残差分析、稳健性检验、拟合优度等。

通过上述步骤,可以在Stata中进行模糊断点回归分析,得出政策或政策变化对因变量的影响效应。

- 1 -。

RD方法

RD方法

RD方法(regression discontinuity design)什么是regression discontinuity design下面将用一篇文章来介绍:如何理解「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短年」7月8日发表在《美国国家科学院院刊》(PNAS)的一篇论文,向已经逐渐意识到空气污染危害的中国民众再次展现了残酷的现实:以淮河为界,烧煤供暖的中国北方地区空气污染水平高于中国南方,北方5亿居民因严重的空气污染,平均每人失去5年寿命。

这篇文章由清华大学的李宏彬、北京大学的陈玉宇和另外两位作者共同完成。

前两位完成了这篇论文的主要部分。

这个回答首先介绍他们的研究方法,再谈一谈研究者和媒体对这篇文章的引申。

科学家如何得出「使用燃煤取暖中国5亿北方居民预期寿命将缩短年」这个结论的首先要说的是这篇文章使用的RD方法(regression discontinuity design),即断点回归方法。

断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。

在早期的研究中,要识别一个处理(Treatment)的效果,我们必须拥有随机性,比如两组随机分开的小白鼠,一组加上某种处理,一组没有处理,最后观察两者的区别。

为什么我们那么需要随机性呢因为研究的基础需要几组十分类似的群体,他们的任何特征都服从一个相同的分布,无论是性别、年龄、教育、健康程度……这样,我们才能确定几组对象之间出现的差别是来自于实验处理的差异,而非某些个人特征。

从一个大样本中严格随机抽取的样本,正好满足这样的同分布假设。

但对于政策研究来说,我们不可能找到这样随机分开的两组人,而且也无法用实验的方法来获得结果——你能将随机分开的100人放在干净空气中,将另外100人放在肮脏空气中并观察一段时间吗一些研究者面对这种缺乏随机性的情况,采用了增加控制变量的方式。

比如,把性别年龄教育健康程度全部放进回归式中,然后声称,两组人之间由于性别年龄教育健康的不同而造成的差别都已经去掉了,剩下的就是这个政策的效果了。

断点回归形象化解释

断点回归形象化解释

断点回归形象化解释
断点回归是一种用于分析数据中断点或阈值的统计方法。

它在统计学和经济学中被广泛应用,用于捕捉变量之间在某个临界点处发生显著变化的情况。

以下是一个形象化的解释来说明断点回归:
假设我们要研究某个城市的温度对空调销量的影响。

我们收集了一段时间内的温度和对应的空调销量数据。

我们期望找到一个关系模型,能够描述温度对销量的影响。

在进行简单线性回归时,我们将温度作为自变量,销量作为因变量,拟合一条直线来表示二者之间的关系。

然而,我们可能会发现这个简单的线性关系并不能很好地解释所有的数据点,有些数据点明显与直线的趋势不符。

这时,我们可以考虑使用断点回归来更准确地描述温度对销量的影响。

我们假设温度对销量的关系在某个特定温度点发生了突变,这个温度点就是我们要寻找的断点。

我们继续分析数据,将温度作为自变量,销量作为因变量,并在一定范围内施加断点。

我们用两条不同的直线来拟合数据:一条拟合下断点之前的数据,另一条拟合上断点之后的数据。

通过计算和比较两个直线对应的拟合优度等统计指标,我们可以找到最佳的断点位置,它能够使整个模型的解释能力最大化。

断点位置处,我们就找到了温度对销量影响发生显著变化的点。

这样,通过断点回归,我们可以获得一个更加准确和适应实际数据情况的模型,进一步理解和解释变量之间的关系以及在特定点上的突变现象。

《因果推断实用计量方法》大学教学课件--第12章-断点回归

《因果推断实用计量方法》大学教学课件--第12章-断点回归

方法,虽然它使用的是观测数据而非真正的实验数据。
断点回归的数据要求
断点回归的数据要求一
断点回归的数据需要包含3个基本变量
✓ 配 置 变 量 ( Assignment Variable ) , 也称作 驱 动 变 量 ( Forcing Variables,
Running Variables):配置变量是个体的一个连续特征变量,匹配变量的值
• 接受治疗的平均潜在健康状况 1 和收入关系的函数为
1 =
• 未接受治疗的平均潜在健康状况 0 和收入关系的函数为
0 =
• 给定收入水平,病人平均治疗效果为
τ = 1 − 0 = −
• 本文利用美国企业成立工会投票事件来估计工会对债券价格的因果影响。当
成立工会投票结果公布后,企业的债券价格会对投票结果做出反映,RDD的方
法是通过比较工会得票率在50%左右企业的债券价格变化来估计工会的影响。
变量
• 配置变量(vote_for_share):支持成立工会的得票率;
• 断点:得票率为50%。如果支持工会成立得票率大于或等于50%,企业必须成
(5.2) 局部多项式回归(rdrobust)
多项式次数
带宽选择
权重选择
RDD运用实例
文章背景
• 文章引用:Murillo Campello, Janet Gao, Jiaping Qiu, and Yue Zhang, "Bankruptcy
and the Cost of Organized Labor: Evidence from Union Elections," Review of
(1) , ≤ 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

断点回归(RD)学习手册断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。

Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。

由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。

如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。

因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。

Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。

此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。

Hahn et al(2001)提供了断点回归在计量经济学理论基础。

目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。

参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。

断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。

一般将该连续变量X称为分组变量 (assignment variable) 。

在进行断点回归(R D)设计时,一般有如下步骤:▍1、参考变量分布连续性检验/检验内生分组这里检验内生分组,即主要检验配置变量,其实就是R D中个体是否将自行进入断点两侧,决定是否进入实验的,并是否存在某种跳跃性的变化。

如果存在内生分组,个体将自行进入实验,导致在断点两侧的分布不均匀,这样分组变量x的密度函数f(x)在x=c处不连续,出现左右极限不相等的情况。

Mc Crary(2008)提出了一种核密度函数的检验方法(命令是DCdensity,介绍见下述操作),将参考变量划分成不同的区间并计算各区间中的个体数量,如果个体能够操纵参考变量,我们将能观测到断点左右个体数量有较大差别,比如很多个体通过操纵到了断点的右侧,那么,在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量,利用带宽选择和曲线拟合方法, 可以检验在断点处c是否存在跳跃 。

▍2、检查为精确断点回归还是模糊断点回归分析检验处理变量是否完全由“某连续变量是否超过某一断点”所决定,如果个体被处理的概率从0跳跃为1,即为精确断点回归,如果个体被处理的概率从 a跳跃为 b,0<a<b<1,则为模糊断点回归。

▍3、图形分析画出结果变量与参考变量之间的关系图,如果是模糊断点,再画出原因变量与参考变量的关系图,呈现结果变量和原因变量在断点处行为,为断点回归设计提供理论支撑。

▍4、检验结果对不同带宽、不同多项式次数的稳健性设置不同带宽,通过选择最优带宽,再检验并选择相对应的模型。

stata 断点回归命令有相关的操作选项。

另外还有图形选择(在最优带宽处画线),可以考虑加协变量进行选择。

▍5、检验其他影响结果变量的因素(协变量),在断点处是否存在跳跃检验协变量在断点处是否存在跳跃,若是存在跳跃,说明该协变量的条件密度函数在断点处不是连续的,需要剔除。

若将存在跳跃的协变量剔除。

则需要重新选择最优带宽再重新进行断点回归分析。

▍5、显著性检验模型估计完成后,可以进行下列模型设定检验,以判断估计结果的稳健性(见赵西亮编著的《基本有用的计量经济学》)(1)协变量连续性检验,也称为伪结果检验( pseud o o ut co me)。

以协变量 作为伪结果,利用与前面相同的方法,检验相应的R DD估计量是否显著,如果 显著说明这些协变量不符合连续性假设,上文的R DD估计量可能存在问题。

(2)参考变量分布连续性检验,如果参考变量分布连续,意味着在断点处个体没有精确操纵参考变量的能力,局部随机化假设成立,从而保证断点附近左右样本能够代表断点处的总体。

(此处与检验内生分组一致)(3)伪断点检验( pseud o c ut off p o int)。

在参考变量的其他位置,比如断点 左右两侧中点位置作为伪断点,利用同样的方法估计R DD估计量,我们知道在 伪断点干预效应为零,如果发现伪断点的R DD估计量不为零,则说明我们的R DD设计可能有问题,可能混杂了其他未观测因素的影响,得到的因果效应可能是由其他未观测混杂的跳跃造成的,而不完全是干预的影响(4)带宽选择的敏感性检验。

选择不同的带宽对R DD估计量进行重新估 计,检验估计结果是否有较大的变量,如果差异较大,尤其是影响方向有变化说明R DD设计可能有问题。

上述显著性检验其实在前面进行分析时候已经部分有所提及需要进行检验的。

在进行断点回归(RD)设计时,样本数据需要满足一定的前提条件,比如,断点两侧除断点(Cutoff)处理效应外,其他因素需保持平衡(滑)以及不存在Selective Sorting。

而断点回归的前提假设:Wi的条件密度在X=c0处连续。

另外进行断点分析前,需要首先考察变量分组变量是否有内生分组的存在,意思就是样本个体事先知道分组原则等信息,然后通过自身选择来选择是否进入处理组,这样的内生分组将导致断点回归失效。

本文提供一种基于断点两侧样本分布密度来进行检验的方法:McCrary(2008)。

它主要通过考察分布变量的密度函数在断点处是否连续进而实现检验样本是否存在选择性偏误,主要分为两步检验:第一步,将分组变量在断点处两侧尽量等距离细分,并计算每组的标准化频率;第二步,使用三角核估计进行局部线性回归,并计算密度函数估计值,然后检验密度函数在断点c处是否连续。

McCrary(2008)可以通过非官方命令DCdensity来实现,其中DC表示Discontinuity,可以来检验分组变量的密度函数在断点处是否连续。

依此判断,是否存在内生分组问题。

该命令的下载地址为:https:///~jmccrary/DCdensity/然后将该命令的DCdensity.ado下载安装或者复制到C:\ado\plus,Mac 系统的需要自己sysdir查询外部命令安装路径,自行复制下载。

命令语法格式为:DCdensity assign_var,breakpoint(#) generate(Xj Yj r0 fhat se_fhat) graphname(filename)其中,assign_var 为分组变量,必选项breakpoint(#)用来指定断点位置,generate(Xj Yj r0 fhat se_fhat)用来指定输出变量名,graphname用来命名指定密度函数图。

操作应用如下:本文使用断点回归命令rd所系统自带的数据进行演示,该案例考察美国国会选区如果有一名民主党众议员对该选区联邦指出的影响。

传统上,民主党倾向于大政府,故一个选区如果有民主党众议员,则该议员可能为该选区争取更多的联邦支出。

然而,直接对二者进行回归可能存在遗漏变量问题或双向因果问题。

为此,使用民主党候选人的得票率作为分组变量,以0.5作为断点(在两党政治中,得票率大于或等于0.5则当选,反之落选),进行断点回归。

数据集votex.dta,其中结果变量为lne(选区联邦开支的对数)、分组变量为d(民主党候选人得票率减去0.5)、处理变量win(民主党候选人当选),以及一系列协变量。

数据描述性分析结果如下:检验分组变量的密度函数是否在断点处不连续。

可以看出断点两侧密度函数估计值的置信区间有很大部分重叠,所以断点两侧的密度函数不存在显著差异,检验结果为不存在内生分组,可以继续进行断点回归分析。

三.断点回归模型选择:精确断点or模糊断点按照在断点处个体得到处理效应概率的变化特征可以分为两种类型(即断点回归可以分为两种类型):一种类型是精确断点回归设计(sharp regression discontinuity design, 以下简称SRD) , 其特征是在断点(也就是上面所说的临界点) X=c处, 个体接受政策干预的概率从0跳跃到1;另一种是模糊断点回归设计(fuzzy regression discontinuity, 以下简称FRD) , 其特征是在断点X=c处, 个体接受政策干预的概率从a变为b, 其中a≠b,0<a<b<1。

判断是精确断点回归还是模糊断点回归?g ranwin=(d>=0)tab ranwin win此处,分组变量d的断点是0,生成新虚拟变量ranwin,若ranwin与处理变量win完全相等,则属于精确断点回归,否则属于模糊断点回归。

此处,是精确断点回归。

由于断点回归在操作上有不同选择,因此在时间上,一般同时汇报如下各种情形,然后以保证结果的稳健性(见陈强编著的《高级计量经济学及Stata应用》(第二版)①分别汇报三角核与矩形核的局部线性回归结果(后者等价于线性参数回归)②分别汇报使用不同带宽的结果(比如最优带宽及其二分之一0.5或者两倍带宽2)③分别汇报(不)包括协变量的情形④进行模型设定检验,包括检验分组变量、协变量的条件密度在断点处是否连续。

断点回归的基本命令是rd,另外,还有一些其他命令,例如rdrobust、rdlocrand、rddensity等等,本文主要介绍rd。

首先我们输入如下命令进行安装:ssc install rd, replace该命令的基本句式如下:rd y d x, z0 (real) strineq mbw (numlist) graph bdep oxline kernel (rectangle)其中mbw(numlist) 用来指定最优带宽的倍数,默认值为mbw(50 100 200)z0(real) 用来指定断点的位置,默认值为z0(0),即断点为原点,如果此处省去D,则为精确断点回归,并根据分组变量X来计算处理变量graph 根据每一带宽,画出局部线性回归图bdep 根据画图来考察断点回归估计量对带宽的依赖性oxline表示在此图的默认带宽上画出一条直线,以便识别kernel(rectangle)表示使用均匀核(矩阵核),默认使用三角核covar(varlist) 表示用来指定加入局部线性回归的协变量x(varlist) 表示检验这些协变量在断点处是否存在跳跃(估计跳跃值和显著性)▍1、回归分析首先直接进行线性回归上述回归分析结果,虽然win表示当选了,会增加lne的支出,但是不显著▍2、选择最优窗宽:设置不同带宽,并通过图形选择-从默认的3种窗宽mbw(100,50,200)中,选一个最优的rd lne d, gr bdep oxlinembw(50),即最优窗宽的0.5倍mbw(100),即最优窗宽的1倍mbw(200),即最优窗宽的2倍最优带宽也可以直接选择默认的带宽以及三角核进行断点回归,命令为rd lne d, gr mbw(100)上面结果说明拥有民主党派候选人当选的选区,并不能显著的增加联邦政府开支也可以加入变量进行断点回归,命令为rd lne d, mbw(100) cov(i votpop black blucllr farmer fedwrkr forborn manuf unemplyd union urban veterans)进行断点回归,还需要对其进行检验,检验协变量在断点处的条件密度是否存在跳跃五.模糊断点回归操作应用模糊断点回归现在生成一个新的处理变量randwin,使得randwin不完全由分组变量d 所决定。

相关文档
最新文档