使用地理边界进行断点回归设计
地理加权回归及其在土壤和环境科学上的应用分析

地理加权回归及其在土壤和环境科学上的应用分析摘要:随着科技日新月异的发展,近年来,地理加权回归技术在土壤和环境科学领域应用的越来越广泛。
这种技术手段由于在线性回归上考虑了数据资料的空间区域需求,与常规的最小二乘回归技术相比,在空间非平稳特点的分析上具有很明显的作用。
本文基于地理加权回归技术基本原理的分析,揭示了在土壤和环境科学应用中存在的一些薄弱环节,并对其未来应用前景进行了阐述。
关键词:地理加权回归;土壤与环境科学;应用分析一、前言近年来,随着地理加权回归技术应用领域的不断加大,特别是理论研究的不断推陈出新,地理加权回归技术当中存在的一些不足,也在不断的得到改变与完善,使得未来的应用前景十分乐观,加强对地理加权回归及其在土壤环境科学上的应用进行分析与探讨,为提高我国农业的快速发展有着重要的作用。
二.地理加权回归技术概述目前随着现代农业快速发展的客观需求和生态环境保护重视程度的越来越高,基于土壤和环境特征的事先预测性制图也变得越来越必要,并且越来越发挥了独特的功能作用。
不过很多技术人员过于强调制图的质量要求,往往在农田样本的采集数量上比较多,并且做了很大规模的工作,造成了人力资源的严重浪费,而且也增加了工程作业成本,失去了经济和社会效益的最大化,尤其是遇到一些比较复杂的地理条件以及地处偏僻的地方,更是比较困难。
好在目前很多土壤和环境科学领域,都普遍存在着一些地形地貌、天气条件、自然景致和人居活动等情况,所以在数据资源的采集处理上相对比较便利,这就给线性回归分析技术的应用提供了便捷条件。
但是由于在以往采用的是传统的最小二乘法多元线性回归方法,虽然在理论和实践上相对比较成熟,在土壤和环境属性分析上应用的比较普遍,但是由于这种技术方法对于不是很平稳的空间信息分析上具有一定的局限性,随着环境保护治理要求的越来越高,以及土地资源利用越来越多和农业发展水平持续增长的背景下,便产生了一种新的局部回归技术,也就是在回归模型中引入了信息数据空间结构的地理加权回归技术,特别是在土壤和环境科学制图环节应用的已经非常广泛。
模糊断点回归 标准误

模糊断点回归标准误
模糊断点回归(fuzzy regression discontinuity)是一种用
于处理因果推断的统计方法,通常用于评估一个政策或干预措施对
某个结果变量的影响。
在模糊断点回归中,我们关注的是一个连续
的处理变量(通常是一个阈值变量),当这个处理变量超过或低于
某个阈值时,会触发不同的处理效应。
而标准误则是用来衡量回归
系数估计的不确定性的指标。
在模糊断点回归中,标准误扮动通常是通过基于克服异方差性
的方法进行估计的。
由于在模糊断点回归中,处理变量的阈值附近
可能存在非常大的处理效应,因此标准误的估计需要特别小心。
标准误的大小反映了回归系数估计的精确程度,较小的标准误
意味着估计值相对较为可靠,而较大的标准误则表示估计值的不确
定性较高。
在模糊断点回归中,我们通常会关注处理效应的显著性,而标准误的大小会直接影响到对处理效应显著性的判断。
除了标准误的大小,模糊断点回归中还需要考虑的是平滑参数
的选择、核密度估计方法等。
这些因素都会影响到最终的结果和结论。
因此,在进行模糊断点回归分析时,需要综合考虑这些因素,
以确保分析结果的准确性和稳健性。
总的来说,模糊断点回归中的标准误是一个重要的指标,它反映了回归系数估计的不确定性,需要在分析中进行准确估计并加以考虑。
混合地理加权回归方法

混合地理加权回归方法说实话混合地理加权回归方法这事,我一开始也是瞎摸索。
我当时就知道地理加权回归是个挺有用的东西,能考虑到地理位置对变量关系的影响。
那混合地理加权回归方法肯定更厉害,我就一头扎进去研究了。
我刚开始就像没头的苍蝇,看书本上那些复杂的公式,什么权重啊、距离啊之类的概念,看得我晕头转向。
我试着按照书本上的经典例子一步一步做,就像跟着菜谱做菜一样,但是这里头变量好多啊,我的计算老是出错。
比如说在设定空间权重矩阵的时候,我一开始都没理解它到底是怎么确定每个地理位置的权重关系的,就乱设一通,结果算出来的结果根本不靠谱,全是混乱无意义的数据。
后来呢,我就去找了一些已经做好的类似研究案例,看看人家是怎么操作的。
这就好比看别人炒菜的时候放多少盐、多少油一样。
我发现人家在处理数据之前,对数据进行了好多清理和预处理工作,不像我上来就直接套公式计算。
我也学着人家,花费大量时间对我的数据进行清理,把那些错误的数据、有缺失值的数据都整理好了。
可在计算过程中还是会出问题。
我又深入研究权重那部分,我这时候才有点恍然大悟的感觉,混合地理加权回归的关键在于合理确定混合的那部分呀。
我试过好几种方式去确定这个混合比例,有时候就凭感觉,有时候又根据一些经验规则,但是都不太准确。
我意识到我还是需要更深入地理解这个方法背后的数学原理。
于是我又重新死磕那些书本里的理论知识,重新推导公式,这个过程很痛苦,就像爬山很累,但山顶风景又诱惑着你继续爬。
经过长时间的摸索,我分享一点我的心得。
要做好混合地理加权回归,数据的准备绝对不能马虎,就像盖房子打基础一样,基础不牢地动山摇。
还有就是不要害怕那些公式,一点点去理解。
虽然我现在也不敢说我完全掌握了这个混合地理加权回归方法,但这一路摸索下来,我至少知道了该从哪些方面去不断努力完善自己对这个方法的运用。
要是想在这个方法上个有所建树,多参与实际项目,多遇到点问题然后解决问题,那才是最有效的提升途径。
第3章——第2节 回归分析《计量地理学》(华东师大,徐建华)

一元线性回归模型 多元线性回归模型 非线性回归模型的建立方法
一、一元线性回归模型
定义:假设有两个地理要素(变量)x和 y,x为自变量,y为因变量。则一元线性
回归模型的基本结构形式为
y a bx
式中:a和b为待定参数;
(3.2.1)
1,2,, n 为各组观测数据的下标;
i 1
i 1
i 1
称为回归平方和。
③ 统计量F
F U Q n2
(3.2.10)
④ F越大,模型的效果越佳。统计量F~F(1,n-2)。
在显著水平α 下,若F>Fα ,则认为回归方程效果在此 水平下显著。一般地,当F<F0.10(1,n-2)时,则认为方 程效果不明显。
二、多元回归模型
回归模型的建立 ① 多元线性回归模型的结构形式:
④ 对于双曲线 1 a b,令 y 1 , x ,1 转化为直
线形式:
y
x
y a bx
y
;
x
⑤ 对于S型曲线
y
1 a bex
, 令y
1 y
,
x
e x,可
转化为直线形式: y a bx ;
⑥对于幂乘积:y
dx11
x 2 2
x
y 0 1 x1 2 x2 k xk
例:下表给出了某地区林地景观斑块面积(Area) 与周长(Perimeter)的数据。下面我们建立林 地景观斑块面积A与周长P之间的非线性回归模 型。
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
为随机变量。
arcgis自然断点法原理

arcgis自然断点法原理ArcGIS自然断点法原理自然断点法(Natural Breaks)是一种常用的数据分类方法,广泛应用于地理信息系统(GIS)软件中。
ArcGIS作为一款常用的GIS 软件,也提供了自然断点法的功能,用于将连续型数据分成若干个类别,以便更好地展示和分析数据。
自然断点法的原理是基于数据的分布特征来确定数据的分类。
它通过计算数据之间的差异性,将数据分成一组相对均匀的类别。
与等间距法和等比例法不同,自然断点法不依赖于事先设定的间隔或比例,而是根据数据本身的特征进行分类。
自然断点法的具体步骤如下:1. 数据准备:首先,需要准备待分类的数据。
这些数据可以是连续型数据,如气温、人口密度等,也可以是其他类型的数据,如评分、指数等。
2. 数据分布分析:接下来,需要对数据的分布进行分析,了解数据的特征和分布情况。
可以使用直方图、散点图等方式来展示数据的分布。
3. 断点计算:根据数据的分布特征,使用自然断点法对数据进行分类。
自然断点法使用的是Jenks自动分级算法,它通过最小化类别内部的差异性和最大化类别间的差异性,找到最佳的分类断点。
4. 分类结果展示:分类完成后,可以将结果进行可视化展示。
ArcGIS提供了丰富的地图制作和数据展示功能,可以根据需要将数据分布情况以不同的颜色或符号表示出来。
自然断点法的优点在于能够更好地反映数据的分布特征,使得分类结果更具有可解释性。
同时,自然断点法还可以避免等间距法和等比例法中可能出现的分类不均匀的问题。
然而,自然断点法也有一些限制。
首先,它对数据的分布要求较高,适用于呈现明显分组特征的数据,对于分布较为均匀的数据效果可能不如其他方法。
其次,自然断点法的分类结果可能受到极端值的影响,需要根据具体情况进行调整。
因此,在使用自然断点法进行数据分类时,需要根据数据的特点和分布情况选择合适的分类方法。
同时,还需要对分类结果进行进一步的分析和解释,以确保分类的合理性和准确性。
地理加权回归和多层级回归模型-概述说明以及解释

地理加权回归和多层级回归模型-概述说明以及解释1.引言1.1 概述地理加权回归和多层级回归模型是两种常用的回归分析方法,它们在解决空间数据分析和多层次数据分析问题上具有重要的应用价值。
地理加权回归模型考虑了空间数据之间的相互依赖关系,能够更好地反映地理位置对变量之间关系的影响。
而多层级回归模型则可以有效地处理多层次数据结构,揭示不同层次之间的变量关系。
本文将介绍这两种回归模型的原理、方法以及应用案例,并对它们的优缺点进行比较和分析,以帮助读者更好地理解和应用这些方法。
1.2文章结构1.2 文章结构本文将主要分为三个部分,即引言、正文和结论。
在引言部分,将会对地理加权回归和多层级回归模型进行简要介绍,并说明本文的目的和结构。
接着,在正文部分,将详细介绍地理加权回归模型和多层级回归模型的原理和方法,并结合实际应用案例进行分析和讨论。
最后,在结论部分,将对地理加权回归和多层级回归模型进行总结,比较分析它们的优缺点,以期为读者提供对这两种模型的全面了解。
1.3 目的2.正文2.1 地理加权回归模型地理加权回归模型是一种在回归分析中考虑地理位置信息的统计方法。
它基于地理空间数据的空间自相关性,通过引入地理权重矩阵来修正传统的回归模型,从而提高模型的拟合度和预测准确性。
2.1.1 原理和方法地理加权回归模型通过给每个样本赋予不同的权重,这些权重是基于样本之间的地理距离而不是传统的相似性度量。
通常情况下,地理加权回归模型采用距离衰减函数来计算样本之间的相似性,从而确定权重大小。
常用的距离衰减函数包括指数衰减函数、高斯衰减函数等。
在地理加权回归模型中,地理位置信息被视为一个重要的解释变量,与其他自变量一起用来拟合回归方程。
通过考虑地理位置的影响,模型可以更准确地捕捉到空间相关性和异质性,从而提高模型的预测能力。
2.1.2 应用案例地理加权回归模型在地理信息科学、城市规划、环境科学等领域都有广泛的应用。
例如,在城市规划中,可以利用地理加权回归模型来研究城市发展与不同地理要素之间的关系;在环境科学中,可以通过地理加权回归模型来分析空气质量或水质的空间分布规律。
RDD断点回归,Stata程序百科全书式的宝典

RDD断点回归,Stata程序百科全书式的宝典断点回归设计RDD是当前最热门的因果推断计量⽅法,最主要的原因在于它的透明性和强因果识别性,⾥⾯的每⼀步都可以成功运⾏出来,若需要do ⽂件和数据dta的请进⼊计量经济圈社群直接提取(⽂末)。
gen y = outcome // 结果变量gen d = running>0 // 处理变量(0/1种类)gen v = running // 分配变量或参考变量gen vd = v*d // 交互项local i=1forvalues i=2/4 {gen v`i'=v^`i'gen v`i'd=v`i'*d} // 产⽣分配变量的三次⽅、四次⽅和他们与处理变量的交互项qui tab year, gen(dyear) // 如果在⾯板数据中,想要控制年份可以产⽣虚拟变量gen pop2 = pop^2 // 将来⽤在回归中作为协变量,pop的平⽅项————————————————**************************************图形识别,提供三种⽅式***************************************1.结果变量是不是在断点处跳跃---------global sizebin 0.2 //根据你的那个running variable选择箱体,这个你⾃⼰设定参数gen bin=floor(v/$sizebin)gen midbin=bin*$sizebin+0.5*$sizebinbys bin: egen mean=mean(y)reg y d v v2 vd v2d, robustpredict fitpredict fitsd, stdpgen upfit=fit+1.645*fitsd // 产⽣置信区间的上边界gen downfit=fit-1.645*fitsd // 产⽣置信区间的下边界preserve // 第⼀种⽅式绘制断点回归图twoway (rarea upfit downfit v, sort fcolor(gs12) lcolor(gs12)) ///(line fit v if v<0, sort="" lcolor(green)="" lwidth(thick))="">(line fit v if v>0, sort lcolor(red) lwidth(thick)) ///(scatter mean midbin, msize(large) mcolor(black) msymbol(circle_hollow)), ///ytitle('') xtitle('treatment, X (cutoff: X=0)') xline(0, lcolor(black)) ///legend(off) xlabel(-1(0.2)1) title('policy implementation')graph copy all, replacerestorecmogram y v,cut(0) scatter lineat(0) qfitci // 第⼆种⽅式绘制断点回归图形rdplot y v, cut(0) nbins(10) // 第三种⽅式绘制断点回归图/**通过图形识别,我们发现在断点处结果变量y发⽣了跳跃**/———————————————*********************************估计结果,使⽤三种⽅式*************************************1. ⾮参数估计--------------rdrobust y v,c(0) kernel(uni) bwselect(mserd) all // 使⽤rdrobust进⾏的⾮参数估计rdrobust y v, c(0) kernel(tri) bwselect(mserd) all // 这⾥使⽤的是triangular密度估计rdrobust y v, c(0) kernel(epa) bwselect(mserd) all // 这⾥使⽤的是epanechnikov密度估计**2. ⾮参数估计----------------------rd y v, mbw(50 100 200) gr z0(0) kernel(tri) // 这个根据最优带宽计算了三个相应带宽,感觉⽐较⽅便rd y v, mbw(50 100 200) gr z0(0) kernel(rec) // 这⾥使⽤的是rectangle密度估计**3. 参数估计:局部线性回归------rdbwselect y v, c(0) kernel(uni) bwselect(mserd) // 选择最优带宽preservekeep if v>= -0.216 & v<= 0.216 ="">eststo x1: reg y d, robust // ⾯板的话选择xtreg,如果是2sls选择xtivregreeststo x2:reg y d##c.v, robusteststo x3:reg y d##c.(v v2), robust // 局部线性回归法,选择2阶多项式eststo x4:reg y d##c.(v v2 v3), robust // 局部线性回归法,选择3阶多项式eststo x5:reg y d##c.(v v2 v3 v4), robust // 局部线性回归法,选择4阶多项式esttab x1 x2 x3 x4 x5 using y.rtf, star(* .1 ** .05 * .01) nogap nonumber replace ///se(%5.4f) ar2 aic(%10.4f) bic(%10.4f) //输出结果到rtf格式restore*********************************稳健性检验***********************************1. 加⼊协变量后看看回归结果是不是依然显著-----*1.1 ⾮参估计加⼊协变量rd y v, cov(pop pop2) mbw(50 100 200) z0(0) kernel(tri) // 加⼊协变量pop和pop2*1.2 参数估计加⼊协变量preserveeststo x11: reg y d pop pop2, robust // 加⼊协变量pop和它的平⽅项eststo x21:reg y d##c.v pop pop2, robusteststo x31:reg y d##c.(v v2) pop pop2, robusteststo x41:reg y d##c.(v v2 v3)pop pop2, robusteststo x51:reg y d##c.(v v2 v3 v4) pop pop2, robustesttab x11 x21 x31 x41 x51 using y1.rtf, star(* .1 ** .05 * .01) nogap nonumber replace ///se(%5.4f) ar2 aic(%10.4f) bic(%10.4f) //输出加⼊协变量后的结果到rtf格式restore————————————————**2.检验其中的协变量是不是在断点处连续-------**2.1 绘制图形检验⼀下协变量pop是不是连续的cmogram pop v,cut(0) scatter lineat(0) qfitci // 第⼆种⽅式绘制断点回归图形rdplot pop v, cut(0) nbins(10) // 第三种⽅式绘制断点回归图**2.2 使⽤估计⽅法估计出来具体系数看显著不** ⾮参数估计-----------------** ⾮参数估计-----------------rdrobust pop v,c(0) kernel(uni) bwselect(mserd) all // 使⽤rdrobust进⾏的⾮参数估计** 参数估计:局部线性回归------rdbwselect pop v, c(0) kernel(uni) bwselect(mserd) // 最优带宽的选择preservekeep if v>= -0.175 & v<= 0.175 ="">eststo xa:reg pop d, robusteststo xb:reg pop d##c.v, robust // ⽤协变量作为伪结果变量,进⾏断点回归,选择1阶多项式eststo xb:reg pop d##c.(v v2), robust // ⽤协变量作为伪结果变量,进⾏断点回归,选择2阶多项式eststo xc:reg pop d##c.(v v2 v3), robust // ⽤协变量作为伪结果变量,进⾏断点回归,选择3阶多项式eststo xd:reg pop d##c.(v v2 v3 v4), robust // ⽤协变量作为伪结果变量,进⾏断点回归,选择4阶多项式restoreesttab x11 x21 x31 x41 x51 using m.rtf, star(* .1 ** .05 * .01) nogap nonumber replace ///se(%5.4f) ar2 aic(%10.4f) bic(%10.4f) //输出加⼊协变量后的结果到rtf格式/**结果显⽰pop回归⽅程不是显著的,所以rdd是适⽤于此的**/————————————————**3.Mccracy检验:操纵running variable检验---net install DCdensity, from('http://www.czxa.top/DCdensity') // 安装McCrary检验命令*注意:以下这个关于分配变量在断点处跳跃的操纵检验会随着下⾯的binsize和bandwidth设置⽽不同的preserveDCdensity v, breakpoint(0) generate(Xj Yj r0 fhat se_fhat) b(0.2) h(0.216) // McCracy testgen upfhat=fhat+1.645*se_fhatgen lowfhat=fhat-1.645*se_fhattwoway (rarea upfhat lowfhat r0 if r0<0, sort="" fcolor(gs12)="" lcolor(gs12))="">(rarea upfhat lowfhat r0 if r0>0, sort fcolor(gs12) lcolor(gs12)) ///(line fhat r0 if r0<0, lcolor(red))="" (line="" fhat="" r0="" if="" r0="">0, lcolor(blue)) ///(scatter Yj Xj if Yj>0, mcolor(gs4) msymbol(circle_hollow)), ///ytitle('Density') xtitle('') xline(0) legend(off)restoregen t= .079111002/.143889525 // 产⽣t值,这个需要你根据系数提取出来display 2*ttail(2651, t) // 得到p值,2651是⾃由度/**可以看出在5%显著性⽔平下实际上Mccrary检验是通不过的,证明没有操纵**/** 把邻近断点处的那些密度分布放⼤⼀些看,这样可以更能清楚地看见是不是有操纵—-preserveDCdensity v, breakpoint(0) generate(Xj Yj r0 fhat se_fhat) b(0.2) h(0.216) // McCracy testlocal breakpoint 0local cellmpname Xjlocal cellvalname Yjlocal evalname r0local cellsmname fhatlocal cellsmsename se_fhatdrop if `cellmpname' < -1="" |="" `cellmpname'=""> 0.5 // 把⼩于-1和⼤于0.5的部分都去掉drop if `evalname' < -1="" |="" `evalname'=""> 0.5tempvar hiquietly gen `hi' = `cellsmname' + 1.96*`cellsmsename'tempvar loquietly gen `lo' = `cellsmname' - 1.96*`cellsmsename'gr twoway (scatter `cellvalname' `cellmpname', msymbol(circle_hollow) mcolor(gray)) /// (line `cellsmname' `evalname' if `evalname' < `breakpoint',="" lcolor(black)="" lwidth(medthick)) =""> (line `cellsmname' `evalname' if `evalname' > `breakpoint', lcolor(black) lwidth(medthick)) /// (line `hi' `evalname' if `evalname' < `breakpoint',="" lcolor(black)="" lwidth(vthin)) ="">(line `lo' `evalname' if `evalname' < `breakpoint',="" lcolor(black)="" lwidth(vthin)) ="">(line `hi' `evalname' if `evalname' > `breakpoint', lcolor(black) lwidth(vthin)) ///(line `lo' `evalname' if `evalname' > `breakpoint', lcolor(black) lwidth(vthin)), ///(line `lo' `evalname' if `evalname' > `breakpoint', lcolor(black) lwidth(vthin)), /// xline(`breakpoint', lcolor(black)) legend(off)restore——————————————** 4.安慰剂检验-----------------------**4.1 改变断点的位置-----------------rdplot y v if v<0, c(-0.25) ="">rdplot y v if v>0, c(0.25) // 将原来的断点0改变为新的断点0.25rdrobust y v,c(-0.25) kernel(uni) bwselect(mserd) all // 新断点处使⽤rdrobust进⾏的⾮参数估计rdrobust y v,c(0.25) kernel(uni) bwselect(mserd) all // 新断点处使⽤rdrobust进⾏的⾮参数估计/** 通过以上发现改变断点后不显著了,所以我们的断点选择是有道理的**/**4.2 改变带宽-----------------rdrobust y v,c(0) kernel(uni) h(0.1) all // 改变带宽为0.1rdrobust y v,c(0) kernel(uni) h(0.4) all // 改变带宽为0.4/** 通过以上发现改变带宽并没有影响其显著性,因此我们识别的因果效应很稳健**/。
arcgis自然断点法

arcgis自然断点法ArcGISESRI公司开发的一款非常强大的地理信息系统(GIS)软件。
ArcGIS是一种桌面GIS软件,它可以捕捉、存储、分析、管理、以及可视化地理信息数据。
ArcGIS拥有丰富而全面的可视化功能,所以其在地理空间分析中广受欢迎。
ArcGIS自然断点法是指将空间数据进行分割,其中每个分割段都有一个标识符,并且每个分割段和每个变量都有自己不同的变量范围,根据空间分割结果可以明确周围环境对变量值的影响。
在ArcGIS 中,自然断点法可以使用不同的统计技术,来计算每个断点的变量值。
ArcGIS自然断点法有三种不同的方法:帕累托(Pareto)法,贝叶斯预测法(Bayesian prediction)和非参数滤波(Non-parametric filtering)。
帕累托法的基本思想是,根据给定的自然断点,计算自变量和因变量之间的关系。
它会根据空间分割得到的小空间区域,来确定哪些断点参数被激活。
贝叶斯预测法旨在使用贝叶斯模型来计算每个自然断点上的因变量值。
它根据自变量和先验信息,来计算各个断点的值。
非参数滤波法是根据一组不完整的数据来估计因变量的变化,它考虑到相邻断点的影响,通过非参数滤波来实现。
这种方法与贝叶斯预测法相似,但它使用滤波技术,来估算每个断点上的因变量值,而不是使用贝叶斯模型。
ArcGIS自然断点法可以用来解决复杂的空间统计分析问题,它可以用来研究空间内部变量之间的相互关系,以及与空间位置有关的复杂的统计关系。
ArcGIS自然断点法与其他基于统计的方法相比,灵活性更大,可以从不同的角度来分析空间空间数据。
总之,ArcGIS自然断点法是一种通过分割空间数据来确定变量值关系的分析方法,它可以帮助用户更好地了解空间数据,并从中提取有价值的信息。
它还可以指导用户根据空间分析结果改进解决方案,从而实现更好的问题解决效果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
使用地理边界进行断点回归设计
断点回归设计(Regression Discontinuity Design)是近年来十分流行的一种因果识别方法,被广泛地应用于社会科学研究的诸多领域。
使用地理边界作为断点回归设计中断点的文章近年来也屡屡有佳作涌现,本期推送的是PennState University政治系副教授Luke J. Keele和密歇根大学政治系助理教授Rocio Titiunik发表在Political Analysis上的综述性文章Geographic boundaries as regression discontinuities。
题外话,推文作者注意到,其实早在Hahn等(2001)发表在Econometrica 上的经典文章之前,他们三位1999年就已经在一篇很古老的NBER工作论文中给出了断点回归设计的基本估计方法(NBER working paper No. 7131),可惜当时并未引起重视。
回到我们推送的文章,作者认为,地理断点回归(Geographic Regression Discontinuity,GRD)虽然其基本思想和估计方法与Hahn等(2001)给出的方法类似,但也有其自身独有的一些特点。
作者将其归纳为以下三个主要的方面:第一,地理断点作为一种多维度处理效应,对结果变量的影响也是多维度的,很容易同时引起其他变量的跳跃,从而使研究者比其他类型的断点回归设计更容易遭遇联立性偏误的问题。
第二,在GRD中,选用不同的距离度量方法将会影响断点回归中的处置变量(forcing variable或者assignment variable),进而对结果产生十分重大的影响。
第三,任何使用GRD的研究都将无法回避空间相关性的问题,而现有的研究通常没有加以考虑。
地理边界对样本的处理效应实际上是高维的,其是否受到处置由经度、维度(有时可能还包括海拔)共同决定。
地球上两点之间的距离是两点经度、维度和该点与地心距离的一个函数,通常我们不考虑地球是个不规则球体这一事实,并且认为相对于地球平均半径(6371千米),任何两点间的海拔差异都小得可以忽略不计。
上述函数可以近似地简化为只包含两点的经纬度,但仍然是由两个参数决定的。
为了将GRD与经典RDD文献中的估计方法联系起来,文献中一个十分常见的方法是使用与政策边界最短距离作为处置变量。
这一方法实际上是将高维处置效应化为低维处置效应,其背后隐含的一个加强后的假定是,沿着与政策边界最短距离相同的线移动时处理效应的大小不变,作者认为这一假定很大程度上是天真的。
Chen et al. (2013)发表于PNAS使用“秦岭-淮河”断点的著名文章采用了同样的处理方式,但这样处理可能会遭遇到较为严重的偏差,当政策边界越长时这一问题越严重。
当时MIT经济系(现在任教于哈佛经济系)助理教授萌妹Melissa Dell在她2010年发表于Econometrica的文章Mita中使用了另外一种方法来解决这一问
题,她在小样本中直接控制不同点的经度和维度;在更大的样本中,进一步控制经度的平方、维度的平方以及经度×维度。
为了解决长边界线时处置效应的异质性问题,Dell(2010)控制了许多沿政策线两侧分布区域的固定效应,从而使得其所估计的treatment effect被限定在一个较小的可比范围内。
作者认为这一方法
是不严谨的,同时批评了Dell使用某个地区地理位置(通常是某个区域的中心
点经纬度)来匹配个体层面数据的做法,认为这样会导致潜在的问题。
为此,作者开发了一套基于非参数方法的GRD估计策略和识别方法,其技
术细节详见原文。
由于地理断点通常是地理边界这一断点的特殊性,原则上可以在边界的每个点估计一个单独的处理效应(treatment effect),将每个点处的处理效应沿整条边界积分后,便可以得到我们想要估计的整条边界的处理效应。
这一方法与ImbensandZajonc (2011)提出的多元RDD方法相似,但又不完全相同,从而使得我们能够捕捉政策边界上任意一点的处理效应或者任何一段的加权平均。
作者在文章最后给读者提供了关于进行此类研究的一些建议。
首先,一定要确认研究设计尽量满足“个体无法准确操纵自身相对于政策边界位置”的条件。
为了防止联立性偏误的发生,尽量保证可能与政策边界不与其他一些重要的地理边界(比如行政区域边界、学区等)重合。
一旦重合,就要检验另外一些政策是否引发了与之直接相关的变量在边界两侧处置组和对照组间的跳跃。
为了解决空间相关性问题,研究者应当对政策之前的因变量在政策边界两侧的空间相关程度进行估计,正常情况下应有较高的正的空间相关系数。
处置效应本身显然会降低两侧的空间相关程度,如果数据支持这一预测,那么我们对空间相关性影响估计结果的担心将会大大减轻。
参考文献:
Chen, Y., Ebenstein, A., Greenstone, M., & Li, H. 2013. Evidence onthe impact of sustained exposure to air pollution on life expectancy fromChina’sHuai River policy. Proceedings of the National Academy of Sciences,
110(32),12936-12941.
Hahn, J., Todd, P., & Van der Klaauw, W. 1999. Evaluating the effectof an antidiscrimination law using a regression-discontinuity design (No.w7131). National bureau of economic research.
Hahn, J., Todd, P., & Van der Klaauw, W. 2001. Identification andestimation of treatment effects with a regression‐discontinuity design. Econometrica,69(1),
201-209.
Keele, Luke J., and Rocio Titiunik. 2014. “Geographic boundaries asregression discontinuities.” Political Analysis. mpu014.
Imbens, Guido W., and Tristan Zajonc. 2011. Regression discontinuitydesign with multiple forcing variables. Working Paper.
Dell, M. 2010. The persistent effects of Peru's mining mita. Econometrica,78(6), 1863-1903.。