张晓峒分位数回归讲义

张晓峒分位数回归讲义
张晓峒分位数回归讲义

第15章分位数回归模型

15.1 总体分位数和总体中位数

15.2 总体中位数的估计

15.3 分位数回归

15.4 分位数回归模型的估计

15.5 分位数回归模型的检验

15.6 分位数的计算与分位数回归的EViews操作

15.7 分位数回归的案例分析

以往介绍的回归模型实际上是研究被解释变量的条件期望。人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。

正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。在残差检验、回归系数检验、模型设定、预测等方面则基本相同。

分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。

另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。

15.1 总体分位数和总体中位数

在介绍分位数回归之前先介绍分位数和中位数概念。

对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:y小于等于y(τ)的概率是τ,即τ = P( y≤y(τ)) = F(y(τ))

其中P(?)表示概率,F(y(τ)) 表示y的累积(概率)分布函数(cdf)。

比如y(0.25) = 3,则意味着y≤ 3的概率是0.25。且有

y(τ) = F-1(y(τ))

即F(y(τ))的反函数是y(τ)。当τ=0.5时,y(τ)是y的中位数。τ= 0.75时,y(τ)是y的第3/4分位数,τ= 0.25时,y(τ) 是y的第1/4分位数。若y服从标准正态分布,y(0.5) = 0,y(0.95) =1.645,y(0.975) =1.960。

另外,如果随机变量y的分布是对称的,那么其均值与中位数是相同的。当其中位数小于均值时,分布是右偏的。反之,分布是左偏的。

对于回归模型,被解释变量y t对以X为条件的第τ分位数用函数y(τ)t|X表示,其含义是:以X为条件的y t小于等于y(τ)t|X的概率是τ。这里的概率是用y t对X的条件分布计算的。且有

y(τ)t|X= F-1(y(τ)t|X)

其中F(y(τ)t|X) 是y t在给定X条件下的累积概率分布函数(cdf)。则y(τ)t|X称作被解释变量y t对X 的条件分位数函数。而F '(y(τ)t|X)= f (y(τ)t|X)则称作分位数概率密度函数。其中F'(y(τ)t|X)表示F(y(τ)t|X)

对y (τ)t |X 求导。

15.2 总体中位数的估计

在介绍分位数回归之前,先来看中位数的估计和中位数回归。下面以连续变量为例介绍定理15.1。

定理15.1

连续变量用y 表示,其概率密度函数用f (y )表示,累计概率密度函数用F (y )表示,y 的中位数用y (0.5)表示,则y 与任一值α的离差绝对值的期望)(α-y E 以α = y (0.5) 时为最小。 证明: )(α-y E =dy y f y dy y f y )()()()(-

-??∞

-+-αα

αα

=)()()()(-

-y dF y y dF y ??∞

-+

-αα

αα (15.1) 根据莱布尼兹公式,若dy y f F b a

?=),()(αα,则有dy y f F b a

???=

αα)

,()(。令αα-),(y y f =,则

有??=??=

'b

a

b a

dy dy y F -)

-()(α

αα。运用于式(15.1)

,得

α

α?-?)

(t y E =α

αα

ααα

?-?+

?-?

??∞

dy y f y dy y f y )()()()(-

-=

??∞

αα

)(-

)(-y dF y dF

= 1-)(2))(-(1-)(])(-

[1-)(-ααααα

F F F y dF F ==?∞

式(15.1)求极小的一阶条件是α

α?-?)

(t y E = 0,即1-)(2αF =0,0.5)(=αF 。这意味着α等

于中位数y (0.5)。

α = y (0.5)

与定理15.1等价的表述是

∑-αy 以α = y

(0.5)(中位数)时为最小。因此,中位数回归估计

量可以通过最小绝对离差法(least absolute deviation, LAD )估计。其中X 和β分别为(k ?1)阶列向量。

同理,对于线性回归模型y t = X 'β + u t ,通过求

∑'-(0.5)?

β

X t y 最小,估计β的中位数回归系数估计量(0.5)?β,从而得到y t 的中位数回归估计量(0.5))5.0(?)?(βX X =t y 。

15.3 分位数回归

Koenker 和Bassett(1978)证明,若用t y

)(?τ表示y t 的分位数回归估计量,则对于以检查函数(check function )w τ为权数,y t 对任意值α的加权离差绝对值和∑-ατt y w 只有在α =t y

)(?τ时取得最小值。其中

∑-ατt y w = )())(1(::∑∑

≥<-+---T

y t t T y i t i

i

y y α

αατατ (15.2)

τ∈(0, 1)。据此,分位数回归可以通过加权的最小绝对离差和法(weighted least absolute deviation,

WLAD )进行估计。

根据式(15.2),对于线性回归模型y t = X 'β + u t , 求第τ分位数回归方程系数的估计量)

(?τβ的方法是求下式(目标函数)最小, ∑∑≥<+--

=T

u

t T u

t t t u u Q 0?)(0?)()()(??)1(ττττττ

∑∑'≥'<'-+'---

=T

X y t t T X y t t t t y y )

()

(?

:)(?:)()?()?)(1(ττβτβττ

τβX βX (15.3) 其中t u

)(?τ表示第τ分位数回归方程对应的残差。τ∈(0, 1)。第τ分位数的回归方程表达式是 t y )(?τ=)

(?τβX ' 其中X ,β都是k ?1阶列向量。)

(?τβ称作分位数回归系数估计量,或最小绝对离差和估计量,估计方法称作最小绝对离差和估计法。 当τ=0.5时,式(15.3)变为 ∑∑∑='≥'<'-=

'-+

'--

=T

t t T

X y t t T

X y t t y y y Q t t 1

)0.5(?

:)0.5(?

:)0.5(?

0.5)?(0.5)?(0.5)

0.5()

0.5(β

X βX βX ββ

t y )0.5(?=)0.5(?βX '称作中位数回归方程,)0.5(?β称作中位数回归系数估计量。 一旦得到估计的分位数回归方程,就可以计算分位数回归的残差t u

)(?τ。 t t t t y y y u =-=)()(??ττ-)

(?τβX ' 对一个样本,估计的分位数回归式越多,对被解释变量y t 条件分布的理解就越充分。以一元

回归为例,如果用LAD 法估计的中位数回归直线与用OLS 法估计的均值回归直线有显著差别,则表明被解释变量y t 的分布是非对称的。如果散点图上侧分位数回归直线之间与下侧分位数回归直线之间相比,相互比较接近,则说明被解释变量y t 的分布是左偏倚的。反之是右偏倚的。对于不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影响是不同的。

15.4 分位数回归模型的估计

由于目标函数(15.3)不可微,因此传统的对目标函数求导的方法不再适用。估计分位数回归方程参数)

(?τβ的一种较好的方法是线性规划方法。 基于Barrodale 和Roberts (1973,以下简写为BR )提出的单纯形法(simplex algorithm),Koenker

和D’Orey(1987)提出一种估计分位数回归系数的方法。EViews 中应用的是上述算法的改进形式。

BR 算法由于其非有效性和大样本下的一些非优良特性曾备受批评。Koenker 和Hallock(2001) 以及Portnoy 和Koenker(1997)通过模拟证实,与内点法(interior point method)等替代方法相比,BR 算法的估计次数往往较多,大约是样本容量的平方次数。然而,改进的BR 算法的估计次数在一定程度上是可以接受的,大约是样本容量的线性倍次数,在实际中是可以使用的。

分位数回归方程的BR 算法原理略。

下面讨论分位数回归系数估计量的渐近分布。

在弱条件下,分位数回归系数渐近服从正态分布(Koenker, 2005)。回归系数的方差协方差矩阵的计算在分位数回归的系数估计中占有重要位置。其方差协方差矩阵的估计方法根据分位数密度函数是否与解释变量相关分为三种方法:

①误差项独立同分布(i.i.d.)假设下的直接估计方法。由Koenker 和Bassett(1978)提出。 ②误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。 ③误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。

(1)独立同分布假设下的参数渐近分布

Koenker 和Bassett(1978)在独立同分布假设下得出分位数回归系数渐近服从正态分布,可以表述为在弱条件下: )?()()(ττββ-n ~))1(,0(12)

(--J s N τττ (15.5) 其中

)(lim )(

lim T

X

X T X X J n i

i i n '='=∞→∞

→∑

(15.6) ))((/1)(11)(τττ--='

=F f F s (15.7)

其中s (τ) 称为稀疏函数(Sparsity function)或分位数密度函数(quantile density function)。s (τ)是分位数

函数的导数,或在第τ分位数条件下概率密度函数的倒数(见Welsh,1988)。另外,模型误差项独立同分布假设意味着s (τ)与解释变量X 无关,因此,分位数方程只和X 在局部期间相关,即所有的条件分位数平面互相平行。事实上,式(15.5)中的))1((12)(--J s τττ就是误差项独立同分布假设下解释变量的回归系数估计量的渐近方差协方差矩阵表达式,而2)()1(τττs -代表的是一般回归方程中随机误差项的方差。

误差项独立同分布假设下,分位数回归参数估计量的渐近方差协方差矩阵表达式中含有s (τ),但s (τ) 是未知分布的函数,而且必须要估计。

EViews 提供了三种估计s (τ)的方法。两种是基于Siddiqui(1960)的方法分别提出的差分商方法(Siddiqui Difference Quotient)(Koenker(1994)以及Bassett 和Koenker(1982)),一种是核密度(Kernel Density )估计法。简述如下:

①Siddiqui 差分商法:

差分商方法是用实际的分位数函数构造一个简单的差分商,从而求得s (τ)的估计量,表达式如下:

n

n n h h F h F s 2)(?)(?)(?11--+=--τττ (15.8)

其中带宽h n 随着样本容量n →∞而趋向于0。要计算?(τ)需要做两件事,一是得到分位数函数

)(?1τ-F

在两个点上的值,二是确定带宽。EViews 中提供了两种Siddiqui 差分商法。 计算分位数密度函数的第一种方法由Bassett 和Koenker (1982)提出,EViews 将其称之为Siddiqui (mean fitted) 方法。这种方法需要重新估计两个分位数回归模型在τ - h n 和τ + h n 上的拟和值,进而用不同的估计参数计算分位数函数的拟和值。最终s (τ)的估计量的数学表达式如下,

对任意X *有:

n

n

n h h h X s

2)(?)(?*)(?--+'=τβτβτ (15.9)

独立同分布假设意味着X *可以取任何值,Bassett 和Koenker 建议取X 的均值,其优点是:

估计的精度在该点达到最大;且估计的分位数函数对τ是单调的,因此对一个恰当的h n ,?(τ)的值总是正的。

另一种Siddiqui 差分商法由Koenker(1994) 提出。其计算量相对较小,只需计算原分位数回归方程中残差的第τ - h n 和τ + h n 实际分位数,计算时排除在估计中设为零的k 个残差,并插入新值以获得分位数的分段线性形式。EViews 中把这种方法叫做Siddiqui (residual) 方法。

上述两种Siddiqui 方法都需要估计带宽h n 。EViews 提供了三种估计带宽的方法:Bofinger (1975) 法,Hall-Sheather (1988) 法和Chamberlain (1994)方法。

Bofinger(1975)提出的估计带宽的表达式为:

5

/1221415/1]1))((2[)))(((5.4???

? ?

?+=---τΦτΦφT

h n (15.10)

可以近似最小化?(τ)的均方误差(MSE)。

另外两个带宽的表达式中含有显著性水平,因此常常用来进行假设检验。其中Hall 和Sheather(1988)的表达式为:

3

/121213/23/11))((2)))(((5.1???

? ?

?+=---τΦτΦφαZ T

h n (15.11)

其中T 表示样本容量,Φ表示正态分布的积累分布函数,φ表示正态分布的密度函数,Z α= Φ-1 (1-α/2)为选择的显著性水平α对应的Z 值。

Chamberlain(1994)的表达式为: T

Z h n )

1(ττα

-= (15.12)

图1是样本容量1~300时Hall 和Sheather(1988)方法在第0.1、0.3、0.5、0.7、0.9分位数下得到的带宽。图2是样本容量1~1000时三种方法在第0.5分位数下的带宽比较图 (α=0.05,MATLAB 计算)。

图1 图2

从图2可以看出随着样本的增加,三种带宽都减小,并且在小样本时,减小的速度较大,在大样本情况下减小的速度较小。并且在大样本情况下,带宽的大小顺序为:Bofinger 的最大,Hall 和Sheather 的次之,Chamberlain 的最小。

②核密度法(Kernel Density):

根据(15.7)式有s (τ)= )(?1τ'-F

=1/f ()(?1τ-F ),Falk(1988)和Welsh(1988)提出了用核密度法估计)(?1τ'-F

进而得到s (τ)的方法。而Powell(1986)、Jones(1992)以及Buchinsky(1995)则通过估计1/f ()(?1τ-F )来得到s (τ)。EViews 中使用的方法属于后者,沿用了Powell(1984,1989)中的计算方法,

其选项名称为Kernel(residual): ∑=-=T

i T i T c u K c T s

1

)(1)]/?()/1/[(1)(?ττ (15.13)

其中?(τ)表示分位数回归的残差;c T 为带宽;K 表示核密度函数。EViews 中可以选择的核密度函

数有Epanechnikov 核函数、均匀 (Uniform) 核函数、三角(Triangular)核函数、二权(Biweight)核函数、三权(Triweight)核函数、正态(Normal)核函数、余弦(Cosinus)核函数。

EViews 中使用了Koenker(2005)提出的带宽,表达式为:

))()((11T T T h h k c --+=--τΦτΦ (15.14)

其中k 表示Silverman(1986)的一个稳健估计量;h n 是Siddiqui 带宽。

(2) 独立但不同分布假设下的参数渐近分布

当分位数密度函数独立但不同分布即与解释变量X 相关时))()(?(τβτβ

-T 的渐近分布服从Huber sandwich 形式:

)?()

()(ττββ-T ~))()()1(,0(11---ττττJH H N (15.15) 其中J 同(15.6)式,H 的表达式如下:

)/))(((

lim )(T q f X X H i i i

i i T ττ∑'=∞

→ (15.16) 其中))((τi i q f 是个体i 在第τ分位数上的条件密度函数。如果条件密度函数不依赖于观测值,式(15.15)中的方差就退化为(15.5)式中的方差。

对于H ,EViews 提供了两种计算方法。第一种是Hendricks 和Koenker(1992)提出的Siddiqui 差分法;另一种是Powell(1984,1989)提出的核密度法。这两种方法与在独立同分布假设时计算s (τ)的算法相同,因此在EViews 选单中的名称相同,分别为Siddiqui (mean fitted)和Kernel (residual)。

①Siddiqui 差分商法

这种方法需要对每个个体估计τ - h n 和τ + h n 两个分位数回归模型,将拟和值代入下式:

)))

(?)(?(/(2 )))((?))((?/(2))((?11T

T

i

T

T

i i T i i T i i h h X h h q F h q F h q f --+'=--+=--τβτβτττ (15.17)

由于分位数密度函数非同分布,因此,我们需要为每一个个体估计))((τi i q f ,这时当取

X X i =时,不能保证(15.17)式为正,因此,Hendricks 和Koenker 对其进行了修正:

)))(?)(?(/(2,0m ax())((?δτβτβτ---+'=T

T i T i i h h X h q f (15.18) 其中δ是一个很小的正数,避免上式中分母为零。将(15.18)式代入(15.16)式,得到H 的估计量为

T X X q f H

i

i

i i i /))((?)(?∑

'=ττ (15.19)

②核密度法

Powell(1984,1989)提出的用核密度法估计H 的表达式为: i i T

i T i T X X c u K c T H

'=∑=-1

)(1)/?()/1()(?ττ (15.20)

其中?(τ)表示分位数回归的残差;c n 为带宽;K 表示核密度函数;各参数含义与(15.13)式相

同。

(3)参数渐近分布的自举法

前面的方法都是先求出分位数密度函数,然后再得到参数的渐近分布。自举法则可以省略这一步,直接得到参数的方差协方差阵。EViews 中给出了四种自举方法,分别为:残差自举,XY 对自举,以及两种马尔可夫链边际自举法MCMB 和MBMB-A 。其中前两种方法见Buchinsky (1995)。

①残差自举法(residual bootstrap)

这种方法要求解释变量与随机误差项不相关。它是对残差和解释变量分别进行有放回的再抽样,构造样本容量为m 的新序列u *和X *(其中m 可以小于原样本容量T ),然后运用初始参数估

计量构造被解释变量,即*)

(**?u X y +=τβ,最后用X *和Y *估计新的参数β(τ). 如此重复K 次,则参数方差协方差阵的估计量为: ))()(?())()(?(1)()?(?1

'--=∑=τβτβτβτββj B

j j B

T m T V

(15.21)

其中)(τβ是自举参数估计量序列的均值。EViews 选单中称这种方法为Residual 。

②XY 对自举法(XY-pair or design bootstrap)

这是最常用的一种自举方法,它不要求随机误差项与解释变量相互独立。使用这种方法时,我们从原始数据中有放回的抽取K 次样本容量为m 的子序列(y *, X *),然后用每个子序列计算β(τ),最后运用(15.21)式计算参数方差协方差阵的估计量。EViews 选单中这种方法称为XY-Pair 。

③马尔可夫链边际自举法(Markov Chain Marginal Bootstrap) 以上两种自举法往往计算量过大,当方程中含有p 个参数时,每次自举都需要解一个p 维的线性规划问题。He 和Hu(2002)提出了一种新的自举法,将一个p 维的最优问题简化为求解一个含p 个元素的序列的一维问题。这个序列的一维解就构成了一个马尔可夫链,其样本方差协方差阵可由(15.21)式计算,且当原序列样本容量T 和自举次数K 较大时具有一致性。EViews 选单中把这种方法称为MCMB 法。

然而,给定链长B (即自举次数),上述方法计算的参数序列之间往往存在较强的自相关从而导致参数方差协方差阵估计量的统计特性较差,有可能对任何链长B ,估计量都不能收敛。Kocherginsky 、He 和Mu(KHM,2005)提出了一种修正的方法消除可能存在的自相关。即通过先对参数空间进行某种转换,运用MCMB 算法进行估计,然后再转换回原来的空间,这种方法叫做MCMB-A 。它要求独立同分布的假设条件,但它对异方差的情况表现的比较稳健。Kocherginsky 、He 和Mu 还建议对于满足T ?min(τ, 1-τ) > 5p 的情况,当T ≤ 1000,p ≤ 10时,B 应取在100至200之间。对于Tp 在10,000到2,000,000之间的情况,建议B 取在50至200之间,当然,还取决于用户的耐心。

15.5 分位数回归模型的检验

评价分位数回归函数好坏的统计量主要有3个,拟合优度、拟似然比检验和Wald 检验。 (1)拟合优度(Goodness-of-Fit)

Koenker 和Machado(1999)提出了分位数回归的拟合优度的概念。它与一般回归分析中的R 2

很类似。

假设分位数回归直线为

)

()(??ττβX y '= 将解释变量矩阵和参数向量都分为两部分,即),1('=Z X 和)?,?(?)(1)(0)('=τττβββ,且有 )(1)(0)(?τττββZ y

'+= 定义:

])??()??)(1(min[?)

()

(?

:)(1)(0?:)(1)(0)

(∑∑'≥'<'--+

'----=T

X y t t T

X y t t t t Z y Z y Q ττβττβτττββτ

ββτ (15.22) ])?()?)(1(min[~

)

(?:)(0)(?

:)(0)(∑∑'≥'<-+

---

=T

X y t t T

X y t t t t y y Q τβττβττβτβτ (15.23)

式(15.22)和(15.23)分别表示无约束分位数回归目标函数(最小绝对离差和)和约束的分位数回归

目标函数(最小绝对离差和)的极小值。无约束目标函数中的减项既包含常数项也包含所有回归因子。约束目标函数中的减项仅包含常数项,其他参数都约束为零。则Koenker 和Machado 拟和优度准则表达式如下:

)

()

()(*

~?1τττQ Q R -= (15.24)

很明显,上述统计量与传统的R 2非常相似。因为)()(~?ττQ Q ≤,所以R *(τ)的值在0和1之间,解释变量的作用越强,)

(?τQ 越远远小于)(~τQ ,)(*τR 越接近1。反之越接近0。所以)(*τR 可用来考察解释变量对被解释变量第τ分位数回归拟和的好坏。

(2)拟似然比检验(Quasi-Likelihood Ratio Tests)

Koenker 和Machado(1999)根据目标函数在施加约束条件前后得到的两个极小值构造了两个拟似然比检验统计量(QLR )。这两个拟似然比检验也称作分位数ρ检验(quantile -ρ tests)。两统计量的表达式如下:

)()1()?~(2)()

()(ττττττs Q Q L T --=

(15.25)

)?~

log()()1(?2)()

()

()

(τττττττΛQ Q s Q T -= (15.26)

两个统计量都渐近服从自由度为q 的χ2分布,其中q 是原假设目标函数中约束条件的个数。)

(~

τQ 和)

(?τQ 分别代表约束的和无约束目标方程的极小值。 另外,两个统计量的分母都含有稀疏项s (τ),上面给出的稀疏项s (τ)的3种计算方法都可在式(15.25)和(15.26)中使用。EViews 估计的是其在备择假设下的估计量。

使用上述两统计量的前提是必须满足分位数密度函数s (τ)与解释变量X 不相关。然而,尽管

有时并不满足独立同分布的假设,EViews 在进行分位数回归的时候,不管选择何种估计参数渐近分布的方法,总会估计稀疏函数s (τ),从而构造拟似然比(QLR )检验统计量。因此,这种检验方法与下面的Wald 统计量相比稳健性较差。

(3)Wald 检验

给定分位数回归参数估计量的渐近方差协方差矩阵,我们就可以构造Wald 形式的统计量进行各种约束形式的参数检验。

31.3.5 系列分位数回归检验

前面的分析主要集中在单个分位数回归模型的假设检验上,而有些时候也需要对一系列分位数回归的回归系数进行联合检验。比如,需要通过检验不同分位数模型的斜率是否相等来判断一个模型是否具有位移特征。同时考虑多个分位数回归式称作系列分位数回归分析(quantile process testing )。EViews 在做单方程分位数回归的同时,有专门命令执行系列分位数回归分析。

操作路径是在一个分位数回归估计结果窗口,点击View 键,选Quantile Process/Process Coefficients 功能。

定义系列分位数回归系数列向量为, )',','()()()(21'=m τττββββ (15.27) 则有

)?(ββ

-n ~),0(ΩN (15.28) 其中Ω由如下形式的块矩阵Ωij (km×km )组成:

)()(]),[m in(11j i j i j i ij JH H ττττττ---=Ω (15.29) i , j =1, 2, … m . k 为方程待估参数个数。其中J 的表达式见(4)式。H 的表达式见(15.19)或(15.20)式,

取决于选择的估计方法。特别的,当误差项独立同分布的假设成立时,Ω简化为: J ?=0ΩΩ (15.30) 其中Ω0中的元素如下: ))

(())((),m in(11j i j i j i ij F f F f ττττττω---=

(15.31)

i , j =1, 2, … k .除了以上的方法以外,Ω的估计量还可以由任何一种自举方法得到。

(1)斜率相等检验

Koenker 和Bassett(1982a)提出了一种对异方差很稳健的判断不同分位数回归方程斜率是否相等的检验。零假设如下:

)

(1)

(1)

(1021:m H τ

τ

τ

βββ===

其中β1指常数项以外的解释变量所对应的(k -1)维参数列向量。因此,零假设共含有(k -1) (m -1)个约束条件。接下来构造Wald 形式的统计量检验零假设是否成立,它渐近服从自由度为(k -1) (m -1)的χ2分布。

(2)对称性检验

将Newey 和Powell(1987)检验最小二乘估计量对称性的方法扩展到分位数回归中。假设我们要检验的分位数回归模型有m 个,m 是奇数,且中间值τ (m +1)/2是0.5,其他τ都关于0.5对称,即τj =1? τm-j +1, j =1,…,(m -1)/2。参数估计量按照τk 的大小排序。则对称性检验的零假设为:

)0.5()

()(02

:

1βββ=++-j m j H ττ (15.32)

其中j =1, …, (m ?1)/2。m 是奇数,代表分位数回归个数。即关于0.5对称的分位数回归参数估计量的两两平均值等于中位数回归参数估计量。

我们可以构造Wald 形式的统计量检验上述k (m -1)/2个约束条件是否成立。该统计量服从自由度为k (m ?1)/2的χ2分布。另外,Newey 和Powell 指出,如果我们已知随机误差项服从独立同分布,但不一定对称,则我们只需检验常数项的对称性。即

)0.5(0)

(0)(002

:

1βββ=++-j m j

H ττ (15.33) 这时约束条件减少为(m -1)/2个。

15.6分位数的计算与分位数回归的EViews 操作

(1)分位数的计算

对一个离散的随机变量y t ,取其容量为T 的样本序列,计算第τ分位数的方法如下:

首先将数据从小到大排序,标号为i ,i =1, 2, …, T 。然后利用下表所列的方法计算随机变量y t 的第τ分位数的排列序号的i ;如果i 为整数,则随机变量y t 的第τ分位数即为y i ,如果i 不是整数,则随机变量y t 的第τ分位数为:

y (τ)= y [i ] + (i ? [i ])( y [i ]+1 ? y [i ])

其中[i ]表示不大于i 的最大整数。给定一个具体的随机变量y t ,对于一个容量为T 的样本,则y t 的第τ分位数的序号i 的计算方法如下。在大样本情况下,各方法收敛到同一值。

Rankit

Ordinary Vander Waerden

Blom

Tukey

Gumbel

(τ?1/2)/T τ/T τ/(T +1) (τ?3/8)/ (T +1/4) (τ?1/3)/ (T +1/3) (τ?1)/ (T ?1)

计算分位数的EViews 6.0的命令为:scalar q =@quantile(y , τ, s ),其中y 表示求分位数的序列;τ表示要取的分位数;s 取1~6依次表示上表中6种计算方法,计算所得结果存入标量q 中。

例:打开6garch-03文件,在空白处键入命令: scalar q=@quantile(DASH , .5,1) scalar q=@quantile(DASH , .25,1)

意即对序列DASH 求中位数。得结果DASH (0.5)= -0.78,DASH 序列的中位数是-0.78。DASH (0.25)= -13.33,DASH 序列的第0.25分位数是-13.33。

用DASH 画分位数图如下。打开DASH t 序列窗口,点击View 键选Graph 功能。在打开的Graph Option 窗口,Type 选择页的Specifi 选择框选Distribution ,在Details 的Distribution 选择框中选Emprical Quantile 如图。点击“确定”键,得分位数图如图。

(2)分位数回归

主要包括3部分内容。(1)介绍怎样进行分位数回归。(2)对输出结果的分析。(3)对分位数回归相关功能键的介绍。

在EViews 中进行分位数回归的路径有两个,分别是

(1)点击主选单中的Quick 键,选Equation Estimation ,弹出Equation Estimation 窗口。 或者

(2)点击主选单中的Object 键,选New Object ,Equation ,弹出Equation Estimation 窗口。 在该窗口的Method 下拉选单中,选择如图所示的选项QREG-Quantile Regression(including LAD),EViews 将打开如图所示的分位数回归对话框(Equation Estimation )。

图1

Equation Estimation (方程估计)窗口包括两个选项模块,一个是Specification (设定方程),一个是Options (选项)。

可以在Equation specification (方程设定)框中输入要估计的表达式。同一般线性回归模型一样,它可以是一行用空格隔开的被解释变量和解释变量(如图1所示),也可以是一个明确的参数为线性的表达式。

Equation Estimation (方程估计)窗口与OLS 估计的Equation Estimation (方程估计)窗口相比,只多了对话框quantile to estimate 的选项。在该处填入要估计的分位数。系统默认为0.5,即做中位数回归(LAD )。用户可以选择任意一个0和1之间的数(当数值接近0和1时估计会变得困难)。

激活Options (选项)模块(点击对话框上的Options (选项))。得到如图2的quantile regression Options (分位数回归选择)选择框、Iteration control (迭代控制)选择框和Bootstrap settings (自举设定)选择框。

quantile regression Options对话框中的选择主要包括三部分。

图2 (1)Coefficient covariance(系数估计量方差协方差矩阵)选项框

其下拉选单中包括三个选项:Ordinary (IID),Huber-Sandwich 和Bootstrap,代表了可选的估计回归系数估计量方差协方差矩阵的方法(具体介绍见15.4节)。EViews 默认的是

Huber-Sandwich方法。

(2)Weight(权数)选项框

可以输入作为权重的序列或者一个序列的表达式,从而对估计式加权。(用于WLS估计)(3)Sparsity Estimation(稀疏函数估计)选项区

其中包括5种选择框。稀疏函数的介绍见15.4节。

◇Method(方法)选项框。

当第一个选项框Coefficient covariance中选项为Ordinary (IID)或Bootstrap时,Method(方法)选项框中包括三个选项:Siddiqui (mean fitted), Kernel (residual)和Siddiqui (residual)。

当Coefficient covariance选项框中选项为Huber-Sandwich时,这里的Method选项框中只包括Siddiqui (mean fitted)和Kernel (residual)两种选择。

◇Bandwidth Method(带宽)选项框。

其下拉选单中包括四个选择,即Bofinger (1975),Hall-Sheather (1988)和Chamberlain (1994)计算带宽方法,或者你自己给出一个特定的带宽。

◇Size(置信尺度)选项框。

当选择Hall-Sheather 和Chamberlain方法时,置信度的选择默认为0.05。

◇Quantile Method(分位数方法)选项框。

EViews提供了六种求解经验分位数的方法。

◇Kernel(核函数)选项框。

表示核函数的选用种类。EViews中可以选择的核密度函数有Epanechnikov核函数、均匀核函数(Uniform)、三角核函数(Triangular)、二权核函数(Biweight)、三权核函数(Triweight)、正态核函数(Normal)和余弦核函数(Cosinus)。

注意,不管系数方差协方差矩阵(Coefficient covariance)是否会用到,每次进行分位数回归时,系统都会自动给出一个稀疏函数估计值。

Iteration control(迭代控制)选项框包括3个选项。

(1)Max(最大)。迭代的最大次数,默认为500。

(2)Starting(初始值)。表示迭代的初始值,默认为0,也可以选择其他选项,如下拉选单中的OLS,即用OLS估计量作为初始值进行迭代。

(3)Display settings(设定显示)。选择是否需要在输出结果中给出这些设置。

Bootstrap settings(自举设定)

(1)Method(方法)。代表不同的自举方法。EViews提供了四种方法,分别是Residual, XY-pair, MCMB, MCMB-A。默认方法为XY-pair方法。

(2)Replications(循环次数)。EViews 默认为100次。用户可以自己设定次数。

(3)No. of obs(自举样本容量)。空白表示与原样本容量一致。Koenker(2005)的研究表明,选择自举样本容量小于数据样本容量时,能够获得更加准确的结果,特别是当数据样本容量较大时。

(4)output(输出)。在这里键入一个名称可以得到自举的样本矩阵。

(5)Random generator(生成随机数)和seed(种子)。本选项用于控制产生随机数。其中前者用于选择随机数产生方法,seed用于选择随机数种子,Clear(清除)按钮用于清空以往选定的随机数种子。

估计结果。

按照EViews默认设置得到的一个分位数回归估计结果如下:

输出结果上部给出的是估计设定,其中包括(按顺序)被解释变量(DASH)、方法:分位数回归(中位数)、操作日期、样本范围、样本容量(421)、标准误差和方差协方差矩阵估计方法(Huber-Sandwich方法)、稀疏函数的估计方法(Kernel方法)、带宽方法(Hall-Sheather方法,带宽=0.12963)以及对估计结果的评价。

输出结果中部给出的是回归系数估计量、标准差、t统计量及其相应p值,这与OLS估计完全一样。可以看出,上述回归系数估计量都具有显著性。在中位数回归关系条件下,B股收益DBSH每增加一个单位,A股收益DASH平均增加3.38个单位。

输出结果下部给出的是对分位数回归估计式的评价统计量。分别为

Pseudo R-squared:伪拟合优度(伪R2),

Adjusted R-squared:调整的伪拟合优度,

S.E. of regression:分位数回归式的标准误差,

Quantile dependent var:分位数回归式中只有常数项存在的系数估计值(也即被解释变量的

分位数估计值)。

Objective :目标函数极小值,

Objective (const. only):分位数回归式中只有常数存在的目标函数极小值, Sparsity :分位数密度函数(稀疏函数)估计值(本例是用核估计法计算的)。 Quasi-LR statistic :准似然比估计量的值

Prob (Quasi-LR stat):准似然比估计量的值所对应的概率值。

此外,由于这里使用的是Huber-Sandwich 方法,因此稀疏函数值(Sparsity)并没有用来计算参数估计量标准差。

与上述结果类似,我们也可以通过改变估计设定,运用自举方法获得参数估计量的方差协方差矩阵。例如选择MCMB-A 方法进行自举,并且将自举次数增加至500。对于稀疏函数的计算方法,选择Siddiqui(mean fitted),点击OK 键,得到新设定所对应的估计结果。 分位数回归中的Views 和Procs 功能键。

分位数回归方程窗口中的大部分Views 和Procs 功能都与OLS 回归相同,下面对一些计算细节其进行必要的补充说明。

使用上述功能时需要注意以下计算细节:

(1)这里的残差是指某一特定分位数回归函数条件下的残差,计算公式为

t t y u =)(?τ-)

(?τβX '; 标准化残差指用自由度调整过的残差的标准误差。而在计算QLR 统计量时则使用的是Koenker 和Machado(1999)给出的目标函数极小值的平均值,即)

(1?)(?ττσQ T -=。 (2)构造Wald 检验和置信椭圆时使用的是参数估计量方差协方差矩阵的稳健估计量。

(3)进行遗漏和多余变量检验(omitted and redundant tests)以及Ramsey RESET 检验时,报告的都是特定约束下的QLR 统计量,因此它只有在满足稀疏函数的独立同分布假设时才是有效的。

(4)在默认状态下,EViews 在进行预测时会自动为样本外观测值扩展序列容量,用户可以在预测窗口中自行取消该选择框中的对勾。

Quantile Process 选项

在分位数回归估计结果窗口中,点击View 键,选Quantile Process 功能,如图。该选项包括3个子功能,Process Coefficients (系列分位数回归),Slope Equality Test (斜率相等检验),Symmetric Quantiles Test (分位数对称检验)。

注意:由于每个功能都包含了不同分位数估计方程的比较和检验,因此运行时间会稍长。尤其是当选择自举方法计算方差协方差阵时,更是这样。

(1)Process Coefficients 功能(系列分位数回归系数)

在分位数回归估计结果窗口中,点击View 选Quantile Process ,Process Coefficients (系列分

位数回归系数),可以得到Quantile Process对话框如图。

在该对话框中,可以通过Output选择区选择是按表格(Table)还是按图形(Graph)输出估计结果;选择置信度(Confidence Interval Size),EViews默认选择是输出表格形式(table)的估计结果,给出不同分位数下的系数估计量、标准差、t统计量及其相应的p值。

Quantiles后面的数字用于决定要估计的分位数个数。若用数字n表示,则输出的是第1/n,2/n,…,(n-1)/n分位数回归估计结果。EViews默认数为10,即估计第0.1、0.2、…、0.9九个分位数回归式。通过选择分位数回归数(Quantiles)以及用图或列表形式(Output),对不同分位数回归系数估计量及其标准差进行比较与检验。

还可以选择User-specified quantiles并在下面的框中输入想计算的某个(些)分位数条件下的回归。

选取DASH对常数项和DBSH进行中位数回归,并在Quantile Process选项中选择输出95%置信水平的10个不同的分位数回归中回归系数估计值的折线图,如下所示:

点击Quantile Process对话框中的Output选项页,得到如下的对话框:

在Quantiles Vector、Coefficient Matrix和Covariance Matrix选择框后面分别填入向量和矩阵名,EViews将把分位数序列、分位数回归系数估计量矩阵以及分位数回归系数估计量的方差协方差矩阵保存到相应向量和矩阵名中。

(2)Slope Equality Test(斜率相等检验)

在分位数回归估计结果窗口中点击View选Quantile Process,Slope equality test,可以进行Koenker和Bassett(1982a)提出的斜率参数相等检验,见如下对话框:

在该窗口的Specification(设定)选项页中,Quantiles后面的框中用户可以填入要检验的分位数个数,从而对上述分位数回归式的斜率估计量进行比较和检验。以填入数字n为例,表示输出的是第1/n,2/n,…,(n-1)/n分位数。

EViews默认的是4,即检验第1/4分位数回归式与第2/4分位数回归式之间、第2/4分位数回归式与第3/4分位数回归式之间相应回归系数是否相等。用户还可以选择User-specified quantiles,并在下面的框中输入想要检验的分位数条件下的回归系数是否相等。

该窗口中的Output选项页的功能与Quantile Process对话框中的Output选项页的功能相同。

仍然使用上面的案例,按照系统默认的检验,得到如下的结果,即对中位数和第0.25分位数、以及中位数与第0.75分位数回归系数是否相等这2个约束条件进行检验。

输出结果中第一部分是对Wald检验的总结,这里斜率相等性检验的Wald统计量为0.53,自由度2,概率为0.7670。这表明0.25、0.5、0.75分位数回归式的斜率相等。这意味着,相同条件的不同分位数回归的被解释变量拟合值的分布是相同的。

(3)对称性检验

在分位数回归估计结果窗口中点击View选Quantile Process,Symmetric Quantiles Test,可以做以中位数回归式为中心的分位数回归式对称性检验。

依据Newey 和Powell(1987)方法,

)0.5()

-1()(2

βββττ=+

关于对称性检验的设置可以在Specification 选项页中完成,其默认选项如图所示。如果Quantiles (分位数回归式个数)选择框中选4,则检验的约束条件只有一个,即

)0.5()

0.75()0.25(2

βββ=+

而如果分位数回归式拟合的是0.6,则除了以上约束条件外,还会增加如下一个约束条件的检验。

)0.5()

0.6()0.4(2

βββ=+

与上述两个检验类似,用户还可以选择User-specified quantiles ,并在下面的框中输入要检验的分位数τ,EViews 将估计τ和1-τ两个分位数回归式,并与中位数回归式做比较。按照)0.5()-1()(2/)(βββττ=+进行检验。

此外,还可以通过Intercept only 或者All coefficients 单选框选择是否仅对常数项还是对所有参数估计量进行对称性检验。同样,该窗口中的Output 选项页的功能与Quantile Process 对话框中的Output 选项页的功能相同。

本例按照默认设置检验结果如下:

从输出结果中可以看出,这里我们检验的是第0.25和0.75分位数回归的系数估计量是否关于中位数对称。检验表明他们是对称的,概率p 值是0.80。

预测功能与OLS 单方程操作相同。

15.7 分位数回归的案例分析

案例分析:上证A 股和B 股收益关系研究(6garch-03)

上证A 股、B 股序列(ASH t 和BSH t )和上证A 股、B 股收益序列(DASH t 和DBSH t )如图。

图1 ASH t 和BSH t 序列 图2 DASH t 和DBSH t 序列

上证A 股和B 股收益序列(DASH t 和DBSH t

)的单位根检验结果如下:

D 2ASH t = -0.9786 DASH t -1

(-20.0)*

DW =1.99

D 2BSH t = -0.9599 DBSH t -1

(-19.8)* DW =2.00

图3 上证A 股收益序列(DASH t )的单位根检验结果

图4 上证B 股收益序列(DBSH t )的单位根检验结果

上证A 股和B 股的差分(收益)序列(DASH t 和DBSH t )都是平稳序列。

下面分析DASH t 和DBSH t 的分布特征。打开DASH t 序列窗口,点击View 键选Graph 功能。在图形类型选择框中选Distribution (分布)。同时在选择窗右侧点击Options 键,在弹出的对话窗中点击Add 键,在弹出的Add 对话窗中选Kernel Density 。点击OK 键。得直方图与核密度曲线合并图如图。分布都是单峰的,呈高峰厚尾特征。

分别求DASH t和DBSH t的第0.25、0.5、0.75分位数值(scalar q=@quantile(DASH, τ, 1)),τ=0.25、0.5、0.75,得下表。

均值偏度标准差第0.25分位数第0.5分位数第0.75分位数DASH t-1.40 0.77 25.7 -13.33 -0.78 9.74

DBSH t0.04 -0.05 4.1 -1.510 -0.06 1.73 上证A股和B股收益序列散点图如下:

OLS估计结果如下:B股收益每增加一个单位,A股收益增加3.93个单位。

DASH t对DBSH t的中位数回归结果如下。

OLS回归、LAD(中位数)回归直线对比如图。OLS回归直线的斜率大于LAD(中位数)回归直线的斜率,说明OLS估计方法对离群值敏感,LAD估计方法比OLS估计方法稳健。

在分位数回归输出结果窗口点击View键,选Quantile Process,Process Coefficients,在弹出的对话框中点击确定键,得9个分位数回归式如下,DBSH的回归系数全部具有显著性。

面板数据模型

第十讲经典面板数据模型 一、面板数据(panel data) 一维数据: 时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。 二维数据: 面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。 面板数据=截面数据+时间序列数据。

面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 平衡面板数据(balanced panel data)。 非平衡面板数据(unbalanced panel data)。 例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。

表1.中国部分省级地区的居民数据(不变价格,元)

二、面板数据模型及其作用 1.经典面板数据模型 建立在古典假定基础上的线性面板数据模型. 2.非经典面板数据模型 (1)非平稳时间序列问题的面板数据模型(面板数据协整模型) (2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型) (3)其他模型(如面板数据分位数回归模型) 3.面板数据模型作用 (1)描述个体行为差异。

最新张晓峒分位数回归讲义

第15章分位数回归模型 15.1 总体分位数和总体中位数 15.2 总体中位数的估计 15.3 分位数回归 15.4 分位数回归模型的估计 15.5 分位数回归模型的检验 15.6 分位数的计算与分位数回归的EViews操作 15.7 分位数回归的案例分析 以往介绍的回归模型实际上是研究被解释变量的条件期望。人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。 正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。在残差检验、回归系数检验、模型设定、预测等方面则基本相同。 分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。 另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。 15.1 总体分位数和总体中位数 在介绍分位数回归之前先介绍分位数和中位数概念。 对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:y小于等于y(τ)的概率是τ,即τ = P( y≤y(τ)) = F(y(τ)) 其中P(?)表示概率,F(y(τ)) 表示y的累积(概率)分布函数(cdf)。 比如y(0.25) = 3,则意味着y≤ 3的概率是0.25。且有 y(τ) = F-1(y(τ)) 即F(y(τ))的反函数是y(τ)。当τ=0.5时,y(τ)是y的中位数。τ= 0.75时,y(τ)是y的第3/4分位数,τ= 0.25时,y(τ) 是y的第1/4分位数。若y服从标准正态分布,y(0.5) = 0,y(0.95) =1.645,y(0.975) =1.960。 另外,如果随机变量y的分布是对称的,那么其均值与中位数是相同的。当其中位数小于均值时,分布是右偏的。反之,分布是左偏的。 对于回归模型,被解释变量y t对以X为条件的第τ分位数用函数y(τ)t|X表示,其含义是:以X为条件的y t小于等于y(τ)t|X的概率是τ。这里的概率是用y t对X的条件分布计算的。且有 y(τ)t|X= F-1(y(τ)t|X) 其中F(y(τ)t|X) 是y t在给定X条件下的累积概率分布函数(cdf)。则y(τ)t|X称作被解释变量y t对X 的条件分位数函数。而F '(y(τ)t|X)= f (y(τ)t|X)则称作分位数概率密度函数。其中F'(y(τ)t|X)表示F(y(τ)t|X)

面板数据分析简要步骤与注意事项(面板单位根—面板协整—回归分析)

面板数据分析简要步骤与注意事项(面板单位根检验—面板协整—回归分析) 面板数据分析方法: 面板单位根检验—若为同阶—面板协整—回归分析 —若为不同阶—序列变化—同阶建模随机效应模型与固定效应模型的区别不体现为R2的大小,固定效应模型为误差项和解释变量是相关,而随机效应模型表现为误差项和解释变量不相关。先用hausman检验是fixed 还是random,面板数据R-squared值对于一般标准而言,超过0.3为非常优秀的模型。不是时间序列那种接近0.8为优秀。另外,建议回归前先做stationary。很想知道随机效应应该看哪个R方?很多资料说固定看within,随机看overall,我得出的overall非常小0.03,然后within是53%。fe和re输出差不多,不过hausman检验不能拒绝,所以只能是re。该如何选择呢? 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993)很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al.(2002)的改进,提出了检验面板单位根的LLC法。Levin et al.(2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250之间,截面数介于10~250之间)的面板单位根检验。Im et al.(1997)还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher和PP-Fisher5种方法进行面板单位根检验。 其中LLC-T、BR-T、IPS-W、ADF-FCS、PP-FCS、H-Z分别指Levin,Lin&Chu t*

分位数回归及其实例

分位数回归及其实例 一、分位数回归的概念 分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。 传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。 为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。 分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。 一般线性回归模型可设定如下: ()((0)),(0,1).x t t I t ρττ=-<∈ 在满足高斯-马尔可夫假设前提下,可表示如下: 01122(|)...k k E y x x x x αααα=++++ 其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。这是均值回归(OLS )模型表达式,类似于均值回归模型,也可以定义分位数回归模型如下: 01122(|)...()y k k u Q x x x x Q ταααατ=+++++ 对于分位数回归模型,则可采取线性规划法(LP )估计其最小加权绝对偏差,从而得到解释变量的回归系数,可表示如下: 01122min (...)x k k E y x x x ραααα----- 求解得:01122?????(|)y k k Q x a a x a x a x τ=++++

基于面板分位数回归的辽宁省国有工业企业经营绩效影响研究

基于面板分位数回归的辽宁省国有工业企业经营绩效影响 研究 [摘要]深入研究区域国有工业企业资本结构、规模扩张特征对其经营绩效的影响方向和程度,有利于制定区域产业结构调整和化解过剩产能的政策。利用辽宁省2001―2016年国有工业企业相关数据,通过面板分位数回归测算资本结构、行业集中度及总资产增长率对经营绩效的影响。结果发现:资本结构对经营绩效的影响呈现显著倒“U”型关系,行业集中度对经营绩效的影响也是微弱的倒“U”关系。提出降低辽宁省国有工业企业的资产负债率、降低行业外延式扩张速度等对策建议。 [关键词]工业企业;资本结构;行业集中度;经营绩效;面板分位数回归 [中图分类号]F425 [文献标识码]A [文章编号]2095-3283(2018)04-0082-05 Abstract:Further study of regional state-owned industrial enterprise capital structure and scale expansion characteristics on its business performance direction and degree,is beneficial to develop regional industrial structure adjustment and the

policy of excess capacity. Based on the data of state-owned industrial enterprises from 2001 to 2016 in liaoning province,this paper calculates the influence of capital structure,industry concentration and total asset growth rate on operating performance through the regression of panel quantile regression. The results show that the influence of capital structure on business performance is significantly inverted “U”,and the influence of industry concentration on operating performance is also weak “U”. The paper puts forward some Suggestions to reduce the asset-liability ratio of state-owned industrial enterprises in liaoning province and reduce the expansion speed of the industry. Keywords:Industrial Enterprise;Capital Structure;Industry Concentration;Operating Performance;Panel Quantile Regression 一、引言 ??有工业企业在国家和地区经济发展中起到非常关键的作用,深入研究国有工业企业资本结构、规模扩张及行业集中度对其经营绩效的影响,对于制定产业政策和地区经济发展政策具有重要意义。 国内外众多学者对资本结构、行业集中度与企业绩效关系进行了广泛和深入的研究。一是资本结构与公司绩效关系

面板数据分析简要步骤与注意事项(面板单位根—面板协整—回归分析)(2)

面板数据分析简要步骤与注意事项 (面板单位根—面板协整—回归分析)步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板

单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程,Hadri Z统计量的检验原假设为不存在普通的单位根过程。 有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。 如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。 但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均

R软件Logic回归介绍

Package‘LogicReg’ January12,2010 Version1.4.9 Date2010-01-11 Title Logic Regression Author Charles Kooperbergand Ingo Ruczinski Maintainer Charles Kooperberg Depends survival Description Routines for Logic Regression License GPL(>=2) Repository CRAN Date/Publication2010-01-1211:17:05 R topics documented: cumhaz (2) eval.logreg (3) frame.logreg (4) logreg (6) logreg.anneal.control (15) logreg.mc.control (19) logreg.myown (20) logreg.save?t1 (23) logreg.testdat (24) logreg.tree.control (25) logregmodel (26) logregtree (27) plot.logreg (29) plot.logregmodel (31) plot.logregtree (33) predict.logreg (34) 1

2cumhaz print.logreg (36) print.logregmodel (37) print.logregtree (39) Index41 cumhaz Cumulative hazard transformation Description Transforms survival times using the cumulative hazard function. Usage cumhaz(y,d) Arguments y vector of nonnegative survival times d vector of censoring indicators,should b e the same length as y.I f d is missing the data is assumed to be uncensored. Value A vector of transformed survival times. Note The primary use of doing a cumulative hazard transformation is that after such a transformation, exponential survival models yield results that are often very much comparable to proportional haz-ards models.In our implementation of Logic Regression,however,exponential survival models run much faster than proportional hazards models when there are no continuous separate covariates. Author(s) Ingo Ruczinskiand Charles Kooperberg. References Ruczinski I,Kooperberg C,LeBlanc ML(2003).Logic Regression,Journal of Computational and Graphical Statistics,12,475-511. See Also logreg

面板数据模型的稳健分析方法研究

面板数据模型的稳健分析方法研究 在计量经济学领域,面板数据是极其重要的一类数据类型。在宏观经济的研究中,面板数据模型被广泛地应用于汇率决定理论、跨国经济增长收敛理论的检验、产业结构的分析、技术创新的研究等领域;在微观经济的研究中,面板数据模型被大量地应用于企业成本分析、就业、家庭消费等领域。 随着面板数据模型在经济领域的广泛应用,传统面板数据分析方法的某些局限性也逐渐凸显出来。首先,面板数据模型通常假定误差项服从正态分布,而实际数据很难满足这种假定,利用传统方法得到的估计可能是有偏的甚至是无效的。 其次,在数据的收集过程中,常常会由于人为因素或其他因素导致数据受到污染,即出现不合理的异常值,这样利用传统方法得到的估计与真实值可能存在较大的偏差,用这种有偏的估计结果分析经济问题会得出不合理的结论。针对这些局限性,中外学者们做了大量的工作,如构造面板数据模型的稳健估计以及研究面板数据的分位数回归模型,然而,这些方法仍存在一些不足。 首先,针对面板数据模型的稳健估计通常是利用Huber损失函数降低异常值影响,这样有两个缺点:一是稳健性不高,二是有效性较低,即估计的方差较大;其次,若面板数据的分位数回归模型中存在内生性,现有的工具变量方法计算复杂且需要估计大量的冗余参数。论文基于面板数据均值回归模型提出了一种更加稳健有效的估计方法(ELS-EL),并将此方法推广到复杂的面板数据模型如广义线性模型、部分线性模型中;此外,本文基于面板数据的分位数回归模型提出了一种两阶段的工具变量方法(2S-IVFEQR),降低了计算复杂度,并将新方法推广到动态面板数据的分位数回归模型中。 论文的主体框架分为七个章节。第一章,介绍了论文的研究背景、研究意义,

最新 面板数据的自适应Lasso分位回归方法的统计分析-精品

面板数据的自适应Lasso分位回归方法 的统计分析 一、引言 面板数据模型是当前学术界讨论最多的模型之一。传统的面板数据模型实际上是一种条件均值模型,即讨论在给定解释变量的条件下响应变量均值变化规律。这种模型的一个固有缺陷是只描述了响应变量的均值信息,其他信息则都忽略了。然而,数据的信息应该是全方位的,这种只对均值建模的方法有待改进。Koenker等提出的分位回归模型是对均值回归模型的一种有效改进,该模型可以在给定解释变量后对响应变量的任意分位点处进行建模,从而可以从多个层次刻画数据的分布信息[1]。同时,分位回归的参数估计是通过极小化加权残差绝对值之和得到,比传统均值回归模型下二次损失函数获得的最小二乘估计更为稳健[2]。 对于简单的线性模型,与分位回归方法相对应的参数点估计、区间估计、模型检验及预测已经有很多成熟的研究结果,但有关面板数据模型的分位回归方法研究文献还不多见。Koenker对固定效应的面板数据模型采用带Lasso惩罚的分位回归方法,通过对个体固定效应实施L1范数惩罚,该方法能够在各种偏态及厚尾分布下得到明显优于均值回归的估计,然而惩罚参数如何确定是该方法的一个难点[3];罗幼喜等也提出了3种新的固定效应面板数据分位回归方法,模拟显示,这些新方法在误差非正态分布情况下所得估计优于传统的最小二乘估计和极大似然估计,但新方法对解释变量在时间上进行了差分运算,当解释变量中包含有不随时间变化的协变量时,这些方法则无法使用[4];Tian等对含随机效应的面板数据模型提出了一种分层分位回归法,并利用EQ算法给出模型未知参数的估计,但该算法只针对误差呈正态分布而设计,限制了其应用范围[5]。以上文献均是直接从损失函数的角度考虑分位回归模型的建立及求解;Liu等利用非对称拉普拉斯分布与分位回归检验损失函数之间的关系,从分布的角度建立了含随机效应面板数据的条件分位回归模型,通过蒙特卡罗EM算法解决似然函数高维积分问题[6];Luo等则在似然函数的基础上考虑加入参数先验信息,从贝叶斯的角度解决面板数据的分位回归问题,模拟显示,贝叶斯分位回归法能有效地处理模型中随机效应参数[7];朱慧明等也考虑过将贝叶斯分位回归法应用于自回归模型,模拟和实证显示该方法能有效地揭示滞后变量对响应变量的位置、尺度和形状的影响[8]。 然而,上述方法均不能对模型中自变量进行选择,但在实际的经济问题中,人们在建立模型之前经常会面临较多解释变量,且对哪个解释变量最终应该留在模型中没有太多信息。如果将一些不重要的噪声变量包含在模型之中,不仅会影响其他重要解释变量估计的准确性,也会使模型可解释性和预测准确性降低。Park等在研究完全贝叶斯分层模型时提出了一种新的贝叶斯Lasso方法,通过假定回归系数有条件Laplace先验信息给出了参数估计的Gibbs抽样算法,这一工作使得一些正则化的惩罚方法都能够纳入到贝叶斯的框架中来,通过特殊的先验信息对回归系数进行压缩,该方法能够在估计参数的同时对模型中自变量进行选择[9-10]。Alhamzawi等将贝叶斯Lasso方法引入到面板数据分位回归模型中来,使得在估计分位回归系数的同时能够对模型中重要解释变

江苏县域经济要素关系及演化过程的分位数回归_柯文前

第29卷 第5期2013年9月 地理与地理信息科学 Geography and Geo-Information ScienceVol.29 N o.5Sep tember 2013 收稿日期:2013-02-06; 修回日期: 2013-04-23 基金项目: 国家自然科学基金项目(41071084);江苏省研究生科研创新计划项目(CXZZ13_0398) 作者简介:柯文前(1988-),男,博士研究生,研究方向为区域空间结构与区域发展。*通讯作者E-mail:yuzhaoyuan@nj nu.edu.cndoi:10.7702/dly dlxxkx20130516江苏县域经济要素关系及演化过程的分位数回归 柯文前1,陆玉麒1,俞肇元1*,陈 伟2,王 晗1 (1.南京师范大学地理科学学院,江苏南京210023;2.东北师范大学地理科学学院,吉林长春130024 )摘要:针对经典回归模型的“两难问题”,引入非参数的分位数回归构建了要素关系模型,并以江苏县域经济为案例分析。结果表明:1)相比OLS回归,分位数回归对县域经济总体模拟效果和刻画演化特征能力更优;2)根据变量关系结构,将县域经济发展驱动机制划分为产业结构占优型、一般均衡驱动型和高效均衡驱动型;3)苏锡常各县市受因子波动影响而使得驱动机制发生改变导致演化过程的分位点跃迁,表现出发展路径选择具有多样化的特点。 关键词:分位数回归;经济要素关系;演化过程;区域经济;苏锡常 中图分类号:F127 文献标识码:A 文章编号:1672-0504(2013)05-0072-06 0 引言 区域经济增长与差异演化特征的影响机理分析是区域经济学与经济地理学研究的核心,区域经济系统是多要素(多变量)影响下具有复杂的开放系统, 不同要素组合将形成不同驱动作用。从影响因素出发,利用多指标建立不同地区经济发展的要素关系模型是进行影响机理及时空过程分析的主流手 段[1-5 ]。传统以OLS为代表的经典回归模型在参数 估计方面面临强条件假设和序列检验的“两难问题”,很难全面揭示具有时空多尺度与动态性特征的各类分布信息,尤其体现在极端地区的拟合效果上,导致其分析适用性减弱。分位数回归可通过多个不同分位函数来估计整体模型,相比OLS均值回归模型,该方法放松了正态假设,可从数据的不同分布位置与形状入手,在全面刻画因变量分布特征基础上,对自变量与因变量的条件分布进行统计性描述,不仅在处理非正态、非平稳经济数据方面有更好的解 释,更可最大限度挖掘已有数据中的相关信息[ 6-8 ],从而准确捕捉具有尖峰、厚尾等极端样本的分布特 征。由于该模型估计具有稳健性与鲁棒性[9,10] ,在 有效揭示变量分布与时空过程的内在关系方面显示出独特的优势。 江苏省自改革开放以来,人均GDP由430元升至1990年的2 103元再到2010年的52 448元,区域经济实现了快速增长,成为中国沿海地区发展最快与最具活力的省份之一。然而,区域经济的快速 发展导致区域内部的差异也逐渐扩大,1990年苏南地区发展最快的无锡市区人均GDP达6 433元,而苏北的铜山县人均GDP仅为499元,相差13倍;到了2010年发展水平最高与最低的县市差距更加悬殊, 丰县仅为昆山市的4%,相差高达23倍。在此差异基础上形成了以苏北、 苏中和苏南不同发展水平主导的极端不平衡的区域经济格局。鉴于江苏区域经济差异的典型性与代表性,本文拟以江苏省2000-2010年13个地级市市区和50个县域(包括县级市)共63个县级尺度的空间单元作为实证研究对象,从区域经济发展影响因素的作用过程出发,以分位数回归建立人均GDP为代表的区域经济发展要素关系模型,在较为全面刻画所有样本的分异特征基础上, 深入挖掘不同时期苏锡常等地区要素作用与经济发展的时空分异特征,一方面拓展分位数回归在区域经济发展领域的应用;另一方面,为本区及其他地区经济发展提供决策参考。 1 基本模型与影响因素 1.1 分位数回归模型 若一组独立变量X与响应变量Y满足高斯-马尔可夫假设,两者间OLS均值回归表达式的条件概率表达为:E(y|x)=Xβ, 即因变量相对自变量条件概率的数学期望。考虑Y的条件分布函数为Fy( y|x),则τ分位数为:Q(τ|x)=inf{y:Fy(y|x)≥τ},τ∈(0,1),从而可得线性条件分位数的一般表达式为:Q(τ|x)=X′β( τ)。与一般均值线性回归参数估计普遍采用

无条件分位数回归文献综述与应用实例上

无条件分位数回归:文献综述与应用实例(上) 朱平芳张征宇 2013-1-7 11:17:39 来源:《统计研究》(京)2012年3期第88~96页 内容提要:条件分位数回归(conditional quantile regression,CQR)方法已成为经济学实证研究的常用方法之一。由于CQR 结果的经济学阐释基于过多甚至是不必要的控制变量,这与人们所关心的问题有可能并不一致。例如,在劳动经济学对教育回报的研究中,无论个体的年龄,性别与家庭特征如何,教育程度对于个人收入的异质性影响是人们关注的重点,即人们想了解收入关于教育程度的无条件分位数估计。本文旨在介绍近年来发展起来的无条件分位数回归(unconditional quantile regression,UQR)技术并梳理相关文献。特别地,本文介绍三种重要的无条件分位数回归模型:Firpo,Fortin和Lemieux(2009)提出的再中心化影响函数(recentered influence function,RIF)回归,Frolich和Melly(2010)提出的无条件分位数处理效应模型与Powell(2010)提出的一般无条件分位数回归。另外,论文还运用一个研究居民收入分配格局变化对其医疗支出影响的实例详细说明了新方法的应用。 关键词:条件分位数回归无条件分位数回归 RIF回归处理效应模型 作者简介:朱平芳(1961-),男,浙江兰溪人,1987年毕业于上海财经大学应用统计专业,获经济学硕士学位,2005年毕业于上海社会科学院经济研究所,获经济学博士学位,现为上海社会科学院数量经济研究中心主任,研究员,博士生导师,兼任中国数量

定量研究案例

一篇转帖的文章,作者真的很强大! 本文的缘起: 当初一个舍友来自西部地区,从没学过计量(OLS都没学过)。但毕业论文老板要求用数据说话,发愁。我于心不忍,告诉她:我每天晚上自习回来,睡觉前花10分钟给你讲解一下STATA的操作和出来的各项结果意义。第一天,我讲了OLS。画了一张散点图和一根直线,用了1分钟就让她完全理解了OLS的精髓,这是用来干啥的。后面9分钟讲解了STATA的操作和OLS的各种变种。结果只一个星期,讲完五种方法(下面会介绍),她信心大增。后来一下子发了好几篇CSSCI,计量做的天花乱坠,让人误以为是一个大师。毕业论文也顺利通过。她说我的方法是当今世界上最快的计量速成法。她说,以后有时间要好好看看计量书,打打基础。我推荐她读伍德里奇的那本现代观点。但她论文发表了好多篇,至今还没看那本书。问其原因:“看了一下OLS,跟你讲的没啥区别,就是多了些推导。那些推导看不看都不影响我用软件。现在没空看,先发论文再说。” 我笑其太浮躁。但后来想想,这种学习方法不一定适合所有人,但或许适合一部分人群。因此有必要写出来让这部分人群都有所收获,不会因为发不了CSSCI而担忧,不会因为毕业论文不会做计量而担忧。因此有了本文。你是不是属于这样的人群?请看下面: 本文的目标人群: 1、不懂计量的人; 2、想学计量却苦于缺乏时间的人; 3、想学计量却看不懂、推导不了那些恐怖矩阵的人,也就是不想看推导过程,也想发论文的人。 4、不想看计量书,却想写计量论文,发几篇CSSCI,尽快毕业的人。 5、所有想速成的人。 但是目标人群一定要能看懂STATA软件操作手册的人(或者其他软件操作手册)。如果你不认得手册上的字,不要来告诉我。我也不认得。如果你能找到一个懂STATA、EVIEWS的人给你讲解一下,那么你看不懂手册也无所谓。 本文的目标:不看计量推导、不看计量书籍就能发计量论文,而且是大规模批量生产计量论文,甚至是发经济研究和管理世界。 目标能否实现:取决于你能否掌握本黑客教程的内容,能否阅读软件手册。 申明:不是教你如何抄袭作弊,而是教你写计量论文的方法和捷径。

用R语言进行分位数回归

用R语言进行分位数回归:基础篇 詹鹏 (师大学经济管理学院) 本文根据文献资料整理,以介绍方法为主要目的。作者的主要贡献有:(1)整理了分位数回归的一些基本原理和方法;(2)归纳了用R语言处理分位数回归的程序,其中写了两个函数整合估计结果;(3)写了一个分位数分解函数来处理MM2005的分解过程;(4)使用一个数据集进行案例分析,完整地展现了分析过程。 第一节分位数回归介绍 (一)为什么需要分位数回归? 传统的线性回归模型描述了因变量的条件均值分布受自变量X的影响过程。其中,最小二乘法是估计回归系数的最基本方法。如果模型的随机误差项来自均值为零、方差相同的分布,那么回归系数的最小二乘估计为最佳线性无偏估计(BLUE);如果随机误差项是正态分布,那么回归系数的最小二乘估计与极大似然估计一致,均为最小方差无偏估计(MVUL)。此时它具有无偏性、有效性等优良性质。 但是在实际的经济生活中,这种假设通常不能够满足。例如当数据中存在严重的异方差,或后尾、尖峰情况时,最小二乘法的估计将不再具有上述优良 性质。为了弥补普通最小二乘法(OLS)在回归分析中的缺陷,1818年Laplace[2]提出了中位数回归(最小绝对偏差估计)。在此基础上,1978年Koenker 和Bassett[3]把中位数回归推广到了一般的分位数回归(Quantile Regression)上。 分位数回归相对于最小二乘回归,应用条件更加宽松,挖掘的信息更加丰富。它依据因变量的条件分位数对自变量X进行回归,这样得到了所有分位数下的回归模型。因此分位数回归相比普通的最小二乘回归,能够更加精确第描述自变量X对因变量Y的变化围,以及条件分布形状的影响。 (二)一个简单的分位数回归模型[4] 假设随机变量的分布函数为 (1) Y的分位数的定义为满足的最小值,即 (2) 回归分析的基本思想就是使样本值与拟合值之间的距离最短,对于Y的一组随机样本,样本均值回归是使误差平方和最小,即 (3) 样本中位数回归是使误差绝对值之和最小,即 (4) 样本分位数回归是使加权误差绝对值之和最小,即 (5) 上式可等价表示为: 其中,为检查函数(check function),定义为:

面板数据分位数回归的一个简单方法

Econometrics Journal (2011),volume 14,pp.368–386. doi:10.1111/j.1368-423X.2011.00349.x A simple approach to quantile regression for panel data I VAN A.C ANAY ? ? Department of Economics,Northwestern University,2001Sheridan Rd,Evanston, IL 60208,USA. E-mail:iacanay@https://www.360docs.net/doc/a717692690.html, First version received:May 2010;?nal version accepted:April 2011 Summary This paper provides a set of suf?cient conditions that point identify a quantile regression model with ?xed effects.It also proposes a simple transformation of the data that gets rid of the ?xed effects under the assumption that these effects are location shifters.The new estimator is consistent and asymptotically normal as both n and T grow. Keywords:Deconvolution ,Panel data models ,Quantile regression ,Two-step estimator . 1.INTRODUCTION Panel data models and quantile regression models are both widely used in applied econometrics and popular topics of research in theoretical papers.Quantile regression models allow the researcher to account for unobserved heterogeneity and heterogeneous covariates effects,while the availability of panel data potentially allows the researcher to include ?xed effects to control for some unobserved covariates.There has been little but growing work at the intersection of these two methodologies (e.g.Koenker,2004,Geraci and Bottai,2007,Abrevaya and Dahl,2008,Galvao,2008,Rosen,2009,and Lamarche,2010).This initial lack of attention is possibly due to a fundamental issue associated with conditional quantiles.This is,as it is the case with non-linear panel data models,standard demeaning (or differencing)techniques do not result in feasible approaches.These techniques rely on the fact that expectations are linear operators,which is not the case for conditional quantiles.This paper provides suf?cient conditions under which the parameter of interest is identi?ed for ?xed T and shows that there is a simple transformation of the data that eliminates the ?xed effects as T →∞,when the ?xed effects are viewed as location shift variables (i.e.variables that affect all quantiles in the same way).The resulting two-step estimator is consistent and asymptotically normal when both n and T go to in?nity.Also,the new estimator is extremely simple to compute and can be implemented in standard econometrics packages.The paper is organized as follows.Section 2presents the model.Section 3provides an identi?cation result based on deconvolution arguments.Section 4introduces a two-step estimator for panel data quantile regression models.Asymptotic properties of the new estimator are presented in the same section.Section 5includes a small Monte Carlo experiment to study the ?nite sample properties of the two-step estimator.Finally,Section 6concludes.Appendix A provides proofs of results.An estimator of the covariance kernel and the bootstrap method are given in Appendix B. C 2011The Author(s).The Econometrics Journal C 2011Royal Economic Society.Published by Blackwell Publishing Ltd,9600 Garsington Road,Oxford OX42DQ,UK and 350Main Street,Malden,MA,02148,USA. Journal The Econometrics

相关文档
最新文档