第五章面板数据模型
Chaper5 面板数据模型
在联立方程模型中,我们已接触到面板数据模型,它仅是作为一种特殊的联立模式来讨论的。不同时间,到不同个体不加区别,仅是一种普通样本,采用POLS 方法处理。不同时间段和不同个体的特征没有考虑,而这些特征往往有明确的经济背景。本章以存在不可观测效应(Unobserved effect )的现代观点重新阐释面板数据模型。
不可观测效应的含义是,从不同时间抽取的样本数据中,存在一个相对时间不变的不可观测的因素,称为异质性。例如,样本个体选择家庭而言,认知、动机、遗传等;样本个数选择企业而言,管理水平,创新能力等。如何处理这些潜在因素?除了前述的代理变量和多指标工具变量法外,合理应用面板数据的特征就是本章讨论的问题。此外,面板数据作为截面数据和时间序列数据动态混合,能反映模型的动态结构,故也可作为分析的内容加以讨论。深入的分析面板数据是学习时间分析之后,本章只是一个初步。合理运用面板数据,能给我们带来很多有意义的统计信息和模型。请看例: 例1:职业培训的评价:
欲评价培训的效果,(或实施某一政策的效果),一个标准的评价模型是:
it i it it t it U C prog Z y ++++=1δγθ
这里t 为二期,t=1,2; t θ表示随时间变化的项,it Z 是可观察的影响因素Y 的随机变量;it prog 是虚拟变量,参加第二期培训为1,其它为0;i C 为个人是否选择接受培训的选择,它是不可观测的,是一个与个人相关的与t 无关的潜在因素。又为了消除政策因素外的其它影响,又在每个时间段中将Y 分成控制组B 和对照组A 两部分。在t=1,无人处在控制组,在t=2,部分人处在控制组部分人处在对照组。并再设置一个虚拟变量2d ,表示如t=2,处在控制组为1, 其余为为0。模型构成为:
it i it it t t it U C prog Z d y +++++=12δγβθ,
则参数1δ就反映了政策因素对Y 的贡献。检验:
0H :1δ=0.接受0H 说明培训效果不是很显著。
例2:R &D 的分布滞后模型
it i it it it it t t it U C RD RD RD Z d patents ++++++++=--551102δδδγβθΛ
这里it RD 是厂商i 在t 期用于R &D 的投入,滞后过去的投入对现在的影响。
it patents 是专利收入,i C 是不可观测的企业i 内在的与时间段无关的因素;则1δ,
2δ,3δ,4δ,5δ反映的就是技术研究投入对企业的贡献。面板数据有广泛的来
源,有大量的应用背景,并针对不同的问题设计的各种不同的模型。
先回忆联立方程模型中的PD 模型的假设条件:t t t U X y +=β,T t ,,1Λ= 假定:Pols1: 0)(='t t U X E ,T t ,,1Λ=; Pols2:
k X X E t t T
t ='∑
=)(1
,T t ,,1Λ=
Pols3:
2'2'22'
.()(),().()0
t t t t t t t s s a E u X X E X X u t b E u u z z σσ==?=
注意,Pols1并没有要求s X 与t U 不相关,t s ≠;Pols2仅仅是排除t X ,
T t ,,1Λ=的完全共线性,以保证β可识别。
于是可行一致的Pols 估计??
? ??'??? ??'=∑∑∑∑==-==N i T
t it it N i T t it it y X X X 111
11?β=()()Y X X X ''-1,在假定Pols3下
()
[]N X X E A i
i /)(?var 12-'=σβ,所以
()
12)(??var -'=X X A σβ
,
K NT u N
i T
t it -=∑∑==/??11
2
2
σ,又当t X (1×K )向量有某些解释变量同t U 相关,令t Z (1×L 向量,L ≥K )是工具变量,且满足工具变量的假定条件,那么P2SLS 估计为:
1)t X on t Z ,得t X ?,T t ,,1Λ=; 2)t y on t
X ?,得P2sls β?估计为: ()[]
()[]Y Z Z Z Z X ZX Z Z Z X '''''=--1
1?β
下面在上述PD 模型的基础上,扩展各种特色的PD 模型和估计检验方法。
第一节 不可观测效应模型和严格外生性假定
设不可观测效应模型(UEM )为:it i it it U c X y ++=β,T t ,,1Λ=。这里,
i c 作为不可观测的与时间无关的个体特有的潜在变量(latent variable )也称为不可观测的差异性(unobserved heterogenity )。它是面板数据基本模型的特色。
由于i c 是一个不可观测的个体特有的随机变量,关键是要看i c 与解释变量
it X 是否相关:若认为i c 与it X 不相关,则作为随机效果处理,将i c 与it U 合并it V =
i c +it U ;若认为i c 与it X 相关,则作为固定效果处理。
面板数据现代观点的另一个重要特点是,时间不是给定的,即可观测的it
X 可无限抽样。从而存在当前结果it y 对未来原因t s X is ≥,的反馈(feedback ),导致it X 与is X 之间复杂相关关系,为消除这种复杂性,引入严格外生性假定:
对T t ,,1Λ=,有),,,|(21i it i i it c X X X y E Λ=),|(i it it c X y E =i it c X +β 含义是,一旦it X 和i c 给定,那么对t s ≠,is X 对it y 没有边际影响(直观理解是,it y 取与如前的it X 相关,而与其它的时间s 无关)。
由于i c 不可观测,一个更严格的外生性假定:
),,|(21iT i i it X X X y E Λ=)|(it it X y E =βit X
Θ),,|(21iT i i it X X X y E Λ=βit X +),,|(21iT i i i X X X c E Λ
∴如果()i iT i i i c E X X X c E ≠),,|(21Λ,即i c 与某一it X 相关,则更严格的外生
假定就不成立。
∴UEM 模型在严格外生假定下,实际应用中能被用误差项it U 表述成:
),,,|(21i it i i it c X X X U E Λ=0, T t ,,1Λ= (1)
于是,推出),(it is U X E '=0, T t s ,,1,Λ=? (2)
注:(1)意味着i c 和it X ,t ?与it U 都是不相关的,而(1),(2)i c 与某it
X
相关没有要求i c 与it X t ?是相关的,但不影响估计的一致性,会影响检验。一般,在UEM 下,我们总假定更强的(1)成立。
于是,UEM 可以改写成:it i it it V c X y ++=β,T t ,,1Λ=
it V 称为复合误差。
如果 ),(it is
V X E '=0, (3) 那么我们就可以采用Pooled OLS 方法,得到POLS β
?。这当然不是本章的意思。因为复合误差it V 有许多信息没有提取出来。用“粗”的POLS 方法显然能得到β的一致估计。但在有限样本时,估计很差,而且统计推断需要用稳健的方法矩阵估计和采用稳健的检验量形式。这样,面板数据就没有提供任何其它帮助。又当it X 中如果包含某项与i c 含有it y 的滞后项1-it y ,由于1-it y 与i c 相关,从而条件(3)就不成立,Pooled OLS 估计就不再是一致的,就不能用了。
对于面板数据的基本模型,在更强的假定条件下,可采用不同的统计方法,能取得更好的估计和推断效果。最基本的有随机效果(RE )、固定效果(FE )和一阶差分(FD )三种方法。
第二节 随机效果方法
一、关于模型与估计
对模型it it it V X y +=β;it V =i c +it U ;T t ,,1Λ=, 假定RE1:(a )),|(i i it c X U E =0, T t ,,1Λ=
(b ))|(i i X c E =0=)(i c E ,
i X '=()it i i X X X ,,21Λ,且i X 中包含有截距项,如设it X =1.所以无妨设 )(i C E =0,不失一般性。条件(b )意味着i c 是与t 无关的个体特征。
从而,0)(='i i c X E ∴,0)(='it it
V X E 将it it it V X y +=β接到T t ,,1Λ=写成紧凑的矩阵式:
i Y =????? ??iT i y y M 1=????? ??iT i X X M 1β+???
?
?
??iT i V V M 1=i X β+i V ,
i V =i c T J +i U
又设Ω=,0)(='i t V V E
假定RE2:秩)(1i i X X E -Ω'=k, Ω=)(i t V V E ' 进一步,对复合误差的方差和协方差有如下信息: (1))(2it U E =2u σ,T t ,,1Λ= (与个体无关) (2))(is it U U E =0, s t ≠? (与时间不相关) 从而,)(2it V E =)(2i C E +2)(it i U c E +)(2it U E ,
由RE1.a )(it i U C E =0,又记)(2i C E =2C σ,则)(2it V E =2
C σ+2u σ。 同样,对于s t ≠?,)(is it V V E =)(it i U C E +)(is i U C +=2C σ
因此,有Ω=)(i t V V E '=???
?
?
?
?++222
22
2U
C U C
U C σσσσσσO
=2u σT I +2
C σT
T J J ',称为
随机效果结构。其中,1100T I ??
?
= ?
?
??L M O
M K
,1
11T T J ???
?= ? ??
?M
又把(1),(2)用统一的条件期望的形式表达成如下 假定:RE3. (a )),|(i i i i c X U U E '=2u σT I ,
(b ))|(2i i X C E =2
C σ,
注:假定RE3,条件比(1)(2)更强。
1、在假定RE1-3下,模型满足联立式GLS 方法的一切条件,如果我们知道2C σ和
2u σ的估计,那么可得Ω?=2?u σT I +2?C σT T J J ',就可得到更有效的效果估计,RE
β?=??
? ??Ω'??? ??Ω'∑∑=--=-N i i i N i i i Y X X X 111
11??,且RE β?是一致的,并在一致估计类中是有效的。 下面完成2C σ和2u σ的估计。 由)(2it V E =2C σ+2u σ=2V σ,t i ,?
设β??是β的Pooled OLS 估计,即β??=??
? ??'??? ??'∑∑=-=N
i i i N i i i Y X X X 11
1,由条件知,β??是一致的。从而可得it σ?=it y -it X β??,t i ,?。由大数律,2?V σ=
∑∑==N
i T
t it V NT
112??1
?→?
P
2V σ。为保证有限样本时的精度,修正为(减去K 个自由度)2?V σ=?→?P
2V σ,不会影响渐近性。
又由)(is it V V E =2
C
σ,∴)(1
11
is it T t T
t s V V E ∑
∑-=+==∑∑-=+=1
11
2
T t T
t s C σ=
2
2
)1(C T T σ- ∴减去K 个自由度,得到2
C σ的一致估计为:
2?C
σ
=is
N i T
t s it
T T V V K
N
?
???111
2
)1(∑∑=+=--
并由此得到,2?U σ=2?V σ-2
?C σ
注:1、2?C σ有可能为负值,可能是it U 中关于t 存在负序列相关性。此意味着RE3
(a )不成立,需要选择更一般的Ω估计做FGLS 。如Ω
?=i N
i i V V N
????11
'∑=,i V ??=i Y -
β
??i X ,但当N 不是充分大的时候,由于Ω?有2
)1(+T T 个被估参数,所以,有i V 限样本的性质很差。而当RE1-3成立时,对任意T 只要估计二个方差参数。
2、当RE3不成立时,则Ω没有随机效果结构,若没有其它信息作为限制,
一般改用Ω
?=i N
i i V V N
????11'∑=,其中i
V ??是Pooled OLS 估计的残差,再回来联立式的FGLS 方法,这就失去了面板数据的特色。特别地,尽管RE3不成立,但如果{
}it U 服从一个稳定的一阶自回归过程(it U =t it V U +-1ρ,i V iid )那么可以得到Ω=
)(i i U U E '+2
C σT
T J J ',)(i i U U E '=2?U σT
T T T *1111
?????
???
??--ρ
ρ
ρρρρ
O
,则Ω只有ρ、2C σ和2u σ三个未知参数,从而也能得到好的RE
β?(ρ估计采用CO 迭代法,略)。 二、关于检验
关于随机效果的检验,即不可观测的i C 的影响是否存在?检验的命题自然
是,0H :2C σ=0.关于0H 的检验,我们可用一阶自回归的AR (1)检验。(0H :
ρ=0),如果误差项it V 关于t 的检验被检验出是AR (1)过程,0≠ρ,0H 不成
立,则随机效果的影响存在。
另一个基于Lagrange 乘子的检验,0H :2
C σ=0的方便方法是,统计量:
2
1
12
1111111
???
???
?
???????? ??∑∑∑∑∑∑=-=+==-=+=N i T t T t s is it N i T t T
t s is
it
V V V V ~N (0,1)
这里it
V ?是Pooled OLS β?的残差。
第三节 固定效果方法
一、 关于模型与估计
认为基本模型中it i it it U c X y ++=β,T t ,,1Λ=中不可观测的因素i C ,?i 可以是相关的,则复合误差it V 必与it X 中某个解释变量是相关的。因此随机效果的观点就不合适。于是将i C 单列为一个仅与i 有关的参数,将基本模型按列排与矩阵形式:t T i i i U J c X Y ++=β,其中T J 是T ×1的每个元素为1的向量。 为消除不可观测影响i C 对FE 模型t 求和,并求平均,即
∑=-=T t it i y T y 1
11,∑==T t it i X T X 11,∑==T
t it i U T U 11, 于是有:i i i i U c X y ++=β,∴it y -i y =()i it i it U U X X -+-β,
记it y &&=it y -i y ,it X &&=it X -i X ,it U &&=it U -i U ,则it y &&=it X &&β+it U &&,
称为去时间平均模型。这又回到联立式的面板数据模型。可用POLS 的条件
)(it it U X E &&&&'=0和秩)(it it X X E &&&&'=K 。回到原模型就是:(
)i it i it U U X X E -'-)(=0. 于是就可推得固定效果模型的假定条件为: 假定:FE1:),|(i i it c X U E =0, T t ,,1Λ=
?)|(i it X U E &&=)|(i
it X U E -)|(i i X U E =0 ?),|(,1iT
i it X X U E &&Λ&&&&=0, ∴POLS 条件成立 ∴it y && on it X &&,T t ,,1Λ=, i=1,…N 。
可得FE β?,具体的,令T Q =()T T T T T J J J J I ''--1,则T Q 对称,且秩T Q =T -1.满足T Q T J =0, i J Y Q =i Y &&,T Q i X =i X &&,T Q i U =i U &&,从而T
Q 乘以模型i i i U X Y +=β,可得i i i U X Y &&&&&&+=β。 假定:FE2:秩)(it it X X E &&&&'=K ,对N i ,,1Λ=抽样,可得:
FE β?=??? ??'??? ??'∑∑=--N i i i N i i i Y X X X 111&&&&&&&&=??
? ??'??? ??'∑∑∑∑==--=N i it it T t N i it it T t Y X X X 111
11&&&&&&&&
假定:FE3:),|(i i i i c X U U E '=2u σT I ,
?),|(i i it c X U Var =2
u σT I ,
(再由FE1成立) ?),|(i i i i c X U U E '=)(i i U U E '=2
u σT I 。
此意味着it U 关于t 具有同方差性和序列不相关性。
∴)(2it U E &&=2)(i it U U E -=2it EU +2i U E -2)(i it U U E
=2
u
σ+T u 2σ-2T u 2σ=??
?
??-T u 112σ
又)(is it U U E &&&&=(
)i is i it U U U U E --)( =)(is it U U E -)(i it U U E -)(i is U U E +)(2i U E
=0-T 2σ-T 2
σ+T u 2σ=-T
u 2
σ<0.
∴相关系数ts r =)(is it U U Corr &&&&=
[]
2
1
)()()
cov(is it is it U Var U Var U U =-
1
1-T 所以,去时间平均的误差it U 是负相关的,且当T ∞→相关性趋于0.可以证
明,FE β?是N 正态的,且)?(FE AVar β=2u σ()[]
N X X E i
i /1
-'&&&& 为求得2u σ的一致估计2?u σ,由)(2it U E &&=2u σ(T
11-
),对t 求和,得: (T-1)2u
σ=
)(2
1it
T
t U
E ∑
=。再对i 求和,得:N(T-1)2u
σ=
)(21
1
it T
t N i U E ∑
∑==
∴2
u σ=
)
1()
(21
1
-∑
∑==T N U E it T
t N
i 。用it
U ?=FE it it X Y β?-&&代替it U ,其中FE β?是it Y && on it X &&用Pooled OLS 方法所得。于是,可得到2u σ的一致估计为:
2?u
σ=[]
K T N SSR --)1(,其中SSR =
∑∑==N i T
t it
U
11
2
?
∴)?(FE AVar β=2?u σ()1
-?
?
????'∑∑it it X X &&&&
二、 关于检验
1、在FE1~3条件成立的前提下,β有Q 个限制的整体性检验,直接用F 统计量的残差形式: F =
[]Q
K T N SSR SSR SSR ur ur r --?
-)1( 此外,对潜在的异方差性因素i C ,可粗略地用:i C ?=FE i i X Y β?&&-,N i ,,1Λ= 如果T 充分大,i
C ?能反映i C 的信息。 2、当FE3不成立时,例如it U 存在序列相关性,F 检验就不再适用。但有渐近方差估计,改用Wald 检验,且渐近方差矩阵为:
)?(FE AVar β=()()111
??-=-'??
? ??'''∑X X X U U X X X N
i i
i i i &&&&&&&&&&&&。 当然也可以用排除序列相关求得Ω,再用FGLS 的方法,不再详细讨论。
第四节 一阶差分方法
一、 关于模型与估计
对基本模型it i it it U c X y ++=β,T t ,,1Λ=,
关于t 作差分变换,也可消除i C ,得it it it U X y ?+?=?β,T t ,,2Λ=
比较FE 方法,it it it U X y &&&&&&+=β区别仅在于失去了一个T =1的样本。
类似于FE 方法。一阶差分方法FP 的假定条件是:
假定:FD1:()it it
U X E ?'?=0, T t ,,2Λ=。此意味着is X 与it U 对一切的s,t 是不相关成立时,FD1成立;
假定:FD2:秩()it it
T
t X X E ?'?∑=2=K 假定:FD3:),|(i i i i c X U U E '??=2e σ1-T I
这里将T t ,,2Λ=按列写成矩阵式:i i i U X Y ?+?=?β,其中误差项的差分i
U ?意味着it U =it it e U +-1,是随机行走。这是一种特殊的序列相关。从而由POLS ,
可得FD
β?和)?(FD AVar β=2e σ()1-?'?X X 具有连续的序列依赖性。它是FE3假定,it U 序列不相关的另一个极端。且由it e ?=FD
it it X Y β??-?,得2e σ的一致估计为: 2
?e
σ
=()[]∑∑-=---N i T
t it
e
K T N 12
21
?1,
又当FD3不成立,则稳健的异方差矩阵估计为:
)?(FD
AVar β
=()
1
-?'?X X ??
? ???'?∑=i i i N i i X e e
X ??1()1
-?'?X X 二、 关于检验
欲检验条件FD3成立,即检验it e 的序列相关性,代替转向检验it e ?的序列相关性:it e
?=it it error e +-11??ρ,T t ,,3Λ=,N i ,,1Λ=。0H :1?ρ=0,接受0H .则FD3成立,拒绝0H ,原方差要采用稳健的异方差矩阵。
注:采用一阶差分法的理由是,它比固定效果方法简便,但当it U 不存在序列相关时,FE 方法更有效。而it U 当服从一个随机行走时,则FD 方法更有效。实
际的情况是,介乎于两者之间。it U =it it e U +-11?ρ
有(1,0≠≠ρρ)我们可采用FGLS 的方法提高有效性。
第五节 三种方法RE ,FE ,FD 的比较
一、 固定效果和一阶差分的比较
如果FE β?与FD
β?相差很大,有理由相信怀疑的严格外生性假定不成立。因为
任何内生性问题都会产生it X 与it U 现时的相关性。导致FD 和FE 方法的不一致及不同的概率极限。(t ∞→)此外,如果it U 与is X ,t ≠s 也会引致FD 和FE 估计的不一致。
我们可以采用豪斯曼检验验证二个结果的一致性,来验证严格外生性条件是否成立。但更方便的基于回归的检验方法是:
1、对FD :t t t t U W X Y ?++?=?γβ,T t ,,2Λ=
其中t W 是t X 的部分,(不包括时间的虚拟变量)。t X =()t t X X 21,,t W =t
X 2(K2列)。做OLS ,
0H :γ=0,
FD1-3成立时,用F 统计量,FD3不成立用Wald 统计量。接受0H 表示严
格外生假定成立,FD
β?是一致的。 2、对FE :it i it it it U C W X y +++=-δβ1,1,,t T =L 同样,1+it W 是1+it X 的子集,做FE 估计。
0H :δ=0,再进行固定效果的检验。接受0H ,表示严格外生性成立,固定
效果估计有一致性。
注:通过了严格外生性假定,可对FD 或FE 模型再用可行的广义最小二乘
估计(FGLS )方法,Ω=
i
N
i i
U U N
'∑=??11,其中i
U ?是FD 或FE 估计的残差,可提高估计有效性。
二、 随机效果与固定效果的比较
模型采用随机效果还是固定效果。我们知道,如果不可观测变量i C 与it X 是不相关的,0)cov(=it i X c ,那么随机效果估计就应当有比固定效果估计更小的方差。问题是,i C 不可观测,无法检验。因此,我们需要把随机效果通过适当的变换,以便同固定效果进行比较。
因为随机效果结构是,Ω=2u σT I +2
C σT T J J '。注意到T T J J '=T , 所以,Ω=2u σT I +T 2
C
σ()T T T T j j j j ''-1
=2u σT I +T 2C σT ρ=(2u σ+T 2C σ)(T ρ+T Q η)
其中T ρ=T I -T Q =()T T T
T j j j j ''-1 η=
2
22
C
u u T σσσ+
定义 T S =T P +T Q η,那么T S 1-=T P +T Q η
1
。
所以,T
S
2
1-
=T P +
T Q η
1
(即T
S
2
1-
×T
S
2
1-
=T S 1-)
=T P +()T T P I -η
1
(1T T I P ?
?-?? =
[]T T P I λλ
--11
(2
12
2211???
? ??+-=-=C u u
T σσσ
ηλ) 因此,2
1
-Ω
=(
)
2122-+C
U
T σ
σ[]T T P I λλ
--11
=
T T u
P I λσ-1
如果λ已知,即2C
σ和2u
σ已知,则2
1-Ω已知。
用T C =T T P I λ-乘RE 模型,i i i V X Y +=β两边得:
T C i T i T i V C X C Y +=β,即i i i V X Y ~~~+=β,则:()
i i V V E '~
~=T C ΩT C =2u σT I 且:T C i Y =(T T P I λ-)i Y =i Y -λi Y ,即it y -λit y ~
T C i X =(T T P I λ-)i X =i X -λi X ,即it X -λit X ~
因此有:it y -λi y ~
=(it X -λi X ~)β+it V -λi V ~
在RE3成立的条件下,用POLS 可得2
C σ和2u σ的一致估计,从而可得λ的一
致估计λ
?。再对it y ~ on it X ~,做POLS ,可得:
RE β?=1
11~~-==??? ??'∑∑it N i T t it X X ??
? ??'∑∑==it N i T t it y X 11~ 称为拟去时间平均,可以看出,λ?=1-2
122??11??????
?
??
+u c T σσ ∴当T →∞或22??U C σσ→∞,λ?→1,此时,随机效果模型就回到了固定效果模型。特别是,潜在因素i C 在模型的误差项中占主导地位。2
?C σ>>2?u σ
,即使T 很小,FE 和RE 也没有很大区别。
下面我们证明,当条件RE1-3成立时,则随机效果模型估计就有比固定效果估计更小的方差。
设it X 只包含时间变化的因素,不包含有关于时间常数的因素。那么,
)?var(FE A β=()12
-'i i u X X E N
&&&&σ, )?var(RE
A β=()
1
2
~
~-'i
i u X X E N
σ
其中it X &&=it X -i X ,it X ~=it X -λi X
∴()
1
~~-'i
i X X E -()
1-'i
i X X E &&&& =()i T T i X P I X E λ-'-()i T T i X P I X E -' =(1-λ)()i T i X P X E ' =(1-λ)T ()i i X X E '>0
∴1)?var(-RE A β-1)?var(-FE
A β是正定的。 ∴)?var(FE A β-)?var(RE
A β是正定的。命题得证。 为要严格检验RE 和FE 的效果,采用如下的Hausman 检验。设it X 是已包含时间变化的解释变量,共有M 个。0H :FE β-RE β=0. Hausman 统计量:
H =()()()()()
RE
FE
RE
FE RE FE AVar AVar ββββββ??
????1
--'--。 拒绝0H ,意味着两个估计有显著差异,即认为潜在变量i C 与it X 是相关的。应当采用固定效果的方法。
注:)?var(FE A β和)?var(RE
A β中的未知方差2u σ,要用统一的一致估计2?u σ 另一种基于回归形式的F 统计量方法是:
it
it it it error W X y ++=ξβ&&~~,T t ,,1Λ=,N i ,,1Λ= 其中it y ~和it X ~是似去时间的平均。其中λ用λ?代替,it
W 是it X 中随时间变化的子集。设有M 个。it
W &&是去时间平均。 那么0H :ξ=0,得到: F =
[]M
M K NT SSR SSR SSR ur ur r --?-~F (M ,NT -K —M ) 接受0H ,意味着RE1-3成立。采用随机效果,拒绝0H ,采用固定效果。
注:有可能出现这样的情况,FE β?与RE
β?相关很大,但它们的方差也相差很大,使得H 统计量很小,导致不能拒绝0H 而采用随机效果模型,而实际上,我们可能犯了第二类错误:it X 与i C 相关,0H 真,但我们不能拒绝0H 。
第六节 一些深入的专题
本节处理一些严格外生性条件不成立时和处理一些具有更多个体特征的面
板数据模型。它们都有广泛的实际应用背景。 一、 模型
在基本模型it i it it U c X y ++=β(T t ,,1Λ=)中,把严格外生假定:
),,|(1i iT i it c X X U E Λ=0改成),,,|(11i i it it it c X X X U E Λ-=0(T t ,,1Λ=),即it
U 与it X (T t ,,1Λ=)的过去t,t-1,…1是严格外生的,而与is X ,s>t 可能是序列相关的。我们称it X 是与不可观测因素i C 有序列式条件外生效应。(Sequencially exogenous conentional on the unobserved effect )
例如:it i it it it U C W Z y +++=δβ,1,,1-=T t Λ。这里it Z 是严格外生的,且it W 是序列式条件外生的。因此有),,,|(11i i it it it it c W W W Z U E Λ-=0. 特别,it W =it i 11r C +++-ψρξit it y Z ,
则it W 是满足序列式条件外生的条件,所以当1ρ≠0,严格外生性条件就不成立。 可以证明,当1ρ≠0,由于不可观测因素i C 存在,采用FE 和FD 变换得到的
估计FE ?β和FD β?是有偏不一致的,但随着T →∞,FE ?β有一致性,而FD
β?却不行。一般地的有it y =it i U C +++it it W Z δγ,满足is Z 与it U 就是不相关的,对一切s 和t ,但it U 与is W 仅仅当s ≤t 时是不相关的。充分条件是,),,|(11i it it it it W W W Z U E Λ-=0.这种即有严格外生,又有序列式外生面板模型。典型例子是it W 是相关的,
称为现时相关的面板数据模型:隐含了一个重要的与时间相关的解释变量。
it W 中某些变量存在测量误差,以及it y 与it W 中某个或某些存在同时性,是一致的。同样可以证明,现时相关性和不可观测因素i C 的存在,导致FE 和FD 变换得到的估计是有偏不一致的。
如同解决内生性问题一样,我们可以通过引入工具变量消除非严格外生性。但寻求工具变量并不是一件容易的事。这也失去了面板数据模型的意义。事实上,面板数据可用自身的数据的时间差异,在不同假定条件下,选择不同时间的数据作为其工具变量,然后再采用Pooled 2SLS 方法,可等到模型的一致估计,或用GMM 方法进一步提高有效性。详细的讨论参见伍德里奇的书第11章,或其它
有关面板数据分析的书籍,(如《Econometric Analysis of Panel Data 》, Badi H. Baltagi)。这里仅给出一般的说明。
首先,用FD 或FE 变换消除不可观测因素i C 的影响。如FD 变换得:
it y ?=it u ?+?+?it it W Z δγ
=it u ?+?βit X
T t ,,2Λ=,N i ,,1Λ=
其次,在不同的假设条件下,选择不同的工具变量。例如,在it X 满足序列式外生条件下,将T t ,,1Λ=, it y ?=it u ?+?βit X 写成矩阵紧凑式:
i Y ?=i U ?+?βi X
选取工具变量矩阵为:i Z =??
???
???
??-0000
00
000102
01iT i i X X X Λ
M O M M M Λ
Λ,其中0it X =()it i i X X X Λ21,。也可以选择it X ?的滞后项1-?it X 作为工具变量等等。
最后,选择Pooled 2SLS 或GMM 方法,统计检验则需要一些更细致的假设条件。又在FE 和FD 变换中,常采用FE 的变换,理由是,它对各种非严格外生性条件都适用,并且几乎不加条件可以照搬原来的检验方法。
在基本模型中,it y =it i u C ++βit X ,还可以加入更多的特征,例如,扩展基本模型为:it y =it it i u X c +++βit g ,T t ,,1Λ=。称为随机趋势模型,也称随机增长模型,其中i g 被认为是不同个体随时间增长率。
扩大严格外生性条件为:),,,,|(11i i i it it it g c X X X u E Λ-=0,作差分变换,消除
i C ,得it y ?=it it u X ?+?+βit g ,T t ,,2Λ= ∴),,|(2iT i i it X X g u E ??Λ=0
于是,我们可用FE 或FD 方法(当T ≥3)得到一致估计β?,特别当it
U 存在序列相关性时,采用FD 方法,即二阶差分:it y 2?=it 2it 2u X ?+?β更稳妥。
一般地具有更多个体特征面板数据模型为:
it y =it it it u X Z ++βi a ,T t ,,1Λ=。其中it Z (t 固定)是1×J 的。i a 是J ×1的,称为不可观测的异质性向量。特别当it Z =1就是基本模型,当it Z =()t ,1就是随机趋势模型。引入更多时间常数的不可观测的个体特征后,我们除了关注β,当然也关注i a ,但当T 很小时,我们无法得到i a 好的估计(因为无法得到i 的样本)。转而考虑估计i a =i Ea 。 具体做法是:
1. 将it y =it it it u X Z ++βi a ,T t ,,1Λ=按T t ,,1Λ=排成列,得紧凑式为:
i Y =i i i u X Z ++βi a 。这里i Z 是T ×J 的,i X 是T ×K 的。
2. 定义投影矩阵i M =()'
'--i i i i T Z Z Z Z I 1,则i M i Z =0,用i M 乘方程两边,
得:i M i Y =i M i X β+i M i U ,记成i Y &&=i i u X &&&&+β。又在秩()X X E &&&&'=K 假定下,做OLS ,得FE
β?是β的一致估计。 3. 又假定()i i i i i a X Z U U E |'=2u σT I ,又知秩i M =tr i M =T -J 。因此,
()∑=T
t it
U E 1
2
&&=()i
i
U U E &&&&'=??
?
?????? ?
?'i i i
i i X Z U M U E E | =??
????????
????? ??'i i i i X Z M U U E tr E | =()[]{}i i i i i M X Z U U trE E |=(T -J )2u σ。
再用it
U ?&&=it y &&-FE β?X it &&,代替it U &&,可得2u σ的一致估计。再考虑无偏性,得到2
u
σ的无偏一致估计为:2?u
σ
=[]∑∑==---N i T
t it U K J T N 11
21
?)(&&=[]K J T N SSR --)(/。
4. Θi a =()()βi i i i i X Y Z Z Z -''-1-()i i i i U Z Z Z ''-1
由()i i Z U E |=0
∴a =i Ea =()()βi i i i i X Y Z Z Z E -''-1
∴a
?=()
()
FE
i i i i
i
N
i X Y Z Z Z N
β?11
1
-''-=∑ 记:i s
?=()(
)
FE
i i i i i X Y Z Z Z β?1
-''-; C ?=()
i i i
i
N
i X Z Z Z N
''-=∑1
1
1
A
?=i
N
i i
X X N
&&&&∑='1
1; i U ?=()FE i i X Y β?&&&&-
可
以证明,
()a a
N -?的渐近方差为:
()[]()[]
''--'---=-∑i i i N i i i i
U X A C a S U X A C a S
N ??????????1
11
1。 注:有更有效的同时给出β和i a 的非线性工具变量估计方法。 二、豪斯曼—泰勒模型
(一)提出问题
有时我们关注的是那些可观测的有关时间常数的解释变量,而不是时间变化的解释变量。然而,我们又认为某些解释变量又与不可观测因素i C 是相关的。因此,前述的随机效果方法结果是不一致的。而固定效果或一阶差分方法又消除了我们所需要的时间常数的解释变量。所以,这三种方法都不适用。但是,如果时间常数的解释变量与i C 是不相关的,而时间变化的解释变量与i C 可能是相关的,那么我们就可把基本模型扩展成:
it y =it it i u X Z +++i c βγ,T t ,,1Λ=。
其中i Z 是时间常数的解释变量,满足条件:
),,,,|(21i iT i i i it c X X X Z u E Λ=0。于是,我们可以按前述的方法按FE 变
换消除γi Z 和i C ,并获得一致估计FE
β?。 如何估计γ?若再加上假定条件)(i i c Z E '=0, ∴())(i i i U c Z E &&+'=0, ∴γ)(i i Z Z E '=()[]
βX Y Z E i i -',又假定)(i i Z Z E '非奇异。
面板数据模型
第十讲经典面板数据模型 一、面板数据(panel data) 一维数据: 时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。 二维数据: 面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。 面板数据=截面数据+时间序列数据。
面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 平衡面板数据(balanced panel data)。 非平衡面板数据(unbalanced panel data)。 例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。
表1.中国部分省级地区的居民数据(不变价格,元)
二、面板数据模型及其作用 1.经典面板数据模型 建立在古典假定基础上的线性面板数据模型. 2.非经典面板数据模型 (1)非平稳时间序列问题的面板数据模型(面板数据协整模型) (2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型) (3)其他模型(如面板数据分位数回归模型) 3.面板数据模型作用 (1)描述个体行为差异。
第9章-面板数据模型理论
5.2 面板数据模型理论 5.2.1 面板数据模型及类型。 面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section )上看,是由若干个体(entity, unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。 面板数据用双下标变量表示。例如: it y , N i ,,2,1 ;T t ,,2,1 其中,N 表示面板数据中含有的个体数。T 表示时间序列的时期数。若固定t 不变,?i y ),,2,1(N i 是横截面上的N 个随机变量;若固定i 不变,t y ?,),,2,1(T t 是纵剖面 上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。 面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模型。面板数据模型的解析表达式为: it it it it it x y T j N i ,2,1;,2,1 其中,it y 为被解释变量;it 表示截距项,),,,(21k it it it it x x x x 为k 1维解释变量向量;' 21),,,(k it it it it 为1 k 维参数向量;i 表示不同的个体;t 表示不同的时间;it 为 随机扰动项,满足经典计量经济模型的基本假设),0(~2 IIDN it 。 面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。 ⑴ 混合模型。 如果一个面板数据模型定义为: it it it x y T j N i ,2,1;,2,1 则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数 和 都是相同的 ⑵ 固定效应模型。 固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model )、时间固定效应模型(time fixed effects regression model )和时间个体固定效应模型(time and entity fixed effects regression model )。 ① 个体固定效应模型。 个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序
第五章面板数据模型
Chaper5 面板数据模型 在联立方程模型中,我们已接触到面板数据模型,它仅是作为一种特殊的联立模式来讨论的。不同时间,到不同个体不加区别,仅是一种普通样本,采用POLS 方法处理。不同时间段和不同个体的特征没有考虑,而这些特征往往有明确的经济背景。本章以存在不可观测效应(Unobserved effect )的现代观点重新阐释面板数据模型。 不可观测效应的含义是,从不同时间抽取的样本数据中,存在一个相对时间不变的不可观测的因素,称为异质性。例如,样本个体选择家庭而言,认知、动机、遗传等;样本个数选择企业而言,管理水平,创新能力等。如何处理这些潜在因素?除了前述的代理变量和多指标工具变量法外,合理应用面板数据的特征就是本章讨论的问题。此外,面板数据作为截面数据和时间序列数据动态混合,能反映模型的动态结构,故也可作为分析的内容加以讨论。深入的分析面板数据是学习时间分析之后,本章只是一个初步。合理运用面板数据,能给我们带来很多有意义的统计信息和模型。请看例: 例1:职业培训的评价: 欲评价培训的效果,(或实施某一政策的效果),一个标准的评价模型是: it i it it t it U C prog Z y ++++=1δγθ 这里t 为二期,t=1,2; t θ表示随时间变化的项,it Z 是可观察的影响因素Y 的随机变量;it prog 是虚拟变量,参加第二期培训为1,其它为0;i C 为个人是否选择接受培训的选择,它是不可观测的,是一个与个人相关的与t 无关的潜在因素。又为了消除政策因素外的其它影响,又在每个时间段中将Y 分成控制组B 和对照组A 两部分。在t=1,无人处在控制组,在t=2,部分人处在控制组部分人处在对照组。并再设置一个虚拟变量2d ,表示如t=2,处在控制组为1, 其余为为0。模型构成为: it i it it t t it U C prog Z d y +++++=12δγβθ, 则参数1δ就反映了政策因素对Y 的贡献。检验: 0H :1δ=0.接受0H 说明培训效果不是很显著。
面板数据模型入门讲解
第十四章 面板数据模型 在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。 多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(Panel Data )。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体(Individual )。例如城镇居民是一个观测个体,农村居民是另一个观测个体。 如果面板数据中各观测个体的观测区间是相同的,我们称其为平衡的面板数据,反之,则为非平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。 §14.1 面板数据模型 一、两个例子 1. 居民消费行为的面板数据分析 让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为: it it it Y C εββ++=10 (14.1.1) it t i it u ++=λμε (14.1.2) 其中:it C 和it Y 分别表示第i 个观测个体在第t 期的消费和收入。i =1、2分别表示城镇居民和农村居民两个观测个体,t =1980、…、2008表示不同年度。it u 为经典误差项。 在(14.1.2)中,i μ随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。t λ反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差
面板数据模型资料讲解
面板数据模型
精品资料 仅供学习与交流,如有侵权请联系网站删除 谢谢2 一、我对几种面板数据模型的理解 1 混合效应模型 pooled model 就是所有的省份,都是相同,即同一个方程 ,截距项和斜率项都相同 y it =c+bx it +?it c 与b 都是常数 2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份,既有相同的部分,即斜率项都相同;也有不同的部分,即截距项不同。 2.1 固定效应模型 fixed-effect model y it =a i +bx it +?it cov(c i ,x it )≠0 固定效应方程隐含着跨组差异可以用常数项的不同刻画。每个a i 都被视 为未知的待估参数。x it 中任何不随时间推移而变化的变量都会模拟因个体而已 的常数项 2.2 随机效应模型 random-effects model y it =a+u i +bx it +?it cov(a+u i ,x it )=0 A 是一个常数项,是不可观察差异性的均值,u i 为第i 个观察的随机差 异性,不随时间变化。 3 变系数模型Variable Coefficient Models(变系数也分固定效应和随机效应) 每一个组,都采用一个方程进行估计。就是所有省份的线性回归方程的截距项和斜率项都不相同。 y it =u i +b i x it +?it 1.混合估计模型就是各个截面估计方程的截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的。如果是考察各个省份,历年的收入对消费影响。则各个省份的回归方程就完全相同,无论是截距,还是斜率。 2.随机效应模型和固定效应模型在斜率项都是相同的,都是截距项不同。区别在于截距项和自变量是否相关,不相关选择随机效应模型,相关选择固定效应模型。则说明各个省份的回归方程,斜率相同,差别的是截距项,即平移项。 3 .变系数模型,就是无论是截距项,还是系数项,对于不同省份,每个省份都有一个回归方程,都一个最适合自己的回归方程,完全不管整体。每个省份的回归方程与其他省份的,无论在斜率上,还是截距上都不相同。 总之,从混合估计模型,到变截距模型,再到变系数模型,考察省份是从完全服从整体和没有个性(回归方程是从整体角度而定的和估计的,是一
第十三章 面板数据原理
面板数据模型 1.面板数据定义。 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 图1 N=7,T=50的面板数据示意图 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。 对于面板数据y i t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。 例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。 人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散
重要动态面板数据模型完全
第17章 动态面板数据模型 17.1 动态面板数据模型 前一章讨论具有固定效应和随机效应的线性静态面板数据模型,但由于经济个体行为的连续性、惯性和偏好等影响,经济行为是一个动态变化过程,这时需要用动态模型来研究经济关系。本章主要讨论动态面板数据模型的一般原理和估计方法,然后介绍了面板数据的单位根检验、协整分析和格朗杰因果检验的相关原理及操作。 17.1.1动态面板模型原理 17.1.2)时,第一3不相关。可以形成预先的工具变量: 12122000000i i i i i iT Y Y Y Y Y -?????????? 每一个预先决定的变量的相似的工具变量便可以形成了。假设it ε不存在自回归,不同设定的最优的GMM 加权矩阵为: 1 1'1M d i i i H M Z Z --=??=Ξ ??? ∑ (17.1.4) 其中Ξ 是矩阵,221000120001200 02100012σ-????-? ???Ξ=??-????-??
i Z 包含严格外生变量和预先决定的变量的混合。该加权矩阵用于one-step Arellano-Bond 估计。 给定了one-step 估计的残差后,我们就可以用估计计算的White 时期协方差矩阵来代替加权矩阵H d : 1 1''1M i i i i i H M Z Z εε--=??=?? ??? ∑ (17.1.5) 该加权矩阵就是在Arellano-Bond 两步估计中用到的矩阵。 我们可以选择两者中一个方法来改变最初的方程,以消除对总体偏离而计算的个体效应(Arellano 和Bover ,1995)。详情见后面的GMM 估计,用正交偏离而转换残差有个特点就是转换设定的第一阶段最优加权矩阵是简单的2SLS 加权矩阵。 GMM 这里通过下面式子进行估计: '''(()())(()())i i i i i i E g g E Z Z ββεβεβ= () 而'1()()M i i i G Z f ββ=??=-? ??? ∑ 在简单的线性模型中'(,)it it f X X ββ=,我们可以得到系数的估计值为:
面板数据模型理论知识
1.Panel Data 模型简介 Panel Data 即面板数据,是截面数据与时间序列数据综合起来的一种数据类型,是截面上个体在不同时点的重复观测数据。 相对于一维的截面数据和时间序列数据进行经济分析而言,面板数据有很多优点。(1)由于观测值的增多,可以增加自由度并减少了解释变量间的共线性,提高了估计量的抽样精度。(2)面板数据建模比单截面数据建模可以获得更多的动态信息,可以构建并检验更复杂的行为模型。(3)面板数据可以识别、衡量单使用一维数据模型所不能观测和估计的影响,可以从多方面对同一经济现象进行更加全面解释。 Panel Data 模型的一般形式为it K k kit kit it it x y μβα++=∑ =1 其中it y 为被解释变量,it x 为解释变量, i =1,2,3……N ,表示N 个个体;t =1,2,3……T ,表示已知T 个时点。参数it α表示模型的截距项,k 是解释变量的个数,kit β是相对应解释变量的待估计系数。随机误差项it μ相互独立,且满足零 均值,等方差为2δ的假设。 面板数据模型可以构建三种形式(以截面估计为例): 形式一: 不变参数模型 i K k ki k i x y μβα++=∑ =1,又叫混合回归模型,是指无论 从时间上还是截面上观察数据均不存在显著差异,故可以将面板数据混合在一起,采用普通最小二乘估计法(OLS )估计参数即可。 形式二:变截距模型i K k ki k i i x y μβαα+++=∑ =1*,*α为每个个体方程共同的截距 项,i α是不同个体之间的异质性差异。对于不同个体或时期而言,截距项不同而解释变量的斜率相同,说明存在不可观测个体异质影响但基本结构是相同的,可以通过截距项的不同而体现出来个体之间的差异。当i α与i x 相关时,那就说明模型为固定效应模型,当i α与i x 不相关时,说明模型为随机效应模型。 形式三:变参数模型 i K k ki ki i i x y μβαα+++=∑ =1* ,对于不同个体或时期而 言,截距项(i αα+*)和每个解释变量的斜率ki β都是不相同的,表明不同个体之间既存在个体异质影响也存在不同的结构影响,即每个个体或时期都对应一个互不相同的方程。同样分为固定效应模型和随机效应模型两种。 注意:这里没有截距项相同而解释变量的系数不相同的模型。 2.Panel Data 模型分析步骤 2.1 单位根检验 无论利用Panel Data 模型进行截面估计还是时间估计分析的时候,我们先要进行单位根检验,只有Panel Data 模型中的数据是平稳的才可以进行回归分析,否则容易产生“虚假回归”。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的2R ,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归。面板单位根检验方法有5种:LLC 检验、IPS 检验、Breintung 检验、ADF-Fisher 检验和PP-Fisher 检验,前两种是相同根情况下的单位根检验方法, 后三
第十六章-面板数据模型一
第16章静态面板数据模型时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。 面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 对于面板数据y it(i=1,2,…,N,t=1,2,…,T)来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 本章主要讨论静态面板数据模型的相关理论及软件操作,首先从模型的检验开始到介绍变截距模型中的固定影响变截距模型和随机影响变截距模型,然后到变系数模型。本章的流程图如下:
16.1面板数据模型建模的基本原理 在应用多元回归分析建立的计量经济模型时,如果所建的模型中缺失了某些不可观测的重要解释变量,使得回归模型随机误差项常常存在自相关。于是回归参数的最小二乘法OLS 估计量不再是无偏估计或有效估计。但是,运用面板数据建立的计量经济模型时,对于一些忽略的解释变量可以不需要其实际观察值,而通过控制该变量对被解释变量的影响的方法获得模型参数的无偏估计。 由此可见,面板数据不仅可以同时利用截面数据和时间序列数据建立计量经济模型,而且能更好地识别和度量单纯的时间序列模型和单纯截面数据模型所不能发现的影响因素,它能够构造和检验更复杂的行为模型。例如:在宏观领域,它被广泛用于劳动经济学、国际金融、经济增长、产业结构、技术创新、税收政策等领域。 16.1.1面板数据模型基本框架 面板数据能更好地识别和度量时间序列或截面数据不可发觉的效应,有助于建立和检验更复杂的行为模型,其基本模型是如下形式的一般回归模型: 1,2,,,1,2,,it it it i t it y x i N t T αβδγε=++++==L L (16.1.1) 其中:it y 是个体i 在时间t 时期的观测值,α表示模型的常数项,i δ代表固定或者随机的截面效应,t γ代表固定或者随机的时期效应,it x 表示k 阶解释变量观测值向量。β表示解释变量的系数向量,并且在根据其条件的限制分为三种值,一是对所有截面和时期都是相同的常数,二是在不同的截面是不同的系数,三是在不同的时期是不同的。it ε是独立同分布的误差项,即()0it E ε=。 在公式(16.1.1)中,如果考虑k 个解释变量,自由度NT 远小于参数个数,对于截面成员方程,待估计参数的个数为((1))NT k N ++,对于时间截面方程,待估计参数的个数为((1))NT k T ++,这使得该模型无法估计。为了对模型进行估计,则可以建立以下的两类模型:从个体成员角度考虑,建立含有N 个个体成员方程的面板数据模型;在时间点上截面,建立含有T 个时间点截面方程的面板数据模型。 1)含有N 个个体成员方程的面板数据模型 模型形式如下: i T i it i T T i y l x l I αβδγε=++++ (16.1.2) 其中:i y 是个体i 的观观测值的时间序列。系数向量β取值受不同个体的影响,i x 表示个体i 解释变量观测值时间序列。T l 是T 阶的单位行向量,T I 是T 阶的单位列向量。 '12()T γγγγ=L ,,,,包括所有的时点效应。该式含有N 个截面方程。
第十三章 面板数据的处理
第十三章 面板数据的处理 一、面板数据的定义、意义和种类 面板数据是调查经历一段时间的同样的横截面数据,具有空间和时间的两种特性。它 还有其他一些名称,诸如混合数据,纵列数据,平行数据等,这些名字都包含了横截面单元在一段时期的活动。 面板数据的优点在于:1.提供了更有价值的数据,变量之间增加了多变性和减少了共线性,并且提高了自由度和有效性。2.能够更好地检测和度量单纯使用横截面数据或时间序列数据无法观测到的影响。3.能够对更复杂的行为模型进行研究。 形如 01122it it it it Y X X u βββ=+++ 其中,i 表示第i 个横截面单元,t 表示第t 年。一般,我们用i 来表示横截面标识符,用t 表示时间标识符。假设N 个横截面单元的观测次数相同,我们称之为平衡面板,反之,称为非平衡面板。一般假设X 是非随机的,误差项遵从经典假设。 二、面板数据回归模型的类型与估计方法 (一)面板数据回归模型的类型 对于面板数据模型 i t i i t i Y X u αβ=++,可能的情形主要有如下几种。 1. 所有系数都不随时间和个体而变化 在横截面上无个体影响、无结构变化,即i j αα=,i j ββ=。则普通最小二乘估计给出了和的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。it it it Y X u αβ=++。 2.变截距模型 在横截面上个体影响不同,个体影响表现为在模型中被忽略的反映个体差异的影响,又分为固定效应和随机效应两种。it i it it Y X u αβ=++ 3.变系数模型 除了存在个体影响之外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面单位是不同的。i j αα≠,i j ββ≠。it i it i it Y X u αβ=++。 看到面板数据之后,如何确定属于哪一种类型呢?用F 检验 假设1:斜率在不同的横截面样本点上和时间上都相同,但截距不相同,即情形2。 假设2:截距和斜率在不同的横截面样本点和时间上都相同,即情形1。
面板数据模型
一、我对几种面板数据模型的理解 1 混合效应模型pooled model 就是所有的省份,都是相同,即同一个方程,截距项和斜率项都相同 y it =c+bx it +? it c 与b 都是常数 2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份,既有相同的部分,即斜率项都相同;也有不同的部分,即截距项不同。 2.1 固定效应模型fixed-effect model y it =a i +bx it +? it cov(c i ,x it )≠0 固定效应方程隐含着跨组差异可以用常数项的不同刻画。每个a i 都被视 为未知的待估参数。x it 中任何不随时间推移而变化的变量都会模拟因个体而已的常数项 2.2 随机效应模型random-effects model y it =a+u i +bx it +? it cov(a+u i ,x it )=0 A是一个常数项,是不可观察差异性的均值,u i 为第i个观察的随机差异性,不随时间变化。 3 变系数模型Variable Coefficient Models(变系数也分固定效应和随机效应) 每一个组,都采用一个方程进行估计。就是所有省份的线性回归方程的截距项和斜率项都不相同。 y it =u i +b i x it +? it 1.混合估计模型就是各个截面估计方程的截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的。如果是考察各个省份,历年的收入对消费影响。则各个省份的回归方程就完全相同,无论是截距,还是斜率。 2.随机效应模型和固定效应模型在斜率项都是相同的,都是截距项不同。区别在于截距项和自变量是否相关,不相关选择随机效应模型,相关选择固定效应模型。则说明各个省份的回归方程,斜率相同,差别的是截距项,即平移项。 3 .变系数模型,就是无论是截距项,还是系数项,对于不同省份,每个省份都有一个回归方程,都一个最适合自己的回归方程,完全不管整体。每个省份的回归方程与其他省份的,无论在斜率上,还是截距上都不相同。 总之,从混合估计模型,到变截距模型,再到变系数模型,考察省份是从完全服从整体和没有个性(回归方程是从整体角度而定的和估计的,是一刀切的,是完全没有差异性和个性的,完全牺牲自我),到随心所欲和完全个性化(每个省份都有一个最适合自己的回归方程)。即从完全无个性而言到完全有个性。