动态面板数据模型rev.

动态面板数据模型rev.
动态面板数据模型rev.

动态面板数据模型及其运用

一、基本模型

,1it i t it i it y y x u φβγ-=+++ (1)

方程右边包含了因变量的滞后项(可以推广到多阶滞后),因此称之为动态面板模型。由于模型(1)中含有因变量的滞后项作为解释变量,如果采用标准的固定效应模型或随机效应模型来估计模型(1),方法上必然存在明显的缺陷。因为标准的固定效应模型或随机效应模型要求解释变量是外生的,即解释变量与随机扰动项不相关。而模型(1)中因变量的滞后项作为解释变量出现在方程右边,因为it y 与it u 相关,it y 的滞后项也必然与it u 相关,这违背了解释变量与扰动项不相关的假定,即存在内生性问题。如果采用标准的固定效应模型或随机效应模型来估计动态面板数据模型的参数,必然导致参数估计的有偏性和非一致性。对于动态面板数据模型而言,要得到一致的估计量,一般采用工具变量估计法和广义矩估计法(GMM )来估计。

二、工具变量估计法

首先,我们考察多元回归方程:y X βε=+。利用普通最小二乘法得到估计

系数:11?()()X X X y X X X β

βε--''''==+。如果随机扰动项违反标准假设,使得()0E X ε≠(这被称为内生性问题)

,那么,我们的估计系数就是有偏的。还有其他一些原因可能造成内生性问题,例如,误差项中的遗漏变量、误差项中的测量误差、联立性(某一解释变量与被解释变量是同时决定的)存在。

11?()(())()(())E E X X X X X X E X ββεβεβ--''''=+=+≠

即使n →∞,这种偏差也不会消失。从大样本角度看,我们的估计也是非一致的。

11?lim lim(())(lim())lim()X X X X X X p p p p n n n n

εεββββ--''''=+=+?≠ 工具变量法给我们解决此类问题提供了很好的工具,我们选择工具变量向量Z ,使得它满足:[]0i i E Z ε'=或1lim 0p Z T

ε'=,其中Z 为T k ?阶矩阵。 定义工具变量估计量?IV

β,则新的矩条件为: '?[()]0i i i IV

E Z y X β-=

'1

1?()0T i i i IV i Z y X T β=-=∑

(2) 假定矩阵Z X '是非奇异的(即有很多工具变量可以作为解释变量),由上面的式子我们可以求出工具变量估计量:

11?()()IV

Z X Z y Z X Z ββε--''''==+ (3) 这个估计量具有如下特性:

1. 一致性

11?lim lim(())(lim())lim()IV Z X Z p p Z X Z p p T T

εββεββ--''''=+=+?= 残差项的方差也是一致的,即2

2

?t

IV s T k ε==-∑?()IV y X β'-?()IV

y X β-/()T k -是2σ的一致估计。

2. 渐进正态性

211?(,()())IV N X Z Z Z X Z ββσ--'''

11211?(,)(()(),)()()IV

Var X Z E X Z Z Z X Z X Z X Z Z Z X Z βεεσ----'''''''== 两步法工具变量回归

第一步,用内生解释变量X 对所有工具变量回归(包括其他外生的解释变

量),得到其估计值1?()X

Z Z Z X -''=,它是工具变量的线性组合,它们满足工具变量的两个要求。

第二步,将其代入原方程回归,即y 对?X 进行OLS ,得到工具变量估计量:

?IV

β=?(X '1?)X -111?(())()X y X Z Z Z Z X X Z Z Z Z y ---'''''''==1()Z X Z y -'' 这个估计量在满足一定前提下(随机扰动项是同方差和给定一组多个工具变量)是相对有效的估计,也是一致的,且渐进服从正态分布。

应用:利用美国制造业就业变动的例子对面板数据模型进行工具变量估计。在这个例子中,我们怀疑工资变量是内生的,因此采用IV 估计法。

STATA 命令为:xtivreg n m x y (w=l.w), fe

Instruments: m x y L.w

Instrumented: w

F test that all u_i=0: F(19,156) = 280.02 Prob > F = 0.0000

rho .98827784 (fraction of variance due to u_i)

sigma_e .05949768

sigma_u .54630566

_cons 7.968495 .5365671 14.85 0.000 6.916843 9.020147

y .633278 .0322711 19.62 0.000 .5700278 .6965282

x .0454024 .0260729 1.74 0.082 -.0056995 .0965043

m .0664605 .0303958 2.19 0.029 .0068858 .1260351

w -1.77235 .111552 -15.89 0.000 -1.990988 -1.553712

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

corr(u_i, Xb) = 0.5120 Prob > chi2 = 0.0000

Wald chi2(4) = 8.89e+06

overall = 0.7368 max = 9

between = 0.7427 avg = 9.0

R-sq: within = 0.8727 Obs per group: min = 9

Group variable: id Number of groups = 20

Fixed-effects (within) IV regression Number of obs =

180. xtivreg n m x y (w=l.w), fe

若要显示第一阶段的回归结果,可以做如下估计:

xtivreg n m x y (w=l.w), fe first

三、有效工具变量的选取

工具变量回归的效果取决于工具变量的有效性,有效的工具变量必须满足两个条件:第一,它与随机扰动项无关(这才能保证估计的一致性)。第二,它与内生解释变量X 高度相关(这才能保证我们估计的精确性和有效性)。

1. Z 和X 的相关性

如果Z 和内生的解释变量k x 相关性很弱,则称之为弱工具变量,使用这种工具变量在小样本情况下,将导致2sls 估计量的样本分布非正态性,使得统计推断失效。因此,在做工具变量估计之前,要先检验工具变量与内生解释变量的相关性,对此可以进行回归系数的总体显著性检验。

以k x 为被解释变量,其他外生变量和工具变量为解释变量,建立回归模型: 111111......k k k s s x x x Z Z u ααββ--=++++++

在随机扰动项同方差假定下,我们可以直接进行线性约束的F 检验。零假设为:01:...0s H ββ===。一般来说,如果F 小于10,则接受原假设,认为Z 是弱工具变量;如果拒绝原假设,则认为Z 与k x 高度相关。

注:通过观察一步回归结果中的F 统计值即可判断Z 和X 的相关性。

2. Z 的外生性(工具变量与随机扰动项不相关)

如果工具变量是非外生的,那么得到IV 估计量将是非一致的。通常用Sargan

统计量来检验工具变量的外生性(这个检验的前提条件是,模型存在“过度识别”问题,即工具变量个数多于内生解释变量的个数)。

首先对原始模型Y X βε=+进行IV 估计并得到估计残差:?IV

e Y X β=-,然后用e 对其他外生解释变量以及工具变量进行回归,得到可决系数2R ,进而构造Sargan 统计量22()()n k R s r χ--。其中,n 是样本容量,k 是原始模型中待估参数的个数,s 为工具变量个数,r 为内生解释变量个数,s r -为过度识别的约束条件个数。

该检验的零假设是e 对工具变量和其他外生解释变量的所有回归系数都等于0,即工具变量独立于IV 估计的残差e 。如果Sargan 统计量显著,则拒绝原假设,即认为工具变量与随机扰动项并不相互独立,因此工具变量不是有效的。

3. X 的内生性

工具变量满足了相关性和外生性条件后,解释变量还必须满足内生性条件。如果不能拒绝解释变量与残差项无关的零假设,那么我们采用标准的OLS 估计即可,否则则要考虑使用IV 估计法。这可以用Hausman 检验进行。Hausman 检验的思想是:在“零假设:模型中解释变量是外生的”成立条件下,OLS 估计量与IV 估计量差别不大,如果差异过大,则拒绝原假设,认为X 是内生的。检验方法:第一步,用k X 对其他外生解释变量以及工具变量进行回归得到残差v 。(此时,v 是k x 的线性组合);第二步,进行如下回归:Y X v u βγ=++,其中X 为全部解释变量,u 为随机扰动项;第三步,进行Hausman 检验,零假设和备择假设分别为:0:0H γ=和1:0H γ≠。(当0γ≠时,μ是k x 的线性组合)

Hausman 检验的stata 命令为:

xtreg n m x w y,fe

est store fe

xtivreg n m x y (w=l.w)

est store iv

hausman fe iv, constant sigmamore

四、动态面板数据模型的一阶差分方程估计(工具变量估计)

考虑最简单的动态面板数据模型(自回归面板数据模型):

,1it i t i it y y u αγ-=++ (1,2,...,;1,2,...,i N t T ==)

对以上模型进行一阶差分以消除个体效应,得到不包含个体效应的一阶差分模型:

,1,1,2,1()()it i t i t i t it i t y y y y u u α-----=-+- (2,3,...,)t T =

显然,在差分模型中, ,1()it i t y y --与,1()it i t u u --是相关的,从而,1,2()i t i t y y ---与,1()it i t u u --也是相关的,所以该模型的OLS 估计也不可能是一致的。然而,对于一阶差分模型,,2i t y -或,2,3()i t i t y y ---与,1,2()i t i t y y ---相关,但与,1()it i t u u --不相关。因此,,2i t y -和,2i t y -?(即,2,3()i t i t y y ---)都是,1i t y -?(即,1,2()i t i t y y ---)的工具变量。因此,在此种估计方法下,工具变量有两种选择方法:

(1),2i t y -作为,1i t y -?的IV ,从3t =开始;

(2),2i t y -?作为,1i t y -?的IV ,从4t =开始。

于是,一阶差分模型参数的工具变量估计是:

,2,1112,2,1,212()?()N T i t it i t i t IV N T i t i t i t i t y y y y

y y α--==---==-=

-∑∑∑∑ 和 ,2,3,1213,2

,3,1,213()()?()()N T i t i t it i t i t IV N T i t i t i t i t i t y y y y y y y y α---==----==--=--∑∑∑∑ 显然,在大样本条件下,

,1,212

1lim ()0(1)N T it i t i t i t p u u y N T --==-=-∑∑ 和 ,1,2,313

1lim ()()0(1)N T it i t i t i t i t p u u y y N T ---==--=-∑∑ 即工具变量估计1?IV α和2?IV α都是α的一致估计。然而,这种方法在实践中会

面临如下问题,当α在一个较大范围内变化或当α非常接近于1时,工具变量会变得很弱,此时估计是非有效的。

五、广义矩估计

(一)简介

考虑如下线性回归模型:

i i i y x βε'=+ (4) 假设该模型符合经典的OLS 基本假设,但允许x 是随机变量,那么解释变量x 应当与干扰项ε不相关,即[]0i i E x ε=。于是,参数向量β应满足如下关系式:

[()]0i i i E x y x β'-= (5) 由此我们可以得到:

1[][]i i i i E x x E x y β-'= (6)

若给定变量y 和x 对应的样本观察值1{,}N i i i y x =,则(5)式可以表示为:

(7) 由此我们可以得到一般的OLS 估计量:

111?N N i i

i i i x x x y β-==??'= ???∑∑ (8)

上述获得参数估计量的方法称为“矩估计”方法,它包含两个步骤:首先,构造“母体矩条件”,即(5)式;接着构造相应的“样本矩条件”,即(7)式;最后由样本矩条件得到母体参数估计值。

上面的例子中,我们假设参数向量β为1m ?阶矩阵,而矩条件也恰恰是m 个,这称为“恰好识别”。但在多数情况下,我们的矩条件往往多于参数的个数,从而产生“过度识别”的问题,此时就需要采用“广义矩估计”(Generalized Method of Moment ,简称GMM )。

(二)矩估计法(MM )

假设我们有一个母体,用参数θ来描述,其真实值为0θ。12{,,...,}N x x x 为从这个母体中随机抽取的一组样本观察值。如果我们能够确认一组反映随机变量x 和参数θ之间关系的向量函数(;)g x θ,使得参数的真实值0θ是下列“母体矩条件”(Population Moment Condition ,简称PMC )的唯一解,

[(;)]0E g x θ= (9)

并且,估计量?θ是其“样本矩条件”(Sample Moment Condition ,简称SMC )的

唯一解,

(10) 那么,在一系列假设条件成立的情况下,可以证明?θ具有一致性和渐进正态性:

01?(,N N

θ (11) 其中, 0(;)()g x G E θθθ???=?????

(12) 和 0()[(;)(;)]E g x g x θθθ'Ω= (13)

对于前面提到的例子,(;)()i i i i i i g x x y x x θβε'=-=,而PMC 为(5)式,相应的SMC 为(7)式。我们利用上面给出的一般性结果来推导出模型(4)参数估计量的渐进分布。易求得:

()()[]i i i i i x y x G E E x x βββ'??-?'==-?????

(14) 22()[][][]i i i i i i i i E x x E x x E x x βεεσσ''''Ω=== (15)

假设 111lim lim N

i i

n n i X X x x Q N N →∞→∞=''==∑ (16) 其中,Q 是一个有限、正定矩阵。那么,[]i i E x x Q '=,于是可得,2()Q βσΩ=及()G Q β=-。根据(11)式可得:

21?)(0,)Q β

βσ--→ (17) 1. 一致性

如果(;)g x θ的二阶矩存在,则根据大数定理:

11

(;)[(;)]N

i i

i g x E g x N θθ=→∑ (18) 这说明PMC (9)式可以用SMC (10)式来近似表示。如果由SMC (10)

式得到的估计量?θ

与样本数N 无关,那么它的概率极限*θ也一定是PMC (9)式的概率极限的解。根据定义,参数的真实值0θ是PMC (9)式的唯一解,所以概

率极限*θ也必然等于真实值0θ。因此,?θ

是θ的一致估计量。换言之,如果我们知道某个参数的真实值是其母体矩条件的解,那么对应的样本矩条件的解是目标参数的一致估计量。

2. 渐进正态性

渐进正态性的证明主要基于泰勒展开式和中央极限定理。假定?θ

依概率收敛于0θ,且g 是参数θ的可微函数,那么对于大样本而言,我们利用泰勒公式将(10)式在真实值0θ附近展开可得到:

11?0(;)N i i g x N θ==∑00011(;)11?(;)()N N

i i i i g x g x N N θθθθθ==?≈+-?∑∑ (19)

00011

(;)1?)(;)N N i i i i g x g x N θθθθθ-==???-≈-?????∑ (20) 给定

0(;)i g x θθ??的二阶矩存在,由大数定理可知: 0001

(;)(;)1

()[]N i i i g x g x G E N θθθθθ=??→=??∑ (21) 同时,利用中央极限定理可得:

00011(;)[(;)](0,())N i i i g x E g x u N θθθ=?-→N Ω???∑ (22)

其中,0[(;)]0i E g x θ=。最终,我们得到: (0,(u G θN (23)

至此,(11)式得证。 根据大数法则,我们可以得到GMM 估计量?θ

的方差-协方差矩阵11000()()()G G θθθ--'Ω的一致估计量如下:

11?(;)11N i i g x N N θθ-=????????∑11?[(;)N

i i g x N θ=∑?(;)]i

g x θ'11?(;)1N i i g x N θθ-='????????∑ (24) (三)广义矩估计(GMM )

当矩条件的个数大于待估参数的个数,即m k >时,会出现“过度识别”的问题,使得我们无法根据样本矩条件(10)式求得参数的估计值,因为此时方程的个数多于参数的个数,我们无法找到唯一的θ值使它们同时满足所有的样本矩条件。此时我们可以从m 个矩条件中获得多个包含k 个矩条件的“子矩条件”,但不同的组合将得到不同的GMM 估计量,也就是说在“过度识别”的情况下我们无法获得唯一的参数估计值。为了解决这个问题,Hansen(1982)提出了广义矩估计方法(GMM)。其基本思想在于找到一组θ值,使得所有样本矩条件都尽可能地接近于零,也就是说使得母体矩条件得到最大程度的满足。这一目的可以通过极小化如下目标函数得以实现:

()()()J g Wg θθθ'= (25)

其中,11()(;)N i i g g x N

θθ==∑ (26)

W 是一个对称且正定的m m ?维矩阵,其作用在于为不同矩条件设定不同的权重,以反映这些矩条件的相对重要性。

1. 一致性和渐进正态性

假定()G θ(为母体矩的一阶条件矩阵)是满秩矩阵,而其他条件也都成立,

则GMM 估计量?θ

具有一致性。为了说明这一点,我们先看(25)式对应的一阶条件:

()()0D Wg θθ'= (样本矩的一阶条件) (27) 其中,1(;)1()N

i i g x D N θθθ=?=?∑。 显然,(27)式对应的母体矩条件为:

()[(;)]0i G WE g x θθ'= (母体矩的一阶条件) (28) 其中,(;)

()[]j g x G E θθθ?=?是母体矩的一阶条件矩阵,为满秩矩阵,且n W 为非奇

异矩阵,那么只有参数的真实值0θ才能满足(28)式确定的矩条件,这表明GMM

估计量?θ

是一致的。 同时,我们可以证明?θ

服从渐进正态分布: 1101?(,[][])G WG G W WG G WG N

θθ--''''N Ω (29) 其中,0()G G θ=,0()θΩ=Ω。

2. 最优权重

由(29)式可知,选取不同的权重矩阵W 将得到不同的估计值的方差-协方差矩阵的渐进分布。换言之,方差-协方差矩阵的渐进分布决定于对不同的样本矩条件分配权重的方式。那么是否存在一个最优的权重矩阵使得我们的估计量最有效呢?事实上,这个最优权重矩阵为*10()W θ-=Ω,因为对于任何一个权重矩阵W 而言,有如下关系成立:

111100[]()[][()]G WG G W WG G WG G G θθ----'''''Ω≥Ω (30) 因此,我们可以用任意一个0()θΩ的一致估计量Ω代替W ,即W =Ω,然后求解如下极小化问题:

?arg min ()()g g θ

θθθ'=Ω (31) 便可以得到有效的GMM 估计量?θ

,显然?θ具有一致性和渐进正态分布性: 1100001?(,[()()()])G G N

θθθθθ--'N Ω (32) 然而,要得到?θ我们就必须先得到Ω,但后者的估计又需要以前者的获得为基础,

整体上看似乎会存在死循环问题。但我们注意到,Ω的估计仅需要θ的一致估计量即可,所以我们可以先设定W I =,继而通过求解如下简单的极小化问题:

1111min (;)(;)N N i i

i i g x g x N N θθθ=='????

????????∑∑ (33) 先得到θ的一致估计量θ。接着我们可以估计出Ω: 11(;)(;)N

i i

i g x g x N θθ='Ω=∑ (34) 将由(34)式得到的Ω代入(31)式即可得到?θ

,由此我们可以得到方差-协方差矩阵的一致估计量:

[?()D θ'1?()θ-Ω?()D θ]-1

1N ={1?(;)1N i i g x N θθ='????????∑11?(;)N i i g x N θ=???∑1?(;)i g x θ-?'?1?(;)1N i i g x N θθ=????????∑}(35)

以上步骤可总结如下:

(1)求解(33)式,得到θ的一致估计量θ;

(2)将θ代入(34)式,得到Ω;

(3)利用第二步得到的Ω求解(31)式,得到?θ

; (4)将?θ

代入(35)式,得到方差-协方差的一致估计量,进而进行统计推断。

六、动态面板数据模型的GMM 估计

针对使用标准的固定或随机效应模型估计动态面板数据模型带来的参数的有偏性和非一致性,Arellano and Bond(1991)提出了一阶差分广义矩(First-difference GMM )估计法,Arellano and Bover(1995)、Blundell and Bond (1998)在Arellano and Bond(1991)的基础上,进一步提出了系统广义矩(System

GMM )估计法,对一阶差分广义矩估计法进行了修正,从而很好地解决了动态面板数据模型参数估计的有偏性和非一致性问题。我们先用最简单的动态面板数据模型(36)来说明一阶差分广义矩估计的基本原理,然后在此基础上说明系统广义矩估计法。

(一)差分广义矩估计(DIF GMM )

考虑如下动态面板数据模型:

,1it i t i it y y u αγ-=++ 1,2,...,i N =,2,3,...,t T = (36) 如果观测值在横截面之间是独立的,而且误差项满足下面的条件

()0i E γ=,()0it E u = (37) 而且 ()0it is E u u =,1,2,...,i N =,2,3,...,t T =,t s ≠ (38) 且y 的初始值1y 满足 1()0i it E y u =,1,2,...,i N =,2,3,...,t T = (39)

将(36)式进行一阶差分,以消除个体影响i λ,得到:

,1it i t it y y u α-?=?+? (40)

对于3t =,(40)式即为:322132()()i i i i i i y y y y u u α-=-+-,此时1i y 是21()

i i y y -的一个有效的工具变量,因为1i y 与21()i i y y -,但与32()i i u u -不相关。对于4t =,

(40)式即为:433243()()i i i i i i y y y y u u α-=-+-,此时1i y 和2i y 与32()i i y y -高度相关,但与43()i i u u -不相关。同样的原理,对于第T 期,12,2(,,...,)i i i T y y y -是,1()iT i T y y --的一个有效的工具变量。

注意:如果模型中包含另一个解释变量,针对解释变量的不同类型有下面三种不同的工具变量集:

(1)如果初始条件1i y 是前定变量,it x 为内生变量,则工具变量向量包括:12,212,2(,,...,;,,...,)i i i T i i i T y y y x x x --。

(2)如果it x 是前定变量,那么,1i t x -也是一个有效的工具变量,则工具变量向量变为:12,212,2,1(,,...,;,,...,,)i i i T i i i T i T y y y x x x x ---。

(3)如果it x 是一个严格的外生变量,那么12,(,,...,)i i i i T x x x x '=是一个有效的工具变量,则工具变量向量变为:12,212,(,,...,;,,...,)i i i T i i i T y y y x x x -。

在上述假定下将有(1)(2)/2T T --个有效矩条件:

,2,1[()]0i t it i t E y y y α--?-?= , 3,4,...,t T = (41) 我们称之为一阶差分矩条件,写成矩阵形式:

1121,2(2)()0000[,]......000[,...,]di

i i i i di i i T T m E Z u y y y Z y y --?'?=?? ? ?= ? ? ??

? (42) 也就是说在一阶差分方程中,用2t -期之前的因变量的滞后项作为因变量一阶差分项的工具变量,这样可以得到α的一致估计。根据矩条件(42)可以求解样本矩的最小化二次型:

,1,11111min ()()N N

di i i N di i i i i Z y y W Z y y N N ααα--==??'??????''?-??-???????????????∑∑

上式对α求导,求解α即可得到α的GMM 估计量:

,111,1,111?N N i di N di i i i GMM N N i di N di i i i y Z W Z y y Z W Z y α

-==--==????''?? ? ??

???=????''?? ? ?????∑∑∑∑ (43) 其中,12(,,...,)di d d dN Z Z Z Z '''=,12(,,...,)i N y y y y '''?=???,,1i y -?是i y ?的滞后项,

N W 是控制GMM 估计量有效性的加权矩阵。

在异方差情形下,广义矩估计采用两步法得到有效的、一致估计量:

第一步,令N W I =,根据(43)式得到α的第一步估计量,并运用模型(36)

得到残差?i u

及其差分?i u ?; 第二步,构造最优权重矩阵opt N W ,最小化如下统计量:

11111()()N N N i i N

i i i i J u Z W Z u N N -==''=??∑∑ 其中,最优权重矩阵为:opt

N W =11?N i

i i Z u N ='?∑?i i u

Z '?,?i u ?是一次差分估计后的残差。令opt N N W W =,再根据(43)式即可得到α的第二步估计量。

如果it u 是同方差而且无时间纬度上的序列相关,那么得到的一步估计就是

有效的,但是这种条件要求太强。尽管如此,一步估计仍然是一致的,稳健的标准差可以通过对异方差或自相关的调整得到。一步估计选择的权重矩阵为:

11N N i N i i W Z H Z N ='=∑,其中,21012001012N H -????-??=??-??-?? Arellano and Bond(1991)证明了当N →∞,T 有限时,一阶差分广义矩估计量?d α

是α的一致估计量,从而极大地改进了用标准的固定或随机效应模型估计动态面板数据模型导致的参数的非一致性。但在后续研究中,Arellano and Bover(1995)、Blundell and Bond (1998)等通过理论证明及仿真实验发现,当α趋近于1以及()i Var γ比()it Var ε增加得更快时,工具变量将变得很弱,从而一阶差分广义矩估计法得到参数估计量的有限样本性质较差,特别当T 较小时,估计结果存在严重的偏误。Arellano and Bover(1995)提出了初步的解决思想,对一阶差分广义矩估计法进行了完整的修正,提出了系统广义矩估计法。

(二)系统广义矩估计(SYS GMM )

系统广义矩估计的基本思想是,既然一阶差分广义矩估计法的偏误主要是由于工具变量较弱带来的,那么通过增加新的有效的工具变量可以减少偏误。

如果加上一个额外的假定:()0i it E u γ=,1,2,...,i N =,2,3,...,t T = (44) 以及一个初始条件假定:2E()=0i i y γ? (45) 那么我们就会得到额外的(2)T -个线性矩条件:

,1,1(())0i t it i t E y y y α--?-=,3,...,t T = (46) 也就是说我们用一阶差分滞后项,1i t y -?作为水平方程中因变量滞后项,1i t y -的工具变量。无论α的大小,,1i t y -?都是一个很好的工具变量。结合矩条件(41)和(46),可以得到新的矩条件:

323,1()0,(,...,)000

000000.

...000si

i i i iT i i i si i T E Z u u u u Z y y Z y ++-'==????????????=????????

? (47)

可见,系统广义矩估计法在一阶差分广义矩估计法利用i y 的水平值做工具变

量的基础上,增加了i y 的差分值做工具变量。根据矩条件(47)得到α的系统广

义矩估计量?s α

: 11111?s N s s s N s q Z W Z q q Z W Z q α----

-''='' (48) 其中,(,)i i i q y y ''=?。

七、各种检验

(一)相关性检验

AB (Arellano and Bond 的简称)的广义矩估计量要求模型(1)中的残差项it u 序列不相关。如果(1)式中的残差不相关,那么残差的一阶差分项应该是一阶负相关,而且没有二阶和更高阶的相关(因为it u ?服从(1)AR 过程)。对it u ?进行一阶自相关检验的检验统计量称为(2)AR 。

(例:3i u 和2i u 不相关,但332i i i u u u ?=-与221i i i u u u ?=-是一阶负相关,2i u ?与443i i i u u u ?=-没有二阶相关。)

(二)矩条件的过度识别检验

有时候工具变量的选择具有一定的任意性使得矩条件可能会过度约束(工具变量的个数超过了内生变量的个数),因此有必要检验矩条件的有效性。我们可以采用以下方法进行检验。

1. 汉森J 检验

汉森(1982)利用有效矩估计量,给出了一个J 统计量。该检验的零假设为工具变量是正确的或有效的。在零假设下:

?()EGMM J β=?()ng β'1?N W -?()g β2L k χ- 其中,11111?()()()N N i i i i i i g g Z y x Z u N N N

βββ==''==-=∑∑为样本矩,L 是矩条件的个数,k 是参数的个数。如果拒绝零假设,表明工具变量不是有效的。

2. 萨甘检验

萨甘检验是汉森J 检验在条件同方差下的特例。如果拒绝零假设(即工具变量是有效的),那么工具变量估计是有偏和非一致的。即使工具变量和误差项不相关,但是它与内生解释变量的弱相关性也会造成严重的小样本估计偏误,会使得组内估计偏低。

3. 差分(Differenced )萨甘检验

令S 表示在较强假设条件(例如it x 为前定变量)下的萨甘统计量,S '为较弱假设条件(例如it x 为内生变量)下的萨甘统计量,它们的差值DS S S '=-渐近服从卡方分布,它可以用来检验额外矩条件的有效性,即检验系统广义矩估计所加的额外工具变量是否有效。

八、应用实例

实例:美国制造业与发展中国家进、出口贸易对美国制造业就业的影响。 数据:美国制造业20个行业1997-2006年的面板数据。

模型:1,1ln ln ()ln it i t it i it n n L x ααβλε-'=++++

其中,it n 表示美国制造业第i 个行业在t 年末的就业人数,it x 包括一些解释变量(如进口渗透率it m 、出口导向率it x 、行业平均工资it w 、行业的工业增加值it y 等)。()L β'是滞后算子的多项式。i λ代表个体效应,it ε是误差项。

(一)线性动态面板数据估计(xtdpd )

xtdpd l(0/1).n l(0/1).(m x) l(0/2).(w y), noconstant dgmmiv(n) div(l(0/1).(m x) l(0/2).(w y))

Standard: D.m LD.m D.x LD.x D.w LD.w L2D.w D.y LD.y L2D.y GMM-type: L(2/.).n

Instruments for differenced equation

L2. -.1465259 .0510727 -2.87 0.004 -.2466265 -.0464253

L1. -.0735222 .0458546 -1.60 0.109 -.1633955 .0163511

--. .3562706 .0377998 9.43 0.000 .2821843 .430357

y

L2. -.0938555 .1228267 -0.76 0.445 -.3345913 .1468803

L1. .1493211 .1364212 1.09 0.274 -.1180595 .4167018

--. -.6030976 .1183935 -5.09 0.000 -.8351446 -.3710507

w

L1. -.0436222 .021641 -2.02 0.044 -.0860377 -.0012067

--. .0556818 .0213892 2.60 0.009 .0137598 .0976038

x

L1. .0020107 .0352456 0.06 0.955 -.0670693 .0710907

--. .0367771 .0327272 1.12 0.261 -.0273671 .1009212

m

L1. .7838459 .0729651 10.74 0.000 .640837 .9268549

n

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

One-step results

Prob > chi2 = 0.0000

Number of instruments = 45 Wald chi2(11) = 3744.50

max = 7

avg =

7 Obs per group: min =

7Time variable: year

Group variable: id Number of groups =

20Dynamic panel-data estimation Number of obs =

140> w y))

. xtdpd l(0/1).n l(0/1).(m x) l(0/2).(w y), noconstant dgmmiv(n) div(l(0/1).(m x) l(0/2).( nonconstant 表示不包括常数项,即对常数项进行了压缩。

dgmmiv 差分方程中广义矩风格的工具变量集

lgmmiv 水平方程中广义矩风格的工具变量集

div 差分方程中标准的工具变量集

liv 水平方差中标准的工具变量集

hascons 控制水平的解释变量之间的共线性

estat abond,artests(2) 检验自相关性

H0: no autocorrelation 2 -.60284 0.5466 1 -3.2367 0.0012 Order z Prob > z Arellano-Bond test for zero autocorrelation in first-differenced errors . estat abond,artest(2)

检验结果表明,模型中有一阶自相关,而没有二阶自相关。

estat sargan 过度识别检验

Prob > chi2 = 0.0000 chi2(34) = 83.55708 H0: overidentifying restrictions are valid

Sargan test of overidentifying restrictions . estat sargan 萨甘检验结果拒绝原假设,表明在过度识别情况下工具变量不具有效性。 两步稳健性估计:

xtdpd l(0/1).n l(0/1).(m x) l(0/2).(w y), noconstant dgmmiv(n) div(l(0/1).(m x) l(0/2).(w y)) twostep vce(robust) hascons

Standard: D.m LD.m D.x LD.x D.w LD.w L2D.w D.y LD.y L2D.y GMM-type: L(2/.).n

Instruments for differenced equation

L2. -.1728969 37.17596 -0.00 0.996 -73.03644 72.69065

L1. -.0821385 36.53168 -0.00 0.998 -71.68292 71.51865

--. .4146354 8.562684 0.05 0.961 -16.36792 17.19719

y

L2. .0058624 53.08753 0.00 1.000 -104.0438 104.0555

L1. .3190056 101.6077 0.00 0.997 -198.8284 199.4664

--. -.9428189 44.30021 -0.02 0.983 -87.76963 85.88399

w

L1. -.0499543 10.86591 -0.00 0.996 -21.34674 21.24684

--. .0552213 3.841095 0.01 0.989 -7.473186 7.583628

x

L1. -.0159248 9.494898 -0.00 0.999 -18.62558 18.59373

--. .057811 12.64924 0.00 0.996 -24.73424 24.84986

m

L1. .7481119 98.2793 0.01 0.994 -191.8758 193.372

n

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

WC-Robust

Two-step results

Prob > chi2 = 0.0000

Number of instruments = 45 Wald chi2(11) = 1281.05

max = 7

avg =

7 Obs per group: min =

7Time variable: year

Group variable: id Number of groups =

20Dynamic panel-data estimation Number of obs =

140> w y)) twostep vce(robust) hascons

. xtdpd l(0/1).n l(0/1).(m x) l(0/2).(w y), noconstant dgmmiv(n) div(l(0/1).(m x) l(0/2).(

(二)差分广义矩估计(DIF-SYS Estimation )

1. 一步估计(如果it 是同方差而且无时间纬度上的序列相关,一步就是有效的。) xtabond n l(0/1).(m x) l(0/2).(w y), lag(1)

Standard: _cons Instruments for level equation

Standard: D.m LD.m D.x LD.x D.w LD.w L2D.w D.y LD.y L2D.y

GMM-type: L(2/.).n

Instruments for differenced equation

_cons 2.228125 .5857424 3.80 0.000 1.080091 3.376159

L2. -.1465259 .0512718 -2.86 0.004 -.2470167 -.046035

L1. -.0735222 .0460333 -1.60 0.110 -.1637458 .0167015

--. .3562706 .0379472 9.39 0.000 .2818955 .4306458

y

L2. -.0938555 .1233055 -0.76 0.447 -.3355299 .1478189

L1. .1493211 .136953 1.09 0.276 -.1191019 .4177442

--. -.6030976 .1188551 -5.07 0.000 -.8360493 -.370146

w

L1. -.0436222 .0217253 -2.01 0.045 -.0862031 -.0010413

--. .0556818 .0214726 2.59 0.010 .0135964 .0977673

x

L1. .0020107 .035383 0.06 0.955 -.0673386 .0713601

--. .0367771 .0328548 1.12 0.263 -.0276171 .1011713

m

L1. .7838459 .0732496 10.70 0.000 .6402794 .9274125

n

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

One-step results

Prob > chi2 = 0.0000

Number of instruments = 46 Wald chi2(11) = 3715.48

max = 7

avg =

7 Obs per group: min =

7Time variable: year

Group variable: id Number of groups =

20Arellano-Bond dynamic panel-data estimation Number of obs =

140. xtabond n l(0/1).(m x) l(0/2).(w y), lag(1)

过度识别检验:estat sargan

Sargan test of over-identifying restrictions :

chi2(34) = 82.91 Prob > chi2 = 0.0000

自相关检验:estat abond,artests(2)

Arellano-Bond test that average autocovaria nce in residuals of order 1 is 0:

H0: no autocorrelation z = -3.35 Pr > z = 0.0008

Arellano-Bond test that average autocovariance in residu als of order 2 is 0:

H0: no autocorrelation z = -0.64 Pr > z = 0.5243

萨甘检验结果拒绝原假设,表明在过度识别情况下工具变量不具有效性。只有在扰动项服从同方差的假定下,萨甘检验统计量才具有渐近的卡方分布,如果存在异方差就容易出现拒绝原假设的情形。对一次差分残差项的检验表明原始模型随机扰动项无二阶自相关。

2. 一步稳健标准差估计

xtabond n l(0/1).(m x) l(0/2).(w y), lag(1) vce(robust)

. xtabond n l(0/1).(m x) l(0/2).(w y), lag(1) vce(robust)

Arellano-Bond dynamic panel-data estimation Number of obs = 140

Group variable: id Number of groups = 20

Time variable: year

Obs per group: min = 7

avg = 7

max = 7

Number of instruments = 46 Wald chi2(11) = 5214.39

Prob > chi2 = 0.0000

One-step results

Robust

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

n

L1. .7838459 .0724083 10.83 0.000 .6419284 .9257635

m

--. .0367771 .034206 1.08 0.282 -.0302654 .1038196 L1. .0020107 .0280195 0.07 0.943 -.0529065 .056928

x

--. .0556818 .0198314 2.81 0.005 .0168129 .0945508 L1. -.0436222 .0259169 -1.68 0.092 -.0944184 .007174

w

--. -.6030976 .2431101 -2.48 0.013 -1.079585 -.1266107 L1. .1493211 .1931222 0.77 0.439 -.2291913 .5278336

L2. -.0938555 .0806416 -1.16 0.244 -.25191 .0641991

y

--. .3562706 .0934323 3.81 0.000 .1731466 .5393946 L1. -.0735222 .0345984 -2.13 0.034 -.1413337 -.0057107

L2. -.1465259 .0755063 -1.94 0.052 -.2945154 .0014637 _cons 2.228125 1.108888 2.01 0.045 .0547451 4.401505

Instruments for differenced equation

GMM-type: L(2/.).n

Standard: D.m LD.m D.x LD.x D.w LD.w L2D.w D.y LD.y L2D.y

Instruments for level equation

Standard: _cons

Arellano-Bond test that average autocovariance in residuals of order 1 is 0:

H0: no autocorrelation z = -2.73 Pr > z = 0.0064

Arellano-Bond test that average autocovariance in residuals of order 2 is 0:

H0: no autocorrelation z = -0.51 Pr > z = 0.6141

我们对比这两个结果发现,估计系数不变而标准差有变化,许多稳健标准差结果要高于那些假定同方差时的结果,同时它不汇报萨甘检验结果。

如果仅看第一个模型,观察萨甘检验结果发现,在同方差假定成立下拒绝过度识别是有效的零假设。在这两个模型中,我们都认为一阶差分残差项有一阶自相关,而没有二阶自相关。(注意:一阶自相关不能说估计是非一致的,而如果存在二阶自相关,我们就认为估计是非一致的)。

3. 两步估计

因为萨甘检验拒绝零假设,表明模型中可能会存在异方差,因此可以用两步法进行估计。

xtabond n l(0/1).(m x) l(0/2).(w y), lag(1) twostep

Standard: _cons Instruments for level equation

Standard: D.m LD.m D.x LD.x D.w LD.w L2D.w D.y LD.y L2D.y

GMM-type: L(2/.).n

Instruments for differenced equation

errors are recommended.

Warning: gmm two-step standard errors are biased; robust standard

_cons 2.484209 .5115088 4.86 0.000 1.48167 3.486747

L2. -.1882665 .0359803 -5.23 0.000 -.2587865 -.1177465

L1. -.0935307 .0318102 -2.94 0.003 -.1558775 -.0311838

--. .430439 .0510385 8.43 0.000 .3304055 .5304725

y

L2. -.0439366 .1023474 -0.43 0.668 -.2445339 .1566606

L1. .4904527 .2640585 1.86 0.063 -.0270924 1.007998

--. -1.051853 .2252016 -4.67 0.000 -1.49324 -.6104663

w

L1. -.0486209 .0149823 -3.25 0.001 -.0779856 -.0192562

--. .0554108 .0102656 5.40 0.000 .0352906 .075531

x

L1. -.0199936 .0171063 -1.17 0.242 -.0535213 .013534

--. .062799 .0164499 3.82 0.000 .0305578 .0950401

m

L1. .7647507 .0539221 14.18 0.000 .6590654 .870436

n

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

Two-step results

Prob > chi2 = 0.0000

Number of instruments = 46 Wald chi2(11) = 11047.57

max = 7

avg =

7 Obs per group: min =

7Time variable: year

Group variable: id Number of groups =

20Arellano-Bond dynamic panel-data estimation Number of obs =

140. xtabond n l(0/1).(m x) l(0/2).(w y), lag(1) twostep

estat sargan Sargan test of over-identifying restrictions:

chi2(34) = 13.08279 Prob > chi2 = 0.9995

estat abond,artest(2)

Arellano-Bond test that average autocovariance in residuals of order 1 is 0:

H0: no autocorrelation z = -1.8956 Pr > z = 0.0580

Arellano-Bond test that average autocovariance in residuals of order 2 is 0:

H0: no autocorrelation z = -0.10599 Pr > z = 0.9156

两步估计的结果表明我们不能拒绝萨甘检验的零假设,表明在过度识别约束下工具变量是有效的。同时随机扰动项无自相关。

4. 前定变量(我们把m 和x 看做前定变量)

it x 是严格外生的,如果对所有的t ,s 来说,()0it is E x u =。

it x 是前定变量,如果对所有的t s ≤来说,()0it is E x u =;若t s >,则()0it is E x u ≠。也就是说如果当期误差项对以后的解释变量有冲击,那么该解释变量就是前定变量。因为今天无法预料的误差会影响未来的进、出口贸易量,我们怀疑进、出口贸易变量不是严格外生的,而是前定变量。我们把m 和x 看做

前定变量,用它们的一阶甚至更多滞后阶数作为工具变量。

两步法估计结果:

xtabond n l(0/2).(w y), lag(1) twostep pre(m,lag(1,.)) pre(x,lag(1,.))

Standard: _cons Instruments for level equation

Standard: D.w LD.w L2D.w D.y LD.y L2D.y

GMM-type: L(2/.).n L(1/.).L.m L(1/.).L.x

Instruments for differenced equation

errors are recommended.

Warning: gmm two-step standard errors are biased; robust standard

_cons 3.131957 1.997225 1.57 0.117 -.7825326 7.046446

L2. -.205897 .1220373 -1.69 0.092 -.4450857 .0332918

L1. -.0572104 .1012559 -0.57 0.572 -.2556684 .1412476

--. .4376278 .0692388 6.32 0.000 .3019223 .5733332

y

L2. .0165115 .1857356 0.09 0.929 -.3475235 .3805466

L1. .1851976 .3303712 0.56 0.575 -.4623181 .8327134

--. -.9635973 .2756108 -3.50 0.000 -1.503785 -.42341

w

L1. -.0267284 .0378279 -0.71 0.480 -.1008697 .047413

--. .0815557 .0329075 2.48 0.013 .0170581 .1460533

x

L1. -.04961 .0802186 -0.62 0.536 -.2068355 .1076155

--. .114214 .0877767 1.30 0.193 -.0578251 .2862532

m

L1. .7130485 .2443295 2.92 0.004 .2341714 1.191926

n

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

Two-step results

Prob > chi2 = 0.0000

Number of instruments = 107 Wald chi2(11) = 26232.28

max = 7

avg =

7 Obs per group: min =

7Time variable: year

Group variable: id Number of groups =

20Arellano-Bond dynamic panel-data estimation Number of obs =

140. xtabond n l(0/2).(w y), lag(1) twostep pre(m,lag(1,.)) pre(x,lag(1,.))

estat sargan Sargan test of over-identifying restrictions:

chi2(95) = 7.9796 Prob > chi2 = 1.0000

Arellano-Bond test that average autocovariance in residuals of order 1 is 0:

H0: no autocorrelation z = -1.1082 Pr > z = 0.2678

Arellano-Bond test that average autocovariance in residuals of order 2 is 0:

H0: no autocorrelation z = -1.147 Pr > z = 0.2514

从萨甘检验的P 值来看,我们更加不能拒绝工具变量过度识别条件的有效性这个零假设。这说明,这个模型的估计结果比上个模型有所改进,把m 和x 看做前定变量更好。

5. 内生变量(我们把w 和y 看做内生变量)

it x 是内生变量,如果对所有的t s ≥来说,()0it is E x u ≠;但是对所有的t s <来说,()0it is E x u =。

STATA面板数据模型操作命令要点

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it ε αμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量 (二)模型的筛选和检验 ●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量) (原假设:使用OLS混合模型) ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法和是使用固定效应模型。

使用GMM方法分析动态面板数据.

对外经济贸易大学金融学院张海洋 然而,该统计量有时候是不一致的,如果在命令中要求报告稳健的Sargan统计量,软件? ;再根会做两阶段GMM估计(先找任意合理的H,令 A=( Z'HZ ,估计出第一步参数,令,估计出第二部参数β ? ,计算出残差项的方差-协方差矩阵)据β 1 2 , 1 根据第二步的参数结果,默默报告出Hansen统计量。整体上说,Hansen统计量好像更靠谱一点,所以报告的时候,更多关注Hansen统计量。(三)动态面板数据现在回到我们的动态面板数据,对数据和模型有如下假定: 1 2 3 4 动态。模型中包含了因变量的滞后项;有个体的固定效应;可以有一些自变量是内生的;除了固定效应之外的误差项可以异方差,可以序列相关; 5 不同个体之间的误差项和不会相关。 6 7 可以有前定的(Predetermined)但不是完全外生的变量。“大N,小T” ,即个体数量要足够多,但时间不用太长。如果时间足够长的话,动态面板误差不会太大,用固定效应即可。从上述要求可以看出,GMM方法特别适合宏观的面板数据分析,因为宏观变量中,很难找出绝对外生的变量,变量之间多少会互相影响。而GMM方法可以“有一些自变量是内生的” ,这可能也是GMM

方法在文献中这么常用的原因。此前已经说过,不能用传统的OLS方法或者固定效应模型进行动态面板数据的分析,那样会得到有偏的估计量。先要对数据进行一定的变换,然后根据不同的矩条件设定开展矩估计。其中数据变换有两种方法,矩条件的设定也有两种方法。 6 对外经济贸易大学金融学院张海洋 1、数据的变换方法:一阶差分还是垂直离差为了消除动态面板数据中的固定效应,通常用的有两种方法:一阶差分 (first difference和垂直离差(orthogonal deviations。一阶差分之前已经介绍过了,这种方法是difference GMM 中默认的方法。缺点是如果数据中有缺失值,那么最终的估计会缺失很多样本,原始数据缺一行往往会导致差分后的数据缺两行。一种替代的方案是用垂直离差(xtabond2 命令中用 orthogonal 选项实现),每个变量减去该变量未来所有观测值的平均值,即: 式子中,为调整权重变量, Tit 是从t 期开始以后观测值的数量。对于非平衡面板,和数据有缺失的面板,这种方法避免了因缺失数据带来的样本损失,因为调整的时候只是把未来的平均值减去,样本数不会因缺失未来个别观测值而受损。然而,对于平衡面板数据,一阶差分和垂直离差估计出来的结果会完全一样。 2、 Different GMM 还是 System GMM 令数据变换之后的回归方程变为(5)这种变换可以是一阶差分,也可以是垂直离差。Different GMM的逻辑是,如果是垂直离差变换,用作为的工具变量;如果是一阶差分变换,用 作为的工具变量,此时。 X it * 对应的工具变量也类似,如果是垂直离差,就用滞后一阶的,如果是差分就用滞后一阶的差分作为工具变量。在实现的时候,为了提高估计的有效性,通常还会加入更高阶的滞后项(滞后差分)作为工具变量。这些变量的加入利用了更多的信息,然而也会带来麻烦,让工具变量的数量随T平方成比例增加。为了控制工具变量的数量,一个选择就是采用collapse选项把这些工具变量变成一列。如果因变量的变化过程接近随机游走,那么Difference GMM的估计量会有较大偏差。 7

16种常用数据分析方法

一、描述统计描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策 树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W 检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数卩与已知的某一总体均数卩0 (常为理论值或标准值)有无差别; B 配对样本t 检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t 检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10 以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析用于分析离散变量或定型变量之间是否存在相关。对于二维表,可进行卡 方检验,对于三维表,可作Mentel-Hanszel 分层分析列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以

MATLAB空间面板数据模型操作介绍

MATLAB空间面板数据模型操作简介 MATLAB安装:在民主湖资源站上下载MA TLAB 2009a,或者2010a,按照其中的安装说明安装MATLAB。(MATLAB较大,占用内存较大,安装的话可能也要花费一定的时间) 一、数据布局: 首先我们说一下MA TLAB处理空间面板数据时,数据文件是怎么布局的,熟悉eviews的同学可能知道,eviews中面板数据布局是:一个省份所有年份的数据作为一个单元(纵截面:一个时间序列),然后再排放另一个省份所有年份的数据,依次将所有省份的数据排放完,如下图,红框中“1-94”“1-95”“1-96”“1-97”中,1是省份的代号,94,95,96,97表示年份,eviews是将每个省份的数据放在一起,再将所有省份堆放在一起。 与eviews不同,MATLAB处理空间面板数据时,面板数据的布局是(在excel中说明):先排放一个横截面上的数据(即某年所有省份的数据),再将不同年份的横截面按时间顺序堆放在一起。如图:

这里需要说明的是,MA TLAB中省份的序号需要与空间权重矩阵中省份一一对应,我们一般就采用《中国统计年鉴》分地区数据中省份的排列顺序。(二阶空间权重矩阵我会在附件中给出)。 二、数据的输入: MATLAB与excel链接:在excel中点击“工具→加载宏→浏览”,找到MA TLAB的安装目录,一般来说,如果安装时没有修改安装路径,此安装目录为:C:\Programfiles\MATLAB\R2009a\toolbox\exlink,点击excllink.xla即可完成excel与MATLAB的链接。这样的话excel中的数据就可以直接导入MATLAB中形成MATLAB的数据文件。操作完成后excel 的加载宏界面如图: 选中“Spreadsheet Link EX3.0.3 for use with MATLAB”即表示我们希望excel 与MATLAB实现链

重要-动态面板数据模型

第17章 动态面板数据模型 动态面板数据模型 前一章讨论具有固定效应和随机效应的线性静态面板数据模型,但由于经济个体行为的连续性、惯性和偏好等影响,经济行为是一个动态变化过程,这时需要用动态模型来研究经济关系。本章主要讨论动态面板数据模型的一般原理和估计方法,然后介绍了面板数据的单位根检验、协整分析和格朗杰因果检验的相关原理及操作。 17.1.1动态面板模型原理 考虑线性动态面板数据模型为 ' 1p it j it j it i it j Y Y X ρβδε-==+++∑ (17.1.1) 首先进行差分,消去个体效应得到方程为: '1p it j it j it it j Y Y X ρβε-=?=?+?+?∑ (17.1.2) 可以用GMM 对该方程进行估计。方程的有效的GMM 估计是为每个时期设定不同数目的工具,这些时期设定的工具相当于一个给定时期不同数目的滞后因变量和预先决定的变量。这样,除了任何严格外生的变量,可以使用相当于滞后因变量和其他预先决定的变量作为时期设定的工具。例如,方程(17.1.2)中使用因变量的滞后值作为工具变量,假如在原方程中这个变化是独立同分布的,然后在t=3时,第一个时期观察值可作为该设定分析,很显然1i Y 是很有效的工具,因为它与2i Y ?相关的,但与3i ε?不相关。类似地,在t=4时,2i Y 和1i Y 是潜在的工具变量。以此类推,对所以个体i 用因变量的滞后变量,我们可以形成预先的工具变量: 112 12 200000000 i i i i i i i iT Y Y Y W Y Y Y -????? ?=???????? L L L L L L L L L L L L L L L L L L (17.1.3) 每一个预先决定的变量的相似的工具变量便可以形成了。 假设it ε不存在自回归,不同设定的最优的GMM 加权矩阵为: 1 1'1M d i i i H M Z Z --=?? =Ξ ??? ∑ (17.1.4)

剖析大数据分析方法论的几种理论模型

剖析大数据分析方法论的几种理论模型 做大数据分析的三大作用,主要是:现状分析、原因分析和预测分析。什么时候开展什么样的数据分析,需要根据我们的需求和目的来确定。 作者:佚名来源:博易股份|2016-12-01 19:10 收藏 分享 做大数据分析的三大作用,主要是:现状分析、原因分析和预测分析。什么时候开展什么样的数据分析,需要根据我们的需求和目的来确定。 利用大数据分析的应用案例更加细化的说明做大数据分析方法中经常用到的几种理论模型。 以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这是进行大数据分析的首要因素。大数据分析方法论中经常用到的理论模型分为营销方面的理论模型和管理方面的理论模型。 管理方面的理论模型: ?PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等?PEST:主要用于行业分析 ?PEST:政治(Political)、经济(Economic)、社会(Social)和技术(Technological) ?P:构成政治环境的关键指标有,政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平政府补贴水平、民众对政治的参与度等。?E:构成经济环境的关键指标有,GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。?S:构成社会文化环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。

?T:构成技术环境的关键指标有:新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等因素。 大数据分析的应用案例:吉利收购沃尔沃 大数据分析应用案例 5W2H分析法 何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何做(How)、何价(How much) 网游用户的购买行为: 逻辑树:可用于业务问题专题分析

动态面板

********* 计量分析与STA TA应用********* * 主讲人:连玉君博士 * 单位:中山大学岭南学院金融系 * 电邮: arlionn@https://www.360docs.net/doc/ca2590438.html, * 主页: https://www.360docs.net/doc/ca2590438.html,/arlion * ::高级部分:: * 计量分析与Stata应用 第七讲面板数据模型 * ========================== * 7.8 动态面板模型 * Part I cd D:\stata10\ado\personal\Net_course\B7_Panel *------------------------------- * 动态面板模型 *------------------------------- * 7.8.1 简介 * 7.8.2 一阶差分IV估计量(Anderson and Hisao, 1982) * 7.8.3 一阶差分GMM估计量(Arellano and Bond, 1991) * 7.8.4 系统GMM估计量(AB,1995; BB,1998) * 7.8.5 纠偏LSDV估计 * 7.8.6 各种估计方法的对比分析——一个模拟 * == 简介== * * 模型:y[it] = a0*y[it-1] + a1*x[it] + a2*w[it] + u_i + e[it] * * 特征:解释变量中包含了被解释变量的一阶滞后项 * 可以是非平行面板,但要保证时间连续 * x[it] ——严格外生变量E[x_it,e_is] =0 for all t and s * 即,所有干扰项与x都不相关 * w[it] ——先决变量E[w_it,e_is]!=0 for s=t * 即,前期干扰项与当期x相关,但当期和未来期干扰项与x不相关。* y[it-1]——内生变量E[x_it,e_is]!=0 for s<=t * 即,前期和当期,尤其是当期干扰项与x相关 * u_i 随机效应,在截面间是iid 的。u_i 与e[it] 独立。 * * 内生性问题: * (1) 若假设u_i 为随机效应,则Corr(y[i,t-1], u_i) !=0

基于面板数据模型及其固定效应的模型分析

基于面板数据模型及其固定效应的模型分析 在20世纪80年代及以前,还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,20XX)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来,并成为现在中级以上的计量经济学教科书的必备内容,面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。 面板数据同时包含了许多横截面在时间序列上的样本信息,不同于只有一个维度的纯粹横截面数据和时间序列数据,面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据,在理论上被认为有一些优点,其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中,人们认为不同的横截面很可能具有异质性,这个异质性被认为是无法用已知的回归元观测的,同时异质性被假定为依横截面不同而不同,但在不同时点却是稳定的,因此可以用横截面虚拟变量来控制横截面的异质性,如果异质性是发生在不同时期的,那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。 然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少,我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现,使用的效应①不同,对回归元的估计结果经常有十分巨大的影响,在某个固定效应设定下回归系数为正显着,而另外一个效应则变为负显着,这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果,因为不可观测的异质性(固定效应)很可能和回归元是相关的,在控制了这个效应后,由于变量之间的相关性,自然会对回归元的估计结果产生影响,因而使用的效应不同,估计的结果一般也就会有显着变化。 然而,这个被广泛接受的理论假说,本质上来讲是有问题的。我们认为,估计的效应不同,对应的自变量估计系数的含义也不同,而导致估计结果有显着变化的可能重要原因是由于面板数据是二维的数据,而在这两个不同维度上,以及将两个维度的信息放到一起时,样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此,我们这里提出另外一种异质性,即样本在不同维度上的相关关系是不同的,是异质的,这个异质性是发生在回归元的回归系数上,而

重要-动态面板数据模型(完全免费).(DOC)

第17章 动态面板数据模型 17.1 动态面板数据模型 前一章讨论具有固定效应和随机效应的线性静态面板数据模型,但由于经济个体行为的连续性、惯性和偏好等影响,经济行为是一个动态变化过程,这时需要用动态模型来研究经济关系。本章主要讨论动态面板数据模型的一般原理和估计方法,然后介绍了面板数据的单位根检验、协整分析和格朗杰因果检验的相关原理及操作。 17.1.1动态面板模型原理 考虑线性动态面板数据模型为 '1p it j it j it i it j Y Y X ρβδε-==+++∑ (17.1.1) 首先进行差分,消去个体效应得到方程为: '1p it j it j it it j Y Y X ρβε-=?=?+?+?∑ (17.1.2) 可以用GMM 对该方程进行估计。方程的有效的GMM 估计是为每个时期设定不同数目的工具,这些时期设定的工具相当于一个给定时期不同数目的滞后因变量和预先决定的变量。这样,除了任何严格外生的变量,可以使用相当于滞后因变量和其他预先决定的变量作为时期设定的工具。例如,方程(17.1.2)中使用因变量的滞后值作为工具变量,假如在原方程中这个变化是独立同分布的,然后在t=3时,第一个时期观察值可作为该设定分析,很显然1i Y 是很有效的工具,因为它与2i Y ?相关的,但与3i ε?不相关。类似地,在t=4时,2i Y 和1i Y 是潜在的工具变量。以此类推,对所以个体i 用因变量的滞后变量,我们可以形成预先的工具变量: 11212200000000i i i i i i i iT Y Y Y W Y Y Y -??????=???????? (17.1.3) 每一个预先决定的变量的相似的工具变量便可以形成了。 假设it ε不存在自回归,不同设定的最优的GMM 加权矩阵为: 1 1'1M d i i i H M Z Z --=??=Ξ ???∑ (17.1.4)

16种常用数据分析方法66337

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如 何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。 对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关; 3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。 六、方差分析

MATLAB空间面板数据模型操作介绍

MATLAB 空间面板数据模型操作简介 MATLAB 安装: 在民主湖资源站上下载 MA TLAB 2009a ,或者 2010a ,按照其中的安装说明 安装 MATLAB 。( MATLAB 较大,占用内存较大,安装的话可能也要花费一定的时间) 一、数据布局 首先我们说一下 MA TLAB 处理空间面板数据时,数据文件是怎么布局的,熟悉 eviews 的同学 可能知道, eviews 中面板数据布局是:一个省份所有年份的数据作为一个单元(纵截面:一个时间 序列),然后再排放另一个省份所有年份的数据,依次将所有省份的数据排放完,如下图,红框中 “1-94”“1-95” “1-96” “ 1-97”中, 1是省份的代号, 94,95,96,97 表示年份, eviews 是将每个省 份的数据放在一起,再将所有省份堆放在一起。 与 eviews 不同, MATLAB 处理空间面板数据时,面板数据的布局是(在 excel 中说明): 先排 放一个横截面上的数据(即某年所有省份的数据) ,再将不同年份的横截面按时间顺序堆放在一起。 如图:

这里需要说明的是, MA TLAB 中省份的序号需要与空间权重矩阵中省份一一对应,我们一般就采用《中国统计年鉴》分地区数据中省份的排列顺序。(二阶空间权重矩阵我会在附件中给出)。二、数据的输入: MATLAB 与 excel链接:在 excel中点击“工具→加载宏→浏览” ,找到 MA TLAB 的安装目录,一般来说,如果安装时没有修改安装路径,此安装目录为: C:\Programfiles\MATLAB\R2009a\toolbox\exlink ,点击 excllink.xla 即可完成 excel 与 MATLAB 的链接。这样的话 excel 中的数据就可以直接导入 MATLAB 中形成 MATLAB 的数据文件。操作完成后 excel 的加载宏界面如图: 选中“Spreadsheet Link EX3.0.3 for use with MATLAB ”即表示我们希望 excel 与

常用数据分析方法

常用数据分析方法 常用数据分析方法:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析;问卷调查常用数据分析方法:描述性统计分析、探索性因素分析、Cronbach’a信度系数分析、结构方程模型分析(structural equations modeling) 。 数据分析常用的图表方法:柏拉图(排列图)、直方图(Histogram)、散点图(scatter diagram)、鱼骨图(Ishikawa)、FMEA、点图、柱状图、雷达图、趋势图。 数据分析统计工具:SPSS、minitab、JMP。 常用数据分析方法: 1、聚类分析(Cluster Analysis) 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 2、因子分析(Factor Analysis) 因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。 因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。 3、相关分析(Correlation Analysis) 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X 与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。 4、对应分析(Correspondence Analysis) 对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。 5、回归分析 研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 6、方差分析(ANOVA/Analysis of Variance) 又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差

空间面板数据计量经济分析

空间面板数据计量经济分析 空间面板数据计量经济分析 *以上分别介绍了区域创新过程中空间效应(依赖性和异质性)的空间计量检测,以及纳入空间效应的计量模型的估计方法——空间常系数回归模型(空间滞后模型,SLM 和空间误差模型,SEM )和空间变系数回归模型(地理加权回归模型,GWR );同时还介绍和分析了面板数据(Panel Data )计量经济学方法的估计和检验。 *可以看出,目前的空间计量经济学模型使用的数据集主要是截面数据,只考虑了空间单元之间的相关性,而忽略具有时空演变特征的时间尺度之间的相关性,这显然是一个美中不足。 *Anselin (1988)也认识到这一点。当然,大多学者通过将多个时期截面数据变量计算多年平均值的办法来综合消除时间波动的影响和干扰,但是这种做法仍然造成大量具有时间演变特征的创新行为信息的损失,从而无法科学和客观地认识和揭示具有时空二维特征的研发与创新过程的真实机制。*面板数据(Panel Data )计量经济模型作为目前一种前沿的计量经济估计技术,由于其可以综合创新行为变量时间尺度的信息和截面(地域空间)单元的信息,同时集成考虑了时间相关性和空间(截面)相关性,因而能够科学而客观地反映受到时空交互相关性作用的创新行为的特征和规律,是定量揭示研发、知识溢出与区域创新相互作用关系的有效方法。但是,限于在所有时刻对所有个体(空间)均相等的假定(即不考虑空间效应),面板数据计量经济学理论也有其美中不足之处,具有很大的改进余地。 *鉴于空间计量经济学理论方法和面板数据计量经济学理论方法各有所长,把面板数据模型的优点和空间计量经济学模型的特点有机结合起来,构建一个综合考虑了变量时空二维特征和信息的空间面板数据计量经济模型,则是一种新颖的研究思路。以下根据空间计量经济模型和标准的面板数据模型[1]的建模思路,提出空间面板数据(Spatial Panel Data Model ,SPDM )模型的建模思路和过程。 [1]与动态面板数据模型的建模思路类似,只要施加一些假定,引入因变量的滞后项,则为空间动态面板数据模型。 空间滞后面板数据计量分析 *考虑一个标准的面板数据模型: it it it it it y αx βμ=++*如果将变量的真实的区域空间自相关性(依赖性)(Anselin &Florax ,1995)考虑到创新行为中来,这种创新行为的空间自相关性可以视为区域创新过程中的一种外部溢出形式,这样则可以设定如下模型: it it it it it it y αWy x βμρ=+++*上式为空间滞后面板数据(Spatial Lag Panel Data Model ,SLPDM )计量经济模型。其中,是创新的空间滞后变量,主要度量在地理空间上邻近地区的外部知识溢出,是一个区域在地理上邻近的区域在时期创新行为变量的加权求和。 空间误差面板数据计量分析 *如果在创新行为的空间依赖性存在误差扰动项中来测度邻近地区创新因变量的误差冲击对本地区创新行为的影响程度,则可以通过空间误差模型的空间依赖性原理可得: it it it it it y αx βμ=++it it it W μλμε=+*上式即为空间误差面板数据(Spatial Error Panel Data Model ,SEPDM )计量经济模型。其中,参数衡量了样本观察值的误差项引进的一个区域间溢出成分。 *因为已经在面板数据模型中考虑了创新行为变量的空间依赖性,因此采用一般面板数据模型的估计技术如OLS 或GLS 等将具有良好的估计效果。如果能够综合考虑面板数据模型中的一些假定,如时间加权(Period Weights )或截面加权(Cross-section Weights ),则可获得更加符合创新现实的估计结果。

面板数据模型入门讲解

第十四章 面板数据模型 在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。 多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(Panel Data )。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体(Individual )。例如城镇居民是一个观测个体,农村居民是另一个观测个体。 如果面板数据中各观测个体的观测区间是相同的,我们称其为平衡的面板数据,反之,则为非平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。 §14.1 面板数据模型 一、两个例子 1. 居民消费行为的面板数据分析 让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为: it it it Y C εββ++=10 (14.1.1) it t i it u ++=λμε (14.1.2) 其中:it C 和it Y 分别表示第i 个观测个体在第t 期的消费和收入。i =1、2分别表示城镇居民和农村居民两个观测个体,t =1980、…、2008表示不同年度。it u 为经典误差项。 在(14.1.2)中,i μ随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。t λ反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差

大数据数据分析方法 数据处理流程实战案例

方法、数据处理流程实战案例时代,我们人人都逐渐开始用数据的眼光来看待每一个事情、事物。确实,数据的直观明了传达出来的信息让人一下子就能领略且毫无疑点,不过前提是数据本身的真实性和准确度要有保证。今天就来和大家分享一下关于方法、数据处理流程的实战案例,让大家对于这个岗位的工作内容有更多的理解和认识,让可以趁机了解了解咱们平时看似轻松便捷的数据可视化的背后都是有多专业的流程在支撑着。 一、大数据思维 在2011年、2012年大数据概念火了之后,可以说这几年许多传统企业也好,互联网企业也好,都把自己的业务给大数据靠一靠,并且提的比较多的大数据思维。 那么大数据思维是怎么回事?我们来看两个例子: 案例1:输入法 首先,我们来看一下输入法的例子。 我2001年上大学,那时用的输入法比较多的是智能ABC,还有微软拼音,还有五笔。那时候的输入法比现在来说要慢的很多,许多时候输一个词都要选好几次,去选词还是调整才能把这个字打出来,效率是非常低的。 到了2002年,2003年出了一种新的输出法——紫光拼音,感觉真的很快,键盘没有按下去字就已经跳出来了。但是,后来很快发现紫光拼音输入法也有它的问题,比如当时互联网发展已经比较快了,会经常出现一些新的词汇,这些词汇在它的词库里没有的话,就很难敲出来这个词。

在2006年左右,搜狗输入法出现了。搜狗输入法基于搜狗本身是一个搜索,它积累了一些用户输入的检索词这些数据,用户用输入法时候产生的这些词的信息,将它们进行统计分析,把一些新的词汇逐步添加到词库里去,通过云的方式进行管理。 比如,去年流行一个词叫“然并卵”,这样的一个词如果用传统的方式,因为它是一个重新构造的词,在输入法是没办法通过拼音“ran bing luan”直接把它找出来的。然而,在大数据思维下那就不一样了,换句话说,我们先不知道有这么一个词汇,但是我们发现有许多人在输入了这个词汇,于是,我们可以通过统计发现最近新出现的一个高频词汇,把它加到司库里面并更新给所有人,大家在使用的时候可以直接找到这个词了。 案例2:地图 再来看一个地图的案例,在这种电脑地图、手机地图出现之前,我们都是用纸质的地图。这种地图差不多就是一年要换一版,因为许多地址可能变了,并且在纸质地图上肯定是看不出来,从一个地方到另外一个地方怎么走是最好的?中间是不是堵车?这些都是有需要有经验的各种司机才能判断出来。 在有了百度地图这样的产品就要好很多,比如:它能告诉你这条路当前是不是堵的?或者说能告诉你半个小时之后它是不是堵的?它是不是可以预测路况情况? 此外,你去一个地方它可以给你规划另一条路线,这些就是因为它采集到许多数据。比如:大家在用百度地图的时候,有GPS地位信息,基于你这个位置的移动信息,就可以知道路的拥堵情况。另外,他可以收集到很多

动态面板

动态面板数据编程的主要步骤: 首先导入处理模块 ssc install xtabond2 然后导入并定义面板数据 use “1.dta” xtset id t,yearly 现在进入xtabond2命令介绍: [by id]:xtabond2 y x [if] [in],[,options] 其中options可以包括: noconstant 方程中没有常数项 diffvars(varlist),已差分的外生变量 inst(varlist)其他工具变量 lags(#),滞后阶数,系统默认1,例如gmm(x y,laglimits(2 2))即定义最大滞后为2阶。maxlags(#),工具变量最大滞后阶数 maxldep(#),工具变量的别解释变量的最大滞后阶数 twostep,两步估计 endogenous(varlist[...]),内生变量 vce, gmm robust,注:这两个可以同时使用,但是robust和by id(或t)不可以同时使用level(#),显著水平,系统默认为95 artests,AR检验滞后阶数,默认为2,其实这个不必注明,gmm会检验 有时候分析必须有nomata 不然无法分析 还可以有 small 小样本t、F统计量 我常使用的编程: [by id]:xtabond2 y x L.y L.x L2.x,gmm(x y,laglimits(2 2))iv(varlist) nolevel small nomata 系统GMM是对差分GMM的扩展。差分GMM是对原方程作差分,使用变量滞后阶作为工具变量。差分GMM的缺陷有:差分时消除了非观测截面个体效应及不随时间变化的其他变量,且有时变量滞后阶并非理想工具变量。系统GMM相当于联立了差分方程和原水平方程,使用变量滞后阶作为差分方程的工具变量,同时使用差分变量的滞后项作为水平方程的工具变量。

空间数据分析模型

第7 章空间数据分析模型 7.1 空间数据 按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。 点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。 线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的 线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。 面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。 真实的地物通常是三维的,体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如 相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。 在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面 (特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。 7.2 空间数据分析 空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。 1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其关系的分析和管理。 2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是 重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。 3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。 4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。 7.3 空间数据分析的一些基本问题 空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域 单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003 )。

面板数据模型理论知识

1.Panel Data 模型简介 Panel Data 即面板数据,是截面数据与时间序列数据综合起来的一种数据类型,是截面上个体在不同时点的重复观测数据。 相对于一维的截面数据和时间序列数据进行经济分析而言,面板数据有很多优点。(1)由于观测值的增多,可以增加自由度并减少了解释变量间的共线性,提高了估计量的抽样精度。(2)面板数据建模比单截面数据建模可以获得更多的动态信息,可以构建并检验更复杂的行为模型。(3)面板数据可以识别、衡量单使用一维数据模型所不能观测和估计的影响,可以从多方面对同一经济现象进行更加全面解释。 Panel Data 模型的一般形式为it K k kit kit it it x y μβα++=∑ =1 其中it y 为被解释变量,it x 为解释变量, i =1,2,3……N ,表示N 个个体;t =1,2,3……T ,表示已知T 个时点。参数it α表示模型的截距项,k 是解释变量的个数,kit β是相对应解释变量的待估计系数。随机误差项it μ相互独立,且满足零 均值,等方差为2δ的假设。 面板数据模型可以构建三种形式(以截面估计为例): 形式一: 不变参数模型 i K k ki k i x y μβα++=∑ =1,又叫混合回归模型,是指无论 从时间上还是截面上观察数据均不存在显著差异,故可以将面板数据混合在一起,采用普通最小二乘估计法(OLS )估计参数即可。 形式二:变截距模型i K k ki k i i x y μβαα+++=∑ =1*,*α为每个个体方程共同的截距 项,i α是不同个体之间的异质性差异。对于不同个体或时期而言,截距项不同而解释变量的斜率相同,说明存在不可观测个体异质影响但基本结构是相同的,可以通过截距项的不同而体现出来个体之间的差异。当i α与i x 相关时,那就说明模型为固定效应模型,当i α与i x 不相关时,说明模型为随机效应模型。 形式三:变参数模型 i K k ki ki i i x y μβαα+++=∑ =1* ,对于不同个体或时期而 言,截距项(i αα+*)和每个解释变量的斜率ki β都是不相同的,表明不同个体之间既存在个体异质影响也存在不同的结构影响,即每个个体或时期都对应一个互不相同的方程。同样分为固定效应模型和随机效应模型两种。 注意:这里没有截距项相同而解释变量的系数不相同的模型。 2.Panel Data 模型分析步骤 2.1 单位根检验 无论利用Panel Data 模型进行截面估计还是时间估计分析的时候,我们先要进行单位根检验,只有Panel Data 模型中的数据是平稳的才可以进行回归分析,否则容易产生“虚假回归”。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的2R ,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归。面板单位根检验方法有5种:LLC 检验、IPS 检验、Breintung 检验、ADF-Fisher 检验和PP-Fisher 检验,前两种是相同根情况下的单位根检验方法, 后三

相关文档
最新文档