计量经济学 詹姆斯斯托克 第9章 面板数据的处理

合集下载

第九章--面板数据(-Panel-Data)-模型课件

第九章--面板数据(-Panel-Data)-模型课件

• 常用Panel Data 模型
– 变截矩模型(Variable-Intercept Models)
固定影响(Fixed-Effects) 随机影响(Random-Effects)
– 变系数模型(Variable-Coefficient Models)
固定影响 随机影响
– 动态变截矩模型(Dynamic Models with Variable Intercepts)
型?
二、H检验(Hausman) 判断应建立变截距固定效应模型还是变
截距随机效应模型?
第九章--面板数据(-Panel-Data)-模 型
面板数据模型的EViews操作
注意事项: 1、EViews5.1以上版本新增了H检验 2、EViews对混合数据模型采用OLS法 3、EViews对固定效应模型采用离差变换LS
固定影响 随机影响
第九章--面板数据(-Panel-Data)-模 型
• 其它Panel Data 模型
– 联立方程Panel Data模型 – 离散数据Panel Data模型 – 选择性样本Panel Data模型 – Panel Data单位根检验和协整检验
第九章--面板数据(-Panel-Data)-模 型
列数据更有效。
第九章--面板数据(-Panel-Data)-模 型
二、两时期面板数据分析
1、为什么要关 系研究
2、一阶差分方法
第九章--面板数据(-Panel-Data)-模 型
三、固定效应模型及其估计
1、个体固定效应模型 2、离差变换LS法 3、虚拟变量LS法 4、时间固定效应模型 5、个体时间固定效应模型 6、非均衡面板数据的固定效应模型
法 4、EViews对随机效应模型采用FGLS法

计量经济学 詹姆斯斯托克 第九章:工具变量回归与联立方程

计量经济学 詹姆斯斯托克 第九章:工具变量回归与联立方程

由于“简化式模型”中,所有方程中的解释变量都是 外生变量,因此这些解释变量与随机项之间就不再相 关了, 因此我们可以用OLS得到对全部“简化式参数”的最 佳线性无偏估计量。

25
1、间接最小二乘法 (ILS: Indirect Least Square)

如何将“结构式模型”转变为“简化式模型”?
最初的工具变量回归


谁开创了工具变量回归? 1928年的著作的“The Tariff on Animal and Vegetable Oils”的附录B。 作者是谁? Philip Wright 或者是他的儿子Sewall Wright 文体计量学的分析
最初的工具变量回归
Philip Wright的问题 Philip Wright关心的是那个时期的一个重 要经济问题:即如何对诸如黄油,大豆油这样的 动植物油和食用动物设臵进口关税。 而理解关税的经济效应的关键在于要有商品 需求和供给曲线的定量估计。
如何应对?

工具变量回归的实质: 用工具变量(Z) 与原有变量共同构造 一个估计量。
工具变量回归

例如,过原点的回归方程:
Yi X i ui


利用“矩条件”有: E ( XY ) E ( XX ) E( Xu) 按照经典假设:E(XU)=0 有: X Y E ( XY ) i i ˆ
E ( XX )
X X
i
矩估计
i
工具变量回归



类似得,我们可以得到如下等式: E (ZY ) E (ZX ) E (Zu) 利用工具变量的性质E(Zu)=0 可得
E ( ZY ) E ( ZX )

计量经济学:面板数据

计量经济学:面板数据

Panel Data 分析的基本框架
线性模型 非线性模型
Panel Data 分析的基本框架:线性模 型
线性模型: (1)单变量模型 (2)联立方程模型 (3)带测量误差模型 (4)伪Panel Data
Panel Data 分析的基本框架:线性
模型之单变量模型
(1) 固定效应和固定系数模型(Fixed Effect Models and Fixed Coefficient Models):通常采用OLS估计。固 定效应包括时间效应以及时间和个体效应,并可以进一 步放宽条件,允许在有异方差、自相关性和等相关矩阵 块情况下,用GLS估计。 (2)误差成分模型(Error Components Models):最 常用的Panel Data模型。针对不同情况,通常可以用OLS 估计、GLS估计、内部估计(Within Estimator)和FGLS 估计,并检验误差成分中的个体效应以及个体和时间效 应,同时将自相关和异方差情况也纳入该模型框架中。
平行数据的含义
所谓平行数据,是指在时间序列上取多个 截面,在这些截面上同时选取样本观测值 所构成的样本数据。 面板数据是同时在时间和截面空间上取得 的二维数据。从横截面上看,是由若干个 体在某一时刻构成的截面观测值,从纵剖 面上看是一个时间序列。
平行数据研究的应用和发展
最早是Mundlak(1961)、Balestra和 Nerlove (1966)把Panel Data引入到经济计量中。从此 以后,大量关于Panel Data的分析方法、研究文 章如雨后春笋般出现在经济学、管理学、社会 学、心理学等领域。从1990年到目前为止,已 有近1000篇有关 Panel Data理论性和应用性的文 章发表,Panel Data 研究成为近十年来经济计量 学的一个热点。

面板数据处理方法总结(经典)

面板数据处理方法总结(经典)

单位根检验、协整检验与格兰杰检验的关系单位根检验、协整检验和格兰杰因果关系检验三者之间的关系实证检验步骤:先做单位根检验,看变量序列是否平稳序列,若平稳,可构造回归模型等经典计量经济学模型;若非平稳,进行差分,当进行到第i次差分时序列平稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值和原假设判定)。

若所有检验序列均服从同阶单整,可构造VAR模型,做协整检验(注意滞后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均衡关系。

协整检验的原假设就是,变量回归后的残差是平稳序列。

如若残差是平稳序列,说明存在协整关系,如果残差序列有单位根,则协整关系不存在。

如果有协整关系,则可以构造VEC模型或者进行Granger因果检验,检验变量之间“谁引起谁变化”,即因果关系。

一、讨论一1、单位根检验是序列的平稳性检验,如果不检验序列的平稳性直接OLS容易导致伪回归。

2、当检验的数据是平稳的(即不存在单位根),要想进一步考察变量的因果联系,可以采用格兰杰因果检验,但要做格兰杰检验的前提是数据必须是平稳的,否则不能做。

3、当检验的数据是非平稳(即存在单位根),并且各个序列是同阶单整(协整检验的前提),想进一步确定变量之间是否存在协整关系,可以进行协整检验,协整检验主要有EG 两步法和JJ检验A、EG两步法是基于回归残差的检验,可以通过建立OLS模型检验其残差平稳性B、JJ检验是基于回归系数的检验,前提是建立VAR模型(即模型符合ADL模式)4、当变量之间存在协整关系时,可以建立ECM进一步考察短期关系,Eviews这里还提供了一个Wald-Granger检验,但此时的格兰杰已经不是因果关系检验,而是变量外生性检验,请注意识别二、讨论二1、格兰杰检验只能用于平稳序列!这是格兰杰检验的前提,而其因果关系并非我们通常理解的因与果的关系,而是说x的前期变化能有效地解释y的变化,所以称其为“格兰杰原因”。

2、非平稳序列很可能出现伪回归,协整的意义就是检验它们的回归方程所描述的因果关系是否是伪回归,即检验变量之间是否存在稳定的关系。

计量经济学-詹姆斯斯托克-第9章-面板数据的处理ppt课件

计量经济学-詹姆斯斯托克-第9章-面板数据的处理ppt课件

35
.
FatalityRate v. BeerTax:
36
.
问题
在上述模型中,如果超过两期,即T>2, 怎么处理呢?
37
.
面板数据模型的一般理论
在模型的设定上,分为两大类: (一)“固定效应”模型; (二)“随机效应”模型;
38
.
(一) 固定效应的回归 Fixed Effects Regression
2
.
面板数据,简而言之是时间序列和截面数据的混合。 严格地讲是对一组个体(如居民、国家、公司等)连 续观察多期得到的资料。所以很多时候我们也称其为 “追踪资料”。近年来,由于面板数据资料的获得变 得相对容易,使其应用范围也不断扩大。
3
.
当描述截面数据时,我们用下标表示个体,如Yi表示 变量Y的第i个个体。当描述面板数据时,我们需要其 他符号同时表示个体和时期。为此我们采用双下标而 不是单下标,其中第一个下标i表示个体,第二个下 标t表示观测时间。
23
.
案例二:
啤酒税与交通死亡率
啤酒税与交通死亡率会是什么关系?
24
.
U.S. traffic death data for 1982:
$1982
较高的啤酒税,会导致更多的交通死亡吗?
25
.
U.S. traffic death data for 1988
较高的啤酒税,会导致更多的交通死亡吗?
16000
15000
14000
13000
INC
12000
11000
10000
9000
8000 10000
15000
20000
25000

面板数据的常见处理

面板数据的常见处理

面板数据的常见处理引言概述:面板数据是指在一定时间跨度内,对多个个体单位进行观察和测量得到的数据集合。

面板数据具有时间序列和横截面数据的特点,因此在处理面板数据时需要采取一些特定的方法和技巧。

本文将介绍面板数据的常见处理方法,包括数据清洗、平衡面板处理、面板数据变换、面板数据建模以及固定效应和随机效应模型。

一、数据清洗:1.1 缺失值处理:面板数据中常常存在缺失值,需要进行处理。

可以采用删除法、替代法和插补法等方法。

删除法是直接删除含有缺失值的观测值,但会导致样本减少;替代法是用平均值、中位数等代替缺失值,但可能引入估计偏误;插补法是利用其他变量的信息进行插补,如回归插补、多重插补等。

1.2 异常值处理:面板数据中可能存在异常值,需要进行识别和处理。

可以通过箱线图、散点图等方法进行异常值检测,然后采取删除、替代或修正等方式进行处理。

1.3 数据转换:面板数据中的变量可能需要进行转换,以满足建模的要求。

常见的数据转换包括对数变换、差分变换、标准化等。

对数变换可以使数据更加符合正态分布,差分变换可以消除时间序列相关性,标准化可以消除不同变量单位的影响。

二、平衡面板处理:2.1 平衡面板的定义:平衡面板是指在面板数据中,每个个体单位在每个时间点都有观测值的情况。

然而,实际面板数据中往往存在非平衡面板的情况,即某些个体单位在某些时间点没有观测值。

2.2 面板数据的平衡化方法:对于非平衡面板数据,可以采用删除法、插补法或加权法等方法进行平衡化处理。

删除法是直接删除非平衡的观测值,但会导致样本减少;插补法是利用已有观测值进行插补,如线性插值、多重插补等;加权法是给予有观测值的个体单位更大的权重,以弥补非平衡带来的偏误。

2.3 面板数据平衡性的检验:平衡面板处理后,需要对平衡性进行检验。

可以通过计算面板数据的平衡率、面板数据的观测数等指标进行检验,以确保平衡面板的有效性。

三、面板数据变换:3.1 横向平均化:对于面板数据中的个体单位,可以计算它们在不同时间点上的平均值,以得到横向平均化的结果。

本科经济计量学第9章第4版

本科经济计量学第9章第4版
2
第9章
9.1 异方差的性质 9.2 异方差的后果 9.3 异方差的诊断 9.4 异方差的补救措施 9.5 White异方差校正后的标准误和t统计量 9.6 若干异方差实例 9.7 小结
3
第9章
9.1 异方差的性质
异方差:E( ui2 )=i2
Y
Y




返回首页
0
个人可支配收入
0X
个人可支配收入 X
Coefficient
C
-3.350978
LOG(WAGEF)
2.231966
R-squared
0.211964
Adjusted R-squared 0.162712
S.E. of regression 2.024705
Sum squared resid 65.59091
Log likelihood
但接受零假设并不意味着一定不存在异方差。
23
第9章
例9.3 工资回归与帕克检验
我们来解释工资回归方程(9-3)。把从这个回归方
程中得到的残差提取出来,估计得到如下结果(ls ss1^2 c
wagef) :
eˆ2 i
=-10.35965+3.467
yˆ i
se=(11.795) (1.255)
(9-6)
对具体问题异方差的检验并非易事,因为我们仅 仅知道一个样本,很难知道总体的情况,是否是异方 差便不易确定。直接计算得到方差不太可能,但我们 可以借助于一些检测工具来检验异方差是否存在。
检验方法有(1)根据问题的性质 (2)残差的图形检验 (3)帕克检验 (Park test) (4)Glejser 检验 (Glejser (5)White 检验 (6)异方差的其它检验方法

第九章_面板数据模型

第九章_面板数据模型

yit x it β uit
(9.2)
这类模型假设所有的横截面个体在各个不同时 期的斜率和截距都是相同的,这样就可以直接把 面板数据混合在一起,用OLS估计参数,得到一 致和有效估计量。 由于混合回归模型假设解释变量对被解释变量 的影响与横截面个体无关,这在现实中是很难成 立的,所以应用不广。
yi i xit uit ,假定 u ~ IN (0, 2 ) 。 it
定义
1 yi T
y
t 1
T
it

2
1 xi T
x ,
yit x it β i uit
(9.7)
这就是固定影响模型。从模型的设定可知,固 定影响模型假设横截面个体之间的差异为截距不同, 而斜率系数相同,即允许不同的横截面个体的截距 是不同的,但每一个体的截距在各个不同时期则保 持不变。换句话说,固定影响模型假定不同横截面 i 个体的差异可用不同的常数项 来描述,在此模型 i 中, 被作为要估计的未知参数。 如果进一步假设Var (ci Xi )为常数,则在此假设 下,(9.7)变成经典线性回归模型。
这样在模型(9.12)中,常数项就被去掉了。令
y yit yi , X X it X i , u uit ui
* it * it * it
则模型转换为
y X u
* it * it
* it
(9.13)
对模型(9.13)运用OLS进行回归,就得到 的OLS估计值。 2. 组内估计法 为表达方便起见,先考虑双变量模型
yit x it β E[ z i α ] {z i α E[ z i α ]} uit x it β i uit
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

YTX,t = TX + 1XTX,t + uTX,t or YMA,t = MA + 1XMA,t + uMA,t
Yit = i + 1Xit + uit, i = CA, TX, MA, T = 1,…,T
The regression lines for each state
Y CA Y = CA + 1X
处理方法:把两个时期的回归方程相减!
相减后得到:
FatalityRatei1988 – FatalityRatei1982 = 1(BeerTax i1988 – BeerTax i1982) + (ui1988 – ui1982)
啤酒税与交通死亡率
1982 data: FatalityRate = 2.01 + 0.15BeerTax (.15) (.13) 1988 data: FatalityRate = 1.86 + 0.44BeerTax (.11) (.13) (n = 48)

(2)去中心化的回归; (“Entity-demeaned” OLS)
(1)引入(N-1)个哑变量的回归

Suppose we have n=3 states, California, Texas, Massachusetts
所有三个州的回归线 :
YCA,t = CA + 1XCA,t + uCA,t
案例一

可能的处理方法:

谨慎型 无知者无畏型
案例一

谨慎型

方法一:估计31个不同地区的消费方程;

本质假设:消费行为在不同地区之间有差异, 但同一地区在不同时间内没有差异;
案例一

谨慎型

方法二:估计9个不同时期的全国消费方程;

本质假设:消费行为在不同地区之间没有差异, 但同一地区在不同时间内有差异;
案例二:
(n = 48)
Difference regression (n = 48) FR1988-FR1982 = –.072 – 1.04(BeerTax1988–BeerTax1982) (.065) (.36)
FatalityRate v. BeerTax:
问题
在上述模型中,如果超过两期,即T>2, 怎么处理呢?



答案似乎是肯定的,但与我们的常识不相 符!为什么会这样? 原因:可能是因为遗漏了重要变量! 决定交通死亡率的其他因素: • Quality (age) of automobiles • Quality of roads • “Culture” around drinking and driving • Density of cars on the road

啤酒税与交通死亡率

案例二:
观测的数据: 48 U.S. states, so n = 48; 7 years (1982,…, 1988), so T = 7;
Balanced panel, so total observations = 7×48 = 336
啤酒税与交通死亡率
变量: • Traffic fatality rate (交通死亡率, 当年、 当地,每 10,000人中死于交通事故的人数) • Tax on a case of beer(啤酒税) • Other (其他因素,legal driving age, drunk driving laws, etc.)
面板数据模型的一般理论
在模型的设定上,分为两大类:
(一)“固定效应”模型;
(二)“随机效应”模型;
(一) 固定效应的回归 Fixed Effects Regression
1、“固定效应”的模型形式; 2、“固定效应”回归的参数估计; 3、一般化的“固定效应”模型;
4、面板数据模型的缺陷;
1、“固定效应”的模型形式
“固定效应”的模型一般形式
Yit 0 1X 1,it ... k X k ,it k 1Z i uit
其中,i 1,2,...,N ;
t 1,2,...,T
要求:
E(uit ) 0,Var(uit ) 2, E(uit ,uit ') 0,E(uit ,ujt ) 0; E(X j uit ) 0; j 1,2...p
遗漏相关变量——“过低拟合”模型
Yi 0 1 X1i 2 X 2i ui
Yi 0 1 X1i vi

如果X2=b21*X1+εi,则事实上有
Yi 0 1 X1i 2b21 X1i ui i

整理后:
Yi 0 (1 2b21 ) X1i ui i
如Yit表示n个个体中第i个个体在T个时期中的第t期 时观测到的变量Y的值。
面板数据用双下标变量表示,两个维度。例如: Yit, i=1, 2 ,…, N; t =1, 2, …, T
N 表示面板数据中含有 N 个个体。T 表示时间序列的 最大长度。
面板数据的优势
样本容量较大:可以解决样本容量不足的问题,改进 模型估计的有效性。 可以解决遗漏变量问题。遗漏变量偏差是一个普遍 存在的问题,虽然可以用工具变量法解决,但有效的 工具变量常常很难找到。遗漏变量常常是由于不可观 测的个体差异或“异质性”所造成,如果这种个体差 异“不随时间而变化”,则面板数据提供了解决遗漏 变量问题的又一利器。 提供更多个体动态行为的信息。由于面板数据同时 有截面与时间两个维度,有时它可以解决单独的截面 数据或时间序列数据所不能解决的问题。

(2) 去中心化的回归 “Entity-demeaned” OLS regression
The fixed effects regression model: Yit = 1Xit + i + uit
计算州内平均值:
T T 1 T 1 1 = + Y uit i 1 X it + it T t 1 T t 1 T t 1
遗漏变量可能引起估计的偏误
Example : traffic density(交通密度)




High traffic density means more traffic deaths 交通密度与啤酒税之间可能存在着较高的 正相关关系; 遗漏交通密度变量,会导致OLS估计产生高 估的可能!导致“啤酒税”与“交通死亡” 之间呈现出显著的正向关系。


如果我有31个省市自治区,从2000—2008年的 “家庭可支配收入”与“家庭消费”的数据 应该如何做回归?
案例一
基本概念 面板数据(panel data)
X it ,
i 1,2...; n
t 1,2,...; T

平衡面板数据(balanced panel data)、非平 衡面板数据(unbalanced panel data)
两时期面板数据
考虑面板数据模型, FatalityRateit = 0 + 1BeerTaxit + 2Zi + uit
Zi 是不随着时间改变,但会随着个体变化的因素。 假设Zi无法观测,所以它的遗漏会带来遗漏变量 的偏误。 Zi 的影响可以通过使用T = 2年的面板数据的处理 来消除。
主要的想法:
案例一

无知无畏型

把所有数据混在一起做回归;

本质假设:消费行为在不同地区之间没有差异, 同一地区在不同时间内也没有差异;
案例一

上述处理方法的缺陷
要么没有充分利用数据(谨慎型),要么 过于大胆使得估计结果犯错的可能性非常大;
本章的两大问题

对面板数据如何处理?
为什么要发明一个“面板数据”?
面板数据,简而言之是时间序列和截面数据的混合。 严格地讲是对一组个体(如居民、国家、公司等)连 续观察多期得到的资料。所以很多时候我们也称其为 “追踪资料”。近年来,由于面板数据资料的获得变 得相对容易,使其应用范围也不断扩大。
当描述截面数据时,我们用下标表示个体,如Yi表示 变量Y的第i个个体。当描述面板数据时,我们需要 其他符号同时表示个体和时期。为此我们采用双下 标而不是单下标,其中第一个下标i表示个体,第二 个下标t表示观测时间。

案例二:
啤酒税与交通死亡率

案例二:
啤酒税与交通死亡率会是什么关系?
U.S. traffic death data for 1982:
$1982
较高的啤酒税,会导致更多的交通死亡吗?
U.S. traffic death data for 1988
较高的啤酒税,会导致更多的交通死亡吗?
啤酒税越高,交通死亡率越高???
案例一

如果想估计我国的“消费函数”


如果我有2005年31个省市自治区的“家庭可 支配收入”与“家庭消费”的数据 则画散点图; 做回归;
14000 13000 12000 11000
INC
10000 9000 8000 7000 6000 5000 6000 800010000 14000 CONS 18000
第六章:面板数据的处理
时间序列数据和截面数据都是一维数据。
时间序列数据是变量按照时间得到的数据;截面数 据是变量在截面空间上的数据。面板数据是同时在 时间和截面上取得的二维数据。 所以,面板数据(panel data)也称时间序列截面 数据(time series and cross section data)或 混合数据(pool data)
从1982-1988年期间,任何一个地区i 的死亡 率的任何改变,都不可能是由Z i 引起的。
相关文档
最新文档