CH5-面板数据模型

面板数据模型

第十讲经典面板数据模型 一、面板数据(panel data) 一维数据: 时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。 二维数据: 面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。 面板数据=截面数据+时间序列数据。

面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 平衡面板数据(balanced panel data)。 非平衡面板数据(unbalanced panel data)。 例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。

表1.中国部分省级地区的居民数据(不变价格,元)

二、面板数据模型及其作用 1.经典面板数据模型 建立在古典假定基础上的线性面板数据模型. 2.非经典面板数据模型 (1)非平稳时间序列问题的面板数据模型(面板数据协整模型) (2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型) (3)其他模型(如面板数据分位数回归模型) 3.面板数据模型作用 (1)描述个体行为差异。

第9章-面板数据模型理论

5.2 面板数据模型理论 5.2.1 面板数据模型及类型。 面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section )上看,是由若干个体(entity, unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。 面板数据用双下标变量表示。例如: it y , N i ,,2,1 ;T t ,,2,1 其中,N 表示面板数据中含有的个体数。T 表示时间序列的时期数。若固定t 不变,?i y ),,2,1(N i 是横截面上的N 个随机变量;若固定i 不变,t y ?,),,2,1(T t 是纵剖面 上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。 面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模型。面板数据模型的解析表达式为: it it it it it x y T j N i ,2,1;,2,1 其中,it y 为被解释变量;it 表示截距项,),,,(21k it it it it x x x x 为k 1维解释变量向量;' 21),,,(k it it it it 为1 k 维参数向量;i 表示不同的个体;t 表示不同的时间;it 为 随机扰动项,满足经典计量经济模型的基本假设),0(~2 IIDN it 。 面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。 ⑴ 混合模型。 如果一个面板数据模型定义为: it it it x y T j N i ,2,1;,2,1 则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数 和 都是相同的 ⑵ 固定效应模型。 固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model )、时间固定效应模型(time fixed effects regression model )和时间个体固定效应模型(time and entity fixed effects regression model )。 ① 个体固定效应模型。 个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序

第五章面板数据模型

Chaper5 面板数据模型 在联立方程模型中,我们已接触到面板数据模型,它仅是作为一种特殊的联立模式来讨论的。不同时间,到不同个体不加区别,仅是一种普通样本,采用POLS 方法处理。不同时间段和不同个体的特征没有考虑,而这些特征往往有明确的经济背景。本章以存在不可观测效应(Unobserved effect )的现代观点重新阐释面板数据模型。 不可观测效应的含义是,从不同时间抽取的样本数据中,存在一个相对时间不变的不可观测的因素,称为异质性。例如,样本个体选择家庭而言,认知、动机、遗传等;样本个数选择企业而言,管理水平,创新能力等。如何处理这些潜在因素?除了前述的代理变量和多指标工具变量法外,合理应用面板数据的特征就是本章讨论的问题。此外,面板数据作为截面数据和时间序列数据动态混合,能反映模型的动态结构,故也可作为分析的内容加以讨论。深入的分析面板数据是学习时间分析之后,本章只是一个初步。合理运用面板数据,能给我们带来很多有意义的统计信息和模型。请看例: 例1:职业培训的评价: 欲评价培训的效果,(或实施某一政策的效果),一个标准的评价模型是: it i it it t it U C prog Z y ++++=1δγθ 这里t 为二期,t=1,2; t θ表示随时间变化的项,it Z 是可观察的影响因素Y 的随机变量;it prog 是虚拟变量,参加第二期培训为1,其它为0;i C 为个人是否选择接受培训的选择,它是不可观测的,是一个与个人相关的与t 无关的潜在因素。又为了消除政策因素外的其它影响,又在每个时间段中将Y 分成控制组B 和对照组A 两部分。在t=1,无人处在控制组,在t=2,部分人处在控制组部分人处在对照组。并再设置一个虚拟变量2d ,表示如t=2,处在控制组为1, 其余为为0。模型构成为: it i it it t t it U C prog Z d y +++++=12δγβθ, 则参数1δ就反映了政策因素对Y 的贡献。检验: 0H :1δ=0.接受0H 说明培训效果不是很显著。

面板数据模型入门讲解

第十四章 面板数据模型 在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。 多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(Panel Data )。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体(Individual )。例如城镇居民是一个观测个体,农村居民是另一个观测个体。 如果面板数据中各观测个体的观测区间是相同的,我们称其为平衡的面板数据,反之,则为非平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。 §14.1 面板数据模型 一、两个例子 1. 居民消费行为的面板数据分析 让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为: it it it Y C εββ++=10 (14.1.1) it t i it u ++=λμε (14.1.2) 其中:it C 和it Y 分别表示第i 个观测个体在第t 期的消费和收入。i =1、2分别表示城镇居民和农村居民两个观测个体,t =1980、…、2008表示不同年度。it u 为经典误差项。 在(14.1.2)中,i μ随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。t λ反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差

面板数据模型资料讲解

面板数据模型

精品资料 仅供学习与交流,如有侵权请联系网站删除 谢谢2 一、我对几种面板数据模型的理解 1 混合效应模型 pooled model 就是所有的省份,都是相同,即同一个方程 ,截距项和斜率项都相同 y it =c+bx it +?it c 与b 都是常数 2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份,既有相同的部分,即斜率项都相同;也有不同的部分,即截距项不同。 2.1 固定效应模型 fixed-effect model y it =a i +bx it +?it cov(c i ,x it )≠0 固定效应方程隐含着跨组差异可以用常数项的不同刻画。每个a i 都被视 为未知的待估参数。x it 中任何不随时间推移而变化的变量都会模拟因个体而已 的常数项 2.2 随机效应模型 random-effects model y it =a+u i +bx it +?it cov(a+u i ,x it )=0 A 是一个常数项,是不可观察差异性的均值,u i 为第i 个观察的随机差 异性,不随时间变化。 3 变系数模型Variable Coefficient Models(变系数也分固定效应和随机效应) 每一个组,都采用一个方程进行估计。就是所有省份的线性回归方程的截距项和斜率项都不相同。 y it =u i +b i x it +?it 1.混合估计模型就是各个截面估计方程的截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的。如果是考察各个省份,历年的收入对消费影响。则各个省份的回归方程就完全相同,无论是截距,还是斜率。 2.随机效应模型和固定效应模型在斜率项都是相同的,都是截距项不同。区别在于截距项和自变量是否相关,不相关选择随机效应模型,相关选择固定效应模型。则说明各个省份的回归方程,斜率相同,差别的是截距项,即平移项。 3 .变系数模型,就是无论是截距项,还是系数项,对于不同省份,每个省份都有一个回归方程,都一个最适合自己的回归方程,完全不管整体。每个省份的回归方程与其他省份的,无论在斜率上,还是截距上都不相同。 总之,从混合估计模型,到变截距模型,再到变系数模型,考察省份是从完全服从整体和没有个性(回归方程是从整体角度而定的和估计的,是一

第十三章 面板数据原理

面板数据模型 1.面板数据定义。 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 图1 N=7,T=50的面板数据示意图 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。 对于面板数据y i t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。 例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。 人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散

面板数据模型理论知识

1.Panel Data 模型简介 Panel Data 即面板数据,是截面数据与时间序列数据综合起来的一种数据类型,是截面上个体在不同时点的重复观测数据。 相对于一维的截面数据和时间序列数据进行经济分析而言,面板数据有很多优点。(1)由于观测值的增多,可以增加自由度并减少了解释变量间的共线性,提高了估计量的抽样精度。(2)面板数据建模比单截面数据建模可以获得更多的动态信息,可以构建并检验更复杂的行为模型。(3)面板数据可以识别、衡量单使用一维数据模型所不能观测和估计的影响,可以从多方面对同一经济现象进行更加全面解释。 Panel Data 模型的一般形式为it K k kit kit it it x y μβα++=∑ =1 其中it y 为被解释变量,it x 为解释变量, i =1,2,3……N ,表示N 个个体;t =1,2,3……T ,表示已知T 个时点。参数it α表示模型的截距项,k 是解释变量的个数,kit β是相对应解释变量的待估计系数。随机误差项it μ相互独立,且满足零 均值,等方差为2δ的假设。 面板数据模型可以构建三种形式(以截面估计为例): 形式一: 不变参数模型 i K k ki k i x y μβα++=∑ =1,又叫混合回归模型,是指无论 从时间上还是截面上观察数据均不存在显著差异,故可以将面板数据混合在一起,采用普通最小二乘估计法(OLS )估计参数即可。 形式二:变截距模型i K k ki k i i x y μβαα+++=∑ =1*,*α为每个个体方程共同的截距 项,i α是不同个体之间的异质性差异。对于不同个体或时期而言,截距项不同而解释变量的斜率相同,说明存在不可观测个体异质影响但基本结构是相同的,可以通过截距项的不同而体现出来个体之间的差异。当i α与i x 相关时,那就说明模型为固定效应模型,当i α与i x 不相关时,说明模型为随机效应模型。 形式三:变参数模型 i K k ki ki i i x y μβαα+++=∑ =1* ,对于不同个体或时期而 言,截距项(i αα+*)和每个解释变量的斜率ki β都是不相同的,表明不同个体之间既存在个体异质影响也存在不同的结构影响,即每个个体或时期都对应一个互不相同的方程。同样分为固定效应模型和随机效应模型两种。 注意:这里没有截距项相同而解释变量的系数不相同的模型。 2.Panel Data 模型分析步骤 2.1 单位根检验 无论利用Panel Data 模型进行截面估计还是时间估计分析的时候,我们先要进行单位根检验,只有Panel Data 模型中的数据是平稳的才可以进行回归分析,否则容易产生“虚假回归”。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的2R ,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归。面板单位根检验方法有5种:LLC 检验、IPS 检验、Breintung 检验、ADF-Fisher 检验和PP-Fisher 检验,前两种是相同根情况下的单位根检验方法, 后三

第十六章-面板数据模型一

第16章静态面板数据模型时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。 面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 对于面板数据y it(i=1,2,…,N,t=1,2,…,T)来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 本章主要讨论静态面板数据模型的相关理论及软件操作,首先从模型的检验开始到介绍变截距模型中的固定影响变截距模型和随机影响变截距模型,然后到变系数模型。本章的流程图如下:

16.1面板数据模型建模的基本原理 在应用多元回归分析建立的计量经济模型时,如果所建的模型中缺失了某些不可观测的重要解释变量,使得回归模型随机误差项常常存在自相关。于是回归参数的最小二乘法OLS 估计量不再是无偏估计或有效估计。但是,运用面板数据建立的计量经济模型时,对于一些忽略的解释变量可以不需要其实际观察值,而通过控制该变量对被解释变量的影响的方法获得模型参数的无偏估计。 由此可见,面板数据不仅可以同时利用截面数据和时间序列数据建立计量经济模型,而且能更好地识别和度量单纯的时间序列模型和单纯截面数据模型所不能发现的影响因素,它能够构造和检验更复杂的行为模型。例如:在宏观领域,它被广泛用于劳动经济学、国际金融、经济增长、产业结构、技术创新、税收政策等领域。 16.1.1面板数据模型基本框架 面板数据能更好地识别和度量时间序列或截面数据不可发觉的效应,有助于建立和检验更复杂的行为模型,其基本模型是如下形式的一般回归模型: 1,2,,,1,2,,it it it i t it y x i N t T αβδγε=++++==L L (16.1.1) 其中:it y 是个体i 在时间t 时期的观测值,α表示模型的常数项,i δ代表固定或者随机的截面效应,t γ代表固定或者随机的时期效应,it x 表示k 阶解释变量观测值向量。β表示解释变量的系数向量,并且在根据其条件的限制分为三种值,一是对所有截面和时期都是相同的常数,二是在不同的截面是不同的系数,三是在不同的时期是不同的。it ε是独立同分布的误差项,即()0it E ε=。 在公式(16.1.1)中,如果考虑k 个解释变量,自由度NT 远小于参数个数,对于截面成员方程,待估计参数的个数为((1))NT k N ++,对于时间截面方程,待估计参数的个数为((1))NT k T ++,这使得该模型无法估计。为了对模型进行估计,则可以建立以下的两类模型:从个体成员角度考虑,建立含有N 个个体成员方程的面板数据模型;在时间点上截面,建立含有T 个时间点截面方程的面板数据模型。 1)含有N 个个体成员方程的面板数据模型 模型形式如下: i T i it i T T i y l x l I αβδγε=++++ (16.1.2) 其中:i y 是个体i 的观观测值的时间序列。系数向量β取值受不同个体的影响,i x 表示个体i 解释变量观测值时间序列。T l 是T 阶的单位行向量,T I 是T 阶的单位列向量。 '12()T γγγγ=L ,,,,包括所有的时点效应。该式含有N 个截面方程。

第十三章 面板数据的处理

第十三章 面板数据的处理 一、面板数据的定义、意义和种类 面板数据是调查经历一段时间的同样的横截面数据,具有空间和时间的两种特性。它 还有其他一些名称,诸如混合数据,纵列数据,平行数据等,这些名字都包含了横截面单元在一段时期的活动。 面板数据的优点在于:1.提供了更有价值的数据,变量之间增加了多变性和减少了共线性,并且提高了自由度和有效性。2.能够更好地检测和度量单纯使用横截面数据或时间序列数据无法观测到的影响。3.能够对更复杂的行为模型进行研究。 形如 01122it it it it Y X X u βββ=+++ 其中,i 表示第i 个横截面单元,t 表示第t 年。一般,我们用i 来表示横截面标识符,用t 表示时间标识符。假设N 个横截面单元的观测次数相同,我们称之为平衡面板,反之,称为非平衡面板。一般假设X 是非随机的,误差项遵从经典假设。 二、面板数据回归模型的类型与估计方法 (一)面板数据回归模型的类型 对于面板数据模型 i t i i t i Y X u αβ=++,可能的情形主要有如下几种。 1. 所有系数都不随时间和个体而变化 在横截面上无个体影响、无结构变化,即i j αα=,i j ββ=。则普通最小二乘估计给出了和的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。it it it Y X u αβ=++。 2.变截距模型 在横截面上个体影响不同,个体影响表现为在模型中被忽略的反映个体差异的影响,又分为固定效应和随机效应两种。it i it it Y X u αβ=++ 3.变系数模型 除了存在个体影响之外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面单位是不同的。i j αα≠,i j ββ≠。it i it i it Y X u αβ=++。 看到面板数据之后,如何确定属于哪一种类型呢?用F 检验 假设1:斜率在不同的横截面样本点上和时间上都相同,但截距不相同,即情形2。 假设2:截距和斜率在不同的横截面样本点和时间上都相同,即情形1。

面板数据模型

一、我对几种面板数据模型的理解 1 混合效应模型pooled model 就是所有的省份,都是相同,即同一个方程,截距项和斜率项都相同 y it =c+bx it +? it c 与b 都是常数 2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份,既有相同的部分,即斜率项都相同;也有不同的部分,即截距项不同。 2.1 固定效应模型fixed-effect model y it =a i +bx it +? it cov(c i ,x it )≠0 固定效应方程隐含着跨组差异可以用常数项的不同刻画。每个a i 都被视 为未知的待估参数。x it 中任何不随时间推移而变化的变量都会模拟因个体而已的常数项 2.2 随机效应模型random-effects model y it =a+u i +bx it +? it cov(a+u i ,x it )=0 A是一个常数项,是不可观察差异性的均值,u i 为第i个观察的随机差异性,不随时间变化。 3 变系数模型Variable Coefficient Models(变系数也分固定效应和随机效应) 每一个组,都采用一个方程进行估计。就是所有省份的线性回归方程的截距项和斜率项都不相同。 y it =u i +b i x it +? it 1.混合估计模型就是各个截面估计方程的截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的。如果是考察各个省份,历年的收入对消费影响。则各个省份的回归方程就完全相同,无论是截距,还是斜率。 2.随机效应模型和固定效应模型在斜率项都是相同的,都是截距项不同。区别在于截距项和自变量是否相关,不相关选择随机效应模型,相关选择固定效应模型。则说明各个省份的回归方程,斜率相同,差别的是截距项,即平移项。 3 .变系数模型,就是无论是截距项,还是系数项,对于不同省份,每个省份都有一个回归方程,都一个最适合自己的回归方程,完全不管整体。每个省份的回归方程与其他省份的,无论在斜率上,还是截距上都不相同。 总之,从混合估计模型,到变截距模型,再到变系数模型,考察省份是从完全服从整体和没有个性(回归方程是从整体角度而定的和估计的,是一刀切的,是完全没有差异性和个性的,完全牺牲自我),到随心所欲和完全个性化(每个省份都有一个最适合自己的回归方程)。即从完全无个性而言到完全有个性。

相关文档
最新文档