chap13_stata面板数据分析
面板数据分析PPT课件

相同(都是1),t 却因截面(时点)不同而异。可见时点固定效应 模型中的截距项t 包括了那些随不同截面(时点)变化,但不随个 体变化的难以观测的变量的影响。t 是一个随机变量。
以家庭消费性支出与可支配收入关系为例,“全国零售物价指数” 就是这样的一个变量。对于不同时点,这是一个变化的量,但是对 于不同省份(个体),这是一个不变化的量。
变换上式: yi = + X i ' +( i - + i ), i = 1, 2, …, N
称作平均数模型。对上式应用 OLS 估计,则参数估计量称作平均数 OLS 估 计量。此条件下的样本容量为 N,(T=1)。
如果 X i 与( i - + i )相互独立,和的平均数 OLS 估计量是一致估计量。
yit = + Xit ' +it, i = 1, 2, …, N; t = 1, 2, …, T 如果模型是正确设定的,且解释变量与误差项不相关,即 Cov(Xit,it) = 0。 那么无论是 N,还是 T,模型参数的混合最小二乘估计量都具有 一致性。 对于经济序列每个个体 i 及其误差项来说通常是序列相关的。NT 个相关 观测值要比 NT 个相互独立的观测值包含的信息少。从而导致误差项的标 准差常常被低估,估计量的精度被虚假夸大。
为误差项(标量),满足通常假定条件。Xit 为 k 1 阶回归变量列
向量(包括 k 个回归变量),为 k 1 阶回归系数列向量,则称此
模型为时点固定效应模型。
第8页/共30页
2.2.2 时点固定效应模型(time fixed effects model)
设定时点固定效应模型的原因。假定有面板数据模型
(完整word版)STATA面板数据模型操作命令讲解

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令εαβit ++=x y it i it 固定效应模型μβit +=x y it itεαμit +=it it 随机效应模型(一)数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验)原假设:使用随机效应模型(个体效应与解释变量无关)通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下:Step1:估计固定效应模型,存储估计结果Step2:估计随机效应模型,存储估计结果Step3:进行Hausman检验●qui xtreg sq cpi unem g se5 ln,feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe (或者更优的是hausman fe,sigmamore/ sigmaless)可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。
(最新整理)STATA面板数据模型操作命令讲解

STATA面板数据模型操作命令讲解编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(STATA面板数据模型操作命令讲解)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为STATA面板数据模型操作命令讲解的全部内容。
STATA 面板数据模型估计命令一览表一、静态面板数据的STATA 处理命令 固定效应模型εαβit ++=x y it i it μβit +=x y it it随机效应模型εαμit +=it it (一)数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F 。
y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2。
y /////// 产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现F统计量的概率为0。
0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui"之后第一幅图将不会呈现)xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。
STATA面板数据模型操作命令剖析

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令εαβit ++=x y it i it 固定效应模型μβit +=x y it itεαμit +=it it 随机效应模型(一)数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验)原假设:使用随机效应模型(个体效应与解释变量无关)通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下:Step1:估计固定效应模型,存储估计结果Step2:估计随机效应模型,存储估计结果Step3:进行Hausman检验●qui xtreg sq cpi unem g se5 ln,feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe (或者更优的是hausman fe,sigmamore/ sigmaless)可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。
经济统计学中的面板数据分析

经济统计学中的面板数据分析面板数据分析是经济统计学中的一项重要研究方法,它能够提供更加全面和准确的经济数据分析结果。
在经济学领域,我们经常需要研究多个个体或单位在不同时间点上的经济行为和变化趋势。
传统的横截面数据和时间序列数据分析方法无法完全满足这种需求,而面板数据分析则能够充分利用横截面和时间序列的信息,从而更好地解释和预测经济现象。
面板数据是指在一段时间内对多个个体或单位进行观察和测量的数据。
这些个体可以是不同的国家、地区、企业或个人,而时间可以是连续的或离散的。
面板数据分析的核心思想是将个体和时间作为两个维度,通过同时考虑个体和时间的变化,来探索它们之间的关系和影响。
面板数据分析方法的一个重要应用是面板回归分析。
面板回归模型可以通过同时考虑个体特征和时间变化,来解释和预测经济现象。
在面板回归模型中,我们可以引入个体固定效应和时间固定效应,以控制个体间和时间间的异质性。
这样一来,我们就能够更准确地估计变量之间的关系,并得出更可靠的结论。
除了面板回归模型,面板数据分析还可以应用于其他经济统计学方法,如面板单位根检验、面板协整分析和面板数据的动态模型等。
这些方法在经济学研究中起着重要的作用,能够帮助我们深入理解经济现象的本质和规律。
面板数据分析的优势在于它能够提供更加精确和全面的经济数据分析结果。
相比传统的横截面数据和时间序列数据分析方法,面板数据分析能够更好地控制个体和时间的异质性,从而减少估计误差和偏差。
此外,面板数据分析还能够提供更多的信息,比如个体间的相关性和时间的趋势性,从而更好地解释经济现象和预测未来趋势。
然而,面板数据分析也存在一些挑战和限制。
首先,面板数据的获取和整理相对困难,需要耗费大量的时间和精力。
其次,面板数据中可能存在缺失值和异常值,需要进行适当的处理和修正。
另外,面板数据分析方法的选择和应用也需要根据具体问题和数据特点进行合理的判断和决策。
总之,经济统计学中的面板数据分析是一种重要的研究方法,能够提供更加全面和准确的经济数据分析结果。
STATA面板数据模型操作命令剖析

STATA面板数据模型估计命令一览表一、静态面板数据的STATA处理命令y it=αi+x itβ+εit固定效应模型y it=x itβ+μitμit=αit+εit随机效应模型(一)数据处理输入数据●tsset code year该命令是将数据定义为“面板”形式●xtdes该命令是了解面板数据结构●summarize sq cpi unem g se5ln各变量的描述性统计(统计分析)●gen lag_y=L.y///////产生一个滞后一期的新变量gen F_y=F.y///////产生一个超前项的新变量gen D_y=D.y///////产生一个一阶差分的新变量gen D2_y=D2.y///////产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5ln,fe对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5ln,re(加上“qui”之后第一幅图将不会呈现) xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验)原假设:使用随机效应模型(个体效应与解释变量无关)通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下:Step1:估计固定效应模型,存储估计结果Step2:估计随机效应模型,存储估计结果Step3:进行Hausman检验●qui xtreg sq cpi unem g se5ln,feest store fequi xtreg sq cpi unem g se5ln,reest store rehausman fe(或者更优的是hausman fe,sigmamore/sigmaless)可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。
STATA面板数据模型操作命令讲解
STATA面板数据模型操作命令讲解面板数据模型主要用于分析在一段时间内,多个个体上观察到的数据。
在面板数据模型中,个体可以是个人、家庭、公司等。
面板数据模型的分析主要包括汇总统计、描述性统计、回归分析等。
下面是一些STATA中常用的面板数据分析命令的介绍和使用说明:1. xtset命令:该命令用于设置数据集的面板数据特征。
在使用面板数据模型之前,需要先将数据集设置为面板数据。
使用xtset命令可以指定面板数据集的个体维度和时间维度。
示例:xtset id year该命令将数据集按照id(个体)和year(时间)进行分类。
2. xtsummary命令:该命令用于生成面板数据的汇总统计信息,包括平均值、标准差、最小值、最大值等。
示例:xtsummary var1 var2该命令将变量var1和var2的汇总统计信息显示出来。
3. xtreg命令:该命令用于进行固定效应模型(Fixed Effects Model)的估计,其中个体效应被视为固定参数,时间效应被视为随机参数。
示例:xtreg y x1 x2, fe该命令将变量y对x1和x2进行固定效应模型估计。
4. xtfe命令:该命令用于进行固定效应模型的估计,并提供了更多的选项和功能。
示例:xtfe y x1 x2, vce(robust)该命令将变量y对x1和x2进行固定效应模型估计,并使用鲁棒标准误。
5. xtlogit命令:该命令用于进行面板Logistic回归分析,适用于因变量为二分类变量的情况。
示例:xtlogit y x1 x2, re该命令将变量y对x1和x2进行面板Logistic回归分析,并进行随机效应的估计。
6. areg命令:该命令用于进行差别法(Difference-in-Differences)模型的估计,适用于时间和个体差异的面板数据分析。
上述命令只是STATA中一部分常用的面板数据模型操作命令。
在实际应用中,根据具体的研究需求和数据特征,还可以使用其他面板数据模型命令进行分析,如xtlogit、xtprobit等。
Stata面板数据的统计分析
面板数据的统计分析(Stata)在写论文时经常碰见一些即是时间序列又是截面的数据,比如分析1999-2010的公司盈余管理影响因素,而影响盈余管理的因素有6个,那么会形成如下图的数和截面数据都是二维的,把面板数据当成时间序列数据或者截面数据来处理都是不合适的。
处理面板数据的软件较多,一般使用Eviews6.0、Stata等。
个人推荐使用Stata,因为Stata比较适合处理面板数据,且个性化强。
以下以Stata11.0为例来讲解怎么样处理面板数据。
由于面板数据的存储结构与我们通常使用的存储结构不太一样,所在统计分启动Stata11.0,Stata界面有4个组成部分,Review(在左上角)、Variables (左下角)、输出窗口(在右上角)、Command(右下角)。
首先定义变量,可以输入命令,也可以通过点击Data----Create new Variable or change variable。
特别注意,这里要定义的变量除了因素1、因素2、……因素6、盈余管理影响程度等,还要定义年份和公司名称两个变量,这两个变量的数据类型(Type)最好设置为int(整型),公司名称不要使用中文名称或者字母等,用数字代替。
定义好变量之后可以输入数据了。
数据可以直接导入(File-Import),也可以手工录入或者复制粘贴(Data-Data Edit(Browse)),手工录入数据和在excel中的操作一样。
以上面说的为例,定义变量year、company、factor1、factor2、factor3、factor4、factor5、factor6、DA。
变量company 和year分别为截面变量和时间变量。
显然,通过这两个变量我们可以非常清楚地确定panel data 的数据存储格式。
因此,在使用STATA 估计模型之前,我们必须告诉它截面变量和时间变量分别是什么,所用的命令为tsset,命令为:tsset company year输出窗口将输出相应结果。
Stata面板数据回归分析中的倾向得分匹配方法
Stata面板数据回归分析中的倾向得分匹配方法面板数据回归分析是经济学和社会科学研究中常用的方法之一,能够帮助研究者研究变量之间的关系。
然而,在面板数据回归分析中,处理观测数据之间的非随机性分布可能会导致结果的偏误。
为了解决这个问题,倾向得分匹配方法被引入到面板数据回归分析中,该方法能够降低处理效应的偏误,提高研究的可靠性。
一、倾向得分匹配方法的基本原理倾向得分匹配方法是一种非随机化的处理效应评估方法,它的基本原理是通过在处理组和对照组之间寻找类似的个体来减少处理效应的偏误。
具体而言,倾向得分匹配方法首先根据个体的一些特征和自变量,建立预测处理的倾向得分模型。
然后,根据该模型计算出每个个体的倾向得分,并将处理组的个体与对照组的个体进行匹配。
最后,通过对匹配的样本进行回归分析来评估处理效应。
二、倾向得分匹配方法的步骤1. 数据准备:在进行倾向得分匹配方法之前,我们需要准备好面板数据,确保数据的可靠性和完整性。
同时,将个体的一些特征和自变量作为匹配的指标。
2. 倾向得分模型的建立:倾向得分模型是通过将处理组的个体与对照组的个体进行比较,找出其特征与处理状态之间的关系,并验证该模型的拟合度。
建立倾向得分模型可以使用Logistic回归模型,也可以使用其他适合的模型,如贝叶斯回归、决策树等。
3. 计算倾向得分:在建立完倾向得分模型后,根据该模型计算每个个体的倾向得分。
倾向得分通常是在0到1之间的概率值,表示个体属于处理组的概率。
4. 匹配处理组和对照组个体:接下来,根据计算得到的倾向得分,将处理组的个体与对照组的个体进行匹配。
一般而言,可以使用最近邻匹配、卡尺匹配、卡尔曼滤波匹配等方法将倾向得分相似的个体进行配对。
5. 分析匹配样本:在完成匹配后,我们可以对匹配的样本进行回归分析,以评估处理效应。
在回归分析中,通常应该控制其他可能影响结果的因素,以达到更准确的结论。
三、倾向得分匹配方法的优点与应用1. 减少选择性偏误:倾向得分匹配方法可以通过减小处理组和对照组之间的差异,降低选择性偏误的发生。
STATA面板数据模型操作命令讲解
STATA⾯板数据模型操作命令讲解STATA ⾯板数据模型估计命令⼀览表⼀、静态⾯板数据的STATA 处理命令εαβit ++=xy itiit固定效应模型µβit +=xy ititεαµit+=itit随机效应模型(⼀)数据处理输⼊数据●tsset code year 该命令是将数据定义为“⾯板”形式●xtdes 该命令是了解⾯板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产⽣⼀个滞后⼀期的新变量gen F_y=F.y /////// 产⽣⼀个超前项的新变量gen D_y=D.y /////// 产⽣⼀个⼀阶差分的新变量gen D2_y=D2.y /////// 产⽣⼀个⼆阶差分的新变量(⼆)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使⽤OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型⽽⾔,回归结果中最后⼀⾏汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例⼦中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验⽅法:LM统计量)(原假设:使⽤OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第⼀幅图将不会呈现) xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应⾮常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验⽅法:Hausman检验)原假设:使⽤随机效应模型(个体效应与解释变量⽆关)通过上⾯分析,可以发现当模型加⼊了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
但是⽆法明确区分FE or RE的优劣,这需要进⾏接下来的检验,如下:Step1:估计固定效应模型,存储估计结果Step2:估计随机效应模型,存储估计结果Step3:进⾏Hausman检验●qui xtreg sq cpi unem g se5 ln,feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe (或者更优的是hausman fe,sigmamore/ sigmaless)可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满⾜。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
型的回归、固定效应和随机效应模型的拟合、Hausman检 验以及模型预测等内容。
实验操作指导
1 组间效应模型
对于“wage.dta”的数据,我们要分析受教育年数、年龄、工作年数、
现有岗位的任职时间、是否是黑人、是否居住在SMSA区、是否生活 在南方等因素对工资收入的影响。考虑到年龄、工作年数、现有岗位 任职时间等因素对工资收入的影响可能不是线性的,我们先生成这三 个变量的平方项,并在模型中包括这三个变量的水平项和平方项。输 入命令: gen age2=age*age gen exp2=ttl_exp*ttl_exp gen tenure2=tenure*tenure 我们生成变量age、ttl_exp和tenure的平方项,并分别将其命名为age2、 exp2和tenure2。 此外,我们需要由变量race生成一个虚拟变量,来表示是否是黑人。 输入命令: gen byte black = race==2 这里,我们生成新变量black,并令其类型为type。注意,race后为两 个等号。该命令的含义为,对race是2的(黑人)观测值,我们令 black的值为1;对race取其他值的观测值,我们令black的值为0。也就 是说新生成的变量black为虚拟变量,1表示黑人,0表示其他人种。
对于“wage.dta”的数据,我们下面进行固定效应回归。输入命令: xtreg ln_wage grade age age2 ttl_exp exp2 tenure tenure2 black
not_smsa south, fe 这里,选项fe表明是进行固定效应回归分析。
3 随机效应模型
对于“wage.dta”的数据,我们要知道其数据分布情况,
可输入命令: xtdescribe
4 显示面板数据的分布频率 获得面板数据分布频率的基本命令为: xttab varname [if ] 其中,xttab是“计算面板数据分布频率”的基本命令,
varname代表变量的名称,if代表条件语句。xttab命令实 际是tabulate命令的扩展,该命令还会给出组内和组间的 分布频率。
利用“wage.dta”的数据,我们进行随机效应的回归分析。输入命令: xtreg ln_wage grade age age2 ttl_exp exp2 tenure tenure2 black not_smsa south, re 其中,选项re表明进行随机效应回归分析。因为这是默认选项,所以可以省略。
实验操作指导
1 面板数据的设定 与时间序列分析类似,在对面板数据进行分析之前,我们要先
对面板数据进行设定。只有定义过面板数据之后,才能使用相 关的面板数据命令。设定面板数据的命令有三种: ① xtset panelvar ② xtset panelvar timevar [, tsoptions] ③ tsset panelvar timevar [, tsoptions] 其中,xtset是“定义面板数据”的基本命令,panelvar代表截面 变量的名称,timevar代表时间变量的名称,tsoptions代表其他 选项。tsset作为定义时间序列的基本命令,也可以用来定义面 板数据,如③所示。此外,可用的tsoptions选项与十二章中时 间序列变量的设定相同,详见表12.2和表12.3。
我们要获得“wage.dta”中变量msp的转移概率,可输入
命令: xttrans msp
6 面板数据绘图 对面板数据的各个截面分别绘制时间序列图的基本命令为: xtline varlist [if] [in] [, panel_options] 其中,xtline是“面板数据绘图”的基本命令,varlist代表变量的名称, if代表条件语句,in代表范围语句,panel_options代表其他选项。选 项主要包括i(varname_i)、t(varname_t)和overlay。 默认情况下,xtline会对各个截面分别作图,y轴变量为varlist,x轴变 量为时间变量。选项i()和t()可以指定新的截面变量和时间变量来作图, 且varname_i可以为字符串型,varname_t的值也可以不是整数。但要 求选项i()和t()同时设定。此外,如果设定选项overlay,各个截面会被 绘制到一幅图中。
在第一种格式当中,我们只设定了截面变量,这样,每一截面中,各
个观测值的顺序是无关紧要的。例如,我们有对多个家庭的调查数据, 每个家庭是一个截面,而家庭的各个成员是截面内的观测值,这种情 况下,我们就不必设定时间变量。 第二种和第三种定义面板数据的格式是等价的。这两种情况下,每一 截面中的观测值会被按照时间变量进行排序。这时,我们还可以使用 stata的各种时间序列算子,像滞后算子“L.”、领先算子“F.”等。 需要注意的是,截面变量和时间变量都必须为数值型,还要是整数。 如果某个变量是字符串型,我们可以通过如下命令将其转换为数值型: encode varname, gen(newvar) 其中,命令encode表示生成带标签的数值变量,varname是原字符串 变量的名称,生成的新变量命名为newvar,其类型为数值型,且每个 数值以原变量varname的值为标签。
我们要获得“wage.dta”中变量msp的分布频率,可输入
命令: xttab msp
5 显示面板数据的转移概率 获得面板数据转移概率的基本命令为: xttrans varname [if] [, freq] 其中,xttrans是“计算面板数据转移概率”的基本命令,
varname代表变量的名称,if代表条件语句,选项freq表示 同时显示频数。
进行完这些变换之后,下面,我们进行组间回归。输入命
令: xtreg ln_wage grade age age2 ttl_exp exp2 tenure tenure2 black not_smsa south, be 这里,被解释变量为ln_w,解释变量包括grade、age、 age2、ttl_exp、exp2、tenure、tenure2、black、 not_smsa和south,选项be表示进行组间估计。
2 固定效应模型 获取固定效应估计量的命令与组间效应模型类似,为: xtreg depvar [indepvars] [if] [in] [weight], fe [FE_options]
其中,xtreg代表“拟合面板数据模型”的基本命令语句,选项fe表明
要获取固定效应估计量。FE_options代获取固定效应估计量的其他 选项,主要有level(#)和vce(type),标准差的类型可以是conventional、 robust、cluster clustvar、bootstrap和 jackknife。这里,设定稳健标 准差vce(robust)与聚类稳健的标准差vce(cluster panelvar)效果是一样 的。其中,panelvar代表截面变量。
描述。命令为: xtdescribe [if] [in] [, options] 其中,xtdescribe是“显示面板数据结构”的基本命令,if 代表条件语句,in代表范围语句,options为其他选项。可 用的选项包括patterns(#)和width(#)。patterns(#)用于指 定显示结构的种数,默认为patterns(9);而width(#)用于 指定每一行的显示宽度,默认为width(100)。
varlist代表变量的名称,if代表条件语句。xtsum命令实际 是summarize命令的扩展,该命令还会给出组内和组间的 描述统计量。
我们要获得“wage.dta”中变量hours的描述统计量,可输
入命令: xtsum hours
3 显示面板数据的结构 为了直观地了解面板数据的分布,我们可以对其结构进行
主要内容
面板数据的基本操作
固定效应与随机效应模型 长面板模型
面板工具变量法
动态面板模型 面板数据的离散选择模型 面板数据的计数模型 随机效应tobit模型
实验13-1: 面板数据的基本操作
实验基本原理 在利用stata对面板数据进行分析之前,我们通常需要对截 面变量和时间变量进行定义。只有定义之后,我们才可以 使用相关的面板数据分析命令以及各种时间序列算子。 另外,在对面板数据进行建模之前,我们有时会希望对数 据有一个直观的了解,像观察面板数据各截面的最大值、 最小值等描述统计量,或者是了解数据的结构和分布等。 对于这些,我们都可以通过stata的命令来实现。
7 长宽面板数据的转换
实验13-2:固定效应与随机效应模型
实验基本原理
实验内容及数据来源 本实验中,我们继续使用实验13-1所用的数据文件,即本书
附带光盘data文件夹下的“wage.dta”工作文件。
利用该面板数据,我们要分析受教育年数、年龄、工作年
数、现有岗位的任职时间、是否是黑人、是否居住在 SMSA区、是否生活在南方等因素对工资收入的影响。
对于数据文件“wage.dta”,我们定义idcode为截面变量,year为时间
变量。输入命令: xtset idcode year
2 获得面板数据的描述统计量 获得面板数据描述统计量的基本命令为: xtsum [varlist] [if ] 其中,xtsum是“计算面板数据描述统计量”的基本命令,
对于截面数比较少的面板数据,进行作图观察比较会很直观。但当截
面数非常多时,作图观察的意义就不大了。考虑到工作文件 “wage.dta”有4711个截面,我们这里用变量hours的前4个截面作图进 行说明。输入命令: xtline hours in 1/50 因为前50个观测值构成了前4个截面,这样,通过范围语句“in 1/50” 我们可以得到前4个截面中变量hours的时间趋势图。