面板数据的F检验固定效应检验

面板数据模型(PANEL DATA)F检验,固定效应检验

1．面板数据定义。

时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据。面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面（cross section）上看，是由若干个体（entity, unit, individual）在某一时刻构成的截面观测值，从纵剖面（longitudinal section）上看是一个时间序列。

面板数据用双下标变量表示。例如

y i t, i= 1, 2, …, N; t= 1, 2, …, T

N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变，y i ., ( i= 1, 2, …, N)是横截面上的N个随机变量；若固定i不变，y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列（个体）。

图1 N=7，T=50的面板数据示意图

例如1990-2000年30个省份的农业总产值数据。固定在某一年份上，它是由30个农业总产总值数字组成的截面数据；固定在某一省份上，它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。

注意：EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。

例1（file:panel02）：1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费（不变价格）和人均收入数据见表1和表2。数据是7年的，每一年都有15个数据，共105组观测值。

人均消费和收入两个面板数据都是平衡面板数据，各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。

表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据（不变价格）

地区人均消费1996 1997 1998 1999 2000 2001 2002 CP-AH（安徽）3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364 CP-BJ（北京）5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12 CP-FJ（福建）4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005 CP-HB（河北）3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485 CP-HLJ（黑龙江）2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535 CP-JL（吉林）2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874 CP-JS（江苏）3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331 CP-JX（江西）2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775 CP-LN（辽宁）3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063 CP-NMG（内蒙古）2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180 CP-SD（山东）3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770

CP-SH（上海）6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94 CP-SX（山西）2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561 CP-TJ（天津）4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843 CP-ZJ（浙江）5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210 资料来源：《中国统计年鉴》1997-2003。

表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据（不变价格）

地区人均收入1996 1997 1998 1999 2000 2001 2002

IP-AH（安徽）4106.251 4540.247 4770.470 5178.528 5256.753 5640.597 6093.333 IP-BJ（北京）6569.901 7419.905 8273.418 9127.992 9999.700 11229.66 12692.38 IP-FJ（福建）4884.731 6040.944 6505.145 6922.109 7279.393 8422.573 9235.538 IP-HB（河北）4148.282 4790.986 5167.317 5468.940 5678.195 5955.045 6747.152 IP-HLJ（黑龙江）3518.497 3918.314 4251.494 4747.045 4997.843 5382.808 6143.565 IP-JL（吉林）3549.935 4041.061 4240.565 4571.439 4878.296 5271.925 6291.618 IP-JS（江苏）4744.547 5668.830 6054.175 6624.316 6793.437 7316.567 8243.589 IP-JX（江西）3487.269 3991.490 4209.327 4787.606 5088.315 5533.688 6329.311 IP-LN（辽宁）3899.194 4382.250 4649.789 4968.164 5363.153 5797.010 6597.088 IP-NMG（内蒙古）3189.414 3774.804 4383.706 4780.090 5063.228 5502.873 6038.922 IP-SD（山东）4461.934 5049.407 5412.555 5849.909 6477.016 6975.521 7668.036 IP-SH（上海）7489.451 8209.037 8773.100 10770.09 11432.20 12883.46 13183.88

IP-SX（山西）3431.594 3869.952 4156.927 4360.050 4546.785 5401.854 6335.732 IP-TJ（天津）5474.963 6409.690 7146.271 7734.914 8173.193 8852.470 9375.060 IP-ZJ（浙江）6446.515 7158.288 7860.341 8530.314 9187.287 10485.64 11822.00 资料来源：《中国统计年鉴》1997-2003。

图2 15个省级地区的人均消费序列（纵剖面）图3 15个省级地区的人均收入序列

（file:4panel02）

图4 15个省级地区的人均消费散点图图5 15个省级地区的人均收入散

点图（7个横截面叠加）

(每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地

区的收入值)

用CP表示消费，IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。

15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图（共7个截面）。相当于观察7个截面散点图的叠加。

图6 用15个时间序列表示的人均消费对收入的面板数据

图7 用7个截面表示的人均消费对收入的面板数据（7个截面叠加）

为了观察得更清楚一些，图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出，无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。

图8 北京和内蒙古1996-2002年消费对收入时序图图9 1996和2002年15个地区的消费对收入散点图

2．面板数据的估计。

用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。

2.1 混合估计模型。

如果从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。

如果从时间和截面看模型截距都不为零，且是一个相同的常数，以二变量模型为例，则建立如下模型，

y it = a +b1 x it +e it, i= 1, 2, …, N; t= 1, 2, …,

T (1)

a 和b1不随i，t变化。称模型(1)为混合估计模型。

以例1中15个地区1996和2002年数据建立关于消费的混合估计模型，得结果如下：

图10

EViwes估计方法：在打开工作文件窗口的基础上，点击主功能菜单中的Objects键，选New Object功能，从而打开New Object（新对象）选择窗。在Type of Object选择区选择Pool （混合数据库），点击OK键，从而打开Pool（混合数据）窗口。在窗口中输入15个地区标识AH（安徽）、BJ（北京）、…、ZJ（浙江）。工具栏中点击Sheet键，从而打开Series List（列写序列名）窗口，定义变量CP?和IP?，点击OK键，Pool（混合或合并数据库）窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键，打开Pooled Estimation（混合估计）窗口如下图。

图11

在Dependent Variable（相依变量）选择窗填入CP?；在Common coefficients（系数相同）选择窗填入IP?；Cross section specific coefficients（截面系数不同）选择窗保持空白；在Intercept（截距项）选择窗点击Common；在Weighting（权数）选择窗点击No weighting。点击Pooled Estimation（混合估计）窗口中的OK键。得输出结果如图10。相应表达式是= 129.6313+0.7587IP it

(2.0) (79.7) R2 = 0.98, SSE r = 4824588, t0.05 (103) = 1.99

15个省级地区的人均支出平均占收入的76%。

如果从时间和截面上看模型截距都为零，就可以建立不含截距项的（a = 0）的混合估计模型。以二变量模型为例，建立混合估计模型如下，

y it = b1 x it +e it, i= 1, 2, …, N; t= 1, 2, …,

T (2)

对于本例，因为上式中的截距项有显著性（t = 2.0 > t0.05 (103) = 1.99），所以建立截距项为零的混合估计模型是不合适的。

EViwes估计方法：在Pooled Estimation（混合估计）对话框中Intercept（截距项）选择窗中选None，其余选项同上。

2.2 固定效应模型。

在面板数据散点图中，如果对于不同的截面或不同的时间序列，模型的截距是不同的，则可以采用在模型中加虚拟变量的方法估计回归参数，称此种模型为固定效应模型（fixed effects regression model）。

固定效应模型分为3种类型，即个体固定效应模型（entity fixed effects regression model）、时刻固定效应模型（time fixed effects regression model）和时刻个体固定效应模型（time and entity fixed effects regression model）。下面分别介绍。

（1）个体固定效应模型。

个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列（个体）截距是不同的，但是对于不同的横截面，模型的截距没有显著性变化，那么就应该建立个体固定效应模型，表示如下，

y it = b1 x it +g1 W1 + g2W2 + … +g N W N+e it, t = 1, 2, …,

T (3)

其中

W i=

e it, i= 1, 2, …, N; t= 1, 2, …, T，表示随机误差项。y it, x it, i= 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和解释变量。

模型（3）或者表示为

y1t = g1 +b1 x1t +e1t, i = 1（对于第1个个体，或时间序列），t= 1, 2, …, T

y2t = g2 +b1 x2t+e2 t, i = 2（对于第2个个体，或时间序列），t= 1, 2, …, T

…

y N t= g N+b1 x N t+e N t, i= N（对于第N个个体，或时间序列），t= 1, 2, …, T

写成矩阵形式，

y1 = (1x1) +e1 = g1 +x1 b +e1

…

y N = (1x N) +e N = g N + x N b+e N

上式中y i，g i，e i，x i都是N′1阶列向量。b为标量。当模型中含有k个解释变量时，b为k′1阶列向量。进一步写成矩阵形式，

= + b+

上式中的元素1，0都是T′1阶列向量。

面板数据模型用OLS方法估计时应满足如下5个假定条件：

（1）E(e it|x i1, x i2, …, x iT, a i) = 0。以x i1, x i2, …, x iT, a i为条件的e it的期望等于零。（2）(x i1, x i2, …, x iT), ( y i1, y i2, …, y iT), i= 1, 2, …, N分别来自于同一个联合分布总体，并相互独立。

（3）(x it, e it)具有非零的有限值4阶矩。

（4）解释变量之间不存在完全共线性。

（5）Cov(e it e is|x it,x is, a i) = 0, t 1 s。在固定效应模型中随机误差项e it在时间上是非自相关的。其中x it代表一个或多个解释变量。

对模型（1）进行OLS估计，全部参数估计量都是无偏的和一致的。模型的自由度是N T–1–N。

当模型含有k个解释变量，且N很大，相对较小时，因为模型中含有k + N个被估参数，一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计。

估计原理是，先用每个变量减其组内均值，把数据中心化（entity-demeaned），然后用变换的数据先估计个体固定效应模型的回归系数（不包括截距项），然后利用组内均值等式计算截距项。这种方法计算起来速度快。具体分3步如下。

（1）首先把变量中心化（entity-demeaned）。

仍以单解释变量模型（3）为例，则有

= g i+ b1 + , i= 1, 2, …,

N (4)

其中 = ，= ， = , i= 1, 2, …, N。公式(1)、(4)相减得，

(y it - ) = b1(x it -) + (e it

- )(5) 令(y it - ) = ，(x it -) = ，(e it- ) = ，上式写为

= b1

(6)

用OLS法估计（1）、（6）式中的b1，结果是一样的，但是用（6）式估计，可以减少被估参数个数。

（2）用OLS法估计回归参数（不包括截距项，即固定效应）。

在k个解释变量条件下，把用向量形式表示，则利用中心化数据，按OLS法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下，

() =

( ' )-1

(7)

其中 = ，是相对于的残差向量。

（3）计算回归模型截距项，即固定效应参数g i。

(8)

以例1（file:panel02）为例得到的个体固定效应模型估计结果如下：

注意：个体固定效应模型的EViwes输出结果中没有公共截距项。

图12

EViwes估计方法：在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上。

注意：

（1）个体固定效应模型的EViwes输出结果中没有公共截距项。

（2）EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值。不认为截距项是模型中的重要参数。

（3）当对个体固定效应模型选择加权估计时，输出结果将给出加权估计和非加权估计两种统计量评价结果。

（4）输出结果的联立方程组形式可以通过点击View选Representations功能获得。（5）点击View选Wald Coefficient Tests…功能可以对模型的斜率进行Wald检验。（6）点击View选Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix 功能可以分别得到按个体计算的残差序列表，残差序列图，残差序列的方差协方差矩阵，残差序列的相关系数矩阵。

（7）点击Procs选Make Model功能，将会出现估计结果的联立方程形式，进一步点击Solve 键，在随后出现的对话框中可以进行动态和静态预测。

输出结果的方程形式是

= 安徽+ x1t = 479.3 + 0.70x1t

(55.0)

= 北京+ x2t = 1053.2 + 0.70x2t

… (55.0)

= 浙江+ x15t = 714.2 + 0.70x15t

(55.0)

R2 = 0.99, SSE r = 2270386, t0.05 (88) = 1.98

从结果看，北京、上海、浙江是消费函数截距（自发消费）最大的3个地区。

相对于混合估计模型来说，是否有必要建立个体固定效应模型可以通过F检验来完成。

原假设H0：不同个体的模型截距项相同（建立混合估计模型）。

备择假设H1：不同个体的模型截距项不同（建立个体固定效应模型）。

F统计量定义为：

F= = (9)

其中SSE r，SSE u分别表示约束模型（混合估计模型）和非约束模型（个体固定效应模型）的残差平方和。非约束模型比约束模型多了N-1个被估参数。

（混合估计模型给出公共截距项。）

注意：当模型中含有k个解释变量时，F统计量的分母自由度是NT-N-k。

用上例计算，已知SSE r = 4824588，SSE u = 2270386，

F= = = = 7.15

F0.05(14, 89) = 1.81

因为F= 7.15> F0.05(14, 89) = 1.81，所以，拒绝原假设。结论是应该建立个体固定效应模型。（2）时刻固定效应模型。

时刻固定效应模型就是对于不同的截面（时刻点）有不同截距的模型。如果确知对于不同的截面，模型的截距显著不同，但是对于不同的时间序列（个体）截距是相同的，那么应该建立时刻固定效应模型，表示如下，

y it = b1 x it +a1 + a2D2 + … +a T D T+e it, i= 1, 2, …,

N (10)

其中

D t=

e it, i= 1, 2, …, N; t= 1, 2, …, T，表示随机误差项。y i t, x it, i= 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和解释变量。模型（10）也可表示为

y i1= a1+b1 x i1+ e i1, t= 1，（对于第1个截面），i= 1, 2, …, N

y i2 = (a1 +a2) +b1 x i2 + e i2, t = 2，（对于第2个截面），i= 1, 2, …, N

…

y iT = (a1 +a T) +b1 x iT + e iT, t = T，（对于第T个截面），i= 1, 2, …, N

如果满足上述模型假定条件，对模型（2）进行OLS估计，全部参数估计量都具有无偏性和一致性。模型的自由度是N T–T-1。

图13

EViwes估计方法：在Pooled Estimation（混合估计）窗口中的Dependent Variable（相依变量）选择窗填入CP?；在Common coefficients（系数相同）选择窗填入IP? 和虚拟变量D1997, D1998, D1999, D2000, D2001, D2002；在Cross section specific coefficients （截面系数不同）选择窗保持空白；在Intercept（截距项）选择窗点击Common；在Weighting （权数）选择窗点击No weighting。点击Pooled Estimation（混合估计）窗口中的OK键。以例1为例得到的时刻固定效应模型估计结果如下：

= 1996 + x i1 = 108.5057 + 0.7789x i1

(1.5) (74.6)

= 1997 + x i2 = 108.5057 +28.1273 + 0.7789x i2

(1.5) (0.4) (74.6)

…

= 2002 + x i7 = 108.5057 -199.8213 + 0.7789x i7

(1.5) (0.4)

(74.6)

R2 = 0.9867, SSE r = 4028843, t0.05 (97) = 1.98

相对于混合估计模型来说，是否有必要建立时刻固定效应模型可以通过F检验来完成。

H0：对于不同横截面模型截距项相同（建立混合估计模型）。

H1：对于不同横截面模型的截距项不同（建立时刻固定效应模型）。

F统计量定义为：

F= = (11)

其中SSE r，SSE u分别表示约束模型（混合估计模型的）和非约束模型（时刻固定效应模型的）的残差平方和。非约束模型比约束模型多了T-1个被估参数。

注意：当模型中含有k个解释变量时，F统计量的分母自由度是NT-T- k。

用上例计算，已知SSE r= 4824588，SSE u= 4028843，

F= = = = 3.19

F0.05(6, 87) = 2.2

因为F= 3.19> F0.05(14, 89) = 2.2，拒绝原假设，结论是应该建立时刻固定效应模型。

（3）时刻个体固定效应模型。

时刻个体固定效应模型就是对于不同的截面（时刻点）、不同的时间序列（个体）都有不同截距的模型。如果确知对于不同的截面、不同的时间序列（个体）模型的截距都显著地不相同，那么应该建立时刻个体效应模型，表示如下，

y it = b1 x it +a1+a2D2 +…+a T D T+g1W1+g2W2 +…+g N W N+e it, i=1,2,…,N，t= 1, 2, …, T

(12)

其中虚拟变量

D t= （注意不是从1开始）

W i= （注意是从1开始）

e it, i= 1, 2, …, N; t= 1, 2, …, T，表示随机误差项。y i t, x it, (i= 1, 2, …, N; t= 1, 2, …, T)分别表示被解释变量和解释变量。模型也可表示为

y11 = a1 +g1 +b1 x11 + e11, t = 1，i = 1（对于第1个截面、第1个个体）

y21 = a1 +g2 +b1 x21 + e21, t = 1，i = 2（对于第1个截面、第2个个体）

…

y N1 = a1 +g N +b1 x N1 + e N1, t = 1，i = N（对于第1个截面、第N 个个体）

y12 = (a1 +a2) +g1 +b1 x12 + e12, t = 2，i = 1（对于第2个截面、第1个个体）

y22 = (a1 +a2) +g2 +b1 x22 + e22, t = 2，i = 2（对于第2个截面、第2个个体）

…

y N2 = (a1 +a2) +g N +b1 x N2 + e N2, t = 2，i = N（对于第2个截面、第N个个体）

…

y1T = (a1 +a T) +g1 +b1 x12 + e1T, t = T，i = 1（对于第T个截面、第1个个体）

y2T = (a1 +a T) +g2 +b1 x22 + e2T, t = T，i = 2（对于第T个截面、第2个个体）

…

y NT = (a1 +a T) +g N +b1 x NT + e NT, t = T，i = N（对于第T个截面、第N个个体）

如果满足上述模型假定条件，对模型（12）进行OLS估计，全部参数估计量都是无偏的和一致的。模型的自由度是N T–N–T。注意：当模型中含有k个解释变量时，F统计量的分母自由度是NT– N -T- k+1。

以例1为例得到的截面、时刻固定效应模型估计结果如下：

图14

EViwes估计方法：在Pooled Estimation（混合估计）窗口中的Dependent Variable（相依变量）选择窗填入CP?；在Common coefficients（系数相同）选择窗填入IP? 和虚拟变量D1997, D1998, D1999, D2000, D2001, D2002；在Cross section specific coefficients （截面系数不同）选择窗保持空白；在Intercept（截距项）选择窗中选Fixed effects；在Weighting（权数）选择窗点击No weighting。点击Pooled Estimation（混合估计）窗口中的OK键。

注意：

（1）对于第1个截面（t=1）EViwes输出结果中把(a1 +g i), (i= 1, 2, …, N)估计在一起。

（2）对于第2, …, T个截面（t=1）EViwes输出结果中分别把(a1 +a t), (t= 2, …, T)估计在一起。

输出结果如下：

= 1996+ x11= 537.9627 + 0.6712x11，（1996年安徽省）

= 1996+ x21= 1223.758 + 0.6712x21，（1996年北京市）

…

= 1997+ x11= 98.91126 + 0.6712x11，（1997年安徽省）

= 1997 + x21 = 98.91126 +1223.758 + 0.6712x21，（1997年北京市）

…

= 2002 + + x15,7 = (183.3882 +870.4197) + 0.6712x15,1，（2002年浙江省）

R2 = 0.9932, SSE r = 2045670, t0.05 (83) = 1.98

相对于混合估计模型来说，是否有必要建立时刻个体固定效应模型可以通过F检验来完成。H0：对于不同横截面，不同序列，模型截距项都相同（建立混合估计模型）。

H1：不同横截面，不同序列，模型截距项各不相同（建立时刻个体固定效应模型）。

F统计量定义为：

F= =

(13)

其中SSE r，SSE u分别表示约束模型（混合估计模型的）和非约束模型（时刻个体固定效应模型的）的残差平方和。非约束模型比约束模型多了N+T个被估参数。

注意：当模型中含有k个解释变量时，F统计量的分母自由度是NT-N-T- k+1。

用上例计算，已知SSE r= 4824588，SSE u= 2045670，

F= = = = 5.6

F0.05(20, 81) = 1.64

因为F= 5.6> F0.05(14, 89) = 1.64，拒绝原假设，结论是应该建立时刻个体固定效应模型。（4）随机效应模型

在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。也可以通过对误差项的分解来描述这种信息的缺失。

y it = a+ b1 x it +

e it

(14)

其中误差项在时间上和截面上都是相关的，用3个分量表示如下。

e it = u i + v t +

w it

(15)

其中u i ~N(0, s u2)表示截面随机误差分量；v t ~N(0, s v2)表示时间随机误差分量；w it ~N(0, s w2)表示混和随机误差分量。同时还假定u i，v t，w it之间互不相关，各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型。

随机效应模型和固定效应模型比较，相当于把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项（u i），一个是时间随机误差项（v t）。如果这两个随机误差项都服从正态分布，对模型估计时就能够节省自由度，因为此条件下只需要估计两个随机误差项的均值和方差。

假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应，而且对均值的离差分别是u i和v t，固定效应模型就变成了随机效应模型。

为了容易理解，先假定模型中只存在截面随机误差项u i，不存在时间随机误差分量（v t），

y it = a+ b1 x it + (w it+ u i)= a+ b1 x it

+e it (16)

截面随机误差项u i是属于第个个体的随机波动分量，并在整个时间范围(t= 1,2, …, T)保持不变。随机误差项u i, w it应满足如下条件：

E(u i) =0,

E(w it) = 0

E(w it 2) = s w2,

E(u i 2)= s u2,

E(w it u j) =0, 包括所有的i, t, j。

E(w it w js) =0, i1 j, t1 s

E(u i u j) =0, i1 j

因为根据上式有

e it = w it+ u i

所以这种随机效应模型又称为误差分量模型（error component model）。有结论，

E(e it) = E(w it+u j) =0,

(16)式，y it = a+ b1 x it + (w it+ u i)，也可以写成y it = (a + u i) + b1 x it + w it。服从正态分布的截距项的均值效应a u被包含在回归函数的常数项中。

E(e it 2) = E(w it+u j)2 = s w2 +s u2,

E(e it e is) = E[(w it+ u i)(w is+ u i)] = E[(w it w is + u i w is + w it u i + u i2)] =s u2, t1 s

令

e i = (e i1, e i2, …e iT)'

则

W = E(e i e i') =

=s w2 I(T′T) +s u21(T′1)1(T′1) '

其中I(T′T)是(T′T)阶单位阵，1(T′1)是(T′1)阶列向量。因为第i期与j期观测值是相互独立的，所以NT个观测值所对应的随机误差项的方差与协方差矩阵V是

V= = ?W = I N′N?W

其中I N′N表示由(T′1)阶列向量为元素构成的单位阵，其中每一个元素1或0都是(T′1)阶列向量。?表示科罗内克积（Kronecker product）。其运算规则是

A N′K?

B =

检验个体随机效应的原假设与检验统计量是

H0：s u2 = 0。（混合估计模型）

H1：s u21 0。（个体随机效应模型）

LM= =

其中表示由个体随机效应模型计算的残差平方和。表示由混合估计模型计算的残差平方和。统计量LM服从1个自由度的c2分布。

可以对随机效应模型进行广义最小二乘估计。以观测值方差的倒数为权。为了求权数，必须采用两阶段最小二乘法估计。因为各随机误差分量的方差一般是未知的，第一阶段用普通最小二乘估计法对混合数据进行估计（采用固定效应模型）。用估计的残差计算随机误差分量

面板数据的F检验-固定效应检验

面板数据模型(PANEL DATA)F检验,固定效应检验 1．面板数据定义。时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据。面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面（cross section）上看，是由若干个体（entity, unit, individual）在某一时刻构成的截面观测值，从纵剖面（longitudinal section）上看是一个时间序列。面板数据用双下标变量表示。例如 y i t, i= 1, 2, …, N; t= 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变，y i ., ( i= 1, 2, …, N)是横截面上的N个随机变量；若固定i不变，y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列（个体）。图1 N=7，T=50的面板数据示意图例如1990-2000年30个省份的农业总产值数据。固定在某一年份上，它是由30个农业总产总值数字组成的截面数据；固定在某一省份上，它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。对于面板数据y i t, i= 1, 2, …, N; t= 1, 2, …, T来说，如果从横截面上看，每个变量都有观测值，从纵剖面上看，每一期都有观测值，则称此面板数据为平衡面板数据（balanced panel data）。若在面板数据中丢失若干个观测值，则称此面板数据为非平衡面板数据（unbalanced panel data）。

STATA面板数据模型操作命令要点

STATA 面板数据模型估计命令一览表一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it ε αμit +=it it 随机效应模型（一）数据处理输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计（统计分析） ●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量（二）模型的筛选和检验 ●1、检验个体效应（混合效应还是固定效应）（原假设：使用OLS混合模型）●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言，回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000，检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应（混合效应还是随机效应）（检验方法：LM统计量）（原假设：使用OLS混合模型） ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出，LM检验得到的P值为0.0000，表明随机效应非常显著。可见，随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型（检验方法：Hausman检验）原假设：使用随机效应模型（个体效应与解释变量无关）通过上面分析，可以发现当模型加入了个体效应的时候，将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣，这需要进行接下来的检验，如下： Step1：估计固定效应模型，存储估计结果 Step2：估计随机效应模型，存储估计结果 Step3：进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出，hausman检验的P值为0.0000，拒绝了原假设，认为随机效应模型的基本假设得不到满足。此时，需要采用工具变量法和是使用固定效应模型。

基于面板数据模型及其固定效应的模型分析

基于面板数据模型及其固定效应的模型分析在20世纪80年代及以前，还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,20XX)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来，并成为现在中级以上的计量经济学教科书的必备内容，面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。面板数据同时包含了许多横截面在时间序列上的样本信息，不同于只有一个维度的纯粹横截面数据和时间序列数据，面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据，在理论上被认为有一些优点，其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中，人们认为不同的横截面很可能具有异质性，这个异质性被认为是无法用已知的回归元观测的，同时异质性被假定为依横截面不同而不同，但在不同时点却是稳定的，因此可以用横截面虚拟变量来控制横截面的异质性，如果异质性是发生在不同时期的，那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少，我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现使用的效应①不同，对回归元的估计结果经常有十分巨大的影响，在某个固定效应设定下回归系数为正显着，而另外一个效应则变为负显着，这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果，因为不可观测的异质性(固定效应)很可能和回归元是相关的，在控制了这个效应后，由于变量之间的相关性，自然会对回归元的估计结果产生影响，因而使用的效应不同，估计的结果一般也就会有显着变化。然而,这个被广泛接受的理论假说，本质上来讲是有问题的。我们认为，估计的效应不同，对应的自变量估计系数的含义也不同，而导致估计结果有显着变化的可能重要原因是由于面板数据是二维的数据，而在这两个不同维度上，以及将两个维度的信息放到一起时，样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此，我们这里提出另外一种异质性，即样本在不同维度上的相关关系是不同的，是异质的，这个异质性是发生在回归元的回归系数上，而不是截距项。我们试图从面板数据的横截面维度和时间序列维度的样本相关异质性角

面板数据分析简要步骤与注意事项(面板单位根—面板协整—回归分析)

面板数据分析简要步骤与注意事项（面板单位根检验—面板协整—回归分析）面板数据分析方法：面板单位根检验—若为同阶—面板协整—回归分析 —若为不同阶—序列变化—同阶建模随机效应模型与固定效应模型的区别不体现为R2的大小，固定效应模型为误差项和解释变量是相关，而随机效应模型表现为误差项和解释变量不相关。先用hausman检验是fixed 还是random，面板数据R-squared值对于一般标准而言，超过0.3为非常优秀的模型。不是时间序列那种接近0.8为优秀。另外，建议回归前先做stationary。很想知道随机效应应该看哪个R方？很多资料说固定看within，随机看overall，我得出的overall非常小0.03，然后within是53%。fe和re输出差不多，不过hausman检验不能拒绝，所以只能是re。该如何选择呢？步骤一：分析数据的平稳性（单位根检验）按照正规程序，面板数据模型在回归前需检验数据的平稳性。李子奈曾指出，一些非平稳的经济时间序列往往表现出共同的变化趋势，而这些序列间本身不一定有直接的关联，此时，对这些数据进行回归，尽管有较高的R平方，但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归（spurious regression）。他认为平稳的真正含义是：一个时间序列剔除了不变的均值（可视为截距）和时间趋势以后，剩余的序列为零均值，同方差，即白噪声。因此单位根检验时有三种检验模式：既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归，确保估计结果的有效性，我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先，我们可以先对面板序列绘制时序图，以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和（或）截距项，从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述：在非平稳的面板数据渐进过程中,Levin andLin(1993)很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al.(2002)的改进,提出了检验面板单位根的LLC法。Levin et al.(2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25～250之间,截面数介于10～250之间)的面板单位根检验。Im et al.(1997)还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。由上述综述可知，可以使用LLC、IPS、Breintung、ADF-Fisher和PP-Fisher5种方法进行面板单位根检验。其中LLC-T、BR-T、IPS-W、ADF-FCS、PP-FCS、H-Z分别指Levin,Lin&Chu t*

面板数据的F检验固定效应检验

面板数据的F检验固定效应检验标准化工作室编码[XX968T-XX89628-XJ668-XT689N]

面板数据模型(P A N E L D A T A)F检验,固定效应检验1．面板数据定义。时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据。面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面（cross section）上看，是由若干个体（entity, unit, individual）在某一时刻构成的截面观测值，从纵剖面（longitudinal section）上看是一个时间序列。面板数据用双下标变量表示。例如 y , i= 1, 2, …, N; t= 1, 2, …, T i t N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变，y , ( i i . = 1, 2, …, N)是横截面上的N个随机变量；若固定i不变，y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列（个体）。图1 N=7，T=50的面板数据示意图例如1990-2000年30个省份的农业总产值数据。固定在某一年份上，它是由30个农业总产总值数字组成的截面数据；固定在某一省份上，它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。对于面板数据y i t, i = 1, 2, …, N; t= 1, 2, …, T来说，如果从横截面上看，每个变量都有观测值，从纵剖面上看，每一期都有观测值，则称此面板数据为平衡面板数据（balanced panel data）。若在面板数据中丢失若干个观测值，则称此面板数据为非平衡面板数据（unbalanced panel data）。注意：EViwes 、、既允许用平衡面板数据也允许用非平衡面板数据估计模型。

面板数据的F检验固定效应检验

面板数据模型(P A N E L D A T A)F检验,固定效应检验1．面板数据定义。时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据。面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面（cross section）上看，是由若干个体（entity, unit, individual）在某一时刻构成的截面观测值，从纵剖面（longitudinal section）上看是一个时间序列。面板数据用双下标变量表示。例如 y i t, i= 1, 2, …, N; t= 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变，y i ., ( i= 1, 2, …, N)是横截面上的N个随机变量；若固定i不变，y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列（个体）。图1 N=7，T=50的面板数据示意图例如1990-2000年30个省份的农业总产值数据。固定在某一年份上，它是由30个农业总产总值数字组成的截面数据；固定在某一省份上，它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。

对于面板数据y i t, i= 1, 2, …, N; t= 1, 2, …, T来说，如果从横截面上看，每个变量都有观测值，从纵剖面上看，每一期都有观测值，则称此面板数据为平衡面板数据（balanced panel data）。若在面板数据中丢失若干个观测值，则称此面板数据为非平衡面板数据（unbalanced panel data）。注意：EViwes 、、既允许用平衡面板数据也允许用非平衡面板数据估计模型。例1（file:panel02）：1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费（不变价格）和人均收入数据见表1和表2。数据是7 年的，每一年都有15个数据，共105组观测值。人均消费和收入两个面板数据都是平衡面板数据，各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据（不变价格）地区人均消费1996 1997 1998 1999 2000 2001 2002 CP-AH（安徽） CP-BJ（北京） CP-FJ（福建） CP-HB（河北）

面板数据分析简要步骤与注意事项面板单位根—面板协整—回归分析

面板数据分析简要步骤与注意事项（面板单位根—面板协整—回归分析）步骤一：分析数据的平稳性（单位根检验）按照正规程序，面板数据模型在回归前需检验数据的平稳性。李子奈曾指出，一些非平稳的经济时间序列往往表现出共同的变化趋势，而这些序列间本身不一定有直接的关联，此时，对这些数据进行回归，尽管有较高的R平方，但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归（spurious regression）。他认为平稳的真正含义是：一个时间序列剔除了不变的均值（可视为截距）和时间趋势以后，剩余的序列为零均值，同方差，即白噪声。因此单位根检验时有三种检验模式：既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归，确保估计结果的有效性，我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先，我们可以先对面板序列绘制时序图，以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和（或）截距项，从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述：在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25～250 之间,截面数介于10～250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。由上述综述可知，可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量，并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程，lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程，Hadri Z 统计量的检验原假设为不存在普通的单位根过程。有时，为了方便，只采用两种面板数据单位根检验方法，即相同根单位根检验LLC（Levin-Lin-Chu）检验和不同根单位根检验Fisher-ADF检验（注：对普通序列（非面板序列）的单位根检验方法则常用ADF检验），如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的，反之则不平稳。如果我们以T（trend）代表序列含趋势项，以I（intercept）代表序列含截距项，T&I代表两项都含，N（none）代表两项都不含，那么我们可以基于前面时序图得出的结论，在单位根检验中选择相应检验模式。但基于时序图得出的结论毕竟是粗略的，严格来说，那些检验结构均

Evew面板数据操作

Eviews6.0面板数据操作一、数据输入 1、创建工作文档。如下图操作，在” workfile create”文本框的“workfile structure type”选择“balanced panel”,”panel specification”的”start date”和”end date”输入数据的起止期间，”wf”输入工作文档的名称，点击”OK”即跳出新建的工作文档a 界面。 2、创建新对象。操作如下图。在”new object”文本框的”type of object”选择”pool”，”name for object ”输入新对象的名称。创建成功后的界面如下面第3张图所示。 - 3、输入数据。双击”workfile”界面的，跳出”pool”界面，输入个体。一般输入方式为如下：若上海输入_sh，北京输入_bj,…。个体输入完成后，点击该界面的键，在跳出的”series list”输入变量名称，注意变量后要加问号。格式如下：y? x?。点击”OK”后，跳出数据输入界面，如下面第4张图所示。在这个界面上点击键，即可以输入或者从EXCEL处复制数据。在输入数据后，记得保存数据。保存操作如下：

在跳出的“workfile save”文本框选择“ok”即可，则自动保存到我的文档。然后在“workfile”界面如下会显示保存路径：d:\my documents\a.wf1。若要保存到自己选择的路径下面，则在保存时选择“save as”, 在跳出的文本框里选择自己要保存的路径以及命名文件名称。 4、单位根检验。一般回归前要检验面板数据是否存在单位根，以检验数据的平稳性，避免伪回归，或虚假回归，确保估计的有效性。单位根检验时要分变量检验。（补充：网上对面板数据的单位根检验和协整检验存在不同意见，一般认为时间区间较小的面板数据无需进行这两个检验。）（1）生成数据组。如下图操作。点击”make group”后在跳出的”series list”里输入要单位根检验的变量，完成后就会跳出如下图3所示的组数据。（2）生成时序图。如下图操作。在”gragh options”界面的”specifi”下选择生成的时序图的形状，一般都默认设置，生成的时序图如下图3所示。观察时序图的趋势，以确定单位根检验的检验模式。（3）单位根检验。单位根检验时，在”group unit root test”里的”test for root in”按检验结果一步步检验，如果原值”level”的检验结果符合要求，即不存在单位根，则单位根检验就不需要检验下去了，如果不符合要求，则需继续检验一阶差分”1st difference”、二阶差分”2nd difference”。”include in test equation”是检验模式的选择，根据上面时序图的形状来选择。从上面的时序图可以看出，原值的检验模式应该选择含有截距项和趋势的检验模式，即”include in test equation”选择”individual intercept and trend”。检验结果如下图3所示。从检验结果可以看出，检验结果除了levin 检验方法外其他方法的结果都不符合要求（Prob.xx小于置信度(如0.05),则认为拒绝单位根的原假设，通过检验）。所以继续检验一阶差分和二阶差分，直到检验结果达到要求。如果变量原值序列通过单位根检验，则称变量为0阶单整；如果变量一阶差分后的序列通过单位根检验，则称变量为一阶单整，以此推之。

Eviews面板大数据之固定效应模型

Eviews 面板数据之固定效应模型在面板数据线性回归模型中，如果对于不同的截面或不同的时间序列，只是模型的截距项是不同的，而模型的斜率系数是相同的，则称此模型为固定效应模型。固定效应模型分为三类： 1.个体固定效应模型个体固定效应模型是对于不同的纵剖面时间序列（个体）只有截距项不同的模型： 2 K it i k kit it k y x u λβ==++∑ (1) 从时间和个体上看，面板数据回归模型的解释变量对被解释变量的边际影响均是相同的，而且除模型的解释变量之外，影响被解释变量的其他所有（未包括在回归模型或不可观测的）确定性变量的效应只是随个体变化而不随时间变化时。检验：采用无约束模型和有约束模型的回归残差平方和之比构造F 统计量，以检验设定个体固定效应模型的合理性。F 模型的零假设： 01231:0N H λλλλ-===???== ()1 (1,(1)1)(1) RRSS URSS N F F N N T K URSS NT N K --= ---+--+ RRSS 是有约束模型（即混合数据回归模型）的残差平方和，URSS 是无约束模型ANCOVA 估计的残差平方和或者LSDV 估计的残差平方和。实践：一、数据：已知1996—2002年中国东北、华北、华东15个省级地区的居民家庭人均消费（cp ，不变价格）和人均收入（ip ，不变价格）居民，利用数据（1）建立面板数据（panel data ）工作文件；（2）定义序列名并输入数据；（3）估计选择面板模型；（4）面板单位根检验。年人均消费（consume ）和人均收入（income ）数据以及消费者价格指数（p ）分别见表1，2和3。表1 1996—2002年中国东北、华北、华东15个省级地区的居民家庭人均消费（元）数据

平稳性检验与协整检验操作步骤

平稳性检验与协整检验操作步骤在对时间序列Y、X1进行回归分析时需要考虑Y与X1之间是否存在某种切实的关系，所以需要进行协整检验。 1.1 利用eviews创建时间序列Y、X1 : 点击file-new-workfile，见对话框又三块空白处 workfile structure 打开eviews软件 type处又三项选择，分别是非时间序列unstructured/undate，时间序列dated-regular frequency，和不明英语balance panel。选择时间序列dated-regular frequency。在date specification中选择年度，半年度或者季度等，和起始时间。右下角为工作间取名字和页数。点击ok。在所创建的workfile中点击object-new object，选择series，以及填写名字如Y，点击OK。将数据填写入内。 1.2 对序列Y进行平稳性检验: 此时应对序列数据取对数，取对数的好处在于可将间距很大的数据转换为间距较小的数据。具体做法是在workfile y的窗口中点击Genr，输入logy=log(y),则生成y的对数序列logy。再对logy序列进行平稳性检验。点击view-United root test，test type选择ADF检验，滞后阶数中lag length选择SIC检验，点击ok得结果如下: Null Hypothesis: LOGY has a unit root Exogenous: Constant Lag Length: 0 (Automatic based on SIC, MAXLAG=1) t-Statistic Prob.* Augmented Dickey-Fuller test

面板数据分析简要步骤与注意事项面板单位根面板协整回归分析

面板数据分析简要步骤与注意事项面板单位根—面板协整—回归分析) 步骤一：分析数据的平稳性(单位根检验) 按照正规程序，面板数据模型在回归前需检验数据的平稳性。李子奈曾指出，一些非平稳的经济时间序列往往表现出共同的变化趋势，而这些序列间本身不一定有直接的关联，此时，对这些数据进行回归，尽管有较高的R平方，但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归( spurious regression )。他认为平稳的真正含义是：一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后，剩余的序列为零均值，同方差，即白噪声。因此单位根检验时有三种检验模式：既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归，确保估计结果的有效性，我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先，我们可以先对面板序列绘制时序图，以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项，从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述：在非平稳的面板数据渐进过程中 ,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布 , 这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002) 的改进, 提出了检验面板单位根的LLC法。Levin et al. (2002)指出,该方法允许不同截距和时间趋势，异方差和高阶序列相关，适合于中等维度(时间序列介于25?250之间，截面数介于10?250之间)的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的 IPS 法, 但 Breitung(2000) 发现 IPS 法对限定性趋势的设定极为敏感 , 并提出了面板单位根检验的 Breitung 法。Maddala and Wu(1999)又提出了 ADF-Fisher 和 PP-Fisher 面板单位根检验方法。由上述综述可知，可以使用 LLC、IPS、Breintung 、ADF-Fisher 和 PP-Fisher5 种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS、H-Z 分别指 Levin, Lin & Chu t* 统计量、 Breitung t 统计量、 lm Pesaran & Shin W 统量、计 ADF- Fisher Chi-square 统计量、PP-Fisher Chi-square 统计量、Hadri Z 统计量，并且 Levin, Lin & Chu t* 统计量、 Breitung t 统计量的原假设为存在普通的单位根过程， lm Pesaran & Shin W 统计量、 ADF- Fisher Chi-square 统计量、 PP-Fisher Chi-square 统计量的原假设为存在有效的单位根过程， Hadri Z 统计量的检验原假设为不存在普通的单位根过程。有时，为了方便，只采用两种面板数据单位根检验方法，即相同根单位根检验 LLC(Levin-Lin-Chu )检验和不同根单位根检验 Fisher-ADF 检验(注：对普通序列(非面板序列)的单位根检验方法则常用 ADF检验)，如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的，反之则不平稳。如果我们以 T(trend )代表序列含趋势项，以 I (intercept )代表序列含截距项， T&I 代表两项都含，N (none)代表两项都不含，那么我们可以基于前面时序图得出的结论，在单位根检验中选择相应检验模式。但基于时序图得出的结论毕竟是粗略的，严格来说，那些检验结构均需一一检验。具体操作可以参照李子奈的说法：ADF检验是通过三个模型来完成，首先从含有截距和趋势项的模型开始，再检验只含截距项的模型，最后检验二者都不含的模型。并且认

面板数据的分析步骤

面板数据的分析步骤面板数据的分析方法或许我们已经了解许多了，但是到底有没有一个基本的步骤呢？那些步骤是必须的？这些都是我们在研究的过程中需要考虑的，而且又是很实在的问题。面板单位根检验如何进行？协整检验呢？什么情况下要进行模型的修正？面板模型回归形式的选择？如何更有效的进行回归？诸如此类的问题我们应该如何去分析并一一解决？以下是我近期对面板数据研究后做出的一个简要总结，和大家分享一下，也希望大家都进来讨论讨论。步骤一：分析数据的平稳性（单位根检验）按照正规程序，面板数据模型在回归前需检验数据的平稳性。李子奈曾指出，一些非平稳的经济时间序列往往表现出共同的变化趋势，而这些序列间本身不一定有直接的关联，此时，对这些数据进行回归，尽管有较高的R平方，但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归（spurious regression）。他认为平稳的真正含义是：一个时间序列剔除了不变的均值（可视为截距）和时间趋势以后，剩余的序列为零均值，同方差，即白噪声。因此单位根检验时有三种检验模式：既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归，确保估计结果的有效性，我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先，我们可以先对面板序列绘制时序图，以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和（或）截距项，从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述：在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25～250 之间,截面数介于10～250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。由上述综述可知，可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square 统计量、Hadri Z统计量，并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程，lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程，Hadri Z统计量的检验原假设为不存在普通的单位根过程。有时，为了方便，只采用两种面板数据单位根检验方法，即相同根单位根检验LLC （Levin-Lin-Chu）检验和不同根单位根检验Fisher-ADF检验（注：对普通序列（非面板序列）的单位根检验方法则常用ADF检验），如果在两种检验中均拒绝存在单位根的原假设则我们

面板数据模型设定检验方法

1：（ST ATA 的双固定效应）xi ：xtreg y x1 x2 i.year ,fe 2：变系数模型（1）生成虚拟变量 tab id,gen(id) gen open1=id1*open gen open2=id2*open （2）变系数命令 xtreg y open1 open2。。。，fe 面板数据模型设定检验方法 4.1 F 检验先介绍原理。F 统计量定义为 ()()/~, (30)/() R U U RSS RSS J F F J N k RSS N k -= -- 其中RSS r 表示施加约束条件后估计模型的残差平方和，RSS u 表示未施加约束条件的估计模型的残差平方和，J 表示约束条件个数，N 表示样本容量，k 表示未加约束的模型中被估参数的个数。在原假设“约束条件真实”条件下，F 统计量渐近服从自由度为( J , N – k )的F 分布。以检验个体固定效应回归模型为例，介绍F 检验的应用。建立假设

H 0：αi =α。模型中不同个体的截距相同（真实模型为混合回归模型）。 H 1：模型中不同个体的截距项αi 不同（真实模型为个体固定效应回归模型）。 F 统计量定义为： F = ) /()] ()/[()(k N NT SSE k N NT k NT SSE SSE u u r --------1= ) /()/()(k N NT SSE N SSE SSE u u r ----1 (31) 其中SSE r 表示约束模型，即混合估计模型的残差平方和，SSE u 表示非约束模型，即个体固定效应回归模型的残差平方和。非约束模型比约束模型多了N -1个被估参数。以案例1为例，已知SSE r = 4824588，SSE u = 2270386， F = ) /()/()(11----N NT SSE N SSE SSE u u r =) /() /()(115105227038611522703864824588 ---- = 22510 182443= 8.1 (32) F 0.05(6, 87) = 1.8 因为F = 8.1 > F 0.05(14, 89) = 1.8，推翻原假设，比较上述两种模型，建立个体固定效应回归模型更合理。 4.2 Hausman 检验对同一参数的两个估计量差异的显著性检验称作

面板数据的单位根检验

;. 面板数据的单位根检验 1 LLC （Levin-Lin-Chu ，2002）检验（适用于相同根（common root ）情形） LLC 检验原理是仍采用ADF 检验式形式。但使用的却是it y ?和it y 的剔出自相关和确定项影响的、标准的代理变量。具体做法是（1）先从? y it 和y it 中剔出自相关和确定项的影响，并使其标准化，成为代理变量。（2）用代理变量做ADF 回归，*?ij ε=ρ*ij ε% + v it 。LLC 修正的?()t ρ 渐近服从N(0,1)分布。详细步骤如下： H 0: ρ = 0（有单位根）； H 1: ρ < 0。LLC 检验为左单端检验。 LLC 检验以如下ADF 检验式为基础： ? y it = ρ y i t -1 +∑=i k j j i 1γ? y i t -j + Z it 'φ + εit , i = 1, 2, …, N ; t = 1, 2, …, T （38）其中Z it 表示外生变量（确定性变量）列向量，φ 表示回归系数列向量。（1）估计代理变量。首先确定附加项个数k i ，然后作如下两个回归式， ? y it = ∑=i k j j i ? 1 γ? y i t -j + Z it '?φ +t i ε?

;. y i t -1 = ∑=i k j j i ~1 γ ? y i t -j + Z it 'φ%+1 ~-it ε 移项得 t i ε ?= ? y it -∑=i k j j i ?1 γ? y i t -j - Z it '?φ 1 ~-it ε= y it -∑=i k j j i ~1 γ? y i t -j - Z it 'φ% 把t i ε?和1 ~-it ε标准化， * ?ij ε= t i ε?/s i *ij ε%= 1~-it ε/s i 其中s i , i = 1, 2, …, N 是用（38）式对每个个体回归时得到的残差的标准差，从而得到? y it 和y it -1 的代理变量*?ij ε和* ij ε%。

ADF时间序列数据平稳性检验实验指导

实验一时间序列数据平稳性检验实验指导一、实验目的：理解经济时间序列存在的不平稳性，掌握对时间序列平稳性检验的步骤和各种方法，认识利用不平稳的序列进行建模所造成的影响。二、基本概念：如果一个随机过程的均值和方差在时间过程上都是常数，并且在任何两时期的协方差值仅依赖于该两个时期间的间隔，而不依赖于计算这个协方差的实际时间，就称它是宽平稳的。时序图 ADF检验 PP检验三、实验内容及要求： 1、实验内容：用Eviews5.1来分析1964年到1999年中国纱产量的时间序列，主要内容：（1）、通过时序图看时间序列的平稳性，这个方法很直观，但比较粗糙；（2）、通过计算序列的自相关和偏自相关系数，根据平稳时间序列的性质观察其平稳性；（3）、进行纯随机性检验；（4）、平稳性的ADF检验；（5）、平稳性的pp检验。 2、实验要求：（1）理解不平稳的含义和影响；（2）熟悉对序列平稳化处理的各种方法；（2）对相应过程会熟练软件操作，对软件分析结果进行分析。四、实验指导（1）、绘制时间序列图时序图可以大致看出序列的平稳性，平稳序列的时序图应该显示出序列始终围绕一个常数值波动，且波动的范围不大。如果观察序列的时序图显示出该序列有明显的趋势或周期，那它通常不是平稳序列，现以1964-1999年中国纱年产量序列（单位：万吨）来说明。在EVIEWS中建立工作文件，在“Workfile structure type”栏中选择“Dated-regular frequency”，在右边的“Date specification”中输入起始年1964，终止年1999，点击ok则建立了工作文件。找到中国纱年产量序列的excel文件并导入命名该序列为sha，见图1-2。图1-1 建立工作文件

面板数据分析简要步骤与注意事项面板单位根—面板协整—回归分析

面板数据分析简要步骤与注意事项面板单位根—面板协整—回归分析 SANY标准化小组 #QS8QHH-HHGX8Q8-GNHHJ8-HHMHGN#

面板数据分析简要步骤与注意事项（面板单位根—面板协整—回归分析）步骤一：分析数据的平稳性（单位根检验）按照正规程序，面板数据模型在回归前需检验数据的平稳性。李子奈曾指出，一些非平稳的经济时间序列往往表现出共同的变化趋势，而这些序列间本身不一定有直接的关联，此时，对这些数据进行回归，尽管有较高的R平方，但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归（spurious regression）。他认为平稳的真正含义是：一个时间序列剔除了不变的均值（可视为截距）和时间趋势以后，剩余的序列为零均值，同方差，即白噪声。因此单位根检验时有三种检验模式：既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归，确保估计结果的有效性，我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先，我们可以先对面板序列绘制时序图，以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和（或）截距项，从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述：在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25～250 之间,截面数介于10～250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。由上述综述可知，可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量，并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程，lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程， Hadri Z统计量的检验原假设为不存在普通的单位根过程。有时，为了方便，只采用两种面板数据单位根检验方法，即相同根单位根检验LLC（Levin-Lin-Chu）检验和不同根单位根检验Fisher-ADF检验（注：对普通序列（非面板序列）的单位根检验方法则常用ADF检验），如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的，反之则不平稳。

面板数据的F检验固定效应检验

面板数据的F检验-固定效应检验

STATA面板数据模型操作命令要点

基于面板数据模型及其固定效应的模型分析

面板数据分析简要步骤与注意事项(面板单位根—面板协整—回归分析)

面板数据的F检验固定效应检验

面板数据的F检验固定效应检验

面板数据分析简要步骤与注意事项 面板单位根—面板协整—回归分析

Evew面板数据操作

Eviews面板大数据之固定效应模型

平稳性检验与协整检验操作步骤

面板数据分析简要步骤与注意事项面板单位根面板协整回归分析

面板数据的分析步骤

面板数据模型设定检验方法

面板数据的单位根检验

ADF时间序列数据平稳性检验实验指导

面板数据分析简要步骤与注意事项面板单位根—面板协整—回归分析

面板数据分析简要步骤与注意事项面板单位根—面板协整—回归分析