第五章-含虚拟变量的回归模型

合集下载

计量经济学-虚拟变量复习题

计量经济学-虚拟变量复习题

第五章 虚拟变量复习题一、单项选择题 1、虚拟变量( A )A.主要来代表质的因素,但在有些情况下可以用来代表数量因素B.只能代表质的因素C.只能代表数量因素D.只能代表季节影响因素2、设某地区消费函数中,消费支出不仅与收入x 有关,而且与消费者的年龄构成有关,若将年龄构成分为小孩、青年人、成年人和老年人4个层次。

假设边际消费倾向不变,考虑上述年龄构成因素的影响时,该消费函数引入虚拟变量的个数为 ( C )A 1个B 2个C 3个D 4个3、在经济发展发生转折时期,可以通过引入虚拟变量方法来表示这种变化。

例如,研究中国城镇居民消费函数时。

1991年前后,城镇居民商品性实际支出Y 对实际可支配收入X 的回归关系明显不同。

现以1991年为转折时期,设虚拟变量⎩⎨⎧=年以后;年以前;1991019911t D ,数据散点图显示消费函数发生了结构性变化:基本消费部分下降了,边际消费倾向变大了。

则城镇居民线性消费函数的理论方程可以写作:( D )。

A 、ttt u XY ++=10ββB 、ttt tt u XD XY +++=210βββC 、tt tt u D XY +++=210βββD 、ttt t tt u XD D XY ++++=3210ββββ4、对于含有截距项的计量经济模型,若想将含有m 个互斥类型的定性因素引入到模型中,则应该引入虚拟变量个数为 ( B ) A m B m-1 C m+1 D m-k5、对于一个回归模型中不包含截距项,若将一个具有m 个特征的质的因素引入进计量经济模型,则虚拟变量数目为( A ) A.m B.m-1C.m-2D.m+1 6、设某计量经济模型为:ii i u D Y ++=βα,其中iY 大学教授年薪,⎩⎨⎧=女教授男教授01i D ,则对于参数α、β的含义,下列解释不正确的是( B )A. α表示大学女教授的平均年薪;B. β表示大学男教授的平均年薪;C. α+ β表示大学男教授的平均年薪;D. β表示大学男教授和女教授平均年薪的差额7、个人保健支出的计量经济模型:iii i XD Y μβαα+++=221 ,其中iY 保健年度支出;iX个人年度收入;虚拟变量⎩⎨⎧=大学以下大学及以上012i D ;iμ满足古典假定。

虚拟变量回归模型_OK

虚拟变量回归模型_OK
这意味着,男女职工平均薪金对工龄的变化率
是一样的,但两者的平均薪金水平相差 a。
可以通过传统的回归检验,对 a的统计显著性进行检验,以
判断男女职工的平均薪金水平是否显著差异。
16
例7.1.4 居民家庭的教育费用支出除了受收入水平的影响之外,还与子女 的年龄结构密切相关。如果家庭中有适龄子女(6-21岁),教育费用支出就 多。因此,为了反映“子女年龄结构”这一定性因素,设置虚拟变量:
当tt*=1978年, Dt = 1
ˆyt = bˆ0 aˆxt + bˆ1 + aˆ xt
32
28
例如,进口消费品数量Y主要取决于国民收入 X的多少,中国在改革开放前后,Y对X的回归关 系明显不同。
这时,可以t*=1978年为转折期,以1978年的 国民收入Xt*为临界值,设如下虚拟变量:
1 Dt = 0
t t* t t*
则进口消费品的回归模型可建立如下:
yt = b0 + b1 xt + a xt xt Dt + ut
9
概念:
同时含有一般解释变量与虚拟变量的模型称为 虚 拟 变 量 模 型或 者 方差 分 析 ( analysis-of variance: ANOVA)模型。
一个以性别为虚拟变量考察企业职工薪金的模型:
Yt = b 0 + b1 Xt + b 2Dt + mt
其中:Yt为企业职工的薪金,Xt为工龄, Dt=1,若是男性,Dt=0,若是女性。
D4=
1 喜欢某种商品 0 不喜欢某种商品
5)表示天气变化的虚拟变量可取为
D5=
1 晴天 0 雨天
6
2.引入虚拟变量的作用 引入虚拟变量的作用,在于将定性因素或属性因素对因变量

《计量经济学》第五章习题及参考答案.doc

《计量经济学》第五章习题及参考答案.doc

第五章经典单方程计量经济学模型:专门问题一、内容提要本章主要讨论了经典单方程回归模型的几个专门题。

第一个专题是虚拟解释变量问题。

虚拟变量将经济现象中的一些定性因素引入到可以进行定量分析的回归模型,拓展了回归模型的功能。

本专题的重点是如何引入不同类型的虚拟变量来解决相关的定性因素影响的分析问题,主要介绍了引入虚拟变量的加法方式、乘法方式以及二者的组合方式。

在引入虚拟变量时有两点需要注意,一是明确虚拟变量的对比基准,二是避免出现“虚拟变量陷阱”。

第二个专题是滞后变量问题。

滞后变量包括滞后解释变量与滞后被解释变量,根据模型中所包含滞后变量的类别又可将模型划分为自回归分布滞后模型与分布滞后模型、自回归模型等三类。

本专题重点阐述了产生滞后效应的原因、分布滞后模型估计时遇到的主要困难、分布滞后模型的修正估计方法以及自回归模型的估计方法。

如对分布滞后模型可采用经验加权法、Almon多项式法、Koyck方法来减少滞项的数目以使估计变得更为可行。

而对自回归模型,则根据作为解释变量的滞后被解释变量与模型随机扰动项的相关性的不同,采用工具变量法或OLS 法进行估计。

由于滞后变量的引入,回归模型可将静态分析动态化,因此,可通过模型参数来分析解释变量对被解释变量影响的短期乘数和长期乘数。

第三个专题是模型设定偏误问题。

主要讨论当放宽“模型的设定是正确的”这一基本假定后所产生的问题及如何解决这些问题。

模型设定偏误的类型包括解释变量选取偏误与模型函数形式选取取偏误两种类型,前者又可分为漏选相关变量与多选无关变量两种情况。

在漏选相关变量的情况下,OLS估计量在小样本下有偏,在大样本下非一致;当多选了无关变量时,OLS估计量是无偏且一致的,但却是无效的;而当函数形式选取有问题时,OLS估计量的偏误是全方位的,不仅有偏、非一致、无效率,而且参数的经济含义也发生了改变。

在模型设定的检验方面,检验是否含有无关变量,可用传统的t检验与F检验进行;检验是否遗漏了相关变量或函数模型选取有错误,则通常用一般性设定偏误检验(RESET检验)进行。

虚拟变量虚拟解释变量的回归虚拟被解释变量的回归

虚拟变量虚拟解释变量的回归虚拟被解释变量的回归
17
显然,在研究房地产价格影响机理时,需要分 析那些不易量化的定性因素对房地产价格是否 真的有显著影响。 能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有效地表示这些定性因素的 作用呢?
1
问题的一般性描述
在前面各章的分析中,被解释变量主要是受可以直 接度量的定量因素的影响,如收入、产出、商品需 求量、价格、成本、资金、人数等。但现实经济生 活中,影响被解释变量变动的因素,除了可以直接 观测数据的定量变量外,可能还包括一些本质上为 定性因素的影响,例如性别、种族、职业、季节、 文化程度、战争、自然灾害、政府经济政策的变动 等。
则对任一家庭都有: D1 + D2 = 1 D1 + D2 - 1 = 0 ,
即产生完全共线,陷入了“虚拟变量陷阱”。
“虚拟变量陷阱”的实质是:完全多重共线性。
15
综上可知: 1.引入虚拟变量的个数与两个因素有关;一是定性 变量的属性多少,一是有无截距项; 2.对虚拟变量的运用要谨慎,虚拟变量的使用得当 常能发挥积极的作用,但在模型中引入虚拟变量的 数量要适当,引入的虚拟变量的数量过度,则可能 带来负面的影响。
10
例如,比较收入时考察性别的作用。当研究男性收入是否 高于女性时,是将女性作为比较的基础(参照物),故有 男性为“1”,女性为“0”。
例1
(1)
D
=
1 0
男 女
(2)
D
=
1 0
改革开放以后 改革开放以前
(3)
D1
=
1 0
天气阴 (4) 其他
D2
=
1 0
天气雨 其他
问题:
为何只选0、1,选2、3、4行吗?为什么?
16

虚拟变量

虚拟变量
* t t 1 Dt * 0 t t
则进口消费品的回归模型可建立如下:
Yi 0 1 Xt 2 Dt ( Xt Xt * ) t
虚拟变量模型—分段线形回归
Yi 0 1 Xt 2 Dt ( Xt Xt * ) t
1978年前的进口消费品函数为:E (Yi | Dt 0) 0 1 Xt 1978年后的进口消费品函数为:E (Yi | Dt 1) 0 2 Xt * (1 2)Xt
虚拟变量模型
• 一个以性别为虚拟变量考察工资的模型:
Yi 0 1Di Xi i
其中:Yi为工人的工资水平,Xi为教育年限, Di=1,男性,Di=0,女性。
如何检验是否存在对不同性别员工的歧视?:
通过OLS估计对模型进行估计,并检验 1 的统计显著性。

虚拟变量模型—两个种类的定性变量
Yi 0 1D1i 2 D2i X i i
其中:Yi为工人的工资水平,Xi为教育年限, D1i=1,男性,D1i=0,女性; D2i=1,女性,D2i=0,男性。
解释变量构成的矩阵(1, D1,D2,X)非满秩,参数无法求出。 这就是所谓的虚拟变量陷阱(Dummy Variable Traps)
Yi 0 1Di Xi i
其中:Yi为工人的工资水平,Xi为教育年限, Di=1,男性,Di=0,女性。
如何解释1 ?:
女员工的平均工资: E (Yi | Di 0) 0 Xi 男员工的平均工资: E (Yi | Di 1 ) 0 1 Xi 教育水平相同的情况下,男性员工的平均工资水平与女 性员工的平均工资的差距。
1,男性 D3 0,女性

06第五讲模型设定和虚拟变量专题之虚拟变量

06第五讲模型设定和虚拟变量专题之虚拟变量
3

问题

定性问题经常以二值信息形式出现:一个人是 男还是女,结婚与否,一个人有还没有一台电 脑等等。该问题可通过定义一个二值变量 (binary variable)或一个0-1变量来刻画,此 变量即为虚拟变量(dummy variable) 那么如何引入虚拟变量呢?

4
举例:一个虚拟变量设置

n 5 2 6 ,R 0 . 3 6 4
2
是 否 存 在 性 别 歧 视 ?
ˆ w a g e 7 2 . 5 1 f e m a l e . 1 0 ( 0 . 2 1 ) ( 0 . 3 0 )
2 n 检 验
注意t值检验,同时,通常的对一个常数和一个虚拟变量进行简单回归时,是比 较两组均值的直接方法,要通常的t统计量生效,我们还必须假定同方差性,这 就意味着,对男人和女人而言,工资的总体方程式相同的。
0



总体上挣的钱要比男人少。
0 0 ,那么在其他条件相同的情况下,女人
8
Example of 0 > 0
y
y = (0 + 0) + 1x
d=1 slope = 1
0
0
{
d=0
y = 0 + 1x
x
9
w a g e m a l ef e m a l e e d u c u 0 1 2 2
E ( y 0 ) i |d i 2 1
E ( y d 1 ) i| i 2 1 2
6
举例:多虚拟变量

举例:季节变量有四个状态
春天 1 di1 0 其他季节 夏天 1 di2 0 其他季节

stata虚拟变量的回归命令

stata虚拟变量的回归命令

stata虚拟变量的回归命令虚拟变量是用来表示分类变量的一种方法,它可以将分类变量转换为一系列二进制变量,每个二进制变量表示分类变量的一个类别。

这样,就可以使用回归模型来分析分类变量对因变量的影响。

stata中有多个回归命令可以用于分析虚拟变量,包括:•regress:这是最基本的回归命令,可以用于分析连续因变量和分类自变量之间的关系。

•logit:这是一个非线性回归命令,可以用于分析二分类因变量和分类自变量之间的关系。

•probit:这是一个非线性回归命令,可以用于分析二分类因变量和分类自变量之间的关系。

•poisson:这是一个非线性回归命令,可以用于分析计数因变量和分类自变量之间的关系。

在stata中使用虚拟变量回归命令时,需要特别注意以下几点:•虚拟变量的个数:分类变量的类别数决定了虚拟变量的个数。

例如,一个有3个类别的分类变量需要创建2个虚拟变量。

•虚拟变量的取值:虚拟变量的取值为0或1,其中0表示分类变量不属于该类别,1表示分类变量属于该类别。

•虚拟变量的解释:虚拟变量的系数表示分类变量的每个类别对因变量的影响。

例如,一个虚拟变量的系数为正,表示该类别对因变量有正向影响;一个虚拟变量的系数为负,表示该类别对因变量有负向影响。

下面是一个stata虚拟变量回归命令的例子:regress y x1 x2 x3logistic y x1 x2 x3poisson y x1 x2 x3在这个例子中,y是因变量,x1、x2和x3是分类自变量。

regress命令用于分析y和x1、x2、x3之间的线性关系,logistic命令用于分析y和x1、x2、x3之间的非线性关系,poisson命令用于分析y和x1、x2、x3之间的非线性关系。

虚拟变量回归命令是stata中非常重要的一个工具,它可以用于分析分类变量对因变量的影响。

在使用虚拟变量回归命令时,需要特别注意虚拟变量的个数、虚拟变量的取值和虚拟变量的解释。

计量经济学重点

计量经济学重点

计量经济学重点第一章经济计量学的特征及研究范围1、经济计量学的定义P11经济计量学是利用经济理论、数学、统计推断等工具对经济现象进行分析的一门社会科学;2经济计量学运用数理统计学分析经济数据,对构建于数理经济学基础之上的模型进行实证分析,并得出数值结果;2、学习计量经济学的目的计量经济学与其它学科的区别P1-P21计量经济学与经济理论经济理论:提出的命题和假说,多以定性描述为主计量经济学:依据观测或试验,对大多数经济理论给出经验解释,进行数值估计2计量经济学与数理经济学数理经济学:主要是用数学形式或方程或模型描述经济理论计量经济学:采用数理经济学家提出的数学模型,把这些数学模型转换成可以用于经验验证的形式3计量经济学与经济统计学经济统计学:涉及经济数据的收集、处理、绘图、制表计量经济学:运用数据验证结论3、进行经济计量的分析步骤P2-P31建立一个理论假说2收集数据3设定数学模型4设立统计或经济计量模型5估计经济计量模型参数6核查模型的适用性:模型设定检验7检验源自模型的假设8利用模型进行预测4、用于实证分析的三类数据P3-P41时间序列数据:按时间跨度收集到的定性数据、定量数据;2截面数据:一个或多个变量在某一时点上的数据集合;3合并数据:包括时间序列数据和截面数据;一类特殊的合并数据—面板数据纵向数据、微观面板数据:同一个横截面单位的跨期调查数据第二章线性回归的基本思想:双变量模型1、回归分析P18用于研究一个变量称为被解释变量或应变量与另一个或多个变量称为解释变量或自变量之间的关系2、回归分析的目的P18-P191根据自变量的取值,估计应变量的均值;2检验建立在经济理论基础上的假设;3根据样本外自变量的取值,预测应变量的均值;4可同时进行上述各项分析;3、总体回归函数PRFP19-P221概念:反映了被解释变量的均值同一个或多个解释变量之间的关系2表达式:①确定/非随机总体回归函数:EY|Xi =B1+B2XiB1:截距;B2:斜率从总体上表明了单个Y同解释变量和随机干扰项之间的关系②随机/统计总体回归函数:Yi =B1+B2Xi+μiμi:随机扰动项随机误差项、噪声B1+B2Xi:系统/确定性部分μi:非系统/随机部分4、随机误差项P221定义:代表了与被解释变量Y有关但未被纳入模型变量的影响;每一个随机误差项对于Y的影响是非常小的,且是随机的;随机误差项的均值为02性质①误差项代表了未纳入模型变量的影响;②反映人类行为的内在随机性;③代表了度量误差;④反映了模型的次要因素,使得模型描述尽可能简单;5、样本回归函数P22-P251概念:是总体回归函数的近似2表达式①确定/非随机样本回归函数:i =b1+b2Xib 1:截距;b2:斜率②随机/统计样本回归函数:Yi =b1+b2Xi+eiei :残差项残差,ei= Yi-iB1+B2Xi:系统/确定性部分μ:非系统/随机部分6、条件期望与非条件期望1EY|Xi条件期望:在解释变量X给定条件下Y的条件期望,可以通过X给定条件下的条件概率分布得到;2非条件期望:在不考虑其他随机变量取值情况时,某个随机变量的期望值;它可以通过该随机变量的非条件分布或边缘分布得到;6、线性回归模型回归参数为线性B的模型7、回归系数/回归参数线性回归模型中的B参数8、回归系数的估计量bs说明了如何通过样本数据来估计回归系数Bs,计算出的回归系数的值称为样本回归估计值9、随机总体回归函数与随机样本回归函数的关系1随机样本回归函数:从所抽取样本的角度说明了被解释变量Yi 同解释变量Xi及残差ei之间的关系;2随机总体回归函数:从总体的角度说明了被解释变量Yi 同解释变量Xi及随机误差项μ之间的关系;10、关于线性回归的两种解释P25-P261变量线性:应变量的条件均值是自变量的线性函数此解释下的非线性回归:EY= B1+B2Xi2;EY= B1+B2×1/Xi2参数线性:应变量的条件均值是参数B的线性函数此解释下的非线性回归:EY= B1+B22Xi线性回归在教材中指的是参数线性的回归11、多元线性回归的表达式P261确定/非随机总体回归函数:EX=B1+B2X2i+B3X3i+B4X4i2随机/统计总体回归函数:Yi = B1+B2X2i+B3X3i+B4X4i+μi12、最小二乘法OLS法P26-P281最小二乘以残差被解释变量的实际值同拟合值之间的差平方和最小的原则对回归模型中的系数进行估计的方法;1表达式2重要性质①用OLS法得出的样本回归线经过样本均值点:;②残差的均值总为0;③对残值与解释变量的积求和,其值为0,即这两个变量不相关:④对残差与i 估计的Yi的积求和,其值为0,即第三章双变量模型:假设检验1、古典线性回归模型的假设P41-P441回归模型是参数线性的,但不一定是变量线性的:Yi =B1+B2Xi+μi2解释变量X与扰动误差项μ不相关3给定Xi ,扰动项的期望或均值为0:Eμ| Xi=04μi 的方差为常数,或同方差:varμi=σ2每个Y值以相同的方差分布在其均值周围,非这种情况为异方差5无自相关假定:两个误差项之间不相关,covμi ,μj=06回归模型是正确假定的:实证分析的模型不存在设定偏差或设定误差2、OLS估计量运用最小二乘法计算出的总体回归参数的估计量3、普通最小二乘估计量的方差与标准误P44-P461的方差与标准误①方差:②标准误:2的方差与标准误①方差:②标准差:3的计算公式n-2为自由度:独立观察值的个数4:回归标准误,常用于度量估计回归线的拟合优度,值越小,Y的回归值越接近根据回归模型得到的估计值4、OLS估计量的性质P461b1和b2是线性估计量:它们是随机变量Y的线性函数2b1和b2是无偏估计量:Eb1=B1,Eb2=B23Eσ^2=σ^2:误差方差的OLS估计量是无偏的4b 1和b 2是有效估计量:varb 1小于B 1的任意一个线性无偏估计量的方差,varb 2小于B 2的任意一个线性无偏估计量的方差 5、OLS 估计量的抽样分布或概率分布P47-P481新加的假设:在总体回归函数Yi=B 1+B 2X i +μi 中,误差项μi 服从均值为0,方差为σ^2的正态分布:μi ~N0,σ^2 2OLS 估计量服从的分布情况:b 1~NB 1,σ2b1 b 2~NB 2,σ2b26、假设检验P48-P53 1使用公式近似2方法①置信区间法②显着性检验法:对统计假设的检验过程 3几个相关检验①t 检验法:基于t 分布的统计假设检验过程 ②双边检验:备择假设是双边假设的检验 ③单边检验:备择假设是单边假设的检验 7、判定系数r 2P53-P56 1重要公式:TSS=ESS+RSS①总平方和TSS=:真实Y 值围绕其均值的总变异;②解释平方和ESS=:估计的Y值围绕其均值=的变异,也称为回归平方和由解释变量解释的部分③残差平方和RSS=:Y变异未被解释的部分2r2判定系数的定义:度量回归线的拟合程度回归模型对Y变异的解释比例/百分比3r2的性质①非负性②0≤r2≤14r2的计算公式5r的计算公式8、同方差性方差相同9、异方差性方差不同10、BLUE最佳线性无偏估计量,即该估计量是无偏估计量,且在所有的无偏估计量中方差最小11、统计显着拒绝零假设的简称第四章多元回归:估计与假设检验1、三变量线性回归模型EYi =B1+B2Xt+ B3X3tY i =B1+B2X2t+ B3X3t+μi2、偏回归系数B2,B3:1B2:在X3保持不变的情况下,X2单位变动引起Y均值EY的变动量2B3:在X2保持不变的情况下,X3单位变动引起Y均值EY的变动量3、多元线性回归模型的若干假定P73-P74 1回归模型是参数线性的,并且是正确设定的2X2,X3与扰动误差项μ不相关①X2,X3非随机:自动满足②X2,X3随机:必须独立同分布于误差项μ3误差项的期望或均值为0:Eμi=04同方差假定:varμi=σ25误差项μi ,μi无自相关:两个误差项之间不相关,covμi,μji≠j6解释变量X2和X3之间不存在完全共线性,即两个解释变量之间无严格的线性关系X2不能表示为另一变量X3的线性函数7随机误差μ服从均值为0,同方差为σ^2的正态分布:μi~N0,σ2 4、多重共线性问题1完全共线性:解释变量之间存在的精确的线性关系2完全多重共线性:解释变量之间存在着多个精确的线性关系5、多元回归函数的估计P74-P756、OLS估计量的方差与标准误P75-P761b1的方差与标准误2b1的方差与标准误3b3的方差与标准误7、多元判定系数P76-P778、多元回归的假设检验P78 方法类似于第三章9、检验联合假设P80-P811联合假设:H0:B2=B3=0H:R2=0多元回归的总体显着性检验2三变量回归模型的方差分析表2F分布公式10、F与R2之间的重要关系P82-P83 1关系式2R2形式的方差分析表11、设定误差P84会导致模型中遗漏相关变量12、校正判定系数P84-P851作用衡量了解释变量能解释的离差占被解释变量总离差的比例2公式3性质①如果k>1,则≤R2,即随着模型中解释变量个数的增加,校正判定系数越来越小于非校正判定系数②虽然未校正判定系数R2总为正,但校正判定系数可能为负13、受限最小二乘法P86-P871受限模型:B2=B3=02非受限模型:包含了所有相关变量3受限最小二乘法:对受限模型用OLS估计参数4非受限最小二乘法:对非受限模型用OLS估计参数5判定对模型施加限制是否有效的F分布公式14、显着性检验1单个多元回归系数的显着性检验①提出零假设和备择假设;②选择适当的显着性水平;③在零假设为真的情况下,计算t统计量;④将t统计量的绝对值|t|同相应自由度和显着性水平下的临界值相比较;⑤如果t统计量大于临界值,则拒绝零假设;该步骤中务必要使用合适的单边或双边检验;2所有偏斜率系数的显着性检验①零假设:H0:B2=B3=...=Bk=0,即所有的偏回归系数均为0;②备择假设:至少一个偏回归系数不为0;③运用方差分析和F检验;④如果F统计量的值大于相应显着性水平下的临界值,拒绝零假设,否则接受;⑤3在1和2中可以不事先选择好显着性水平,只需得到相应统计量的p值,如果p 值足够小,我们就可以拒绝零假设;第五章回归模型的函数形式1、不同的函数形式P121模型形式斜率强性线性双对数对数—线性线性—对数倒数逆对数2、多元对数线性回归模型P104-P1073、线性趋势模型P1104、多项式回归模型P116-P1175、过原点的回归P1186、标准化变量的回归P120第六章虚拟变量回归模型1、虚拟变量P133-P134因变量受到一些定性变量的影响,这类定性变量称为虚拟变量,用D表示虚拟变量,虚拟变量的取值通常为0和12、虚拟变量陷阱P136引入的虚拟变量个数应该比研究的类别少一个,否则就会造成完全多重共线,即通常说的虚拟变量陷阱3、虚拟变量回归模型的类型包含一个定量变量、一个定性变量的回归模型1只影响截距加法模型2只影响斜率乘法模型3同时影响截距与斜率混合模型4、交互效应P142:交互作用虚拟变量5、分类变量和定性变量这类变量的取值不是一般的数据数值变量或定量变量,它们通常代表所研究的对象是否具有的某种特征;6、方差分析模型ANOVA解释变量仅包含定型变量或虚拟变量的回归模型;7、协方差分析模型ANOCVA回归模型中的解释变量有些是线性的,有些是定量的;8、差别截距虚拟变量包含此变量的模型能够分辨被解释变量的均值在不同类别之间是否相同; 9、差别斜率虚拟变量包含此变量的模型能够分辨不同类别之间被解释变量均值变化率的变化范围第七章模型选择:标准与检验1、好的模型具有的性质P164-P1651简约性:模型应尽可能简单;2可识别性:每个参数只有一个估计值;3拟合优度:用模型中所包含的解释变量尽可能地解释应变量的变化;4理论一致性:构建模型时,必须有一定的理论基础;5预测能力:选择理论预测与实践吻合的模型;2、产生设定误差的原因1研究者对所研究问题的相关理论了解不深2研究者没有关注本领域前期的研究成果3研究者在研究中缺乏相关数据4数据测量时的误差3、设定误差的类型P1651遗漏相关变量:“过低拟合”模型P165-P168实际模型:估计模型:后果:①如果遗漏变量X3与模型中的变量X2相关,则a1和a2是有偏的;也就是说,其均值或期望值与真实值不一致;②a1和a2也是不一致的,即无论样本容量有多大,偏差也不会消失;③如果X2和X3不相关,则b32为零,即a2是无偏的,同时也是一致的;④根据两变量模型得到的误差方差是真实误差方差σ2的有偏估计量;⑤此外,通常估计的a2的方差是真实估计量方差的有偏估计量;即使等于零,这一方差仍然是有偏的;⑥通常的置信区间和假设检验过程不再可靠;置信区间将会变宽,因此可能会“更频繁地”接受零假设:系数的真实值为零;2包括不相关变量:“过度拟合”模型P168-169正确模型:错误模型:后果:①过度拟合模型的估计量是无偏的也是一致的;②从过度拟合方程得到的σ2的估计量是正确的;③建立在t检验和F检验基础上的标准的置信区间和假设检验仍然是有效的;④从过度拟合模型中估计的a是无效的——其方差比真实模型中估计的b的方差大;因此,建立在a的标准误上的置信区间比建立在b的标准误上的置信区间宽,尽管前者的假设检验是有效的;总之,从过度拟合模型中得到的OLS估计量是线性无偏估计量,但不是最优先性无偏估计量;3不正确的函数形式P170-171如果选了错误的函数形式,则估计的系数可能是真实系数的有偏估计量;4度量误差①应变量中度量误差对回归结果的影响i. OLS估计量是无偏的;ii. OLS估计量的方差也是无偏的;iii. 估计量的估计方差比没有度量误差时的大,因为应变量中的误差加入到了误差项中;②解释变量的度量误差对回归结果的影响i. OLS估计量是有偏的;ii. OLS估计量也是不一致的;③解决方法:如果解释变量中存在度量误差,建议使用工具变量或替代变量;4、设定误差的诊断1诊断非相关变量P172-P1742对遗漏变量和不正确函数形式的检验P174-P175①判定系数R2和校正后的R2;②估计的t值;③与先验预期相比,估计系数的符号;3在线性和对数线性模型之间选择:MWD检验P175-P176:线性模型:Y是X的线性函数①设定如下假设;HH:对数线性模型:lnY是X或lnX的线性函数1②估计线性模型,得到Y的估计值③估计线性对数模型,得到lnY的估计值④求⑤做Y对X和的回归,如果根据t检验的系数是统计显着的,则拒绝H0⑥求⑦做lnY对X或lnX和的回归,如果的系数是统计显着的,则拒绝H14回归误差设定检验:RESETP177-P178①根据模型估计出Y值;②把的高次幂,,等纳入模型以获取残差和之间的系统关系;由于上图表明残差和估计的Y值之间可能存在曲线关系,因而考虑如下模型③令从以上模型中得到的为,从前一个方程得到的为,然后利用如下F检验判别从以上方程中增加的是否是统计显着的;④如果在所选的显着水平下计算的F值是统计显着的,则认为原始模型是错误设定的;第八章多重共线性:解释变量相关会有什么后果1、完全多重共线性P183-P185回归模型的某个解释变量可以写成其他解释变量的线性组合;设X2可以写成其他某些解释变量的线性组合,即:X 2=a3X3+a4X4…+akXk至少有一个ai≠0,i= 2,3,…k称存在完全多重共线性2、高度多重共线性P185-P187X2与其他解释变量高度共线性,即可以近似写成其他解释变量的线性组合X 2=a3X3+a4X4…+akXk+i至少有一个ai ≠0,i= 2, 3,…k, vi是随机误差项;3、产生多重共线的原因1时间序列解释变量受同一因素影响经济发展、政治事件、偶然事件、时间趋势经济变量的共同趋势2模型设立:解释变量中含有当期和滞后变量4、多重共线性的理论后果P187-P188OLS估计量仍然是最优无偏估计量1在近似共线性的情形下,OLS估计量仍然是无偏的;2近似共线性并未破坏OLS估计量的最小方差性;3即使在总体回归方程中变量X之间不是线性相关的,但在某个样本中,X变量之间可能线性相关;5、多重共线性的实际后果P188-P1891OLS估计量的方差和标准误较大;2置信区间变宽;3t值不显着;4R2值较高;5OLS估计量及其标准误对数据的微小变化非常敏感6回归系数符号有误;7难以评估各个解释变量对回归平方和ESS或者R2的贡献6、多重共线性的诊断P189-P1921观察回归结果R2较高,F很大,但t值显着的不多;多重共线性的经典特征R2较高,F检验拒绝零假设,但各变量的t检验表明,没有或少有变量系数是统计显着的;2简单相关系数法解释变量两两高度相关;变量相关系数比如超过,则可能存在较为严重的共线性;这一标准并不总是可靠,相关系数较低时,也有可能存在共线性3检查偏相关系数不一定可行4判定系数法辅助回归某个解释变量对其余的解释变量进行回归如果判定系数很大,F检验显着,即X与其他解释变量存在多重共线i5方差膨胀因子7、多重共线性的补救P195-P1981从模型中删除引起共线性的变量①找出引起多重共线性的解释变量,将它排除出去最为简单的克服多重共线性问题的方法;②逐步回归法i. 逐步引入如果拟合优度变化显着—新引入的变量是一个独立解释变量;选择解释变量的原则:a. 调整的R2增加,每个∣t∣增加,则保留引入变量;b. 调整的R2下降,每个∣t∣变化不大,则删除引入变量;ii. 逐步剔除①排除变量时应该注意:i. 由实际经济分析确定变量的相对重要性,删除不太重要的变量;ii. 如果删除变量不当,会导致模型设定误差;2获取额外的数据或新的样本3重新考虑模型4先验信息5变量变换将原模型变换为差分模型可有效消除存在于原模型中的多重共线性一般,增量之间的线性关系远比总量之间的线性关系弱得多; 第九章异方差:如果误差方差不是常数会有什么后果1、异方差的定义随机误差项ui 的方差随着解释变量Xi的变化而变化,即:2、异方差的性质P205-P208OLS估计仍是线性无偏,但不具最小方差1线性性2无偏性3方差式1不具有最小方差,式2具有最小方差3、异方差性的后果P209-P210经典模型假定下,OLS估计量是最优线性无偏估计量BLUE;去掉同方差假定:1OLS估计量仍是线性的;2OLS估计量仍是无偏的;3OLS估计量不再具有最小方差性,即不再是最优有效估计量;4OLS估计量的方差通常是有偏的;5偏差的产生是由于,即不再是真实σ2的无偏估计量;6建立在t分布和F分布之上的置信区间和假设检验是不可靠的,如果沿用传统的检验方法,可能得出错误的结论;4、异方差的检验1图形检验P211-P212e2对一个或多个解释变量或Y的拟合值作图; 2帕克检验Park TestP212-P214假定误差方差与解释变量相关形式:步骤:①做OLS估计求平方,取对数②对ei③做辅助回归④检验零假设:B=023格莱泽检验Glejser TestP214假定误差方差与解释变量相关形式:步骤:①做OLS估计②对e求绝对值i③做辅助回归方程=0④检验零假设:B24怀特检验White TestP215-P216和交叉乘积呈线性关系假定误差方差与X、X2步骤:①OLS估计得残差②做辅助回归③检验统计量5、异方差的修正1加权最小二乘法WLSWeighted Least SquaresP217-P222①方差已知原模型:加权后的模型:误差项的方差为:1加权的权数:②方差未知成比例:i. 误差方差与Xi模型变换:ii. 误差方差与Xi2成比例:模型变换:2怀特异方差校正的标准误P222-P223①如果存在异方差,则对于通过OLS得到的估计量不能进行t检验和F检验;②怀特估计方法③大样本情形下回归标准差和回归系数的一致估计量,可以进行t检验和F检验;第十章自相关:如果误差项相关会有什么结果1、自相关的定义P233按时间或空间顺序排列的观察值之间存在的相关关系;2、自相关的性质P233-P2341若古典线性回归模型中误差项ui不存在自相关Covui,uj=Eui,uj=0,i≠j2若误差项之间存在着依赖关系—ui存在自相关Covui,uj=Eui,uj≠0,i≠j3、产生自相关的原因P235-P2361惯性2设定偏误①模型中遗漏了重要变量;②模型选择了错误的函数形式;i. 从不正确的模型中得到的残差会呈现自相关;ii. 检验是否由于模型设定错误而导致残差自相关的方法:3蛛网现象4数据的加工①在用到季度数据的时间序列回归中,这些数据通常来自于每月数据;这种数据加工方式减弱了每月数据的波动而引进数据的匀滑性;②用季度数据描绘的图形要比用月度数据看来匀滑得多;这种匀滑性本身可能使扰动项中出现自相关;③内插法或外推法:用这些方法加工得到的数据都会给数据带来原始数据没有的系统性,这种系统性可能会造成误差自相关;4、自相关的后果P236-P2371OLS估计得到的仍为线性、无偏估计;2OLS估计不再具有有效性;3OLS估计量的方差有偏:低估了估计量的标准差;4通常所用的t检验和F检验是不可靠的;5计算得到的误差方差是真实σ2的无偏估计量,并且很有可能低估了真实的σ2;6通常计算的R2不能测度真实的R27通常计算的预测方差和标准误也是无效的5、自相关的诊断1图形法—时序图P237-P239①误差u并不频繁地改变符号,而是几个正之后跟着几个负,几个负之后跟着t几个正,则呈正自相关;②扰动项的估计值呈循环型,而是相继若干个正的以后跟着几个负的,表明存在正自相关;③扰动项的估计值呈锯齿型一个正接一个负,随时间逐次改变符号,表明存在负自相关;2检验P239-P242①定义值d值近似1 =-1完全负相关d=42 =0无自相关d=23 =1完全正相关d=0②DW检验的判断准则6、自相关的修正ρ的估计主要方法1ρ=1:一阶差分方法P244假定误差项之间完全正相关 Y t = α+βX t +u tu t = u t-1+tY t - Y t-1= βX t -X t-1+t2从DW 统计量中估计ρP244-P245 3从OLS 残差e t 中估计Cochrane-OrcuttP245-P246①e t = e t-1+t②利用OLS 残差,得的估计量 ③迭代,得的收敛值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Econometrics第五章虚拟变量回归模型(教材第六章)第五章虚拟变量回归模型第一节虚拟变量的性质和引入的意义第二节虚拟变量的引入第三节交互作用效应第四节含虚拟变量的回归模型学习要点虚拟变量的性质,虚拟变量的设定5.1 虚拟变量的性质和引入的意义虚拟变量的性质f定性变量性别(男,女)婚姻状况(已婚,未婚)受教育程度(高等教育,其他)收入水平(高收入,中低收入)肤色(白人,有色人种)政治状况(和平时期,战争时期)f引入虚拟变量(Dummy Variables)1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。

2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。

3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。

5.1 虚拟变量的性质和引入的意义5.2 虚拟变量的引入虚变量引入的方式主要有两种f加法方式虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。

加法引入方式引起截距变动5.2 虚拟变量的引入f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。

f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。

f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。

f 事实上,模型可以只包括虚拟变量(ANOVA 模型):其中,0,1,i i D D ==男性;女性。

12i i iY B B D u =++5.2 虚拟变量的引入虚拟变量的性质f 假定随机扰动项满足男性的期望:5.2 虚拟变量的引入虚拟变量的性质f 食品支出对性别虚拟变量(男=0,女=1)回归的结果:f 结果怎么解释?f 由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。

f 通常把取值为0的一类称为基准类、参照类或比较类。

此时,女性平均食物支出等于截距项加上D i 的系数值。

f 哪类赋值为1,哪类赋值为0,并没有什么关系。

()()()()2ˆ3176.83503.17233.04 329.5713.63 1.53 0.1890i iY D se t r =−==−=5.2 虚拟变量的引入虚拟变量的性质f 既然有两种分类,为何不引入两个虚拟变量?如之间的完全共线性,将导致模型无法估计!5.2 虚拟变量的引入虚拟变量的性质f 很容易验证:D 2=1-D 3或D 3=1-D 2f 我们发现,如果定性变量有两类,只引入一个虚拟变量(D 2或D 3)就可以了。

f 一般的原则:如果模型有共同的截距项B 1,且定性变量有m 种分类,则需引入(m-1)个虚拟变量。

f 如果不符合该原则,则会陷入虚拟变量陷阱,即完全共线性或多重共线性。

f 上述ANOVA 模型在经济学中一般用得较少,更多的是,回归模型中既包括定量解释变量,也包括定性解释变量。

这种模型称为协方差分析模型(ANCOVA )。

5.3 交互作用效应考虑这样一个模型:其中表示衣着方面的年度开支表示收入该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。

12233i i i i iY a a D a D X u β=++++210D ⎧=⎨⎩女性男性310D ⎧=⎨⎩大学毕业不然的话这种假定显然是站不住脚的。

显然上过大学的男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。

这就是存在所谓的交互效应。

简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,他们相互影响,也即交互效应。

5.3 交互作用效应5.3 交互作用效应模型修正为:=女性的级差效应=大学毕业的级差效应=女大学毕业生的级差效应交互作用虚拟变量的系数是否在统计上显著,可通过t检验加以验证。

错误地忽略一个显著的交互作用项将导致模型设定上的偏误。

12233423()i i i i i i i Y a a D a D a D D X u β=+++++2a 3a 4a5.4 含虚拟变量的回归模型包含一个定量变量、一个两分定性变量的回归f 把税收收入作为新的解释变量纳入模型:式中,Y——食品支出,X——税收收入,D——1(女性)和0(男性)。

f 回归结果如下,怎么解释?()()()()()()()()()2ˆ1506.244228.98680.0589188.0096 107.0582 0.00618.0115 2.1388 9.64170.000 0.0611 0.000 0.9284i i iY D X se t p R =−+==−==123i i i iY B B D B X u =+++5.4 含虚拟变量的回归模型包含一个定量变量、一个两分定性变量的回归f 女性平均食品消费支出:男性平均食品消费支出:f 进一步的问题:男女的食品边际消费倾向有差异吗?ˆ1277.25740.0589i i Y X =+ˆ1506.2440.0589i iY X =+5.4 含虚拟变量的回归模型包含一个定量变量、一个多分定性变量的回归f “一个多分定性变量”,如中国的东部,中部、西部。

f 又如,美国的学校分为三个地区:(1)南部;(2)东北和中北部;(3)西部。

f 考虑:美国大学研究生接受率是否存在地区差异?其中,D 2——1(东北和中北部),0(其他地区)D 3——1(西部),0(其他地区)f 根据引入虚拟变量的原则:定性变量“地区”有三个分类,所以引入两个虚拟变量。

这里南部是基准类。

f 根据模型,三个地区的平均接受率分别等于?12233i iAccept B B D B D u =+++5.4 含虚拟变量的回归模型包含一个定量变量、一个多分定性变量的回归f 东北和中北部:西部平均接受率:5.4 含虚拟变量的回归模型包含一个定量变量、一个多分定性变量的回归f 上述是ANAVO 模型,下面考虑ANCOVA 模型(引入一个定量解释变量,例如每个学校的年学费)。

f 结果怎么解释?f 同样的问题:不同地区学费的斜率系数相同吗?()()()()()()()()23279.033 5.67011.140.0011 15.53 1.91 2.79 7.55 0.000 0.061 0.007 0.000 0.546i i i Accept D D Tuition t p R =−−−=−−−==5.4 含虚拟变量的回归模型包含一个定量变量、一个多分定性变量的回归f平均接受率与学费(图)5.4 含虚拟变量的回归模型包含一个定量变量和多个定性变量的回归f 考虑解释变量包含多个定性变量的情形:其中,Y——小时工资;X——受教育年限;D 2——1(女性),0(男性);D 3——1(非白人和非西班牙裔人),0(其他)f 回归结果怎么解释?122334i i iY B B D B D B X u =++++ ()()()()2320.2610 2.3606 1.73270.8028 0.2357 5.4873 2.1803 9.90940.546;528i i i i Y D D X t R n =−−−+=−−−==5.4 含虚拟变量的回归模型包含一个定量变量和多个定性变量的回归f 问题:非白人女性比非白人男性工资低吗?低多少?模型之间的5.4 含虚拟变量的回归模型包含一个定量变量和多个定性变量的回归f 回归结果如下,怎么解释?f -2.3605表示女性的差别,-1.7327表示非白种人的差别。

f (-2.3605-1.7327+2.1289)=-1.9643表示非白种人女性的平均小时工资偏低1.9643美元。

——比较的基准是什么?f非白种人女性比非白种人男性低多少?非白人男性:-2.3605×0-1.7327×1+2.1289×0×1=-1.7327低:-1.9643-(-1.7327)=-0.2361()()()()()232320.2610 2.3606 1.7327 2.12890.8028 0.2357 5.4873 2.1803 1.7420 9.90940.2032;528i i i i i i Y D D D D X t R n =−−−++=−−−==5.4 含虚拟变量的回归模型比较两个回归f 回想食品支出一例:→男女的食品边际消费倾向(即收入5.4 含虚拟变量的回归模型比较两个回归f 模型可能出现的情况:1. 一致回归2. 平行回归(截距不同)3. 并发回归(斜率不同)4. 相异回归(截距、斜率均不同)240,0B B =≠240,0B B ≠≠240,0B B ==240,0B B ≠=1234+i i i i i i Y B B D B X B D X u =+++5.4 含虚拟变量的回归模型比较两个回归5.4 含虚拟变量的回归模型比较两个回归f回归结果:f怎么解释?5.4 含虚拟变量的回归模型虚拟变量在季节分析中的应用f 时间序列往往呈现季节模型,例如夏天对冰淇林的需求,假期对旅游的需求,夏天冬天对空调的需求……f 季节调整的虚拟变量法:怎么设置虚拟变量?1. 定性变量有几个?是什么?2. 该定性变量分几类?3. 因此需要几个虚拟变量?f 21,0,i D ⎧=⎨⎩夏季其它41,0,i D ⎧=⎨⎩冬季其它31,0,i D ⎧=⎨⎩秋季其它1223344+i i i i iY B B D B D B D u =+++模型:。

相关文档
最新文档