模型中的特殊解释变量(虚拟变量)08经济
8-3、模型中的特殊解释变量:虚拟变量

2016/3/29
1
8.3、 虚拟变量(Dummy variables)
8.3.1、.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量 的波动不仅依赖于那种能够很容易按某种尺度定量化的 变量(如收入、产出、价格、身高、体重等),而且依 赖于某些定性的变量(如性别、地区、季节等)。 在经济系统中,许多变动是不能定量的。如政府的更 迭(工党 - 保守党)、经济体制的改革、固定汇率变为 浮动汇率、从战时经济转为和平时期经济等。 这样一些变动都可以用 0-1 变量来表示,用 1 表示具有 某一“品质”或属性,用0表示不具有该“品质”或属 性。这种变量在计量经济学中称为“虚拟变量”。虚拟 变量使得我们可以将那些无法定量化的变量引入回归模 型中。
2016/3/29 2
下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方 法是分别进行两类情况的回归,然后检验参数是否 不同。另一种方法是用全部观测值作单一回归,将 定性因素的影响用虚拟变量引入模型。
女1 0 女2 0 男2 1 女3 0 男3 1 男4 1 女4 0 女5 0
21.2
男5 1
试建立模型研究之。
2016/3/29
9
4、虚拟变量在分段回归中的应用
2016/3/29
虚拟变量在金融和经济中的作用

虚拟变量在金融和经济中的作用摘要在现代经济计量分析中,利用模型进行回归分析是应用比较广泛的一种数量分析技术。
一般回归分析中变量都是定量变量,这是因为模拟回归需要样本数据。
但实际中有时模型仅考虑定量变量是不够的。
因为经济现象不仅受一些定量因素的影响,还可能受到一些定性因素的影响。
比如,不同时期的不同政策、战争、自然灾害等非常时期,人的不同性别、文化程度、婚姻状况等。
如果某一应变量的确存在这种定性影响,那么仅用定量变量对被解释变量进行解释显然是不够的,利用虚拟变量技术可以解决此类问题。
所谓虚拟变量技术就是把定性变量虚拟化,并把它作为解释变量或者是自变量纳入回归模型的一种方法。
在这里,定性变量就是虚拟化的变量,即虚拟变量。
一般可根据定性因素的二分特性进行人工赋值,即0和1,其中“1”表示具备某种属性或受到某种因素影响,而“0”则表示不受某种因素影响或不具备某种属性。
定性变量虚拟化后就可以纳入回归模型,从而进行模拟分析或预测。
一.虚拟变量模型的性质与方法1. 为了区分两个类别,只引入一个虚拟变量Di。
一般规则是:如果一个定性变量有m个属性值,则仅引入m-1个虚拟变量。
2. 虚拟变量0,1值的分配可以是任意的,但解释模型时一定注意1,0是怎样分配的。
3. 被分配0的类别或级别通常被用于比较的基础。
4. 虚拟变量的系数可以称为级差截距系数,表明取值1的类别截距项与基底类的截距项的差距虚拟的通常使用方法是,对一些通常表明“品质”或“属性”是否存在的属性变量,将其量化,给其赋值为“1”或“0”来表示虚拟变量出现某种属性和未出现某种属性。
设某个回归模型含有p个数量变量和一个品质变量,该品质变量可以有k+1个(k≥1)水平,据此,可建立以下回归模型:其中x i,p+1 ,…x i,p+k为k个引入的虚拟变量,并且需要拟合的回归方程为通常情况下,该方程能较好地通过线性性检验,弥补仅用数量变量拟合的不足。
二.虚拟变量的其他使用方法除此之外,虚拟变量也有一些其他的使用方法,例如将虚拟变量出现某种属性赋值为任意常数“a”,未出现某种属性赋值为“0”,并验证这种赋值方式,所得到的参数估计值是赋值“1”或“0”时的1/a,预测结果相一致。
计量经济学第5章 虚拟变量模型

在经济计量模型中除了有量的因素外还有质的因 素,质的因素包括被解释变量为质的因素和解释变量 为质的因素。如果被解释变量为质的因素,主要是逻 辑回归要涉及的内容。本章就解释变量和被解释变量 为质的因素也就是存在虚拟解释变量和虚拟被解释变 量时如何进行参数估计等一系列问题进行讨论。
1
为基础类型截距项。
12
三、虚拟变量的作用 ⑴ 可以描述和测量定性因素的影响。
⑵ 能够正确反映经济变量之间的相互关系,提 高模型的精度。
⑶ 便于处理异常数据。
即将异常数据作为一个特殊的定性因素
1 , 异常时期
D
0
,
正常时期
13
第二节 虚拟解释变量模型
一 、截距变动模型(加法模型)
虚拟变量与其它变量相加,以加法形式引入模
Y i 0 1 D 1 i 2 D 2 i 3 X i u i
Y i ------年支出医疗保健费用支出 X i ------居民年可支配收入
18
1 , 高中
D 1i
0
,
其他
1 , 大学
D 2i
0
,
其他
于是:小学教育程度:
E (Y i X i,D 1 i 0 ,D 2 i 0 )03 X i
7
二、虚拟变量的设置规则
虚拟解释变量模型的设定因为质的因素的多少 和这些因素特征的多少而引入的虚拟变量也会不同。
以一个最简单的虚拟变量模型为例,如果只包 含一个质的因素,而且这个因素仅有两个特征,则 回归模型中只需引入一个虚拟变量。如果是含有多 个质的因素, 自然要引入多个虚拟变量。
8
如果只有一个质的因素,且该质的因素具有 m 个 相互排斥的特征(或类型、属性),那么在含有截距 项的模型中,只能引入 m-1 个虚拟变量,否则会陷入 所谓“虚拟变量陷阱”(dummy variable trap),产 生 完全的多重共线性,会使最小二乘法无解;在不含有 截距项的模型中, 引入 m 个虚拟变量不会导致完全 的多重共线性,不过这时虚拟变量参数的估计结果, 实际上是 D = 1 时的样本均值。
模型中的特殊解释变量虚拟变量经济

由于D2,D3的系数没有显著性,说明第二、三季度可以归并入基础类别 第一季度。于是只考虑加入一个虚拟变量D1,把季节因素分为第四季度 和第一、二、三季度两类。从上式中剔除虚拟变量D2,D3,得煤销售量 (Yi)模型如下:
Yˆi = 2515.86 + 49.73 t + 1290.91 D1
(32.03
以时间 t 为解释变量(1982年1季度取t = 1)的煤销售量(Yi)模型估计结 果如下:
Yˆi = 2431.20 + 49.00 t + 1388.09 D1 + 201.84 D2 + 85.00 D3
(26.04) (10.81) (13.43)
(1.96)
(0.83)
R2 = 0.95, DW = 1.2, F=100.4, T=28, t0.05 (28-5) = 2.07
1990~2019年香港季度GDP呈线性增长。2019年由于遭受东南亚金融危机
的影响,经济发展处于停滞状态,2019~2019年底GDP总量几乎没有增长
(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简
单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,
定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下,
欢迎
文末有福利
8.3 虚拟变量(重点掌握)
许多经济变量是可以定量度量的,如:商品需求量、 价格、收入、产量等。但也有一些影响经济变量的 因素无法定量度量,如:职业、性别对收入的影响; 战争、自然灾害对GDP的影响;季节对某些产品 (如冷饮)销售的影响等等。
为了在模型中能够反映这些因素的影响,并提高模 型的精度,需要将它们“量化”。
计量经济学课后习题答案第八章_答案

第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
第五章虚拟变量-第八章虚拟变量

说明虚拟解释变量 D1,D2,D3,D4 存在完全的多重共线性 从而无法用普通最小二乘法进行估计。 反映季节因素的商品需求模型为:
Yt 0 1 X 1t 2 X 2t 3 D1t 4 D2t 5 D3t t
例3、由经济实际得知,出口消费品数量Y 主要取决于国民支出X,我国革新开放前 后出口消费品的数量发作清楚变化,以 1979年为转机期,树立出口消费品需求 模型,并反映这种变化。
Yt 0 1 X i i
式中,Y 是职工工资收入;X 是工龄 考虑职工收入受教育程度的影响而引入合适的虚拟 变量,对上述模型加以改进。
解:教育程度一般分为:高中以下,高中,大学及以上(包括大专) 这样教育程度有三个特征,故引入两个虚拟变量,并设教育程度的 改变,只影响截距的变动。
D1=
1, 0,
Yt 0 1 X t t
1979 年以后,Dt 为 1, 模型为
Yt
0
2X
* t
1 2 X t t
第5章习题
一、单项选择题 1、假设一个回归模型中不包括截距项,对一个
具有m个特征的质的要素需求引入的虚拟变量 的个数为: A、m B、m-1 C、m-2 D、m+1
2、设团体消费函数Yi=c0+c1Xi+ui中,消费支出Y不只 与支出X有关,而且与消费者的性别、年龄构成有关, 年龄构成可分为青年、中年和老年三个层次,假定边 沿消费倾向不变,那么思索上述要素的影响,该函数 引入虚拟变量的个数为:
的需求模型为: Yt 0 1 X 1t 2 X 2t t
式中,Y 是商品的需求量,X1 是价格,X2 时收入, 为了反映四个季节对商品需求量的影响,假定引入四个虚拟变量:
第8章 虚拟变量模型

效应。
8.1.3 虚拟变量作为因变量的情况
1、因变量为虚拟变量的回归模型
• 虚拟变量作为因变量的模型也称定性响应模型,既可 以包括二值变量模型(也称二分选择模型),也包括 多分选择模型。我们重点讨论二值变量模型。
• 模型举例: 一个大学毕业生是否会被一个不错的MBA项目录取, 取决于其学习成绩、GMAT分数和其它因素。 一位成年男子是否就业取决于总体失业率、平均工资 率、受教育程度和家庭收入等因素。
其中:
1
yi
{ 0
已购买汽车 未购买汽车
且假定E(ui ) 0
1.2 Y
1.0
0.8
0.6
0.4
0.2
0.0 X
-0.2 280 300 320 340 360 380 400 420
对于给定的xi ,E(yi / xi ) 0 1xi
设pi表示yi 1的概率,则1 pi表示yi 0的概率 E(yi / xi ) pi 1 (1 pi) 0 pi 可见,该模型描述了随着收入的变动, 第i个家庭 购买汽车的概率变动情况。
b0 + b1xt + ut , (D = 0)
Y
yt =
b0 + (b1 + b2) xt + ut , (D = 1)
男
女
t
0
3、一般方式
直接以加法和乘法方式引入虚拟变量。 可建立如下模型:
yt = b0 + b1 xt + b2 D + b3 xt D + ut ,
其中 xt 为定量变量;D 为定性变量。当 D = 0 或 1 时,上述模
yt =
第八章 虚拟变量模型

• 例如,以1978-2009年的数据为样本,以GDP 作为解释变量,建立居民消费函数。根据分析, 1992年前后,自发消费和消费率都可能发生变 化。
1 Dt 0 92年前 92年及以后
Ct 0 1GDP t 2 Dt 3 ( Dt GDP t ) t t 1978 ,,2009
1 Di 0 农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
E(Ci | X i , Di 1) 0 (1 2 ) X i E(Ci | X i , Di 0) 0 1 X i
农村居民: 城镇居民:
• 例如,根据消费理论,收入决定消费。但是, 在自然灾害、战争等反常年份,消费倾向往往 发生变化。这种消费倾向的变化可通过在消费 函数中引入虚拟变量来考察。
Yi 0 1 X i 3 Di 4 ( Di X i ) i
1 农村居民 Di 0 城镇居民
• 估计得到
ˆ 450.33 0.6920X 271.14D 0.0275 Y Di X i i i i
由变量显著性检验得到:2007年农村居民与城 镇居民的边际消费倾向并无显著差异,他们有 着共同的消费函数。
如果设置第4个虚变量,则出现“虚拟变量陷井” (Dummy Variable Trap),为什么?
• 包含季节变量的正确模型:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t t Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t 4 D4t t
通过统计检验,判断两个时期中消费函数的截 距和斜率是否发生变化。