第八章虚拟变量模型

合集下载

8-3、模型中的特殊解释变量:虚拟变量

8-3、模型中的特殊解释变量:虚拟变量
第8章 模型中的特殊解释变量 ——虚拟变量
2016/3/29
1
8.3、 虚拟变量(Dummy variables)
8.3.1、.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量 的波动不仅依赖于那种能够很容易按某种尺度定量化的 变量(如收入、产出、价格、身高、体重等),而且依 赖于某些定性的变量(如性别、地区、季节等)。 在经济系统中,许多变动是不能定量的。如政府的更 迭(工党 - 保守党)、经济体制的改革、固定汇率变为 浮动汇率、从战时经济转为和平时期经济等。 这样一些变动都可以用 0-1 变量来表示,用 1 表示具有 某一“品质”或属性,用0表示不具有该“品质”或属 性。这种变量在计量经济学中称为“虚拟变量”。虚拟 变量使得我们可以将那些无法定量化的变量引入回归模 型中。
2016/3/29 2
下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方 法是分别进行两类情况的回归,然后检验参数是否 不同。另一种方法是用全部观测值作单一回归,将 定性因素的影响用虚拟变量引入模型。
女1 0 女2 0 男2 1 女3 0 男3 1 男4 1 女4 0 女5 0
21.2
男5 1
试建立模型研究之。
2016/3/29
9
4、虚拟变量在分段回归中的应用
2016/3/29

【西南财大课件计量经济学】jljj8章

【西南财大课件计量经济学】jljj8章

高于X * : Yˆt (ˆ0 ˆ2 X * ) (ˆ1 ˆ2)X t
ˆ1是销售低于X(* 第一段回归直线)的斜率; (ˆ1 ˆ2)是销售高于X(* 第二段回归直线)的斜率; 只要检验2的统计显著性,则可以判断在X *是否存在突变。
案例
例1:美国1940一1950年可支配收入和消费支出的数据资料:
第八章 虚拟变量的模型 第一节 虚拟变量
一、虚拟变量的基本概念
前面讨论的数量因素(变量)可以直接度量,但质的因素(如:性别、职业、 文化程度、所有制形式等定性因素)不能直接度量。
为了在模型中反映这些属性因素的影响,以提高模型的精度,须将其“量化”
虚拟变量:取值为0、1的人工(特殊)变量(记为D) 。
2、虚拟变量取“0”或“1”应从分析问题的目的出发予以界 定(多以“0”代表基础类);
3、虚拟变量在单一方程中,可以作为解释变量,也可以作为
被解释变量。
三、模型中引入虚拟变量的作用 1、分离异常因素的影响
如观察我国社会总产值的时间趋势,须考虑三年自然灾害这一特殊因素的影响
2、检验不同属性类型对因变量的作用;
(-0.33) (10.957) (-9.254)
F 84.282 R2 0.955
冬季、农村居民 Yi 0 X i i
(比较的基础 — 冬季、农村)
20 15 10 5 0
1234567
(二)一个定量变量X、多个虚拟变量(定性变量)的模型
Yt 0 1D1t D2t Dkt X t ut
例 我国有56个民族,引入虚拟变量: D1—D55(以汉族为基础)
藏族:(1,0,0,…,0) 彝族:(0,1,0,…,0) … 汉族:(0,0,0,…,0)
变量)。

第八章 虚拟变量

第八章 虚拟变量

Company Logo
9
一、为什么引入虚拟变量
(2)把虚拟变量取值为0所对应的类别称作基础类别。
例如:按上面对“学历”的赋值方法,“无学历”为 基础类别。
(3)当定性变量含有m个类别时,不能把虚拟变量的值 设成如下形式:
0 (第一个类别)
D
1
(第二个类别)
m 1 (第m个类别)
这种赋值法在一 般情形下与虚拟变 量赋值是完全不同 的两回事。
(因为D不能作为Eviews的用户变量名,所以取D1)
Company Logo
28
三、测量斜率变动
Company Logo
29
三、测量斜率变动
trade 0.2818 0.0746time 35.8809D 1.2559timeD
(1.35) (6.2)
(8.4)
(9.6)
还有虚拟变量的两项都是显著的,所以
Company Logo
10
一、为什么引入虚拟变量
(4)回归模型可以只用虚拟变量作解释变量,也可以 用定量变量和虚拟变量一起作解释变量。
Company Logo
11
二、用虚拟变量测量截距变动
❖ 下面给出的模型都属于测量截距变动的模型。
中使用虚拟变量时,回归函数就不再是连续 的了,分段线性回归可以既使用虚拟变量描述出模型 结构变化,又可以使回归函数保持连续,其中每一段 都是线性的。
Company Logo
31
四、分段线性回归
❖ 考虑下面的模型
Yt 0 1X t 2 ( X t X b1)D1 ut
其中Xb1表示结构发生变化的t=b1时刻的Xt的值。
Company Logo
4
一、为什么引入虚拟变量

spss第八章虚拟变量

spss第八章虚拟变量

10
模型中引入虚拟变量的作用
1、分离异常因素的影响,例如分析我国 GDP的时间序列,必须考虑“文革”因素 对国民经济的破坏性影响,剔除不可比 的“文革”因素。 2、检验不同属性类型对因变量的作用, 例如工资模型中的文化程度、季节对销 售额的影响。 3、提高模型的精度,相当与将不同属性 的样本合并,扩大了样本容量(增加了 12 误差自由度,从而降低了误差方差)。
虚拟变量在模型中,可以作解释变量,也 可以作因变量。 虚拟变量作解释变量时出现在方程的右端 虚拟变量作因变量(被解释变量)时出现 在方程的左端
9
虚拟变量模型
引入虚拟变量后,回归方程中同时含有一 般解释变量和虚拟变量,称这种结构的模 型为虚拟变量模型或斜方差分析模型。 在第8章(本章)中讨论虚拟自变量模型 在第14章(虚拟因变量)中讨论虚拟因变 量。虚拟变量作因变量又称抉择模型。
虚拟变量设置的原则
在模型中引入多个虚拟变量时,虚拟变量 的个数应按下列原则确定: 如果有 m 种互斥的属性类型,在模型中引 入 m-1 个虚拟变量 例如,性别有2个互斥的属性,引用2-1=1个 虚拟变量 再如,文化程度分小学、初中、高中、大 学、研究生5类,引用4个虚拟变量
13
虚拟变量是一用以反映质的属性的一个人 工变量,通常记为D(Dummy)。 虚拟变量D只取0或1两个值 对基础类型或肯定类型设D=1 对比较类型或否定类型设D=0
7
虚拟变量举例
D= D= 1 0 0 1 本科学历 非本科学历 “文革”时期 非“文革”时期
8
虚拟变量的引入
模型中引入虚拟变量的必要性
现实经济生活错综复杂,往往要求人们按 照经济变量的质或量的不同,分别进行处 理。因此,回归模型中,往往有必要引入 虚拟变量,以表示这些质的区别。例如, 消费函数,对于平时与战时,萧条与繁荣, 乃至性别、教育程度、季节性等等,都会 因质的有不同表现出不同的差异。6虚拟变量的定义

第八章 虚拟变量模型分析

第八章 虚拟变量模型分析

◆某旅行社为了提高旅游业务 收入,希望通过建立个人旅游 支出模型,找出影响个人旅游 支出的关键因素,从而作出针 对性的旅游宣传。 根据实际经济理论,个人的旅 游支出往往与个人的收入、职 业、受教育程度、性别等有密 切关系,其中职业、教育、性 别因素不是我们前面章节常用 的定量变量,而是定性变量。 职业有教师、工程师、银行职 员等,教育程度可以分为大学 教育和非大学教育,同样性别 因素可以考虑是男是女。将这 样的定性变量作为自变量考虑 进旅游支出模型,模型如何建 立?有怎样的结果和意义?
E Yi | D1i 1 E 0 1 g 1 i 0 1
从上述的结果可以得知,模型截距 0 表示未
3、根据income变量构造虚拟变量d2,用1表示月收入 大于等于10000元的高收入者,0表示月收入小于10000 元的中低收入者。在命令窗口中输入:series d2=(sex="male"),点击回车键,得到虚拟变量d1。
二、虚拟变量作为自变量

在实际经济模型中,因变量不仅会受到定量变 量的影响,同时也会受到定性变量的影响。如个人 的月支出水平往往受到月收入、性别、职业、婚姻 状况等因素的影响,其中月收入为定量变量,性别、 职业、婚姻状况为定性变量。可见这些定性变量也 是影响因变量的重要因素,所以我们有必要将其量 化成虚拟变量后加入到模型中。在回归分析模型中, 我们假设模型自变量为非随机变量。而虚拟变量的 取值为0、1,说明虚拟变量是非随机变量。因此, 对于自变量中含有一个或多个虚拟变量的回归模型, 回归系数的普通最小二乘估计法以及模型检验方法 同样适用。
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样 可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。

第8章 虚拟变量模型

第8章 虚拟变量模型
设,则可以得出结论,上海股票市场不存在周内
效应。
8.1.3 虚拟变量作为因变量的情况
1、因变量为虚拟变量的回归模型
• 虚拟变量作为因变量的模型也称定性响应模型,既可 以包括二值变量模型(也称二分选择模型),也包括 多分选择模型。我们重点讨论二值变量模型。
• 模型举例: 一个大学毕业生是否会被一个不错的MBA项目录取, 取决于其学习成绩、GMAT分数和其它因素。 一位成年男子是否就业取决于总体失业率、平均工资 率、受教育程度和家庭收入等因素。
其中:
1
yi
{ 0
已购买汽车 未购买汽车
且假定E(ui ) 0
1.2 Y
1.0
0.8
0.6
0.4
0.2
0.0 X
-0.2 280 300 320 340 360 380 400 420
对于给定的xi ,E(yi / xi ) 0 1xi
设pi表示yi 1的概率,则1 pi表示yi 0的概率 E(yi / xi ) pi 1 (1 pi) 0 pi 可见,该模型描述了随着收入的变动, 第i个家庭 购买汽车的概率变动情况。
b0 + b1xt + ut , (D = 0)
Y
yt =
b0 + (b1 + b2) xt + ut , (D = 1)


t
0
3、一般方式
直接以加法和乘法方式引入虚拟变量。 可建立如下模型:
yt = b0 + b1 xt + b2 D + b3 xt D + ut ,
其中 xt 为定量变量;D 为定性变量。当 D = 0 或 1 时,上述模
yt =

第八章 虚拟变量模型

第八章  虚拟变量模型

• 例如,以1978-2009年的数据为样本,以GDP 作为解释变量,建立居民消费函数。根据分析, 1992年前后,自发消费和消费率都可能发生变 化。
1 Dt 0 92年前 92年及以后
Ct 0 1GDP t 2 Dt 3 ( Dt GDP t ) t t 1978 ,,2009
1 Di 0 农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
E(Ci | X i , Di 1) 0 (1 2 ) X i E(Ci | X i , Di 0) 0 1 X i
农村居民: 城镇居民:
• 例如,根据消费理论,收入决定消费。但是, 在自然灾害、战争等反常年份,消费倾向往往 发生变化。这种消费倾向的变化可通过在消费 函数中引入虚拟变量来考察。
Yi 0 1 X i 3 Di 4 ( Di X i ) i
1 农村居民 Di 0 城镇居民
• 估计得到
ˆ 450.33 0.6920X 271.14D 0.0275 Y Di X i i i i
由变量显著性检验得到:2007年农村居民与城 镇居民的边际消费倾向并无显著差异,他们有 着共同的消费函数。
如果设置第4个虚变量,则出现“虚拟变量陷井” (Dummy Variable Trap),为什么?
• 包含季节变量的正确模型:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t t Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t 4 D4t t
通过统计检验,判断两个时期中消费函数的截 距和斜率是否发生变化。

9第八章 虚拟变量回归模型

9第八章 虚拟变量回归模型
说明 X i 变动一个单位,机会比率对数平均变化 2 个单位,
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

三、虚拟变量的特殊应用
1.调整季节波动 例如,用季度数据分析某公司利润y与销售 收入x之间的相互关系时,为研究四个季度的季 节性影响,引入三个虚拟变量(设第1季度为基 础类型): 第i+1季度 i=1,2,3 1
其他季度 利润函数可取为 : Yi=a+bxi+ α 1D1i+ α 2D2i + α 3D3i + ε
1 D 0
中高收入家庭 低收入家庭
将我国城镇居民的彩电需求函数设成: Yi=a+bxi+α Di+β XDi+ε i DATA D1 (由于D是EViews软件的保留字,所以将虚拟变量取 名为D1;另外,此时也可以用SMPL和GENR命令直 接生成D1变量) GENR XD=X*D1 生成变量XD LS Y C X D1 XD 估计需求函数 结果如下图所示:
(3)一般方式 同时用加法与乘法方式引入虚拟变量,然后再利 用t检验判断α 、β 是否显著的不等于零,进而确 定虚拟变量的具体引入方式。 【例7】教材P126表3-8列出了1998年我国城镇居民 人均收入与彩电每百户拥有量的统计资料。
观察相关图
操作演示
从相关图可以看出, 前3 个样本点与后 5 个样 本点存在较大差异,因 此,可设置虚拟变量反 映“收入层次”:
1 D1 0
农村居民 城镇居民
1 D2 0
高收入家庭 低收入家庭
这样可以反映各类居民家庭的住房消费情况: 城市低收入家庭 城市高收入家庭 农村低收入家庭 农村高收入家庭 (D1=0,D2=0) (D1=0,D2=1) (D1=1,D2=0) (D1=1,D2=1)
思考:若是多因素、多个属性水平的问题,如何设置?
2.作用
⑴可以描述和测量定性因素的影响。
⑵能够正确反映经济变量之间的相互关系,提高模 型的精度。 ⑶便于处理异常数据。 即将异常数据作为一个特殊的定性因素
1 D 0
异常时期 正常时期
二、虚拟变量的设定
1.虚拟变量的引入方式 (1)加法方式 Yi=a+bxi+α Di+ε i a+α 等价为: 当Di =0时:Yi=a+bxi+ε i a 当Di =1时:Yi=(a+α )+bxi+ε i
三类年薪函数的差异情况如下图所专以下 工龄
设置虚拟变量D或增设D3行吗? D=
2 1 0 博士研究生
1 硕士研究生 D2 0 本科及以下
研究生
其他
(2)多个因素各两种类型 如果有m个定性因素,且每个因素各有两个不 同的属性类型,则引入 m 个虚拟变量。 例如,研究居民住房消费函数时,考虑到城乡 的差异以及不同收入层次的影响,将消费函数取成: yi=a+bxi+α 1D1i+α 2D2i +ε i 其中y ,x分别是居民住房消费支出和可支配收 入,虚拟变量设为:
为比较两年的消费函数是否有显著差异,设置虚拟 变量: 1 1999年
D 0
1998年
并且合并两年的数据,估计以下模型: Yi= a1 +b1xi+α Di+β XDi +ε i 其中α =a2-a1 ,β =b2-b1。
使用EViews软件的估计过程如下: CREATE U 16 建立工作文件 DATA Y X (输入1998、1999年消费支出和收入的数据,1~8期 为1998年资料,9~16期为1999年资料) SMPL 1 8 样本期调为1998年
1 D1 0
本科 其他
1 D2 0
研究生 其他
而将年薪模型取成(假设以加法方式引入):
Yi=a+bxi+α 1D1i+α 2D2i +ε 其等价于:
i
Yi=a+bxi+ε i Yi=(a+α 1)+ bxi+ε Yi=(a+α 2)+ bxi+ε
i i
大专以下(D1=D2=0) 本科(D1=1,D2=0) 研究生(D1=0,D2=1)
i
第(1)种情况下模型结构是稳定的, 利用t检验判断D、XD系数的显著性,得到四种 其余情况都表明模型结构不稳定。 重合回归检验结果: (1)a2=a1,b2=b1,两个回归模型没有显著差异。 (2)a2≠a1 ,b2=b1 ,两个回归模型之间的差异仅仅 平行回归 表现在截距上。 (3)a2=a1 ,b2≠b1 ,两个回归模型的截距相同,但 汇合回归 斜率存在显著差异。 (4)a2≠a1,b2≠b1,表明两个回归模型完全不同。 相异回归
Di 0
i
2.检验模型结构的稳定性 设根据两个样本估计的回归模型分别为: 样本1: Yi=a1+b1xi +ε i 样本2: Yi=a2+b2xi +ε i 1 样本2 设置虚拟变量: D 0 样本1
估计模型:Yi=a1+b1xi+(a2-a1)Di+(b2-b1)XDi+ε 其中,XDi=xi*Di。
D=1 α D=0
以加法方式引入,反映定性因素对截距的影响
(2)乘法方式
Yi=a+bxi+β XDi+ε i 其中:XDi=Xi*Di, 上式等价于: a 当Di =0时:Yi=a+bxi+ε i 当Di =1时:Yi=a+(b+β )xi+ε
D=1
β
D=0
i
以乘法方式引入,可反映定性因素对斜率的影 响,系数β描述了定性因素的影响程度。
3.分段回归
1 设虚拟变量为: D 0
x>x* x<x*
分段回归模型设置成: Yi= a+bxi+β (xi-x*)Di+ε i 其中,x*是已知的临界水平(分段点)。 这样各段的函数为: Yi= a +bxi+ε i x<x* Yi= (a-β )+(b+β )xi+ε i x>x*
课外练习

1.简述虚拟变量的引入方式及其影响。 2.设置虚拟变量时应遵守哪些原则? 3.虚拟变量有哪些特殊应用。 4.教材P187第18-21题
参考文献





1.张晓峒.计量经济学软件EViews使用指南.南开 大学出版社,2004 2.庞皓.计量经济学.科学出版社,2005 3.J.M.伍德里奇.计量经济学导论.中国人民 大学出版社,2003 4.古扎拉蒂.计量经济学基础(第四版).林少宫 译.中国人民大学出版社,2006 5.易丹辉.数据分析与EViews应用,中国统计出 版社,2002 6.高铁梅.计量经济分析方法与建模——EViews 应用及实例,清华大学出版社,2006
对应的t统 计量值
R2的值
调整的R2值 SE的值
我国城镇居民彩电需求函数的估计结果为: ˆ yi 57.61 0.0119 xi 31.8731Di 0.0088 XDi 结果表明不同收入家庭对彩电的消费需求,在 截距和斜率上都存在着明显差异。
低收入家庭: ˆ yi (57.61 31.8731) (0.0119 0.0088) xi
第七章 虚拟变量
【教学目的及要求】 一、虚拟变量及其作用 二、虚拟变量的设定 三、虚拟变量的特殊应用 四、虚拟被解释变量 课外练习 参考文献
教学目的及要求
了解虚拟变量的意义和作用,掌握虚拟解释 变量的引入方式与设置原则,掌握EViews软 件的相关应用。 掌握虚拟解释变量在调整季节波动、检验模 型的稳定性、分段回归和混合回归等方面的 特殊应用。 了解线性概率模型、Logit模型和Probit模型 的基本思想和估计方法。
GENR SMPL GENR D1=0 9 16 D1=1 输入虚拟变量的值 样本期调为1999年 输入虚拟变量的值
SMPL 1 16 GENR XD=X*D1 LS Y C X D1 XD 估计结果为: 操作演示
t统计量
样本期调至1998~1999年 生成XD的值 利用混合样本估计模型
R2的值
调整的R2值

一、虚拟变量(dummy)及其作用
1.定义
反映品质指标变化、数值只取0和1的人工变量, 用符号D来表示。 1 城镇居民 1 销售旺季 如: D D 0 农村居民 0 销售淡季
1 D 0
政策紧缩
政策宽松
1 D 0
本科以上学历
本科以下学历
变量的划分应遵循穷举与互斥原则。
使用虚拟变量能如 实描述不同阶段的 经济关系,又未减 少估计模型时样本 容量,保证了估计 精度。
4.混合回归 能否将变量的时序数据和横截面数据混合建模 【例8】教材P143表3-9为我国城镇居民1998年、1999 年全年人均消费支出和可支配收入的统计资料。试 使用混合样本数据估计我国城镇居民消费函数。 设1998年、1999年我国城镇居民消费函数分别为: 1998年:Yi=a1+b1xi +ε i 1999年:Yi=a2+b2xi +ε i
ˆ yi 57.61 0.0119 xi 中高收入家庭: 89.48 0.003xi 此例说明了三个问题: ①如何设置和在模型中引入虚拟变量; ②如何测量定性因素(即收入层次)的影响; ③如何区分不同类型的模型(即需求函数)。
2.虚拟变量的设置原则
⑴ 一个因素多个类型 对于有m个不同属性的定性因素,应该设置m-1个 虚拟变量来反映该因素的影响。 例如,设公司职员的年薪与工龄和学历有关。 学历分成三种:大专以下、本科、研究生。为反映 “学历” 的影响,应该设置两个虚拟变量:
相关文档
最新文档