第八章虚拟变量的建模

合集下载

8-3、模型中的特殊解释变量:虚拟变量

8-3、模型中的特殊解释变量:虚拟变量
第8章 模型中的特殊解释变量 ——虚拟变量
2016/3/29
1
8.3、 虚拟变量(Dummy variables)
8.3.1、.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量 的波动不仅依赖于那种能够很容易按某种尺度定量化的 变量(如收入、产出、价格、身高、体重等),而且依 赖于某些定性的变量(如性别、地区、季节等)。 在经济系统中,许多变动是不能定量的。如政府的更 迭(工党 - 保守党)、经济体制的改革、固定汇率变为 浮动汇率、从战时经济转为和平时期经济等。 这样一些变动都可以用 0-1 变量来表示,用 1 表示具有 某一“品质”或属性,用0表示不具有该“品质”或属 性。这种变量在计量经济学中称为“虚拟变量”。虚拟 变量使得我们可以将那些无法定量化的变量引入回归模 型中。
2016/3/29 2
下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方 法是分别进行两类情况的回归,然后检验参数是否 不同。另一种方法是用全部观测值作单一回归,将 定性因素的影响用虚拟变量引入模型。
女1 0 女2 0 男2 1 女3 0 男3 1 男4 1 女4 0 女5 0
21.2
男5 1
试建立模型研究之。
2016/3/29
9
4、虚拟变量在分段回归中的应用
2016/3/29

【西南财大课件计量经济学】jljj8章

【西南财大课件计量经济学】jljj8章

高于X * : Yˆt (ˆ0 ˆ2 X * ) (ˆ1 ˆ2)X t
ˆ1是销售低于X(* 第一段回归直线)的斜率; (ˆ1 ˆ2)是销售高于X(* 第二段回归直线)的斜率; 只要检验2的统计显著性,则可以判断在X *是否存在突变。
案例
例1:美国1940一1950年可支配收入和消费支出的数据资料:
第八章 虚拟变量的模型 第一节 虚拟变量
一、虚拟变量的基本概念
前面讨论的数量因素(变量)可以直接度量,但质的因素(如:性别、职业、 文化程度、所有制形式等定性因素)不能直接度量。
为了在模型中反映这些属性因素的影响,以提高模型的精度,须将其“量化”
虚拟变量:取值为0、1的人工(特殊)变量(记为D) 。
2、虚拟变量取“0”或“1”应从分析问题的目的出发予以界 定(多以“0”代表基础类);
3、虚拟变量在单一方程中,可以作为解释变量,也可以作为
被解释变量。
三、模型中引入虚拟变量的作用 1、分离异常因素的影响
如观察我国社会总产值的时间趋势,须考虑三年自然灾害这一特殊因素的影响
2、检验不同属性类型对因变量的作用;
(-0.33) (10.957) (-9.254)
F 84.282 R2 0.955
冬季、农村居民 Yi 0 X i i
(比较的基础 — 冬季、农村)
20 15 10 5 0
1234567
(二)一个定量变量X、多个虚拟变量(定性变量)的模型
Yt 0 1D1t D2t Dkt X t ut
例 我国有56个民族,引入虚拟变量: D1—D55(以汉族为基础)
藏族:(1,0,0,…,0) 彝族:(0,1,0,…,0) … 汉族:(0,0,0,…,0)
变量)。

第八章 虚拟变量模型

第八章  虚拟变量模型

正常年份 反常年份
Ct = β 0 + β1 X t + β 2 Dt X t + µt
(8-4) )
这里, 相乘的方式引入了模型中, 这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中,从而可用来 考察消费倾向的变化。 考察消费倾向的变化。
的假定下, 在E(µt)=0的假定下,上述模型所表示的函数可化为 的假定下 上述模型所表示的函数可化为: 正常年份: 正常年份:
例如: 例如:
在截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。 在截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。 个人保健支出对个人收入和教育水平的回归 教育水平考虑三个层次:高中以下,高中,大学及其以上 教育水平考虑三个层次:高中以下,高中, 这时需要引入两个虚拟变量: 这时需要引入两个虚拟变量: 1 0 高中 其它 D2= 1 0 大学及其以上 其它
例如: 例如:
对于改革开放前后储蓄-收入模型, 对于改革开放前后储蓄 收入模型,可设定为 收入模型
Yt = α 0 + α1 Dt + β1 X t + β 2 ( Dt X t ) + µt
其中, 为储蓄 为储蓄, 为收入 为收入, 其中,Y为储蓄,X为收入,Dt为虚拟变量 1 0 改革开放以后 改革开放以前
Y 改革开放以后 改革开放以前
假定 α1 > 0且 β 2 > 0, , 则其几何图形如图8 所示。 则其几何图形如图8-4所示。
X 图8-4 改革开放前后储蓄函数示意图
3.临界指标的虚拟变量的引入
在经济发生转折时,可通过建立临界指标的虚拟变量模型来反映。 在经济发生转折时,可通过建立临界指标的虚拟变量模型来反映。

spss第八章虚拟变量

spss第八章虚拟变量

10
模型中引入虚拟变量的作用
1、分离异常因素的影响,例如分析我国 GDP的时间序列,必须考虑“文革”因素 对国民经济的破坏性影响,剔除不可比 的“文革”因素。 2、检验不同属性类型对因变量的作用, 例如工资模型中的文化程度、季节对销 售额的影响。 3、提高模型的精度,相当与将不同属性 的样本合并,扩大了样本容量(增加了 12 误差自由度,从而降低了误差方差)。
虚拟变量在模型中,可以作解释变量,也 可以作因变量。 虚拟变量作解释变量时出现在方程的右端 虚拟变量作因变量(被解释变量)时出现 在方程的左端
9
虚拟变量模型
引入虚拟变量后,回归方程中同时含有一 般解释变量和虚拟变量,称这种结构的模 型为虚拟变量模型或斜方差分析模型。 在第8章(本章)中讨论虚拟自变量模型 在第14章(虚拟因变量)中讨论虚拟因变 量。虚拟变量作因变量又称抉择模型。
虚拟变量设置的原则
在模型中引入多个虚拟变量时,虚拟变量 的个数应按下列原则确定: 如果有 m 种互斥的属性类型,在模型中引 入 m-1 个虚拟变量 例如,性别有2个互斥的属性,引用2-1=1个 虚拟变量 再如,文化程度分小学、初中、高中、大 学、研究生5类,引用4个虚拟变量
13
虚拟变量是一用以反映质的属性的一个人 工变量,通常记为D(Dummy)。 虚拟变量D只取0或1两个值 对基础类型或肯定类型设D=1 对比较类型或否定类型设D=0
7
虚拟变量举例
D= D= 1 0 0 1 本科学历 非本科学历 “文革”时期 非“文革”时期
8
虚拟变量的引入
模型中引入虚拟变量的必要性
现实经济生活错综复杂,往往要求人们按 照经济变量的质或量的不同,分别进行处 理。因此,回归模型中,往往有必要引入 虚拟变量,以表示这些质的区别。例如, 消费函数,对于平时与战时,萧条与繁荣, 乃至性别、教育程度、季节性等等,都会 因质的有不同表现出不同的差异。6虚拟变量的定义

第八章 虚拟变量模型分析

第八章 虚拟变量模型分析

◆某旅行社为了提高旅游业务 收入,希望通过建立个人旅游 支出模型,找出影响个人旅游 支出的关键因素,从而作出针 对性的旅游宣传。 根据实际经济理论,个人的旅 游支出往往与个人的收入、职 业、受教育程度、性别等有密 切关系,其中职业、教育、性 别因素不是我们前面章节常用 的定量变量,而是定性变量。 职业有教师、工程师、银行职 员等,教育程度可以分为大学 教育和非大学教育,同样性别 因素可以考虑是男是女。将这 样的定性变量作为自变量考虑 进旅游支出模型,模型如何建 立?有怎样的结果和意义?
E Yi | D1i 1 E 0 1 g 1 i 0 1
从上述的结果可以得知,模型截距 0 表示未
3、根据income变量构造虚拟变量d2,用1表示月收入 大于等于10000元的高收入者,0表示月收入小于10000 元的中低收入者。在命令窗口中输入:series d2=(sex="male"),点击回车键,得到虚拟变量d1。
二、虚拟变量作为自变量

在实际经济模型中,因变量不仅会受到定量变 量的影响,同时也会受到定性变量的影响。如个人 的月支出水平往往受到月收入、性别、职业、婚姻 状况等因素的影响,其中月收入为定量变量,性别、 职业、婚姻状况为定性变量。可见这些定性变量也 是影响因变量的重要因素,所以我们有必要将其量 化成虚拟变量后加入到模型中。在回归分析模型中, 我们假设模型自变量为非随机变量。而虚拟变量的 取值为0、1,说明虚拟变量是非随机变量。因此, 对于自变量中含有一个或多个虚拟变量的回归模型, 回归系数的普通最小二乘估计法以及模型检验方法 同样适用。
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样 可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。

第八章 虚拟变量模型

第八章  虚拟变量模型

• 例如,以1978-2009年的数据为样本,以GDP 作为解释变量,建立居民消费函数。根据分析, 1992年前后,自发消费和消费率都可能发生变 化。
1 Dt 0 92年前 92年及以后
Ct 0 1GDP t 2 Dt 3 ( Dt GDP t ) t t 1978 ,,2009
1 Di 0 农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
E(Ci | X i , Di 1) 0 (1 2 ) X i E(Ci | X i , Di 0) 0 1 X i
农村居民: 城镇居民:
• 例如,根据消费理论,收入决定消费。但是, 在自然灾害、战争等反常年份,消费倾向往往 发生变化。这种消费倾向的变化可通过在消费 函数中引入虚拟变量来考察。
Yi 0 1 X i 3 Di 4 ( Di X i ) i
1 农村居民 Di 0 城镇居民
• 估计得到
ˆ 450.33 0.6920X 271.14D 0.0275 Y Di X i i i i
由变量显著性检验得到:2007年农村居民与城 镇居民的边际消费倾向并无显著差异,他们有 着共同的消费函数。
如果设置第4个虚变量,则出现“虚拟变量陷井” (Dummy Variable Trap),为什么?
• 包含季节变量的正确模型:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t t Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t 4 D4t t
通过统计检验,判断两个时期中消费函数的截 距和斜率是否发生变化。

虚拟变量

虚拟变量
1.若定性因素具有 m(m≥2) 个相互排 斥属性(或几个水平),当回归模型有截距项 时,只能引入m个虚拟变量;
2.当回归模型无截距项时,则可引入m个虚 拟变量;否则,就会陷入“虚拟变量陷阱”。
例 (虚拟变量陷阱) 研究居民D住1i =房1 消费支出 Yi 和居民可支
配收入xi 之间的数量关系。回归
上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总 额的年平均增长量扩大了18倍。
三、虚拟解释变量综合应用
(1)结构变化分析
结构变化的实质是检验所设定的模型在样本期内是否为同 一模型。显然,平行回归、共点回归、不同的回归三个 模型均不是同一模型。
平行回归模型的假定是斜率保持不变(加法类型,包括 方差分析);
例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。
例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是否对通货膨胀产生影响。
上述各例都可以用两种方法来解决,一种 解决方法是分别进行两类情况的回归,然后 看参数是否不同。另一种方法是用全部观测 值作单一回归,将定性因素的影响用虚拟变 量引入模型。
第八章 虚拟变量回归
第一节 虚拟变量的性质 一、基本概念
由于定性变量通常表示的是某种特征的有和无,所 以量化方法可采用取值为1或0。这种变量称作虚拟变 量(dummy variable)。虚拟变量也称:哑元变量、 定性变量等等。通常用字母D或DUM加以表示(英文 中虚拟或者哑元Dummy的缩写)。
用1表示具有某一“品质”或属性,用0表示不具有 该“品质”或属性。
在这个问题中,一共有六个类别,但是我们只引入 了三个虚拟变量,而不是五个。

第8章 虚拟变量模型和设定误差

第8章 虚拟变量模型和设定误差

为了捕获该影响,设C Y u。假设边际消 费倾向 依赖于财产Z。一个简单的表示方法就 是 1 2Z 。代入消费函数,有:
C 1Y 2YZ u
由于YZ 捕获了收入和财产之间的相互作用而被称为 交互作用项。
显然,刻画交互作用的方法,在变量为数量(定量) 变量时, 是以乘法方式引入虚拟变量的。
其中:Di=10
城市 农村
(比较的基础:农村)
那么: E Yi | Di = 1 =(0 + 1)
E Yi | Di = 0 = 0
Yi (0 1) i 城市
Yi 0 i
农村
(2)一个定性解释变量(两种属性)和一个定 量解释变量的情形
模型形式 Yi = f(Di,Xi )+ μi 0 1Di
第8章 虚拟变量模型和设定误差
1
内容安排
8.1 虚拟变量 8.2 虚拟解释变量模型 8.3 虚拟被解释变量模型 8.4 设定误差 8.5 案例
8.1 虚拟变量
8.1.1 什么是虚拟变量
用来描述经济现象的定量属性(类别)的变量称之
为虚拟变量(Dummy Variables)。用符号D
来表示。
如:
1 D 0
Yi = 0 + X i + μi
农村
Y
X
共同的特征:截距发生改变
(3)一个定性解释变量(两种以上属性)和一 个定量解释变量的情形
模型形式 Yi = f ( Xi,D1,D2,...)+ μi
(如:民族有56种特性;季度有4种特性)
例如: 啤酒售量Y、人均收入X、季度D;
Yi 0 1D1 2D2 3D3 Xi i
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 虚拟变量的建模
背景

定类与定序变量统称为定性变量 在经济领域,许多重要因素都需要使用定性数 据加以刻画:
经济体制(改革前-改革后)、所有制形式(国有-集体 -外资等等)、区域(东-中-西)、性别(男-女)、信 用等级

自变量采用定性数据,在量化与解释上要十分 注意,因变量如果采用定性数据,会给模型的 估计与解释带来更大的困难。
1、二值变量的量化方法
2)
体制变量X 1,X 2: X 1:改革前 X 2:改革后 1是 0 否 观察值: t X1 1978 1 1979 1 1985 0 2003 0 X2 0 0 1 1
1、二值变量的量化方法
3)
体制变量X: 2 改革后 1 改革前 观察值: t X 1978 1 1979 1 1985 2 2003 2
2 3
system 0 ˆ ˆ ˆ ˆ P 0 1region 1capital 两者之差: ˆ ˆ ˆ 0 2 region 3capital
4、含虚拟变量模型的其他变化 Nhomakorabea交互项的引入实际意味着非虚拟变量的 斜率是不一致的。
profit 0 0 system 1capital 2 system* capital u profit 0 0 system 1 2 system* capital u system 0 system 1 profit0 0 1capital u profit1 0 0 1 2 capital u


4、含虚拟变量模型的其他变化
profit 0 0 system 1region 1capital 2 system* region 3 system* capital u system 1 ˆ ˆ ˆ ˆ ˆ P 0 0 1region 1capital ˆ ˆ region capital
背景

本章的研究对象是定性变量
无论是定类还是定序,处理方法是一致的 但,当定序变量的水平很多时,可以当定量变 量处理 例:大学排名

背景

定性变量的水平可以是自然的,也可以是人为 规定的 自然的:性别 人为规定: 规定水平:相貌对工资的影响 合并水平(计量等级的退化): 地区差异对人均收入的影响 大学排名对最初工资的影响
0 E profit system 1,capital E profit system 0,capital
如果E u system,capital 0
2、回归系数的含义

虚拟变量回归系数的基本含义: 不同属性模型之间的截距移动
ˆ ˆ ˆ 三资企业: profit 0 0 1capital
ˆ 斜率 1
profit
ˆ 0
ˆ 0
ˆ ˆ 国有企业: profit 0 1capital
capital
2、回归系数的含义



虚拟变量回归系数可以解释为:在其他 因素水平相同的情况下,不同属性的平 均差异 以前数据为例,虚拟变量回归系数为67, 意味着在资本水平相同的情况下,三资 企业的平均利润要高于国有及国有控股 企业67亿元。 在解释时,一定要注意谁是基组(取0)
2、回归系数的含义
profit 0 0 system 1capital u

类似模型都蕴含有一个假定: 斜率是一致的,即无论对于哪一组(按 虚拟变量属性划分),其它变量对因变 量的影响都是一样的
4、含虚拟变量模型的其他变化

考虑交互影响的模型
ˆ P profit 58.75 67.03system 0.11capital

在交互模型中,虚拟变量前的回归系数 只表示在资本为0情况下,三资企业与国 有企业的利润差距
4、含虚拟变量模型的其他变化

交互模型中虚拟变量前回归系数的经济 含义不好,可以采用如下方法解决:
P 0 0 system 1capital 2 system* capital C u

显然,资本水平不同,利润会有不同, 三资企业和国有企业的差异也不会都是 67亿元。
4、含虚拟变量模型的其他变化
P 0 0 system 1capital 2 system* capital u ˆ P 35.79 34.31system 0.09capital 0.04system* capital
4、含虚拟变量模型的其他变化

判断是否需要交互项,可通过相应系数 的t检验来进行;
要注意到:是否需要交互项等价于检验斜率是 否相等;
(二)多值变量的建模

多值变量意味着虚拟变量有3个以上取值, 如考虑季节的影响,则季节有四个水平。
春 0 夏 1 S 2 秋 冬 3
(二)多值变量的建模

正确量化方法
1 春天为真 Sspring 0 春天不为真 1 夏天为真 Ssum m er 0 夏天不为真 1 秋天为真 Sautum n 0 秋天不为真
(二)多值变量的建模
主要内容
一、定性变量作为自变量的建模方法 虚拟变量法
二、定性变量作为因变量的建模方法
一、定性变量作为自变量的建模
(一)二值变量的建模 1、二值变量的量化方法 2、回归系数的含义 3、多个虚拟变量的建模与解释 4、含虚拟变量模型的其他变化 5、Chow检验 (二)多值变量的建模
(一)二值变量的建模
1、二值变量的量化方法

使用虚拟变量(dummy variable)的基 本原则
0,1只是代号 用0,1代入,会有较好的经济含义 二值变量,只需设置一个虚拟变量,否 则会出现完全共线性问题(有截距项)


2、回归系数的含义

较正式的表述:
profit 0 0 system 1capital u system 0,国有企业 profit0 0 1capital u system 1,三资企业 profit1 0 0 1capital u
背景

有时,自变量的影响有如下模式:在某 个区间内的变动,不会显著影响因变量, 但区间外与区间内的不同则会有显著影 响。此时直接用原始变量效果不好,则 可将变量转换为水平较少的定性变量进 行建模
定量变量的系数不显著,有时将其退化为定性 变量就会显著。
背景

定性变量有些来自于不得已

有些来自于主动

基本原则:
只用0,1来量化,0,1只表示真或不真 只需设置比水平数少一个的虚拟变量


(二)多值变量的建模

基本解释
每个虚拟变量前的系数都表示和基组 (不专设虚拟变量的组)相比,在因变 量上的平均差异。
(二)多值变量的建模

对于定序变量而言,由于水平之间的差 值依然没有意义,所以,上述方法仍然 适用。
所谓二值变量,是指变量只有两种可能取 值,是某种属性或者不是 二值变量可以是自然的,也可以是人为规 定的 人为规定:所有制:国有企业-非国有企业

1、二值变量的量化方法
可以有三种量化方法 1)体制变量X:

1 改革后 0 改革前 观察值: 1978 0 1979 1985 2003 0 1 1
(二)多值变量的建模

有时,某定性因素的多个虚拟变量在统 计上都不显著,但这并不意味着该因素 就一定是不显著的,此时联合检验将发 挥关键作用。
要点

自变量中定性变量的回归系数,在解释 上与定量变量有很大不同,此时判定系 数含义,主要不使用导数,而是依靠将 定性变量代入,计算不同方程之间的差 别。
相关文档
最新文档