第八章 虚拟变量模型分析

合集下载

第五章虚拟变量-第八章虚拟变量

第五章虚拟变量-第八章虚拟变量
入虚拟变量? (2)如果认为季节因素使利润对销售额的变化额发生变异,
应如何引入虚拟变量?
33
(3)如果认为上述二种情况都存在,又应如何引 入虚拟变量?
请对上述三种情况分别设定利润模型。
34
谢谢
Dit 10( 第i季 度 — 1, 其 它 季 度 — 0) ( i1,2,3,4)
问 是 否 可 用 普 通 最 小 二 乘 法 进 行 估 计 ? 为 什 么
26
解 : 通 过 观 察 , 很 容 易 发 现 :
D 1D 2D 3D 41,
说 明 虚 拟 解 释 变 量 D 1,D 2,D 3,D 4存 在 完 全 的 多 重 共 线 性 从 而 无 法 用 普 通 最 小 二 乘 法 进 行 估 计 。 反 映 季 节 因 素 的 商 品 需 求 模 型 为 :
Yt 0 2X*t 1 2Xt t
29
第5章习题
一、单项选择题 1、如果一个回归模型中不包含截距项,对一个具
有m个特征的质的因素需要引入的虚拟变量的个 数为: A、m B、m-1 C、m-2 D、m+1
30ห้องสมุดไป่ตู้
2、设个人消费函数Yi=c0+c1Xi+ui中,消费支出Y不仅与收 入X有关,而且与消费者的性别、年龄构成有关,年龄构 成可分为青年、中年和老年三个层次,假设边际消费倾向 不变,则考虑上述因素的影响,该函数引入虚拟变量的个 数为:
Y=b0+b1X+b2D+e x
21
第二节 运用虚拟变量改变回归直 线的斜率
c C=b0+(b1+b2)x
D=1反常
Y=b0+b1X+b2DX
C=b0+b1x

8-3、模型中的特殊解释变量:虚拟变量

8-3、模型中的特殊解释变量:虚拟变量
第8章 模型中的特殊解释变量 ——虚拟变量
2016/3/29
1
8.3、 虚拟变量(Dummy variables)
8.3.1、.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量 的波动不仅依赖于那种能够很容易按某种尺度定量化的 变量(如收入、产出、价格、身高、体重等),而且依 赖于某些定性的变量(如性别、地区、季节等)。 在经济系统中,许多变动是不能定量的。如政府的更 迭(工党 - 保守党)、经济体制的改革、固定汇率变为 浮动汇率、从战时经济转为和平时期经济等。 这样一些变动都可以用 0-1 变量来表示,用 1 表示具有 某一“品质”或属性,用0表示不具有该“品质”或属 性。这种变量在计量经济学中称为“虚拟变量”。虚拟 变量使得我们可以将那些无法定量化的变量引入回归模 型中。
2016/3/29 2
下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方 法是分别进行两类情况的回归,然后检验参数是否 不同。另一种方法是用全部观测值作单一回归,将 定性因素的影响用虚拟变量引入模型。
女1 0 女2 0 男2 1 女3 0 男3 1 男4 1 女4 0 女5 0
21.2
男5 1
试建立模型研究之。
2016/3/29
9
4、虚拟变量在分段回归中的应用
2016/3/29

第八章 包含虚拟变量的回归模型

第八章 包含虚拟变量的回归模型

第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。

为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。

通常是引进人工变量完成。

通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。

虚拟变量与定量变量一样可用于回归分析。

事实上,一个回归模型的解释变量可以仅仅是虚拟变量。

解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。

例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。

10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。

1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。

回归模型中可以有同时有虚拟变量以及定量变量。

例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。

含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。

注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。

同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。

注意虚拟变量模型的几何意义:以上述例2考察。

例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。

该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。

第八章-虚拟变量回归

第八章-虚拟变量回归

1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。
可能的情形:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
18
(1)截距不变
模型形式:
意义:若α1显著,表明城市居民的平均人均可支配收入比农村 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。
12
(2) 一个两属性定性解释变量和一个定量 解释变量
模型形式 Yi = f(Di,X i )+ μi 例如:Yi = 0 1 Di + X i + μi 1 城市 其中: Y-人均可支配收入;X-工作时间; Di 0 农村
会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。
问题:我们如何把这些定性想:将这些定性因素进行量化
由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0,从而将定性因素 定量化。 计量经济学中,将取值为0和1的人工变量称为虚拟变量 (DUMMY)或哑元变量。通常用字母D或DUM表示。
7
一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系:

第八章 虚拟变量

第八章 虚拟变量

Company Logo
9
一、为什么引入虚拟变量
(2)把虚拟变量取值为0所对应的类别称作基础类别。
例如:按上面对“学历”的赋值方法,“无学历”为 基础类别。
(3)当定性变量含有m个类别时,不能把虚拟变量的值 设成如下形式:
0 (第一个类别)
D
1
(第二个类别)
m 1 (第m个类别)
这种赋值法在一 般情形下与虚拟变 量赋值是完全不同 的两回事。
(因为D不能作为Eviews的用户变量名,所以取D1)
Company Logo
28
三、测量斜率变动
Company Logo
29
三、测量斜率变动
trade 0.2818 0.0746time 35.8809D 1.2559timeD
(1.35) (6.2)
(8.4)
(9.6)
还有虚拟变量的两项都是显著的,所以
Company Logo
10
一、为什么引入虚拟变量
(4)回归模型可以只用虚拟变量作解释变量,也可以 用定量变量和虚拟变量一起作解释变量。
Company Logo
11
二、用虚拟变量测量截距变动
❖ 下面给出的模型都属于测量截距变动的模型。
中使用虚拟变量时,回归函数就不再是连续 的了,分段线性回归可以既使用虚拟变量描述出模型 结构变化,又可以使回归函数保持连续,其中每一段 都是线性的。
Company Logo
31
四、分段线性回归
❖ 考虑下面的模型
Yt 0 1X t 2 ( X t X b1)D1 ut
其中Xb1表示结构发生变化的t=b1时刻的Xt的值。
Company Logo
4
一、为什么引入虚拟变量

第08章 虚拟变量(讲稿)

第08章 虚拟变量(讲稿)

第8章 虚拟变量(dummy variable )在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。

例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。

这些因素也应该包括在模型中。

1。

虚拟变量由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。

这种变量称作虚拟变量,用D 表示。

虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。

⎩⎨⎧=不具有某属性具有某属性01D 例:表示季节的虚拟变量⎩⎨⎧=其它春季011D ⎩⎨⎧=其它夏季012D ⎩⎨⎧=其它秋季013D ⎩⎨⎧=其它冬季014D2.测量截距移动设有模型,y t = β0 + β1 x t + u加法方式增加虚拟变量y t = β0 + β1 x t + β2D + u t ,其中y t ,x t 为定量变量;D 为定性变量。

当D = 0 或1时,上述模型可表达为, β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1)2040600204060X Y图8.1 测量截距不同D = 1或0表示某种特征的有无。

反映在数学上是截距不同的两个函数。

若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。

例:中国成年人体重y (kg )与身高x (cm )的回归关系如下:–105 + x D = 1 (男) y = - 100 + x - 5D =–100 + x D = 0 (女) 注意:① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否β0β0+β2D = 1D =0则会导致多重共线性,称作虚拟变量陷阱。

②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(base category)。

3测量斜率变化以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。

第8章 虚拟变量模型

设,则可以得出结论,上海股票市场不存在周内
效应。
8.1.3 虚拟变量作为因变量的情况
1、因变量为虚拟变量的回归模型
• 虚拟变量作为因变量的模型也称定性响应模型,既可 以包括二值变量模型(也称二分选择模型),也包括 多分选择模型。我们重点讨论二值变量模型。
• 模型举例: 一个大学毕业生是否会被一个不错的MBA项目录取, 取决于其学习成绩、GMAT分数和其它因素。 一位成年男子是否就业取决于总体失业率、平均工资 率、受教育程度和家庭收入等因素。
其中:
1
yi
{ 0
已购买汽车 未购买汽车
且假定E(ui ) 0
1.2 Y
1.0
0.8
0.6
0.4
0.2
0.0 X
-0.2 280 300 320 340 360 380 400 420
对于给定的xi ,E(yi / xi ) 0 1xi
设pi表示yi 1的概率,则1 pi表示yi 0的概率 E(yi / xi ) pi 1 (1 pi) 0 pi 可见,该模型描述了随着收入的变动, 第i个家庭 购买汽车的概率变动情况。
b0 + b1xt + ut , (D = 0)
Y
yt =
b0 + (b1 + b2) xt + ut , (D = 1)


t
0
3、一般方式
直接以加法和乘法方式引入虚拟变量。 可建立如下模型:
yt = b0 + b1 xt + b2 D + b3 xt D + ut ,
其中 xt 为定量变量;D 为定性变量。当 D = 0 或 1 时,上述模
yt =

第八章 虚拟变量模型


• 例如,以1978-2009年的数据为样本,以GDP 作为解释变量,建立居民消费函数。根据分析, 1992年前后,自发消费和消费率都可能发生变 化。
1 Dt 0 92年前 92年及以后
Ct 0 1GDP t 2 Dt 3 ( Dt GDP t ) t t 1978 ,,2009
1 Di 0 农村居民 城镇居民
Ci 0 1 X i 2 Di X i i
E(Ci | X i , Di 1) 0 (1 2 ) X i E(Ci | X i , Di 0) 0 1 X i
农村居民: 城镇居民:
• 例如,根据消费理论,收入决定消费。但是, 在自然灾害、战争等反常年份,消费倾向往往 发生变化。这种消费倾向的变化可通过在消费 函数中引入虚拟变量来考察。
Yi 0 1 X i 3 Di 4 ( Di X i ) i
1 农村居民 Di 0 城镇居民
• 估计得到
ˆ 450.33 0.6920X 271.14D 0.0275 Y Di X i i i i
由变量显著性检验得到:2007年农村居民与城 镇居民的边际消费倾向并无显著差异,他们有 着共同的消费函数。
如果设置第4个虚变量,则出现“虚拟变量陷井” (Dummy Variable Trap),为什么?
• 包含季节变量的正确模型:
Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t t Yt 0 1 X 1t k X kt 1 D1t 2 D2t 3 D3t 4 D4t t
通过统计检验,判断两个时期中消费函数的截 距和斜率是否发生变化。

9第八章 虚拟变量回归模型

说明 X i 变动一个单位,机会比率对数平均变化 2 个单位,
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=

第八章 虚拟变量模型

Y 改革开放以后 改革开放以前
假定 1 0且 2 0, 则其几何图形如图8-4所示。
X 图8-4 改革开放前后储蓄函数示意图
3.临界指标的虚拟变量的引入
在经济发生转折时,可通过建立临界指标的虚拟变量模型来反映。
例如:
进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后, Y对X的回归关系明显不同。 这时,可以t*=1979为转折期,以1979年的国民收入Xt*为临界值, 设如下虚拟变量: Dt= 1 0 t≥t* t< t*
二、虚拟变量模型
同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型。
在模型中,虚拟变量可作为解释变量,也可作为被解释变量,但主要
是用作解释变量。
例如:一个以性别为虚拟变量来考察职工薪金的模型如下:
Y X D i 0 1 i 2 i i
其中 ——为职工的薪金;
i
(8-1)
譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特 征,则可将年龄选作虚拟变量。
例如:
家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。 按年龄划分为三个年龄组:6—18岁年龄组(中小学教育);19—22岁 年龄组(大学教育);其它年龄组。于是设定虚拟变量 1 0 6-18岁年龄组 其它 1 0 19-22年龄组 其它
为描述虚拟变量交互作用对被解释变量的效应,在(8-9)式中以加法形式引入 两个虚拟解释变量的乘积,即
Yi=α0+α1D1i+α2D2i+α3(D1iD2i)+βXi +μi
(8-10)
(1)基础类型:不发展油菜籽生产,也不发展养蜂生产时农副产品生产平均总收益
E(Yi|Xi,D1=0,D2=0)= α0+βXi
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

◆某旅行社为了提高旅游业务 收入,希望通过建立个人旅游 支出模型,找出影响个人旅游 支出的关键因素,从而作出针 对性的旅游宣传。 根据实际经济理论,个人的旅 游支出往往与个人的收入、职 业、受教育程度、性别等有密 切关系,其中职业、教育、性 别因素不是我们前面章节常用 的定量变量,而是定性变量。 职业有教师、工程师、银行职 员等,教育程度可以分为大学 教育和非大学教育,同样性别 因素可以考虑是男是女。将这 样的定性变量作为自变量考虑 进旅游支出模型,模型如何建 立?有怎样的结果和意义?
E Yi | D1i 1 E 0 1 g 1 i 0 1
从上述的结果可以得知,模型截距 0 表示未
3、根据income变量构造虚拟变量d2,用1表示月收入 大于等于10000元的高收入者,0表示月收入小于10000 元的中低收入者。在命令窗口中输入:series d2=(sex="male"),点击回车键,得到虚拟变量d1。
二、虚拟变量作为自变量

在实际经济模型中,因变量不仅会受到定量变 量的影响,同时也会受到定性变量的影响。如个人 的月支出水平往往受到月收入、性别、职业、婚姻 状况等因素的影响,其中月收入为定量变量,性别、 职业、婚姻状况为定性变量。可见这些定性变量也 是影响因变量的重要因素,所以我们有必要将其量 化成虚拟变量后加入到模型中。在回归分析模型中, 我们假设模型自变量为非随机变量。而虚拟变量的 取值为0、1,说明虚拟变量是非随机变量。因此, 对于自变量中含有一个或多个虚拟变量的回归模型, 回归系数的普通最小二乘估计法以及模型检验方法 同样适用。
下面我们建立含有虚拟变量为自变量的回归模型。
1.方差分析模型(ANOVA模型) 在回归分析中,虚拟变量与定量变量一样 可以作为模型的回归元。一个回归模型的自 变量只有虚拟变量,这样的模型称为方差分 析模型(analysis of variance,ANOVA)。为 说明方差分析模型,我们看下面一个只含有 一个虚拟变量的ANOVA模型,含有多个虚拟 变量的ANOVA模型原理相似不再赘述。
一、虚拟变量的含义
一个定性变量,它的可能值只有两个,也就是说出现或 不出现某种属性。 如性别是男性或女性;受过高等教育或没有接受高等教 育;职业是教师或非教师;已婚或未婚;健康或不健康等。 如果要将这样的变量加入到计量模型中,首先需要人为地量 化定性变量。一般地,用1表示出现某种属性,用0表示没有 出现该属性。如对于性别变量,用1表示男性,用0表示女性; 或者用1表示受过高等教育,用0表示没有接受高等教育。 那么,像这样取值只为0、1的变量称为虚拟变量或哑变 量,并用符号表示,从而与常用符号区别开。我们把赋值为 0的一类称为基准类。需要注意的是虚拟变量的赋值是人为 的、任意的,根据人们的习惯而定。如前所提到的性别变量, 也可以用1表示女性,用0表示男性。
Yi 0 1D1i i ,
i 1, 2,L , n.
0,未婚
,已婚 1 Y D1i = 其中 i为个人月支出;
误差项且 E i =0 未婚者的月期望支出为:
已婚者的月期望支 0 E 0 1 g0 i 0

那么对于某些具有大于两个可能值的定性变量,又该如何量 化呢?如职业变量的可能取值为教师、工程师或其他职业。 这样的多分类定性变量在加入计量模型前,同样需要量化成 虚拟变量。但不同的是一个多分类定性变量需要引入多个虚 拟变量,引入的虚拟变量个数要比多分类定性变量的分类个 数少一。即一个具有个属性的定性变量,需要引入个虚拟变 量。如果引入个虚拟变量,这些虚拟变量之间将会产生完全 多重共线性。如票选结果有三种分类:赞同、不赞同、弃权, 此时需量化成两个虚拟变量,分别为:
项目8
虚拟变量模型
【学习目标】
1.知识目标:虚拟变量的含义;虚拟变
量作为自变量的方差分析模型、协方差模 型;虚拟变量作为因变量的离散选择模型 包括线性概率模型;二元概率模型及其参 数估计;二元逻辑模型及其参数估计。 2.能力目标:理解虚拟变量的含义;了 解虚拟变量分别作为自变量、因变量的模 型建立,包括方差分析模型、协方差模型、 线性概率模型;掌握二元概率模型及其参 数估计;掌握二元逻辑模型及其参数估计。
1,赞同 D1 = 0,其他
1,不赞同 D2 = 0,其他
变量以弃权为基准类。
【相关链接】 构造虚拟变量 Eviews6.0软件操作步骤(附图): 1、输入变量名和样本数据如下图,其中包括性别变量 “sex”和月收入变量“income”。
2、根据sex变量构造虚拟变量d1,用1表示男 性“male”,0表示女性“female”。在命令窗口中输入: series d1=(sex="male"),点击回车键,得到虚拟变量d1。

在运输经济学中,我们想要预 测某人在上下班时是否选择坐 公交,这个结果与个人的收入、 职业、上班地点与居住处之间 的距离、公交费用等诸多因素 有关。那么此时我们建立的模 型因变量是只有两个可能值的 定性变量,即选择坐公交和其 他交通工具。对于这样的模型 又该如何建立?
第一节:虚拟变量模型概述

前面我们研究的计量模型无论是因变量还是自变量均为定量 变量,是可以被度量的变量,例如收益率、面积、收入、成 本、价格等。但是实际运用中所研究的问题往往涉及很多不 可被度量的定性变量,比如性别、职业、国籍、受教育程度、 健康情况等。这些定性变量可能是某些问题的影响因素,如 工薪族的收入常与职业、教育等有关。另外,一些定性变量 也可能是需要预测研究的问题,如高中生是否继续接受高等 教育;贷款人的贷款申请能否被允许;大学毕业生是否回家 乡工作;一项科学研究能否成功等。这些定性变量同定量变 量一样可以作为模型的因变量与自变量,本章我们将考虑这 种类型模型的建立与参数估计问题。
相关文档
最新文档