第8章 虚拟变量回归
第八章 包含虚拟变量的回归模型

第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
第八章 带虚拟变量的回归预测技术

以Y为储蓄,X为收入,可令:
1990年前:Yi=1+2Xi+1i i=1,2…,n1
1990年后:Yi=1+2Xi+2i
i=1,2…,n2
则有可能出现下述四种情况中的一种:
• (1) 1=1 ,且2=2 ,即两个回归相同,称为重 合回归(Coincident Regressions);
• 分离异常因素的影响, 例如分析我国GDP的时间序列,必须 考虑“文革”因素对国民经济的破坏性影响, 剔除不可比 的“文革”因素。 • 检验不同属性类型对因变量的作用, 例如工资模型中的文 化程度、季节对销售额的影响。 • 提高模型的精度, 相当于将不同属性的样本合并, 扩大了样
本容量(增加了误差自由度, 从而降低了误差方差)。
• 前面没有考虑协变量——税后收入,重新 建立模型: • Yi = 1+2Di+3Xi+ui • 利用前例的数据, 分析得到如下结果:
ˆ 1506.244 228.9868D 0.0589 X Y i i i
se (188.0096) (107.0582) (0.0061) t (8.0115) ( 2.1388) (9.6417) p (.000) (.0611) (.000)
• 若在某研究中,需要考虑k个非定 量因素,每个因素有mi种互斥属性, 则在模型中应引入虚拟变量个数为:
(m
i 1
k
i
1)
• 虚拟变量回归模型及参数估计
例1男女个体消费者每年的食品支出(美元)
年龄 女性食品支出 女性税后收入 男性食品出 男性税后收入
<25 25-34
35-44 45-54 55-64 >65
8第八章包含虚拟变量的回归

一、虚拟变量设置原则
1、模型中只有一个两分定性变量 2、模型中一个定性变量,该变量具有多种 分类 3、小结 4、模型中有多个定性变量 返回
1、模型中只有一个两分定性变量
例如性别定性变量,只有两种分类,引入 一个虚拟变量即可,设置虚拟变量D:
=0,男性 =1,女性
不可引入两个虚拟变量,否则引起多重共线性
方差分析模型在其他社会科学中使用较多
二、方差分析模型(ANOVA):特别的, 当回归中解释变量都是虚拟变量时,此类 模型称为方差分析模型。
Y=b0+b1 D1 +b 2D2+……
返回
三、协方差模型(ANCOVA)
解释变量有定性变量也有定量变量.
Y=b0+b1 X1 +b 2X2+b3 D
两个回归截距相同而斜率不同,性别对边际消
费倾向产生了影响
3、加法方式、乘法方式混合进入模 型
例题1:性别对食品开支的影响:可能同时 改变截距和斜率。为验证这一点,可使用 以下回归: Y= b0+b1 X1+ b2 D X1 + b3 D
例题2:关于储蓄率的研究
Y=A1+A2 X
Y:个人储蓄; X个人收入,回归得到的A2 为
男性的食品开支方程 Y^=1506.244+0.06X
两条样本回归线平行加法方式引入性别虚拟变量 意味着隐含一个假定:
男女的性别差异对边际消费倾向没有影响,为b1 。 即对斜率没有影响,仅对截距产生影响 返回
2、“ 乘法”方式
虚拟变量也会对斜率发生影响
Y=b0+(b1 +b2 D) X1
计量经济学第八章 虚拟变量回归

第八章
虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归
2
本章的教学目标
(1)深刻理解定性因素在计量经济分析中的 背景和含义; (2)明确虚拟变量在建立和估计计量经济模 型中的意义和作用; (3)熟练掌握引入和应用虚拟变量的基本思 想和方法; (4)能够运用虚拟变量模型作相应的经济实 证分析方面的应用; (5)掌握Eviews软件中相关内容的操作方法。
这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5
年 份
城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 (Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
29
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
(完整版)第八章 虚拟变量回归 答案

第八章 虚拟变量回归一、判断题1。
虚拟变量只能作为解释变量.(F)2。
引入虚拟变量后,用普通最小二乘法得到的估计量仍是无偏的。
( T )3.引入虚拟变量的个数与模型有无截距项无关.(F )4。
虚拟变量用来表示某些具有若干属性的变量.(T)5。
引入虚拟变量的个数与样本容量大小有关。
(F )二、单项选择题1.设消费函数011t t t y a a D b x u =+++,其中虚拟变量10D ⎧=⎨⎩东中部西部,如果统计检验表明10a =成立,则东中部的消费函数与西部的消费函数是( D ).A. 相互平行的 B 。
相互垂直的 C. 相互交叉的 D 。
相互重叠的2.虚拟变量( A )A 。
主要来代表质的因素,但在有些情况下可以用来代表数量因素B 。
只能代表质的因素C 。
只能代表数量因素D.只能代表季节影响因素3。
分段线性回归模型的几何图形是( D )A 。
平行线 B. 垂直线 C 。
光滑曲线 D. 折线4.如果一个回归模型中(包含截距项),对一个具有m 个特征的质的因素要引入虚拟变量数目为( B ).A.m B 。
m-1 C 。
m —2 D.m+15.设某商品需求模型为01t t t y b b x u =++,其中Y 是商品的需求量,X 是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为( D )。
A .异方差性B .序列相关C .不完全的多重共线性D .完全的多重共线性6.设消费函数为i i i 33i 22i 11o i u bx D D D y +++++=αααα,其中y 为消费,x 为收入,虚拟变量⎩⎨⎧=⎩⎨⎧=⎩⎨⎧=其他季度第三季度,其他季度第二季度,其他季度第一季度 0 0 0 321D 1D 1D 1,该模型中包含了几个定性影响因素?( A )。
A 。
1B 。
2C 。
3D 。
47。
设消费函数为i i i o i u Dx b x b D y ++++=101αα,其中虚拟变量⎩⎨⎧=农村家庭城镇家庭 0 1D ,当统计检验表明下列哪项成立时,表示城镇家庭与农村家庭有一样的消费行为( A ).A 。
计量经济学第八章关于虚拟变量的回归.

类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质
例:教授薪金与性别、教龄的关系
男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授
比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)
9第八章 虚拟变量回归模型

Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
第八章 虚拟变量实验报告

第八章虚拟变量实验报告一、研究目的改革开放以来, 我国经济保持了长期较快发展, 我国对外贸易规模也日益增长。
尤其是2002年中国加入WTO之后, 我国对外贸易迅速扩张。
2012年, 我国进出口总值38667.6亿美元, 与上年同期相比增长6.2%, 我国贸易总额首次超过美国, 成为世界贸易规模最大的国家。
为了考察我国对外贸贸易与国内生产总值的关系是否发生变化, 以国内生产总值代表经济整体发展水平, 以对外贸易总额代表对外贸易发展水平, 分析我国对外贸易发展受国内生产总值的影响程度。
二、模型设定为研究我国对外贸易发展规模受我国总体经济发展程度影响, 引入国内生产总值为自变量。
设定模型为:+β1X t+ U tY t=β参数说明:Yt——对外贸易总额(单位: 亿元)Xt——国内生产总值(单位: 亿元)U t——随机误差项收集到数据如下(见表2-1)1993 11271 35333.92 2007 166740.2 265810.31 1994 20381.9 48197.86 2008 179921.5 314045.43 1995 23499.9 60793.73 2009 150648.1 340902.81 1996 24133.8 71176.59 2010 201722.1 401512.8 1997 26967.2 78973.03 2011 236402 472881.56 1998 26693.823 73617.66322注: 资料来源于《中国统计年鉴》1986-2012。
为了研究1985-2011年期间我国对外贸易总额随国内生产总值的变化规律是否有显著不同, 考证对外贸易与国内生产总值随时间变化情况, 如下图所示。
图2-1 对外贸易总额(Y)与国内生产总值(X)随时间变化趋势图从图2-1中, 可以看出对外贸易总额明显表现出了阶段特征: 在2002年、2007年和2009年有明显的转折点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量经济学课程教案授课题目(教学章、节或主题):
第8章 虚拟变量回归
授课时间
安排
第16周共2课时教学器材与工具多媒体
授 课 类 型(请打√)理论课√讨论课□ 实验课□ 习题课□ 双语课程□ 其他□
教学目的、要求(分掌握、熟悉、了解三个层次):
1、熟悉虚拟变量的含义;
2、掌握虚拟变量设置原则;
3、掌握虚拟变量回归引入方法;
4、了解虚拟被解释变量模型。
教学重点及难点:
虚拟变量回归引入方法与估计方法
教 学 基 本 内 容
§1 虚拟变量
§2 虚拟解释变量的回归
§3 虚拟被解释变量*
§4 案例分析
教学过程设计: 一、引入
二、讲授
三、小结
教学方法及手段(请打√):讲授√、讨论□、多媒体讲解√、模型、实物讲解□、挂图讲解□、音像讲解□等。
作业、讨论题、思考题:
1、什么是虚拟变量?它在模型中有什么作用?
参考资料(含参考书、文献等):《计量经济学》,(美)D.Gujarati 著,林少宫译;《计量经济学》,李子奈编著;《经济计量学精要》,(美)D.Gujarati著,张寿等译。
课后小结:虚拟变量从本质上说是“数据分类器”,它根据样本的属性(性别、婚姻状况、种族、宗教等等)将样本分为各个不同的子群体并对
每个子群体进行回归分析。
若模型包含多个定性变量,而且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度。
因此,应当权衡进入模型的虚拟变量的个数以免超过样本观察值的个数。
第8章 虚拟变量回归
§8.1 虚拟变量
一、虚拟变量的基本含义
许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等。
但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。
为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”, 这种“量化”通常是通过引入“虚拟变量”来完成的。
根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。
例如,反映文程度的虚拟变量可取为:
1, 本科学历
D=
0, 非本科学历
一般地,在虚拟变量的设置中:
基础类型、肯定类型取值为1;
比较类型,否定类型取值为0。
二、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个定性变量,只在模型中引入m-1个虚拟变量。
例。
已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:
则冷饮销售量的模型为:
在上述模型中,若再引入第四个虚拟变量:
则冷饮销售模型变量为:
其矩阵形式为:
如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:
显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。
这就是所谓的“虚拟变量陷井”,应避免。
三、虚拟变量的作用
(1)可以作为属性因素的代表;
(2)作为某些非精确计量的数量因素的代表;
(3)作为某些偶然因素或政策因素的代表;
(4)作为时间序列中季节的代表;
(5)可以实现分段回归,研究低斜率、截距的变动。
同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型。
一个以性别为虚拟变量考察企业职工薪金的模型:
其中:Y i为企业职工的薪金,X i为工龄,
D i=1,若是男性,D i=0,若是女性。
§2 虚拟解释变量的回归
虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。
一、虚拟变量的引入-加法方式
上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。
在该模型中,如果仍假定E(i)=0,则
企业女职工的平均薪金为:
企业男职工的平均薪金为:
几何意义:
假定2>0,则两个函数有相同的斜率,但有不同的截距。
意即,男女
职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。
可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。
又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下,高中,大学及其以上。
这时需要引入两个虚拟变量:
模型可设定如下:
在E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:
高中以下:
高中:
大学及其以上:
假定3>2,其几何意义:
还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。
如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:
本科及以上学历
本科以下学历
职工薪金的回归模型可设计为:
于是,不同性别、不同学历职工的平均薪金分别为:
女职工本科以下学历的平均薪金:
男职工本科以下学历的平均薪金:
女职工本科以上学历的平均薪金:
男职工本科以上学历的平均薪金:
二、乘法方式
加法方式引入虚拟变量,考察:截距的不同,
许多情况下:往往是斜率就有变化,或斜率、截距同时发生变化。
斜率的变化可通过以乘法的方式引入虚拟变量来测度。
例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。
这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
如,设
消费模型可建立如下:
这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。
假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
反常年份:
当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。
例8.2.1,考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。
表8.2.1中给出了中国1979~2001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。
以Y为储蓄,X为收入,可令:
1990年前: Y i=1+2X i+1i i=1,2…,n1
1990年后: Y i=1+2X i+2i i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1)1=1,且2=2,即两个回归相同,称为重合回归(Coincident Regressions);
(2)11,但2=2,即两个回归的差异仅在其截距,称为平行回归(Parallel Regressions);
(3)1=1,但22,即两个回归的差异仅在其斜率,称为汇合回归(Concurrent Regressions);
(4)11,且22,即两个回归完全不同,称为相异回归(Dissimilar Regressions)。
可以运用邹氏结构变化的检验。
这一问题也可通过引入乘法形式的虚拟变量来解决。
将n1与n2次观察值合并,并用以估计以下回归:
D i为引入的虚拟变量:
于是有:
可分别表示1990年后期与前期的储蓄函数。
在统计检验中,如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。
具体的回归结果为:
(-6.11) (22.89) (4.33) (-2.55)
=0.9836
由3与4的t检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,
储蓄函数分别为:
1990年前:
1990年后:
三、临界指标的虚拟变量的引入
在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。
例如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。
这时,可以t*=1979年为转折期,以1979年的国民收入X t*为临界值,设如下虚拟变量:
则进口消费品的回归模型可建立如下:
OLS法得到该模型的回归方程为
则两时期进口消费品函数分别为:
当t<t*=1979年,
当tt*=1979年,
思考题
1、什么是虚拟变量?它在模型中有什么作用?
2、虚拟变量为何只选0、1,选择2、
3、4行吗?
3、引入虚拟变量的两种基本方式是什么?它们各适用于什么情况?
4、四种加法方式引入虚拟变量会产生什么效应?。