第8章-虚拟变量回归
合集下载
虚拟变量回归模型

PART 07
虚拟变量回归模型的发展 趋势和未来展望
发展趋势
模型应用范围不断扩大
随着数据科学和统计学的发展,虚拟变量回归模型的应用范围不断扩大,不仅局限于传统的回归分析,还广泛应用于 分类、聚类、预测等领域。
模型复杂度不断提高
为了更好地处理复杂的数据结构和特征,虚拟变量回归模型的复杂度不断提高,出现了多种新型的模型,如集成学习 模型、深度学习模型等。
医学领域的应用
流行病学研究
在流行病学研究中,利用虚拟变量回归模型分析疾病发病率和死亡 率的影响因素,如年龄、性别、生活习惯等。
临床医学研究
在临床医学研究中,利用虚拟变量回归模型分析治疗效果的影响因 素,如治疗方案、患者特征、疾病严重程度等。
药物研究
在药物研究中,利用虚拟变量回归模型分析药物疗效的影响因素, 如药物剂量、给药方式、患者生理特征等。
模型解释性要求更高
随着人们对数据分析和模型结果的关注度提高,虚拟变量回归模型的解释性要求也更高,需要更加清晰、 直观地解释模型结果和变量之间的关系。
未来展望
模型可解释性研究
未来将更加注重虚拟变量回归模型的可解释性研究,以提高模型结果的透明度和可信度。
新型特征选择和降维技术
随着数据规模的扩大和特征维度的增加,未来将更加关注新型的特征选择和降维技术,以提取关 键特征并降低模型复杂度。
PART 01
引言
目的和背景
探索自变量与因变量之间的关系
虚拟变量回归模型主要用于探索自变量与因变量之间的数量关系,帮助我们理 解不同类别数据对结果的影响。
处理分类变量
当自变量是分类变量时,虚拟变量回归模型能够将这些分类变量转换为一系列 二进制(0和1)的虚拟变量,从而进行回归分析。
虚拟变量回归课件

虚拟变量回归在各个领域都有广泛的应用,其中包括房价预测和汽车保险费用预估。通过实际案例分析, 我们将展示其在实际问题中的应用。
虚拟变量回归面临的问题
在进行虚拟变量回归时,我们可能会面临多重共线性问题。为了解决这个问 题,我们将介绍哑变量陷阱和特征选 收集数据 2. 对数据进行预处理 3. 分析数据 4. 建立模型 5. 模型的评估与优化
虚拟变量回归
通过介绍虚拟变量回归,我们将探讨其概念、作用以及应用。还将讨论面临 的问题和解决方法,以及如何进行虚拟变量回归并提高模型精度。
什么是虚拟变量回归
虚拟变量回归是一种统计方法,用于处理具有分类特征或非数字特征的数据。 它将非数字变量转换为二元变量,以便在回归模型中使用。
虚拟变量回归的应用
总结
虚拟变量回归具有自身的优点和局限性。我们将总结这些,并探讨未来的发 展方向。最后,我们将分享一些提高模型精度的技巧和建议。
虚拟变量回归面临的问题
在进行虚拟变量回归时,我们可能会面临多重共线性问题。为了解决这个问 题,我们将介绍哑变量陷阱和特征选 收集数据 2. 对数据进行预处理 3. 分析数据 4. 建立模型 5. 模型的评估与优化
虚拟变量回归
通过介绍虚拟变量回归,我们将探讨其概念、作用以及应用。还将讨论面临 的问题和解决方法,以及如何进行虚拟变量回归并提高模型精度。
什么是虚拟变量回归
虚拟变量回归是一种统计方法,用于处理具有分类特征或非数字特征的数据。 它将非数字变量转换为二元变量,以便在回归模型中使用。
虚拟变量回归的应用
总结
虚拟变量回归具有自身的优点和局限性。我们将总结这些,并探讨未来的发 展方向。最后,我们将分享一些提高模型精度的技巧和建议。
第八章-虚拟变量回归

1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。
可能的情形:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
18
(1)截距不变
模型形式:
意义:若α1显著,表明城市居民的平均人均可支配收入比农村 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。
12
(2) 一个两属性定性解释变量和一个定量 解释变量
模型形式 Yi = f(Di,X i )+ μi 例如:Yi = 0 1 Di + X i + μi 1 城市 其中: Y-人均可支配收入;X-工作时间; Di 0 农村
会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。
问题:我们如何把这些定性想:将这些定性因素进行量化
由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0,从而将定性因素 定量化。 计量经济学中,将取值为0和1的人工变量称为虚拟变量 (DUMMY)或哑元变量。通常用字母D或DUM表示。
7
一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系:
虚拟变量回归

数据收集
收集不同市场细分群体的基本信息和 产品需求数据,如年龄、性别、收入、 消费习惯等。
变量设置
将市场细分变量转换为虚拟变量,并 引入到回归模型中。
结果分析
分析虚拟变量的系数和显著性,解释 其对产品需求的影响,为市场定位提 供依据。
案例三:教育程度与收入水平的关系研究
目的
研究教育程度对收入水平的影响,以及 不同教育程度对收入水平的差异。
虚拟变量可能依赖于某些自变量,需 要谨慎处理以避免多重共线性问题。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
03
虚拟变量回归的模型构 建
线性回归模型
线性回归模型是最常用的回归分析方法之一,用 于探索自变量与因变量之间的线性关系。
在线性回归模型中,虚拟变量可以作为自变量引 入,以解释和预测因变量的变化。
变量设置
将教育程度转换为虚拟变量,并引入 到回归模型中。
数据收集
收集受访者的教育程度和收入水平数 据。
结果分析
分析虚拟变量的系数和显著性,解释 其对收入水平的影响,为职业规划和 教育投资提供参考。
案例四:健康状况与生活习惯的关系研究
目的
数据收集
研究生活习惯对健康状况的影响,以及不 同生活习惯对健康状况的差异。
虚拟变量回归的应用场景
1 2
社会科学研究
在社会科学研究中,经常需要研究分类变量对连 续变量的影响。例如,研究不同教育程度或不同 职业对收入的影响。
生物统计学
在生物统计学中,虚拟变量回归可用于研究基因 型、物种或地理区域等因素对连续变量的影响。
3
市场分析
在市场分析中,虚拟变量回归可用于研究不同产 品类别、品牌或市场细分对销售或其他连续变量 的影响。
spss第八章虚拟变量

10
模型中引入虚拟变量的作用
1、分离异常因素的影响,例如分析我国 GDP的时间序列,必须考虑“文革”因素 对国民经济的破坏性影响,剔除不可比 的“文革”因素。 2、检验不同属性类型对因变量的作用, 例如工资模型中的文化程度、季节对销 售额的影响。 3、提高模型的精度,相当与将不同属性 的样本合并,扩大了样本容量(增加了 12 误差自由度,从而降低了误差方差)。
虚拟变量在模型中,可以作解释变量,也 可以作因变量。 虚拟变量作解释变量时出现在方程的右端 虚拟变量作因变量(被解释变量)时出现 在方程的左端
9
虚拟变量模型
引入虚拟变量后,回归方程中同时含有一 般解释变量和虚拟变量,称这种结构的模 型为虚拟变量模型或斜方差分析模型。 在第8章(本章)中讨论虚拟自变量模型 在第14章(虚拟因变量)中讨论虚拟因变 量。虚拟变量作因变量又称抉择模型。
虚拟变量设置的原则
在模型中引入多个虚拟变量时,虚拟变量 的个数应按下列原则确定: 如果有 m 种互斥的属性类型,在模型中引 入 m-1 个虚拟变量 例如,性别有2个互斥的属性,引用2-1=1个 虚拟变量 再如,文化程度分小学、初中、高中、大 学、研究生5类,引用4个虚拟变量
13
虚拟变量是一用以反映质的属性的一个人 工变量,通常记为D(Dummy)。 虚拟变量D只取0或1两个值 对基础类型或肯定类型设D=1 对比较类型或否定类型设D=0
7
虚拟变量举例
D= D= 1 0 0 1 本科学历 非本科学历 “文革”时期 非“文革”时期
8
虚拟变量的引入
模型中引入虚拟变量的必要性
现实经济生活错综复杂,往往要求人们按 照经济变量的质或量的不同,分别进行处 理。因此,回归模型中,往往有必要引入 虚拟变量,以表示这些质的区别。例如, 消费函数,对于平时与战时,萧条与繁荣, 乃至性别、教育程度、季节性等等,都会 因质的有不同表现出不同的差异。6虚拟变量的定义
虚拟变量回归

虚拟变量回归
虚拟变量回归是指将一个分类变量转化为虚拟变量(也称为哑变量或指示变量),并将其作为解释变量在回归模型中使用。
虚拟变量是一种二元变量,其中一个变量用1表示某个类别,另一个变量用0表示不属于该类别。
例如,当一个分类变量有三个类别时,可以创建两个虚拟变量来表示这三个类别,分别是0-1变量A和0-1变量B,它们满足如下条件:
- 当分类变量属于A类时,变量A为1,变量B为0;
- 当分类变量属于B类时,变量A为0,变量B为1;
- 当分类变量属于C类时,变量A和变量B均为0。
在回归模型中使用虚拟变量可以使我们将分类变量的不同类别彼此对比,并推断它们对应的不同的回归系数,从而更好地解释和预测因变量。
虚拟变量回归在经济学、社会学、医疗保健等领域中很常见,可以用来研究诸如性别、种族、政治党派、行业等分类变量对某一因变量的影响。
计量经济学第八章关于虚拟变量的回归.

年 薪 Y 女教授
类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质
例:教授薪金与性别、教龄的关系
男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授
比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)
类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质
例:教授薪金与性别、教龄的关系
男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授
比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)
9第八章 虚拟变量回归模型

说明 X i 变动一个单位,机会比率对数平均变化 2 个单位,
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(政府经济政策不变)时模型的截距。当Dt=1时,
Yt=a0+a1+ Xt+ut,这里的(a0+a1)为比较类型(政 府经济政策变动)时模型的截距,为与基础类型相
比较的差异截距系数。
.
14
例如,比较收入时考察性别的影响。当研究男
性收入是否高于女性时,是将女性作为比较的基
础(基础类型,参照物),故有男性为“1”,女
.
8
一、基本概念
定量因素:可直接测度、数值型的因素,GDP、
M2。
定性因素:属性因素,是不能直接测定的、表征
某种属性或状态存在与否的非数值性的因素,如男性
或女性、城市居民或非城市居民、高中低收入群体。
基本思想:
直接在回归模型中加入定性因素存在诸多的困难,
是否可将这些定性因素进行量化,以达到定性因素能
.
4
问题的一般性描述
在实际的经济分析中,这些定性因素有时具有不 可忽视的重要作用。
例如,研究某个企业的销售水平,产业属性(制 造业、零售业)、所有制(私营、非私营)、地理位 置(东、中、西部)、管理者的素质等是值得考虑的 重要影响因素,但这些因素共同的特征是表示某种属 性的(是定性描述的),不能直接用数据精确描述的 变量。
.
10
虚拟变量的定义
➢ 通常虚拟变量的取值为0 和1;
➢ 当虚拟量取值为0,即D=0时,表示某种属性或
状态不出现或不存在,即不是某种类型;
➢ 当虚拟变量取值为1,即D=1时,表示某种属性或
状态出现或存在,即是某种类型;
➢ 例如,构造政府经济政策人工变量,当经济政策
不变时,虚拟变量取值为0,当经济政策改变时,
(0,1)
(0, 0)
天气阴 天气雨 其他
(3)
D1
=
1 0
天气阴 其他
(4)
D2
=
1 0
天气雨 其他
.
16
虚拟变量数量的设置规则
若定性因素具有m个(m≥2)相互排斥属性(水平): 1、当回归模型有截距项时,只能引入m-1个虚拟变 量;否则,就会陷入“虚拟变量陷阱”,产生完全共线 性。 2、当回归模型无截距项时,则可引入m个虚拟变量, 不会导致完全共线性,该情形下虚拟变量参数的估计结 果,实际上是D=1时的被解释变量样本均值。(为什么? 见相关参考教材)
.
3
问题的一般性描述
在前面各章的分析中,被解释变量主要是受可以 直接度量的定量因素的影响,如收入、产出、商品需 求量、价格、成本、人数等。
但现实经济生活中,影响被解释变量变动的因素, 除了可以直接观测数据的定量变量外,可能还包括一 些本质上为定性因素的影响,例如性别、种族、职业、 季节、文化程度、战争、自然灾害、政府经济政策的 变动等。
.
13
例如,比较政府经济政策变动对居民收入X与消
费Y关系的影响。此时是在政府经济政策不变的基
础上进行比较,模型和虚拟变量可以设定为
Yt 0 1Dt Xt ut
(1)
D
=
0 1
,基础类型(政府经济政策不变) ,比较类型(政府经济政策变动)
当Dt=0时,Yt=a0+ Xt+ut,这里的a0为基础类型
计量经济学
第八章 虚拟变量回归
.
1
引子:定性因素对房地产价格有显著影响吗?
不断走高的房地产价格已经成为人们关注的重点。 很多研究认为,影响商品房价格的因素有多个方面。
有关研究表明,影响商品房价格的因素可分为两 类:一类是比较容易量化的定量因素。例如:成本费 用因素、房地产供求因素、经济因素、人口因素等。
.
5
本章要研究的主要问题是: 1.如何将作为解释变量的定性因素引入回 归模型? 2.这些定性解释变量在回归模型中有何特 殊的作用?
.
6
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量 ●虚拟解释变量的回归 ●虚拟被解释变量的回归(选讲,不包括)
.
7
第一节 虚拟变量
本节基本内容:
●基本概念 ●虚拟变量设置规则
性为“0”。
(2)
D
=
1 0
男 女
问题: 为何只选0、1,选2、3、4行吗?为什么?
.
15
属性的状态(水平)数与虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能为多 种状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所
有制,收入的分组等。
(1,0)
如:(D1,D2)=
.
17
一个例子(虚拟变量陷阱)
研究居民住房消费支出Yi和居民可支配收入Xi之间 的数量关系。回归模型的设定为:
Yi = 0 + 1Xi +ui
(1)
现在要考虑城镇居民和农村居民之间的差异,如
何办?为了对 “城镇居民”、“农村居民”进行区
分,分析各自在住房消费支出Yi上的差异,设 Di=1为 城镇居民; Di=0为农村居民,则模型为
另一类则是不易量化的定性因素。例如:社会因 素、区域因素、个别因素、房地产投机因素、自然因 素等。
这些因素的基本特征则是不易量化的定性因素。
.
2
引子:定性因素对房地产价格有显著影响吗?
显然,在研究房地产价格影响机理(用模型)时, 需要分析那些不易量化的定性因素对房地产价格是否 真的有显著影响。
能否把定性的因素也引入计量经济模型中呢? 怎 样才能在模型中有效地表示这些定性因素的作用呢?
与定量因素有着相同作用之目的。
.
9
虚拟变量的定义
计量经济学中,将取值为0和1的人工变量(人为 构造)称为虚拟变量,也称哑元变量、定性变量。
通常用字母D或DUM表示(英文中虚拟或哑元 Dummy的缩写)。
对定性变量的量化可采用虚拟变量的方式实现。 定性因素通常具有若干类型或水平,需要选用适 当数量的虚拟变量加以描述。
.
12
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问 题的目的出发予以界定,要注意区分所代表的 是基础类型还是比较类型。
从理论上讲,虚拟变量取“0”值通常代表比较 的基础类型;而虚拟变量取“1”值通常代表被 比较的类型。
“0”代表基期(比较的基础,参照物);
“1”代表报告期(被比较的效应)。
虚拟变量取值为1;
➢ 这种做法实际上是一种变换或映射,将不能精确
计量的定性因素的水平或状态变换为用 0 和 1 来
定量描述。
.
11
二、虚拟变量设置规则
在计量经济学模型中引入虚拟变量,可以使我 们同时兼顾定量因素和定性因素的影响和作用。但 是,虚拟变量的设置需遵循以下三个规则:
1、“0”和“1”选取原则; 2、属性(状态、水平)因素与设置虚拟变量 数量的关系; 3、虚拟变量在回归分析中的角色以及作用等 方面的问题;
Yt=a0+a1+ Xt+ut,这里的(a0+a1)为比较类型(政 府经济政策变动)时模型的截距,为与基础类型相
比较的差异截距系数。
.
14
例如,比较收入时考察性别的影响。当研究男
性收入是否高于女性时,是将女性作为比较的基
础(基础类型,参照物),故有男性为“1”,女
.
8
一、基本概念
定量因素:可直接测度、数值型的因素,GDP、
M2。
定性因素:属性因素,是不能直接测定的、表征
某种属性或状态存在与否的非数值性的因素,如男性
或女性、城市居民或非城市居民、高中低收入群体。
基本思想:
直接在回归模型中加入定性因素存在诸多的困难,
是否可将这些定性因素进行量化,以达到定性因素能
.
4
问题的一般性描述
在实际的经济分析中,这些定性因素有时具有不 可忽视的重要作用。
例如,研究某个企业的销售水平,产业属性(制 造业、零售业)、所有制(私营、非私营)、地理位 置(东、中、西部)、管理者的素质等是值得考虑的 重要影响因素,但这些因素共同的特征是表示某种属 性的(是定性描述的),不能直接用数据精确描述的 变量。
.
10
虚拟变量的定义
➢ 通常虚拟变量的取值为0 和1;
➢ 当虚拟量取值为0,即D=0时,表示某种属性或
状态不出现或不存在,即不是某种类型;
➢ 当虚拟变量取值为1,即D=1时,表示某种属性或
状态出现或存在,即是某种类型;
➢ 例如,构造政府经济政策人工变量,当经济政策
不变时,虚拟变量取值为0,当经济政策改变时,
(0,1)
(0, 0)
天气阴 天气雨 其他
(3)
D1
=
1 0
天气阴 其他
(4)
D2
=
1 0
天气雨 其他
.
16
虚拟变量数量的设置规则
若定性因素具有m个(m≥2)相互排斥属性(水平): 1、当回归模型有截距项时,只能引入m-1个虚拟变 量;否则,就会陷入“虚拟变量陷阱”,产生完全共线 性。 2、当回归模型无截距项时,则可引入m个虚拟变量, 不会导致完全共线性,该情形下虚拟变量参数的估计结 果,实际上是D=1时的被解释变量样本均值。(为什么? 见相关参考教材)
.
3
问题的一般性描述
在前面各章的分析中,被解释变量主要是受可以 直接度量的定量因素的影响,如收入、产出、商品需 求量、价格、成本、人数等。
但现实经济生活中,影响被解释变量变动的因素, 除了可以直接观测数据的定量变量外,可能还包括一 些本质上为定性因素的影响,例如性别、种族、职业、 季节、文化程度、战争、自然灾害、政府经济政策的 变动等。
.
13
例如,比较政府经济政策变动对居民收入X与消
费Y关系的影响。此时是在政府经济政策不变的基
础上进行比较,模型和虚拟变量可以设定为
Yt 0 1Dt Xt ut
(1)
D
=
0 1
,基础类型(政府经济政策不变) ,比较类型(政府经济政策变动)
当Dt=0时,Yt=a0+ Xt+ut,这里的a0为基础类型
计量经济学
第八章 虚拟变量回归
.
1
引子:定性因素对房地产价格有显著影响吗?
不断走高的房地产价格已经成为人们关注的重点。 很多研究认为,影响商品房价格的因素有多个方面。
有关研究表明,影响商品房价格的因素可分为两 类:一类是比较容易量化的定量因素。例如:成本费 用因素、房地产供求因素、经济因素、人口因素等。
.
5
本章要研究的主要问题是: 1.如何将作为解释变量的定性因素引入回 归模型? 2.这些定性解释变量在回归模型中有何特 殊的作用?
.
6
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量 ●虚拟解释变量的回归 ●虚拟被解释变量的回归(选讲,不包括)
.
7
第一节 虚拟变量
本节基本内容:
●基本概念 ●虚拟变量设置规则
性为“0”。
(2)
D
=
1 0
男 女
问题: 为何只选0、1,选2、3、4行吗?为什么?
.
15
属性的状态(水平)数与虚拟变量数量的关系
定性因素的属性既可能为两种状态,也可能为多 种状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所
有制,收入的分组等。
(1,0)
如:(D1,D2)=
.
17
一个例子(虚拟变量陷阱)
研究居民住房消费支出Yi和居民可支配收入Xi之间 的数量关系。回归模型的设定为:
Yi = 0 + 1Xi +ui
(1)
现在要考虑城镇居民和农村居民之间的差异,如
何办?为了对 “城镇居民”、“农村居民”进行区
分,分析各自在住房消费支出Yi上的差异,设 Di=1为 城镇居民; Di=0为农村居民,则模型为
另一类则是不易量化的定性因素。例如:社会因 素、区域因素、个别因素、房地产投机因素、自然因 素等。
这些因素的基本特征则是不易量化的定性因素。
.
2
引子:定性因素对房地产价格有显著影响吗?
显然,在研究房地产价格影响机理(用模型)时, 需要分析那些不易量化的定性因素对房地产价格是否 真的有显著影响。
能否把定性的因素也引入计量经济模型中呢? 怎 样才能在模型中有效地表示这些定性因素的作用呢?
与定量因素有着相同作用之目的。
.
9
虚拟变量的定义
计量经济学中,将取值为0和1的人工变量(人为 构造)称为虚拟变量,也称哑元变量、定性变量。
通常用字母D或DUM表示(英文中虚拟或哑元 Dummy的缩写)。
对定性变量的量化可采用虚拟变量的方式实现。 定性因素通常具有若干类型或水平,需要选用适 当数量的虚拟变量加以描述。
.
12
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问 题的目的出发予以界定,要注意区分所代表的 是基础类型还是比较类型。
从理论上讲,虚拟变量取“0”值通常代表比较 的基础类型;而虚拟变量取“1”值通常代表被 比较的类型。
“0”代表基期(比较的基础,参照物);
“1”代表报告期(被比较的效应)。
虚拟变量取值为1;
➢ 这种做法实际上是一种变换或映射,将不能精确
计量的定性因素的水平或状态变换为用 0 和 1 来
定量描述。
.
11
二、虚拟变量设置规则
在计量经济学模型中引入虚拟变量,可以使我 们同时兼顾定量因素和定性因素的影响和作用。但 是,虚拟变量的设置需遵循以下三个规则:
1、“0”和“1”选取原则; 2、属性(状态、水平)因素与设置虚拟变量 数量的关系; 3、虚拟变量在回归分析中的角色以及作用等 方面的问题;