第八章虚拟变量1577775632
合集下载
8-3、模型中的特殊解释变量:虚拟变量

第8章 模型中的特殊解释变量 ——虚拟变量
2016/3/29
1
8.3、 虚拟变量(Dummy variables)
8.3.1、.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量 的波动不仅依赖于那种能够很容易按某种尺度定量化的 变量(如收入、产出、价格、身高、体重等),而且依 赖于某些定性的变量(如性别、地区、季节等)。 在经济系统中,许多变动是不能定量的。如政府的更 迭(工党 - 保守党)、经济体制的改革、固定汇率变为 浮动汇率、从战时经济转为和平时期经济等。 这样一些变动都可以用 0-1 变量来表示,用 1 表示具有 某一“品质”或属性,用0表示不具有该“品质”或属 性。这种变量在计量经济学中称为“虚拟变量”。虚拟 变量使得我们可以将那些无法定量化的变量引入回归模 型中。
2016/3/29 2
下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方 法是分别进行两类情况的回归,然后检验参数是否 不同。另一种方法是用全部观测值作单一回归,将 定性因素的影响用虚拟变量引入模型。
女1 0 女2 0 男2 1 女3 0 男3 1 男4 1 女4 0 女5 0
21.2
男5 1
试建立模型研究之。
2016/3/29
9
4、虚拟变量在分段回归中的应用
2016/3/29
2016/3/29
1
8.3、 虚拟变量(Dummy variables)
8.3.1、.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量 的波动不仅依赖于那种能够很容易按某种尺度定量化的 变量(如收入、产出、价格、身高、体重等),而且依 赖于某些定性的变量(如性别、地区、季节等)。 在经济系统中,许多变动是不能定量的。如政府的更 迭(工党 - 保守党)、经济体制的改革、固定汇率变为 浮动汇率、从战时经济转为和平时期经济等。 这样一些变动都可以用 0-1 变量来表示,用 1 表示具有 某一“品质”或属性,用0表示不具有该“品质”或属 性。这种变量在计量经济学中称为“虚拟变量”。虚拟 变量使得我们可以将那些无法定量化的变量引入回归模 型中。
2016/3/29 2
下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样 本中,既有女性又有男性,你打算研究在此关系中, 性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集 的样本中既包括农村家庭,又包括城镇家庭,你打 算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测 期中,有些年份政府实行了一项收入政策。你想检 验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方 法是分别进行两类情况的回归,然后检验参数是否 不同。另一种方法是用全部观测值作单一回归,将 定性因素的影响用虚拟变量引入模型。
女1 0 女2 0 男2 1 女3 0 男3 1 男4 1 女4 0 女5 0
21.2
男5 1
试建立模型研究之。
2016/3/29
9
4、虚拟变量在分段回归中的应用
2016/3/29
虚拟变量

D= 0, 非本科学历
一般地,在虚拟变量的设置中:
• 基础类型、肯定类型取值为1;
• 比较类型,否定类型取值为0。
概念:
同时含有一般解释变量与虚拟变量的模型称为虚拟 变量模型。
例1:为了考察企业职工薪金收入(Yi)的情况, 以工龄(Xi)和性别(Di)为影响因素,建立如 下模型:
Yi 0 1 X i 2 Di i
其中: Di=1,若是男性, Di=0,若是女性。
二、虚拟变量的引入
• 虚拟变量做为解释变量引入模型有两种基本方式:加法 方式和乘法方式。
1、加法方式
上述企业职工薪金模型中性别虚拟变量的引入: Yi 0 1 X i 2 Di i
在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
表中给出了中国1979~2001年以城乡储蓄存款余 额代表的居民储蓄以及以GNP代表的居民收入的数 据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
表 5.1.1
储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
R 2 =0.9836
由2与3的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的,
储蓄函数分别为:
1990年前: 1990年后:
Yˆi 1649.7 0.4116Xi Yˆi 15452 0.8881Xi
三、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
如果某个定性变量有m种相互排斥的类型,则模型中只能 引入m-1个虚拟变量。否则会陷入所谓的“虚拟变量陷阱”, 产生完全共线性。
一般地,在虚拟变量的设置中:
• 基础类型、肯定类型取值为1;
• 比较类型,否定类型取值为0。
概念:
同时含有一般解释变量与虚拟变量的模型称为虚拟 变量模型。
例1:为了考察企业职工薪金收入(Yi)的情况, 以工龄(Xi)和性别(Di)为影响因素,建立如 下模型:
Yi 0 1 X i 2 Di i
其中: Di=1,若是男性, Di=0,若是女性。
二、虚拟变量的引入
• 虚拟变量做为解释变量引入模型有两种基本方式:加法 方式和乘法方式。
1、加法方式
上述企业职工薪金模型中性别虚拟变量的引入: Yi 0 1 X i 2 Di i
在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
表中给出了中国1979~2001年以城乡储蓄存款余 额代表的居民储蓄以及以GNP代表的居民收入的数 据。
90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
表 5.1.1
储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2
R 2 =0.9836
由2与3的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的,
储蓄函数分别为:
1990年前: 1990年后:
Yˆi 1649.7 0.4116Xi Yˆi 15452 0.8881Xi
三、虚拟变量的设置原则
虚拟变量的个数须按以下原则确定:
如果某个定性变量有m种相互排斥的类型,则模型中只能 引入m-1个虚拟变量。否则会陷入所谓的“虚拟变量陷阱”, 产生完全共线性。
第8讲 虚拟变量

的是,不能直接检验引资效果:在相同的时期内,非引资银 行也可能发生了显著的变化
❖ 从某省的51个县(市)收集了当地教师的平均年 薪数据,并处理成Excel文档(data_8.1)。
❖ 在这51个县(市)中,有13个县(市)属于东部, 21个县(市)属于中部,17 个县(市)属于西部。
© School of Management and Economics, 2010
描述性统计分析
房屋价格
房屋的土 地面积
建筑 年龄
卧室 数目
是否有 壁炉
是否面 朝海滩
P R I C E i 0 1 L O T i 2 A G E i 3 B E D i 4 F I R E i 5 B E A C H i i
© School of Management and Economics, 2010
(-6.11) (22.89) (4.33) (-2.55) R 2 =0.9836
由3与4的t检验可知:参数显著地不等于0,强烈示出两个
时期的回归是相异的。
储蓄函数分别为:ຫໍສະໝຸດ 1992年前: 1992年后:
Y ˆi 16 .7 4 0 .4 91 X i16 Y ˆi 15 4 0 .8 58 2 X i81
第八讲 虚拟变量
战研略究引问资题现状
❖引进境外战略投资者能否真正提高中资银 行的风险管理能力?
➢能?为什么? ➢不能?为什么? ➢怎样检验?
© School of Management and Economics, 2010
第八讲 虚拟变量
战研略究引设资计现状
❖ 检验中资银行哪方面的风险管理能力?
Di为引入的虚拟变量:
Di
1
0
❖ 从某省的51个县(市)收集了当地教师的平均年 薪数据,并处理成Excel文档(data_8.1)。
❖ 在这51个县(市)中,有13个县(市)属于东部, 21个县(市)属于中部,17 个县(市)属于西部。
© School of Management and Economics, 2010
描述性统计分析
房屋价格
房屋的土 地面积
建筑 年龄
卧室 数目
是否有 壁炉
是否面 朝海滩
P R I C E i 0 1 L O T i 2 A G E i 3 B E D i 4 F I R E i 5 B E A C H i i
© School of Management and Economics, 2010
(-6.11) (22.89) (4.33) (-2.55) R 2 =0.9836
由3与4的t检验可知:参数显著地不等于0,强烈示出两个
时期的回归是相异的。
储蓄函数分别为:ຫໍສະໝຸດ 1992年前: 1992年后:
Y ˆi 16 .7 4 0 .4 91 X i16 Y ˆi 15 4 0 .8 58 2 X i81
第八讲 虚拟变量
战研略究引问资题现状
❖引进境外战略投资者能否真正提高中资银 行的风险管理能力?
➢能?为什么? ➢不能?为什么? ➢怎样检验?
© School of Management and Economics, 2010
第八讲 虚拟变量
战研略究引设资计现状
❖ 检验中资银行哪方面的风险管理能力?
Di为引入的虚拟变量:
Di
1
0
8第八章包含虚拟变量的回归

D1=1,大学;=0,其他 D2=1,中学;=0,其他 D3=1,中学以下;=0,其他 回归方程为: Y=b0+b1 X1 +
c1D1 +c2 D2+ c3 D3
引入二个虚拟变量
D1=1,大学;=0,其他 D2=1,中学;=0,其他
Y=b0+b1 X1 +
c1D1 +c2 D2
2、模型中一个定性变量,该变量 具有多种分类,p218
即多分定性变量 假定根据横截面数据,我们做个人旅游支 出Y对其收入X和学历的回归,学历这个定 性变量,可分为:
中学以下、中学、大学三个层次,
如何设置虚拟变量?
我们有如下选择
引入一个虚拟变量D 引入三个虚拟变量
D= 2,大学;=1,中学;=0,中学以下 回归方程为:Y=b0+b1 X1 +b2 D
这里有两个两分定性变量,肤色和种族 可引入两个虚拟变量
例-性别、肤色和工龄、学历(3种类型) 一起解释薪酬
性别、肤色分别引入2个虚拟变量,学历引入2
个虚拟变量
例题
P221 10-18:性别、种族对收入的影响
Y-小时工资,X-教育年限 D2-=1(女性);=0(男性) D3-=1(非白种人且非西班牙裔);=0(其 他) Y^=-0.26-2.36 D2-1.73 D3+0.80X 总结:每个定性变量所需引入的虚拟变量 比该变量类型数少一。 返回
对于方程10-18 ,其样本回归线
Y^=-0.26-2.36 D2-1.73 D3+0.80X,隐含假定
了不同性别下,种族变量对收入的影响是一样 的。同样的,不同种族下,性别变量对收入的 影响也是相同的。
c1D1 +c2 D2+ c3 D3
引入二个虚拟变量
D1=1,大学;=0,其他 D2=1,中学;=0,其他
Y=b0+b1 X1 +
c1D1 +c2 D2
2、模型中一个定性变量,该变量 具有多种分类,p218
即多分定性变量 假定根据横截面数据,我们做个人旅游支 出Y对其收入X和学历的回归,学历这个定 性变量,可分为:
中学以下、中学、大学三个层次,
如何设置虚拟变量?
我们有如下选择
引入一个虚拟变量D 引入三个虚拟变量
D= 2,大学;=1,中学;=0,中学以下 回归方程为:Y=b0+b1 X1 +b2 D
这里有两个两分定性变量,肤色和种族 可引入两个虚拟变量
例-性别、肤色和工龄、学历(3种类型) 一起解释薪酬
性别、肤色分别引入2个虚拟变量,学历引入2
个虚拟变量
例题
P221 10-18:性别、种族对收入的影响
Y-小时工资,X-教育年限 D2-=1(女性);=0(男性) D3-=1(非白种人且非西班牙裔);=0(其 他) Y^=-0.26-2.36 D2-1.73 D3+0.80X 总结:每个定性变量所需引入的虚拟变量 比该变量类型数少一。 返回
对于方程10-18 ,其样本回归线
Y^=-0.26-2.36 D2-1.73 D3+0.80X,隐含假定
了不同性别下,种族变量对收入的影响是一样 的。同样的,不同种族下,性别变量对收入的 影响也是相同的。
计量经济学课件虚拟变量

提高模型精度和预测能力
通过引入虚拟变量,可以更准确地刻画经济现象的非线性特征,从而提高计量经济学模型 的精度和预测能力。
拓展应用领域
虚拟变量的引入使得计量经济学模型能够应用于更多的领域,如金融、环境、社会等,进 一步拓展了计量经济学的应用范围。
未来研究方向和趋势
深入研究虚拟变量的理论 和方法
未来研究将进一步深入探讨虚 拟变量的理论和方法,包括虚 拟变量的选择、设定和估计方 法等,以更准确地刻画经济现 象。
https://
未来研究将积极推动虚拟变量 在交叉学科领域的应用,如环 境经济学、金融经济学等,以 促进不同学科之间的交流和合 作。
WENKU DESIGN
WENKU DESIGN
2023-2026
END
THANKS
感谢观看
KEEP VIEW
WENKU DESIGN
WENKU DESIGN
WENKU
REPORTING
要点二
虚拟变量的设置原则
在设置虚拟变量时,需要遵循完备性 和互斥性的原则。完备性要求虚拟变 量的取值能够覆盖所有可能的情况, 而互斥性则要求不同虚拟变量之间不 能存在重叠或交叉的情况。
要点三
虚拟变量的回归系数 解释
在线性回归模型中,虚拟变量的回归 系数表示该定性因素对因变量的影响 程度。当虚拟变量取值为1时,其对 应的回归系数表示该水平与参照水平 相比对因变量的影响;当虚拟变量取 值为0时,则表示该水平对因变量没 有影响。
参数估计与假设检验
参数估计
采用最小二乘法等估计方法,对引入虚拟变量后的模型进行参数估计,得到各 解释变量的系数估计值。
假设检验
根据研究问题和假设,构建相应的原假设和备择假设,通过t检验、F检验等方 法对参数进行假设检验,判断虚拟变量对模型的影响是否显著。
通过引入虚拟变量,可以更准确地刻画经济现象的非线性特征,从而提高计量经济学模型 的精度和预测能力。
拓展应用领域
虚拟变量的引入使得计量经济学模型能够应用于更多的领域,如金融、环境、社会等,进 一步拓展了计量经济学的应用范围。
未来研究方向和趋势
深入研究虚拟变量的理论 和方法
未来研究将进一步深入探讨虚 拟变量的理论和方法,包括虚 拟变量的选择、设定和估计方 法等,以更准确地刻画经济现 象。
https://
未来研究将积极推动虚拟变量 在交叉学科领域的应用,如环 境经济学、金融经济学等,以 促进不同学科之间的交流和合 作。
WENKU DESIGN
WENKU DESIGN
2023-2026
END
THANKS
感谢观看
KEEP VIEW
WENKU DESIGN
WENKU DESIGN
WENKU
REPORTING
要点二
虚拟变量的设置原则
在设置虚拟变量时,需要遵循完备性 和互斥性的原则。完备性要求虚拟变 量的取值能够覆盖所有可能的情况, 而互斥性则要求不同虚拟变量之间不 能存在重叠或交叉的情况。
要点三
虚拟变量的回归系数 解释
在线性回归模型中,虚拟变量的回归 系数表示该定性因素对因变量的影响 程度。当虚拟变量取值为1时,其对 应的回归系数表示该水平与参照水平 相比对因变量的影响;当虚拟变量取 值为0时,则表示该水平对因变量没 有影响。
参数估计与假设检验
参数估计
采用最小二乘法等估计方法,对引入虚拟变量后的模型进行参数估计,得到各 解释变量的系数估计值。
假设检验
根据研究问题和假设,构建相应的原假设和备择假设,通过t检验、F检验等方 法对参数进行假设检验,判断虚拟变量对模型的影响是否显著。
第五章虚拟变量-第八章虚拟变量

D1 D2 D3 D4 1,
说明虚拟解释变量 D1,D2,D3,D4 存在完全的多重共线性 从而无法用普通最小二乘法进行估计。 反映季节因素的商品需求模型为:
Yt 0 1 X 1t 2 X 2t 3 D1t 4 D2t 5 D3t t
例3、由经济实际得知,出口消费品数量Y 主要取决于国民支出X,我国革新开放前 后出口消费品的数量发作清楚变化,以 1979年为转机期,树立出口消费品需求 模型,并反映这种变化。
Yt 0 1 X i i
式中,Y 是职工工资收入;X 是工龄 考虑职工收入受教育程度的影响而引入合适的虚拟 变量,对上述模型加以改进。
解:教育程度一般分为:高中以下,高中,大学及以上(包括大专) 这样教育程度有三个特征,故引入两个虚拟变量,并设教育程度的 改变,只影响截距的变动。
D1=
1, 0,
Yt 0 1 X t t
1979 年以后,Dt 为 1, 模型为
Yt
0
2X
* t
1 2 X t t
第5章习题
一、单项选择题 1、假设一个回归模型中不包括截距项,对一个
具有m个特征的质的要素需求引入的虚拟变量 的个数为: A、m B、m-1 C、m-2 D、m+1
2、设团体消费函数Yi=c0+c1Xi+ui中,消费支出Y不只 与支出X有关,而且与消费者的性别、年龄构成有关, 年龄构成可分为青年、中年和老年三个层次,假定边 沿消费倾向不变,那么思索上述要素的影响,该函数 引入虚拟变量的个数为:
的需求模型为: Yt 0 1 X 1t 2 X 2t t
式中,Y 是商品的需求量,X1 是价格,X2 时收入, 为了反映四个季节对商品需求量的影响,假定引入四个虚拟变量:
说明虚拟解释变量 D1,D2,D3,D4 存在完全的多重共线性 从而无法用普通最小二乘法进行估计。 反映季节因素的商品需求模型为:
Yt 0 1 X 1t 2 X 2t 3 D1t 4 D2t 5 D3t t
例3、由经济实际得知,出口消费品数量Y 主要取决于国民支出X,我国革新开放前 后出口消费品的数量发作清楚变化,以 1979年为转机期,树立出口消费品需求 模型,并反映这种变化。
Yt 0 1 X i i
式中,Y 是职工工资收入;X 是工龄 考虑职工收入受教育程度的影响而引入合适的虚拟 变量,对上述模型加以改进。
解:教育程度一般分为:高中以下,高中,大学及以上(包括大专) 这样教育程度有三个特征,故引入两个虚拟变量,并设教育程度的 改变,只影响截距的变动。
D1=
1, 0,
Yt 0 1 X t t
1979 年以后,Dt 为 1, 模型为
Yt
0
2X
* t
1 2 X t t
第5章习题
一、单项选择题 1、假设一个回归模型中不包括截距项,对一个
具有m个特征的质的要素需求引入的虚拟变量 的个数为: A、m B、m-1 C、m-2 D、m+1
2、设团体消费函数Yi=c0+c1Xi+ui中,消费支出Y不只 与支出X有关,而且与消费者的性别、年龄构成有关, 年龄构成可分为青年、中年和老年三个层次,假定边 沿消费倾向不变,那么思索上述要素的影响,该函数 引入虚拟变量的个数为:
的需求模型为: Yt 0 1 X 1t 2 X 2t t
式中,Y 是商品的需求量,X1 是价格,X2 时收入, 为了反映四个季节对商品需求量的影响,假定引入四个虚拟变量:
计量经济学第八章 虚拟变量回归

计量经济学
第八章
虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归
2
本章的教学目标
(1)深刻理解定性因素在计量经济分析中的 背景和含义; (2)明确虚拟变量在建立和估计计量经济模 型中的意义和作用; (3)熟练掌握引入和应用虚拟变量的基本思 想和方法; (4)能够运用虚拟变量模型作相应的经济实 证分析方面的应用; (5)掌握Eviews软件中相关内容的操作方法。
这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5
年 份
城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 (Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
29
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
第八章
虚拟变量回归
1
第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归
2
本章的教学目标
(1)深刻理解定性因素在计量经济分析中的 背景和含义; (2)明确虚拟变量在建立和估计计量经济模 型中的意义和作用; (3)熟练掌握引入和应用虚拟变量的基本思 想和方法; (4)能够运用虚拟变量模型作相应的经济实 证分析方面的应用; (5)掌握Eviews软件中相关内容的操作方法。
这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。
20
上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5
年 份
城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 (Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5
(1,0) 天气阴 如:(D1 ,D2)= (0,1) 天气雨 (0,0) 其 他
29
虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入
8第八章虚拟变量回归new

三类年薪函数的差异情况如下图所示:
年薪 α1
α2 -α1
研究生 本科 大专以下
工龄
设置虚拟变量D或增设D3行吗?
2 D= 1
0
博士研究生
硕士研究D生 2
本科及以下
1 0
研究生 其他
(2)多个因素各两种类型
如果有m个定性因素,且每个因素各有两个不 同的属性类型,则引入 m 个虚拟变量。
例如,研究居民住房消费函数时,考虑到城乡 的差异以及不同收入层次的影响,将消费函数取成: yi=a+bxi+α1D1i+α2D2i +εi
【例】现有1998年我国城镇居民人均收入与彩 电每百户拥有量的统计资料。
9
观察相关图
从相关图可以看出, 前3个样本点与后5个样 本点存在较大差异,因 此,可设置虚拟变量反 映“收入层次”:
D
1 0
中高收入家庭 低收入家庭
10
将我国城镇居民的彩电需求函数设成:
Yi=a+bxi+αDi+βXDi+εi DATA D1
其中y ,x分别是居民住房消费支出和可支配收 入,虚拟变量设为:
1 农村居民 D1 0 城镇居民
1 高收入家庭 D2 0 低费情况:
城市低收入家庭 城市高收入家庭 农村低收入家庭 农村高收入家庭
(D1=0,D2=0)
(D1=0,D2=1) (D1=1,D2=0) (D1=1,D2=1)
政策紧缩 政策宽松
D
1 0
本科以上学历 本科以下学历
变量的划分应遵循穷举与互斥原则。
5
二、作用
⑴可以描述和测量定性因素的影响。
⑵能够正确反映经济变量之间的相互关系,提高模 型的精度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 虚拟变量
1
第一节 虚拟变量
回顾:前面各章讨论的变量都是可以直接用数字计 量的,即可以获得其实际观测值(如收入、支出、 产量物价水平等等)。这些变量称作数量变量。
然而,影响被解释变量的不仅有量的因素,还有质 的因素(如性别、民族、职业、季节、政策等等)
2
一、虚拟变量的概念
虚拟变量是用以反映质的属性的一个人工变量,取 值为 0 或 1,通常记为 D(Dummy Variable),又 可称之为属性变量、双值变量、类型变量、定性变 量、或二元型变量。
16
Yi
α0+α1 α0 Xi
17ห้องสมุดไป่ตู้
对模型 Yi=α0+α1Di+βXi+ ui 使用OLS法,可得:
yˆi ˆ0 ˆ1Di ˆi xi
对α1 进行 t 检验,若α1≠ 0 ,则说明城市居民与农 村居民的消费水平有明显差异。
18
假如还要考虑男女消费水平的差异,消费函数为:
Yi =α0+α1D1i+α2D2i+βXi+ui Yi 为消费水平,Xi 为家庭收入,D1i和D2i为虚拟变量。
第一组:20~35岁的居民 第二组:35~60岁的居民 用“1”表示第一年龄组;“0”表示第二年龄组,
就可以估计年龄对储蓄的影响。
5
二、虚拟变量的设置规则
1.两个属性的表示法 如性别有两个属性:用 Di 表示
1 Di 0
(男) (女)
即:两个属性引入一个变量即可!
6
2.多个属性的表示法
1 (城市) D1 0 (农村)
1 (男) D2 0 (女)
D1
城市男性
1
城市女性
1
农村男性
0
农村女性
0
D2 1 0 1 0
9
一般地,若有m个因素,而每个因素都只有两个 不同的属性类型,则引入m个虚拟变量。
思考:现有三个定性因素,有两个因素各有4个 不同的属性,一个因素有2个不同的属性,应设 多少个虚拟变量? (应设3+3+1=7个虚拟变量)
注意:虚拟变量D只能取0或1两个值,即属性之间 不能运算!
对基础类型或否定类型设 D=0 对比较类型或肯定类型设 D=1
3
说明
虚拟变量主要是用来代表质的因素,但有些情况下 也可以用来代表数量因素。
例如:在建立储蓄函数时,“年龄”是一个重要的 解释变量。虽然“年龄”是一个数量因素,但为了 方便也可以用虚拟变量表示。例如:可以把居民分 为两个年龄组:
乡居民消费水平的差异,消费函数可设为: Yi=α0+α1Di+βXi+ ui
Yi 为消费水平,Xi 为居民收入,Di为虚拟变量。
1 (城市) Di 0 (农村)
15
E( yi xi , Di 0) 0 xi
表示农村居民的消费水平
E( yi xi , Di 1) 0 1 xi
表示城市居民的消费水平 假设α1>0,可得到下图:
25
二、乘法类型(斜率变动模型) 以乘法形式引入虚拟变量,是在所设定的模型中,
将虚拟解释变量与其他解释变量相乘作为新的解 释变量,以达到调整斜率系数的目的。主要作用 在于: (1)比较两个回归模型; (2)分析因素间的交互影响; (3)提高模型的描述精度。
26
1、回归模型的比较
例如,研究改革开放前后储蓄、收入的总量关系, 分别设定模型如下:
假设学历有四个属性:博士、硕士、本科、本科以 下等,则:
1 (博士)
1 (硕士)
1 (本科)
D1 0
(其他) D2 0
(其他)
D3
0
(其他)
为什么四个属性只引入3个变量呢?
7
变量
属性
D1
D2
D3
博士
1
0
0
硕士
0
1
0
本科
0
0
1
本科以下
0
0
0
即:m个属性引入(m-1)个变量即可。
8
3.多个因素各两个属性的表示法 如需要同时表示城乡差别和性别差别
这就是虚拟变量陷阱问题!
23
克服虚拟变量陷阱的方法 改为引入虚拟变量:
1 ( 第 j 季,j 2, 3, 4) Dji 0 ( 其他季 )
即第一季度用D2i D3i D4i 0表示。
此时销售函数调整为:
Ci 0 2 D2i 3 D3i 4 D4i Pi i
24
引入虚拟变量的规则补充说明 对于具有m个属性的虚拟变量: 若模型中含有截距项,引入 m-1个虚拟变量; 若模型中不含有截距项,引入 m 个虚拟变量。
四、虚拟变量模型
在计量经济模型中,把包含有虚拟变量的模型称为 虚拟变量模型。
常用的有三种类型: (1)解释变量中只包含虚拟变量; (2)解释变量中既含有定量变量,又含有虚拟变
量; (3)被解释变量本身为虚拟变量。
12
第二节 虚拟解释变量的回归
一、加法类型(截距变动模型)
1、解释变量中只有虚拟变量 如:调查某地区性别与收入之间的关系,可以用
=1(第一季) =1(第二季) =1(第三季) =1(第四季) =0(其他季) =0(其他季) =0(其他季) =0(其他季) 如果引入4个虚拟变量会出现什么问题呢?
22
D1i D2i D3i D4i 1
可视为截距项的解释变 量,即α0= α0×1
所以引入4个虚拟变量出现了完全多重共线性的问 题! OLS法不能使用!
模型表示如下: Yi =α+βDi + ui
Yi代表收入,Di为虚拟变量:
1 Di 0
(男) (女)
13
代表女 性收入
代表男性与女性收
入之间的差额
OLS yˆ i ˆ ˆDi,对进行t检验,若 0,则说明收入与性别有 明显的关系。
14
2、解释变量中既有定量变量又有虚拟变量 如研究消费水平与居民收入的关系时,还要考虑城
10
三、虚拟变量的作用 1.可以描述和测量定性因素的影响 2.分离异常因素的影响
例如分析我国GDP的时间序列,必须考虑“文革” 因素对国民经济的破坏性影响,剔除不可比的“文 革”因素。 3.检验不同属性类型对因变量的作用 例如工资模型中的文化程度、季节对销售额的影响。 4.提高模型的精度
11
1 D1i 0
(城市) (农村)
1 D2i 0
(男性) (女性)
19
表示城市男性的消费水平
表示城市女性的消费水平
表示农村男性的消费水平
E( yi xi , D1i 0, D2i 0) 0 xi
表示农村女性的消费水平
20
Yi
α2
α1 α2
α0
Xi
21
虚拟变量陷阱 如某些商品的销售量有季节性,假设销售函数为:
1
第一节 虚拟变量
回顾:前面各章讨论的变量都是可以直接用数字计 量的,即可以获得其实际观测值(如收入、支出、 产量物价水平等等)。这些变量称作数量变量。
然而,影响被解释变量的不仅有量的因素,还有质 的因素(如性别、民族、职业、季节、政策等等)
2
一、虚拟变量的概念
虚拟变量是用以反映质的属性的一个人工变量,取 值为 0 或 1,通常记为 D(Dummy Variable),又 可称之为属性变量、双值变量、类型变量、定性变 量、或二元型变量。
16
Yi
α0+α1 α0 Xi
17ห้องสมุดไป่ตู้
对模型 Yi=α0+α1Di+βXi+ ui 使用OLS法,可得:
yˆi ˆ0 ˆ1Di ˆi xi
对α1 进行 t 检验,若α1≠ 0 ,则说明城市居民与农 村居民的消费水平有明显差异。
18
假如还要考虑男女消费水平的差异,消费函数为:
Yi =α0+α1D1i+α2D2i+βXi+ui Yi 为消费水平,Xi 为家庭收入,D1i和D2i为虚拟变量。
第一组:20~35岁的居民 第二组:35~60岁的居民 用“1”表示第一年龄组;“0”表示第二年龄组,
就可以估计年龄对储蓄的影响。
5
二、虚拟变量的设置规则
1.两个属性的表示法 如性别有两个属性:用 Di 表示
1 Di 0
(男) (女)
即:两个属性引入一个变量即可!
6
2.多个属性的表示法
1 (城市) D1 0 (农村)
1 (男) D2 0 (女)
D1
城市男性
1
城市女性
1
农村男性
0
农村女性
0
D2 1 0 1 0
9
一般地,若有m个因素,而每个因素都只有两个 不同的属性类型,则引入m个虚拟变量。
思考:现有三个定性因素,有两个因素各有4个 不同的属性,一个因素有2个不同的属性,应设 多少个虚拟变量? (应设3+3+1=7个虚拟变量)
注意:虚拟变量D只能取0或1两个值,即属性之间 不能运算!
对基础类型或否定类型设 D=0 对比较类型或肯定类型设 D=1
3
说明
虚拟变量主要是用来代表质的因素,但有些情况下 也可以用来代表数量因素。
例如:在建立储蓄函数时,“年龄”是一个重要的 解释变量。虽然“年龄”是一个数量因素,但为了 方便也可以用虚拟变量表示。例如:可以把居民分 为两个年龄组:
乡居民消费水平的差异,消费函数可设为: Yi=α0+α1Di+βXi+ ui
Yi 为消费水平,Xi 为居民收入,Di为虚拟变量。
1 (城市) Di 0 (农村)
15
E( yi xi , Di 0) 0 xi
表示农村居民的消费水平
E( yi xi , Di 1) 0 1 xi
表示城市居民的消费水平 假设α1>0,可得到下图:
25
二、乘法类型(斜率变动模型) 以乘法形式引入虚拟变量,是在所设定的模型中,
将虚拟解释变量与其他解释变量相乘作为新的解 释变量,以达到调整斜率系数的目的。主要作用 在于: (1)比较两个回归模型; (2)分析因素间的交互影响; (3)提高模型的描述精度。
26
1、回归模型的比较
例如,研究改革开放前后储蓄、收入的总量关系, 分别设定模型如下:
假设学历有四个属性:博士、硕士、本科、本科以 下等,则:
1 (博士)
1 (硕士)
1 (本科)
D1 0
(其他) D2 0
(其他)
D3
0
(其他)
为什么四个属性只引入3个变量呢?
7
变量
属性
D1
D2
D3
博士
1
0
0
硕士
0
1
0
本科
0
0
1
本科以下
0
0
0
即:m个属性引入(m-1)个变量即可。
8
3.多个因素各两个属性的表示法 如需要同时表示城乡差别和性别差别
这就是虚拟变量陷阱问题!
23
克服虚拟变量陷阱的方法 改为引入虚拟变量:
1 ( 第 j 季,j 2, 3, 4) Dji 0 ( 其他季 )
即第一季度用D2i D3i D4i 0表示。
此时销售函数调整为:
Ci 0 2 D2i 3 D3i 4 D4i Pi i
24
引入虚拟变量的规则补充说明 对于具有m个属性的虚拟变量: 若模型中含有截距项,引入 m-1个虚拟变量; 若模型中不含有截距项,引入 m 个虚拟变量。
四、虚拟变量模型
在计量经济模型中,把包含有虚拟变量的模型称为 虚拟变量模型。
常用的有三种类型: (1)解释变量中只包含虚拟变量; (2)解释变量中既含有定量变量,又含有虚拟变
量; (3)被解释变量本身为虚拟变量。
12
第二节 虚拟解释变量的回归
一、加法类型(截距变动模型)
1、解释变量中只有虚拟变量 如:调查某地区性别与收入之间的关系,可以用
=1(第一季) =1(第二季) =1(第三季) =1(第四季) =0(其他季) =0(其他季) =0(其他季) =0(其他季) 如果引入4个虚拟变量会出现什么问题呢?
22
D1i D2i D3i D4i 1
可视为截距项的解释变 量,即α0= α0×1
所以引入4个虚拟变量出现了完全多重共线性的问 题! OLS法不能使用!
模型表示如下: Yi =α+βDi + ui
Yi代表收入,Di为虚拟变量:
1 Di 0
(男) (女)
13
代表女 性收入
代表男性与女性收
入之间的差额
OLS yˆ i ˆ ˆDi,对进行t检验,若 0,则说明收入与性别有 明显的关系。
14
2、解释变量中既有定量变量又有虚拟变量 如研究消费水平与居民收入的关系时,还要考虑城
10
三、虚拟变量的作用 1.可以描述和测量定性因素的影响 2.分离异常因素的影响
例如分析我国GDP的时间序列,必须考虑“文革” 因素对国民经济的破坏性影响,剔除不可比的“文 革”因素。 3.检验不同属性类型对因变量的作用 例如工资模型中的文化程度、季节对销售额的影响。 4.提高模型的精度
11
1 D1i 0
(城市) (农村)
1 D2i 0
(男性) (女性)
19
表示城市男性的消费水平
表示城市女性的消费水平
表示农村男性的消费水平
E( yi xi , D1i 0, D2i 0) 0 xi
表示农村女性的消费水平
20
Yi
α2
α1 α2
α0
Xi
21
虚拟变量陷阱 如某些商品的销售量有季节性,假设销售函数为: