7--虚拟变量和变参数模型
第七章 虚拟变量

第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。
如收入、支出、价格、资金等等。
但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。
属性变量:不能精确计量的说明某种属性或状态的定性变量。
在计量经济模型中,应当包含属性变量对应变量的影响作用。
那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。
为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。
由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。
既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。
称为虚拟变量。
虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。
一般常用D表示。
D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。
当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。
二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。
4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。
计量经济学第5章 虚拟变量模型

在经济计量模型中除了有量的因素外还有质的因 素,质的因素包括被解释变量为质的因素和解释变量 为质的因素。如果被解释变量为质的因素,主要是逻 辑回归要涉及的内容。本章就解释变量和被解释变量 为质的因素也就是存在虚拟解释变量和虚拟被解释变 量时如何进行参数估计等一系列问题进行讨论。
1
为基础类型截距项。
12
三、虚拟变量的作用 ⑴ 可以描述和测量定性因素的影响。
⑵ 能够正确反映经济变量之间的相互关系,提 高模型的精度。
⑶ 便于处理异常数据。
即将异常数据作为一个特殊的定性因素
1 , 异常时期
D
0
,
正常时期
13
第二节 虚拟解释变量模型
一 、截距变动模型(加法模型)
虚拟变量与其它变量相加,以加法形式引入模
Y i 0 1 D 1 i 2 D 2 i 3 X i u i
Y i ------年支出医疗保健费用支出 X i ------居民年可支配收入
18
1 , 高中
D 1i
0
,
其他
1 , 大学
D 2i
0
,
其他
于是:小学教育程度:
E (Y i X i,D 1 i 0 ,D 2 i 0 )03 X i
7
二、虚拟变量的设置规则
虚拟解释变量模型的设定因为质的因素的多少 和这些因素特征的多少而引入的虚拟变量也会不同。
以一个最简单的虚拟变量模型为例,如果只包 含一个质的因素,而且这个因素仅有两个特征,则 回归模型中只需引入一个虚拟变量。如果是含有多 个质的因素, 自然要引入多个虚拟变量。
8
如果只有一个质的因素,且该质的因素具有 m 个 相互排斥的特征(或类型、属性),那么在含有截距 项的模型中,只能引入 m-1 个虚拟变量,否则会陷入 所谓“虚拟变量陷阱”(dummy variable trap),产 生 完全的多重共线性,会使最小二乘法无解;在不含有 截距项的模型中, 引入 m 个虚拟变量不会导致完全 的多重共线性,不过这时虚拟变量参数的估计结果, 实际上是 D = 1 时的样本均值。
金融计量经济第五讲虚拟变量模型和Probit、Logit模型

二、虚拟变量的设置原则
• 引入虚拟变量一般取0和1。
• 对定性因素一般取级别数减1个虚拟变量。例 子1:性别因素,二个级别(男、女)取一个 虚拟变量,D=1表示男(女),D=0表示女 (男)。
• 例子2:季度因素,四个季度取3个变量。
1, 一季度 D1 0, 其它季度
1, 二季度
D2
0,
其它季度
• 同样可以写成二个模型:
y ˆi ˆ0(ˆˆ1)x1iˆkxki D1
y ˆi ˆ0ˆ1x1iˆkxki
D0
• 可考虑同时在截距和斜率引入虚拟变量:
y i 0 0 D i (1 D i 1 ) x 1 i k x k iu i (5.
.
.
• 3、虚拟变量用于季节性因素分析。
•取
1, 当样本 i季为 度第 的数据 Di 0,其它季度的, i数 2,3据 ,4
• 工资模型为:
• Ii01 [S 1 (1 D 1 i D 2 i)S ( i S 1 )] 2 [D 2 i(S 2 S 1 ) D 1 i(S i S 1 ) ]3 D 2 i(S i S 2 ) u i (5.7
.
D2=1
S0
D1=1
S1
S2
.
• 作OLS得到参数估计值后,三个阶段的 报酬回归模型为: Iˆi ˆ0ˆ1Si, Si S1 Iˆi ˆ0ˆ1S1ˆ2(Si S1), S2Si S1 Iˆi ˆ0ˆ1S1ˆ2(S2S1)ˆ3(Si S2), Si S2
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
虚拟变量

E(Yi | X i , D1 0, D2 1) ( 0 3 ) 1 X i
假定3>2,其几何意义:
大学教育 保健 支出 高中教育 低于中学教育
收入
自变量包含虚拟变量的回归模型
o 1999年中国人均GDP的地区差异
(1) GDPi 1513 3154easti p
1 正常年份 Dt 消费模型可建立如下: 0 反常年份
如,设
Ct 0 1 X t 2 Dt X t t
这里,虚拟变量D以与X相乘的方式引入了模型中,从而可 用来考察消费倾向的变化。 假定E(i)= 0,| X t , Dt 1) 0 ( 1 2 ) X t
为了在模型中能够反映这些因素的影响,并提 高模型的精度,需要将它们“量化”。
这种“量化”通常是通过引入“虚拟 变量”来完成的。根据这些因素的属性类 型,构造只取“0”或“1”的人工变量,通 常称为虚拟变量(dummy variables),记 为D。 例如,反映文程度的虚拟变量可取为:
1,
本科学历
虚拟变量
虚拟变量
1. 什么是虚拟变量
二分、多分变量 2. 自变量包含虚拟变量的回归模型 极差截距、极差斜率 3. 应用实例
一、虚拟变量的基本含义
许多经济变量是可以定量度量的,如:商品需
求量、价格、收入、产量等。
但也有一些影响经济变量的因素无法定量度量 ,如:职业、性别对收入的影响,战争、自然 灾害对GDP的影响,季节对某些产品(如冷饮 )销售的影响等等。
由3与4的t检验可知:参数显著地不等于0, R2 强烈示出两个时期的回归是相异的,储蓄函数 分别为:
1990年前: 1990年后:
金融计量经济第五讲虚拟变量模型和Probit、Logit模型

原始模型:
YX (5.8)
• 其中Y为观测值取1和0的虚拟被解释变量,X为 解释变量。
• 模型的样本形式: yi Xii
(5.9)
• 因为E(i)0
,E所(y以i)Xi
• 令: p i P ( y i 1 ) 1 p i P ( y i 0 )
• 于是有: E ( y i) 1 P ( y i 1 ) 0 P ( y i 0 ) p i
其它季度
1, 三季度
D3
0,
其它季度
• 小心“虚拟变量陷阱”!
精品课件
三、虚拟变量的应用
• 1、在常数项引入虚拟变量,改变截距。
y i0D 1 x 1 i kx k iu i (5.1)
• 对上式作OLS,得到参数估计值和回归模型:
y ˆiˆ0ˆD ˆ1 x 1 i ˆkx ki(5.2)
金融计量经济第五讲
虚拟变量模型和Probit、Logit模 型
精品课件
第一节 虚拟变量的一般应用
一、虚拟变量及其作用 1.定义:取值为0和1的人工变量,表示非量化
(定性)因素对模型的影响,一般用符号D表 示。例如:政策因素、地区因素、心理因素、 季节因素等。 2.作用: ⑴描述和测量定性因素的影响; ⑵正确反映经济变量之间的相互关系,提高模型 的精度; ⑶便于处理异常数据。
yˆt ˆ ˆxt yˆt ˆ ˆxt ˆ2 yˆt ˆ ˆxt ˆ3 yˆt ˆ ˆxt ˆ4
精品课件
一季度 二季度 三季度 四季度
例题:美国制造业的利润—销售额行为
• 模型:利 t 1 润 2 D 2 t 3 D 3 t 4 D 4 t ( 销 ) t u t售
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066
虚拟变量

则进口消费品的回归模型可建立如下:
Yi 0 1 Xt 2 Dt ( Xt Xt * ) t
虚拟变量模型—分段线形回归
Yi 0 1 Xt 2 Dt ( Xt Xt * ) t
1978年前的进口消费品函数为:E (Yi | Dt 0) 0 1 Xt 1978年后的进口消费品函数为:E (Yi | Dt 1) 0 2 Xt * (1 2)Xt
虚拟变量模型
• 一个以性别为虚拟变量考察工资的模型:
Yi 0 1Di Xi i
其中:Yi为工人的工资水平,Xi为教育年限, Di=1,男性,Di=0,女性。
如何检验是否存在对不同性别员工的歧视?:
通过OLS估计对模型进行估计,并检验 1 的统计显著性。
虚拟变量模型—两个种类的定性变量
Yi 0 1D1i 2 D2i X i i
其中:Yi为工人的工资水平,Xi为教育年限, D1i=1,男性,D1i=0,女性; D2i=1,女性,D2i=0,男性。
解释变量构成的矩阵(1, D1,D2,X)非满秩,参数无法求出。 这就是所谓的虚拟变量陷阱(Dummy Variable Traps)
Yi 0 1Di Xi i
其中:Yi为工人的工资水平,Xi为教育年限, Di=1,男性,Di=0,女性。
如何解释1 ?:
女员工的平均工资: E (Yi | Di 0) 0 Xi 男员工的平均工资: E (Yi | Di 1 ) 0 1 Xi 教育水平相同的情况下,男性员工的平均工资水平与女 性员工的平均工资的差距。
1,男性 D3 0,女性
计量经济第七章虚拟变量模型课件

log
P2i P1i
21
21 X i ;
log
P3i P1i
31
31 X i ;
log
P3i P2i
32
32 X i .
其中 P1i、P2i、P3i 分别表示第 个决策者做出 第1、2、3个选择的概率。
23
Yi 0 1D1i ui ,
i 1,2, ,n.
其中 Yi
为个人月支出,
D1i
=
1,已婚 0,未婚
6
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 0 ui 0
• 已婚者的月期望支出为:
E Yi | D1i 1 E 0 1 1 ui 0 1
0 :未婚者的月平均支出 1 :未婚者与已婚者的月平均支出差距 0 1 :已婚者的月平均支出
Zi
f
1
Pi
ln
1
Pi Pi
ln
Pi 1 Pi
0
1
X1i
+
+k X ki
17
二、二元Logit模型估计
• 1.可重复观测数据的二元Logit模型 参数估计
• P144 【相关链接】
• 2.不可重复观测数据的二元Logit模 型参数估计
• P145 【相关链接】
18
三、模型检验与拟合优度
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。
(linear probability model,LPM) 模型的基本形式为:
Yi 0 1X1i +2 X2i k Xki ui ,
E Yi | X 0 1X1i +2 X2i k Xki ,
i 1,2, ,n.
虚拟变量模型

建立如下模型:
注意:参照组是什么?
第14页/共30页
假定E(i)=0,则: 对于女职工(D=0),其平均薪金为:
对于男职工(D=1),其平均薪金为:
可以看出,虚拟变量对应的回归系数β2表示:虚拟变量取值为1所代表的类别(男)相对于参照类别(取值为0,女)在因变量上的平均差异,反映出定性变量取值的变化对因变量的影响 从回归模型上看,两个组上的回归模型的差异主要在于截距的不同
§5.1 虚拟变量模型
第1页/共30页
一、虚拟变量的含义
一种人为构造的、取值仅为“1”或“0”的变量
第2页/共30页
1. 定量变量和定性变量
定量变量:测度等级为间距(interval)或比率(ratio)尺度的变量,如需求量、价格、收入、产量等其取值为具有实际含义的数据可以在建模过程中直接使用这些变量及其数据定性变量:测度等级名义(nominal)或顺序(ordinal)尺度的变量,如性别、教育程度等其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表示类别或序次的代码性别(1-男;0-女)、教育程度(1-小学、2-初中、3-高中、4-大学)实际建模中,考虑定性变量的影响是必要的,但直接使用定性变量的取值则具有不合理性
由3与4的t检验可知:参数显著地不等于0,强烈显示出两个时期的回归是相异的,
1990年前:
1990年后:
储蓄函数分别为:
第27页/共30页
(三)临界指标的虚拟变量的引入
在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。
则进口消费品的回归模型可建立如下:
例:进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。 这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
例子:包含一个虚拟变量的截距变动模 型 假设有一个包括城乡居民家庭收支状 况的样本,并试图利用这一数据估计 消费函数。由于城乡居民在消费水平 上存在明显差异,所以,“地区”这 一质的因素可以作为重要的解释变量。 模型可表示为:
Yi 0 1D X i ui
9
其中,Yi表示第i个家庭的消费水平, Xi为第i个家庭的收入水平,D为虚拟 变量。“1”表示城镇居民家庭这一特 征,“0”表示农村居民家庭这一特征, 并假定随机误差项满足经典假设。上 式消费函数可以写成: D 1 EYi 0 1 X i D 0 EYi 0 X i 用最小二乘法估计参数,若α1显著地 不为0,可以认为城乡居民在消费行为上 的差异是显著的。
* 1 *
E(Yi ) 0 3 X 2 1 3 X i
其中,β1为18岁以下年龄段的斜率, (β1+β2)为18-22岁年龄段斜率,(β1 +β3)为22岁以上年龄段的斜率
27
第三节 系统变参数模型
虚拟变量的引入,使得回归模型的截 距或斜率不再是固定不变的。但并不 是每年都发生变化。如果将其推广, 就可以描述回归模型的截距和斜率随 样本观测值的改变而系统地改变。这 类模型也包括截距变动模型和截距与 斜率同时变动模型。
1, 第一季度 D1t 其他 0, 1, 第二季度 D2 t 其他 0, 1, 第三季度 D3t 其他 0,
15
季节哑变量
第四季度为基础类型,其截距项为 α0, 其他三个季度的截距项分别为: α0+α1, α0+α2, α0+α3。当然,也可以以 其他季节为基础类型。
20
用最小二乘法得到以下估计结果:
ˆ 61.7 0.256X 55.7 D 0.252DX S t t t (-2.8) (8.1) (3.9) (-9.2) R 2 0.967 DW 1.67
括号内为t值,模型表明储蓄模型的截 距和斜率在1979年前后有显著差异。 可进一步写成: ˆ 6.0 0.004X 1979年以前: S t t ˆ S 1979年以后: t 61.7 0.256X t 引入虚拟变量后的模型的拟合优度也 得以提高,DW值得到改善。 21
Yt 0 1t 2 t X D t
1 , t X D 0 , t X
24
居民消费例子
可以得到两个不同时期的居民消费趋 势: Yt 0 1t t 1979年以前: Y X 1979年以后: t 0 2 (1 2 )t t 如果统计检验β2不为0,表明消费趋势在 1979年后有明显改变。 如果出现多个转折点的情形,就需要 引入多个虚拟变量。
四、包含多个质的因素的虚 拟变量模型
如果一个模型中包含多个质的因素的 影响时,就需要引入多个虚拟变量。 例如,性别(男、女)、年龄( 25 以 下、 25-50 岁、 50 以上)、受教育程度 (初中、高中、大学)是影响食品需 求的重要因素,这时可引入以下几个 虚拟变量:
22
D1 D2 D3 D4 D5
18
例子:截距和斜率同时变动
中国城镇居民家庭的储蓄函数,数据 为1955-1985年城镇居民家庭人均收入 和人均储蓄的资料。设定模型为:
St 0 1 1955年的物价水平为100,从储蓄和收入 中扣除了价格的影响。
19
采用最小二乘法得到的估计结果为:
当现象受到质的因素的影响时,回归 模型的参数就不再是固定常数。参数 的变化主要表现为:截距变动、截距 和斜率同时变动。
7
(一)包含一个虚拟变量的截距变动模型
如果回归模型中只包含一个质的因素,且这 个因素仅具有两种特征,总回归模型中只需 引入一个虚拟变量。设虚拟变量为D,其取值 为1:表示具有这一特征;0:表示不具有这 一特征。采用最小二乘法估计,得到变量 D 的回归系数,对其进行t检验,如果回归系数 显著地不为 0,认为虚拟变量表示的特征之间 的差异是显著的。
16
三、截距和斜率同时变动模型
如果质的因素既影响截距,又影响斜 率时,就需要在模型中引入这一双重 的变化。模型的一般形式为:
Yi 0 1 D 1 X i 2 (DX i ) i
D 1, Yi ( 0 1 ) 1 2 X i i D 0, Yi 0 1 X i i
10
虚拟变量模型的特点
1.以0、1取值的虚拟变量所反映的内容 可以随意设定,如,城乡居民“D”可 以反过来取值,只是在具体含义上有变 化:这时α1为负数。 2.虚拟变量D=0代表的特征或状态,通 常用于说明基础类型。基础类型是对 比的基础。如农民或城镇居民。
11
3.基础类型的截距系数称为公共截距系 数,D=1所对应的特征的截距系数称为 差别截距系数。 4.如果一个回归模型有截距项,对于具 有两种特征的质的因素,只需要引入 一个虚拟变量。因为引入多个虚拟变 量时,易出现多重共线性。如果回归 模型中没有截距项,具有两种特征的 质的因素,就需要引入两个虚拟变量。
采用通常的显著性检验方法可以对各种可 能的情况进行检验。
23
第二节 数量因素与变参数模型
用虚拟变量代表数量因素,建立分段 线性回归模型。 例 如 , 建 立 1955-1999 年 间 消 费 支 出 ( Y) 的 时 间 趋 势 变 化 模 型 , 假 设 以 1979年(X*)为转折点,即1979年以后, 改变趋势。这时可用的模型形式为:
29
二、截距和斜率同时变动模型
它是在上述截距变动模型的基础上, 使得参数β也发生系统地变化,例如, 如果让β2变化,则有
2t b1 b2Wt
将其带入模型有
Yt 1 2 Z t b1 X 2t b2Wt X 2t 3 X 3t k X kt t
① 当模型含有截距项时,如果一个质 变量有m种特征或状态,只需引入m-1 个虚拟变量。 ②当回归模型不含截距项时,则m种特 征需要引入m个虚拟变量。 例子:战争时期与和平时期的消费函数 美国1940-1950
14
(二)包含多个虚拟变量的截距 变动模型
当一个质的因素具有m种特征时,就需要引 入m-1个虚拟变量。例如季节这个质的因素 具有4个特征,对于具有截距项的回归模型, 我们引入3个虚拟变量:
31
例子:系统变参数模型
利用变参数模型对我国城镇居民家庭 居民消费行为的变化进行研究。 没有理由认为1979年以后居民消费行 为是固定不变的。 利用1979-1997城镇居民家庭收支调查 数据,建立一个简单的系统变参数模 型
第15章 虚拟变量和变参数模型
在回归分析中,影响被解释变量的因 素除了量的因素外还有质的因素。为 了估计质的因素产生的影响,我们需 要引入一种特殊的变量 :虚拟变量。本 章讨论回归分析中虚拟解释变量的作 用及使用方法。
1
主要内容
第一节 质的因素与变参数模型 第二节 数量因素与变参数模型 第三节 系统变参数模型
ˆ ˆ y ˆ c 0 1
收入Y前的回归系数是不变的,而改革 开放前与改革开放后(如1978年为分 界)模型的回归系数应该是变化的。 这时 “改革开放”这一质的因素就是 一个不应忽略的解释变量。
4
什么是虚拟变量
将具有某种品质或属性量化的方法, 构造成取值为0或1 的变量,一般而 言: 1 表示具有某种特征;而 0 表示 不具有某种特征,这类变量被称为 虚 拟 变 量 或 哑 变 量 ( Dummy Variable)。
30
用OLSE对模型中的参数进行估计,然后 对参数进行检验,就可以知道模型中参 数是否存在系统性变化。如果 α2 、 b2 在 统计上显著,则认为 β1 和 β2 存在系统变 化,反之,可看作常数。 如果错误地将 β1 和 β2 当作常数,就等于 错误地解释了经济变量之间的关系,还 可能因为省略了重要的解释变量Z和W而 产生自相关。 特别注意:如果存在严重的异方差性, 虚拟变量就是不适用的。
α1,β2,分别表示因为质的特征不同而在截距和斜 率上呈现的差异。
17
如果统计检验表明: ① 1 0, 2 0 , α1,β2 在统计上显著,表明 这一特征具有显著的影响。 ② 1 0, 2 0 ,是一个截距变量模型; ③ 1 0, 2 0 ,表明城乡居民的消费行为没 有显著差异; ④ 1 0, 2 0 ,这是一个斜率变量模型,在 实际中较少见。
25
多个转折点模型: 研究不同年龄段收入与年龄的关系 假设考虑三个年龄段:18岁以下、1822岁、22岁以上。 设Y 为收入,X为年龄,X1*=18,X2*=22 模型为:
Yi 0 1 X i 2 D1 X i X 1 3 D2 X i X 2 u
28
一、截距变动模型
设线性回归模型为
Yt 1t 2 X 2t k X kt t 其中, 1t 1 2 Z t
这里, β1t 的变化是系统的,且这种变化完全 由外生变量决定,是一个系统变参数模型。 α 被称为超参数。将 β1t 带入模型后,可采用 OLSE对上述模型中的α和β一并进行估计。如 果Z为虚拟变量,上式就是一个虚拟变量模型, 虚拟变量模型是系统变参数模型的一种特例。
2
第一节 质的因素与变参数模型
一、虚拟变量的实质
有一类定类数据也是重要的解释变量。 如职业、民族、文化程度、地区、季节等。 如果这些质的因素的影响是显著的,回归 模型的参数就会因此而变化。如果我们忽 略质的因素,仍把模型中的参数看作是固 定不变的,估计结果就不能正确描述经济 变量之间的关系。
3
当我们以1953-2001年的数据建立消费 函数模型时:
男性 1, 0,女性 , 25 以下 1 0, 其他 , 2 5 - 5 0岁 1 0, 其他 ,初中 1 0,其他 , 高中 1 0,其他