计量经济学复习资料——虚拟变量
计量经济学10(1)

l 方差分析模型(Analysis of variance models,ANOVA):仅包含定性变量或 虚拟变量的回归模型,其形式如下:
Yi=B1+B2Di+ui l 假定Y:每年食品支出(美元);Di=1表示
女性;Di=0表示男性,则: l 男性食品支出的期望:E(Yi|Di=0)=B0 l 女性食品支出的期望: E(Yi|Di=0)=B0+B1
• D2=1表东北和中北部地区,D2=0为其它地区; • D3=1表南部地区,D3=0为其它地区
Ÿ 这是将西部地区看成是基准类。
计量经济学10(1)
¡ 再考虑政府机构用于每个学生的花费和地区对 教师平均年薪水的影响: AASi=B1+B2D2i+B3D3i+B4PPSi
¡ 对模型的解释:
l D2显著,而D3不显著,表明原模型存在设定误差; l PPS的系数的含义
计量经济学10(1)
l 上述模型的含义: l 截距B1表示男性平均食品支出,斜率系数
B2表示女性平均食品支出与男性的差异, B1 + B2表示女性平均食品支出。 l 对这类模型,零假设为:H0:B2=0
¡ 表示男女平均食品支出没有差异。我们可根据t 检验判定是否统计显著。
计量经济学10(1)
l 例10-1(P213):性别差异对食品消费支出 的影响
X 0.0803
5.54
DX -0.065
-4.096
1970-1995 C 62.423
4.89
X 0.0376
8.89
1970-1981 C 1.016
X 0.0803
1982-1995 C 153.49(1.016+152.479)
计量经济学第5章 虚拟变量模型

在经济计量模型中除了有量的因素外还有质的因 素,质的因素包括被解释变量为质的因素和解释变量 为质的因素。如果被解释变量为质的因素,主要是逻 辑回归要涉及的内容。本章就解释变量和被解释变量 为质的因素也就是存在虚拟解释变量和虚拟被解释变 量时如何进行参数估计等一系列问题进行讨论。
1
为基础类型截距项。
12
三、虚拟变量的作用 ⑴ 可以描述和测量定性因素的影响。
⑵ 能够正确反映经济变量之间的相互关系,提 高模型的精度。
⑶ 便于处理异常数据。
即将异常数据作为一个特殊的定性因素
1 , 异常时期
D
0
,
正常时期
13
第二节 虚拟解释变量模型
一 、截距变动模型(加法模型)
虚拟变量与其它变量相加,以加法形式引入模
Y i 0 1 D 1 i 2 D 2 i 3 X i u i
Y i ------年支出医疗保健费用支出 X i ------居民年可支配收入
18
1 , 高中
D 1i
0
,
其他
1 , 大学
D 2i
0
,
其他
于是:小学教育程度:
E (Y i X i,D 1 i 0 ,D 2 i 0 )03 X i
7
二、虚拟变量的设置规则
虚拟解释变量模型的设定因为质的因素的多少 和这些因素特征的多少而引入的虚拟变量也会不同。
以一个最简单的虚拟变量模型为例,如果只包 含一个质的因素,而且这个因素仅有两个特征,则 回归模型中只需引入一个虚拟变量。如果是含有多 个质的因素, 自然要引入多个虚拟变量。
8
如果只有一个质的因素,且该质的因素具有 m 个 相互排斥的特征(或类型、属性),那么在含有截距 项的模型中,只能引入 m-1 个虚拟变量,否则会陷入 所谓“虚拟变量陷阱”(dummy variable trap),产 生 完全的多重共线性,会使最小二乘法无解;在不含有 截距项的模型中, 引入 m 个虚拟变量不会导致完全 的多重共线性,不过这时虚拟变量参数的估计结果, 实际上是 D = 1 时的样本均值。
计量经济学虚拟变量

在实际分析当中,根据T检验的结 果,将不显著的季度虚拟变量从模型 中消除,用剩下的显著的虚拟变量对 模型进行估算就足够。
(2), 没有常数项的时候,可以设第4季 度的季度虚拟。
Yi 1D1 2D2 3D3 4D4 ui
(3),虚拟变量的陷阱
Yi a 1D1 2D2 3D3 4D4 ui
2,存在结果性变化。 3,需要对难以量化的数据进行处理。
• 计量经济中的虚拟变量,在明确其引入理 由基础上,被用于很多的多元回归模型。
二,虚拟变量的类型
1,临时虚拟
临时虚拟,也称为突发性虚拟。为了更好的对模型进行估算,经常需 要在回归模型中排除一些由突发性事件产生的异常值(outlier),及其对 模型的影响,例如战争,地震,内乱,罢工等。
• 第一季度到第四季度的常数项为:
第一季度:a 1
Yi (a 1) X i ui
第三季度:a 3
Yi (a 3 ) X i ui
第四季度: a
Yi a X i ui
• 现在第四季度是基准,分别表示第 四季度与各季度之差。
数虚拟变量和常数虚拟变量。
Yi a 1X i 2D ui
1 异常时期 D=
0 平时
Yi a 1Xi 2D1 3D2 ui
1
D1= 0
发生地震的年份 其他年份
1
D2= 0
发生水灾的年份 其他年份
2,定性数据的虚拟处理
学历,性别,人种等定性的差异
3,季度虚拟
(1),定义:季度虚拟是通过回归模型的常 数项的变化(斜率回归系数一定)来掌握 季度和月度等季节变化,因此,从技术角 度成为“常数项虚拟”。
这种“量化”通常是通过引入“虚拟变量” 来完成。根据这些因素的属性类型,构造只取 “0”或“1”的人工变量,通常称为虚拟变量 (dummy variables),记为D。
计量经济学-中-4-虚拟应变量

虚拟自变量的回归
(例题分析)
【例】为研究 考试成绩与性 别之间的关系 ,从某大学商 学院随机抽取 男女学生各8 名,得到他们 的市场营销学 课程的考试成 绩如下表
虚拟自变量的回归
(例题分析)
100
散点图
¼ Ô É ¨ ¿ Ê ³ ¼
75
50
25
男
女 Ð ± Ô ð
y与x的回归
¼ Ô É ¨ë Ô ð Ä ¢ ã ¼ ¿ Ê ³ ¼ Ó Ð ±µ É µ Í
3.5)中的干扰必定是同方差性的了。 真 E (Yi / X i ) 是不知道的,从而权wi 是不知 道的,为了估计 wi ,可采用如下两步法: 1.对(11.2.1)作最小二乘回归,暂且撇 ˆ 开异方差性问题。于是得到 Yi =真 E (Yi / X i ) 的OLS估计值。再由此求wi 的估计值
7
对数单位模型
我们用住房所有权的例子说明对数单位模型的基本概念。解 释住房所有权对收入的线性关系时的 线性概率模型曾是:
其中X为收入,而Y=1表示家庭拥有住房,但现
在考虑如下住房所有权的表达式:
Pi E (Y 1/ X i ) 1 2 X i
(11.7.1)
Pi E (Y 1/ X i )
显然,我们不再可能假定干扰项是正态分布的:实际 上,它遵循二项分布。 干扰项的异方差性 由(11.3.2)中可以得到 的概率分布: 当 ui 1 2 X i 概率为 1 Pi ; 当 ui 1 1 2 X i 概率为 Pi ,进而可得到:
var(ui ) Pi (1 Pi ) Pi (1 Pi )
ˆ (Yi / X 12) 0.9457 12(0.1021) =0.2795 就是说,收入为12000 美元的家庭拥有住宅的 概率为28%。 对于上面的估计受异方差的影响,因此我们可 ˆ Yi 是 以用WLS来获得更有效的估计值。由于某些 ˆ 负的,和某些 Yˆi 大于1,对于这些 Yˆi 来说,wi 将 是负的,因此删去这些值 。得到的WLS回归为:
计量经济学 第二版 第8章 虚拟变量

房地产价格受到以下因素影响:
易于量化的定量因素,如成本因素、房地产供求因素、经济
因素、人口因素; 不易量化的定性因素,如社会因素、行政因素、区位因素、 个别因素、投机因素、自然因素。在研究房地产价格中这些 定性变量具有不可忽视的重要影响。
问题的一般性描述
定量因素:可直接测度、数值性的因素。 定性因素:属性因素,表征某种属性存在与否的非数值性的 因素。
D=
2 研究生 1 本科 0 大专及以下
这样设置隐含了一个假定:研究生和本科生、 本科生与大专生之间薪酬差异程度相同
“0”和“1”选取原则
虚拟变量取“1”或“0”的原则,应从分析问题的 目的出发予以界定。 从理论上讲,虚拟变量取“0”值通常代表比较的 基础类型;而虚拟变量取“1”值通常代表被比较 的类型。 “0”代表基期(比较的基础,参照物); “1”代表报告期(被比较的效应)。
第八章 虚拟变量
一、虚拟变量及其作用 二、虚拟变量的设定 三、虚拟变量的特殊应用 四、虚拟被解释变量 练习题及参考资料 返回
教学目的及要求
了解虚拟变量的意义和作用,掌握虚拟解释变 量的引入方式与设置原则,掌握EViews软件 的相关应用。 掌握虚拟解释变量在调整季节波动、检验模型 的稳定性、分段回归和混合回归等方面的特殊 应用。 了解线性概率模型、Logit模型和Probit模型 的基本思想和估计方法。
例子:性别、国籍、城乡、政策实施、种族、学历、 季节等等
如:
1 D 0
城镇居民
农村居民 政策紧缩
1 D 0 1 D 0
销售旺季
销售淡季
本科以上学历 本科以下学历
1 D 0
政策宽松
变量的划分应遵循穷举与互斥原则。
虚拟变量(中级计量经济学总结(四川大学,杨可扬)

虚拟变量(Wooldridge chapter 7 ,13and Gujarati chapter 9)本章所有内容都赋予一个统一的例题来总结:0121234 *** wage female married educ female married female educ married educ ub d d b b b b =+++ ++++ 显然本例是在研究性别、婚姻状况、教育状况同收入之间的 关系问题。
一,单个虚拟变量01 wage female ub d =++ 0 01(|0) (|1) E wage female E wage female b b d == ==+ 也就是说,男性的平均工资为 0 b ,而女性的平均工资为 01 b d + 。
检验 这两组平均工资是否显著不同只需检验 female 是否显著。
如果female 显著且 1ˆ d <0 则说明存在性别歧视。
这也是典型的用虚拟变量 来标志截距的不同。
换成对数——水平形式: 01 log() wage female u b d =++ 则男女之间工资 的百分比差异为: 1 100*[exp()1]d - 以下作一个简单的证明,表明以上公式不仅适用于虚拟变量:111011 101 101 10 1010log() log()log() log(/) / 1 %*100(1)*100 y x u y y y y y y e y y e y y y y e y bb b b b b b =++ -= = = - =- - D ==- 二,双个虚拟变量及其交互012 wage female married ub d d =+++ 02 012 (|0,) (|1,) E wage female married married E wage female married marriedb d b d d ==+ ==++ 因此 1 d 表示在给定婚姻状况条件下, 男女的工资差异。
计量经济学之虚拟变量

一、虚拟变量 为什么要引入“虚拟变量” ??
许多经济变量是可以定量度量的或者说是可以直接观测的 如商品需求量、价格、收入、产量等
但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测 如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节
对某些产品(如冷饮)销售的影响等。
为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将 它们人为地“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的。
这种用两个相异数字来表示对被解释变量有重要影响而自身又没有观测数值的一 类变量,称为虚拟变量。
虚拟变量的特点是:
1.虚拟变量是对经济变化有重要影响的不可测变量。 2.虚拟变量是赋值变量,一般根据这些因素的属性类型,构造只取 “0”或“1” 的人工变量,通常称为虚拟变量,记为D。这是为了便于计算而把定性因素这样数量 化的,所以虚拟变量的数值只表示变量的性质而不表示变量的数值。
则进口消费品的回归模型可建立如下:
Yt
0
1 X t
2(Xt
X
* t
)
Dt
t
转折期回归示意图
4. 虚拟变量交互效应分析
当分析解释变量对变量的影响时,大多数情形只是分析了解释变量自身变动对被 解释变量的影响作用,而没有深入分析解释变量间的相互作用对被解释变量影响。
前面讨论的分析两个定性变量对被解释变量影响的虚拟变量模型中,暗含着一个假定:
冷饮的销售额与季节因素的关系
如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则其中
1 X11 L 1 X12 L
1 ( X D) 1
X 13 X 14
计量经济学第八章 虚拟变量

Yi X i Di X i i
如果该模型设定正确,此时有:
E(Yi
)
(
X
)
i
X
i
D 1 D0
可见,城镇ቤተ መጻሕፍቲ ባይዱ民的边际消费倾向为 ( ) ,农
村居民的边际消费倾向为 。
如果不同属性类别对应的截距项和斜率项都 是有差异的,可在回归模型中同时引入虚拟 变量的加法方式和乘法方式,结果如下:
1 东部 D1 0 其他
1 中部 D2 0 其他
若考虑不同区域居民对应回归模型截距的不同 ,可构建模型如下:
Yi 1D1i 2 D2i X i i
则有:
E (Yi
)
( (
2) 1)
X i X i
Xi
Yi Di X i Di X i i
对于城镇居民和农村居民这两个类别,有总 体回归函数如下:
E(Yi
)
(
)
( X i
)X
i
D 1 D0
可见, 和 分别表示城镇居民与农村居民
的消费函数在截距和斜率上的差异。
注:
对于包含多个类别(M个)的属性变量,构 建M-1个虚拟变量,如在消费模型中,考虑 区域因素(东部,中部,西部)影响,可构 建2个虚拟变量:
Yi 1D1i 2 D2i (D1i D2i ) X i i
• 则有: ( 1 2 ) Xi
E
(Yi
)
( 1) Xi ( 2 ) Xi
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
虚拟变量习题
一、 单项选择题
1、 若一个回归模型包含截距项,对一个具有m 个特征的质的因素需要引入的虚拟变量个数为
A.m-2
B.m-1
C.m
D.m+1 2、 某商品需求函数为:Y i =β0+β1X i +μi ,其中Y 为需求量,X 为价格,为了考虑“性别”(男性、女性)和“地区”(东部、中部、西部)两个因素的影响,考虑引入虚拟变量,则应引入虚拟变量的个数为( )
A. 5
B. 4
C. 3
D. 2 3、
消费函数Y i =α0+α1D+β0X i +β1DX i +μi ,其中
虚拟变量D=⎩⎨⎧农村家庭城镇家庭
01,当统计检验表明下列哪项成立时,表示城镇家庭
与农村家庭有一样的消费行为( ) A. α1=0, β1=0
B. α1=0, β1≠0
C. α1≠0, β1=0
D. α1≠0, β1≠0
4、 根据样本资料建立某消费函数如下:ˆ100.5055.350.45t t
C D X =++,其中C 为消费,X 为收入,虚拟变量 1 D 0 ⎧=⎨⎩城镇家庭
农村家庭,所有参数均检验显著,则城
镇家庭的消费函数
为
( )
A 、ˆ155.850.45t t C X =+
B 、ˆ100.500.45t t
C X =+ C 、ˆ100.5055.35t t C X =+
D 、ˆ100.9555.35t t
C X =+ 5、 假设某需求函数为01i i i Y X ββμ=++,为了考虑“季节”因素(春、夏、秋、
冬四个不同的状态),引入4个虚拟变量形成截距变动模型,则模型的 ( )
A 、参数估计量将达到最大精度
B 、参数估计量是有偏估计量
C 、参数估计量是非一致估计量
D 、参数将无法估计
6、 对于模型01i i i Y X ββμ=++,为了考虑“地区”因素(北方、南方),引入2
个虚拟变量形成截距变动模型,则会产生 ( )
A 、序列的完全相关
B 、序列的不完全相关
C 、完全多重共线性
D 、不完全多重共线性
7、 设消费函数01i i i Y D X ααβμ=+++,其中虚拟变量 1 D 0 ⎧=⎨⎩北方
南方
,如果统计
检验表明11α=成立,则北方的消费函数与南方的消费函数是 ( )
A 、相互平行的
B 、相互垂直的
C 、相互交叉的
D 、相互重叠的
8、 假定月收入水平在1000元以内时,居民边际消费倾向维持在某一水平,当月收入水平达到或超过1000元时,边际消费倾向将明显下降,则描述消费(C )依
收
入
(
I )
变
动
的
线
性
关
系
宜
采
用
( )
A 、0120, 1t t t t C I DI D αββμ⎧=+++=⎨≥⎩ I<1000元 I 1000元
B 、0120, 1t t t
C
D I D αββμ⎧=+++=⎨≥⎩ I<1000元
I 1000元
C 、*
*
010(), 1000, 1t t t C I I D I D αβμ⎧=+-+==⎨≥⎩
I<1000元
元 I 1000元
D 、**0120(), 1000, 1t t t t C I I I D I D αββμ⎧=++-+==⎨≥⎩ I<1000元
元 I 1000元
9、 虚拟变量 ( )
A 、可以取1或者2
B 、只能代表质的因素
C 、只能代表数量因素
D 、只能代表季节影响因素 10、
由于引入虚拟变量,回归模型的截距项和斜率都发生变换,则这种模型称为 ( )
A 、平行模型
B 、重合模型
C 、汇合模型
D 、相异模型
二、多项选择题
1、关于虚拟变量,下列表述正确的有 ( ) A 、是质的因素的数量变化 B 、一般情况下取值为1和0 C 、代表质的因素 D 、在有些情况下可以代表数量因素
2、在线性模型中引入虚拟变量,可以反映 ( ) A 、截距项变动 B 、斜率变动 C 、截距项和斜率同时变动 D 、分段回归
3、关于虚拟变量设置原则,下列表述正确的有 ( ) A 、当定性因素有m 个类别时,引入m-1个虚拟变量
B 、当定性因素有m 个类别时,引入m 个虚拟变量,会产生多重共线性问题
C 、虚拟变量的值一般情况下0和1
D 、在虚拟变量的设置中,基础类别一般取值为0
三、判断题
1、在回归模型012i i i i Y X D βββμ=+++中,如果虚拟变量i D 的取值为0或2,
而非通常情况下的0或1,那么,参数0β、1β、2β的估计值将减半。
( )
2、在引入虚拟变量后,OLS 估计量的性质受到了影响。
( )
3、考虑下面的模型:i 01i 2233i ,Y :MBA Y X D D u ββββ=++++其中毕业生年薪。
231MBA 1MBA
00D D ⎧⎧==⎨⎨
⎩⎩;复旦;南大;;其他;其他,X :工龄,那么系数2β表示在工龄相同的情况下,毕业于复旦的MBA 的起点年薪比南大MBA 高出的数量。
( )
四、计算题
1、为了解美国工作妇女是否受到歧视,可以用美国统计局的“当前人口调查”中的截面数据,研究男女工资有没有差别。
这项多元回归分析研究所用到的变量有:
对124名雇员的样本进行的研究得到回归结果为:(括号内为估计的t 值)
求:(1)各估计值的标准差为多少?;
(2)检验美国工作妇女是否受到歧视,为什么?
—年龄——受教育的年数—其他若雇员为妇女
小时)—雇员的工资率(美元—AGE 01/ED SEX W ⎩⎨
⎧=2.23867.0)63.4()54.8()61.4()38.3(12.099.076.241.62==--++--=∧
F R AGE ED SEX W
(3)按此模型预测一个30岁受教育16年的美国男性的平均每小时的工作收入为多少美元?
2、考虑如下模型,Y=b
1+b
2
D
2
+b
3
X
i
D
2
+b
4
X
i
+e
i
Y为某公司员工年薪,X
i
为工龄
D
2
=(1,白人;0,其他)(d.f约等于50,显著性水平5%时,t的临界值=2.0)若估计结果如下:
Y=20.1+2.85D
2+0.50X
i
D
2
+1.5X
i
Se=0.58 0.36 0.32 0.20 n=50 R2=0.96
(1)解释回归系数b
2与b
3
的实际意义。
(2)对回归系数进行假设检验,并做相应解释。
3、Sen和Srivastava(1971)在研究贫富国之间期望寿命的差异时,利用101个国家的数据,建立了如下的回归模型:
Y=-2.40+9.39lnX-3.36[D(lnX-7)]
(4.37) (0.857) (2.42) R2=0.752
其中:X是以美元计的人均收入;Y是以年计的期望寿命; Sen和Srivastava 认为人均收入的临界值为1097美元(ln1097=7),若人均收入超过1097美元,则被认定为富国;若人均收入低于1097美元,被认定为贫穷国。
括号内的数值为对应参数估计值的t-值。
1)解释这些计算结果。
2)回归方程中引入[D(lnX-7)]的原因是什么?如何解释这个回归解释变量?
3)如何对贫穷国进行回归?又如何对富国进行回归?
4)从这个回归结果中可得到的一般结论是什么?。