第七章 虚拟变量回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(9.9095)
1-26
第五节 解释变量包含一个定量变量、多个定 性变量的模型
模型的一般化:多定量变量和多定性变量混合
例七 表 10-5(精要) Aggregate contributions U.S. political parties, 1982.
1-27
第六节 比较两个回归
如何分析定量变量与定性变量的交互影响?
• 如此设置导致类似问题:假定男性的平均小时工资比女 性高,但与种族无关。与现实不符!
考虑交互影响的模型(例六)
Yi 1 2 D2i 3 D3i 4 (D2i D3i ) 5 X i ui
•
D2i D3i 称为交互影响虚拟变量
1-25
第五节 解释变量包含一个定量变量、多个定 性变量的模型
GNP 21662.5 26651.9 34560.5 46670.0 57494.9 66850.5 73142.7 76967.2 80579.4 88228.1 94346.4
1-30
一个例子:从分段函数及其比较说起
以Y为储蓄,X为收入,可令: 1990年前: Yi=1+2Xi+1i 1990年后: Yi=1+2Xi+2i i=1,2…,n1 i=1,2…,n2
Yi 1 2 Di 3 X i 4 ( Di X i ) ui
• 截距可能不同,斜率也可能不同。 • 男性平均食品支出(Di = 0)的条件期望为:
E(Yi Di 0, X i ) 1 3 X i
• 女性平均食品支出(Di = 1)的条件期望为:
E(Yi Di 1, Xi ) (1 2 Di ) (3 4 ) X i
ˆ Yi 0.2610 2.3606 D2i 1.7327 D3i 0.8028 X i (0.2357) (5.4873) (2.1803) (9.9094)
1-24
R 2 0.203
第五节 解释变量包含一个定量变量、多个定 性变量的模型
交互影响问题
Yi 1 2 D2i 3 D3i 4 X i ui
R 2 =0.9836
由3与4的 t 检验可知:参数显著地不等于0,强烈示出 两个时期的回归是相异回归 回到分段函数形式也可以!各自储蓄函数分别为: 1990年前:
1-34
ˆ Yi 16497 0.4116X i .
ˆ Yi 15452 0.8881 i X
第四节 解释变量包含一个定量变量、一个多 分定性变量的模型
例二中加入定量变量学生平均教育消费(如下,例四)
1-21
前面ANOVA模型例二结果
模型估计结果: 回 忆
1-22
图 10-3(精要)
西部或南部 东北、中北部
1-23
Average annual salary (AAS) and per pupil spending (PPS).
1-9
虚拟变量的性质
1-10
虚拟变量陷阱
虚拟变量的个数须按以下原则确定: • 每一定性变量所需的虚拟变量个数要比该定性 变量的类别数少1 • 即如果某一定性变量有m个类别,只在模型中引 入m-1个虚拟变量 • 违背这一原则会陷入虚拟变量陷阱(dummy variable trap),导致多重共线性问题。 例如:性别(男、女两个类别,m=2) 地区(东部、中部、西部三个类别, m=3)
•
1-28
4 称为差别斜率系数,也称斜率飘移(slope drifter)
一个例子:
当截距与斜率发生变化时,则需要同时引入 加法与乘法形式的虚拟变量。 例子 考察1990年前后的中国居民的总储蓄-收 入关系是否已发生变化。
• 下表中给出了中国1979-2001年以城乡储蓄存款余 额代表的居民储蓄以及以GNP代表的居民收入的 数据。
1-15
第三节 解释变量包含一个定量变量、一个两 分定性变量的模型
ANOVA模型常见于社会学、心理学、教育学和市 场调研等领域中; 在经济学中并不那么常见。在大多数经济研究中, 典型的情形是:一个回归模型既含有一些定量的 又含有一些定性的解释变量; 兼含有定量和定性变量的回归模型叫做协方差分 析(ANCOVA, analysis of covariance)模型。
四种可能性模型
一 致 回 归
图10-4(精要)
平 行 回 归
共 点 回 归
1-32
相 异 回 归
一个例子:虚拟变量的作用
这一问题也可通过引入乘法形式的虚拟变量来解决。 将n1与n2次观察值合并,并用以估计以下回归:
Yi 1 2 X i 3 Di 4 ( Di X i ) i
1-6
例子一
表 10-2(精要)
Food expenditure in relation to after-tax income and sex.
1-7
例子一
表 10-2(精要)
食品支出对性别虚拟变量的回归结果(男性=0):
1-8
例子一
表 10-2(精要)
食品支出对性别虚拟变量的回归结果(女性=0):
1-5
第二节 解释变量均为定性变量的模型
在该模型中,如果仍假定ui满足经典线性回归模型 的假定,则
• 女教授的薪金期望为:
E(Yi Di 0) 1
• 男教授的薪金期望为:
E(Yi Di 1) 1 2
• 取值为0的一类称为基准类、基础类、参照类或比较类 • 2 称为差别截距系数(differential intercept coefficient), 它表明取值为1的类别与基准类截距的差别,类别对应 变量贡献的差异。
1-16
第三节 解释变量包含一个定量变量、一个两 分定性变量的模型
在例一中加入定量变量税后收入,构成ANCOVA模型(例三)
1-17
前面例子得到结果(例子一)
食品支出对性别虚拟变量的回归结果(男性=0): 回 忆
1-18
第三节 解释变量包含一个定量变量、一个两 分定性变量的模型
例一中利用ANOVA模型存在模型设定错误; 在税后收入不变情况下,男性平均食品消费支出 为$1506.244,女性为$ (1506.244-228.9868)。 不考虑性别差异,则边际食品消费倾向为0.058982 根据回归结果:
计 量 经 济 学 基 础 与 应 用
1-1
第七章
虚拟变量回归模型
chapter seven
Dummy Variable Regression Models
Yu Zhen
The Economic School of Jilin University
第一节
虚拟变量的性质
1-3
如何量化定性变量?
这种“量化”通常是通过引入“虚拟变量”来完 成的。根据这些因素的属性类型,构造只取“0” 或“1”的人为变量,通常称为虚拟变量(dummy variables),记为D。 • 例如,反映性别的虚拟变量可取为: 1, 男 D= 0, 女
1-29
一个例子:
表 5.1.1 90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 储蓄 281 399.5 523.7 675.4 892.5 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7034.2 1979~2001 年中国居民储蓄与收入数据(亿元) GNP 90年后 储蓄 4038.2 1991 9107 4517.8 1992 11545.4 4860.3 1993 14762.4 5301.8 1994 21518.8 5957.4 1995 29662.3 7206.7 1996 38520.8 8989.1 1997 46279.8 10201.4 1998 53407.5 11954.5 1999 59621.8 14922.3 2000 64332.4 16917.8 2001 73762.4 18598.4
第五节 解释变量包含一个定量变量、多个定 性变量的模型
推广到解释变量不止一个定性变量的情况(例五)
Yi 1 2 D2i 3 D3i 4 X i ui
其中,Y = 小时工资 X = 教育(受教育年限) D2=1(女性),0(男性) D3=1(非白种人和非西班牙人),0(其他) 回归结果
1-4
第二节 解释变量均为定性变量的模型
方差分析模型( ANOVA ,analysis-of-variance models) • 回归模型中解释变量都是虚拟变量的模型 • 例如,一个以性别为虚拟变量考察高校教授薪 金的模型 Yi 1 2 Di ui
其中:Yi为高校教授的薪金 Di=1,若是男性;Di=0,若是女性
1-11
ANOVA模型例二:(表10-4,精要)
1-12
ANOVA模型例二:(表10-4,精要)
建立如下ANOVA模型:
其中,
1-13
ANOVA模型例二:(表1wk.baidu.com-4,精要)
模型估计结果:
1-14
ANOVA模型例二:(表10-4,精要)
the overall conclusion is that: statistically the mean salaries of public school teachers in the West and the Northeast and North Central are about the same, but the mean salary of teachers in the South is statistically significantly lower by about $3265. 回归结果总体上反馈了如下结论: 西部地区与东北中北部地区公立学校的教师 平均薪水在统计上意义上无差别,但南部教师的 平均薪水在统计上显著低于前两者大约$3265。
考虑交互影响的模型估计结果(例六)
ˆ Yi 0.2610 2.3606 D2i 1.7327 D3i 2.1289D2i D3i 0.8028 X i (0.2357) (5.4873) (2.1803) (1.7420) R 2 0.2032
• 所有虚拟变量相加= -1.964,表明非白种/非西班牙女性 的工资偏低约1.96。介于单独性别差异和单独种族差异 之间。
Di为引入的虚拟变量: 于是有:
1 Di 0
90年前 90年后
E (Yi | Di 0, X i ) 1 2 X i
E (Yi | Di 1, X i ) ( 1 3 ) ( 2 4 ) X i
可分别表示1990年后期与前期的储蓄函数。
1-31
则有可能出现下述四种情况中的一种: (1) 1=1 , 且 2=2 , 即 两 个 回 归 相 同 , 称 为 一 致 回 归 (Coincident Regressions); (2) 11 , 但 2=2 ,即两个回归的差异仅在其截距,称为 平行回归(Parallel Regressions); (3) 1=1 ,但 22 ,即两个回归的差异仅在其斜率,称为 共点回归(Concurrent Regressions); (4) 11 ,且 22 ,即两个回归完全不同,称为相异回归 (Dissimilar Regressions)。
1-33
一个例子:是那种模型关系?
在统计检验中,如果4=0的假设被拒绝,则说明两 个时期中储蓄函数的斜率不同。
具体的回归结果为:
ˆ Yi 15452 0.8881 i 138023Di 0.4765 i X i X . D
(-6.11) (22.89) (4.33) (-2.55)
• 女性平均食品消费支出:
ˆ Yt 1277.2574 0.0589 X i
• 男性平均食品消费支出:
ˆ Yt 1506.244 0.0589 Xi
1-19
图 10-2(精要)
1-20
Food expenditure in relation to after-tax income.