第八章 包含虚拟变量的回归模型
第八章 包含虚拟变量的回归模型

第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
第八章 带虚拟变量的回归预测技术

以Y为储蓄,X为收入,可令:
1990年前:Yi=1+2Xi+1i i=1,2…,n1
1990年后:Yi=1+2Xi+2i
i=1,2…,n2
则有可能出现下述四种情况中的一种:
• (1) 1=1 ,且2=2 ,即两个回归相同,称为重 合回归(Coincident Regressions);
• 分离异常因素的影响, 例如分析我国GDP的时间序列,必须 考虑“文革”因素对国民经济的破坏性影响, 剔除不可比 的“文革”因素。 • 检验不同属性类型对因变量的作用, 例如工资模型中的文 化程度、季节对销售额的影响。 • 提高模型的精度, 相当于将不同属性的样本合并, 扩大了样
本容量(增加了误差自由度, 从而降低了误差方差)。
• 前面没有考虑协变量——税后收入,重新 建立模型: • Yi = 1+2Di+3Xi+ui • 利用前例的数据, 分析得到如下结果:
ˆ 1506.244 228.9868D 0.0589 X Y i i i
se (188.0096) (107.0582) (0.0061) t (8.0115) ( 2.1388) (9.6417) p (.000) (.0611) (.000)
• 若在某研究中,需要考虑k个非定 量因素,每个因素有mi种互斥属性, 则在模型中应引入虚拟变量个数为:
(m
i 1
k
i
1)
• 虚拟变量回归模型及参数估计
例1男女个体消费者每年的食品支出(美元)
年龄 女性食品支出 女性税后收入 男性食品出 男性税后收入
<25 25-34
35-44 45-54 55-64 >65
第八章-虚拟变量回归

1 高中 D2 0 其它
1 博士 D5 0 其它
1 大 学 D3 0 其 它
1 小 学 D6 0 其 它
则总体回归模型:
w 0 1 X 2 D1 3 D2 4 D3 5 D4 6 D5 7 D6+u
17
二、用虚拟变量测量斜率变动
基本思想
引入虚拟变量测量斜率变动,是在所设立的模型中,将虚 拟解释变量与其它解释变量的乘积,作为新的解释变量出 现在模型中,以达到其调整设定模型斜率系数的目的。
可能的情形:
(1)截距不变;
(2)截距和斜率均发生变化;
分析手段:仍然是条件期望。
18
(1)截距不变
模型形式:
意义:若α1显著,表明城市居民的平均人均可支配收入比农村 高α1元。但这种差异可能是由其它因素引起的,并不一定是由 户籍差异引起。
12
(2) 一个两属性定性解释变量和一个定量 解释变量
模型形式 Yi = f(Di,X i )+ μi 例如:Yi = 0 1 Di + X i + μi 1 城市 其中: Y-人均可支配收入;X-工作时间; Di 0 农村
会受到一些定性因素的影响,如性别、国籍、民族、自 然灾害和政治体制等。
问题:我们如何把这些定性想:将这些定性因素进行量化
由于定性变量通常表示某种属性是否存在,如是否男性、 是否经济特区、是否有色人和等。因此若该属性存在, 我们就将变量赋值为1,否则赋值为0,从而将定性因素 定量化。 计量经济学中,将取值为0和1的人工变量称为虚拟变量 (DUMMY)或哑元变量。通常用字母D或DUM表示。
7
一个例子(虚拟变量陷阱)
研究工资收入与学历之间的关系:
8. 虚拟变量回归模型

包含一个定量变量、两个定性变量的回归模型
例3:研究的问题中需要按不同标准引入多个定性变量 例:研究大学教师的年薪是否受到性别、学历的影响。 按性别标准教师分:男、女两类 引入一个虚拟变量; 按学历标准大学教师分:大学本科、研究生、博士三类 引入两个虚拟变量 总计需要引入三个虚拟变量:
D 1 ,女性
令Y=年薪,建立如下模型:
Yi B1 B2 Di ui
男性就业者的平均年薪: E (Yi | Di 0) B1 女性就业者的平均年薪:E (Yi | Di 1) B1 B2 如果B2 =0 ? 说明不存在性别歧视 如果B2 <0 ? 说明存在性别歧视
18
虚拟变量的交互影响
婚姻状况与性别对工资的影响 married:已婚取1 famle:女性取1
ˆ wage) 0.321 0.110 female 0.213married log( 0.301 female married
19
包含一个定量变量、一个定性变量的回归模型
(一)加法模型 0 ,男性 D 例1,再引入一个变量 1 ,女性 X=工作年限 建立如下模型: Yi B1 B2 X i B3 Di ui 男性就业者的平均年薪: 女性就业者的平均年薪: 如果B3 =0? 说明不存在性别歧视
16Biblioteka 回归模型中的结构稳定性:虚拟变量法
两条不同时期的直线在转折点连起成为一条折线。
进口商品支出回归方程为
* 1 t t Dt * 0 t t
Yt B1 B2 X t B3 ( X t X t * ) Dt ut
17
计量经济学课后习题答案第八章_答案

第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
8第八章包含虚拟变量的回归

一、虚拟变量设置原则
1、模型中只有一个两分定性变量 2、模型中一个定性变量,该变量具有多种 分类 3、小结 4、模型中有多个定性变量 返回
1、模型中只有一个两分定性变量
例如性别定性变量,只有两种分类,引入 一个虚拟变量即可,设置虚拟变量D:
=0,男性 =1,女性
不可引入两个虚拟变量,否则引起多重共线性
方差分析模型在其他社会科学中使用较多
二、方差分析模型(ANOVA):特别的, 当回归中解释变量都是虚拟变量时,此类 模型称为方差分析模型。
Y=b0+b1 D1 +b 2D2+……
返回
三、协方差模型(ANCOVA)
解释变量有定性变量也有定量变量.
Y=b0+b1 X1 +b 2X2+b3 D
两个回归截距相同而斜率不同,性别对边际消
费倾向产生了影响
3、加法方式、乘法方式混合进入模 型
例题1:性别对食品开支的影响:可能同时 改变截距和斜率。为验证这一点,可使用 以下回归: Y= b0+b1 X1+ b2 D X1 + b3 D
例题2:关于储蓄率的研究
Y=A1+A2 X
Y:个人储蓄; X个人收入,回归得到的A2 为
男性的食品开支方程 Y^=1506.244+0.06X
两条样本回归线平行加法方式引入性别虚拟变量 意味着隐含一个假定:
男女的性别差异对边际消费倾向没有影响,为b1 。 即对斜率没有影响,仅对截距产生影响 返回
2、“ 乘法”方式
虚拟变量也会对斜率发生影响
Y=b0+(b1 +b2 D) X1
带虚拟变量的回归模型
§5.5 含有虚拟变量的回归模型 1.带虚变量的回归预测前述变量均是用某种意义明确的尺度加以定量的变数。
暂时性影响:经济行为受特定因素的影响,因而促使一期或数期变数与其他各期有明显的差异。
虚拟变量:用来表现暂时性影响的变量,或者说,表明某种“品质”或属性是否存在的的变量。
2.基本概念(1)水平:当自变量以虚拟变量的形式出现时,虚拟变量的出现形式称为“水平”。
(2)反应:用()k j i,δ表示第i 个样本第j 个自变量取第k 个水平的反应:()k j i ,δ=⎩⎨⎧否则个水平时个自变量取第个样本第当第01k j i(3)反应表:将各样本的资料排列得到的表格称为反应表。
(4)反应矩阵:把反应表中的反应()k j i,δ写成矩阵形式,称为反应矩阵。
记为X=(()k j i,δ)。
3.基本方法(1)建模原则:如果一个属性变数有m 个类型,只引入m —1个虚拟变量。
否则,会陷入所谓的虚拟变数陷阱之中,出现完全多重共线性的情况。
在解释采用虚拟变量的模型结果时,要弄清楚水平值是如何确定的。
指定取值为0的类型或组通常用来指明基础类型、控制类型、对比类型或被省略的类型。
附属于虚拟变量D 的系数α1称为不同的截距系数,它说明D 取值为1的那种类型的截距项与基础类型的截距系数的数值差异有多大。
(2)建立数学模型:将虚拟变量视为普通变量,建立回归模型。
(3)对参数作出估计。
(4)进行预测。
(5)一般情况:指模型自变量中同时含有虚拟变量和普通变量。
4.应用实例研究1958年第四季度到1971年第二季度期间英国的失业率和职务空缺率之间的关系。
原始作出散点图解释:1966年第四季度起,失业—职位空缺的关系发生变化,表示两者之间关系的曲线在该季度开始上移。
这种上移的含义是指对于一定的职位空缺率来说,1966年第四季度比以前有更多的失业者。
其原因是1966年10月(即第四季度),当时的英国政府通过以统一收费率和(以前的)有关救济金收入的混合制度,取代短期失业救济的统一收费率制度,从而放宽了国民保险条例,这明显地增加了失业救济金的水平。
计量经济学第八章关于虚拟变量的回归.
类的截距。
2
2:级差截距系数
教龄X
1
0
薪金与性别:估计结果
1,若是男性 Di 0,若是女性
ˆ 17.969 1.371X 3.334D Y i i i se : (0.192) (0.036) (0.155) t : (93.61) (38.45) (21.455) r 2 0.993
一、虚拟变量的性质
例:教授薪金与性别、教龄的关系
男教授平均薪金和女 教授平均薪金水平相 差2,但平均年薪对 教龄的变化率是一样 的
Yi=1+2Di+Xi+I (1) 1,若是男性 D 其中:Yi=教授的薪金, Xi=教龄, Di=性别 0,若是女性 i 女教授平均薪金:E(Yi | X i , Di 0) 1 X i 被赋予0值的 男教授平均薪金:E(Yi | X i , Di 1) (1 2) X i 类别是基底(基 准),1是基底 男教授
比较英国在第二次大战后重建时期和重建后时期的总 储蓄-收入关系是否发生变化。数据如表。 Yt 1 2 Dt 1 X t 2 ( Dt X t ) t
D=1,重建时期
级差截距:区分两 个时期的截距 级差斜率系数:区分 两个时期的斜率 =0,重建后时期
D=1 D=0
E(Yt | Dt 0, X t ) 1 1 X t E(Yt | Dt 1, X t ) (1 2 ) ( 1 2 ) X t
男教授平均薪金水平比 女教授显著高$3.334K (男:21.3,女:17.969)
1,若是女性 Di 0,若是男性
ˆ 21.303 1.371X 3.334D Y i i i se : (0.182) (0.036) (0.155) t : (117.2) (38.45) (21.455)
9第八章 虚拟变量回归模型
Logit 模型的估计
区分两类数据:
(1)个体水平数据
购房概率 p 0 0 1 1
收入 X(千美元) 6 8 10 12
如果
pi
0,
Zi
ln
0 1
pi
1,
Zi
ln
1 0
可见,Z 表达式无意义,无法用OLS,需用ML(最大似然法)
冰箱销售量(千台) FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269
耐用品支出(10亿美元) DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8
4 回归分析操作命令: equation eq.ls Frig c Dur D1 D2 D3
提问 根据回归分析结果,发现存在什么问题?如何修改回归模型?
8.4 虚拟被解释变量的回归模型
【例】 研究是否购买住房与收入水平的关系。
设是否购房为被解释变量,用 Y 表示;收入为解释变量, 用 X 表示。
1 变量分析:
将DUR作为解释变量;FRIG作为被解释变量; 引入3个季度虚拟变量D1,D2,D3。 (虚拟变量数 = 属性数 – 1 )
2 季度虚拟变量的赋值规则:
D1=
1 (第1季度) 0 (其他季度)
D3=
1 (第3季度) 0 (其他季度)
D2=
庞浩计量经济学课件第八章 虚拟变量回归
二、虚拟变量的设置规则
1.虚拟变量个数的设置规则 若定性因素有m个相互排斥的类型(或属性、水 平),则: 在有截距项的模型中,只能引入m-1个虚拟变 量,否则会陷入“虚拟变量陷阱”(即:出 现完全的多重共线性); 在无截距项的模型中,可以引入m个虚拟变量, 不会导致完全的多重共线性。
4
例如:研究城乡居民的可支配收入对居民住房消费支 出的影响 C Y D u i 1 1 i 2 i i
21
分段线性回归
适合于社会经济现象会在解释变量达到某个临界值时 发生突变,考虑下述模型: Yt 1 1 X t 2 ( X t X * ) Dt ut 0, X t X * Dt * 1, X t X
当X t X *时, Yt 1 1 X t ut 当X t X 时, Yt 1 1 X t 2 ( X t X * ) ut
18
二、用虚拟变量表示不同斜率的回归—— 乘法类型
回归模型的比较——结构变化检验
分段线性回归
19
回归模型的比较——结构变化检验
研究改革开放前后(1950-2004),储蓄与收入的关系: Yi 1 2 Di 1 X i 2 ( Di X i ) ui
( 1950 1977 ) 0, 改革开放前 Di ( 1978 2004 ) 1, 改革开放后
Yi 1 2 Di 1 X i ui
0, 租房户 Di 1, 有房户
15
i 1 2 3 4 5 6 7 8 9 10
Y 1.0 1.3 0.7 0.8 0.5 2.4 0.3 3.2 2.8 0.0
X 20.0 24.0 12.0 16.0 11.0 32.0 10.0 40.0 32.0 7.0
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大学毕业生的初职年薪的期望为:
E(Yi | Di = 1) = B1 + B2 (1) = B1 + B2 K(9 − 3)
用OLS法很容易检验零假设:大学教育没有 任何益处(既B2=0),并可根据t检验值判定 b2是否统计显著。
5
例9.1 大学毕业生和非大学毕业生 的初职年薪
6
例9.1 大学毕业生和非大学毕业生 的初职年薪
14
9.2 包含一个定量变量:一个两分 定性变量的回归模型
(2)虚拟变量的赋值是任意的。 (3)赋值为0的一类常成为基准类 (base)、对比类(benchmark)、控 制类(control)、遗漏类(omitted category) (4)虚拟D的系数成为差别截距系数, 表明取值为1的类的截距值与基准类截距 值的差距。
17
例9.3 实例一则:教师年薪与教龄、 性别的关系。
根据(9-10)的回归结果,可以推导出男女 教师的平均年薪函数: 女教师平均年薪: ˆ Yi = 17 .969 + 1.3707 X i K (9 − 11a ) 男教师平均年薪: ˆ Yi = (17 .969 + 3 . 3336 ) + 1 .3707 X i = 21 .3026 + 1 .3707 X i K (9 − 11 b ) 图9-2描绘了上述回归结果。
9
9.2 包含一个定量变量:一个两分定性 变量的回归模型
一个ANCOVA模型: Yi=B1+B2Di+B3Xi+ui (9-6) 其中,Yi—大学教师的年薪
1, 男教师 Di= 0,女教师
10
Xi—教龄
9.2 包含一个定量变量:一个两分定 性变量的回归模型
对模型(9-6)的解释如下: 假定E(ui)=0,则 女教师平均年薪: E(Yi|Xi, Di=0)=B1+B3Xi 男教师平均年薪: E(Yi|Xi, Di=1)=(B1+B2)+B3Xi
18
例9.4 不同规模报酬对产出的影响
19
9.3 虚拟变量有多种分类的情况
假定根据横截面数据,我们想要做个人 假期旅游的年支出对其收入与受教育水 平的回归。 假定教育水平有如下几等:未达到中学 水平,中学水平,大学水平。我们引入 两个虚拟变量来表示三种不同的教育水 平。
20
9.3 虚拟变量有多种分类的情况
虚拟变量的技术可以推广到解释变量中有不 止一个定性变量的情形。如:在模型(9-6) 中引入肤色变量,可将(9-6)重写为:
Yi=B1+B2D2i+B3D3i+B4Xi+ui (9-18) 式中,Yi—年薪 Xi—教龄 D2i=
1, 男教师 0,女教师
D3i=
1,白种 0,非白种
26
32
9.6 回归模型中的结构稳定性:虚拟 变量法
回归方程(9-23)和(9-24)有四种可 能的结果:(参见图9-4) (1)A1=B1,A2=B2;称为一致回归。 (2)A1<>B1,A2=B2;称为平行回归。 (3)A1=B1,A2 <> B2;称为并发回归。 (4)A1 <> B1,A2 <> B2;称为相异回归。
假定教育水平不同的三个群体有相同的斜率, 但截距不同,我们用下面的模型: Yi =B1 +B2D2i +B3D3i+B4Xi+u (9-13) 式中,Yi—用于假期旅游的年支出 Xi—年收入
1, 中学教育 D2 = 0,其他
1 , 大学教育 D3 = 0 ,其他
21
9.3 虚拟变量有多种分类的情况
2
9.1 虚拟变量的性质
虚拟变量(dummy variable): 定性变量。一般取值为0,1。用符号D表示。 方差分析模型(ANOVA): 解释变量仅是虚拟变量的模型。 协方差模型(ANCOVA): 回归模型中的解释变量有些是定量的,有 些是定性的。
3
9.1 虚拟变量的性质
我们来看下面的一个例子: Yi=B1+B2Di+ui (9-1)
7
例9.2 工作权利对工会会员的 影响
为了研究工作权利法的效果(该法使工 会的劳资谈判合同合法化),Brennan等 人建立了工会会员(属于工会的工人占 所有工人的百分比)对工作权利法 (1980年)的函数模型。这项研究包括 了50个州,其中19个州制定了工作权利, 31个州允许有工会会员制度。
8
第九章 包含虚拟变量的回归模型
9.1 虚拟变量的性质 9.2 包含一个定量变量:一个两分定性变 量的回归模型 9.3 虚拟变量有多种分类的情况 9.4 包含一个定量变量:两个定性变量的 回归模型
1
第九章 包含虚拟变量的回归模型
9.5 9.6 法 9.7 9.8 模型的推广 回归模型中的结构稳定性:虚拟变量 虚拟变量在季节分析中的应用 小结
13
9.2 包含一个定量变量:一个两分 定性变量的回归模型
若设定两个虚拟变量,则模型(9-6)可写为:
Yi = B1 + B2X1i + B3D1i + B4D2i + Ui K(9 − 9)
1, 男教师 D1i = 0,女教师
1, 女教师 D 2i = 0,男教师
显然: D1=(1-D2)或D2=(1-D1) 也即D1 、D2完全共线性。此时无法得到参数的唯 一估计值,陷入虚拟变量陷阱。
se=(0.2694) (0.0147) (0.1708) (0.3956) t=(-4.7738) (11.7280) (-0.3982) (1.1304) p值=(0.000) (0.000) (0.3490) (0.1412) R2=0.9965
25
9.4 包含一个定量变量:两个定 性变量的回归模型
22
9.3 虚拟变量有多种分类的情况
23
例9.5 假设一例(旅游支出与收入和 教育的关系)
24
例9.5 假设一例(旅游支出与收入 和教育的关系)
为了解释模型(9-13),我们来看表93给出的数据。根据这些假设的数据得 到下面的回归结果:
ˆ Yi = −1.2860+ 0.1722Xi − 0.0680D2i + 0.4472D3i K(9 −17)
白种男教师平均年薪:
E(Yi|Xi, D2=1,D3=1)=(B1+B2+ B3)+B4Xi (9-22)
27
9.5 模型的推广
可以将模型推广到包含多个定量变量 和多个定性变量的情形。
28
例9.6 政党对竞选活动的资助
Wilhite和Theilmann在研究1982年政党对 国会选举的资质中,得到如下回归结果, 见表9-4。在这个回归方程中,应变量是 PARTY$(政党对当地候选人的资 助),$GAP,VGAP和PU是三个定量变量, OPEN,DEMOCRAT 和COMM是三个定性 变量,每一个定性变量分为两类。
9.4 包含一个定量变量:两个定 性变量的回归模型
假定E(ui)=0,则: 非白种女教师平均年薪:
E(Yi|Xi, D2=0,D3=0)=B1+B4Xi (9-19)
非白种男教师平均年薪:
E(Yi|Xi, D2=1,D3=0)=(B1+B2)+B4Xi (9-20)
白种女教师平均年薪:
E(Yi|Xi, D2=0,D3=1)=(B1+B3)+B4Xi (9-21)
在表7-6的基础上,我们增加了虚拟变量,见 表9-5,根据模型(9-25),利用表9-5提供的 数据得到下面的回归结果:
ˆ Yt = 1.02 + 152.48Dt + 0.0803Xt − 0.0655(Dt Xt )K(9 − 28) se=(20.16) (33.08) (0.0145) (0.0159) t=(0.05) (4.61) (5.54) (-4.10) p值 =(0.960) (0.0000)* (0.0000)* (0.0000)*
式(9-26)和(9-27)分别是萧条前和萧条后的 (平均)储蓄函数。
36
9.6 回归模型中的结构稳定性:虚 拟变量法
Yt =C1 +C2Dt +C3Xt +C4(DtXt)+ut (9-25)
在式(9-25)中,C2是差别截距。 C4是差别斜率。
37
例9.7 1970—1995,美国储蓄— 收入关系
假定E(u)=0,从(9-13)的回归结果可得: 未达到中学水平的平均旅游支出: E(Yi|D2=0,D3=0,Xi)=B1+B4Xi (9-14) 中学水平的平均旅游支出: E(Yi|D2=1,D3=0,Xi)=(B1+B2)+B4Xi (9-15) 大学毕业的平均旅游支出: E(Yi|D2=0,D3=1,Xi)=(B1+B3)+B4Xi (9-16) 图9-3描绘了上述三条回归直线(根据例9.5中的数据)
图9-2 描绘了这两种不同的情况。(为了说 明的方便,假定B1>0).
11
9.2 包含一个定量变量:一个两分 定性变量的回归模型
12
9.2 包含一个定量变量:一个两分 定性变量的回归模型
虚拟变量的一些性质: (1)一个虚拟变量足可以区分两个不同 的种类。 一般的规则是:如果一个定性的变 量有m类,则要引入(m-1)个虚拟变 量。
15
例9.3 实例一则:教师年薪与教龄、 性别的关系。
16
例9.3 实例一则:教师年薪与教龄、 性别的关系。
为了说明ANCOVA模型,我们来看表9-2 中数据。 根据数据,得到的OLS回归结果如下:
Yi =17.969+1.3707Xi +3.3336Di se=(0.1919) (0.0356) (0.1554) t=(93.6120) (38.454) (21.455) R2=0.9933 (9-10)