《虚拟变量》PPT课件

合集下载

第四讲 虚拟变量ppt课件

第四讲 虚拟变量ppt课件

① 若定性变量含有 m 个类别,则模型中最多只能引入 m-1 个虚拟变量,例如对于季 据(有 4 个季节) ,最多只能引入 3 个虚拟变量。当引入 4 个虚拟变量时,就会导致多 注意: (1) 当定性变量含有 m 个类别时,模型不能引入 m个虚 线性。看表 8-1 数据,4 个虚拟变量定义为, 拟变量。最多只能引入 m -1个虚拟变量,否则当模型中存在
2. 测量斜率变动
以上介绍了用虚拟变量测量回归函数的截距变化。实际上,也可以用虚拟 变量考察回归函数的斜率是否发生变化。方法是在模型中加入定量变量与
虚拟变量的乘积项。设模型如下,
Yi = 0 + 1 Xi + 2 Di + 3 (Xi Di) + ui
100 Y 80
按2,3 是否为零,回归函数可有如下四种形式。
表 8-1 xt 和虚拟变量 D1、D2、D3、D4 截距项时就会产生完全多重共线性,无法估计回归参数。比 t xt D1 D2 D3 D4 如,对于季节数据引入 4个虚拟变量,数据如下表, 1995.2 1995.1 x1 1995.3 1995.2 x2 1995.4 1995.3 x3 1996.1 1995.4 x4 1996.2 1996.1 x5 1996.3 1996.2 x6 1996.4 1996.3 x7 1997.1 1996.4 x8 1997.1 … x9
Yˆ i = - 0.5667 + 0.0963 Xi
(-3.5) (11.6) R2 = 0.88, DW = 1.85
比较回归方程,前者的确定系数为0.99,后者的确定系数仅为0.88。说 明该回归模型中引入虚拟变量非常必要。
把“季节”因素引入模型
“季节”是在研究经济问题中常常遇到的定性因素。比如,酒,肉的销量 在冬季要超过其它季节,而饮料的销量又以夏季为最大。当建立这类问 题的计量模型时,就要考虑把“季节”因素引入模型。由于一年有四个 季节,所以这是一个含有四个类别的定性变量。应该向模型引入三个虚 拟变量。

虚拟变量模型.最全优质PPT

虚拟变量模型.最全优质PPT
E ( Y i|X i,D 2 i 0 ,D 3 i 1 ) (1 3 ) X i
设 Y i 为消费支出;X i 为收入;D i 为虚拟变量, 即
1,城镇居民
Di 0,农村居民 i1,2,3, ,n
上述表达式的意义在于,在收入不变的条件下,研 究城镇居民和农村居民对消Y i 费的不同影响,即判断 城乡居民在消费上是否存在显著性差异。 农村居民年平均消费:
E (Y i,|X i,D i0)12X i
1.2 二态变量的作用
引入虚拟变量的作用,在于将定性因素或属性因素 对因变量的影响数量化。 1.可以描述和测量定性(或属性)因素的影响。 2.能够正确反映经济变量之间的相互关系,提高模 型的精度;例如在分段回归中的应用。 3.便于处理异常数据。由于某些突发事件的存在, 如战争、自然灾害,使原本比较稳定的经济关系发 生一段时间的混乱,此时可以利用虚拟变量。
设变量D表示某种属性,该属性有两种类型,即当 属性存在时D取值为1;当属性不存在时D取值为0。 记为
1 具有某种属性 D0 不具有该属性
该变量D即为二态变量。二态变量又称虚拟变量、 名义变量或哑变量,是用以反映质的属性的一个人 工变量,是量化了的质变量,通常取值为0或1, 一般“1”代表某一属性存在,“0”代表某一属 性不存在, 即“是”或“否”,“男”或“女”等。
对上述模型进行回归,利用样本统计量对假 设作出判断(t检验)。只有一个定性解释变 量往往可用于检验一个属性因素对被解释变 量的影响是否显著性存在。
2.1.2 模型中有一个定量解释变量和一
个定性解释变量
设模型形式为
Y i12Xi3D iui
式中,X i 为定量变量,D i 为具有两个属性类型 的定性变量。
设模型形式为

计量经济第七章虚拟变量模型课件

计量经济第七章虚拟变量模型课件

log
P2i P1i
21
21 X i ;
log
P3i P1i
31
31 X i ;
log
P3i P2i
32
32 X i .
其中 P1i、P2i、P3i 分别表示第 个决策者做出 第1、2、3个选择的概率。
23
Yi 0 1D1i ui ,
i 1,2, ,n.
其中 Yi
为个人月支出,
D1i
=
1,已婚 0,未婚
6
• 未婚者的月期望支出为:
E Yi | D1i 0 E 0 1 0 ui 0
• 已婚者的月期望支出为:
E Yi | D1i 1 E 0 1 1 ui 0 1
0 :未婚者的月平均支出 1 :未婚者与已婚者的月平均支出差距 0 1 :已婚者的月平均支出
Zi
f
1
Pi
ln
1
Pi Pi
ln
Pi 1 Pi
0
1
X1i
+
+k X ki
17
二、二元Logit模型估计
• 1.可重复观测数据的二元Logit模型 参数估计
• P144 【相关链接】
• 2.不可重复观测数据的二元Logit模 型参数估计
• P145 【相关链接】
18
三、模型检验与拟合优度
定义:以虚拟变量为因变量的线性回 归模型称为线性概率模型。
(linear probability model,LPM) 模型的基本形式为:
Yi 0 1X1i +2 X2i k Xki ui ,
E Yi | X 0 1X1i +2 X2i k Xki ,
i 1,2, ,n.

计量经济学(共33张PPT)

计量经济学(共33张PPT)

假定3>2,其几何意义:
问题:
虚拟变量为何只选“0”, ‘1“,选择0,1,2 等 可以吗
同一种属性,两个变量能够表示几种状态? 思考,如果在模型中引入季节效应?月份效应?
(3)多个虚拟变量的引入——多种因素
例:研究学历(本科及以上,本科以下),性别(男、女)对员工工资的 影响。
在例1基础上,再引入代表学历的虚拟变量D2:
离散选择模型(离散被解释变量)
D (2)多个虚拟变量的设定和引入 0 女职工本科以上学历的平均薪金:
本科以下
当回归模型有截距项时,只能引入 m-1 个虚拟变量
注意:加法方式引入虚拟变量,考察了截距的不同。
交互作用的引入方法:在模型中引入相关变量的乘积。
反映性别的虚拟变量可取为: 女职工本科以下学历的平均薪金:
几何意义:
•两个函数有相同的斜率,说明男女职工平均薪金对工龄的变 化率是一样的。
•如果2>0,表明两个函数截距不相同,且男职工平均薪金比 女职工高,两者平均薪金水平相差2。 •如果2<0,表明两个函数截距不相同,且男职工平均薪金比女 职工低,两者平均薪金水平相差2。 •如果2=0,表明两个函数截距相同,即男职工,女职工的平
均薪金没有显著差异。
可以通过传统的回归检验,对2的统计显著性进行 检验,以判断企业男女职工的平均薪金水平是否有 显著差异。
2
0
(2)多个虚拟变量的设定和引入
——一种因素多种状态(水平):
例:研究收入和教育水平(分为高,中,低三类)对个人保健支出的影响。
教育水平考虑三个层次:
低学历:高中以下,
中等学历:高中,及大中专 高学历:大学及其以上。
2、基本概念
定量因素——可直接测度,数值性的因素 定性因素——属性因素,表征某种属性存在

第八章虚拟变量回归ppt课件

第八章虚拟变量回归ppt课件
1.若定性因素具有 m 个 (m 2)相互排斥属性(或
几个水平),当回归模型有截距项时,只能引入 m -1个虚拟变量; 2.当回归模型无截距项时,则可引入 m 个虚拟变 量;否则,就会陷入“虚拟变量陷阱”。(为什 么?)
12
一个例子(虚拟变量陷阱)
研究居民住房消费支出 Yi 和居民可支配收入 X i 之间的 数量关系。回归模型的设定为:Yi = 0 + 1Xi +ui (1)
则对任一家庭都有: D1 + D2 = 1 D1 + D2 - 1 = 0 ,
即产生完全共线,陷入了“虚拟变量陷阱”。
“虚拟变量陷阱”的实质是:完全多重共线性。
14
三、虚拟变量的作用
属性因素代表:性别,所有制 非精确计量的数量因素的代表:教育程
度,管理者素质,企业规模。 偶然因素或政策因素代表:战争、灾害、
30
加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程 截距; 2.在没有定量解释变量的情形下,主要用于方 差分析。
31
二、乘法类型
基本思想
以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟 解释变量与其它解释变量的乘积,作为新的解释变量出现在 模型中,以达到其调整设定模型斜率系数的目的。或者将模 型斜率系数表示为虚拟变量的函数,以达到相同的目的。
计量经济学
第八章 虚拟变量回归
1
引子:男女大学生消费真有差异吗?
在对在校学生的消费行为进行的调查中,发现在校 生的消费行为呈现多元化的结构。人际交往消费、 手机类消费、衣着类消费、化妆品类消费、电脑类 消费、旅游类消费占有较大的比例;而食品类消费、 学习用品类消费不突显。 显然,男女生在消费上存在差异。为了了解男、女 生的消费支出结构差异,应当如何建立模型?

计量经济学——虚拟解释变量模型PPT课件

计量经济学——虚拟解释变量模型PPT课件

编辑版pppt
8
以一个最简单的虚拟变量模型为例,如 果只包含一个质的因素,而且这个因素 仅有两个特征,则回归模型中只需引入 一个虚拟变量。如果是含有多个质的因 素, 自然要引入多个虚拟变量。
编辑版pppt
9Байду номын сангаас
如果只有一个质的因素,且具有m个特 征,那么如果是含有截距项的,就要引入 m-1个虚拟变量;不含有截距项的, 应该 引入m个虚拟变量,这就是虚拟变量的设 定原则。
编辑版pppt
10
一 、截距变动模型和斜率变动模型
(一)包含一个虚拟变量的截距变动模型 首先从最简单的例子入手,假设只有一
个定性因素影响被解释变量的变化,而且这 个因素仅有两种特征,这时候只需要引入一 个虚拟变量。
编辑版pppt
11
【例8.1】假设有一个包括正常年份和
非正常年份(亚洲金融危机或SARS的影
17
D 0时 正常E 年 ( Y ) i 份 02 X i D 1时 非正E 常 ( Y I) 年 01份 2 X i
如果我们绘制图形,得到的结果仍然
是一样的。此时,β1<0,非正常年份的
线低于正常年份的线,代表非正常年份的 消费水平低于正常年份的消费水平。
编辑版pppt
18
2.虚拟变量D=0所代表的特性或
编辑版pppt
6
需要指出的是,虚拟变量主要是用来 代表质的因素,但是有些情况下也可以 用来代表数量因素。例如在建立储蓄函 数时,“收入”显然是一个重要解释变 量,虽然是“数量”因素,但是为了方 便也可以用虚拟变量表示。
编辑版pppt
7
第二节 虚拟解释变量的设定
虚拟解释变量模型的设定因为质的 因素的多少和这些因素特征的多少而引 入的虚拟变量也会不同。

计量经济学第二版第8章-虚拟变量ppt课件

计量经济学第二版第8章-虚拟变量ppt课件

表1 我国各地区城乡居民收入 单位:元、人
地区 城镇居民
农村居民
人均可支配收入
人均纯收入
北 京 26738.48
11668.59
天 津 21402.01
8687.56
河 北 14718.25
5149.67
山 西 13996.55
4244.10
内蒙古 15849.19
4937.80
辽 宁 15761.38
➢ 了解线性概率模型、Logit模型和Probit模型的基 本思想和估计方法。
精品课件
引例:男女大学生的消费差异
在校大学生的消费行为越来越受到社会的关 注,学生家长也很关心自己的子女上大学的 花费问题。由共青团、全国学联共同发布的 《2004中国大学生消费与生活形态研究报告》 显示,当代大学生在消费结构方面呈现多元 化趋势。大学生除了日常生活费开支以外, 还有人际交往、网络通信、书报、衣着类、 化妆品类、电脑类、旅游类、食品类、学习 用品类、各类考证类等多重消费。
Yi=(a+α2)+ bxi+εi 研究生(D1=0,D2=1)
三类年薪函数的差异情况如下图所示:
上图直观地描述了三类 年薪函数的差异情况, 通过检验、 α1 、α2的 显著性,可以判断学历 层次对职员的年薪是否 有显著影响。
年薪
α1
精品课件
α2 -α1
研究生 本科 大专以下
工龄
虚拟变量数量的设置规则
4478.35
四 川 13839.40
4462.05
贵 州 12862.53
3005.41
云 南 14423.93
3369.34
西 藏 13544.41
3531.72

计量经济学课件虚拟变量

计量经济学课件虚拟变量

2. 检验模型结构的稳定性
定义: 如果模型中参数的估计值与样本的选取无关, 则称该模型结构是稳定的。 用途: (1)检验多重共线性; (2)比较两个回归模型是否存在显著差异。 例:不同时期、不同地区、不同行业
模型:
样本1
样本2
y a1 b1 x
y a2 b2 x
组合:y a bx D XD
1 D 0 1 D 0
1 D 0 1 D 0
宽松政策 紧缩政策 发达地区 不发达地区
销售旺季 销售淡季
高收入家庭 低收入家庭
作用:
⑴描述和测量定性因素的影响; ⑵正确反映经济变量之间的关系,提高模型的精度 ⑶便于处理异常数据。
本节学习要求: 1958 年 1 D 其他年份 ⑴如何设置虚拟变量; 0 ⑵如何描述和测量定性因素的影响。
东 中 西
中部地区 其他地区
α2 -α1
(a 1 ) bX
东部地区 其他地区
α1
a bX
方式3:设置3个虚拟变量
1 D1 0
1 D3 0
中部地区 其他地区
西部地区 其他地区
1 D2 0
东部地区 其他地区
D1 D2 D3 1
虚拟变量的设置原则 1:
第四节
虚拟变量
一、虚拟变量及其作用
问题: 在计量经济模型中如何反映定性因素影响?例如:
金融计量分析中的政策因素、心理因素 经济增长分析中的地区差异因素 产品销售分析中的季节因素、消费习惯等因素

定义: 用以描述定性因素影响、只取数值0和1的人工变 量为“虚拟变量”,一般用符号D表示。 (Dummy variable—哑变量)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

OLS估计2
删除D2再进行检验
• 从结果我们可以看出模型的拟合和模型整体显著,且不存在自相关, 但常数项和D2的系数不显著,我们可以先删除D2再进行检验,命令 为:
• s lgdp c ll lk d1 d3 • 结果如下:
OLS估计3
删除d3
• 此时常数项的系数依然不显 著,我们再删除常数项,进 行同样的分析,结果为:
• 其中
D 1第1季I 1,2,3,4
it
0其他
• 将上式写成矩阵形式
Y
( XD)
B A
U
式中
1 x11 x21 xk1 1 0 0 0 1 x12 x22 xk 2 0 1 0 0
0 0 1 0
( XD)
0 0 0 1
1
x1n
x2n
xkn
0
0
虚拟变量及虚拟变量方程的定义
武汉大学经济学系数量经济学教研室《实践教改项目组》 编
• 在经济变量的讨论中,经常要考虑属性因素的影响, 例如职业、地区、季节、战争、文化程度、自然灾害 等,它们的特点不能直接度量。为了在模型中反映这 些属性因素的影响,必须将它们“量化”。根据其属
性类型,构造只取“0”或“1”的人工变量,这就是虚 拟变量,通常记为变量D。
OLS估计1
引入虚拟变量 D1、D2、D3
• 由于我们想分析东、中、西部区的经济增长方式是否存在差异,因此根据前 面的分析引入三个变量,其中D1表示东部地区领组,D2表示东部地区赶超组, D3表示中西部地区领先组。在此基本上进行分析,其命令为: ls lgdp ll lk d1 d2 d3
• 其结果为:
在不引入虚拟变量的情况下进行回归
• 在不引入虚拟变量的情况下进行回归,命令为: • ls lgdp c ll lk d1 d2 d3 • 从下面的分析结果可以看出,该式中的常数项的T检验值不显著,模
型的拟优度很好,模型整体检验也很显著,且不存在自相关性。我们 相关系数检验,发现劳动力与固定资产的投入的相关系数为0.78,一 般当解释变量的相关系数不超过0.8时,可以认为模型不存在自相关性, 此时不作变换。 • 其结果如下:
分析步骤
• 对数据进行对数变化: • 在不引入虚拟变量的情况下进行回归 • 引入虚拟变量 D1、D2、D3 • 删除D2再进行检验 • 删除常数项 • 删除 D3 • 保留D3
对数据进行对数变化
• 对数据进行对数变化,其命令为:
– genr lgdp=log(gdp) – genr ll=log(l) – genr lk=log(k)
• 乘法方式 – 在一个较长的时期内,
虚拟变量设置原则
• 虚拟变量引入的原则为:如果有M种互斥的属性类型,在模型中引入M-1个虚 拟变量。
• 例如,要引入区分春夏秋冬四个不同季节的虚拟变量,此时M=4,应引入M1=3个虚拟变量。此时有模型:
k
Yt 0 i X it D k1 1t D k2 2t D k3 3t D k4 4t ut i 1
OLS估计4
删除 常数项
• 此时D3的系数从严格意义勉强可能通过,为了得到更好的拟合值,我们把D3 删除,再进行分析,结果如下图
• 此时拟合度没有保留D3的好,而且D1的显著性明显降低,证明删除D3是不优 的选择。所以我们保留D3
OLS估计5
分析结果综述
• 从上面的分析结果我们可以看出,在引入虚拟变 量后,模型的拟合度优于没有引入虚拟变量前的 拟合度,但最重要的是给我们分析问题提供了很 好的依据。在我国依然以资产投入为主,依然走 着粗放形经济增长的道路,而且东部赶超组与中 西部地区赶超组走着同样的道路,技术在经济增 长过程中的作用不大,与这两个地方的发展相比, 东部地区的注重到技术的作用,同时领先组的发 展环境也为经济的发展作出了不可忽视的贡献。
0
1
0
B
1
;

案例分析
• 在此例中我们考虑东、中和西部地方经济的增长方式, 在此选取了2001年的大多数代表性省份的总产出、劳 动力和固定资产投入来分析,我们把样本分为四个研 究范围,即(1)、东部地区领先组:北京、天津、上 海、辽宁;(2)东部地区领先组:浙江、江苏、广东、 福建和海南,本人曾试图把山东加入,但加入后对分 析的结果影响很大,证明山东省并不属于这一个范围; (3)中西部领先组:山西、内蒙、吉林、黑龙江、湖 北、江西、西藏、青海、宁夏、、甘肃、新疆;(4)、 中西部地赶超组:安徽、河南、湖南、四川、广西、 云南、陕西和贵州。样本划分的方法来自于《经济学 动态》2002.8中《技术效率、配置效率与劳动力市扭曲》 一文。
• 一般地,在虚拟变量的设置中,基础类型,肯定类型 取值为1,否定类型取值为0。引入虚拟变量之后,回 归方程中同时含有一般解释变量和虚拟变量,这种结
构的回归方程称为虚拟变量模型。
虚拟变量的引入
• 加法方式 – 当虚拟变量对解释变量的影响只是短期时,一般采用加法方式 引入。此 时虚拟变量与其它解释变量在模型中是相加的关系。
相关文档
最新文档