3虚拟变量的引入

合集下载

第七章 虚拟变量

第七章 虚拟变量

第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。

如收入、支出、价格、资金等等。

但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。

属性变量:不能精确计量的说明某种属性或状态的定性变量。

在计量经济模型中,应当包含属性变量对应变量的影响作用。

那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。

为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。

由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。

既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。

称为虚拟变量。

虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。

一般常用D表示。

D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。

当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。

二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。

4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。

用加法乘法方式引入虚拟变量 阿尔蒙多项式法估计有限分布滞后模型

用加法乘法方式引入虚拟变量   阿尔蒙多项式法估计有限分布滞后模型

《计量经济学》上机指导手册三目录§3.1 实验介绍 (2)3.1.1 上机实验名称 (2)3.1.2 实验目的 (2)3.1.3 实验要求 (2)3.1.4 数据资料 (2)§3.2 用加法和乘法加入虚拟变量 (4)3.2.1 用加法方式引入虚拟变量 (4)3.2.2 用乘法方式引入虚拟变量 (6)§3.3 阿尔蒙多项式法估计有限分布滞后模型 (9)3.3.1 参数估计(方法一) (15)3.3.2 参数估计(方法二) (15)3.3.3 还原模型 (17)§3.4 Granger因果检验.............................................................................................. 错误!未定义书签。

3.4.1 序列平稳性检验及调整........................................................................ 错误!未定义书签。

3.4.2 Granger因果检验 ................................................................................... 错误!未定义书签。

§3.1 实验介绍3.1.1 上机实验名称用加法和乘法引入虚拟变量阿尔蒙多项式估计有限分布滞后模型Granger因果检验3.1.2 实验目的通过对用加法和乘法引入虚拟变量、阿尔蒙多项式估计有限分布滞后模型、Granger因果检验的练习,掌握经典单方程模型中一些专门问题的理解及软件操作。

3.1.3 实验要求根据实验数据,完成实验报告。

对于已经完成的工作,请自我测评。

将完成要求的标题标成蓝色,未完成的标成红色。

例如:3.1.4 数据资料(1)《14-15-1 EViews上机数据3.xls》中《Dummy Variable》(2)《14-15-1 EViews上机数据3.xls》中《Almon》(3)《14-15-1 EViews上机数据3.xls》中《Granger Test》§3.2 用加法和乘法加入虚拟变量根据1965年-1970年美国制造业的利润和销售额季度数据(见《14-15-1 EViews上机数据3.xls》中《Dummy Variable》),判断利润是否除了与销售额有关,还与季度因素有关。

第八章 虚拟变量3

第八章 虚拟变量3

答案

1 D = 0
有适龄子女 无有适龄子女
支出函数模型为 : yt = β 0 + β1xt + αDt + ut
无适龄子女家庭支出模型为 : y t = β 0 + β 1 xt + u t
有适龄子女家庭支出模 型为 : y t = ( β 0 + α ) + β 1 xt + u t
两类家庭斜率 (边际消费倾向) 相同,但截距不 同.截距反映了 他们之间平均水 平的差异 差异 为α
虚拟变量陷阱
一个例子
研究居民住房消费支出 研究居民住房消费支出Yi和居民可支配收入 Xi 之间 居民住房消费支出 的数量关系。回归模型的设定为: 的数量关系。回归模型的设定为:
Yi = α 0 + β 1 X
i
+ u i (1 )
现在要考虑城镇居民和农村居民之间的差异,如何办? 为了对 “城镇居民”、“农村居民”进行区分,分析各自 在住房消费支出 Yi 上的差异,设 1 城镇 则模型为
yt = β 0 + β1 xt + α1 D1t + α 2 D2t + ut
•Y 与x分别为消费指出与可支配收入,虚拟变量 D1与D2依次为
1 D1 = 0 城镇居民 农村居民
1 D1 = 0 高收入家庭 低收入家庭
农村低收入家庭模型
yt = β0 + β1x1t + ut
农村高收入家庭模型 y = (β + α ) + β x + u t 0 2 1 1t t 城镇低收入家庭模型
第八章
虚拟变量
围绕三个问题展开: 1.什么是虚拟变量?何时需要引进? 2.虚拟变量如何设置? 3.引入了虚拟变量的模型如何估计与解释?

第六章09虚拟变量

第六章09虚拟变量

第三节
虚拟变量的特殊应用
一、调整季节波动 利用季节或月份资料建立模型时,经常存在着季节波动。 使用虚拟变量可以反映季节因素的影响。 例如,利用季度数据分析某公司利润y与销售收入x 之 间的相互关系时,为研究四个季度的季节性影响,引入 三个虚拟变量(设第1季度为基础类型): 第i+1季度 i=1,2,3 1 Di 其他季度 0 取利润函数为 : Yi=a+bxi+ α1D1i+ α2D2i + α3D3i + μi 系数a、α1、α2、α3分别反映了一、二、三、四季度对利 润的平均影响程度,根据这些系数的t检验可以判断季 节因素对利润是否显著影响。
YYt = -830.4045 + 0.1445GNIt - 0.2914 GNIt -66850.50 D1t + 0.5602 GNIt -88254.00 D2t
se=(172.1626)(0.0057) t = (-4.8234) (25.1700)
R 2 0.9880
(0.0272) (-10.7192)
我国城镇居民彩电需求函数的估计结果为:
ˆi 57.61 0.0119 xi 31.8731Di 0.0088 XDi y
α 、 β 的 t 检验都是显著的,表明我国城镇居民低收入家 庭与中高收入家庭对彩电的消费需求,在截距和斜率上 都存在着明显差异,各自的需求函数为:
低收入家庭:
ˆi 57.61 0.0119 xi y
中高收入家庭:
ˆi (57.61 31.8731) (0.0119 0.0088) xi y 89.48 0.003xi
事实上,现阶段我国城镇ቤተ መጻሕፍቲ ባይዱ民中高收入家庭的彩电普及 率已达到百分之百,所以对彩电的消费需求处于更新换 代阶段。

虚拟变量

虚拟变量

定性因素的影响不仅表现在截距上,有时可能 还会影响斜率。例如,有无适龄子女家庭的教育费 用支出的边际消费倾向也可能不同。为了反映定性 因素对斜率的影响,可以用乘法方式引入虚拟变量, 将家庭教育费用支出函数模型设成:
Yi 0 1 X i 2 X i Di ui
这里,X i Di X i Di,即虚拟变量Di与X i以相乘的方 式引入了模型。
3.分段线性回归 当Yt 与X t的关系可用折线表示时,可建立分段回归模型 Yt 0 1 X t 2 ( X t X b1 ) D ui 其中X b1为折点,这时t b1。 0, (1 t b1 ) D 1, (b1 t T ) 0 1 X t E Yt ( 0 2 X b1 ) ( 1 2 ) X t 多个折点情况可类似处理。 ( D 0) ( D 1)
三、虚拟变量的设置原则
1.只有一个定性因素 如果只有一个定性因素,且定性因素有m种类 型,则应该设置(m-1)个虚拟变量。
例如,公司职员的年薪y不仅与工龄x有关,而且 与学历有关。学历分成三种类型:大专以下、本 科、研究生。为了反映“学历”这个定性因素的 影响, 应该设置两个虚拟变量:
1 本科 D1 0 其他 1 研究生 D2 0 其他
则研究生学历的平均年薪为
E(Yi ) (0 3 ) 1 X i (D1 0, D2 1)
图8.3 不同学历职员的平均年薪
如果再增设一个虚拟变量,就会出现多重共线 性。比如增加
1 大专以下 D3 0 其他
则对于每一个职员,只能使某一个Di 1,其他的等于0, 即D1 D2 D3 1,模型存在多重共线性。
则无适龄子女家庭的平均教育费用支出为

虚拟变量的引入

虚拟变量的引入
ቤተ መጻሕፍቲ ባይዱ
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
02
虚拟变量的创建方法
手动创建
确定变量范围
根据研究需求,确定需要引入的虚拟变量及其取值范 围。
创建变量矩阵
根据确定的取值范围,创建相应的变量矩阵,用于表 示各个虚拟变量。
赋值编码
为矩阵中的各个元素进行赋值编码,以表示不同的虚 拟变量取值。
2. 交互作用
虚拟变量可以用于表示两个或多个分类变量之间的交互作用。例如,在回归分析中,可以引入交互项来研究不同类别 之间的相互作用对因变量的影响。
3. 多因素分析
虚拟变量在多因素分析中非常有用,例如在回归分析、方差分析、聚类分析等中。通过引入虚拟变量, 可以研究不同类别之间的差异和交互作用。
虚拟变量的应用场景
虚拟变量的引入会增加模型的复杂度,使得模型更难以解释和理解。
多重共线性问题
如果虚拟变量之间存在多重共线性关系,会导致回归系数不稳定, 影响模型的准确性。
过度拟合问题
过度引入虚拟变量可能导致模型过度拟合,使得模型在训练数据上 表现良好,但在实际应用中表现较差。
如何选择合适的虚拟变量
考虑变量的实际意义 在选择虚拟变量时,应考虑变量 的实际意义,确保选择的变量能 够反映研究问题的实际情况。
1. 市场调查
在市场调查中,常常需要了解不同人群的特征和行为。虚 拟变量可以用于表示不同的群体或类别,例如性别、年龄 段、职业等。
2. 社会科学研究
在社会科学研究中,常常需要研究不同群体之间的差异和 交互作用。虚拟变量可以用于表示不同的社会群体或状态, 例如种族、宗教、教育程度等。
3. 生物统计学

计量经济学第九章虚拟变量

计量经济学第九章虚拟变量

虚拟变量的类型
季节虚拟变量
用于反映季节变动对经济活动的影响。
政策虚拟变量
用于反映某项政策实施前后对经济活 动的不同影响。
地区虚拟变量
用于反映不同地区之间经济活动的差 异。
行业虚拟变量
用于反映不同行业之间经济活动的差 异。
虚拟变量的引入原因
解决遗漏变量问题
01
当某些重要变量无法直接观测或获取时,可以通过引入虚拟变
在模型中引入虚拟变量与解释变量的交互项,通过 改变斜率的值来反映不同组别之间的差异。
斜率变动模型的应用
适用于研究不同组别之间在某一解释变量上 的边际效应差异,如不同教育水平对收入的 影响等。
含有多个虚拟变量的模型
含有多个虚拟变量的模型的定义
当模型中引入多个虚拟变量时,称为含有多个虚拟变量的模型。
含有多个虚拟变量的模型的设定
VS
使用计算变量功能
可以使用SPSS的计算变量功能手动创建虚 拟变量。在数据视图中,点击“转换”菜 单下的“计算变量”选项。在弹出的对话 框中,输入虚拟变量的名称和标签,并在 计算表达式中输入相应的逻辑表达式。例 如,对于分类变量`industry`,可以使用如 下表达式生成虚拟变量
SPSS中实现虚拟变量的方法
截距变动模型的设

在模型中引入虚拟变量,通过改 变截距项的值来反映不同组别之 间的差异。
截距变动模型的应

适用于研究不同组别之间在某一 解释变量上的平均差异,如不同 性别、不同地区等。
斜率变动模型
斜率变动模型的定义
当虚拟变量不仅影响模型的截距项,还影响 解释变量的斜率时,称为斜率变动模型。
斜率变动模型的设定
通过比较政策虚拟变量的系数,可以分析 出政策变动对市场需求的影响程度。

3.6虚拟变量模型

3.6虚拟变量模型

王中昭制作
• ③、混合方式:虚拟变量与各解释 变量之间同时存在相乘和相加关系。 • 特点:模型的截距和斜率均不相同。 • 例如: Yt=a1+a2Dt+b1Xt+b2Dt*Xt+μt • 当Dt=1时,截距=a1+a2,斜率= b1+b2; • 当Dt=0时,截距=a10 本科以上(含本科) , 其它 1 D2 0 本科以下 其它
C x D1 D2 0 1 1 0 0 1 0 0 1 1
建立方程: Y=a0+a1D1+a2D2+a3X+μ
职工工资 工龄
1 4 1 15 若有如下样本 : X 1 7 1 10 1 26 则D1+D2=1,导致
模型:加法模型, 乘法模型和混合模型.
王中昭制作
本节结束,See you next time!
• 作业:p106.10
由估计结果可知,这表明1989年、1990年物价的急剧变动使得 农村居民平均消费有所降低。思考:能用混合模型吗?
王中昭制作
实例3:判断中国农村居民与城镇居民的消费行为是否有显 著差异。 被解释变量:居民家庭人均生活消费支出Y 解释变量:居民家庭人均工资收入X1、其他收入X2
样本:2013年31个地区农村居民与城镇居民人均数据,虚拟变 量Di:农村居民取值1,城镇居民取值0 .
模型中引进虚拟变量的理由,在于考虑1989年、1990年物价的急 剧变动对农村居民平均消费水平的影响。D1989和D1990分别定义如下:
1 D1989 0 1989年 1 , D1990 其它 0
(-0.374) (2.47)
1990年 其它
, 样本区间为1981年至1997年, 估计结果如下 :
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

90年前 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990

1979~2001 年中国居民储蓄与收入数(据亿元)
储蓄
GNP
90年后
储蓄
GNP
281
4038.2
1991
9107
21662.5
399.5
4517.8
1992
11545.4
薪金Y
60 Y
40
男职工 女职工
20
2
0 0
0
X 工龄X
20
40
60
• 可以通过传统的回归检验,对2的统计显著性进行检验, 以判断企业男女职工的平均薪金水平是否有显著差异。
• 例:中国成年人体重y(kg)与身高x(cm) 的回归关系如下:

–105 + x D = 1 (男)
y = - 100 + x - 5D =
曾生子女数 b0 b1年龄 b2EDU2 1.41 0.068年龄 1.13 0.28 0.068年龄
• 表明,对于相同年龄和居住地而言,小学 文化程度妇女比文盲妇女曾生子女数多出 b2个部分,即少生1.13个子女。
回归方程的解释
• 当教育程度为文盲、居住地为城市时,
曾生子女数 b0 b1年龄 b6AREA 1.41 0.068年龄 0.49 0.92 0.068年龄
如,设
1 正常年份 Dt 0 反常年份
消费模型可建立如下:
Ct 0 1 X t 2 Dt X t t
• 这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。
• 假定E(i)= 0,上述模型所表示的函数可化为:
正常年份:
E(Ct | X t , Dt 1) 0 (1 2 ) X t
这种“量化”通常是通过引入“虚拟变量” 来完成的。根据这些因素的属性类型,构造只取 “0”或“1”的人工变量,通常称为虚拟变量,记为 D。
• 例如,反映文程度的虚拟变量可取为:
1, 本科学历 D=
0, 非本科学历
• 一般地,在虚拟变量的设置中:
• 基础类型、肯定类型取值为1; • 比较类型,否定类型取值为0。
•女职工本科以下学历的平均薪金:
E(Yi | X i , D1 0, D2 0) 0 1 X i
•男职工本科以下学历的平均薪金:
E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
•女职工本科以上学历的平均薪金:
E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
• 加法方式引入虚拟变量,考察:截距的不同。 • 许多情况下:往往是斜率就有变化,或斜率、
截距同时发生变化。 • 斜率的变化可通过以乘法的方式引入虚拟变量
来测度。
例:根据消费理论,消费水平C主要取决于收 入水平Y,但在一个较长的时期,人们的消费倾 向会发生变化,尤其是在自然灾害、战争等反常 年份,消费倾向往往出现变化。这种消费倾向的 变化可通过在收入的系数中引入虚拟变量来考察。
Yt
0
1X t
2(Xt
X
* t
)Dt
t
OLS法得到该模型的回归方程为:
Yˆt
ˆ0
ˆ1 X t
ˆ2 (X t
X
* t
)Dt
Байду номын сангаас
则两时期进口消费品函数分别为:
当t<t*=1979年, Yˆt ˆ0 ˆ1Xt
当tt*=1979年,
Yˆt
(ˆ0
ˆ
2
X
* i
)
(
ˆ1
ˆ2 )X t
(三)虚拟变量的设置原则
上述企业职工薪金模型中性别虚拟变量的 引入采取了加法方式。
在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:
E(Yi | X i , Di 0) 0 1 X i 企业男职工的平均薪金为:
E(Yi | X i , Di 1) ( 0 2 ) 1 X i 几何意义:
• 假定2>0,则两个函数有相同的斜率, 但有不同的截距。意即,男女职工平均薪金对 教龄的变化率是一样的,但两者的平均薪金水 平相差2。
73142.7
2237.6
10201.4
1998
53407.5
76967.2
3073.3
11954.5
1999
59621.8
80579.4
3801.5
14922.3
2000
64332.4
88228.1
5146.9
16917.8
2001
73762.4
94346.4
7034.2
18598.4
以Y为储蓄,X为收入,可令:

– 100 + x D = 0 (女)
又例:在横截面数据基础上,考虑个人保健支 出对个人收入和教育水平的回归。
教育水平考虑三个层次:高中以下,
高中,
大学及其以上。 这时需要引入两个虚拟变量:
1 D1 0
高中 其他
1 D2 0
大学及其以上 其他
模型可设定如下:
Yi 0 1 X i 2 D1 3 D2 i 在E(i)=0 的初始假定下,高中以下、 高中、大学及其以上教育水平下个人保健支出 的函数:
• 地区=1(城市)
AREA=1
• 地区=2(农村)
AREA=0
应用软件建立回归方程
曾生子女数 b0 b1年龄 b2EDU2 b3EDU3 b4EDU4 b5EDU5 b6AREA
• 回归结果:
曾生子女数 1.41 0.068年龄 1.13EDU2 1.31EDU3 1.58EDU4 1.57EDU5 0.49AREA
虚拟变量模型
(一)虚拟变量的基本含义
• 许多经济变量是可以定量度量的,如:商品需 求量、价格、收入、产量等。
• 但也有一些影响经济变量的因素无法定量度量, 如:职业、性别对收入的影响,战争、自然灾 害对GDP的影响,季节对某些产品(如冷饮) 销售的影响等等。
• 为了在模型中能够反映这些因素的影响,并提 高模型的精度,需要将它们“量化”。
• 高中以下: E(Yi | X i , D1 0, D2 0) 0 1 X i
• 高中: E(Yi | X i , D1 1, D2 0) (0 2 ) 1 X i
• 大学及其以上: E(Yi | X i , D1 0, D2 1) (0 3 ) 1 X i
假定3>2,其几何意义:
表明,对于相同年龄和文化程度而言,城 市妇女比农村妇女曾生子女数多出b6个部 分,即少生0.49个子女。
回归方程的解释
• 总之,该回归方程表示: • 参照类妇女曾生子女数对年龄的回归直线
的截据为1.41,年龄每上升1岁,参照类 妇女的平均曾生子女数上升0.068个。 • 城市妇女比农村妇女的平均曾生子女数少 0.49个。 • 小学、初中、高中和大学文化程度妇女的 平均曾生子女数分别比文盲妇女少1.13、 1.31、1.58、1.57个(在年龄和居住地相 同时)。
反常年份:
E(Ct | X t , Dt 0) 0 1 X t
当截距与斜率发生变化时,则需要同时引入 加法与乘法形式的虚拟变量。
• 例,考察1990年前后的中国居民的总储蓄-收 入关系是否已发生变化。 下 表 中 给 出 了 中 国 1979~2001 年 以 城 乡 储蓄存款余额代表的居民储蓄以及以GNP代表 的居民收入的数据。
概念: 同时含有一般解释变量与虚拟变量的模
型称为虚拟变量模型或者方差分析模型。 一个以性别为虚拟变量考察企业职工薪
金的模型:
Yi 0 1 X i 2 Di i
其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。
(二)虚拟变量的引入
虚拟变量做为解释变量引入模型有两种基 本方式:加法方式和乘法方式。 1. 加法方式
(-6.11) (22.89) (4.33) (-2.55)
R 2 =0.9836
由3与4的t检验可知:参数显著地不等于0, 强烈示出两个时期的回归是相异的,储蓄函数 分别为:
1990年前: 1990年后:
Yˆi 1649.7 0.4116Xi Yˆi 15452 0.8881Xi
3. 临界指标的虚拟变量的引入
• 1990年前: Yi=1+2Xi+1i
i=1,2…,n1
• 1990年后: Yi=1+2Xi+2i
i=1,2…,n2
则有可能出现下述四种情况中的一种:
(1) 1=1 ,且2=2 ,即两个回归相同,称为重 合回归;
(2) 11 ,但2=2 ,即两个回归的差异仅在其截 距,称为平行回归;
(3) 1=1 ,但22 ,即两个回归的差异仅在其 斜率,称为汇合回归;
哑变量的建立
• 原变量编码值
哑变量赋值的操作
• 文化程度=1(文盲)
所有EDU=0
• 文化程度=2(小学) EDU=0
EDU2=1,其他
• 文化程度=3(初中) EDU=0
EDU3=1,其他
• 文化程度=4(高中) EDU=0
EDU4=1,其他
• 文化程度=5(大学) EDU=0
EDU5=1,其他
回归方程的解释
• 当案例在两个分类变量都等于0时,即文化 程度为文盲,居住地在农村时,此种情况 称为参照类(其他情况将于此进行比较), 其回归方程为:
曾生子女数 1.41 0.068年龄
• 表明所有参照类妇女年龄每上升1岁,其曾 生子女数的平均变化量为0.068个。
回归方程的解释
相关文档
最新文档