虚拟变量

虚拟变量
虚拟变量

第二节 虚拟变量

一、虚拟变量及其作用

经济变量的影响因素中间有时还包括一些定性因素,例如,消费习惯、地区差异将直接影响居民的消费支出;季节因素对产品的生产和销售都会产生影响。舍弃定性因素,一方面不能真实地描述经济变量之间的相关关系,增大模型的设定误差,同时也不能计量这些定性因素的影响。

10

D ?=?? ,1为城镇居民,0为农村居民 10

D ?=?? ,1为销售旺季,0为销售淡季 1

D ?=??, 1政策紧缩,0为政策宽松 1

0D ?=??,1为本科以上学历,0以本科以下学历

在计量经济模型中引入虚拟变量有以下作用:

(1) 可以描述和测量定性因素的影响

(2) 能够正确反映经济变量之间的相互关系,提高模型的精度。

(3) 便于处理异常数据;当样本资料中存在异常数据时,一般有三种处理方式,一是在

样本容量较大的时候直接剔除异常数据;二是用平均数方式修匀异常数据;三是设置虚拟变量:

虚拟变量的设置有规律吗?

练习:中日关系的冷热也是一个定性因素,如果让你设置,你怎么设置呢? 表 一个局部数据列表

012wage female edu u βββ=+++

问:如果1表示女性,0表示男性,那么1β的经济含义是什么呢^-^

通过图形来说明。

二、虚拟变量的设定

(一) 虚拟变量的引入方式:加法方式,乘法方式,一般方式。

1.加法方式

居民家庭的教育费用支出除了受收入水平的影响之外,还与子女的年龄结构密切相关。如果家庭中有适龄子女,教育支出就多一些。

10

D ?=?? ,1为有适龄子女,0为无适龄子女。 将家庭教育费用支出函数取成: 012i i i i Y X D βββε=+++

这样,就形成了两个函数:

没有适龄子女家庭的教育费用支出:01i i i Y X ββε=++

有适龄子女家庭的教育费用支出:012i i i Y X βββε=+++=021()i i X βββε+++

画出样本回归方程的图像可知,以加法方式引入虚拟变量时,反映的是定性因素对截矩的影响,即平均水平的差异情况。

以加法方式加入虚拟变量时,暗含着什么意思呢 ^-^

2.乘法方式

定性因素的影响不仅表现在截矩上,有时可能还会影响斜率。例如,随着收入水平的提高,家庭教育支出的边际消费倾向可能会发生变化。于是用乘法方式引入,将家庭教育费用支出函数取成:

012i i i i Y X XD βββε=+++

其中,i i i XD X D =?

该支出函数等价于以下两个等式:

通过画图可以说明,以乘法方式引入虚拟变量,反映的是定性因素对斜率的影响,系数2β描述了定性因素的影响程度。

3.一般方式

用不同方式引入虚拟变量将反映不同的经济效果,所以最初是大致判断定性因素的影响类型,然后用加法方式或乘法方式在模型中设置虚拟变量。

但是在实际应用中,却不是这样。

实际做法是:先都引入,再进行回归,对D 和XD 前的系数进行T 检验,决定以什么样的方式来加入。

表: 我国城镇居民家庭抽样调查资料关于彩电拥有量

作法:1.设置虚拟变量。

2.以两种方式同时引入,进行回归。

3.进行经济解释。

(二)虚拟变量的设置原则:一个因素多个类型,多个因素两种类型

1. 一个因素多个类型

例如,某公司职员的年薪与工龄和学历有关。学历分成三种类型:大专以下、本科、研究生。为了反映“学历”这个定性因素,应该设置几个虚拟变量呢?(假设以加法形式引入) A 方案:

2,1,0,i D ??=???

研究生本科大专以下

年薪函数取成:

012i i i i Y X D βββε=+++

方案A 好吗?

B 方案: 11,0,D ?=??本科其他,21,0,D ?=??研究生其他,31,0,D ?=??大专以下其他

方案B 好吗?

C 方案:

好在哪里?

总结规律。 一个定性因素,M 个属性,设M-1个虚拟变量。 对上例进行图解说明。

课堂练习:已知冷饮的销售量Y 除受变量X 的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入哪几个虚拟变量呢?

2.多个因素两种类型

研究居民住房消费函数时,考虑到城乡差异以及不同收入层次的影响,将消费函数取成:

第七章 虚拟变量

第七章虚拟变量 第一节虚拟变量的引入 一、什么是虚拟变量 前面几章介绍的解释变量都是可以直接度量的,称为定量变量。如收入、支出、价格、资金等等。但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。 属性变量:不能精确计量的说明某种属性或状态的定性变量。 在计量经济模型中,应当包含属性变量对应变量的影响作用。那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。 由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。称为虚拟变量。 虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。一般常用D表示。 D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在 比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。 当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。 二、虚拟变量的作用 1、作为属性因素的代表,如,性别、种族等 2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等; 3、作为某些偶然因素或政策因素的代表,如战争、911等。 4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品) 5、分段回归,研究斜率、截距的变动; 6、比较两个回归模型; 7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本 身就是买或不买) 三、虚拟变量的设置规则 1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。D取值为0的类型,是基础类型,是比较的基准。不如前面说的性别变量,如果你研究是以男性为研究基准,则样本为男性,D取值为0, 2、避免落入“虚拟变量陷阱”。 当一个定性变量含有m个相互排斥的类型时,应向模型引入m—1个虚拟变量。比如“性别”含男性和女性两个类别,所以当性别作为解释变量时,应向模型引入一个虚拟变量。取值方式是:D=1(男性)、D=0(女性)或D=0(男性)、D=1(女性) 而当“学历”含有四个类别时,即大学、中学、小学、无学历。当“学历”作为解释变量时,应向模型引入三个虚拟变量。一种取值方式是: 1 (大学)1(中学)1(小学) D1= 0 (非大学)D2 = 0(非中学)D3= 0(非小学) 所谓的“虚拟变量陷阱”就是当一个定性变量含有m个类别时,模型引入m个虚拟变量,造成了虚拟变量之间产生完全多重共线性,无法估计回归参数。 在m-1个虚拟变量中,虚拟变量可以同时取值为0,但不能全部取值为1。 3、当定性变量含有m个类别时,不能把虚拟变量的值设为D=0(第一类)D=1(二类)D=2(三类)等等。

第八章__虚拟解释变量回归.doc

第八章虚拟变量回归 第一节虚拟变量 一、虚拟变量的基本概念 在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、 商品需求量、价格、成本、资金、人数等。但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属 性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。

例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。 定量因素是指那些可直接测度的数值型因素,如GDP、M2 等。定性因素,或称为属性 因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。 为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0 和1 的作为属性变量代表的变量,一般用字母 D (或DUM ,英文dummy 的缩写)表示。属性 因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0 时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1 时,表示某种属性或状态出现或存在,即是某种类型。例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。这种做法 实际上是一种变换或映射,将不能精确计量的定性因素的水平或状态变换为用0 和1 来定量描述。 二、虚拟变量的设置规则 在计量经济学模型中引入虚拟变量,可以使我们同时兼顾定量因素和定性因素的影响和作用。但是,在设置虚拟变量时应遵循一定的规则。 1、虚拟变量数量的设置规则 虚拟变量个数的设置规则是:若定性因素有m 个相互排斥的类型(或属性、水平),在有截距项的模型中只能引入m-1 个虚拟变量,否则会陷入所谓“虚拟变量陷阱”,产生完 全的多重共线性。在无截距项的模型中,定性因素有m个相互排斥的类型时,引入m个虚 拟变量不会导致完全多重共线性,不过这时虚拟变量参数的估计结果,实际上是D=1 时的 样本均值。 例如,城镇居民和农村居民住房消费支出的模型可设定为:

第八章 虚拟变量回归 思考题

第八章 虚拟变量回归 思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上,高中 ,高中以下 这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中, i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上 ,其他 ;1,20D ?=??女性,其他 试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。 练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4)这个回归结果中可得到的一般结论是什么 ?

虚拟变量在金融和经济中的作用

虚拟变量在金融和经济中的作用 摘要 在现代经济计量分析中,利用模型进行回归分析是应用比较广泛的一种数量分析技术。一般回归分析中变量都是定量变量,这是因为模拟回归需要样本数据。但实际中有时模型仅考虑定量变量是不够的。因为经济现象不仅受一些定量因素的影响,还可能受到一些定性因素的影响。比如,不同时期的不同政策、战争、自然灾害等非常时期,人的不同性别、文化程度、婚姻状况等。如果某一应变量的确存在这种定性影响,那么仅用定量变量对被解释变量进行解释显然是不够的,利用虚拟变量技术可以解决此类问题。所谓虚拟变量技术就是把定性变量虚拟化,并把它作为解释变量或者是自变量纳入回归模型的一种方法。在这里,定性变量就是虚拟化的变量,即虚拟变量。一般可根据定性因素的二分特性进行人工赋值,即0和1,其中“1”表示具备某种属性或受到某种因素影响,而“0”则表示不受某种因素影响或不具备某种属性。定性变量虚拟化后就可以纳入回归模型,从而进行模拟分析或预测。 一.虚拟变量模型的性质与方法 1. 为了区分两个类别,只引入一个虚拟变量Di。一般规则是:如果一个定性变量有m 个属性值,则仅引入m-1个虚拟变量。 2. 虚拟变量0,1值的分配可以是任意的,但解释模型时一定注意1,0是怎样分配的。 3. 被分配0的类别或级别通常被用于比较的基础。 4. 虚拟变量的系数可以称为级差截距系数,表明取值1的类别截距项与基底类的截距 项的差距 虚拟的通常使用方法是,对一些通常表明“品质”或“属性”是否存在的属性变量,将其量化,给其赋值为“1”或“0”来表示虚拟变量出现某种属性和未出现某种属性。 设某个回归模型含有p个数量变量和一个品质变量,该品质变量可以有k+1个(k≥1)水平,据此,可建立以下回归模型: 其中x i,p+1 ,…x i,p+k为k个引入的虚拟变量,并且 需要拟合的回归方程为 通常情况下,该方程能较好地通过线性性检验,弥补仅用数量变量拟合的不足。 二.虚拟变量的其他使用方法 除此之外,虚拟变量也有一些其他的使用方法,例如将虚拟变量出现某种属性赋值为任意常数“a”,未出现某种属性赋值为“0”,并验证这种赋值方式,所得到的参数估计值是赋值“1”或“0”时的1/a,预测结果相一致。这可增加虚拟变量赋值的灵活性,同时根据这种思想,对变量数据进行放大或缩小处理以便于计算。

虚拟解释变量回归

虚拟变量回归 第一节虚拟变量 一、虚拟变量的基本概念 在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、商品需求量、价格、成本、资金、人数等。但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府

经济政策的变动等因素。在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。 定量因素是指那些可直接测度的数值型因素,如GDP、M2等。定性因素,或称为属性因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。 为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一般用字母D(或DUM,英文dummy的缩写)表示。属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态出现或存在,即是某种类型。例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。这种做法实际上是一种变换或映射,将不能精确计量的定性因素的水平或状态变换为用0 和 1 来定量描述。 二、虚拟变量的设置规则 在计量经济学模型中引入虚拟变量,可以使我们同时兼顾定量因素和定性因素的影响和作用。但是,在设置虚拟变量时应遵循一定的规则。 1、虚拟变量数量的设置规则 虚拟变量个数的设置规则是:若定性因素有m个相互排斥的类型(或属性、水平),在有截距项的模型中只能引入m-1个虚拟变量,否则会陷入所谓“虚拟变量陷阱”,产生完全的多重共线性。在无截距项的模型中,定性因素有m个相互排斥的类型时,引入m个虚拟变量不会导致完全多重共线性,不过这时虚拟变量参数的估计结果,实际上是D=1时的样本均值。 例如,城镇居民和农村居民住房消费支出的模型可设定为:

计量经济学:第八章 虚拟变量回归

第八章 虚拟变量回归 第一节 虚拟变量的概念 一、问题的提出 计量经济学模型对变量的要求——可观测、可计量。但在现实经济问题中,存在定性影响因素,比如 1、属性(品质)因素的表达。 在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。 2、异常值现象。 当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。 3、季节因素的影响。 有的经济现象存在明显的季节特征,如啤酒的消费。那么,在建模过程中,季节变动这一因素怎样考虑? 4、离散选择现象的描述。 如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。 第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。本章主要介绍虚拟解释变量的内容。 二、虚拟变量的定义 1、定义。设变量D 表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。记为 ???=不具有该属性 具有某种属性01D

2、虚拟变量引入的规则。 (1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。否则,会出现完全的多重共线性。但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。( 请思考为什么?) (2)虚拟变量取值为0,意味着所对应的类型是基础类型。而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。 (3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况 D=0, 第一个类型; D=1, 第二个类型; …… D=m-1, 第m 个类型。 原因是上述情况没有反映出属性类型的相互排斥性。 第二节 虚拟解释变量的回归 一、加法引入规则 1、加法引入规则,虚拟解释变量与别的解释变量以相加的关系出现在模型里。加法引入虚拟变量对模型产生的结果是只改变截距项。 设模型为 123i i i i Y X D u βββ=+++ 式中,i D 为虚拟变量,它与其它解释变量是相加的关系。如果虚拟变量按这种方式引入模型,则称虚拟变量按加法类型引入。 2、加法引入虚拟变量的应用。 (1)模型中只有一个定性解释变量。 设模型形式为 12i i i Y D u ββ=++ n i ,,3,2,1 = 其中,i D 为具有两个属性类型的定性变量,如在教材第217页,设i Y 为居民的

第五讲-虚拟变量模型

第七讲 经典单方程计量经济学模型:专门问题 虚拟变量模型 学习目标: 1. 了解什么是虚拟变量以及什么是虚拟变量模型; 2. 理解虚拟变量的设置原则; 3. 掌握虚拟变量模型的两种基本引入方式(加法方式和乘法方式); 4. 能够自行设计虚拟变量模型,并能够解释其中蕴含的经济意义; 教学基本内容 一、 虚拟变量 许多经济变量是可以定量度量,例如:商品需求量、价格、收入、产量等;但有一些影响经济变量的因素是无法定量度量。例如:职业、性别对收入的影响,战争、自然灾害对GDP 的影响,季节对某些产品(如冷饮)销售的影响等。 定性变量:把职业、性别这样无法定量度量的变量称为定性变量。 定量变量:把价格、收入、销售额这样可以可以定量度量的变量称为定量变量。 为了能够在模型中能够反映这些因素的影响,提高模型的精度,拓展回归模型的功能,需要将它们“量化”。 这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables ) ,记为D 。 虚拟变量只作为解释变量。 例如:反映性别的虚拟变量? ??=女男;0;1D 反映文化程度的虚拟变量???=非本科学历 本科学历;0;1D 一般地,基础类型和肯定类型取值为1;比较类型和否定类型取值为0。 二、 虚拟变量的设置原则 设置原则: 每一定性变量(qualitative variable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。即如果有m 种状态,只在模型中引入m-1个虚拟变量。 例如,冷饮的销售量会受到季节变化的影响。季节定性变量有春、夏、秋、冬4种状态,只需要设置3个虚拟变量:

(VR虚拟现实)第八章虚拟解释变量回归

(VR虚拟现实)第八章虚拟解释变量回归

第八章虚拟变量回归 引子 男女大学生的消费真的有差异吗? 在校大学生的消费行为越来越受到社会的关注,学生家长也很关心自己的子女上大学究竟要准备多少花费。由共青团中央、全国学联共同发布的《2004中国大学生消费与生活形态研究报告》显示,当代大学生在消费结构方面呈现出多元化趋势。大学生除了日常生活费开支以外,还有人际交往消费、网络通讯消费、书报消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费、食品类消费、学习用品类消费、各种考证类等消费。大学生时尚化、个性化消费增多已成为趋势与潮流。不同性别大学生的消费结构有所不同,专科生、本科生、研究生的消费结构更有差异。有的记者调查发现,不同年级之间,男女同学之间,消费水平、消费结构、消费方式上都存在着差异。年级越高,消费水平也随之增长,随着阅历的增加,对自己形象的重视,精神享受的追求、学习的投入、配备手机电脑的需求也随之增长。同年级的男生的消费高于女生,虽然女生在化妆品、衣服饰品方面的投入明显高于男生。然而时代在变,对美的追求已不再限于女生,男生对于个人形象、装扮也已慢慢重视起来。此外男生在人际交往方面比女生投入了更多的"本钱"。请客吃饭、朋友聚会、节日送礼已不再罕见。所谓的"人情消费"已从社会向校园中扩张蔓延,而在乎"面子"的男同胞已成为追随这一潮流的"先驱"。高年级女生对于吃饭的投入相对较少,而在化妆品、服饰、零食方面的投入却增长不少。(注:来源于Solie教育网、网易教育频道、新华网等)为了研究男女大学生、不同层次大学生、不同年级大学生的消费结构是否有差异,需要将这些定性的因素引入计量模型,怎样才能在模型中有效地表示这些定性因素的作用呢?

第七章 虚拟变量回归

第七章 虚拟变量回归 第一节 虚拟变量的性质 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。 一、基本概念 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量(dummy variable )。虚拟变量也称:哑元变量、定性变量等等。通常用字母D 或DUM 加以表示(英文中虚拟或者哑元Dummy 的缩写)。 用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。 虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。 虚拟变量应用于模型中,对其回归系数的估计与检验方法和定量变量相同。 虚拟变量表示两分性质,即“是”或“否”,“男”或“女”等。 下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。 二、虚拟变量设置规则 虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。 从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。 “0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。 例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。 2.属性(状态、水平)因素与设置虚拟变量数量的关系 定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。 虚拟变量数量的设置规则 1.若定性因素具有 m (m ≥2) 个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m 个虚拟变量; 2.当回归模型无截距项时,则可引入m 个虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (0,1) (0,0)D D ????? 12(1,0)天气阴如:(,)=天气雨其 他

虚拟变量

第二节 虚拟变量 一、虚拟变量及其作用 经济变量的影响因素中间有时还包括一些定性因素,例如,消费习惯、地区差异将直接影响居民的消费支出;季节因素对产品的生产和销售都会产生影响。舍弃定性因素,一方面不能真实地描述经济变量之间的相关关系,增大模型的设定误差,同时也不能计量这些定性因素的影响。 10 D ?=?? ,1为城镇居民,0为农村居民 10 D ?=?? ,1为销售旺季,0为销售淡季 1 D ?=??, 1政策紧缩,0为政策宽松 1 0D ?=??,1为本科以上学历,0以本科以下学历 在计量经济模型中引入虚拟变量有以下作用: (1) 可以描述和测量定性因素的影响 (2) 能够正确反映经济变量之间的相互关系,提高模型的精度。 (3) 便于处理异常数据;当样本资料中存在异常数据时,一般有三种处理方式,一是在 样本容量较大的时候直接剔除异常数据;二是用平均数方式修匀异常数据;三是设置虚拟变量: 虚拟变量的设置有规律吗? 练习:中日关系的冷热也是一个定性因素,如果让你设置,你怎么设置呢? 表 一个局部数据列表 012wage female edu u βββ=+++ 问:如果1表示女性,0表示男性,那么1β的经济含义是什么呢^-^

通过图形来说明。 二、虚拟变量的设定 (一) 虚拟变量的引入方式:加法方式,乘法方式,一般方式。 1.加法方式 居民家庭的教育费用支出除了受收入水平的影响之外,还与子女的年龄结构密切相关。如果家庭中有适龄子女,教育支出就多一些。 10 D ?=?? ,1为有适龄子女,0为无适龄子女。 将家庭教育费用支出函数取成: 012i i i i Y X D βββε=+++ 这样,就形成了两个函数: 没有适龄子女家庭的教育费用支出:01i i i Y X ββε=++ 有适龄子女家庭的教育费用支出:012i i i Y X βββε=+++=021()i i X βββε+++ 画出样本回归方程的图像可知,以加法方式引入虚拟变量时,反映的是定性因素对截矩的影响,即平均水平的差异情况。 以加法方式加入虚拟变量时,暗含着什么意思呢 ^-^ 2.乘法方式 定性因素的影响不仅表现在截矩上,有时可能还会影响斜率。例如,随着收入水平的提高,家庭教育支出的边际消费倾向可能会发生变化。于是用乘法方式引入,将家庭教育费用支出函数取成: 012i i i i Y X XD βββε=+++ 其中,i i i XD X D =? 该支出函数等价于以下两个等式: 通过画图可以说明,以乘法方式引入虚拟变量,反映的是定性因素对斜率的影响,系数2β描述了定性因素的影响程度。 3.一般方式 用不同方式引入虚拟变量将反映不同的经济效果,所以最初是大致判断定性因素的影响类型,然后用加法方式或乘法方式在模型中设置虚拟变量。 但是在实际应用中,却不是这样。 实际做法是:先都引入,再进行回归,对D 和XD 前的系数进行T 检验,决定以什么样的方式来加入。

第九章 含虚拟变量的回归模型

第九章含虚拟变量的回归模型 目前为止,在已学习的线性回归模型中,解释变量X都是定量变量。但有时候,解释变量是定性变量。 9.1 虚拟变量的性质 通常在回归分析中,应变量不仅受一些定量变量的影响,还受一些定性变量的影响(性别、种族、肤色、宗教、民族、罢工、政团关系、婚姻状况)。 如: 美国黑人的收入比相应的白人的收入低。 女学生的S.A.T.的数学平均分数比相应的男生低。 定性变量通常表明了具备或不具备某种性质,比如,男性或女性,黑人或白人,佛教徒或非佛教徒,本国公民或非本国公民。 把定性因素“定量化”的一个方法是建立人工变量,并赋值0和1,0表示变量不具备某种属性,1表示变量具备某种属性,该变量称为虚拟变量(dummy variable),用符号D表示。 虚拟变量一样可用于回归分析,一个回归模型的解释变量可以仅仅是虚拟变量,称为方差分析模型( ANOVA )。

Yi = B1 + B2Di + ui ( 9 - 1 ) 其中Y = 初职年薪 Di =1,大学毕业 =0,非大学毕业 假定随机扰动项满足古典线性回归模型的基本假定,根据模型( 9 - 1 )得到: 非大学毕业生的初职年薪的期望为: E(Yi|Di=0) = B1 + B2( 0 ) = B1 ( 9 - 2 ) 大学毕业生的初职年薪的期望为: E(Yi|Di=1) = B1+B2( 1 ) = B1+B2 ( 9 - 3 ) 可以看出: 截距B1表示非大学毕业生的平均初职年薪, “斜率”系数B2表明大学毕业生的平均初职年薪与非大学生的差距是多少; (B1+B2)表示大学毕业生的平均初职年薪。 零假设:大学教育没有任何益处(即B2=0),可根据t检验值

6、简述虚拟变量设置规则

《计量经济学》要点 一、单项选择题 知识点: 第一章 若干定义、概念 时间序列数据定义 横截面数据定义 1.同一统计指标按时间顺序记录的数据称为( B )。 A、横截面数据 B、时间序列数据 C、修匀数据 D、原始数据 2.同一时间,不同单位相同指标组成的观测数据称为( B ) A.原始数据B.横截面数据 C.时间序列数据D.修匀数据 变量定义(被解释变量、解释变量、内生变量、外生变量) 单方程中可以作为被解释变量的是(控制变量、内生变量、外生变量); 3.在回归分析中,下列有关解释变量和被解释变量的说法正确的有( C ) A、被解释变量和解释变量均为随机变量 B、被解释变量和解释变量均为非随机变量 C、被解释变量为随机变量,解释变量为非随机 变量 D、被解释变量为非随机变量,解释变量为随机 变量 什么是解释变量、被解释变量? 从变量的因果关系上,模型中变量可分为解释变量(Explanatory variable)和被解释变量(Explained variable)。 在模型中,解释变量是变动的原因,被解释变量是变动的结果。 被解释变量是模型要分析研究的对象,也常称为“应变量”(Dependent variable)、“回归子”(Regressand)等。 解释变量也常称为“自变量”(Independent variable)、“回归元”(Regressor)等,是说明应变量变动主要原因的变量。 因此,被解释变量只能由内生变量担任,不能由非内生变量担任。 4.单方程计量经济模型中可以作为被解释变量的是( C ) A、控制变量 B、前定变量 C、内生变量 D、外生变量 5.单方程计量经济模型的被解释变量是(A ) A、内生变量 B、政策变量 C、控制变量 D、外生变量 6.在回归分析中,下列有关解释变量和被解释变量的说法正确的有(C) A、被解释变量和解释变量均为随机变量 B、被解释变量和解释变量均为非随机变量 C、被解释变量为随机变量,解释变量为非随机 变量 D、被解释变量为非随机变量,解释变量为随机 变量 双对数模型中参数的含义; 7.双对数模型 01 ln ln ln Y X ββμ =++中,参数1 β的含义是(D ) A .X的相对变化,引起Y的期望值绝对量变化 B.Y关于X的边际变化 C.X的绝对量发生一定变动时,引起因变量Y 的相对变化率 D.Y关于X的弹性 8.双对数模型μ β β+ + =X Y ln ln ln 1 中,参数1 β的含义是( C ) A. Y关于X的增长率 B .Y关于X的发展速度 C. Y关于X的弹性 D. Y关于X 的边际变化 计量经济学研究方法一般步骤 四步12点 9.计量经济学的研究方法一般分为以下四个步骤( B ) A.确定科学的理论依据、模型设定、模型修定、模型应用 B.模型设定、估计参数、模型检验、模型应用C.搜集数据、模型设定、估计参数、预测检验D.模型设定、检验、结构分析、模型应用 对计量经济模型应当进行哪些方面的检验? 经济意义检验:检验模型估计结果,尤其是参数估计,是否符合经济理论。 统计推断检验:检验参数估计值是否抽样的偶然结果,运用数理统计中的统计推断方法,对模型

哑变量-虚拟变量

哑变量/虚拟变量 展开全文 什么是虚拟变量(哑变量)?虚拟变量又称哑变量,是人为设定的用于将分类变量引入回归模型中的方法。 为什么要使用虚拟变量在回归分析中,自变量X既可以是定量数据也可以定类数据。回归分析计算时是将所有自变量X 视为数字,但当数据为定类数据时,此时数字代表类别,数字大小本身没有比较意义。因此,这类数据在做回归分析时,需要设置成哑变量才能纳入回归分析正确分析数据。 哪些分析方法会使用到虚拟变量通常情况下,回归分析,逐步回归,分层回归,Logistic回归,PLS回归等这类影响关

系研究的方法时,才可能涉及到虚拟变量设置。其它分析方法并不会涉及。 如何使用虚拟变量用一个例子说明:研究性别和工龄对基本工资的影响情况。 工龄是定量数据;性别为二分类数据,因而分析时性别不能直接放入回归模型,正确做法是将变量转化成取值为1和0的哑变量。 性别分为两类,因而需要设置2个虚拟变量(2列),分别表示男性和女性两个类别。 如果是男性,‘性别_男’虚拟变量取值为1,’性别_女’虚拟变量取值为0。如果是女性则相反。 当变量分类超过两类时,也是类似的处理方式,在回归分析前将下面的“专业”类别转化为虚拟变量,结果如下图所示: 理科类取值=1代表专业为理科,0代表非理科 文科类取值=1代表专业为文科,0代表非文科 工科类取值=1代表专业为工科,0代表非工科 SPSSAU可直接一步生成虚拟变量,具体操作如下: 分析时,要注意少放入一个虚拟变量。如果分为两类就放入一个虚拟变量,三类就放入两个,以此类推。

原因在于虚拟变量包括数字0和1;0是对比参考项。如果2个类别都放入了,就没有参考类别了。 如何解释分析结果 线性回归分析结果 由上表可知,回归模型通过F检验,性别_男一项P<0.01,说明性别对基础工资确实存在显著的影响关系。 模型公式为:月基本工资=2403.834 + 42.659*工龄+ 1377.873*性别_男 当“性别_男”取值为1表示男性的月工资回归方程,0表示女性的月工资回归方程。回归系数值为1377.873,因此说明相同工龄下,男性的月基本工资比女性多1377.88元。 相反,放入的分析项若为性别_女,回归系数值应为-1377.873,代表同工龄的条件下,女性的月基本工资比男性少1377.88元 其他说明(1)将虚拟变量放入回归中,一定要少放一个虚拟变量,否则系统会提示存在多重共线性问题 (2)SPSSAU会默认生成标题,设置完成后可进行‘标题修改’。 登录SPSSAU官网体验在线数据分析

EVIEWS虚拟变量模型

虚拟变量 【实验目的】 掌握虚拟变量的设置方法。 【实验内容】 一、试根据表7-1的1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立我国城镇居民彩电需求函数; 资料来源:据《中国统计年鉴1999》整理计算得到 二、试建立我国税收预测模型(数据见实验一); 三、试根据表7-2的资料用混合样本数据建立我国城镇居民消费函数。 资料来源:据《中国统计年鉴》1999-2000整理计算得到 【实验步骤】 一、我国城镇居民彩电需求函数 ⒈相关图分析; 键入命令:SCAT X Y,则人均收入与彩电拥有量的相关图如7-1所示。 从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(中、

高收入)的拥有量存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下: ?? ?=低收入家庭 中、高收入家庭 1D 图7-1 我国城镇居民人均收入与彩电拥有量相关图 ⒉构造虚拟变量; 方式1:使用DATA 命令直接输入; 方式2:使用SMPL 和GENR 命令直接定义。 DATA D1 GENR XD=X*D1 ⒊估计虚拟变量模型: LS Y C X D1 XD 再由t 检验值判断虚拟变量的引入方式,并写出各类家庭的需求函数。 按照以上步骤,虚拟变量模型的估计结果如图7-2所示。 图7-2 我国城镇居民彩电需求的估计

我国城镇居民彩电需求函数的估计结果为: i i i i XD D x y 0088.08731.310119.061.57?-++= =t (16.249)(9.028) (8.320) (-6.593) 2R =0.9964 2R =0.9937 F =366.374 S.E =1.066 虚拟变量的回归系数的t 检验都是显著的,且模型的拟合优度很高,说明我国城镇居民低收入家庭与中高收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异,所以以加法和乘法方式引入虚拟变量是合理的。低收入家庭与中高收入家庭各自的需求函数为: 低收入家庭: i i x y 0119.061.57?+= 中高收入家庭: ()()i i x y 0088.00119.08731.3161.57 ?-++=i x 003.048.89+= 由此可见我国城镇居民家庭现阶段彩电消费需求的特点:对于人均年收入在3300元以下的低收入家庭,需求量随着收入水平的提高而快速上升,人均年收入每增加1000元,百户拥有量将平均增加12台;对于人均年收入在4100元以上的中高收入家庭,虽然需求量随着收入水平的提高也在增加,但增速趋缓,人均年收入每增加1000元,百户拥有量只增加3台。事实上,现阶段我国城镇居民中国收入家庭的彩电普及率已达到百分之百,所以对彩电的消费需求处于更新换代阶段。 二、我国税收预测模型 要求:设置虚拟变量反映1996年税收政策的影响。 方法:取虚拟变量D1=1(1996年以后),D1=0(1996年以前)。 键入命令:GENR XD=X*D1 LS Y C X D1 XD 则模型估计的相关信息如图7-3所示。 图7-3 引入虚拟变量后的我国税收预测模型

相关文档
最新文档