哑变量-虚拟变量

哑变量/虚拟变量

展开全文

什么是虚拟变量（哑变量）？虚拟变量又称哑变量，是人为设定的用于将分类变量引入回归模型中的方法。

为什么要使用虚拟变量在回归分析中，自变量X既可以是定量数据也可以定类数据。回归分析计算时是将所有自变量X 视为数字，但当数据为定类数据时，此时数字代表类别，数字大小本身没有比较意义。因此，这类数据在做回归分析时，需要设置成哑变量才能纳入回归分析正确分析数据。

哪些分析方法会使用到虚拟变量通常情况下，回归分析，逐步回归，分层回归，Logistic回归，PLS回归等这类影响关

系研究的方法时，才可能涉及到虚拟变量设置。其它分析方法并不会涉及。

如何使用虚拟变量用一个例子说明：研究性别和工龄对基本工资的影响情况。

工龄是定量数据；性别为二分类数据，因而分析时性别不能直接放入回归模型，正确做法是将变量转化成取值为1和0的哑变量。

性别分为两类，因而需要设置2个虚拟变量（2列），分别表示男性和女性两个类别。

如果是男性，‘性别_男’虚拟变量取值为1，’性别_女’虚拟变量取值为0。如果是女性则相反。

当变量分类超过两类时，也是类似的处理方式，在回归分析前将下面的“专业”类别转化为虚拟变量，结果如下图所示：

理科类取值=1代表专业为理科，0代表非理科

文科类取值=1代表专业为文科，0代表非文科

工科类取值=1代表专业为工科，0代表非工科

SPSSAU可直接一步生成虚拟变量，具体操作如下：

分析时，要注意少放入一个虚拟变量。如果分为两类就放入一个虚拟变量，三类就放入两个，以此类推。

原因在于虚拟变量包括数字0和1；0是对比参考项。如果2个类别都放入了，就没有参考类别了。

如何解释分析结果

线性回归分析结果

由上表可知，回归模型通过F检验，性别_男一项P<0.01，说明性别对基础工资确实存在显著的影响关系。

模型公式为：月基本工资=2403.834 + 42.659*工龄+ 1377.873*性别_男

当“性别_男”取值为1表示男性的月工资回归方程，0表示女性的月工资回归方程。回归系数值为1377.873，因此说明相同工龄下，男性的月基本工资比女性多1377.88元。

相反，放入的分析项若为性别_女，回归系数值应为-1377.873，代表同工龄的条件下，女性的月基本工资比男性少1377.88元

其他说明（1）将虚拟变量放入回归中，一定要少放一个虚拟变量，否则系统会提示存在多重共线性问题

（2）SPSSAU会默认生成标题，设置完成后可进行‘标题修改’。

登录SPSSAU官网体验在线数据分析

第七章虚拟变量

第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的，称为定量变量。如收入、支出、价格、资金等等。但在现实经济生活中，影响应变量变动的因素，除了这些可以直接获得实际观测数据的定量变量外，还包括一些无法定量的解释变量的影响，如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素，他们只表示某种特征的存在与不存在，所以称为属性变量或定性变量。属性变量：不能精确计量的说明某种属性或状态的定性变量。在计量经济模型中，应当包含属性变量对应变量的影响作用。那怎么才能把定性变量包括在模型中呢？属性变量通常是非数值变量，直接纳入回归方程中进行回归，显然是很困难的。为此，人们采取了一种构造人工变量的方法，将这些定性变量进行量化，使其能与定量变量一样在回归模型中得以应用。由于定性变量通常是表明某种特征或属性是否存在，如性别变量中以男性为分析基础的话，那就只有男性、非男性；政策变动变量中以政策不变为基准，则有政策不变，和政策变动；至于有两种以上的状态的话，比如学历分高中，本科，本科以上等等，我们又怎么办呢？把疑问留到后面去解决。既然定性变量只有存在或不存在两种状态，所以量化的一般方法是取值为0或1。称为虚拟变量。虚拟变量：人工构造的取值为0或1的作为属性变量代表的变量。一般常用D表示。 D=0，表示某种属性或状态不存在D=1，表示某种属性或状态存在比如前面说的性别变量，以男性为基准，则当样本为男性时，虚拟变量取0，当样本为女性时，则虚拟变量取1。当虚拟变量作为解释变量引入计量经济模型时，对其回归系数的估计和统计检验方法都与定量解释变量相同。二、虚拟变量的作用 1、作为属性因素的代表，如，性别、种族等 2、作为某些非精确计量的数量因素的代表，如：受教育程度、年龄段等； 3、作为某些偶然因素或政策因素的代表，如战争、911等。 4、时间序列分析中作为季节（月份）的代表（比如对某些明显有淡季、旺季之分的产品） 5、分段回归，研究斜率、截距的变动； 6、比较两个回归模型； 7、虚拟应变量概率模型，应变量本身是定性变量（比如你研究某产品的购买率，应变量本身就是买或不买）三、虚拟变量的设置规则 1、虚拟变量D取值为0，还是取值为1，要根据研究的目的决定。D取值为0的类型，是基础类型，是比较的基准。不如前面说的性别变量，如果你研究是以男性为研究基准，则样本为男性，D取值为0， 2、避免落入“虚拟变量陷阱”。当一个定性变量含有m个相互排斥的类型时，应向模型引入m—1个虚拟变量。比如“性别”含男性和女性两个类别，所以当性别作为解释变量时，应向模型引入一个虚拟变量。取值方式是：D=1（男性）、D=0（女性）或D=0（男性）、D=1（女性）而当“学历”含有四个类别时，即大学、中学、小学、无学历。当“学历”作为解释变量时，应向模型引入三个虚拟变量。一种取值方式是： 1 （大学）1（中学）1（小学） D1= 0 （非大学）D2 = 0（非中学）D3= 0（非小学）所谓的“虚拟变量陷阱”就是当一个定性变量含有m个类别时，模型引入m个虚拟变量，造成了虚拟变量之间产生完全多重共线性，无法估计回归参数。在m-1个虚拟变量中，虚拟变量可以同时取值为0，但不能全部取值为1。 3、当定性变量含有m个类别时，不能把虚拟变量的值设为D=0（第一类）D=1（二类）D=2（三类）等等。

虚拟变量案例

虚拟变量（dummy variable）在实际建模过程中，被解释变量不但受定量变量影响，同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。由于定性变量通常表示的是某种特征的有和无，所以量化方法可采用取值为1或0。这种变量称作虚拟变量，用D表示。虚拟变量应用于模型中，对其回归系数的估计与检验方法与定量变量相同。 1．截距移动设有模型， y t = 0 + 1 x t + 2D + u t , 其中y t，x t为定量变量；D为定性变量。当D= 0 或1时，上述模型可表达为， + 1x t + u t , (D = 0) y t = (0 + 2) + 1x t + u t , (D = 1) D =0 D = 1 +2 图8.1 测量截距不同 D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零，说明截距不同；若2为零，说明这种分类无显著性差异。例：中国成年人体重y（kg）与身高x（cm）的回归关系如下： –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意： ①若定性变量含有m个类别，应引入m-1个虚拟变量，否则会导致多重共线性，称作虚拟变量陷阱（dummy variable trap）。 ②关于定性变量中的哪个类别取0，哪个类别取1，是任意的，不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别（base category）。 ④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如： 1 (大学) D =0 (中学) -1 (小学)。【案例1】中国季节GDP数据的拟合（虚拟变量应用，file：case1及case1-solve） GDP序列图不用虚拟变量的情形若不采用虚拟变量，得回归结果如下， GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3 定义 1 （1季度） 1 （2季度） 1 （3季度） D1 = D2 = D3 = 0 （2, 3,4季度） 0 （1, 3, 4季度） 0 （1, 2, 4季度）第4季度为基础类别。 GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96,s.e. = 0.05 附数据如下：年GDP t D1D2D3 1996:11.31561100 1996:21.66002010

第八章__虚拟解释变量回归.doc

第八章虚拟变量回归第一节虚拟变量一、虚拟变量的基本概念在前面的分析中，被解释变量主要受到一些可以直接度量的变量影响，如收入、产出、商品需求量、价格、成本、资金、人数等。但现实经济生活中，影响被解释变量变动的因素，除了这些可以直接获得实际观测数据的定量变量外，还包括一些本质上为定性因素（或称属性因素）的影响，例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。在实际经济分析中，这些定性变量有时具有不可忽视的重要影响。

例如，研究某个企业的销售水平，产业部门（制造业、零售业）、所有制（私营、非私营）、地理位置（东、中、西部）、管理者素质的高低等是值得经常考虑的影响因素，这些因素有共同的特征，即都是表示某种属性的，不能直接用数据精确描述的因素。因此，被解释变量的变动经常是定量因素和属性因素共同作用的结果。在计量经济模型中，应当同时包含定量和属性两种因素对被解释变量的影响作用。定量因素是指那些可直接测度的数值型因素，如GDP、M2 等。定性因素，或称为属性因素，是不能直接测度的、说明某种属性或状态存在与否的非数值型因素，如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。为了在模型中反映定性因素，可以将定性因素转化为虚拟变量去表现。虚拟变量（或称为属性变量、双值变量、类型变量、定性变量、二元型变量等），是人工构造的取值为0 和1 的作为属性变量代表的变量，一般用字母 D （或DUM ，英文dummy 的缩写）表示。属性因素通常具有若干类型或水平，通常虚拟变量的取值为0和1，当虚拟变量取值为0，即D=0 时，表示某种属性或状态不出现或不存在，即不是某种类型；当虚拟变量取值为1，即D=1 时，表示某种属性或状态出现或存在，即是某种类型。例如，构造政府经济政策人工变量，当经济政策不变时，虚拟变量取值为0，当经济政策改变时，虚拟变量取值为1。这种做法实际上是一种变换或映射，将不能精确计量的定性因素的水平或状态变换为用0 和1 来定量描述。二、虚拟变量的设置规则在计量经济学模型中引入虚拟变量，可以使我们同时兼顾定量因素和定性因素的影响和作用。但是，在设置虚拟变量时应遵循一定的规则。 1、虚拟变量数量的设置规则虚拟变量个数的设置规则是：若定性因素有m 个相互排斥的类型（或属性、水平），在有截距项的模型中只能引入m－1 个虚拟变量，否则会陷入所谓“虚拟变量陷阱”，产生完全的多重共线性。在无截距项的模型中，定性因素有m个相互排斥的类型时，引入m个虚拟变量不会导致完全多重共线性，不过这时虚拟变量参数的估计结果，实际上是D=1 时的样本均值。例如，城镇居民和农村居民住房消费支出的模型可设定为：

第八章虚拟变量回归思考题

第八章虚拟变量回归思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上，高中，高中以下这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中， i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上，其他；1,20D ?=??女性，其他试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4）这个回归结果中可得到的一般结论是什么 ?

虚拟变量在金融和经济中的作用

虚拟变量在金融和经济中的作用摘要在现代经济计量分析中，利用模型进行回归分析是应用比较广泛的一种数量分析技术。一般回归分析中变量都是定量变量，这是因为模拟回归需要样本数据。但实际中有时模型仅考虑定量变量是不够的。因为经济现象不仅受一些定量因素的影响，还可能受到一些定性因素的影响。比如，不同时期的不同政策、战争、自然灾害等非常时期，人的不同性别、文化程度、婚姻状况等。如果某一应变量的确存在这种定性影响，那么仅用定量变量对被解释变量进行解释显然是不够的，利用虚拟变量技术可以解决此类问题。所谓虚拟变量技术就是把定性变量虚拟化，并把它作为解释变量或者是自变量纳入回归模型的一种方法。在这里，定性变量就是虚拟化的变量，即虚拟变量。一般可根据定性因素的二分特性进行人工赋值，即0和1，其中“1”表示具备某种属性或受到某种因素影响，而“0”则表示不受某种因素影响或不具备某种属性。定性变量虚拟化后就可以纳入回归模型，从而进行模拟分析或预测。一．虚拟变量模型的性质与方法 1. 为了区分两个类别，只引入一个虚拟变量Di。一般规则是：如果一个定性变量有m 个属性值，则仅引入m-1个虚拟变量。 2. 虚拟变量0,1值的分配可以是任意的，但解释模型时一定注意1,0是怎样分配的。 3. 被分配0的类别或级别通常被用于比较的基础。 4. 虚拟变量的系数可以称为级差截距系数，表明取值1的类别截距项与基底类的截距项的差距虚拟的通常使用方法是，对一些通常表明“品质”或“属性”是否存在的属性变量，将其量化，给其赋值为“1”或“0”来表示虚拟变量出现某种属性和未出现某种属性。设某个回归模型含有p个数量变量和一个品质变量,该品质变量可以有k+1个(k≥1)水平,据此,可建立以下回归模型: 其中x i,p+1 ,…x i,p+k为k个引入的虚拟变量，并且需要拟合的回归方程为通常情况下,该方程能较好地通过线性性检验,弥补仅用数量变量拟合的不足。二．虚拟变量的其他使用方法除此之外，虚拟变量也有一些其他的使用方法，例如将虚拟变量出现某种属性赋值为任意常数“a”,未出现某种属性赋值为“0”,并验证这种赋值方式,所得到的参数估计值是赋值“1”或“0”时的1/a,预测结果相一致。这可增加虚拟变量赋值的灵活性,同时根据这种思想,对变量数据进行放大或缩小处理以便于计算。

虚拟解释变量回归

虚拟变量回归第一节虚拟变量一、虚拟变量的基本概念在前面的分析中，被解释变量主要受到一些可以直接度量的变量影响，如收入、产出、商品需求量、价格、成本、资金、人数等。但现实经济生活中，影响被解释变量变动的因素，除了这些可以直接获得实际观测数据的定量变量外，还包括一些本质上为定性因素（或称属性因素）的影响，例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府

经济政策的变动等因素。在实际经济分析中，这些定性变量有时具有不可忽视的重要影响。例如，研究某个企业的销售水平，产业部门（制造业、零售业）、所有制（私营、非私营）、地理位置（东、中、西部）、管理者素质的高低等是值得经常考虑的影响因素，这些因素有共同的特征，即都是表示某种属性的，不能直接用数据精确描述的因素。因此，被解释变量的变动经常是定量因素和属性因素共同作用的结果。在计量经济模型中，应当同时包含定量和属性两种因素对被解释变量的影响作用。定量因素是指那些可直接测度的数值型因素，如GDP、M2等。定性因素，或称为属性因素，是不能直接测度的、说明某种属性或状态存在与否的非数值型因素，如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。为了在模型中反映定性因素，可以将定性因素转化为虚拟变量去表现。虚拟变量（或称为属性变量、双值变量、类型变量、定性变量、二元型变量等），是人工构造的取值为0和1的作为属性变量代表的变量，一般用字母D（或DUM，英文dummy的缩写）表示。属性因素通常具有若干类型或水平，通常虚拟变量的取值为0和1，当虚拟变量取值为0，即D=0时，表示某种属性或状态不出现或不存在，即不是某种类型；当虚拟变量取值为1，即D=1时，表示某种属性或状态出现或存在，即是某种类型。例如，构造政府经济政策人工变量，当经济政策不变时，虚拟变量取值为0，当经济政策改变时，虚拟变量取值为1。这种做法实际上是一种变换或映射，将不能精确计量的定性因素的水平或状态变换为用0 和 1 来定量描述。二、虚拟变量的设置规则在计量经济学模型中引入虚拟变量，可以使我们同时兼顾定量因素和定性因素的影响和作用。但是，在设置虚拟变量时应遵循一定的规则。 1、虚拟变量数量的设置规则虚拟变量个数的设置规则是：若定性因素有m个相互排斥的类型（或属性、水平），在有截距项的模型中只能引入m－1个虚拟变量，否则会陷入所谓“虚拟变量陷阱”，产生完全的多重共线性。在无截距项的模型中，定性因素有m个相互排斥的类型时，引入m个虚拟变量不会导致完全多重共线性，不过这时虚拟变量参数的估计结果，实际上是D=1时的样本均值。例如，城镇居民和农村居民住房消费支出的模型可设定为：

计量经济学：第八章虚拟变量回归

第八章虚拟变量回归第一节虚拟变量的概念一、问题的提出计量经济学模型对变量的要求——可观测、可计量。但在现实经济问题中，存在定性影响因素，比如 1、属性（品质）因素的表达。在经济活动中，有的经济变量的变动要受到属性因素（或品质因素）的影响。如收入在形成过程中，不同的性别所得到的收入是不一样的；在城乡、不同地区等收入存在差距；再比如，在我国，经济的发展水平对于不同的区域有不同的表现。 2、异常值现象。当经济运行过程中，可能会受到突发事件的影响，那么，其值有可能出现异常，偏离正常轨迹很远，对这类现象需要加以修正。 3、季节因素的影响。有的经济现象存在明显的季节特征，如啤酒的消费。那么，在建模过程中，季节变动这一因素怎样考虑？ 4、离散选择现象的描述。如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。第1、2、3种情况属于解释变量为定性变量，第4情况为被解释变量属于定性变量。称前一种情况为虚拟解释变量，后一种为虚拟被解释变量。本章主要介绍虚拟解释变量的内容。二、虚拟变量的定义 1、定义。设变量D 表示某种属性，该属性有两种类型，即当属性存在时D 取值为1；当属性不存在时D 取值为0。记为 ???=不具有该属性具有某种属性01D

2、虚拟变量引入的规则。（1）在模型里存在截距项的条件下，如果一个属性存在m 个相互排斥类型（非此即彼），则在模型里引入m-1个虚拟变量。否则，会出现完全的多重共线性。但要注意，在模型无截距项的情况下，如果一个属性存在m 个类型，即便引入m 个变量，不会出现多重共线性问题。（请思考为什么？）（2）虚拟变量取值为0，意味着所对应的类型是基础类型。而虚拟变量取值为1，代表与基础类型相比较的类型，称为比较类型。例如“有学历”D 为1，“无学历”D 为0，则“无学历”就是基础类型，“有学历”为比较类型。（3）当属性有m 个类型时，不能把虚拟变量的取值设成如下情况 D=0，第一个类型； D=1，第二个类型； …… D=m-1，第m 个类型。原因是上述情况没有反映出属性类型的相互排斥性。第二节虚拟解释变量的回归一、加法引入规则 1、加法引入规则，虚拟解释变量与别的解释变量以相加的关系出现在模型里。加法引入虚拟变量对模型产生的结果是只改变截距项。设模型为 123i i i i Y X D u βββ=+++ 式中，i D 为虚拟变量，它与其它解释变量是相加的关系。如果虚拟变量按这种方式引入模型，则称虚拟变量按加法类型引入。 2、加法引入虚拟变量的应用。（1）模型中只有一个定性解释变量。设模型形式为 12i i i Y D u ββ=++ n i ,,3,2,1 = 其中，i D 为具有两个属性类型的定性变量，如在教材第217页，设i Y 为居民的

计量经济学作用-虚拟变量回归

虚拟变量回归实验目的：分析1965~1970年美国制造业利润和销售额，季度的关系。实验要求：假定利润不仅与销售额有关，而且和季度因素有关（1）如果认为季度影响使利润平均值发生变异，应如何引入虚拟变量？（2）如果认为季度影响使利润对销售额的变化率发生变异，应如何引入虚拟变量？（3）如果认为上诉两种情况都存在，又当如何引入虚拟变量？（4）对上述三种情况分别估计利润模型，进行对比分析。实验原理：最小二乘法原理实验步骤：由于有四个季度，因此引入三个季度虚拟变量：其它一季度???=012D 其它二季度???=013D 其它三季度? ??=014D 一、如果认为季度影响使利润平均值发生变异，应以加法类型引入三个虚拟变量，设其模型为：u X D D D Y t t t +++++=βαααα4433221 对模型进行回归，得到以下回归结果： Dependent Variable: Y Method: Least Squares Date: 11/26/10 Time: 15:02 Sample: 1965Q1 1970Q4 Included observations: 24 Variable Coefficien t Std. Error t-Statistic Prob. C 6910.449 1922.350 3.594792 0.0019 X 0.038008 0.011670 3.256914 0.0041 D2 -187.7317 660.1218 -0.284390 0.7792 D3 1169.320 637.0766 1.835446 0.0821 D4 -417.1182 640.8333 -0.650900 0.5229 R-squared 0.517642 Mean dependent var 12838.54 Adjusted R-squared 0.416093 S.D. dependent var 1433.284 S.E. of regression 1095.227 Akaike info criterion 17.01836 Sum squared resid 22790932 Schwarz criterion 17.26379 Log likelihood -199.2204 F-statistic 5.097454 Durbin-Watson stat 0.396350 Prob(F-statistic) 0.005810 Y t ^=6910.449-187.7317D 2+1169.320D 3-417.1182D 4+0.038008X t Se=（1922.350）（660.1218）（637.0766）（640.8333）（0.011670）

第五讲-虚拟变量模型

第七讲经典单方程计量经济学模型：专门问题虚拟变量模型学习目标： 1. 了解什么是虚拟变量以及什么是虚拟变量模型； 2. 理解虚拟变量的设置原则； 3. 掌握虚拟变量模型的两种基本引入方式（加法方式和乘法方式）； 4. 能够自行设计虚拟变量模型，并能够解释其中蕴含的经济意义；教学基本内容一、虚拟变量许多经济变量是可以定量度量，例如：商品需求量、价格、收入、产量等；但有一些影响经济变量的因素是无法定量度量。例如：职业、性别对收入的影响，战争、自然灾害对GDP 的影响，季节对某些产品（如冷饮）销售的影响等。定性变量：把职业、性别这样无法定量度量的变量称为定性变量。定量变量：把价格、收入、销售额这样可以可以定量度量的变量称为定量变量。为了能够在模型中能够反映这些因素的影响，提高模型的精度，拓展回归模型的功能，需要将它们“量化”。这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型，构造只取“0”或“1”的人工变量，通常称为虚拟变量（dummy variables ），记为D 。虚拟变量只作为解释变量。例如：反映性别的虚拟变量? ??=女男;0;1D 反映文化程度的虚拟变量???=非本科学历本科学历;0;1D 一般地，基础类型和肯定类型取值为1；比较类型和否定类型取值为0。二、虚拟变量的设置原则设置原则：每一定性变量(qualitative variable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。即如果有m 种状态，只在模型中引入m-1个虚拟变量。例如，冷饮的销售量会受到季节变化的影响。季节定性变量有春、夏、秋、冬4种状态，只需要设置3个虚拟变量：

(VR虚拟现实)第八章虚拟解释变量回归

（VR虚拟现实）第八章虚拟解释变量回归

第八章虚拟变量回归引子男女大学生的消费真的有差异吗? 在校大学生的消费行为越来越受到社会的关注，学生家长也很关心自己的子女上大学究竟要准备多少花费。由共青团中央、全国学联共同发布的《２００４中国大学生消费与生活形态研究报告》显示，当代大学生在消费结构方面呈现出多元化趋势。大学生除了日常生活费开支以外，还有人际交往消费、网络通讯消费、书报消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费、食品类消费、学习用品类消费、各种考证类等消费。大学生时尚化、个性化消费增多已成为趋势与潮流。不同性别大学生的消费结构有所不同，专科生、本科生、研究生的消费结构更有差异。有的记者调查发现，不同年级之间，男女同学之间，消费水平、消费结构、消费方式上都存在着差异。年级越高，消费水平也随之增长，随着阅历的增加，对自己形象的重视，精神享受的追求、学习的投入、配备手机电脑的需求也随之增长。同年级的男生的消费高于女生，虽然女生在化妆品、衣服饰品方面的投入明显高于男生。然而时代在变，对美的追求已不再限于女生，男生对于个人形象、装扮也已慢慢重视起来。此外男生在人际交往方面比女生投入了更多的"本钱"。请客吃饭、朋友聚会、节日送礼已不再罕见。所谓的"人情消费"已从社会向校园中扩张蔓延，而在乎"面子"的男同胞已成为追随这一潮流的"先驱"。高年级女生对于吃饭的投入相对较少，而在化妆品、服饰、零食方面的投入却增长不少。（注：来源于Solie教育网、网易教育频道、新华网等）为了研究男女大学生、不同层次大学生、不同年级大学生的消费结构是否有差异，需要将这些定性的因素引入计量模型，怎样才能在模型中有效地表示这些定性因素的作用呢？

第七章虚拟变量回归

第七章虚拟变量回归第一节虚拟变量的性质在实际建模过程中，被解释变量不但受定量变量影响，同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭（工党-保守党）、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。一、基本概念由于定性变量通常表示的是某种特征的有和无，所以量化方法可采用取值为1或0。这种变量称作虚拟变量（dummy variable ）。虚拟变量也称：哑元变量、定性变量等等。通常用字母D 或DUM 加以表示（英文中虚拟或者哑元Dummy 的缩写）。用1表示具有某一“品质”或属性，用0表示不具有该“品质”或属性。虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。虚拟变量应用于模型中，对其回归系数的估计与检验方法和定量变量相同。虚拟变量表示两分性质，即“是”或“否”，“男”或“女”等。下面给出几个可以引入虚拟变量的例子。例1：你在研究学历和收入之间的关系，在你的样本中，既有女性又有男性，你打算研究在此关系中，性别是否会导致差别。例2：你在研究某省家庭收入和支出的关系，采集的样本中既包括农村家庭，又包括城镇家庭，你打算研究二者的差别。例3：你在研究通货膨胀的决定因素，在你的观测期中，有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。上述各例都可以用两种方法来解决，一种解决方法是分别进行两类情况的回归，然后看参数是否不同。另一种方法是用全部观测值作单一回归，将定性因素的影响用虚拟变量引入模型。二、虚拟变量设置规则虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则虚拟变量取“1”或“0”的原则，应从分析问题的目的出发予以界定。从理论上讲，虚拟变量取“0”值通常代表比较的基础类型；而虚拟变量取“1”值通常代表被比较的类型。 “0”代表基期（比较的基础，参照物）；“1”代表报告期（被比较的效应）。例如，比较收入时考察性别的作用。当研究男性收入是否高于女性时，是将女性作为比较的基础（参照物），故有男性为“1”，女性为“0”。 2.属性（状态、水平）因素与设置虚拟变量数量的关系定性因素的属性既可能为两种状态，也可能为多种状态。例如，性别（男、女两种）、季节（4种状态），地理位置（东、中、西部），行业归属，所有制，收入的分组等。虚拟变量数量的设置规则 1.若定性因素具有 m （m ≥2）个相互排斥属性(或几个水平)，当回归模型有截距项时，只能引入m 个虚拟变量； 2.当回归模型无截距项时，则可引入m 个虚拟变量；否则，就会陷入“虚拟变量陷阱”。 (0,1) (0,0)D D ????? 12(1,0)天气阴如：（,）=天气雨其他

第九章含虚拟变量的回归模型

第九章含虚拟变量的回归模型目前为止，在已学习的线性回归模型中，解释变量X都是定量变量。但有时候，解释变量是定性变量。 9.1 虚拟变量的性质通常在回归分析中，应变量不仅受一些定量变量的影响，还受一些定性变量的影响(性别、种族、肤色、宗教、民族、罢工、政团关系、婚姻状况)。如：美国黑人的收入比相应的白人的收入低。女学生的S.A.T.的数学平均分数比相应的男生低。定性变量通常表明了具备或不具备某种性质，比如，男性或女性，黑人或白人，佛教徒或非佛教徒，本国公民或非本国公民。把定性因素“定量化”的一个方法是建立人工变量，并赋值0和1，0表示变量不具备某种属性，1表示变量具备某种属性，该变量称为虚拟变量(dummy variable)，用符号D表示。虚拟变量一样可用于回归分析，一个回归模型的解释变量可以仅仅是虚拟变量，称为方差分析模型( ANOVA )。

Yi = B1 + B2Di + ui ( 9 - 1 ) 其中Y = 初职年薪 Di =1，大学毕业 =0，非大学毕业假定随机扰动项满足古典线性回归模型的基本假定，根据模型( 9 - 1 )得到：非大学毕业生的初职年薪的期望为： E(Yi｜Di=0) = B1 + B2( 0 ) = B1 ( 9 - 2 ) 大学毕业生的初职年薪的期望为： E(Yi｜Di=1) = B1+B2( 1 ) = B1+B2 ( 9 - 3 ) 可以看出：截距B1表示非大学毕业生的平均初职年薪， “斜率”系数B2表明大学毕业生的平均初职年薪与非大学生的差距是多少； (B1+B2)表示大学毕业生的平均初职年薪。零假设：大学教育没有任何益处(即B2=0)，可根据t检验值