虚拟被解释变量

合集下载

引入虚拟解释变量的两种基本方式

引入虚拟解释变量的两种基本方式
在统计学分析中，引入虚拟解释变量是一种常用的方式，它可以提高统计模型的精确性，减少错误。

虚拟解释变量是一种变量，它不能显示出主要变量之间的关系，而是用于捕捉模型中其他非线性变量的影响，以抵消其他变量可能引起的误差。

使用虚拟解释变量可以更好地预测数据，并且可以消除变量之间的联系，使模型更加准确。

在引入虚拟解释变量时，有两种基本方式可以使用，即直接编码和回归编码。

在直接编码中，变量是将数据集中的每个观察点映射到一个多维统计模型，该模型包含了所有解释变量可能表示的可能效果及其影响。

直接编码将每个观察点映射到单个结果，这就可以预测出每个观察点的结果，即回归结果。

回归编码的方法更加复杂，它使用一个多变量的回归模型来模仿虚拟变量的影响。

回归编码的模型包含多个变量，其中虚拟变量和其他变量的加权和的结果来决定回归因素的影响。

例如，如果虚拟变量叫做“货币”，而另一个变量叫做“国家”，它们之间可能存在某种关系，回归编码方法可以捕捉这种关系，可以更好地预测结果。

引入虚拟解释变量可以改善模型的准确性，减少输入变量和输出变量之间的错误。

使用虚拟解释变量可以解决许多模型中出现的数据失真问题，可以显著提高模型的准确性和可靠性。

当使用虚拟解释变量时，有两种基本的编码方式可以使用，分别为直接编码和回归编码，它们都为统计模型提供了有效的正确性。

- 1 -。

计量经济学第5章虚拟变量模型

第五章虚拟变量模型
在经济计量模型中除了有量的因素外还有质的因素，质的因素包括被解释变量为质的因素和解释变量为质的因素。如果被解释变量为质的因素，主要是逻辑回归要涉及的内容。本章就解释变量和被解释变量为质的因素也就是存在虚拟解释变量和虚拟被解释变量时如何进行参数估计等一系列问题进行讨论。
1
为基础类型截距项。
12
三、虚拟变量的作用 ⑴ 可以描述和测量定性因素的影响。
⑵ 能够正确反映经济变量之间的相互关系，提高模型的精度。
⑶ 便于处理异常数据。
即将异常数据作为一个特殊的定性因素
1 , 异常时期
D
0
,
正常时期
13
第二节虚拟解释变量模型
一、截距变动模型（加法模型）
虚拟变量与其它变量相加，以加法形式引入模
Y i 0 1 D 1 i 2 D 2 i 3 X i u i
Y i ------年支出医疗保健费用支出 X i ------居民年可支配收入
18
1 , 高中
D 1i
0
,
其他
1 , 大学
D 2i
0
,
其他
于是：小学教育程度：
E (Y i X i,D 1 i 0 ,D 2 i 0 )03 X i
7
二、虚拟变量的设置规则
虚拟解释变量模型的设定因为质的因素的多少和这些因素特征的多少而引入的虚拟变量也会不同。
以一个最简单的虚拟变量模型为例，如果只包含一个质的因素，而且这个因素仅有两个特征，则回归模型中只需引入一个虚拟变量。如果是含有多个质的因素，自然要引入多个虚拟变量。
8
如果只有一个质的因素，且该质的因素具有 m 个相互排斥的特征（或类型、属性），那么在含有截距项的模型中，只能引入 m-1 个虚拟变量，否则会陷入所谓“虚拟变量陷阱”（dummy variable trap），产生完全的多重共线性，会使最小二乘法无解；在不含有截距项的模型中，引入 m 个虚拟变量不会导致完全的多重共线性，不过这时虚拟变量参数的估计结果，实际上是 D = 1 时的样本均值。

金融计量经济第五讲虚拟变量模型和Probit、Logit模型

.
二、虚拟变量的设置原则
• 引入虚拟变量一般取0和1。
• 对定性因素一般取级别数减1个虚拟变量。例子1：性别因素，二个级别（男、女）取一个虚拟变量，D=1表示男（女），D=0表示女（男）。
• 例子2：季度因素，四个季度取3个变量。
1, 一季度 D1 0, 其它季度
1, 二季度
D2
0,
其它季度
• 同样可以写成二个模型：
y ˆi ˆ0(ˆˆ1)x1iˆkxki D1
y ˆi ˆ0ˆ1x1iˆkxki
D0
• 可考虑同时在截距和斜率引入虚拟变量：
y i 0 0 D i (1 D i 1 ) x 1 i k x k iu i (5.
.
.
• 3、虚拟变量用于季节性因素分析。
•取
1, 当样本 i季为度第的数据 Di 0,其它季度的, i数 2,3据 ,4
• 工资模型为：
• Ii01 [S 1 (1 D 1 i D 2 i)S ( i S 1 )] 2 [D 2 i(S 2 S 1 ) D 1 i(S i S 1 ) ]3 D 2 i(S i S 2 ) u i (5.7
.
D2=1
S0
D1=1
S1
S2
.
• 作OLS得到参数估计值后，三个阶段的报酬回归模型为： Iˆi ˆ0ˆ1Si, Si S1 Iˆi ˆ0ˆ1S1ˆ2(Si S1), S2Si S1 Iˆi ˆ0ˆ1S1ˆ2(S2S1)ˆ3(Si S2), Si S2
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

金融计量经济第五讲虚拟变量模型和Probit、Logit模型

精品课件
原始模型：
YX (5.8)
• 其中Y为观测值取1和0的虚拟被解释变量，X为解释变量。
• 模型的样本形式： yi Xii
(5.9)
• 因为E(i)0
，E所(y以i)Xi
• 令： p i P ( y i 1 ) 1 p i P ( y i 0 )
• 于是有： E ( y i) 1 P ( y i 1 ) 0 P ( y i 0 ) p i
其它季度
1, 三季度
D3
0,
其它季度
• 小心“虚拟变量陷阱”！
精品课件
三、虚拟变量的应用
• 1、在常数项引入虚拟变量，改变截距。
y i0D 1 x 1 i kx k iu i (5.1)
• 对上式作OLS，得到参数估计值和回归模型：
y ˆiˆ0ˆD ˆ1 x 1 i ˆkx ki(5.2)
金融计量经济第五讲
虚拟变量模型和Probit、Logit模型
精品课件
第一节虚拟变量的一般应用
一、虚拟变量及其作用 1.定义：取值为0和1的人工变量，表示非量化
（定性）因素对模型的影响，一般用符号D表示。例如：政策因素、地区因素、心理因素、季节因素等。 2.作用： ⑴描述和测量定性因素的影响； ⑵正确反映经济变量之间的相互关系，提高模型的精度； ⑶便于处理异常数据。
yˆt ˆ ˆxt yˆt ˆ ˆxt ˆ2 yˆt ˆ ˆxt ˆ3 yˆt ˆ ˆxt ˆ4
精品课件
一季度二季度三季度四季度
例题：美国制造业的利润—销售额行为
• 模型：利 t 1 润 2 D 2 t 3 D 3 t 4 D 4 t ( 销 ) t u t售
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066

第九章：虚拟解释变量

[计量经济学讲义] 第九章：虚拟解释变量本章及下一章将变量类型由定量变量拓展到定性变量。

§1虚拟变量的性质1、变量的分类：定量变量：如收入、产量、价格、成本、高度等取值在一定分为内连续变化；定性变量：如性别、种族、肤色、宗教、国际、战争、地震、沿海省份等。

“量化”：将定性变量量化，可以根据其不同情况取值0或1。

2、虚拟变量（dummy variable ）：取值为0、1等这样的变量。

虚拟变量有时也称为二值变量(binary variable)、二分变量(dichotomous variable)、定性变量(qualitative variable)、指标变量（indicator variable ）3、ANOV A （方差分析analysis of variance ）：解释变量全为虚拟变量例：i Y =α+βi D +i u其中i Y 表示教授年薪，i D =1，男教授i D =0，女教授（假定年龄、学位和经验可以忽略）女教授的平均年薪为：E(i Y |i D =0)=α；男教授的平均年薪为：E(i Y |i D =1)=α+β；一个例子（略）§2 一个定量变量和一个二分定性变量1、例子：i Y =1α+2αi D +βi X +i u其中i Y 表示教授年薪，i X 表示年龄，则有：女教授的平均年薪为：E(i Y |i X ,i D =0)=1α+βi X ；男教授的平均年薪为：E(i Y |i X ,i D =1)= 1α+2α+βi X ；（假设共同斜率）2、问：有截距项的情况下，区分两个类别要几个虚拟变量？答案是一个，否则有完全贡献性。

结论：有截距项的情况下，若一个定性变量有m 个类别，则仅引入m-1个虚拟变量。

3、0与1的分配问题。

4、基准（benchmark ）：0类别的情况5、级差截距系数：D 的系数§3 一个定量变量和一个多分变量例子：假设在横截面数据的基础上，做个人保健支出对个人收入和教育水平的回归。

第八章虚拟变量

Company Logo
9
一、为什么引入虚拟变量
（2）把虚拟变量取值为0所对应的类别称作基础类别。
例如：按上面对“学历”的赋值方法，“无学历”为基础类别。
（3）当定性变量含有m个类别时，不能把虚拟变量的值设成如下形式：
0 （第一个类别）
D
1
（第二个类别）
m 1 （第m个类别）
这种赋值法在一般情形下与虚拟变量赋值是完全不同的两回事。
（因为D不能作为Eviews的用户变量名，所以取D1）
Company Logo
28
三、测量斜率变动
Company Logo
29
三、测量斜率变动
trade 0.2818 0.0746time 35.8809D 1.2559timeD
(1.35) (6.2)
(8.4)
(9.6)
还有虚拟变量的两项都是显著的，所以
Company Logo
10
一、为什么引入虚拟变量
（4）回归模型可以只用虚拟变量作解释变量，也可以用定量变量和虚拟变量一起作解释变量。
Company Logo
11
二、用虚拟变量测量截距变动
❖ 下面给出的模型都属于测量截距变动的模型。
中使用虚拟变量时，回归函数就不再是连续的了，分段线性回归可以既使用虚拟变量描述出模型结构变化，又可以使回归函数保持连续，其中每一段都是线性的。
Company Logo
31
四、分段线性回归
❖ 考虑下面的模型
Yt 0 1X t 2 ( X t X b1)D1 ut
其中Xb1表示结构发生变化的t=b1时刻的Xt的值。
Company Logo
4
一、为什么引入虚拟变量

虚拟变量虚拟解释变量的回归虚拟被解释变量的回归

17
显然，在研究房地产价格影响机理时，需要分析那些不易量化的定性因素对房地产价格是否真的有显著影响。能否把定性的因素也引入计量经济模型中呢? 怎样才能在模型中有效地表示这些定性因素的作用呢？
1
问题的一般性描述
在前面各章的分析中，被解释变量主要是受可以直接度量的定量因素的影响，如收入、产出、商品需求量、价格、成本、资金、人数等。但现实经济生活中，影响被解释变量变动的因素，除了可以直接观测数据的定量变量外，可能还包括一些本质上为定性因素的影响，例如性别、种族、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等。
则对任一家庭都有： D1 + D2 = 1 D1 + D2 - 1 = 0 ，
即产生完全共线，陷入了“虚拟变量陷阱”。
“虚拟变量陷阱”的实质是：完全多重共线性。
15
综上可知： 1.引入虚拟变量的个数与两个因素有关；一是定性变量的属性多少，一是有无截距项； 2.对虚拟变量的运用要谨慎，虚拟变量的使用得当常能发挥积极的作用，但在模型中引入虚拟变量的数量要适当，引入的虚拟变量的数量过度，则可能带来负面的影响。
10
例如，比较收入时考察性别的作用。当研究男性收入是否高于女性时，是将女性作为比较的基础（参照物），故有男性为“1”，女性为“0”。
例1
(1)
D
=
1 0
男女
（2）
D
=
1 0
改革开放以后改革开放以前
（3）
D1
=
1 0
天气阴（4）其他
D2
=
1 0
天气雨其他
问题:
为何只选0、1，选2、3、4行吗？为什么？
16

第六章虚拟变量的回归模型

第六章虚拟变量的回归模型
在一元回归和多元回归分析中，被解释变量主要受一个或多个可以度量的解释变量的影响，如收入、价格、FDI等。但在现实的经济社会中，影响被解释变量的因素除了可度量的之外，还有可能受一些不可度量的因素的影响，如性别、战争、政策、学历、职称等因素。有时候这些不可度量的因素对被解释变量的影响又不可忽略，这时我们需要引入虚拟变量来代替不可量化的因素。
一、虚拟变量的概念

1.影响因素定量因素——定量变量，可以直接测量的数值型因素。
定性因素——定性变量，不能直接测量的，用来说明
某种属性或状态的非数值型因素。
2.虚拟变量——(dummy variable)是人工构造的取值为0或1的、作为定性变量的代表变量。简写为D或DUM。 3、形式 1 ，表示某种属性或状态出现或存在，是 D= 0 ，表示某种属性或状态出现或存在，否

男教授的平均收入=a+b 女教授的平均收入=a 在eviews中用OLS估计回归系数，确定a、b
wage=18+3.28sex (57.7) (7.44) R2 =0.87, F=55.34
从回归分析结果得出的结论：

1、统计检验 1）拟合优度检验 R2 =0.87，说明所建模型整体上对样本数据拟合较好，即解释变量性别对被解释变量收入的87%的差异作出了解释。 2）t检验 t(b）=7.44, p=0.0001，则拒绝原假设，表明性别对教授收入有显著影响。 3）F检验 F=55.34，p=0，则拒绝原假设，表明该回归方程整体显著，通过检验。 2、经济意义
二、虚拟变量模型
1、概念：把含有虚拟变量的模型称为虚拟变量模型。 2、常见的虚拟变量模型的种类

虚拟变量(dummy variable)

19
0
0
1
2000:4
2.7280
20
0
0
0
数据来源：《中国统计年鉴》1998-2001
2．斜率变化
以上只考虑定性变量影响截距，未考虑影响斜率，即回归系数的变化。当需要考虑时，可建立如下模型：
yt=0+1xt+2D+3xtD+ut,
其中xt为定量变量；D为定性变量。当D= 0或1时，上述模型可表达为，
若不采用虚拟变量，得回归结果如下，
GDP = 1.5427 + 0.0405 T
(11.0) (3.5) R2= 0.3991, DW = 2.6,s.e.=0.3
定义
1（1季度）1（2季度）1（3季度）
D1=D2=D3=
0（2, 3,4季度）0（1,3, 4季度）0（1,2, 4季度）
第4季度为基础类别。
15
0
0
1982
7.713
384
16
0
0
1983
8.601
34
1
34
1966
1.271
17
0
0
1984
12.010
35
1
35
1967
1.122
18
0
0
以时间T=time为解释变量，进出口贸易总额用trade表示，估计结果如下：
trade= 0.37 + 0.066time- 33.96D+ 1.20timeD
虚拟变量（dummy variable）
在实际建模过程中，被解释变量不但受定量变量影响，同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

计量经济学之虚拟变量

Yi=α0+α1D1i+α2D2i+α3（D1iD2i）+βXi +μi α1为是否发展油菜籽生产对农副产品生产总收益的截距差异系数； α2为是否发展养蜂生产对农副产品生产总收益的截距差异系数； α3为同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。 α0 ~ α3组成截距水平。
四、虚拟变量的设置原则
每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1，
即如果定性变量有m个类别，则只在模型中引入m-1个虚拟变量。
Y t 0 1 X 1 t … k X k t 1 D 1 t 2 D 2 t 3 D 3 t 4 D 4 t t
Y (X
D)
冷饮的销售额与季节因素的关系
计量经济学之虚拟变量
为了能够在模型中反映这些因素的影响，并提高模型的精度，需要将它们人为地“量化”，这种“量化”通常是通过引入“虚拟变量”来完成的。
这种用两个相异数字来表示对被解释变量有重要影响而自身又没有观测数值的一类变量，称为虚拟变量。
虚拟变量的特点是：
1．虚拟变量是对经济变化有重要影响的不可测变量。 2．虚拟变量是赋值变量，一般根据这些因素的属性类型，构造只取 “0”或“1” 的人工变量，通常称为虚拟变量，记为D。这是为了便于计算而把定性因素这样数量化的，所以虚拟变量的数值只表示变量的性质而不表示变量的数值。
一般的，基础类型和肯定类型取值为1；比较类型和否定类型取值为0。
例如：
1）表示性别的虚拟变量可取为 D1=
1 男性 0 女性
2）表示文化程度的虚拟变量可取为 D2=
1 本科及以上学历 0 本科以下学历
3）表示地区的虚拟变量可取为
D3=
1 城市 0 农村

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Pi E (Y 11X i )
1 1 e
( 243.74 0.68 X i )
（1）估计probit模型点击【Quick】-【Estimate Equation】,在文本框中输入 “Y C X D1”，在对话框下半部分的“Estimation settings”栏的“Method”下拉列表中选择“BINARY-Binary choice ( logit, probit, extreme value )” ，在“Binary estimation method”中选择“Probit”，点击“OK”，出现如下回归结果。
试建立二元离散logit模型与probit模型。
1 模型设定
（1）创建工作文件启动Eviews，在主菜单依次点击【File】-【New】-【Workfile】，在弹出的“Workfile Range”对话框中选择 “Unstr据），在 “Date range”里面输入“85”，点击OK。
（2）输入数据 Data Y X D1
2 参数估计（1）估计logit模型点击【Quick】-【Estimate Equation】,在文本框中输入 “Y C X D1”，在对话框下半部分的“Estimation settings”栏的“Method”下拉列表中选择“BINARY-Binary choice ( logit, probit, extreme value )” ，在“Binary estimation method”中选择“Logit”，点击“OK”，出现如下回归结果。
logit模型估计结果：
Y = -242.46 + 0.68 X – 0.48 D1 z p -1.9472 1.9454 -0.1597 0.0515 0.0517 0.8731
2 RMcF = 0.8954
LR = 68.0976
p=0.0000
从回归结果看，D1的参数没有显著性（z检验通不过），这说
明考生的应届、非应届特征对录取与否无显著影响。于是，从
模型中剔除D1，重新估计，输出结果如下。
probit模型估计结果：
Y = -144.46 + 0.40 X
z p
-2.0578 2.0535 0.0396 0.0400
2 RMcF = 0.8965
LR = 68.1832
p=0.0000
作业二
probit模型估计结果：
Y = -143.32 + 0.40 X – 0.25 D1 z p -2.0529 2.0522 -0.1504 0.0401 0.0401 0.8805
2 RMcF = 0.8968
LR = 68.2056
p=0.0000
从回归结果看，D1的参数没有显著性（z检验通不过），这说
实验2 logit模型与probit模型
实例：给出某大学1999年85名硕士研究生入学考试分数及录取情况的数据。其中，考生考试总分数用X表示，Y
为录取状态，D1为表示应届生与往届生的虚拟变量。定
义如下：
Y
1, 录取 0, 未录取
D1
1, 应届生 0, 非应届生
Y为虚拟被解释变量，D1为虚拟解释变量，加入D1变量的目的是想考查考生为应届生或非应届生是否也对录取产生影响。
• 为分析家庭收入与汽车拥有的关系，在某市居民中随即抽取了40个家庭，这40个家庭的年收入X （万元）、汽车拥有Y（Y取0表示该户家庭未拥有汽车，Y取1表示该户家庭已拥有汽车）的数据见表作业数据二。 • 1、分别建立家庭年收入X与汽车拥有Y之间的 Logit模型和Probit模型，写出实验步骤。 • 2、分别对Logit模型和Probit模型的参数显著性、拟合优度及总体显著性进行检验。（给定显著性水平0.05） • 3. Logit模型模型中Pi的表达式为什么？当X=25时，拥有汽车的概率是多少？
明考生的应届、非应届特征对录取与否无显著影响。于是，从
模型中剔除D1，重新估计，输出结果如下。
logit模型估计结果：
Y = -243.74 + 0.68 X z p -1.9413 1.9385 0.0522
2 McF
0.0526
R
= 0.8950 p=0.0000
LR = 68.0719
根据这一估计结果，可知logit模型估计结果的相应表达式为：

虚拟被解释变量

引入虚拟解释变量的两种基本方式

计量经济学第5章 虚拟变量模型

金融计量经济第五讲虚拟变量模型和Probit、Logit模型

金融计量经济第五讲虚拟变量模型和Probit、Logit模型

第九章：虚拟解释变量

第八章 虚拟变量

虚拟变量虚拟解释变量的回归虚拟被解释变量的回归

第六章 虚拟变量的回归模型

虚拟变量(dummy variable)

计量经济学之虚拟变量

计量经济学第5章虚拟变量模型

第八章虚拟变量

第六章虚拟变量的回归模型