第7章 Dummy Variables 虚拟变量
什么是哑变量

哑变量(Dummy V ariable):也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。
这种“量化”通常是通过引入“哑变量”来完成的。
根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量(dummy variables),记为D。
举一个例子,假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了。
这个过程就是引入哑变量的过程,其实在结合分析(conjoint analysis)中,就是利用哑变量来分析各个属性的效用值的。
在线性回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响,引入哑变量有两种方式:加法方式与乘法方式。
所谓加法方式是指,哑变量作为单独的自变量,有独立的系数,从几何意义上来讲,就是只改变回归直线的截距(constant),不改变斜率(B);而乘法方式则正好相反,不改变截距,只改变斜率,因为哑变量在回归方程中不是作为一个独立的自变量,而是与其中某一个自变量相乘后作为一个自变量。
当然,也可以同时使用加法和乘法来引入哑变量,即同时改变截距和斜率。
由于哑变量的取值只有0和1,它起到的作用像是一个“开关”的作用,它可以屏蔽掉D=0的case,使之不进入分析,在spss软件中就是filter的作用。
我试验了一下,确实如此。
虚拟变量虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。
引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。
计量课后习题第七章答案

习题解释概念(1)分类变量 (2)定量变量 (3)虚拟变量 ( 4)虚拟变量陷阱 (5)交互项(6)结构不稳定 (7)经季节调整后的时间序列答:(1)分类变量:在回归模型中,我们对具有某种特征或条件的情形赋值1,不具有某种特征或条件的情形赋值0,这样便定义了一个变量D :1,0,D ⎧=⎨⎩具有某种特征不具有某种特征我们称这样的变量为分类变量。
(2)具有数值特征的变量,如工资、工作年数、受教育年数等,这些变量就称为定量变量。
(3)在回归模型中,我们对具有某种特征或条件的情形赋值1,不具有某种特征或条件的情形赋值0,这样便定义了一个变量D :1,0,D ⎧=⎨⎩具有某种特征不具有某种特征我们称这样的变量为虚拟变量(dummy variable )。
(4)虚拟变量陷阱是指回归方程包含了所有类别(特征)对应的虚拟变量以及截距项,从而导致了完全共线性问题。
(5)交互项是指虚拟变量与定量变量相乘,或者两个定量变量相乘或是两个虚拟变量相乘,甚至更复杂的形式。
比如模型:12345i i i i i i i household lwage female married female married u βββββ=++++⋅+female married ⋅就是交互项。
(6)如果利用不同的样本数据估计同一形式的计量模型,可能会得到1β、2β不同的估计结果。
如果估计的参数之间存在着显著性差异,就称为模型结构不稳定。
(7)一些重要的经济时间序列,如果是受到季节性因素影响的数据,利用季节虚拟变量或者其他方法将其中的季节成分去除,这一过程被称为经季节调整的时间序列。
如果你有连续几年的月度数据,为检验以下假设,需要引入多少个虚拟变量如何设定这些虚拟变量(1)一年中的每一个月份都表现出受季节因素影响;(2)只有2、7、8月表现出受季节因素影响。
答:(1)对于一年中的每个月份都受季节因素影响这一假设,需要引入三个虚拟变量。
分别定义2D 、3D 、4D 如下:21,0,D ⎧=⎨⎩如果为夏季如果不为夏季 31,0,D ⎧=⎨⎩如果为秋季如果不为秋季 41,0,D ⎧=⎨⎩如果为冬季如果不为冬季(2)如果只有2、7、8月表现出受季节因素影响,则只需要引入一个虚拟变量。
什么是哑变量(虚拟变量),应用中应注意什么问题?

什么是哑变量(虚拟变量),应用中应注意什么问题?虚拟变量(dummy variable)也叫哑变量,翻译不同而已。
因为dummy的含义有假的、虚拟的、哑的等各种含义,所以国内翻译也不一样。
但是他们俩是一回事。
虚拟变量其实算不上一种变量类型(比如连续变量、分类变量等),确切地说,是一种将多分类变量转换为二分变量的一种形式。
Dummy这个词意思是虚拟的、假的,所以dummy variable意思就是假的变量,不是真实的变量。
那它到底虚拟在什么地方呢?我们通过一个例子来详细解释一下。
例:某研究者检测了四种不同类型社区(分别用0、1、2、3表示)的SO2情况。
研究者欲分析社区类型是否与SO2水平有关系,或者说,不同社区类型的SO2水平是否不同。
该例子中,因变量SO2水平是一个定量资料,自变量社区类型是一个分类资料,分析方法可以考虑一般线性模型。
首先要强调一点,不管是一般线性模型还是广义线性模型,它们都是“线性”的,也就是说,只要你采用了这些模型,就已经默认了自变量与因变量之间的关系是线性的。
所以,对于例中的数据,如果用一般线性模型,其结果如下图所示。
图中的意思是,随着社区类型从0到3之间的改变,SO2水平是线性增加的,增加的幅度(斜率)是207.8。
也就是说,社区类型从0变为1,SO2增加207.8;社区类型从1变为2,SO2增加207.8;社区类型从2变为3,SO2增加207.8。
但我们会发现,事实并非如此。
从0到1时,似乎增加的幅度更大;而从1到2时,似乎增加的幅度没有这么大。
也就是说,207.8这个幅度,只是一个平均幅度,是从0到3增加的平均幅度。
如果我们想具体了解从0到1、从1到2、从2到3真实的增加值,就需要用到虚拟变量了。
所谓虚拟变量,就是把原来的一个多分类变量转化为多个二分变量,总的来说就是,如果多分类变量有k个类别,则可以转化为k-1个二分变量。
如变量x为赋值1、2、3、4的四分类变量,就可以转换为3个赋值为0和1的二分类变量。
计量经济学课件虚拟变量

通过引入虚拟变量,可以更准确地刻画经济现象的非线性特征,从而提高计量经济学模型 的精度和预测能力。
拓展应用领域
虚拟变量的引入使得计量经济学模型能够应用于更多的领域,如金融、环境、社会等,进 一步拓展了计量经济学的应用范围。
未来研究方向和趋势
深入研究虚拟变量的理论 和方法
未来研究将进一步深入探讨虚 拟变量的理论和方法,包括虚 拟变量的选择、设定和估计方 法等,以更准确地刻画经济现 象。
https://
未来研究将积极推动虚拟变量 在交叉学科领域的应用,如环 境经济学、金融经济学等,以 促进不同学科之间的交流和合 作。
WENKU DESIGN
WENKU DESIGN
2023-2026
END
THANKS
感谢观看
KEEP VIEW
WENKU DESIGN
WENKU DESIGN
WENKU
REPORTING
要点二
虚拟变量的设置原则
在设置虚拟变量时,需要遵循完备性 和互斥性的原则。完备性要求虚拟变 量的取值能够覆盖所有可能的情况, 而互斥性则要求不同虚拟变量之间不 能存在重叠或交叉的情况。
要点三
虚拟变量的回归系数 解释
在线性回归模型中,虚拟变量的回归 系数表示该定性因素对因变量的影响 程度。当虚拟变量取值为1时,其对 应的回归系数表示该水平与参照水平 相比对因变量的影响;当虚拟变量取 值为0时,则表示该水平对因变量没 有影响。
参数估计与假设检验
参数估计
采用最小二乘法等估计方法,对引入虚拟变量后的模型进行参数估计,得到各 解释变量的系数估计值。
假设检验
根据研究问题和假设,构建相应的原假设和备择假设,通过t检验、F检验等方 法对参数进行假设检验,判断虚拟变量对模型的影响是否显著。
什么是哑变量

哑变量(Dummy Variable):也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。
这种“量化”通常是通过引入“哑变量”来完成的。
根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量(dummy variables),记为D。
举一个例子,假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了。
这个过程就是引入哑变量的过程,其实在结合分析(conjoint analysis)中,就是利用哑变量来分析各个属性的效用值的。
在线性回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响,引入哑变量有两种方式:加法方式与乘法方式。
所谓加法方式是指,哑变量作为单独的自变量,有独立的系数,从几何意义上来讲,就是只改变回归直线的截距(constant),不改变斜率(B);而乘法方式则正好相反,不改变截距,只改变斜率,因为哑变量在回归方程中不是作为一个独立的自变量,而是与其中某一个自变量相乘后作为一个自变量。
当然,也可以同时使用加法和乘法来引入哑变量,即同时改变截距和斜率。
由于哑变量的取值只有0和1,它起到的作用像是一个“开关”的作用,它可以屏蔽掉D=0的case,使之不进入分析,在spss软件中就是filter的作用。
我试验了一下,确实如此。
虚拟变量虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。
引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。
dummy variable的系数解释

dummy variable的系数解释
在统计学中,虚拟变量(dummy variable)也称为指示变量或分类变量,通常用于表示分类数据。
虚拟变量的系数解释依赖于其使用的回归模型和解释变量的设定。
对于二元虚拟变量,其系数解释通常表示当自变量增加一个单位时,因变量相对于参考类别的变化量。
例如,如果一个二元虚拟变量用于表示某个人是否为男性(男性为1,女性为0),则该变量的系数可以解释为相对于女性,男性在因变量上的平均变化量。
对于多元虚拟变量,情况会变得更加复杂。
每个虚拟变量的系数都表示该变量相对于参考类别的变化量。
为了解释多元虚拟变量的系数,可以使用冗余分析(redundancy analysis)或主成分分析(principal component analysis)等方法来了解各个自变量对因变量的贡献程度。
需要注意的是,虚拟变量的系数解释并不是固定不变的,它可能受到模型设定、数据特征和样本大小等因素的影响。
因此,在解释虚拟变量的系数时,需要仔细考虑其背景和上下文,并谨慎评估其意义和可靠性。
虚拟变量(dummy variable)

0
0
1
2000:4
2.7280
20
0
0
0
数据来源:《中国统计年鉴》1998-2001
2.斜率变化
以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:
yt=0+1xt+2D+3xtD+ut,
其中xt为定量变量;D为定性变量。当D= 0或1时,上述模型可表达为,
若不采用虚拟变量,得回归结果如下,
GDP = 1.5427 + 0.0405 T
(11.0) (3.5) R2= 0.3991, DW = 2.6,s.e.=0.3
定义
1(1季度)1(2季度)1(3季度)
D1=D2=D3=
0(2, 3,4季度)0(1,3, 4季度)0(1,2, 4季度)
第4季度为基础类别。
15
0
0
1982
7.713
384
16
0
0
1983
8.601
34
1
34
1966
1.271
17
0
0
1984
12.010
35
1
35
1967
1.122
18
0
0
以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下:
trade= 0.37 + 0.066time- 33.96D+ 1.20timeD
虚拟变量(dummy variable)
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。
stata虚拟变量解释

在 Stata 中,虚拟变量(Dummy Variable)通常用于表示一个分类变量的不同水平(categories)或组。
虚拟变量是二进制的,通常被用来在回归等分析中引入分类变量的效应。
下面是关于 Stata 中虚拟变量的解释:创建虚拟变量:在 Stata 中,可以使用tabulate命令创建虚拟变量。
假设有一个名为category的分类变量,可以使用以下命令创建虚拟变量:这将为category变量的每个水平生成一个虚拟变量,变量名为dummy后加上水平的标签。
虚拟变量的解释:虚拟变量通常用于回归分析中,以表示分类变量的不同水平对因变量的影响。
例如,在一个回归模型中:其中,i.category表示将category变量转换为虚拟变量。
回归模型会为category中的每个水平引入一个虚拟变量,并拟合模型。
虚拟变量的效应:1.截距项:虚拟变量的一个水平通常被视为截距项。
其他虚拟变量的系数表示相对于这个水平的效应。
2.系数解释:虚拟变量的系数表示相对于参考水平的平均因变量的变化。
例如,如果有一个名为dummy_category的虚拟变量,其系数为 0.5,则表示相对于参考水平,该分类变量的这个水平平均因变量增加了 0.5。
注意事项:1.多重共线性:当引入虚拟变量时,需要注意多重共线性问题。
由于虚拟变量之间存在线性相关性,可能导致方差膨胀因子(VIF)较高。
2.虚拟变量陷阱:在使用虚拟变量时,要避免虚拟变量陷阱,即变量之间存在完全的线性相关性。
通常,可以通过将虚拟变量中的一个去掉来避免陷阱。
总体来说,虚拟变量是 Stata 中用于表示分类变量的一种常见方式,通过在回归分析中引入虚拟变量,可以更好地理解分类变量的效应。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Case 1: y = b0 + d0d + b1x + u
• 考虑一个简单工资方程:
wage = b0 + d0 female + b1 educ + u
• If female =0, then wage = b0 + b1educ + u • If female =1, then wage = (b0 + d0) + b1educ + u
• d0 = E(wage| female=1, educ) - E(wage| female=0, educ)
• d0 (an intercept shift): 给定教育年限educ,女性平 均工资比男性平均工资高d0元。
Example of d0 > 0
E(wage|female,educ) = b0 + d0 female + b1 educ
扩展:多个虚拟变量回归模型
• female(1 female; 0 male); married(1 married; 0 single) • marrfem( 1 female married; 0 others) • marrmale (1 male married; 0 others) • singlefem (1 female single; 0 others) • singlemale (1 male single; 0 others)
• A dummy variable 是一种只取1或0两个数值的变量. • Examples: (1) sex: 1: male 2: female
male (= 1 if male, 0 otherwise); female (= 1 if female, 0 otherwise) (2) region: 1. eastern; 2. central ; 3. western) eastern (=1 if eastern, 0 otherwise); central (=1 if central, 0 otherwise) western (=1 if western, 0 otherwise) • Dummy variables are also called: 二值变量(binary variables), 0-1变量(zero-one variables)
Interaction between dummy variables
• 在表示多种性别-婚姻分组时,工资方程又可以表示为:
• wage =b0+d1 female+d2married+d3female*married+b1educ+u • = b0 + d1 female+ (d2+ d3female) married + b1educ+u • = b0 + (d1 + d3married) female + d2married + b1educ+u
Example of d0 < 0
E(wage|female,educ) = b0 + d0 female + b1 educ
回归结果
wage = b0 + d0 female + b1 educ + u
特例:仅有虚拟变量的回归模型
• wage = b0 + d0 female+ u • E(wage| female) = b0 + d0 female • E(wage| female=1) = b0 + d0 • E(wage| female=0) = b0 • d0 = E(wage| female=1) - E(wage| female=0) • d0 含义:女性平均工资比男性平均工资高d0元
education attainment (1: primary; 2: junior 3. high; 4: college)
training (1. trainees; 2. nontrainees); insurance(1. participating; 2. not participating); industry (1.agriculture; 2: manufacture; 3: service;4. others)
• base group: male*single
• E(wage|female=1,married=1, educ) = b0+d1 female+d2married+d3female*married+b1educ
? wage =b0+d1estern+d2 central+b1educ+ u ? wage =b0+d1estern+d2 central+d3western+b1educ+u
• 2. 对于log model, 如何解释虚拟变量系数d0 ?
log(wage) = b0 + d0 female+ b1 educ + u
Multiple Regression Analysis
y = b0 + b1x1 + b2x2 + . . . bkxk + u
5. Dummy Variables
Chapter Outline
• 1. 描述定性信息 Describing Qualitative Information • 2. 一个虚拟变量作解释变量 A Single Dummy Independent Variable • 3. 用多个虚拟变量表示多种分类数据 Using Dummy Variables For Multiple Categories • 4. 与虚拟变量有关的交互项 Interactions Involving Dummy Variables • 5. 虚拟变量作因变量:线性概率模型 A Binary Dependent Variable: The Linear Probability Model • 6. 关于政策分析与项目评价的进一步讨论 More On Policy Analysis And Program Evaluation
• E(wage|female,married, educ)= b0 + d1 female+ d2 married + b1educ • E(wage|female=1,married=1, educ)= b0 + d1 + d2 + b1educ • E(wage|female=1,married=0, educ)= b0 + d1 + b1educ • E(wage|female=0,married=1, educ)= b0 + d2 + b1educ • E(wage|female=0,married=0, educ)= b0 + b1educ • d1 =E(wage|female=1,married=1, educ)- E(wage|female=0,married=1, educ)
2. 虚拟变量作为解释变量(截距项) Dummy Independent Variables
2. 虚拟变量作为解释变量
• Case 1: y = b0 + d0d + b1x + u • Case 2: y = b0 + d1d1 + d1d2 + b1x + u • Case 3: y = b0 + d1d1 + d1d2 + d1d1d2 + b1x + u • Case 4: y = b0 + d0d + d1d·x+b1x + u
Lecture Outline
• 1. 定性信息与虚拟变量 Qualitative information & Dummy
Variables • 2. 虚拟变量作为解释变量(截距项) Dummy Independent Variables • 3. 与虚拟变量有关的交互项 Interactions Involving Dummy Variables:
log(ˆwage) bˆ0 dˆ0 female bˆ1educ
• 在相同教育年限下,女性平均工资比男性平均工
资高(相差)的比率(百分比)。
dˆ0
log(ˆwagef
)
log(ˆwagem )
wagˆef wagˆem wagˆem
wagˆef wagˆem wagˆem
exp(dˆ0 ) 1 dˆ0
• d0 can be interpreted as an intercept shift
(截距项变动)
wage = b0 + d0 female + b1 educ + u
• 在零值条件期望假定( zero conditional mean)下:
E(wage| female, educ) = b0 + d0 female + b1 educ • (1) E(wage| female=1, educ) = (b0 + d0 ) + b1 educ • (2) E(wage| female=0, educ) = b0 + b1 educ
Income groups (1. <1000; 2. 1000-5000; 3. >5000); age group (1. <16; 2. 16-60; 3. >60);
Ordinal variables: Credit rating (low to high: 1 2 3 4 5);