计量经济学实验7虚拟变量模型

合集下载

计量经济学第07章虚拟变量模型-第1节33

第七章虚拟变量模型
第一节虚拟变量模型一、虚拟变量概念
在计量经济学中，常见的有些品质变量(也称属性变量或类型变量)如职业、性别、文化程度、地区等，由于各种原因不能计量，但是在建设计量经济模型时它们又是必不可少的因素，因此我们引入“虚拟变量”这个概念。虚拟变量就把表现为某种属性的变量虚拟为可以用数值表示的变量。
Y t0 1 X t2 (X t X t* ) D i u i
虚拟变量
Di
1
0
t t* t t*
（7.19）
若（7.19）满足 OLS 法基本假定条件，估计后
Y ˆˆ0ˆ1 X tˆ2(X tX t* )D i
这时，只要检验 ˆ2的统计显著性，就可以判
断在临界水平
X
* t
处是否存在着“突变”。如果
三、解释变量中虚拟变量的引入
பைடு நூலகம்
（一）以加法方式引入虚拟变量当各类型模型的斜率相同，截距不相同时，
可考虑以加法形式引入虚拟变量。例如，香烟的
求量了受收入因素影响外，还与地区有关。当香
烟关于收入的边际消费倾向相同时，其消费模型
可写为： C i0 1D i 2 Y i u i （7.3）
其中：C为香烟消费量；Y为居民的收入；
D1i
1 0
城市农村
1 男
D2i 0
女
C 为香烟消费；Y 为居民收入。
如果（7.7）式满足OLS的基本假设条件，可估计出各类型居民香烟消费函数分别为：
农村女性居民： Cˆi ˆ0ˆ3Yi
（7.8）
城市女性居民： C ˆi (ˆ0ˆ1)ˆ3Yi （7.9）
农村男性居民： C ˆi (ˆ0ˆ2)ˆ3Yi （7.10）

计量经济学导论：ch07 多元回归分析：虚拟变量

MBR b0 d1CR1 d2CR2 d3CR3 d4CR4 其他因素
d j系数含义可解释为：保持其他因素不变，信用等级为j
级的城市和信用等级为零级的城市之间在MBR上的差异。其中，j 1, 2,3, 4。
问题：两种估计方法中，哪种方法更优？
16
例7.7 相貌吸引力对工资的影响
在劳动力市场中，除了存在性别歧视之外，还可能存在相貌、身高等歧视。如果将样本相貌分为三类：一般水平、低于一般水平、高于一般水平，并以一般水平组作为基组，分别对男人、女人估计方程得：
y = b0 + d0d + b1x + u
This can be interpreted as an intercept shift
If d = 0, then y = b0 + b1x + u If d = 1, then y = (b0 + d0) + b1x + u
The case of d = 0 is the base/benchmark group
虚拟变量与非虚拟变量之间也有交互作用，使得出现不同的斜率。
female 0,男性组截距是b0，受教育的斜率是b1； female 1,女性组的截距是b0 d0，受教育的斜率是b1 d1。
24
25
我们关心的两个假设： ➢ 男性和女性受教育的回报是相同的。
H0：d1 0
➢ 受教育水平相同的男性和女性的平均工资相同。
将式7.13中的调整R 平方与把排名作为一个单独变量得到
的调整R 平方比较，前者是0.905，后者是0.836。所以，式
7.13 增加了回归的灵活性。另外，式 7.13中所有其他变量都变得不显著了，联合显著性

【精品】计量经济学实验报告(虚拟变量)

【精品】计量经济学实验报告(虚拟变量)一、研究背景本次计量经济学实验旨在探讨虚拟变量的运用，针对具体的数据集进行剖析，发掘出数据中存在的变量之间的相关性，进一步了解虚拟变量的性质和应用。

二、研究数据与模型本次实验所使用的数据主要来自于美国地区居民的生活经历与工作情况。

我们采用了线性回归模型来建立数据之间的相关性。

其中，自变量包括：年龄、性别、收入、婚姻状态、教育程度、是否有孩子和是否居住在城市；因变量为每周工作时间。

首先，我们运用SPSS对数据进行了初步的分析。

结果显示，数据存在了年龄、性别、收入、婚姻状态、教育程度、是否有孩子和是否居住在城市等多个变量。

其中，包括了虚拟变量。

我们选取了其中一个虚拟变量进行研究，即“是否有孩子”。

在该变量中，响应值为“是”、“否”，我们将其转换为虚拟变量，即0表示没有孩子，1表示有孩子。

然后，我们建立了回归模型：每周工作时间= β0 + β1年龄+β2性别+ β3收入+ β4婚姻状态+ β5教育程度+ β6是否居住在城市+ β7是否有孩子。

最后，我们选取了样本数据中的500个数据进行模型拟合，其中250条数据表示没有孩子，250条数据表示有孩子。

三、实验结果通过数据分析软件的运算，我们得出了模型拟合的结果。

模型拟合结果如下：从结果中我们可以看出，虚拟变量“是否有孩子”对于每周工作时间的影响显著，其系数为2.01，t值为4.8，显著性水平为0.01，说明儿童数量对于家长的工作时间有显著的影响。

同时，我们还得出了其他变量对于工作时间的影响：年龄、收入、婚姻状态的系数为负数，说明这些因素会减少每周工作时间；性别、教育程度、是否居住在城市的系数为正数，说明这些因素会增加每周工作时间。

四、结论通过本次实验，我们可以得出以下结论：1.虚拟变量是计量经济学中常见的方法之一，在处理定量变量与定性变量时能够有效的将其转换为数值变量。

2.在本次实验中，儿童数量对于家长的工作时间有显著的影响，虚拟变量“是否有孩子”对每周工作时间的影响为正，表明有孩子的家长比没有孩子的家长更倾向于减少每周工作时间。

计量经济学——虚拟解释变量模型

5
当然，把哪种情况取0，哪种情况取1要视研究情况而定。0和1只是一个符号而已，不代表他们有高低的意义。我们可以把男性设为1，也可以设为0，得到的结果是一致的。这样就可以把量化的质量变量引入经济计量模型中，以便进一步进行数学处理。
6
需要指出的是，虚拟变量主要是用来代表质的因素，但是有些情况下也可以用来代表数量因素。例如在建立储蓄函数时，“收入”显然是一个重要解释变量，虽然是“数量”因素，但是为了方便也可以用虚拟变量表示。
影响被解释变量，它有个m特征，我们就要引入m-1个虚拟变量；
20
如果回归方程没有截距项，那么这个质的因素有多少个特征就要设多少个虚拟变量，这就是虚拟变量的使用原则。如果虚拟变量设定不当，会使最小二乘法无解，称这种情况为虚拟变量陷阱。
21
下面就用线性代数中的知识来说明这一点。同样用例8.1，引入两个虚拟变量对有截距项和没有截距项的情况分别讨论。
计量经济学——虚拟解释变量模型
在经济计量模型中除了有量的因素外还有质的因素，质的因素包括被解释变量为质的因素和解释变量为质的因素。如果被解释变量为质的因素，主要是逻辑回归要涉及的内容。本章就解释变量为质的因素也就是存在虚拟解释变量时如何进行参数估计等一系列问题进行讨论。
1
第一节引
言
43
而在1979年以后, 物资逐渐丰富, 商品的买卖也取消了票证的限制, 消费者储蓄的主要目的之一是购买高档耐用消费品，储蓄不再具有“被迫”的性质。
；
4. 若 β1=0，β3≠0,则为斜率变动模型，
这种情况在现实中出现得不是很多。
37
ቤተ መጻሕፍቲ ባይዱ
下面，以我国的农村和城市的消费样本为例，实际体会虚拟变量模型从建模到检验再到估计参数最后下结论的全过程。

第七章虚拟变量虚拟变量回归模型ppt汇总计量经济学

第七章虚拟变量
• 在回归分析中，被解释变量的影响因素除了量（或定量）的因素还有质（或定性）的因素，这些质的因素可能会使回归模型中的参数发生变化，为了估计质的因素产生的影响，在模型中就需要引入一种特殊的变量—虚拟变量。
2020/6/16
（二）作用
• 1、可以描述和测量定性（或属性）因素的影响；
2、多个因素各两种属性
• 如果有m个定性因素，且每个因素各有两个不同的属性类型，则引入m个虚拟变量。
• 例2
• 研究居民住房消费函数时，考虑到城乡差异和不同收入层次的影响将消费函数设定为：
Yt=b0+b1Xt+a1D1t+ a2D2t+ μt
Yt=居民住房消费支出
Xt=居民可支配收入
1城镇居民
2020/6/16
虚拟变量对截距的影响
y
有适龄子女
b0&#
o
图1 虚拟变量对截距的影响
x
2020/6/16
2、乘法方式引入虚拟变量
• 基本思想：以乘法方式引入虚拟解释变量
，是在所设定的计量经济模型中，将虚拟解释变量与其他解释变量相乘作为新的解释变量，以达到其调整模型斜率的
目的。 • 该方式引入虚拟变量主要作用：
D=
0 无适龄子女
将家庭教育费用支出函数写成：Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。
2020/6/16
子女年龄结构不同的家庭教育费用支出函数为：
• 无适龄子女家庭的教育费用支出函数（D=0 ）：Yt=b0+b1Xt+μt
• 有适龄子女家庭的教育费用支出函数（D=1 ）：Yt=（b0+a）+b1Xt+μt

计量经济学虚拟变量实验报告

第七章虚拟变量实验报告一、研究目的改革开放以来，我国经济保持了长期较快发展，与此同时，我国对外贸易规模也日益增长。

尤其是2002年中国加入世界贸易组织之后，我国对外贸易迅速扩张。

2012年，我国进出口总值38667.6亿美元，与上年同期相比增长6.2%。

至此，我国贸易总额首次超过美国，成为世界贸易规模最大的国家。

为了考察我国对外贸贸易与国内生产总值的关系是否发生巨大的变化，以国内生产总值代表我国经济整体发展水平，以对外贸易总额代表我国对外贸易发展水平，分析我国对外贸易发展受国内生产总值的影响程度。

二、模型设定为研究我国对外贸易发展规模受我国经济发展程度影响，引入国内生产总值为自变量。

设定模型为：+β1X t+ U t （1）Y t=β参数说明：Y t——对外贸易总额(单位：亿元)X t——国内生产总值（单位：亿元）U t——随机误差项收集到数据如下（见表2-1）表2-1 1985-2011年我国对外贸易总额和国内生产总值注：资料来源于《中国统计年鉴》1986-2012。

为了研究1985-2011年期间我国对外贸易总额随国内生产总值的变化规律是否有显著不同，考证对外贸易与国内生产总值随时间变化情况，如下图所示。

图2.1 对外贸易总额（Y）与国内生产总值(X)随时间变化趋势图从图2.1中，可以看出对外贸易总额明显表现出了阶段特征：在2002年、2007年和2009年有明显的转折点。

为了分析对外贸易总额在2002年前后、2007年前后及2009年前后几个阶段的数量关系，引入虚拟变量D1、D2、D3。

这三个年度对应的GDP分别为120332.69亿元、265810.31亿元和340902.81亿元。

据此，设定以下以加法和乘法两种方式同时引入虚拟变量的模型：Y t=β0+β1Xt+β2（Xt-120332.69）D1+β3（Xt-265810.31）D2+β4（Xt-340902.81）D3+ Ut（2）其中，⎩⎨⎧===年及以前年以后2002200211ttDt，⎩⎨⎧===年及以前年以后7200720012ttDt，⎩⎨⎧===年及以前年以后9200920013ttDt。

第七章虚拟变量

y= α +β1 x + β2 D1 + β3D2 ＋ β4D3 ＋μ
14
1 第一季度 D1 ＝{
0 其他
1 第二季度 D2 ＝{
0 其他 1 第三季度
D3＝{ 0 其他
15
年、季度
1990年1－3月 4－6月 7－9月 10－12月
1991年1－3月 4－6月 7－9月 10－12月
1992年 1－3月 4－6月 7－9月 10－12月
0
7－9月
0
10－12月
0
1992年 1－3月
1
4－6月
0
7－9月
0
10－12月 0
1993年1－3月
1
4－6月
0
7－9月
0
10－12月 0
1994年1－3月
1
D2
D3
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
18
估计结果如下：
Y= 9.0681+0.068301X-2.05875D1-1.8009D2-0.76594D3 所有t值都在1％的水平显著
103
208
1990
105
206
1991
96
203
1992
105
209
1993
78
213
1994
120
220

经济计量学第七章课件虚拟变量.

2 的显著性检验可以回答被解释变量的基础水平在两小组
之间有无显著性差异。
§7.1
斜率式:
含有虚拟解释变量的线性回归模型
y 0 1 x 2 ( Dx ) u
y i 0 1 xi u i
yi 0 (1 2 ) xi ui
i N2
思考题：本例中两个虚拟变量属于哪种类型？
§7.2
含有虚拟被解释变量的线性回归模型
城镇居民家庭私有住房情况的调查研究
1 Yi 0
家庭 i 拥有私人住房家庭 i 不拥有私人住房
1 Gi 0
省会城市或直辖市其它城市
X 1=家庭年人均收入
X 2=家庭户主年龄
G=家庭所在地
Y 0 1 X 1 2 X 2 3G U
势明显不协调的数据。
异常数据的直观表现是“离群点”。异常数据形成原因——造成异常数据的原因常常是一些偶然因素的作用，如战争、自然灾害等突发因素常常会导致有关经济数据异常。
§7.1
含有虚拟解释变量的线性回归模型
异常数据的影响——干扰我们对主要规律的认识。
如何对待异常数据——既要看到它偶然、变异的
（-5.308）（6.977）
R2 0.764
1 G 0
SE 126.438
D W 0.866
定义虚拟解释变量回归:
1994年其余年份
ˆHFZC 1156.245 0.0397 LSZCL 405.979G NMRJS
（-6.550）（8.758）（4.500）
（1.230）（18.199）（-0.655）（2.182）
R 2 0.9854

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验七虚拟变量
【实验目的】
掌握虚拟变量的设置方法。

【实验内容】
一、试根据表7-1的1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立我国城镇居民彩电需求函数；
资料来源：据《中国统计年鉴1999》整理计算得到
二、试建立我国税收预测模型（数据见实验一）；
三、试根据表7-2的资料用混合样本数据建立我国城镇居民消费函数。

最低收入户 2397.6 2476.75 0 2523.1 2617.8 1 低收入户 2979.27 3303.17 0 3137.34 3492.27 1 中等偏下户 3503.24 4107.26 0 3694.46 4363.78 1 中等收入户 4179.64 5118.99 0 4432.48 5512.12 1 中等偏上户 4980.88 6370.59 0 5347.09 6904.96 1 高收入户 6003.21 7877.69 0 6443.33 8631.94 1 最高收入户
7593.95
10962.16
8262.42
12083.79
1
资料来源：据《中国统计年鉴》1999－2000整理计算得到
【实验步骤】
一、我国城镇居民彩电需求函数 ⒈相关图分析；
键入命令：SCAT X Y ，则人均收入与彩电拥有量的相关图如7-1所示。

从相关图可以看出，前3个样本点（即低收入家庭）与后5个样本点（中、高收入）的拥有量存在较大差异，因此，为了反映“收入层次”这一定性因素的影响，设置虚拟变量如下：
⎩⎨
⎧=低收入家庭
中、高收入家庭
1D
图7-1 我国城镇居民人均收入与彩电拥有量相关图
⒉构造虚拟变量；
方式1：使用DATA 命令直接输入；
方式2：使用SMPL 和GENR 命令直接定义。

DATA D1 GENR XD=X*D1 ⒊估计虚拟变量模型： LS Y C X D1 XD
再由t 检验值判断虚拟变量的引入方式，并写出各类家庭的需求函数。

按照以上步骤，虚拟变量模型的估计结果如图7-2所示。

图7-2 我国城镇居民彩电需求的估计
我国城镇居民彩电需求函数的估计结果为：
i i i i XD D x y
0088.08731.310119.061.57ˆ-++= =t (16.249)(9.028) (8.320) (-6.593)
2R ＝0.9964 2R ＝0.9937 F ＝366.374 S.E ＝1.066
虚拟变量的回归系数的t 检验都是显著的，且模型的拟合优度很高，说明我国城镇居民低收入家庭与中高收入家庭对彩电的消费需求，在截距和斜率上都存在着明显差异，所以以加法和乘法方式引入虚拟变量是合理的。

低收入家庭与中高收入家庭各自的需求函数为：
低收入家庭：
i i x y
0119.061.57ˆ+= 中高收入家庭：
()()i i x y
0088.00119.08731.3161.57 ˆ-++=i x 003.048.89+= 由此可见我国城镇居民家庭现阶段彩电消费需求的特点：对于人均年收入在3300元以下的低收入家庭，需求量随着收入水平的提高而快速上升，人均年收入每增加1000元，百户拥有量将平均增加12台；对于人均年收入在4100元以上的中高收入家庭，虽然需求量随着收入水平的提高也在增加，但增速趋缓，人均年收入每增加1000元，百户拥有量只增加3台。

事实上，现阶段我国城镇
居民中国收入家庭的彩电普及率已达到百分之百，所以对彩电的消费需求处于更新换代阶段。

二、我国税收预测模型
要求：设置虚拟变量反映1996年税收政策的影响。

方法：取虚拟变量D1＝1（1996年以后），D1＝0（1996年以前）。

键入命令：GENR XD=X*D1
LS Y C X D1 XD
则模型估计的相关信息如图7-3所示。

图7-3 引入虚拟变量后的我国税收预测模型
我国税收预测函数的估计结果为：
i i i i XD D x y
12139.0198.819508286.0268.1234ˆ+-+= =t (24.748) (47.949) (-10.329) (11.208)
2R ＝0.9990 2R ＝0.9987 F ＝3332.429 S.E ＝87.317 可见，虚拟变量的回归系数的t 检验都是显著的，且模型的拟合优度很高，说明1996年的税收政策对税收收入在截距和斜率上都产生了明显影响。

1996年前的税收函数为：
i i x y
08286.0268.1234ˆ+= 1996年后的税收函数为：
i i x y
20425.093.6960ˆ+-= 由此可见，在实施1996年的税收政策前，国内生产总值每增加10000元，税收收入增加828.6元；而1996年后，国内生产总值每增加10000元，税收收入则增加2042.5元，因此，1996年的税收政策大大提高了税收收入水平。

三、我国城镇居民消费函数要求：
⒈利用虚拟变量分析两年的消费函数是否有显著差异；
⒉利用混合样本建立我国城镇居民消费函数。

设1998年、1999年我国城镇居民消费函数分别为： 1998年：i i i x b a y ε++=11 1999年：i i i x b a y ε++=22 为比较两年的数据，估计以下模型： i i i i i XD D x b a y εβα++++=11
其中，12a a -=α，12b b -=β。

具体估计过程如下：
CREATE U 16 建立工作文件 DATA Y X
(输入1998，1999年消费支出和收入的数据，1－8期为1998年资料，9－16期为1999年资料)
SMPL 1 8 样本期调成1998年 GENR D1=0 输入虚拟变量的值 SMPL 9 16 样本期调成1999年 GENR D1=1 输入虚拟变量的值 SMPL 1 16 样本期调成1998～1999年 GENR XD=X*D1 生成XD 的值 LS Y C X D1 X D 利用混合样本估计模型则估计结果如图7-4：
图7-4 引入虚拟变量后的我国城镇居民消费模型
i i i i XD D x y
0080.01917.616237.070588.924ˆ-++= =t (10.776) (43.591) (0.510) (-0.417)
2R ＝0.9972 2R ＝0.9965 F ＝1411.331 S.E ＝113.459 根据t 检验，D 和XD 的回归系数均不显著，即可以认为12a a -=α＝0，
12b b -=β＝0；这表明1998年、1999年我国城镇居民消费函数并没有显著差异。

因此，可以将两年的样本数据合并成一个样本，估计城镇居民的消费函数。

独立样本回归与混合样本回归结果如图7-5～图7-7所示。

图7-5 1998年样本回归的我国城镇居民消费模型
图7-6 1999年样本回归的我国城镇居民消费模型
图7-7 混合样本回归的我国城镇居民消费模型
将不同样本估计的消费函数结果列在表7－3中，可以看出，使用混合回归明显地降低了系数的估计误差。

表7-3 利用不同样本估计的消费模型。