第四节 虚拟变量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E yi / xi , Di 1 a (b1 b2 ) xi 当然乘法方式也包括前面介绍的几种,既可以 有一个因素多种属性,也可以是多个虚拟变量。 引入的原则相同。
乘法方式
交互效应:虚拟变量之间也可能存在相互的关系 例如:在衣着类支出中,性别,学历的影响 如果在此模型中我们只引入两个虚拟变量,则存在这 样的假设:在两种教育水平间性别虚拟变量不存在级差 效应,且两性别间教育水平虚拟变量也不存在级差效应。 意思为如果女性的衣着类支出多与男性,则无论他是否 是大学生;如果大学生的衣着类支出多于非大学生,则 无论他是否男或女。(模型1) Yi a1 a2 D2i a3D3i bXi i 其实这种假设往往不成立,一个女大学生会比一个男 大学生衣着类支出高。也就是说两个虚拟变量间存在某 种交互作用,表现出某种乘积关系。(模型2)
(二)检验模型结构的稳定性
分为四种情况: 重合回归 平行回归 汇合回归
相异回归
具体参数 例子:东西部教育投资
(三)分段回归
在实际经济问题的研究中,有些经济关系需要用 分段回归加以描述:当解释变量x低于某个已知的 临界水平x*时,y与x之间是某种线性相关关系, 而x>x*时又是另一种相关关系。从而我们得到一 个分段线性回归(piecewise linear regression) 理论实例:书上p131~132(安利) 案例实例:居民储蓄函数 我们发现:使用虚拟变量既能如实描述不同 阶段的经济关系,又未减少模型的样本容量,保 证模型的估计精度。
(二)检验模型结构的稳定性
当我们利用不同的样本数据估计同一形式的计量 经济模型,可能会得到不同的估计结果。如果估 计的参数之间存在着显著差异,则称模型结构是 不稳定的,反之则认为是稳定的。 模型结构的稳定性检验既可以用来检验样本的敏 感性(多重共线性),又可以比较两个(或多个) 回归模型结构是否发生显著变化,即分析模型结 构是否发生变化。
第四节 虚拟变量
引例:男女大学生的消费差异
在校大学生的消费行为越来越受到社会的关注,学生家长 也很关心自己的子女上大学的花费问题。由共青团、全国 学联共同发布的《2004中国大学生消费与生活形态研究报 告》显示,当代大学生在消费结构方面呈现多元化趋势。 大学生除了日常生活费开支以外,还有人际交往、网络通 信、书报、衣着类、化妆品类、电脑类、旅游类、食品类、 学习用品类、各类考证类等多重消费。发现不同性别大学 生的消费结构有所不同,专科生、本科生、研究生的消费 结构也有所差异。调查发现,年级越高,消费水平随之增 长;同年级的男生消费高于女生,虽然女生在化妆品、衣 着等方面的投资明显高于男生,然而时代在改变,对美的 追求已不限于女生,男生对于个人形象也逐渐关注。此外, 男生在人际交往上比女生投入的“人情消费”更多。 这种由于性别引发的消费结构如何度量?如何引入性别因 素?
(二)引入原则
我们在前面的引入方式的介绍中已经接触, 现在总结一下: 1.对于一个多种属性的定性因素 如果一个定性变量有m个类别,则仅引入 m-1个虚拟变量 2.对于m个因素(每种都两个属性) 设置m个虚拟变量
三、虚拟变量的特殊应用
(一)调整季节变动 按季节或按月份数据的许多经济时间序列呈现有 季节模式。例如冷饮的销售、服装的销售、收成 季节的农产品价格等都具有很强的季节特点。我 们常常要从一个时间序列里除掉季节成因或成分, 以便我们进一步集中分析其他的影响因素。从一 个时间序列中剔除季节因素的方法称为季节调整, 得到的序列称为季节调整序列。对一个时间序列 进行季节调整的方法很多,其中一个重要方法就 是设置虚拟变量。 例子介绍:利润;酒销售量问题
虚拟变量中的一些技术问题
带虚拟变量的半对数回归(虚拟变量系数 的解释) 虚拟变量的异方差性 虚拟变量的自相关性
虚拟被解释变量
线性概率模型(LPM) 对数单位模型(LOGIT) 概率单位模型(PROBIT)
谢谢
变量,总共要设置?个虚拟变量。
乘法方式
定性变量不仅会影响截距,也会影响模型的 斜率。为了反映定性因素对斜率的影响,用乘法 方式引入虚拟变量。 例子:家庭教育(有无适龄儿童);居民储蓄 (股市波动)
yi a b1 XDi b2 xi i
E yi / xi , Di 0 a b2 xi
二、虚拟变量的设定
(一)虚拟变量的引入方式 加法方式:虚拟变量D作为回归中的一次项, 与其它解释变量呈相加的关系。这种方式 常用来改变线性回归方程的“截距”项, 区分异常情况 。 乘法方式:虚拟变量D与数量变量相乘,呈 相乘关系,作为一个回归项。这种方式常 用来改变线性回归方程的“斜率”项。 一般方式:包括加法和乘法。
Yi a1 a2 D2i a3D3i a4 D2i D3i bXi i
一般方式
用不同方式引入虚拟变量,通常先根据散 点图或经济分析,大致判断定性因素的影 响类型,再确定是用加法还是用乘法方式 在模型中应用虚拟变量。 但在实际应用中,往往事先很难确定定性 变量的形式,所以用一般形式。后利用t检 验加以确定。 例子p125
引入虚拟变量的作用
1.描述和测量定性因素的影响。检验不同 属性类型的因素对经济系统的影响; 2.提高模型精度。通过引人虚拟变量之后, 我们将不同属性类型的样本合并,这相当 于扩大样本容量; 3.分离异常数据。将异常数据作为特殊的 定性因素来处理。
虚拟变量包括
虚拟解释变量 虚拟被解释变量 这里主要介绍虚拟解释变量
一、虚拟变量及其作用
定义:虚拟变量是一种以离散结构来描述所研究 的变量的发展或变异的特殊变量。 通常取值“0” 或“l” 的人工变量,通常用D表示。一般1表示这 种属性或特征存在,0表示不存在;而且设置虚拟 变量时,基础类型、否定类型通常取为0,比较类 型、肯定类型为1。 例子:性别、国籍、城乡、政策实施、种族、学 历、季节等等 它又称为指标变量、二值变量、范畴变量、定性 变量
加法方式
1.虚拟变量为一个两分定性变量,且模型中 只含有虚拟解释变量,例:男女教师收入
yi Di i
则
E yi / Di 0 E yi / Di 1
根据最小二乘法估计参数为
ˆ=y y 1 0 ˆ y0
加法方式
从几何意义上说,模型只是具有不同的截距, 斜率是相同的
加法方式
3.虚拟解释变量为一个多分定性变量 对这类定性变量,我们秉持着这样一个原 则:如果一个定性变量有m个类别,则仅引 入m-1个虚拟变量。 例子:销售与季节,收入与学历 设置原则的根据:消除多重共线性
加法方式
4.虚拟解释变量为多个定性变量 对于多于一个定性变量的,同样要遵循上述引 入原则。例如,单位职工工资与职工工龄、职工 性别有关,也与职工的受教育水平有关。 这是我们要设置虚拟变量的个数,就应该考虑 上述两方面介绍的方法,即考虑职工性别设置? 个虚拟变量(男性、女性),又考虑职工受教育 水平(大学毕业、高中、初中),设置?个虚拟
Байду номын сангаас
(四)混和回归
建立计量经济模型时,如果可以同时使用 时间序列和横截面数据,可以有效的扩充 样本容量,解决一些建模时产生的问题。 这就要求混和模型中参数不随时间的变化 而改变,并且在各个横截面之间没有差异。 因此,我们在合并样本之前,需要比较使 用不同样本估计的模型之间是否存在显著 差异。 例子:p133
2.虚拟变量为一个两分定性变量,模型中除 了包括虚拟解释变量外,还有其他定量变量。 例:含有工龄的男女教授收入 则
yi a b1Di b2 xi i
E yi / xi , Di 0 a b2 xi
E yi / xi , Di 1 a b1 b2 xi
乘法方式
交互效应:虚拟变量之间也可能存在相互的关系 例如:在衣着类支出中,性别,学历的影响 如果在此模型中我们只引入两个虚拟变量,则存在这 样的假设:在两种教育水平间性别虚拟变量不存在级差 效应,且两性别间教育水平虚拟变量也不存在级差效应。 意思为如果女性的衣着类支出多与男性,则无论他是否 是大学生;如果大学生的衣着类支出多于非大学生,则 无论他是否男或女。(模型1) Yi a1 a2 D2i a3D3i bXi i 其实这种假设往往不成立,一个女大学生会比一个男 大学生衣着类支出高。也就是说两个虚拟变量间存在某 种交互作用,表现出某种乘积关系。(模型2)
(二)检验模型结构的稳定性
分为四种情况: 重合回归 平行回归 汇合回归
相异回归
具体参数 例子:东西部教育投资
(三)分段回归
在实际经济问题的研究中,有些经济关系需要用 分段回归加以描述:当解释变量x低于某个已知的 临界水平x*时,y与x之间是某种线性相关关系, 而x>x*时又是另一种相关关系。从而我们得到一 个分段线性回归(piecewise linear regression) 理论实例:书上p131~132(安利) 案例实例:居民储蓄函数 我们发现:使用虚拟变量既能如实描述不同 阶段的经济关系,又未减少模型的样本容量,保 证模型的估计精度。
(二)检验模型结构的稳定性
当我们利用不同的样本数据估计同一形式的计量 经济模型,可能会得到不同的估计结果。如果估 计的参数之间存在着显著差异,则称模型结构是 不稳定的,反之则认为是稳定的。 模型结构的稳定性检验既可以用来检验样本的敏 感性(多重共线性),又可以比较两个(或多个) 回归模型结构是否发生显著变化,即分析模型结 构是否发生变化。
第四节 虚拟变量
引例:男女大学生的消费差异
在校大学生的消费行为越来越受到社会的关注,学生家长 也很关心自己的子女上大学的花费问题。由共青团、全国 学联共同发布的《2004中国大学生消费与生活形态研究报 告》显示,当代大学生在消费结构方面呈现多元化趋势。 大学生除了日常生活费开支以外,还有人际交往、网络通 信、书报、衣着类、化妆品类、电脑类、旅游类、食品类、 学习用品类、各类考证类等多重消费。发现不同性别大学 生的消费结构有所不同,专科生、本科生、研究生的消费 结构也有所差异。调查发现,年级越高,消费水平随之增 长;同年级的男生消费高于女生,虽然女生在化妆品、衣 着等方面的投资明显高于男生,然而时代在改变,对美的 追求已不限于女生,男生对于个人形象也逐渐关注。此外, 男生在人际交往上比女生投入的“人情消费”更多。 这种由于性别引发的消费结构如何度量?如何引入性别因 素?
(二)引入原则
我们在前面的引入方式的介绍中已经接触, 现在总结一下: 1.对于一个多种属性的定性因素 如果一个定性变量有m个类别,则仅引入 m-1个虚拟变量 2.对于m个因素(每种都两个属性) 设置m个虚拟变量
三、虚拟变量的特殊应用
(一)调整季节变动 按季节或按月份数据的许多经济时间序列呈现有 季节模式。例如冷饮的销售、服装的销售、收成 季节的农产品价格等都具有很强的季节特点。我 们常常要从一个时间序列里除掉季节成因或成分, 以便我们进一步集中分析其他的影响因素。从一 个时间序列中剔除季节因素的方法称为季节调整, 得到的序列称为季节调整序列。对一个时间序列 进行季节调整的方法很多,其中一个重要方法就 是设置虚拟变量。 例子介绍:利润;酒销售量问题
虚拟变量中的一些技术问题
带虚拟变量的半对数回归(虚拟变量系数 的解释) 虚拟变量的异方差性 虚拟变量的自相关性
虚拟被解释变量
线性概率模型(LPM) 对数单位模型(LOGIT) 概率单位模型(PROBIT)
谢谢
变量,总共要设置?个虚拟变量。
乘法方式
定性变量不仅会影响截距,也会影响模型的 斜率。为了反映定性因素对斜率的影响,用乘法 方式引入虚拟变量。 例子:家庭教育(有无适龄儿童);居民储蓄 (股市波动)
yi a b1 XDi b2 xi i
E yi / xi , Di 0 a b2 xi
二、虚拟变量的设定
(一)虚拟变量的引入方式 加法方式:虚拟变量D作为回归中的一次项, 与其它解释变量呈相加的关系。这种方式 常用来改变线性回归方程的“截距”项, 区分异常情况 。 乘法方式:虚拟变量D与数量变量相乘,呈 相乘关系,作为一个回归项。这种方式常 用来改变线性回归方程的“斜率”项。 一般方式:包括加法和乘法。
Yi a1 a2 D2i a3D3i a4 D2i D3i bXi i
一般方式
用不同方式引入虚拟变量,通常先根据散 点图或经济分析,大致判断定性因素的影 响类型,再确定是用加法还是用乘法方式 在模型中应用虚拟变量。 但在实际应用中,往往事先很难确定定性 变量的形式,所以用一般形式。后利用t检 验加以确定。 例子p125
引入虚拟变量的作用
1.描述和测量定性因素的影响。检验不同 属性类型的因素对经济系统的影响; 2.提高模型精度。通过引人虚拟变量之后, 我们将不同属性类型的样本合并,这相当 于扩大样本容量; 3.分离异常数据。将异常数据作为特殊的 定性因素来处理。
虚拟变量包括
虚拟解释变量 虚拟被解释变量 这里主要介绍虚拟解释变量
一、虚拟变量及其作用
定义:虚拟变量是一种以离散结构来描述所研究 的变量的发展或变异的特殊变量。 通常取值“0” 或“l” 的人工变量,通常用D表示。一般1表示这 种属性或特征存在,0表示不存在;而且设置虚拟 变量时,基础类型、否定类型通常取为0,比较类 型、肯定类型为1。 例子:性别、国籍、城乡、政策实施、种族、学 历、季节等等 它又称为指标变量、二值变量、范畴变量、定性 变量
加法方式
1.虚拟变量为一个两分定性变量,且模型中 只含有虚拟解释变量,例:男女教师收入
yi Di i
则
E yi / Di 0 E yi / Di 1
根据最小二乘法估计参数为
ˆ=y y 1 0 ˆ y0
加法方式
从几何意义上说,模型只是具有不同的截距, 斜率是相同的
加法方式
3.虚拟解释变量为一个多分定性变量 对这类定性变量,我们秉持着这样一个原 则:如果一个定性变量有m个类别,则仅引 入m-1个虚拟变量。 例子:销售与季节,收入与学历 设置原则的根据:消除多重共线性
加法方式
4.虚拟解释变量为多个定性变量 对于多于一个定性变量的,同样要遵循上述引 入原则。例如,单位职工工资与职工工龄、职工 性别有关,也与职工的受教育水平有关。 这是我们要设置虚拟变量的个数,就应该考虑 上述两方面介绍的方法,即考虑职工性别设置? 个虚拟变量(男性、女性),又考虑职工受教育 水平(大学毕业、高中、初中),设置?个虚拟
Байду номын сангаас
(四)混和回归
建立计量经济模型时,如果可以同时使用 时间序列和横截面数据,可以有效的扩充 样本容量,解决一些建模时产生的问题。 这就要求混和模型中参数不随时间的变化 而改变,并且在各个横截面之间没有差异。 因此,我们在合并样本之前,需要比较使 用不同样本估计的模型之间是否存在显著 差异。 例子:p133
2.虚拟变量为一个两分定性变量,模型中除 了包括虚拟解释变量外,还有其他定量变量。 例:含有工龄的男女教授收入 则
yi a b1Di b2 xi i
E yi / xi , Di 0 a b2 xi
E yi / xi , Di 1 a b1 b2 xi