伍德里奇《计量经济学导论》(第6版)复习笔记和课后习题详解-第一篇(第7~9章)【圣才出品】

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第7章含有定性信息的多元回归分析:二值(或虚拟)变量

7.1 复习笔记

考点一:带有虚拟自变量的回归★★★★★

1.对定性信息的描述

定性信息是指通常以二值信息(0-1)的形式出现的信息,如性别、是否结婚等。在计量经济学中,二值变量又称为虚拟变量。

2.只有一个虚拟自变量

(1)只有一个虚拟自变量的简单模型

考虑决定小时工资的简单模型:wage=β0+δ0female+β1educ+u。根据多元回归的解释方式,δ0表示控制educ不变时,female变化1单位给wage带来的变化。假定零条件均值假定E(u|female,educ)=0成立,那么:δ0=E(wage|female=1,educ)-E(wage|female=0,educ),其中female=1表示女性,female=0表示男性。可以发现,在任意教育水平下,男性与女性的工资差异是固定的,女性工资比男性工资多δ0。

除了β0之外,模型中只需要引入一个虚拟变量。因为female+male=1,所以引入两个虚拟变量会导致完全多重共线性,即虚拟变量陷阱。

(2)当因变量为log(y)时,对虚拟解释变量系数的解释

当变量中有一个或多个虚拟变量,且因变量以对数的形式存在时,虚拟变量的系数可以理解为百分比的变化。将虚拟变量的系数乘以100,表示的是在保持所有其他因素不变时y

的百分数差异,精确的百分数差异为:100·[exp (β∧1)-1]。其中β∧1是一个虚拟变量的系

数。

3.使用多类别虚拟变量 (1)在方程中包括虚拟变量的一般原则

如果回归模型具有g 组或g 类不同截距,一种方法是在模型中包含g -1个虚拟变量和一个截距。基组的截距是模型的总截距,某一组的虚拟变量系数表示该组与基组在截距上的估计差异。如果在模型中引入g 个虚拟变量和一个截距,将会导致虚拟变量陷阱。 另一种方法是只包括g 个虚拟变量,而没有总截距。这种方法存在两个实际的缺陷:①对于相对基组差别的检验变得更繁琐;②在模型不包含总截距时,回归软件通常都会改变R 2的计算方法。具体而言,就是公式R 2=1-SSR/SST 中的总平方和SST ,被一个没有将y i 减去其均值的总平方和SST 0取代,由此得到的R 02=1-SSR/SST 0称为未中心化的R 2,从而有可能使得拟合优度指标失效。SST 0的计算公式为:

201SST n

i i y ==∑

(2)通过虚拟变量来包含序数信息

假设要估计城市信用等级对市政债券利率(MBR )的影响。城市信用等级是一个序数变量,范围是0~4,称这个变量为CR 。可以对CR 的每个值都定义一个虚拟变量。由于有5个类别,所以可包括4个虚拟变量,将零信用等级定为基组并省略。若CR =1,则CR 1=1,否则CR 1=0;若CR =2,则CR 2=1,否则CR 2=0,以此类推。 因此,可以转化为估计模型:MBR =β0+δ1CR 1+δ2CR 2+δ3CR 3+δ4CR 4+其他因素。以δ1为例,系数的解释为:δ1为信用等级为1级的城市和信用等级为0级的城市之间在

MBR上的差异(保持其他因素不变)。

考点二:涉及虚拟变量的交互作用★★★★

1.虚拟变量之间的交互作用

具有定量意义的变量在回归模型中可以具有交互作用,类似的,虚拟变量也能产生交互作用。虚拟变量的交互作用就是在模型中引入虚拟变量的乘积形式。

2.容许出现不同的斜率

(1)不含交互项的模型

在多元回归模型中存在任意几个组之间的截距不同的情况。在有些情况下,虚拟变量也可与非虚拟的解释变量有交互作用,从而出现不同的斜率。

考虑模型:log(wage)=(β0+δ0female)+(β1+δ1female)educ+u。当female =0时,模型可以写成:log(wage)=β0+β1educ+u;当female=1时,模型变为:log (wage)=β0+δ0+(β1+δ1)educ+u。δ0度量的是男性和女性在截距上的差异,而δ1度量男性和女性在斜率(即受教育回报)上的差异。

(2)含有交互项的模型

考虑模型:log(wage)=β0+δ0female+β1educ+δ1female·educ+u。一个重要的假设是,男性和女性受教育的回报是相同的,这可以表述成H0:δ1=0。这意味着log (wage)对educ的斜率对男性和女性而言无差异。在这个虚拟假设之下,允许在不同教育水平下,男性和女性的工资存在差异,但性别工资差异在各种相同教育水平上必须相同。

若对受教育程度相同的男性和女性的平均工资相同这个假设感兴趣,则δ0和δ1都必须

同时为零。必须使用F检验来检验虚拟假设H0:δ0=0,δ1=0。

3.检验不同组之间回归函数上的差别

在含有k个解释变量和1个截距项的一般模型中,假设有两组g=1和g=2。对g=1和g=2将模型写成:y=βg,0+βg,1x1+βg,2x2+…+βg,k x k+u。

检验这两组的截距和所有斜率都相同,就意味着产生了k+1个约束。可以认为无约束模型除了截距和变量本身外,还有一组虚拟变量和交互项,那么其自由度为n-2(k+1)。无约束模型的残差平方和可通过两个分离的回归得到,这两个不同回归分别对应着两个不同的组,令SSR1(SSR2)表示针对第一组(第二组)估计式所得到的残差平方和,它涉及n1(n2)个观测。而约束模型的残差平方和就是将两组混合在一起并估计同一个方程时所得到的SSR p。

在此基础上,就可以计算F统计量:F={[SSR p-(SSR1+SSR2)]/(SSR1+SSR2)}·{[n -2(k-1)]/(k+1)}。其中,n为总观测次数。在计量经济学中,这也被称为邹至庄统计量。邹至庄检验的一个重要局限是原假设要求各组之间不存在任何差异。但在更多情况下,允许组间的截距不同,然后再来检验斜率的差别会更有意义。

邹至庄检验的步骤包括:

(1)分别对两组数据进行回归估计得到残差平方和SSR1和SSR2,两者之和即为无约束模型的残差平方和。

(2)将两组数据混合进行估计得到残差平方和SSR p,这就是为受约束回归残差平方和。

(3)构造F统计量,并与给定显著水平下F的临界值进行比较。若F值大于临界值,则拒绝原假设,即说明两个回归函数存在差异。

相关文档
最新文档