C17 受限因变量模型和样本选择纠正

合集下载

第十八章-离散选择模型和受限因变量模型

第十八章-离散选择模型和受限因变量模型

第18章 离散选择模型和受限因变量模型 18.1概述在经典计量经济学模型中,被解释变量通常被假定为连续变量,但在现实的经济决策中经常面临许多选择问题。

在这样的决策问题中,或者选择问题中,人们必须对可供选择的方案作出选择。

通常被解释变量是连续的变量,但此时的因变量只取有限多个离散的值。

例如:人们对交通工具的选择,是选择坐轻轨、地铁还是公共汽车;某大型企业是否合并另一企业;对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度,可以分别用0,1,2,3和4表示。

以这样的选择结果作为被解释变量建立的计量经济学模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables ),或称为离散选择模型(DCM ,discrete choice model )。

如果被解释变量只能有两种选择,称为二元选择模型(binary choice model );如果被解释变量有多种选择,称为多元选择模型(multiple choice model )。

20世纪70和80年代,离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。

在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得样本数据来自总体的一个子集,可能不能完全反映总体。

例如,小时工资、住房价格和名义利率都必须大于零。

这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model )。

这两类模型经常用于调查数据的分析中。

本章将讨论三类模型及其估计方法和软件操作。

一是定性(观测值为离散的或者表示排序);二是截取或者截断问题;三是观测值为整数值的计数模型。

18.2二元因变量模型在这个模型中,被解释变量只取两个值,可以是代表某件事发生与否的虚拟变量,也可以是两个决策中选一个,称为二元因变量模型。

例如:对样本个体是否就业的研究,个体的年龄、教育背景、种族、婚姻状况以及其他可观测的特征,作为解释变量,目的是研究个体这些特征对个体就业概率的研究。

伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第17章 限值因变量模型和样本选择纠正【圣才

伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第17章 限值因变量模型和样本选择纠正【圣才

第17章限值因变量模型和样本选择纠正17.1复习笔记一、二值响应的对数单位和概率单位模型1.线性概率模型的不足(1)拟合出来的概率可能小于0或大于1;(2)任何一个解释变量(以水平值形式出现)的偏效应都是不变的。

二值响应模型的核心是响应概率:()()12P 1x P 1 k y y x x x ===⋅⋅⋅,,,其中,用x 表示全部解释变量所构成的集合。

2.设定对数单位和概率单位模型(1)二值响应模型在LPM 中,响应概率对一系列参数j β是线性的,为避免LPM 的局限性,考虑二值响应模型:()()()01101x k k P y G x x G x βββββ==++⋅⋅⋅+=+其中,G 是一个取值范围严格介于0和1之间的函数:对所有实数z,都有0﹤G(z)﹤1。

这就确保估计出来的响应概率严格地介于0和1之间。

(2)函数G 的各种非线性形式①对数单位模型中,G 是对数函数:()()()()exp /1exp G z z z z =+=Λ⎡⎤⎣⎦对所有的实数z,它都介于0和1之间。

它是一个标准逻辑斯蒂随机变量的累积分布函数。

②概率单位模型中,G 是标准正态的累积分布函数,可表示为积分()()()d z G z z v vφ-∞=Φ≡⎰其中,()z φ是标准正态密度函数()()()1/222exp /2z z φπ-=-也确保了对所有参数和x j 的值都严格介于0和1之间。

③两个模型中G 函数都是增函数,在z=0时增加的最快,在z →-∞时,()0G z →,而在z →∞时,()1G z →。

(3)两种函数形式的推导对数单位和概率单位模型都可以由一个满足经典线性模型假定的潜变量模型推导出来。

令y *为一个由0y x e ββ*=++,y=1[y *﹥0]决定的无法观测变量或潜变量。

在其中引入记号1[·]来定义一个二值结果。

函数1[·]被称为指标函数,它在括号中的事件正确时取值1,而在其他情况下取值0。

C17受限因变量模型和样本选择纠正

C17受限因变量模型和样本选择纠正

第17章 受限因变量模型和样本选择纠正摘要: C7中的线性概率模型是受限因变量(limited dependent variable (LDV))模型的一例子,其容易解释,但有其缺陷,本章介绍的logit 模型和probit 模型更为常用,但解释相对困难。

实际应用中,离散和连续是相对的,也就是说,实际离散的经济变量可能也适用于因变量离散的模型建模。

本节介绍的模型包括Tobit 模型,用于应对角点解响应(corner solution response);泊松回归模型(计数模型),用于建模LDV 只能取非负整数的情况;截断数据模型和对样本选择的纠正。

受限因变量模型更容易在横截面数据中被使用。

样本选择的纠正通常都源于横截面或面板数据。

17.1 二值响应的logit 模型和probit 模型线性概率模型的缺陷?二值响应模型(binary response model )关注的核心问题是响应概率(response probability):.P (y =1│x )=P(y =1|x 1,x 2,…,x n ) logit 模型和probit 模型的设定为此,需要先建一个连接函数:,P (y =1│x )=G (β0+β1x 1+β2x 2+…+βk x k )=G(β0+xβ)其中G(.)是一个取值于(0,1)的函数。

常见的连接函数有:,G (z )=exp (z )[1+exp (z )]=Λ(z)该函数是标准logistic随机变量的累积分布函数:常见的连接函数还有标准正态的累积分布函数,G 可以被表示为:G (z )=Φ(z )≡x ∫‒∞ϕ(v)dv ,.ϕ(v )=(2π)‒1/2exp⁡(‒z 22)使用上述两个连接函数,我们分别建立了logit 模型和probit 模型。

关于logit 模型和probit 模型的推导:y ∗=β0+xβ+e ,并定义,为示性函数。

y =I(y ∗>0) I要求满足CLM 假设或高斯-马尔科夫假设。

第十三章 离散选择模型和受限因变量模型

第十三章 离散选择模型和受限因变量模型

y i − F (x ′ ∂l (β ) N iβ) ) = ∑ f (x ′ i β xi =0 1 − F ( x′ ∂β i =1 F (x ′ i β )( i β ))
(13.2.4)
ˆ 。在概率单 我们可以从等式(13.2.4 )中解出参 数β 的最大似然估计量 β pb ˆ 位模型中, F (x ′ i β ) 是正态密度的累计分布函数,要解出最大似然估计量 β pb ,需 要运用数值运算方法。 在线性概率模型的情形下,等式(13.2.4)变成: ∂l (β ) N y i − xi′β = ∑ x =0 ′ i ∂β i =1 x ′ i β (1 − x i β ) (13.2.5)
(13.1.5)
y i = 1 , 如果 y ∗ i >0;
y i = 0 , 如果 y ∗ i ≤0 。 从(13.1.5)中,我们有: Pr {y i = 1 | x i } = Pr{ε i > − x i′β | xi } = 1.3 Logit 模型 如果我们选择 F (•) 为标准 logistic 分布函数时,这时 ′ F (x′ i β ) = G (x i β ) = e x′i β 1 + e x′i β (13.1.7)
N y i − F (x ′ iβ) =∑ f (x i′β ) xi 1 − F ( x′ i =1 F (x ′ i β )( i β ))
(13.2.3)
′ ′ 这里, f (x ′ i β ) = F ( xi β ) 是分布密度函数。让(13.2.3)式等于0,我们得到一阶 条件:
∗ 于 y∗ i >0;当当我们观测到 y i = 0 ,实际上就等价于 yi ≤ 0 。

受限因变量模型共66页

受限因变量模型共66页
响,法律无声。——英国 2、任何法律的根本;不,不成文法本 身就是 讲道理 ……法 律,也 ----即 明示道 理。— —爱·科 克
3、法律是最保险的头盔。——爱·科 克 4、一个国家如果纲纪不正,其国风一 定颓败 。—— 塞内加 5、法律不能使人人平等,但是在法律 面前人 人是平 等的。 ——波 洛克
谢谢
11、越是没有本领的就越加自命不凡。——邓拓 12、越是无能的人,越喜欢挑剔别人的错儿。——爱尔兰 13、知人者智,自知者明。胜人者有力,自胜者强。——老子 14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。——歌德 15、最具挑战性的挑战莫过于提升自我。——迈克尔·F·斯特利

C17 受限因变量模型和样本选择纠正范文

C17 受限因变量模型和样本选择纠正范文

第17章受限因变量模型和样本选择纠正摘要: C7中的线性概率模型是受限因变量(limited dependent variable (LDV))模型的一例子,其容易解释,但有其缺陷,本章介绍的logit模型和probit模型更为常用,但解释相对困难。

实际应用中,离散和连续是相对的,也就是说,实际离散的经济变量可能也适用于因变量离散的模型建模。

本节介绍的模型包括Tobit模型,用于应对角点解响应(corner solution response);泊松回归模型(计数模型),用于建模LDV只能取非负整数的情况;截断数据模型和对样本选择的纠正。

受限因变量模型更容易在横截面数据中被使用。

样本选择的纠正通常都源于横截面或面板数据。

17.1 二值响应的logit模型和probit模型线性概率模型的缺陷?二值响应模型(binary response model)关注的核心问题是响应概率(response probability):.logit模型和probit模型的设定为此,需要先建一个连接函数:,其中G(.)是一个取值于(0,1)的函数。

常见的连接函数有:,该函数是标准logistic随机变量的累积分布函数:常见的连接函数还有标准正态的累积分布函数,G可以被表示为:.使用上述两个连接函数,我们分别建立了logit模型和probit模型。

关于logit模型和probit模型的推导:并定义,为示性函数。

要求满足CLM假设或高斯-马尔科夫假设。

显然当服从均值为0的正态分布,或者logistic分布,其都关于0点对称,则有:,也即:.从该推导中我们知道,但由于的不可观测性本身的含义并不直观,也并不很有用,虽然和中x的影响方向具有一致性(这一点由下面推导保证)。

我们关心解释变量对y的偏效应,由于(.)的非线性,对连续变量的情形就得依赖于偏导技术:,其中为概率密度函数,由于,所以偏效应的方向取决于 。

一个有趣的结论是:任意两个自变量的偏效应之比等于其系数之比。

《数量经济学讲义》第十七章 离散和受限因变量模型

《数量经济学讲义》第十七章 离散和受限因变量模型

if yi* 0 if yi定义为0值。我们称这些数据在0处进行了左归并
(left censored)。更一般地,Eviews允许在任意有限点上的左边和右边截取
(归并),所以
yi cyii* ci
if yi* ci if ci yi* ci if ci yi*
Pr ( yi 0 xi , ) F(xi )
给出了这样的设定以后,我们就能用极大似然估计方法估计模型的参数。 极大似然函数为
n
( ) log L( ) ( yi log(1 F (xi )) (1 yi ) log F (xi )) i0
极大似然函数的一阶条件是非线性的,所以得到参数估计需要一种迭代
的解决方法。缺省地,EViews使用二阶导数用于参数估计的协方差矩阵的迭
代和计算。
有两种对这种设定的重要的可选择的解释。首先,二元变量经常作为一种
潜在的变量规定被生成。假定有一个未被观察到的潜在变量
y
* i
,它与x是线性
相关的:
yi* xi ui
这里
u
是随机扰动。然后被观察的因变量由
i
yi*是否超过临界值来决定
if yi* 1
if 1 yi* 2
M if M yi*
i 是临界值。M是分类的个数。为了估计这个模型,从Equation Specification对
话框,选择估计方法Ordered。
§17.3 检查回归模型
受限因变量(Limied dependent variable)指因变量的观测值是连续的,但 是受到某种限制,得到的观测值并不反映因变量的实际状态。例如在一些环境 中,只能部分地观察到因变量。在调查数据中,在特定水平之上的收入数据经 常被编成密码以保护其机密性。这类问题经常出现在“检查”、“调查”活动 中,因此也称为“检查”(Censored Regression Models)。

受限因变量模型

受限因变量模型

用计量经济模型反映选择行为
行为主体从事的每项活动都可以看作是一种选择; 行为主体有其偏好; 人们的行为有其规则; 在经济分析中,通常认为选择基于效用最大化标准。 研究中需要考虑:
行为理论基础 计量经济学模型方法
模型设定 统计理论和数据 估计方法
应用分析
行为假定
就可以选择的活动而言,行为主体的偏好具有传递 性和完备性。 每项选择都有其相应的效用水平Uijt 每个行为主体都试图获得最大效用,当Ui1t > Ui2t 时, 行为主体会选择第一项活动。 然而我们无法观测效用本身,我们只有通过观察行 为主体做出的选来揭示其偏好
LR = -2(Lr– Lur )~ c2q 如果未受约束似然值与受约束似然值相等,说明模型效果差,未通过 检验;相反,如果未约束似然值远大于约束似然值,说明所设自变 量通过检验,模型总体效果较好。它对应于线性模型中的F值。
拟合优度
对于线性概率模型,可以直接用得到R2来判断拟合优度; Probit 模型和Logit模型没有R2,因而需要利用其他方法来反 映拟合优度。 一种方法是利用对数似然值计算伪R2(pseudo R2)或 McFadden R2,该值也被称作似然值比值指数,定义为1 – Lur/Lr
必要时给出选项 得到估计结果
用EVIEWS估计有限因变量模型
得到结果后可以在VIEW子菜单下调用:
Coefficient tests各种对系数的统计检验 Residual tests对残差的统计检验 Expectation-Prediction Table 可以得到正确和错 误推断的比例 Goodness-of-Fit Tests检验拟合优劣
得到的参数不会相同 但分析结论不会有大的差别 因而通常基于模型的统计表现和经验来决定取舍
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第17章受限因变量模型和样本选择纠正摘要: C7中的线性概率模型是受限因变量(limited dependent variable (LDV))模型的一例子,其容易解释,但有其缺陷,本章介绍的logit模型和probit模型更为常用,但解释相对困难。

实际应用中,离散和连续是相对的,也就是说,实际离散的经济变量可能也适用于因变量离散的模型建模。

本节介绍的模型包括Tobit模型,用于应对角点解响应(corner solution response);泊松回归模型(计数模型),用于建模LDV只能取非负整数的情况;截断数据模型和对样本选择的纠正。

受限因变量模型更容易在横截面数据中被使用。

样本选择的纠正通常都源于横截面或面板数据。

17.1 二值响应的logit模型和probit模型线性概率模型的缺陷?二值响应模型(binary response model)关注的核心问题是响应概率(response probability):.logit模型和probit模型的设定为此,需要先建一个连接函数:,其中G(.)是一个取值于(0,1)的函数。

常见的连接函数有:,该函数是标准logistic随机变量的累积分布函数:常见的连接函数还有标准正态的累积分布函数,G可以被表示为:.使用上述两个连接函数,我们分别建立了logit模型和probit模型。

关于logit模型和probit模型的推导:并定义,为示性函数。

要求满足CLM假设或高斯-马尔科夫假设。

显然当服从均值为0的正态分布,或者logistic分布,其都关于0点对称,则有:,也即:.从该推导中我们知道,但由于的不可观测性本身的含义并不直观,也并不很有用,虽然和中x的影响方向具有一致性(这一点由下面推导保证)。

我们关心解释变量对y的偏效应,由于(.)的非线性,对连续变量的情形就得依赖于偏导技术:,其中为概率密度函数,由于,所以偏效应的方向取决于 。

一个有趣的结论是:任意两个自变量的偏效应之比等于其系数之比。

此外,偏效应方程告诉我们偏效应依赖于密度函数的位置和 的大小,从而logit模型和probit模型的最大偏效应位置出现在和=0.25.而对于二值变量情形,则其偏效应相对来说容易确定,例如,是一个二值变量,则其偏效应为:。

其它离散变量情况类似。

考虑如下问题的偏效应:.对于上述问题,有时还要考虑响应概率相对于一个解释变量的弹性:对的弹性为: ;对的弹性为: ;对含解释变量交互项的模型可能会更难处理,可依赖于偏导数讨论。

logit和probit模型的极大似然估计极大似然法(maximum likelihood estimation , MLE)是基于条件分布的估计量,故一般其是有效估计和考虑了异方差性。

其可用于对受限因变量模型的估计。

假定有一个样本量为n的样本,为了得到极大似然估计量,需要给出在给定下的分布函数:,对上述方程取自然对数:),对上述方程求和,得到对数似然函数:,则最大化上述函数可求得的MLE估计量,记为,对数似然函数值一般是负值。

极大似然估计量一般是一致的、渐近正态的和渐近有效的(Wooldrige,2002,C13)。

其标准误和检验统计量一般统计软件都会提供。

●多重约束性检验有三种常用的排除性约束检验统计量:Lagrange multiplier or score test(Wooldrige,2002,C15);Wald test(Wooldrige,2002,C13)和likelihood ratio (LR) test。

下面介绍似然比检验的思想:如果部分变量的确对y有联合显著性,那么去掉它们,对数似然函数取值应该有比较大的降低,从而可以构造似然比统计量:LR=2(),表示无约束模型的对数似然值,而表示有约束模型的对数似然值,那么在原假设(检验q个排除性约束)成立的情况下,有LR.●解释Logit 和Probit模型的估计值拟合优度指标之一:正确预测百分数(percent correctly predicted),若,则定义,若,则定义,该变量是对的预测值,当表示预测对了,否则表示做了不正确的预测,所以只需要计算成立的对数。

分类给出正确预测百分比数是更好的选择。

关于临界值0.5的争议: 假如,那么可能发生的可能性很小,所以一种替代方法是将临界值定为,但可能在对进行0预测时会犯更大错误。

更有效地方法是使用搜索的方法确定临界值,以使正确预测百分比达到最大。

拟合优度指标之二:伪(pseudo R-squared)为McFadden(1974)建议的指标1-,表示只有截距项的模型的对数似然值。

请解释?拟合优度指标之三:=G()为拟合概率,其也是对的估计值,考察和的相似度!拟合优度本身对经济问题研究是相对次要的,下面讨论相对重要的偏效应(在其它条件不变的情形下的显著关系探讨)。

连续情形下,,此时通常的做法是在均值、中位数等重要的分位点进行讨论。

还有一种做法是提供各个变量的均值来生成对的调整因子:,此时被称为平均值处的偏效应(partial effect at the average(PEA)),但这种做法有两个缺陷,一、对离散变量而言,其平均值代表什么含义?二、如果模型中的变量涉及到了函数变换,那么究竟是函数变换前取平均(统计软件默认)还是变换后求平均?一种替代法是使用平均偏效应(average partial effect (APE)):.离散变量情形下,自变量的离散偏效应为:,特别是对于二值变量有同样可以定义离散情形下的平均偏效应。

三种模型的比例因子的关系,LPM的g(0)=1;而logit的g(0)约为0.4, Probit约为0.25.Probit模型等同样面临内生性问题,问题的解决可以考虑类似于2SLS的思路(Wooldrige,2002,C15)。

在Probit模型的情形下,有两个问题:一、 e的非正态性,二、e的异方差性(假如 Var(e|x) 依赖于 x, 则响应概率不再具有形式 G(0 + x),而依赖于方差的形式。

17.2 用于角点解响应的Tobit模型另一类重要的受限因变量以在0值处取一个不可忽略的概率,而在正值时大致连续为特征。

我们可以用线性模型来拟合该因变量,但要注意:1)拟合值可能取负值;2)以水平值出现的解释变量对的偏效应是常数;3)可能是异方差的;4)y的条件分布不再是正态,因此只能实施渐近的统计推断。

为此,建立Tobit模型:并定义.从而,=1-,而当y>0时,其基于的条件密度函数为:, 为标准正态密度函数。

估计问题仍然可以使用极大似然估计:需要给出在给定下的分布函数:,对上述方程求和,得到对数似然函数:,则最大化上述函数可求得和的MLE估计量。

同样可以建立三种常用的排除性约束检验统计量:Lagrange multiplier or score test(Wooldrige,2002,C15);Wald test(Wooldrige,2002,C13)和likelihood ratio (LR) test。

对Tobit估计值的解释如果我们仅仅要解释,那么直接使用就够了,但是我们想解释。

此时需注意有两个条件期望:和:=λ,其中λ;最后一个等式成立是因为=.最后可得,.(1)从该方程可以看出,1)仅用的样本,不能一致的估计出;2)可以证明(1)式的右边为正数,也即(1)保证y拟合值非负的代价是,以一个复杂的非线性式子替换线性模型的线性关系;3)偏效应的估计还是要依赖于求偏导的方法:λλλ.可见,的偏效应并非只取决于 ,还取决于一个调整因子,该因子是的函数,可以证明该调整因子严格介于0和1之间。

进一步可得:,可见对的偏效应的方向和 的正负号相同,也同于对的偏效应方向。

有了偏效应函数,那么弹性公式也可以写出。

如果为离散变量,则其偏效应可仿造logit或Probit模型的做法。

关于偏效应的实际解释,也可以借鉴Logit或Probit模型的做法。

例如,先求出平均值处的,然后用这个调整因子乘以连续变量的估计值。

同Logit和Probit模型,在平均值处的偏效应(PAE)可能不如平均偏效应(APE)可取。

由于,所以调整因子总在0和1之间,并且在0的取值越少, Tobit模型和OLS参数估计值越接近。

x离散时的偏效应度量,也可借鉴Logit和Probit模型的类似讨论。

Tobit模型中的设定问题Tobit模型极大的依赖于满足条件正态分布,否则,我们不知道我们在估计什么。

正因有该假设,则的偏效应依赖于调整因子,而且对的影响和对影响有密切的联系。

而在线性模型时,我们却往往可以放心的进行统计推断。

检验Tobit 是否恰当(评价Tobit)一种方法是估计一个Probit模型,那么该模型的系数,从而若Tobit模型合适,的估计值应该和的估计值较为渐近。

如果Tobit模型不合适,那么可以选择对和具有不同影响的模型(例如,Hurdle model 或者Two-part model, Wooldrige,2002,C16)。

17.3 泊松回归模型非负因变量的另一个常见例子是计数变量(count variable),即其可以取非负整数(0,1,2,…)。

该模型的一种解决思路是,使用指数函数:,来保证对的预测取正数。

解释上也很简单,两边取对数后有:,从而系数有一个对数-水平值的解释,或者有一个更为精确的比例变化解释:=exp()-1.由于指数函数的非线性特征,我们又要依赖于极大似然估计方法和拟极大似然估计方法(quasi-maximum likelihood estimation)。

假定y的条件分布为正态已不再合适,合适的假定是假定其服从泊松分布(Poisson distribution),从而的条件概率为:,h=0,1,2,….在估计出参数值后,该分布列能给出任意取值的概率。

对一个样本量为n的样本,有如下的对数似然函数:( ), 最大化上式可以得到的MLE估计值。

在连续变量时,可以将OLS估计值和泊松回归模型的估计值做比较。

事实上由于,从而从APE的比例因子实际上就是y的样本均值。

从而直接比较和即可。

泊松分布的高阶矩都由其一阶矩决定,这往往和实际不符合。

此时需要对某些统计量例如标准误进行调整。

办法是假定,其中时满足泊松分布的假设,一般情形是,此时被称为过度散布(overdispersion),与散布不足(underdispersion)对应。

估计思路是先估计.泊松模型的优点在于不管泊松分布假设是否成立,仍能得到的一致和渐近正态估计量(Wooldrige,2002,C19),此时的估计量称为拟极大似然估计(QMLE)。

有效地排除性约束检验仍然是似然比检验或者拟似然比检验(quasi-likelihood ratio test)。

相关文档
最新文档