受限因变量模型
第十八章-离散选择模型和受限因变量模型

第18章 离散选择模型和受限因变量模型 18.1概述在经典计量经济学模型中,被解释变量通常被假定为连续变量,但在现实的经济决策中经常面临许多选择问题。
在这样的决策问题中,或者选择问题中,人们必须对可供选择的方案作出选择。
通常被解释变量是连续的变量,但此时的因变量只取有限多个离散的值。
例如:人们对交通工具的选择,是选择坐轻轨、地铁还是公共汽车;某大型企业是否合并另一企业;对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度,可以分别用0,1,2,3和4表示。
以这样的选择结果作为被解释变量建立的计量经济学模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables ),或称为离散选择模型(DCM ,discrete choice model )。
如果被解释变量只能有两种选择,称为二元选择模型(binary choice model );如果被解释变量有多种选择,称为多元选择模型(multiple choice model )。
20世纪70和80年代,离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。
在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得样本数据来自总体的一个子集,可能不能完全反映总体。
例如,小时工资、住房价格和名义利率都必须大于零。
这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model )。
这两类模型经常用于调查数据的分析中。
本章将讨论三类模型及其估计方法和软件操作。
一是定性(观测值为离散的或者表示排序);二是截取或者截断问题;三是观测值为整数值的计数模型。
18.2二元因变量模型在这个模型中,被解释变量只取两个值,可以是代表某件事发生与否的虚拟变量,也可以是两个决策中选一个,称为二元因变量模型。
例如:对样本个体是否就业的研究,个体的年龄、教育背景、种族、婚姻状况以及其他可观测的特征,作为解释变量,目的是研究个体这些特征对个体就业概率的研究。
受限因变量模型及其半参数估计

·综述·受限因变量模型及其半参数估计*薛小平1史东平2王彤1△受限因变量(1imiteddependentvariable)指因变量的观测值是连续的,但是受到某种限制,得到的观测值并不完全反映因变量的实际状态。
例如在某次流行病学调查中,我们将能够代表人体健康状况的某个指标作为因变量,从而研究影响人体健康状况的各种因素,现要测量该指标的水平,但是由于仪器的检测极限问题,在某个水平之上或之下的值我们观测不到,在实际应用中通常就用这个极限水平的值来代替那些我们观(truncatedregressionmodel)selectionmodel)。
当这些模型中的潜在误差项已知是正态分布,或者更一般地来说,已知误差项分布函数的参数形式时,通过最大似然法或者其他基于似然的估计过程可以获得一致和渐近正态分布的估计量CI,2]。
然而这些估计量对误差项分布的假设非常敏感,当对误差项的参数分布形式假定不正确时,基于似然的估计量是不一致的【3】。
即使误差项的密度函数被正确设定了,误差项的异方差性也会导致参数估计的不一致【4.5】。
在医学应用中一般不能限制误差项的分布形式和方差齐性,而基于似然的估计方法对这些假定非常敏感,因而一些放松这些假定条件的~致估计方法包括非参数和半参数估计陆续被提出,本文主要概括介绍几种半参数估计。
虽然这些模型已用于时间序列或纵向数据的分析中,这里仍将把注意力限于横截面数据的应用上。
Tobit模型和断尾回归模型Tobit模型是Tobin【6】首次提出的,适用于在正值上大致连续分布但包含一部分以正概率取值为零的结医疗保险费用支出为零,因此,虽然年度家庭医疗保险费用支出的总体分布散布于一个很大的正数范围内,但在数字零上却相当集中。
T0bit模型容易定义为:y’=80+ze+弘3,=max(O。
y。
)该方程意味着当y’>0时,所观测到的变量,=y。
,*山西省高校青年学术带头人基金资助。
C17受限因变量模型和样本选择纠正

第17章 受限因变量模型和样本选择纠正摘要: C7中的线性概率模型是受限因变量(limited dependent variable (LDV))模型的一例子,其容易解释,但有其缺陷,本章介绍的logit 模型和probit 模型更为常用,但解释相对困难。
实际应用中,离散和连续是相对的,也就是说,实际离散的经济变量可能也适用于因变量离散的模型建模。
本节介绍的模型包括Tobit 模型,用于应对角点解响应(corner solution response);泊松回归模型(计数模型),用于建模LDV 只能取非负整数的情况;截断数据模型和对样本选择的纠正。
受限因变量模型更容易在横截面数据中被使用。
样本选择的纠正通常都源于横截面或面板数据。
17.1 二值响应的logit 模型和probit 模型线性概率模型的缺陷?二值响应模型(binary response model )关注的核心问题是响应概率(response probability):.P (y =1│x )=P(y =1|x 1,x 2,…,x n ) logit 模型和probit 模型的设定为此,需要先建一个连接函数:,P (y =1│x )=G (β0+β1x 1+β2x 2+…+βk x k )=G(β0+xβ)其中G(.)是一个取值于(0,1)的函数。
常见的连接函数有:,G (z )=exp (z )[1+exp (z )]=Λ(z)该函数是标准logistic随机变量的累积分布函数:常见的连接函数还有标准正态的累积分布函数,G 可以被表示为:G (z )=Φ(z )≡x ∫‒∞ϕ(v)dv ,.ϕ(v )=(2π)‒1/2exp(‒z 22)使用上述两个连接函数,我们分别建立了logit 模型和probit 模型。
关于logit 模型和probit 模型的推导:y ∗=β0+xβ+e ,并定义,为示性函数。
y =I(y ∗>0) I要求满足CLM 假设或高斯-马尔科夫假设。
第十八章-离散选择模型和受限因变量模型

第18章离散选择模型和受限因变量模型18.1概述在经典计量经济学模型中,被解释变量通常被假定为连续变量,但在现实的经济决策中经常面临许多选择问题。
在这样的决策问题中,或者选择问题中,人们必须对可供选择的方案作出选择。
通常被解释变量是连续的变量,但此时的因变量只取有限多个离散的值。
例如:人们对交通工具的选择,是选择坐轻轨、地铁还是公共汽车;某大型企业是否合并另一企业;对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度,可以分别用0,1,2,3和4表示。
以这样的选择结果作为被解释变量建立的计量经济学模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables),或称为离散选择模型(DCM,discrete choice model)。
如果被解释变量只能有两种选择,称为二元选择模型(binary choice model);如果被解释变量有多种选择,称为多元选择模型(multiple choice model)。
20世纪70和80年代,离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。
在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得样本数据来自总体的一个子集,可能不能完全反映总体。
例如,小时工资、住房价格和名义利率都必须大于零。
这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model)。
这两类模型经常用于调查数据的分析中。
本章将讨论三类模型及其估计方法和软件操作。
一是定性(观测值为离散的或者表示排序);二是截取或者截断问题;三是观测值为整数值的计数模型。
18.2二元因变量模型在这个模型中,被解释变量只取两个值,可以是代表某件事发生与否的虚拟变量,也可以是两个决策中选一个,称为二元因变量模型。
例如:对样本个体是否就业的研究,个体的年龄、教育背景、种族、婚姻状况以及其他可观测的特征,作为解释变量,目的是研究个体这些特征对个体就业概率的研究。
02-14.5 其他受限因变量模型

素。通过调查取得了市民收入(INC)与支持与否( y )的数
据,其中如果选民支持则yi取0,中立取1,不支持取2。
2、受限因变量模型
现实的经济生活中,有时会遇到这样的问题,因
变量是连续的,但是受到某种限制,也就是说所
得到的因变量的观测值来源于总体的一个受限制
乘出租车,乘公共汽车,还是骑自行车。
多元选择模型
上述3个例子代表了多元选择问题的不同类型。前两个
例子属于有序选择问题,所谓“有序”是指在各个选择项
之间有一定的顺序或级别种类。而第3个例子只是同一
个决策者面临多种选择,多种选择之间没有排序,不
属于有序选择问题。
与一般的多元选择模型不同,有序选择问题需要建立
数据,来自于美国国势调查局[U.S.Bureau of the
Census(Current Population Survey, 1993)],其中y
表示已婚妇女工作时间, x1~ x4分别表示已婚妇
女的未成年子女个数、年龄、受教育的年限和丈
夫的收入。
2.1 删失回归模型
例
删失模型的实例
只要已婚妇女没有提供工作时间,就将工作时间
换句话说,yi*的所有负值被定义为0值。我们称
这些数据在0处进行了左截取(删失)(left
censored)。而不是把观测不到的 yi* 的所有负
值简单地从样本中除掉。删失回归模型的一种典
型处理方法,也称为Tobit模型。
2.1 删失回归模型
例
删失模型的实例
本例研究已婚妇女工作时间问题,共有50个调查
作零对待,符合删失回归模型的特点。
2.2 截断回归模型
第06章 离散因变量和受限因变量模型_s

(7.1.2)
又因为E(ui ) = 0 ,所以 E(yi ) = xi,xi =(x1i , x2i ,…, xki ), =(1 , 2 ,…, k ),从而有下面的等式:
E ( yi ) P( yi 1) pi xi β
(7.1.3)
4
式(7.1.3)只有当xi 的取值在(0,1)之间时才成立,否则就会
记为1,不买记为0。是否买车与两类因素有关系:一类是车
本身所具有的属性,如价格、型号等;另一类是决策者所具 有的属性如收入水平、对车的偏好程度等。如果我们要研究 是否买车与收入之间的关系,即研究具有某一收入水平的个 体买车的可能性。因此,二元选择模型的目的是研究具有给
定特征的个体作某种而不作另一种选择的概率。
2
7.1.1
线性概率模型及二元选择模型的形式
为了深刻地理解二元选择模型,首先从最简单的线性概率 模型开始讨论。线性概率模型的回归形式为:
yi 1 x1i 2 x2i k xki ui
i 1 , 2 , , N
(7.1.1)
其中:N是样本容量;k是解释变量个数;xj 为第j个个体特征 的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费 者的偏好等。设 yi 表示取值为0和1的离散型随机变量:
图7.3 Options对话框
18
(3)预测
从方程工具栏选择Procs/Forecast(Fitted Probability /Index),然后单击想要预测的对象。既可以计算拟合概 ˆ ˆ ˆ 率, p 1 F ( x β ) ,也可以计算指标 x i β 的拟合值。
i
像其他方法一样,可以选择预测样本,显示预测图。 如果解释变量向量xt 包括二元因变量yt 的滞后值,选择 Dynamic选项预测,EViews使用拟合值 pt 1 得到预测值; ˆ 而选择Static选项,将使用实际的(滞后的)yt-1 得到预测 值。 对于这种估计方法,无论预测评价还是预测标准误差 通 常 都 无 法 自 动 计 算 。 后 者 能 够 通 过 使 用 View/ Covariance Matrix 显 示 的 系 数 方 差 矩 阵 , 或 者 使 用 @covariance函数来计算。
互助问答第22问 关于受限因变量模型的三个问题

问:关于受限因变量模型的三个问题。
(1)受限因变量模型,比如Probit、Tobit模型等都采用MLE估计,如果是正态分布且同方差(i.i.d),则估计结果是一致且服从正态分布。
如果存在误设(不服从正态分布或者异方差)则采用QMLE估计,在条件期望正确设定(一阶矩)的情况下,估计仍然是一致的。
那么,是否意味在做这些模型检验的时候,就不必关注异方差和正态分布检验?(2)若对受限因变量模型仍然要关注异方差和正态分布检验,如何检验?现有的实证文章中很少有对这些问题进行检验,都是直接应用。
Tobit模型用tobcm 命令来检验正态分布,异方差用哪个命令?(3)发现异方差和非正态分布,如何修正?答:当Probit和Tobit模型的正态分布假设不成立或存在异方差问题时,模型中的Beta系数一般是不一致的。
但这个问题到底多严重,学界看法是不一致的。
比如Wooldridge的看法就是:我们不应该只强调系数的估计是否一致,因为我们关心的根本不是系数本身,而是自变量的局部效应(Partial effects,比如在运行完Probit后,用margins命令生成的效应)——在线性模型中,系数也就是局部效应,但在Probit和Tobit等非线性模型中,两者不是一回事。
在Wooldridge的高级教科书中(Wooldridge 2010),他举了一个例子:真实分布是Logit,但研究者误用了Probit,尽管系数估计值有明显差异,但是自变量的局部效应没什么显著区别。
他在中级教科书中(Wooldridge 2016)提到:如果偏离正态同方差假设不严重,Tobit模型得到的自变量的局部效应依然是可靠的。
这或许就是现在实证研究较少检验正态和同方差的原因之一。
如果你在乎这些问题,也还是有一些方法的。
比如hetprobit命令就可以检验及纠正Probit模型中可能存在的异方差问题。
除此之外,大量的命令都是第三方命令而非系统自带。
我个人的看法是:与其直接检验正态分布或同方差,还不如通过诸如变换模型形态等方式验证结果(局部效应)是否稳健。
受限因变量模型

用计量经济模型反映选择行为
行为主体从事的每项活动都可以看作是一种选择; 行为主体有其偏好; 人们的行为有其规则; 在经济分析中,通常认为选择基于效用最大化标准。 研究中需要考虑:
行为理论基础 计量经济学模型方法
模型设定 统计理论和数据 估计方法
应用分析
行为假定
就可以选择的活动而言,行为主体的偏好具有传递 性和完备性。 每项选择都有其相应的效用水平Uijt 每个行为主体都试图获得最大效用,当Ui1t > Ui2t 时, 行为主体会选择第一项活动。 然而我们无法观测效用本身,我们只有通过观察行 为主体做出的选来揭示其偏好
LR = -2(Lr– Lur )~ c2q 如果未受约束似然值与受约束似然值相等,说明模型效果差,未通过 检验;相反,如果未约束似然值远大于约束似然值,说明所设自变 量通过检验,模型总体效果较好。它对应于线性模型中的F值。
拟合优度
对于线性概率模型,可以直接用得到R2来判断拟合优度; Probit 模型和Logit模型没有R2,因而需要利用其他方法来反 映拟合优度。 一种方法是利用对数似然值计算伪R2(pseudo R2)或 McFadden R2,该值也被称作似然值比值指数,定义为1 – Lur/Lr
必要时给出选项 得到估计结果
用EVIEWS估计有限因变量模型
得到结果后可以在VIEW子菜单下调用:
Coefficient tests各种对系数的统计检验 Residual tests对残差的统计检验 Expectation-Prediction Table 可以得到正确和错 误推断的比例 Goodness-of-Fit Tests检验拟合优劣
得到的参数不会相同 但分析结论不会有大的差别 因而通常基于模型的统计表现和经验来决定取舍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模型估计中的问题 受限因变量模型(TOBIT模型) 模型估计方法与统计检验
用计量经济模型反映选择行为
行为主体从事的每项活动都可以看作是一种选择; 行为主体有其偏好; 人们的行为有其规则; 在经济分析中,通常认为选择基于效用最大化标准。 研究中需要考虑:
行为理论基础 计量经济学模型方法
P(y =
二元因变量模型
二元因变量模型是有限因变量模型的一种特殊形式。
因变量取值仅为0或1的情况。
我们可以将其看作是一种选择决策模型,当选择时y=1, 未选择时y=0; 我们可以用线性概率模型来研究这种情况,模型可以写作
P(y = 1|x) = b1x1 + … + KxK+e j 表示当xj 变化时概率的变化
Logit模型
G(z)的另一种可选形式是逻辑曲线,它是标准逻 辑随机变量的累积分布函数,即Logit模型,有时 也称为Logistic曲线回归; 对该式做以下变换:
[1+exp(-Z)]Pi=1 exp(-Z)=1/Pi-1=(1-Pi)/Pi Pi=G(Z)
= exp(Z)/[1 + exp(Z)]=1/[1+exp(-Z)]
概率模型FZ1线概率函数Z*Z
概率函数模型
如前面所述,利用概率模型做推断时可能会遇到 计算值超出0~1区间的情况。 为了解决这一问题,我们用概率函数G(b0 + xb)来 模拟事件发生的概率,该函数应满足0<G(z)<1。 常用的分布和模型形式有:
正态分布→
Probit模型 Logistic分布→ Logit模型 Gompertz分布→极端值(Extreme value)模型
有限因变量模型
(Limited dependent variable models)
在有些文献中,有限因变量模型也被称为离散型 选择模型(Discrete Choice Models) 有限因变量模型的一般形式可以表达为:
l|x) = G(0 + x ) y* = 0 + x + u, y = max(0,y*) 式中P(.)表示事件发生的概率; y*是一个隐变量(Latent variable),其值大小取决于影 响因素x,而y*决定事件发生的概率。 当y*>0时y=1,当y*0时y=0(可以选择其他临界值)。
受限因变量模型
本章内容
第一节 二元选择模型
线性概率模型
PROBIT模型 LOGIT模型 极端值模型 拟合优度测定 第二节 多元选择模型
无序多元选择模型
有序因变量模型(Ordered data) 计数模型(Count data)
删改数据或截取数据
第三节 删改与截取模型
不同分布的特征
Probit 模型
G(z)的一种可选形式是标准正态累积分布函数, 此即Probit模型。
1 Zi s 2 2 Pi G Z i e ds 2 式中s是误差项,假定服从标准正态分布; P代表事件发生的概率。
估计指标Z,需要应用累计正态分布函数的逆函数 Zi G1 P i X i 由于Probit模型是参数非线性函数,因而不能用 OLS方法估计,需要用最大似然法来估计。
行为主体选择第一项活动意味着Ui1t
> Ui2t
随机效用函数 (Random Utility Functions)
形式:Uij = j + i’xij + i’zi + eij
j为与特定选择j相联系的常数项 i为反映行为主体偏好的权重 zi xij 为选择j所具有的特性(Attributes)
模型:读研究生获得的净效用
使用的数据
X1读研收费+间接费用, X2研究生工资增量 Z1家庭收入,Z2读研前学习成绩
显示出的偏好
读研者U读研 > 0,定义Y=1 未读研者U读研 < 0,定义Y=0
行为选择:考虑二元选择模型
由模型分析可以获得的信息
研究生的社会经济特性是否具有重要意义 降低成本是否有助于吸引更多学生? 就业市场好坏是否对读研究生有重要影响 家庭或个人特征是否影响到选择 家庭收入是否对读研究生构成重要限制? 个人的学习能力是否影响到读研的决策? 推断不同条件下的研究生规模变化 提高费用/就业机会增加/居民收入增加 推断个人的行为 哪些学生最有可能报考研究生
模型设定 统计理论和数据 估计方法
应用分析
行为假定
就可以选择的活动而言,行为主体的偏好具有传 递性和完备性。 每项选择都有其相应的效用水平Uijt 每个行为主体都试图获得最大效用,当Ui1t > Ui2t 时,行为主体会选择第一项活动。 然而我们无法观测效用本身,我们只有通过观察 行为主体做出的选来揭示其偏好
为行为主体的特征 i为行为主体特征的权重 eij为效用函数中不可观察的随机成分,假定E(eij)=0, Var(eij)=1
随机效用函数帮助建立了行为基础与观察到的数 据之间的关系。
行为选择:考虑二元选择模型
涉及“是”或“否”的决策
例如是否攻读研究生 U读研 = +1读研费用 + 2预期收益 + 1家庭收入 + 2个人能力 + e 如果净效用为正,那么选择读研究生(简化模型,真实中还要与 其他选择进行比较,那是多元选择模型,此处不表) 因变量:1为读研,0为不读研 解释变量
上述变换使因变量成为选择机会比的对数。 Logit模型是参数非线性函数,但可以线性化。
该方程推断的y 的值表示做出该选择的概率。 一个问题是,由线性概率方程推断得出的概率值可能落在 区间[0,1]之外,因而只有在均值附近才较为可靠。
二元因变量模型
由于线性概率函数的取值仅为0或1,因而误差项 与模型参数β出现相关,即e或是等于-β΄X,或是 等于1-β΄X,因而存在异方差问题。 此时线性概率模型违反了相同方差的古典假定, 这使得对模型做的统计检验失效。 随着计量经济学软件的不断发展,现在已经很少 使用线性概率模型。