离散选择模型

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第五章离散选择模型

在初级计量经济学里，我们已经学习了解释变量是虚拟变量的情况，除此之外，在实际问题中，存在需要人们对决策与选择行为的分析与研究，这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型，本章主要介绍这一类模型的估计与应用。

本章主要介绍以下内容：

1、为什么会有离散选择模型。

2、二元离散选择模型的表示。

3、线性概率模型估计的缺陷。

4、Logit模型和Probit模型的建立与应用。

第一节模型的基础与对应的现象

一、问题的提出

在研究社会经济现象时，常常遇见一些特殊的被解释变量，其表现是选择与决策问题，是定性的，没有观测数据所对应；或者其观测到的是受某种限制的数据。

1、被解释变量是定性的选择与决策问题，可以用离散数据表示，即取值是不连续的。例如，某一事件发生与否，分别用1和0表示；对某一建议持反对、中立和赞成5种观点，分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。

2、被解释变量取值是连续的，但取值的范围受到限制，或者将连续数据转化为类型数据。例如，消费者购买某种商品，当消费者愿意支付的货币数量超过该商品的最低价值时，则表示为购买价格；当消费者愿意支付的货币数量低于该商品的最低价值时，则购买价格为0。这种类型的数据成为审查数据。再例如，在研究居民储蓄时，调查数据只有存款一万元以上的帐户，这时就不能以此代表所有居民储蓄的情况，这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候，人们甚至更愿意将连续数据转化为上述类型数据来度量，例如，高考分数线的设置，就把高出分数线和低于分数线划分为了两类。

下面是几个离散数据的例子。

例 5.1 研究家庭是否购买住房。由于，购买住房行为要受到许多因素的影响，不仅有家庭收入、房屋价格，还有房屋的所在环境、人们的购买心理等，所以人们购买住房的心理价位很难观测到，但我们可以观察到是否购买了住房，即

我们希望研究买房的可能性，即概率(1)

P Y=的大小。

例 5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司，取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少，我们无法知道，但我们可以观察到员工是否跳槽，即

例 5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的，但可以观察到投票者的行为只有三种，即

研究投票者投什么票的可能性，即(),1,2,3

==。

P Y j j

从上述被解释变量所取的离散数据看，如果变量只有两个选择，则建立的模型为二元离散选择模型，又称二元型响应模型；如果变量有多于二个的选择，则为多元选择模型。本章主要介绍二元离散选择模型。

离散选择模型起源于Fechner 于1860年进行的动物条件二元反射研究。1962年，Warner 首次将它应用于经济研究领域，用于研究公共交通工具和私人交通工具的选择问题。70-80年代，离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。（参见李子奈，高等计量经济学，清华大学出版社，2000年，第155页-第156页）

二、线性概率模型

对于二元选择问题，可以建立如下计量经济模型。

1、线性概率模型的概念

设家庭购买住房的选择主要受到家庭的收入水平，则用如下模型表示

其中，i X 为家庭的收入水平，i Y 为家庭购买住房的选择，即

由于Y 是取值为0和1的随机变量，并定义取Y 值为1的概率是p ，则Y 的分布为

即随机变量Y 服从两点分布。根

据两点分布，可得Y 的数学期望为

显然

从而

12(|)i i E Y X X p ββ=+= （5-1）

上述数学模型的经济学解释是，因为选择购买住房变量取值是1，其概率是

p ，并且这时对应p 的表示是一线性关系，因此，Y 在给定i X 下的条件期望（家庭购买住房）将发生的条件概率

()i E Y X 可解释为在给定i X 下，事件房的概率是家庭收入的一个线性函为(1)i i P Y X =，亦即家庭选择购买住数。我们称这一关系式为线性概率函数。由于，Y 服从两点分布，所以，Y 的方差为

2、线性概率函数的估计及存在的问题

对线性概率函数直接运用OLS 估计，会存在以下困难。

（1）随机误差项的非正态性表现

表明i u 服从两点分布。而在经典计量经济学中，假定i u 服从正态分布。

（2）i u 的异方差性。事实上，根据i u 服从两点分布

则i u 的方差为()(1)i i i Var u p p =-。表明i p 随着i 的变动是一个变量，则i u 的方差不是一个固定常数。

（3）利用加权最小二乘法修正异方差

取权数为

具有同方差。在具体估计线性概率模型时，用ˆ

Y作为p的估计来计算权数w的估计wˆ。

3、可决系数2R的非真实性。由于，被解释变量Y只取值1或0，不可能有估计的线性

概率模型能很好地拟合这些点，所以，这时计算的2R会比1小许多，在大多数例子中，2R 介于0.2与0.6之间。

4、0≤()

i i

E Y X≤1不成立。克服这一问题可直接从对线性概率模型的估计，求出ˆ

Y，

用人工的方法定义当ˆ

Y>1时，取ˆ

Y=1；当ˆ

Y<0时，取ˆ

Y=0。

但要比较好地解决这类问题，只能考虑采用新的估计方法，这就是将要介绍的Logit 模型和Probit模型。

第二节 Logit模型

一、Logit模型的产生

1、产生Logit模型的背景

由上述介绍可知，对于线性概率模型来说，存在一些问题，有的问题尽管可以用适当的方法加以弥补，但并不完善和理想。

（1）古典假定不再成立，如存在异方差性，可用加权OLS方法加以弥补。

（2）在线性概率模型中，对于不满足0≤()

i i

E Y X≤1的情况，用人工的方法处理，