离散被解释变量数据计量经济学模型二元选择模型Models
第1章二元选择模型

后者指用一种限制 不超越逻辑 带域“0—1”的方法去估计 LPM。结 果是,对这样的模型,按惯例算出 的 R2 很可能比1小很多。在大多数
在0到1这个逻辑界限内。
4.二分响应模型中的R2
在二分响应模型(dichotomous
response models)中,习惯计算的 R2 的
价值是有限的。为看出其中道理,考虑以
下图形,对于给定的X,Y 不是0就是1。 因此,所有的Y值必定要么落在X 轴上,要 么落在Y =1的一条直线上。
因此,一般地说,不能期望有任何 LPM能很好地拟合这样的散点;
Yi 1.2456 1 0.1196 X i
但是我们可用先前讨论过的加权最小
二乘(WLS)法以获得这些标准误的更
为有效的估计值。应用WL意,
Yi
由于某些是负的,和Y某i 些
大于1,
对于这Yi 些 来说wi , 将是负的。
因此,我们在WLS中不能使用这 些观测值(为什么?),从而在本例中 把观测值的个数从40减少到28。删 去这些观测值的WLS回归将是
假使我们想把成年男子的“劳动力参 与”(即是否就业)当作失业率、平均工资率、 家庭收入和教育等的一个函数。一个人或者 在劳动力行列中或者不在,从而劳动力参与 这个应变量只能取两个值:如果这个人在劳 动力行列中,则取值1;如果他不在其中, 则取值0。
另一个例子。假使我们想把学院教 授的工会会员资格当作若干个定量和定 性变量的一个函数,那么,一位学院教 授或者是工会会员或者不是工会会员。 因此,工会会员资格这个应变量就是一 个取值0或1的虚拟变量:0表示非工会 会员,1表示工会会员。
离散选择模型举例-二元离散选择模型

一.二元离散选择模型1.二元响应模型(Binary response model)我们往往关心响应概率()()()()z G x x G x y x y k k =+++=E ==P βββ...1110,其中x 表示各种影响因素(各种解释变量,包括虚拟变量)。
根据不同的函数形式可以分为下面三类模型:线性概率模型(Linear probability model ,LPM )、对数单位模型(logit )、概率单位模型(probit):三种模型估计的系数大约有以下的关系:L PM probit probit it ββββ5.2,6.1log ==2.偏效应(1)如果解释变量是一个连续型变量,那么他对p(x)=p(y=1|x)的偏效应可以通过求下面的偏导数得出来:()()()()dzz dG z g x g x x p j j =+=∂∂,0βββ,偏效应的符号和该解释变量对应的系数的符号一致;两个解释变量偏效应之比等于它们各自的估计系数之比。
(2)如果解释变量是一个离散性变量,则k x 从k c 变化到k c +1时对概率的影响大小为:()()()k k k k c x G c x G ββββββ+++-++++...1 (110110)上面的其他解释变量的取值往往取其平均值。
3.估计方法与约束检验极大似然估计;三种常见的大样本检验:拉格朗日乘数检验、wald 检验、似然比检验。
4.Stata 程序语法(以Probit 为例)probit depvar [indepvars] [weight] [if exp] [in range] [, level(#) nocoef noconstant robust cluster(varname) score(newvar) asis offset(varname) maximize_options ] predict [type] newvarname [if exp] [in range] [, statistic rules asif nooffset ] where statistic isp predicted probability of a positive outcome; the default xb linear predictionstdp standard error of the prediction二.具体的例子1.数据:美国1988年的CPS 数据2.模型:估计成为工会成员的可能性,模型形式如下:参加工会的概率=F(潜在经验potexp 、经验的平方项potexp2、受教育年限grade 、婚否married 、工会化程度high);解释变量:Potexp=年龄-受教育年限-5;grade=完成的受教育年限;married :1表示婚,0未婚;high :1表示高度工会化的行业,否则为0。
回归分析二元选择模型

• 离散选择模型起源于Fechner于1860年进行的动 物条件二元反射研究。
• 1962年,Warner首次将它应用于经济研究领域, 用以研究公共交通工具和私人交通工具的选择问 题。
• 70、80年代,离散选择模型被普遍应用于经济布 局、企业定点、交通问题、就业问题、购买决策 等经济决策领域的研究。
二、二元离散选择模型
1、原始模型
• 对于二元选择问题,可以建立如下计量经济学模 型。其中Y为观测值为1和0的决策被解释变量;X 为解释变量,包括选择对象所具有的属性和选择
主体所具有的属性。
Y X yi Xi i
E(i ) 0 E(yi ) Xi
pi P( yi 1) 1 pi P( yi 0)
• 模型的估计方法主要发展于80年代初期。
一、二元离散选择模型的经济背景
实际经济生活中的二元选择问题
• 研究选择结果与影响因素之间的关系。 • 影响因素包括两部分:决策者的属性和备选方案
的属性。 • 对于单个方案的取舍。例如,购买者对某种商品
的购买决策问题 ,求职者对某种职业的选择问题, 投票人对某候选人的投票决策,银行对某客户的 贷款决策。由决策者的属性决定。 • 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。
3、最大似然估计
• 欲使得效用模型可以估计,就必须为随机误差项 选择一种特定的概率分布。
• 两种最常用的分布是标准正态分布和逻辑 (logistic)分布,于是形成了两种最常用的二元 选择模型—Probit模型和Logit模型。
• 最大似然函数及其估计过程如下:
F(t) 1 F(t)
标准正态分布或逻 辑分布的对称性
第六章 二元选择模型

当用线性概率模型进行预测,预测值 X i 落在区间
[0,1]之内时,则没有什么问题;但当预测值 X i 落 在区间 [0,1] 之外时,则会暴露出该模型的严重缺点, 此模型由 James Tobin 1958年提出。 James Tobin 所以此时必须强令预测值(概率值)相应等于 0 或1 。 1981年获诺贝尔经济学奖。 因此,线性概率模型常常写成下面的形式
Yi 和Yi*的关系为:
1 Y i* 0 Yi * 0 Y i 0
Yi* X i ui*
1 Y i* 0 Yi * 0 Y i 0
则
P(Yi 1) P(Yi* 0) P(ui* X i ) 1 F ( X i )
是二元离散选择模型最关键的问题。 我们假设有以Y 轴为对称的概率密度函数f(.),则
P(Yi 1) 1 F ( X i ) F ( X i )
P(Yi 0) F ( X i ) 1 F ( X i )
于是模型的似然函数为
P(Y1,Y2, Yn ) [1 F ( X i )] F ( X i )
分析公司员工的跳槽行为。 员工是否愿意跳槽到另一家公司,取决于薪 资、发展潜力等诸多因素的权衡。员工跳槽的成本 与收益是多少,我们无法知道,但我们可以观察到 员工是否跳槽,即
1 跳槽 Yi 0 不跳槽
对某项建议进行投票。 建议对投票者的利益影响是无法知道的,但可 以观察到投票者的行为只有三种,即
随机干扰项ui非正态且存在异方差性
由于随机干扰项具有异方差性。修正异方差 的一个方法就是使用加权最小二乘估计。但是加 ˆ 在 [0,1] 之间, 权最小二乘法无法保证预测值 Y i 这是线性概率模型的一个严重缺陷。
第八章 (1) 离散和受限被解释变量模型

SC -2 -2 -2 -2 -2 -2 -2 -1 0 -2 -1 0 -2 0 -1 1 1 1 -1 -1 1 1 1 1 -1 0
JGF 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.9979 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.9998 0.9999 1.0000 0.4472 0.0000 0.0000 1.0000 1.0000 0.9999 0.0000 0.0000
• 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。
二、二元离散选择模型
1、原始模型
• 对于二元选择问题,可以建立如下计量经济学模 型。其中Y为观测值为1和0的决策被解释变量;X 为解释变量,包括选择对象所具有的属性和选择 主体所具有的属性。
2、重复观测值不可以得到情况下二元Probit 离散选择模型的参数估计
ln L
fi fi Xi Xi 1 Fi F y 0 y 1 i
i
i
q i f (q i X i ) Xi F (q i X i ) i 1
n i 1
n
n
• 在样本数据的支持下,如果知道概率分布函数 和概率密度函数,求解该方程组,可以得到模 型参数估计量。
三、二元Probit离散选择模型及其参数 估计
1、标准正态分布的概率分布函数
F (t )
t
(2 )
12
exp( x 2 2)dx
f ( x) (2 )
二元选择模型

对y i 取期望,E (y i ) = :- + X i(2)\ P ( y i = 1) = P i wP( y i = 0) = 1 - p i 则E(y i ) = 1 (P i ) + 0 (1 - P i ) = P i由(2)和(3)式有(y i 的样本值是0或1,而预测值是概率。
)以P i = - 0.2 + 0.05 X i 为例,说明X i 每增加一个单位,则采用第一种选择的概率增加 现在分析Tobit 模型误差的分布。
由 Tobit 模型(1)有,⑶⑷0.05。
R1 ―口 - “ , u = y i - a - P X i = *住严-取,y i =1y i =0E(U i ) = (1- : - : X i ) P i + (- : - : X i ) (1 - P i ) = P i - : - : X i 由(4)式,有二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。
在实际经济问题中,被解释变量 也可能是 定性变量。
如通过一系列解释变量的观测值观察人们对某项动议的 态度,某件事情的成功和失败等。
当被解释变量为定性变量时怎样建立模型呢?这就是要介 绍的二元选择模型或多元选择模型,统称离散选择模型。
这里主要介绍 Tobit (线性概率)模型,Probit (概率单位)模型和 Logit 模型。
1. Tobit (线性概率)模型 Tobit 模型的形式如下,其中U i 为随机误差项,X i 为定量解释变量。
y i 为二元选择变量。
此模型由 年提出,因此得名。
如利息税、机动车的费改税问题等。
设James Tobin 1958(若是第一种选择)1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2330340350360370380E(U i ) = p i -圧-!::i X i = 0因为y i 只能取0, 1两个值,所以,E(u i 2) = (1- : - - X i )2 p i + (- : - - X i )2 (1 - p)=(1- :- - X i )2 (: +1:, X i ) + (:- +1「X i )2(1 -:■ - !::; X i ), (依据 ⑷式)=(1- : -:X i ) ( :- + : X i ) = p i (1 - p i ),(依据⑷式)=E(y i ) [1- E(y i )]上两式说明,误差项的期望为零,方差具有异方差。
第八章 离散因变量模型

第八章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)一、二元选择模型设因变量1、线性概率模型(LPM模型)如果采用线性模型,给定,设某事件发生的概率为P i,则有所以称之为线性概率模型。
不足之处:1、不能满足对自变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建立某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。
其中,二元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。
为了使二元选择问题的研究成为可能,首先建立随机效用模型:令表示个体i选择=1的效用,表示个体i选择=0的效用,显然当时,选择结果为1,反之为0。
将两个效用相减,即得随机效用模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常用的二元选择模型——Logit模型。
第十三章 二元选择模型

本次您浏览到是第十四页,共二十六页。
图7.2 二元选择模型估计对话框
15
本次您浏览到是第十五页,共二十六页。
例7.1的估计输出结果如下:
16
本次您浏览到是第十六页,共二十六页。
参数估计结果的上半部分包含与一般的回归结 果类似的基本信息,标题包含关于估计方法(ML表 示极大似然估计)和估计中所使用的样本的基本信 息,也包括达到收敛要求的迭代次数。和计算系数 协方差矩阵所使用方法的信息。在其下面显示的是 系数的估计、渐近的标准误差、z-统计量和相应的 概率值及各种有关统计量。
3
本次您浏览到是第三页,共二十六页。
1、 线性概率模型及二元选择模型的形式
为了深刻地理解二元选择模型,首先从最简单的线性概率 模型开始讨论。线性概率模型的回归形式为:
yi 1x1i 2 x2i k xki ui (7.1.1)
i 1, 2 ,, N
其中:N是样本容量;k是解释变量个数;xj为第j个个体特征 的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费 者的偏好等。设 yi 表示取值为0和1的离散型随机变量:
yi 1 F xi β ui
即yi关于它的条件均值的一个回归。
(7.1.10)
9
本次您浏览到是第九页,共二十六页。
分布函数的类型决定了二元选择模型的类型,根据分布函 数F的不同,二元选择模型可以有不同的类型,常用的二元选择 模型如表7.1所示:
表7.1 常用的二元选择模型
ui*对应的分布
标准正态分布 逻辑分布 极值分布
yi 1
即
N
L [F ( xi β)]yi [1 F ( xi β)]1yi i1
对数似然函数为
(7.1.11) (7.1.12)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P( yi 1) P( yi* 0) P(i* X i ) 1 P(i* X i )
1 F( X i ) F( X i )
P(y1, y2 , , yn ) (1 F(X i )) F(X i )
yi 0
yi 1
n
L
( F ( X i )) yi (1 F ( X i )) 1 yi
•样 本 观 测 值
CC=XY CM=SC
JG
XY
SC
0
125.0 -2
0 599.0 -2
0 100.0 -2
0 160.0 -2
0 46.00 -2
0 80.00 -2
0 133.0 -2
0 350.0 -1
1
23.00
0
0 60.00 -2
0 70.00 -1
1 -8.000
0
0 400.0 -2
i 1
似然函数
n
ln L ( yi ln F ( X i ) (1 yi ) ln(1 F ( X i )))
i 1
ln L
n i 1
yi fi
Fi
(1
yi
)
(1
fi Fi
)
X
i
0
1阶极值条件
• 在样本数据的支持下,如果知道概率分布函数 和概率密度函数,求解该方程组,可以得到模 型参数估计量。
• 模型的估计方法主要发展于80年代初期。
一、二元离散选择模型的经济背景
实际经济生活中的二元选择问题
• 研究选择结果与影响因素之间的关系。 • 影响因素包括两部分:决策者的属性和备选方案
的属性。 • 对于单个方案的取舍。例如,购买者对某种商品
的购买决策问题 ,求职者对某种职业的选择问题, 投票人对某候选人的投票决策,银行对某客户的 贷款决策。由决策者的属性决定。 • 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。
三、二元Probit离散选择模型及其参数 估计
1、标准正态分布的概率分布函数
t
F(t)
(2
)
1 2
exp( x 2
2)dx
f
(x)Байду номын сангаас
(2
)
1 2
exp(
x2
2)
2、重复观测值不可以得到情况下二元Probit 离散选择模型的参数估计
ln L
fi yi 0 1 Fi
Xi
yi 1
fi Fi
• 本节只介绍二元选择模型。
• 离散选择模型起源于Fechner于1860年进行的动 物条件二元反射研究。
• 1962年,Warner首次将它应用于经济研究领域, 用以研究公共交通工具和私人交通工具的选择问 题。
• 70、80年代,离散选择模型被普遍应用于经济布 局、企业定点、交通问题、就业问题、购买决策 等经济决策领域的研究。
Xi
n i 1
qi
f
(qi
Xi
)
F (qi X i )
Xi
n
i X i
i 1
0
qi 2yi 1
• 关于参数的非线性函数,不能直接求解,需采用 完全信息最大似然法中所采用的迭代方法。
• 应用计量经济学软件。
• 这里所谓“重复观测值不可以得到”,是指对每 个决策者只有一个观测值。如果有多个观测值, 也将其看成为多个不同的决策者。
0
72.00
0
0 120.0 -1
1
40.00
1
1
35.00
1
1
26.00
1
1 15.00 -1
0 69.00 -1
0
107.0
1
1
29.00
1
1
2.000
1
1
37.00
1
0 53.00 -1
0
194.0
0
说明
• 在经典计量经济学模型中,被解释变量通常被假 定为连续变量。
• 离散被解释变量数据计量经济学模型(Models with Discrete Dependent Variables)和离散 选择模型(DCM, Discrete Choice Model)。
• 二元选择模型(Binary Choice Model)和多元选 择模型(Multiple Choice Model)。
二、二元离散选择模型
1、原始模型
• 对于二元选择问题,可以建立如下计量经济学模 型。其中Y为观测值为1和0的决策被解释变量;X 为解释变量,包括选择对象所具有的属性和选择
主体所具有的属性。
Y X yi Xi i
E(i ) 0 E(yi ) Xi
pi P( yi 1) 1 pi P( yi 0)
• 需要将原始模型变换为效用模型。
• 这是离散选择模型的关键。
2、效用模型
U
1 i
X i 1
i1
第i个个体 选择1的效用
U
0 i
X i 0
i0
第i个个体 选择0的效用
U
1 i
U
0 i
Xi
(1
0
)
(i1
i0 )
yi* X i i*
作为研究对象的二元选择模型
P( yi 1) P( yi* 0) P(i* X i )
E( yi ) 1 P( yi 1) 0 P( yi 0) pi
E(yi ) P(yi 1) X i
左右端矛盾
i
1 X
Xi i
当yi 1,其概率为X i 当yi 0,其概率为1 X i
具有异 方差性
• 由于存在这两方面的问题,所以原始模型不能作 为实际研究二元选择问题的模型。
例7.2.2 贷款决策模型
• 分析与建模:某商业银行从历史贷款客户中随机 抽取78个样本,根据设计的指标体系分别计算它 们的“商业信用支持度”(CC)和“市场竞争地 位等级”(CM),对它们贷款的结果(JG)采 用二元离散变量,1表示贷款成功,0表示贷款失 败。目的是研究JG与CC、CM之间的关系,并为 正确贷款决策提供支持。
• 注意,在模型中,效用是不可观测的,人们能够 得到的观测值仍然是选择结果,即1和0。
• 很显然,如果不可观测的U1>U0,即对应于观测 值为1,因为该个体选择公共交通工具的效用大于 选择私人交通工具的效用,他当然要选择公共交 通工具;
• 相反,如果不可观测的U1≤U0,即对应于观测值 为0,因为该个体选择公共交通工具的效用小于选 择私人交通工具的效用,他当然要选择私人交通 工具。
3、最大似然估计
• 欲使得效用模型可以估计,就必须为随机误差项 选择一种特定的概率分布。
• 两种最常用的分布是标准正态分布和逻辑 (logistic)分布,于是形成了两种最常用的二元 选择模型—Probit模型和Logit模型。
• 最大似然函数及其估计过程如下:
F(t) 1 F(t)
标准正态分布或逻 辑分布的对称性