离散选择模型完整版
离散选择模型ppt课件

因为通常情况下,我们考虑被解释变量为二元变
量的模型,这种模型也因此被称为二元选择模型或者离
散选择模型,如果为多元,则称之为多元选择模型。 离散选择模型起源于Fechner于1860年所进行的动
物条件二元反射研究,1962年Warner首次将这一方法
应用与经济研究领域。Mcfadden因为在离散选择模型
但问题是,当收入10万元,或者更少的情况下,平均拥有住房的
概率为负值,而当收入为20万元,或者更多的情况下,平均拥有 住房的概率大于1,因此,我们必须考虑相应的方法对这一问题 进行处理。
7
对同样的问题,我们采用如下的模型形式:
E (Yi / X i ) PYi 1 / X i
1
( 0 1 X i )
那么: 从而:
1 e Pi Li ln 1 P 0 1 X i ui i
1 ห้องสมุดไป่ตู้ Pi
1
0 1 X i
1 e e 0 1 X i 1 e 0 1 X i
参数的含义是什么?
这样的事件发生比Li,不仅对Xi是线性的,对参数也是线性的,而 且发生概率将永远落在0和1之间, Li就被称为logit,像*这样的模 型也就被称为logit模型。
Std. Err. .0041431 .0957771
[95% Conf. Interval] .069612 -1.879533 .0887202 -1.437808
e 1 e0.0792 1.082
这就意味着,当收入增加1万元时,根据该样本回归的结果认为, 拥有自有住房的发生比将增加8.2%
PYi 1 / X i
6
离散选择模型

Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )
《离散选择模型》课件

极大似然估计法
通过最大化似然函数,估计模型 的参数值。
差分法估计法
通过对变量的差分进行估计,减 少了共线性问题的影响。
一般化估计方程法
通过建立一般化估计方程,对参 数进行估计。
离散选择模型的应用
公共交通出行方式选择
分析人们在选择公共交通出行方式时的决策行为,为政府制定交通政策提供依据。
食品品牌选择
确定性
选择结果是确定的,参与者 不受随机因素的影响。
离散选择模型的数学模型
1Байду номын сангаас
多项式Logit模型
通过对选择概率进行建模,预测参与者选择各个选项的概率。
2
二项式Logit模型
基于二项分布,预测参与者是否选择某个选项。
3
线性概率模型
使用线性回归方法,预测选择某个选项的概率。
离散选择模型的参数估计方法
离散选择模型是一种描述人们在面临离散选择时决策行为的数学模型。
2 离散选择模型的应用领域
离散选择模型被广泛应用于诸多领域,如公共交通、市场营销和行为经济学等。
离散选择模型的基本假设
可比性
各个选择项之间可以进行比 较,存在客观标准用于决策。
独立性
参与者之间的选择行为是独 立的,不受其他参与者的影 响。
《离散选择模型》PPT课 件
离散选择模型是一种用于分析人们在面临离散选择时的决策行为的统计模型。 本课件将介绍离散选择模型的定义、基本假设、数学模型、参数估计方法、 应用、不足及未来发展方向。
什么是离散选择模型
离散选择模型是一种用于研究人们在面临可选项时所作出的离散决策行为的统计模型。
1 离散选择模型的定义
将离散选择模型与其他决策模 型进行结合,以提高模型的准 确性和解释能力。
离散选择模型讲义北大陈志刚

多重选择模型
当存在多种选择,而且这些选择之间没有程度的 不同,不涉及排序问题,就应用多重的probit,或 logit 模型.
假设残差项独立.这意味着(控制可观测变量的 基础上),任何两个可选择的效用是独立的;问题 在于当多个选择相似时,例如交通方式的选择, 坐车,乘船,坐飞机;但是有人对颜色有不同的偏 好,就把每种方式菜系分为红黄蓝三色,此时有 六种选择,但是统一交通方式之间相似,这就不 能用多重选择模型,而要用分层选择模型.
married | .0622516 .1125836 0.55 0.580 -.1584083 .2829115 high | .5612953 .099662 5.63 0.000 .3659613 .7566292 _cons | -1.468412 .2958112 -4.96 0.000 -2.048192 -.8886332 ------------------------------------------------------------------------------
Prediction: P:probability of a positive outcome. Xb: calculate the linear predictioin.
stdp:standard error of linear prediction.
Output after dprobit
Probit model using stata
probit depvar [indepvar][weight][if exp][in range][,level(#) nocoef noconstant robust cluster(varname) score(newvarname) asis offset(varname) maximize_options]
离散选择模型ppt课件

PYi 1 / X i
6
例如,我们对一个是否拥有自有住房的案例进行回归,
结果如下: Yi 1.2009 0.1056X i (0.1483 ) (0.0087) R 0.8078
2
回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位 (1万元人民币),平均拥有住房的概率将增加10.56%:
11
2.解释变量同样为定性变量的情况
ቤተ መጻሕፍቲ ባይዱ
Pi Li ln 1 P 0 1 X i ui i P 1 ˆ Xi=1时: L1 ln 1 P 0 1 (1) 1 P0 ˆ Xi=0时: L0 ln 1 P 0 (2) 0 P 1 1 P 1 如果定义: OR P0 1 P 0 1 ˆ L ˆ 那么就有: lnOR L OR e 1 0 1
15
回归的结果如下:
. logit y x Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood = = = = -253.69187 -242.36572 -242.32729 -242.32729 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Std. Err. .2910729 .1179409 z 4.50 -2.10 P>|z| 0.000 0.036 = = = = 366 22.73 0.0000 0.0448
这意味着在其他条件都相同的情况下,抽烟人士患食道癌的 可能性是不抽烟人士的3.7倍还要多。
离散选择模型举例12.2 精品

一.二元离散选择模型1.二元响应模型(Binary response model)我们往往关心响应概率()()()()z G x x G x y x y k k =+++=E ==P βββ...1110,其中x 表示各种影响因素(各种解释变量,包括虚拟变量)。
根据不同的函数形式可以分为下面三类模型:线性概率模型(Linear probability model ,LPM )、对数单位模型(logit )、概率单位模型(probit):三种模型估计的系数大约有以下的关系:LPM probit probit it ββββ5.2,6.1log ==2.偏效应(1)如果解释变量是一个连续型变量,那么他对p(x)=p(y=1|x)的偏效应可以通过求下面的偏导数得出来:()()()()dzz dG z g x g x x p j j =+=∂∂,0βββ,偏效应的符号和该解释变量对应的系数的符号一致;两个解释变量偏效应之比等于它们各自的估计系数之比。
(2)如果解释变量是一个离散性变量,则k x 从k c 变化到k c +1时对概率的影响大小为:()()()k k k k c x G c x G ββββββ+++-++++...1 (110110)上面的其他解释变量的取值往往取其平均值。
3.估计方法与约束检验极大似然估计;三种常见的大样本检验:拉格朗日乘数检验、wald 检验、似然比检验。
4.Stata 程序语法(以Probit 为例)probit depvar [indepvars] [weight] [if exp] [in range] [, level(#) nocoef noconstant robust cluster(varname) score(newvar) asis offset(varname) maximize_options ] predict [type] newvarname [if exp] [in range] [, statistic rules asif nooffset ] where statistic isp predicted probability of a positive outcome; the default xb linear predictionstdp standard error of the prediction二.具体的例子1.数据:美国1988年的CPS 数据2.模型:估计成为工会成员的可能性,模型形式如下:参加工会的概率=F(潜在经验potexp 、经验的平方项potexp2、受教育年限grade 、婚否married 、工会化程度high);解释变量:Potexp=年龄-受教育年限-5; grade=完成的受教育年限; married :1表示婚,0未婚;high :1表示高度工会化的行业,否则为0。
09离散选择模型

ˆX 1 1 ˆ 2 X i2 X 2 ( X i X ) 2 n n
• 极大似然估计(ML):求使得似然函数取极大值的参数值 • 似然函数:令(X1, X2, …, XN)是概率密度函数为f(x|θ1, …, θk)的总体 的一个随机样本,则似然函数定义为:
L(θ | x1,, xn ) in1 f ( xi | θ)
6. 二元选择模型的估计
• 极大似然估计量的协方差矩阵有三种计算方法
• 一是负的海赛矩阵的逆在MLE处的值 2 n ln L • Probit模型 H i (i xiβ ) xi xi ββ i 1
qi qi xiβ i , qi 2 yi 1 (qi xiβ )
Linear Variable Constant GPA TUCE PSI Coefficient Slope −1.498 — 0.464 0.464 0.010 0.010 0.379 0.379
1.000
Logistic
Probit
Complementary log log
Coefficient Slope Coefficient Slope Coefficient Slope −13.021 — −7.452 — −10.631 — 2.826 0.534 1.626 0.533 2.293 0.477 0.095 0.018 0.052 0.017 0.041 0.009 2.379 0.450 1.426 0.468 1.562 0.325
E[ y | x ] ( xβ ) β x
• Logit模型的边际效应为:
E[ y | x ] ( x β )[1 ( x β )] β x
第七章(下) 二元离散选择模型

对于Logit模型,我 们有: 分布函数 F ( x) exp( x) Λ( x)
1 exp( x)
exp( x) 密度函数 f ( x) (1 exp( x))2 Λ( x)(1 Λ( x))
带入(*)式,我们得到: ln L
N
Yi
i 1
Λ( X i )X i
1 X i
(PXi i
)2
(1
Pi
)
Pi
(1
Pi
)
随机误差项ui非正态且存在异方差性
Yi 0 1 X1i k X ki ui X i ui
0 Pi E (Y i ) X i 1
可能不成立
当用线性概率模型进行预测,预测值 X i 落在区间 [0,1]之内时,则没有什么问题;但当预测值 X i 落
0 Pi E (Y i ) X i 1
可能不成立
所以此时必须强令预测值(概率值)相应等于0或1。
因此,线性概率模型常常写成下面的形式
Pi
X i
1
0
0 X i 1 X i 1 X i 0
1.2 Y
1.0
0.8
0.6
0.4
0.2
0.0
Yi 0 没有购买住房
Yi 0 1 X i ui i 1,2, , N
令 Pi P(Yi 1) 那么 1 Pi P(Yi 0)
家被庭解选释择变购量买Yi 住的房分的布概为率是解释变量-家庭收入的一
个线性函数。我们称这一关系式为线性概率函数。
Yi
0
1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。
例 分析公司员工的跳槽行为。
员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。
员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即例 对某项建议进行投票。
建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即研究投票者投什么票的可能性,即(),1,2,3P Y j j ==。
从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。
本章主要介绍二元离散选择模型。
离散选择模型起源于Fechner 于1860年进行的动物条件二元反射研究。
1962年,Warner 首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。
70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。
模型的估计方法主要发展于20世纪80年代初期。
(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页)二、线性概率模型对于二元选择问题,可以建立如下计量经济模型。
1、线性概率模型的概念设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示其中,i X 为家庭的收入水平,i Y 为家庭购买住房的选择,即由于Y 是取值为0和1的随机变量,并定义取Y 值为1的概率是p ,则Y 的分布为 即随机变量Y 服从两点分布。
根据两点分布,可得Y 的数学期望为显然从而 12(|)i i E Y X X p ββ=+=(5-1)上述数学模型的经济学解释是,因为选择购买住房变量取值是1,其概率是p ,并且这时对应p 的表示是一线性关系,因此,Y 在给定i X 下的条件期望()i E Y X 可解释为在给定i X 下,事件(家庭购买住房)将发生的条件概率为(1)i i P Y X =,亦即家庭选择购买住房的概率是家庭收入的一个线性函数。
我们称这一关系式为线性概率函数。
由于,Y 服从两点分布,所以,Y 的方差为2、线性概率函数的估计及存在的问题对线性概率函数直接运用OLS估计,会存在以下困难。
(1)随机误差项的非正态性表现 表明i u 服从两点分布。
而在经典计量经济学中,假定i u 服从正态分布。
(2)i u 的异方差性。
事实上,根据i u 服从两点分布则i u 的方差为()(1)i i i Var u p p =-。
表明i p 随着i 的变动是一个变量,则i u 的方差不是一个固定常数。
(3)利用加权最小二乘法修正异方差取权数为具有同方差。
在具体估计线性概率模型时,用ˆiY 作为p 的估计来计算权数w 的估计wˆ。
3、可决系数2R 的非真实性。
由于,被解释变量Y 只取值1或0,不可能有估计的线性概率模型能很好地拟合这些点,所以,这时计算的2R 会比1小许多,在大多数例子中,2R 介于与之间。
4、0≤()i i E Y X ≤1不成立。
克服这一问题可直接从对线性概率模型的估计,求出ˆi Y ,用人工的方法定义当ˆi Y >1时,取ˆi Y =1;当ˆi Y <0时,取ˆiY =0。
但要比较好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的Logit 模型和Probit 模型。
第二节 Logit 模型一、Logit 模型的产生1、产生Logit 模型的背景由上述介绍可知,对于线性概率模型来说,存在一些问题,有的问题尽管可以用适当的方法加以弥补,但并不完善和理想。
(1)古典假定不再成立,如存在异方差性,可用加权OLS 方法加以弥补。
(2)在线性概率模型中,对于不满足0≤()i i E Y X ≤1的情况,用人工的方法处理,即当ˆi Y >1时,取ˆiY =1 当ˆi Y <0时,取ˆiY =0 虽然能够弥补不足,但仍然具有较强的主观因素。
(3)经济意义也不能很好地得到体现。
在线性概率模型12(|)i i E Y X X p ββ=+=中,概率(1)P Y =会随着i X 的变化而线性变化,但这与实际情况通常不符。
例如购买住房,通常收入很高或很低,对于购买住房的可能性都不会有太大的影响,而当收入增加很快时,对购买住房的影响将会很大。
所以,购买住房的可能性与收入之间并不是线性关系,有可能是一种非线性关系。
2、Logit 模型的含义综合上述讨论,我们所需要的是具有如下二分性质的模型。
(1)随着i X 的减小,i p 趋近0的速度会越来越慢;反过来随着i X 的增大,i p 接近1的速度也越来越慢,而当i X 增加很快时,i p 的变化会比较快。
故i p 与i X 之间应呈非线性关系。
(2)并且由概率的属性,i p 的变化应始终在0和1之间。
因此,一个很自然的想法是采用随机变量的分布函数来表示i p 与i X 的这种非线性关系。
从几何图形看,所需要的模型有点像图那样,概率位于0与1之间,并随着i X 非线性地变化。
图 一个累积分布函数的图形形如图所示的S 型曲线,就是随机变量的一个累积分布函数(CDF )。
因此,当回归中的被解释变量是取0和1的二分变量时,并且概率值的变化与解释变量i X 之间有上述变化特征,则可用CDF 去建立回归模型。
在二分被解释变量的研究中可使用多种分布函数(Cox ,1970)来表示。
但最常用的是Logistic 分布函数和标准正态分布函数,前者导出Logit 模型,后者导出Probit 模型。
(3)Logistic 分布函数设 12()11()11i i i i z X p F z e eββ--+===++ (5-2) 式中,12i i Z X ββ=+。
并且在该表达式中,有如下变动规律,当i Z →+∞时,1i p →;当i Z →-∞时,0i p →;当0i Z =时,12i p =。
称(5-2)式为Logistic 分布函数,它具有明显的S 型分布特征。
(4)Logit 模型以下是由Logistic 分布函数导出Logit 模型。
其中,1i ip p -为机会概率比(简称机会比,下同),即事件发生与不发生所对应的概率之比。
称(5-3)式为Logit 模型。
3、Logit 模型的特点(1)随着P 从0变到1,ln()1p p-从-∞变到∞(亦即i Z 从-∞变到∞)。
可以看出,在LPM 中概率必须在0与1之间,但对Logit 模型并不受此约束。
(2)ln()1p p-对i X 为线性函数。
(3)当ln()1p p -为正的时候,意味着随着i X 的增加,选择1的可能性也增大了。
当ln()1p p-为负的时候,随着i X 的增加,选择1的可能性将减小。
换言之,当机会比由1变到0时,ln()1p p-会变负并且在幅度上越来越大;当机会比由1变到无穷时,ln()1p p-为正,并且也会越来越大。
4、Logit 模型与线性回归模型的区别(1)Logit 模型为非线性模型,尽管等式右端看上去是线性形式,而普通回归模型是线性模型。
(2)线性回归模型研究被解释变量Y 的均值(|)i E Y X 与解释变量i X 之间的依存关系,而Logistic 分布函数研究的是事件发生的概率(1|)i P Y X =与解释变量i X 的依存关系。
(3)线性回归模型中包含随机误差项i u ,对i u 的要求是要满足基本假定,而Logistic 分布函数没有出现随机误差项,对模型没有这样的要求。
(4)在估计Logit 模型时,要求数据必须来自于随机样本,即各观测值相互独立,或者说要求样本分布与总体分布具有同一性,而对线性回归模型一般情况下并无这样严格的要求。
此外,Logit 模型与线性回归模型的一个相同的要求是,解释变量之间要无多重共线性,否则,会导致参数估计的方差变大和不稳定。
二、Logit 模型的估计为了估计Logit 模型,除了i X 外,我们还应有ln()1p p-的数值。
由于i p 只取值为1和0(即事件发生或不发生,如买房或不买房),使得ln()1p p -无意义,通常情况下,i p 没有具体的数据,所以直接对Logit 模型进行估计有困难。
这时,可有以下估计方法。
1、根据数据类型选用OLS 方法可通过市场调查获得分组或重复数据资料,用相对频数ˆi i ir p n =作为i p 的估计。
以购买住房为例,将购买住房的情况分组,假设第i 组共有i n 个家庭,收入为i X ,其中有i r 个家庭已购买住房,其余未购买。
则收入为i X 的家庭,购买住房的频率为 将其作为i p 的估计,并代入对数机会比,有于是,样本回归函数为对上式可直接运用OLS 法估计未知参数了。