离散选择模型
离散选择模型

Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )
离散选择模型完整版

离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。
《离散选择模型》课件

极大似然估计法
通过最大化似然函数,估计模型 的参数值。
差分法估计法
通过对变量的差分进行估计,减 少了共线性问题的影响。
一般化估计方程法
通过建立一般化估计方程,对参 数进行估计。
离散选择模型的应用
公共交通出行方式选择
分析人们在选择公共交通出行方式时的决策行为,为政府制定交通政策提供依据。
食品品牌选择
确定性
选择结果是确定的,参与者 不受随机因素的影响。
离散选择模型的数学模型
1Байду номын сангаас
多项式Logit模型
通过对选择概率进行建模,预测参与者选择各个选项的概率。
2
二项式Logit模型
基于二项分布,预测参与者是否选择某个选项。
3
线性概率模型
使用线性回归方法,预测选择某个选项的概率。
离散选择模型的参数估计方法
离散选择模型是一种描述人们在面临离散选择时决策行为的数学模型。
2 离散选择模型的应用领域
离散选择模型被广泛应用于诸多领域,如公共交通、市场营销和行为经济学等。
离散选择模型的基本假设
可比性
各个选择项之间可以进行比 较,存在客观标准用于决策。
独立性
参与者之间的选择行为是独 立的,不受其他参与者的影 响。
《离散选择模型》PPT课 件
离散选择模型是一种用于分析人们在面临离散选择时的决策行为的统计模型。 本课件将介绍离散选择模型的定义、基本假设、数学模型、参数估计方法、 应用、不足及未来发展方向。
什么是离散选择模型
离散选择模型是一种用于研究人们在面临可选项时所作出的离散决策行为的统计模型。
1 离散选择模型的定义
将离散选择模型与其他决策模 型进行结合,以提高模型的准 确性和解释能力。
离散选择模型

六、二元选择模型的参数检验 6.1 单个系数的显著性检验
一个解释变量(对二元决策的概率)是否有显著性影响的检验,如同正态
线性回归分析的单个系数的检验类似,根据模型中的待估系数与其方差计算 z 统计量,并检验假设 H0 : βi = 0 。
6.2 总体显著性检验 由于 Logit 模型、Probit 模型是非线性的,在同时检验多个系数是否为 0 时,
33潜回归我们假设存在一个不可观察的潜在变量称为决策倾向是指标变量的连续性函数记为iy它与指标变量ix之间具有如下线性关系i1kkiiiyxxu该方程称为潜回归方程其中iu是随机扰动项1ikixx??????????1k??????????34量变临界值选取量变到多少时个体才进行选择呢
离散选择模型
郑安
是估计系数的协方差
矩阵, βˆ 是无约束模型得到的估计值。可以证明,W 渐进服从 χ 2 (k −1) 分布。
所以 W 检验只需要估计无约束模型 (2)对数似然比检验(只适用于线性约束) H0 : β2 = β3 = " = βk = 0
检验统计量: LR = −2[ln L(βˆR ) − ln L(βˆ)]
其中,ln L(βˆR ) 是约束模型的最大对数似然函数值,ln L(βˆ) 是非约束模型的最大
对数似然函数值。可以证明,在零假设下,LR 渐进服从 χ 2 (k −1) 分布。所以 LR
检验既需要估计有约束模型,又需要估计无约束模型 (3)拉格朗日乘子检验(适用于线性和非线性约束) H0 : β2 = β3 = " = βk = 0
离散选择模型起源于 Fechner 于 1860 年进行的动物条件二元反射研究。1962 年,Warner 首次应用于经济领域。20 世纪 70 和 80 年代,离散选择模型普遍应 用于经济布局、交通问题、就业问题、购买决策问题等经济决策领域的研究。 模型的估计方法主要发展于 20 世纪 80 年代初期,远远滞后于模型的应用,并 且至今还在不断改进,它属于微观计量经济学——即研究大量个人、家庭或企 业的经济信息,McFadden 因为在微观计量经济学领域的贡献而获得 2000 年诺 贝尔经济学奖。
离散选择模型和连续选择模型的比较分析

离散选择模型和连续选择模型的比较分析一、引言选择模型是指通过研究个体选择行为来预测市场需求的一种模型。
根据选择的属性是否可测,选择模型可以分为离散选择模型和连续选择模型。
离散选择模型是指选择行为的结果是分类的,例如选择是A、B还是C。
而连续选择模型是指选择行为的结果是连续的,例如选择的数量是多少。
本文将对离散选择模型和连续选择模型进行比较分析。
二、离散选择模型离散选择模型常用于解释市场需求中的离散选择行为,包括二项选择模型、多项选择模型、有序多项选择模型等。
1、二项选择模型二项选择模型常用来解释个体在两个选项之间进行选择的概率。
其模型设定为,在两个选项中,个体选择第一个选项1的概率为P,选择第二个选项2的概率为1-P,二者之和为1。
该模型假设个体根据其效用(utility)差异进行选择,即个体会选择能够获得最大效用的选项。
2、多项选择模型多项选择模型常用来解释个体在多个选项之间进行选择的概率。
其模型设定为,对于N个选项,个体选择第i个选项的概率为Pi,所有选项的概率之和为1。
该模型假设个体会选择能够获得最大效用的项,效用函数通常采用对数线性模型(Logit Model)。
3、有序多项选择模型有序多项选择模型常用来解释个体在多个选项之间进行有序选择的概率。
例如,当个体面对三个不同价格的产品时,个体有可能在选择第一价格区间的产品、第二价格区间的产品或者第三价格区间的产品。
该模型假设选择的概率是对价值的一次函数,因此需要先对选项进行排序以确定选择的顺序,然后再推导选择的概率。
三、连续选择模型连续选择模型常用于解释市场需求中的连续选择行为,包括对数线性模型、线性规划模型等。
1、对数线性模型对数线性模型是一种常用的连续选择模型。
它假设个体的效用函数是一个对数线性函数,其中因变量是一个连续变量,例如价格、数量等。
对数函数可以将效用函数转化为线性形式,从而便于分析。
2、线性规划模型线性规划模型是一种常用的数学优化模型,用于解决连续选择问题。
离散选择模型ppt课件

PYi 1 / X i
6
例如,我们对一个是否拥有自有住房的案例进行回归,
结果如下: Yi 1.2009 0.1056X i (0.1483 ) (0.0087) R 0.8078
2
回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位 (1万元人民币),平均拥有住房的概率将增加10.56%:
11
2.解释变量同样为定性变量的情况
ቤተ መጻሕፍቲ ባይዱ
Pi Li ln 1 P 0 1 X i ui i P 1 ˆ Xi=1时: L1 ln 1 P 0 1 (1) 1 P0 ˆ Xi=0时: L0 ln 1 P 0 (2) 0 P 1 1 P 1 如果定义: OR P0 1 P 0 1 ˆ L ˆ 那么就有: lnOR L OR e 1 0 1
15
回归的结果如下:
. logit y x Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood = = = = -253.69187 -242.36572 -242.32729 -242.32729 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Std. Err. .2910729 .1179409 z 4.50 -2.10 P>|z| 0.000 0.036 = = = = 366 22.73 0.0000 0.0448
这意味着在其他条件都相同的情况下,抽烟人士患食道癌的 可能性是不抽烟人士的3.7倍还要多。
第五周:离散选择模型分析技术——每周一讲多变量分析

第五周:离散选择模型分析技术——每周一讲多变量分析离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis,CBC),是一种非常有效且实用的市场研究技术。
该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。
这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。
同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。
根据Sawtootch公司调查显示:在市场研究中,CBC方法正在快速增长,应用比传统的结合分析(联合分析)应用更多!离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。
通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。
例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。
离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。
它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。
离散选择模型解释

离散选择模型解释离散选择模型,听起来是不是有点高大上,有点让人摸不着头脑?其实啊,它没那么神秘!咱们先来说说啥是离散选择模型。
就好比你去逛街买衣服,面对一排五颜六色、款式各异的衣服,你只能选一件。
这时候你的选择就是离散的,要么选这件,要么选那件,不可能同时选好几件穿在身上。
离散选择模型就是研究像这样的选择行为的。
比如说,你要出门旅游,有几个目的地可以选:海边、山区、城市。
那影响你最终决定的因素可能有很多,比如海边风景美但可能人多;山区空气好但交通不太方便;城市热闹但消费高。
离散选择模型就能帮我们分析这些因素是怎么影响你的最终决定的。
这就好像是一场内心的拔河比赛。
各种因素在你心里较着劲,有的使劲把你往海边拉,有的拼命把你往山区拽,还有的用力把你往城市推。
最后哪个因素的力量大,你就选择了对应的地方。
再举个例子,你每天早上纠结吃包子还是油条。
包子馅种类多,油条口感酥脆。
价格、营养、喜好等等都会影响你的选择。
离散选择模型就是要搞清楚这些因素到底谁占了上风,让你做出了决定。
你想想,要是商家能搞懂消费者在他们的产品里是怎么做出离散选择的,那他们不就能更好地迎合消费者的需求,赚更多的钱啦?反过来,政府也能通过这个模型了解大家对公共服务的选择偏好,从而提供更合大家心意的服务。
离散选择模型可不只是在经济领域有用哦。
比如说交通规划,是修地铁还是建公交专线?教育方面,是选择传统教学还是在线课程?甚至在医疗领域,选择哪种治疗方案,都能通过这个模型来分析。
所以说,离散选择模型就像是一个神奇的透视镜,能让我们看清那些看似随机的选择背后隐藏的规律和影响因素。
它能帮助我们做出更明智的决策,无论是个人生活中的小选择,还是社会发展中的大决策。
你说,这么有用的模型,咱能不好好研究研究,好好利用利用吗?。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
probit回归分析
probit模型也是一种广义的线性模型。服从正态分布。 当因变量是名义变量时,Logit和Probit并没有本质的区别,
一般情况下可以换用。区别在于采用的分布函数不同,Logit模
值得注意的是,因变量并不仅仅局限于“是”或
“否”这样的二分变量。
比如,美国总统的选举问题。假定有三个政党—
ቤተ መጻሕፍቲ ባይዱ
—民主党、共和党和独立党派,因变量就是三分变量。
此外,还可能存在五分变量或者多分因变量的问题。 在这种情况下,我们运用相应的模型来预测每种事 件发生的概率,因此,含有定性变量作为因变量的模型 通常被成为概率模型。
那么: 从而:
1 e Pi Li ln 1 P 0 1 X i ui i
1 Pi
1
0 1 X i
1 e e 0 1 X i 1 e 0 1 X i
参数的含义是什么?
这样的事件发生比Li,不仅对Xi是线性的,对参数也是线性的,而
Logistic regression Log likelihood = -242.32729 y x _cons Coef. 1.31073 -.2478362
[95% Conf. Interval] .7402379 -.4789961 1.881223 -.0166762
OR e e1.3107 3.7089 表示什么含义?
这意味着在其他条件都相同的情况下,抽烟人士患食道癌的 可能性是不抽烟人士的3.7倍还要多。
1
3.多个解释变量的情况 在很多情况下,解释变量既有定性变量,又有连续变量,而
且连续变量并非分组变量,很难计算出解释变量取不同值时事件
发生的频率,在这种情况下,又该如何处理? 例如:新的教学方法对大一新生成绩的影响 如果学生期末成绩为A,则记为被解释变量PJ=1,如果期末成绩为
某种方式取决于解释变量,比如说取决于收入:
I i 1 2 X i
而且指数Ii的值越大,家庭拥有住房的概率就越高。 其中Xi表示第i个家庭的收入水平。 Xi仍然具有分组的特征
拥有自有住房的决定如何与Ii发生关系呢? 一个合理的假定就是:对每一个家庭而言,都存在一个门
槛值Ii *,当Ii * ≤ Ii时,该家庭拥有自己住房,否则不拥有,因此 有:
P i P (Y 1 / X i ) P ( I i * I i ) F ( I i ) 1 2 1 2
且发生概率将永远落在0和1之间, Li就被称为logit,像*这样的模 型也就被称为logit模型。
Pi Li ln 1 P 0 1 X i ui i Pi 0 1 X i e 现在定义: 1 Pi
Pi 当X变化一个单位时: e 0 1 X i 1 1 Pi * * 1 1 e e 1 因此有:
PYi 1 / X i
例如,我们对一个是否拥有自有住房的案例进行回归,
结果如下: Yi 1.2009 0.1056X i (0.1483 ) (0.0087) R 0.8078
2
回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位 (1万元人民币),平均拥有住房的概率将增加10.56%:
[95% Conf. Interval] .2202523 -.166234 -.1466728 -23.88261 5.329097 .4448328 3.933929 -3.502907
Li 13.6928 2.7747 GPA PRESi 1.8936 TANi i 0.1393
2.解释变量同样为定性变量的情况
Pi Li ln 1 P 0 1 X i ui i P 1 ˆ Xi=1时: L1 ln 1 P 0 1 (1) 1 P0 ˆ Xi=0时: L0 ln 1 P 0 (2) 0 P 1 1 P 1 如果定义: OR P0 1 P 0 1 ˆ L ˆ 那么就有: lnOR L OR e 1 0 1
回归的结果如下:
. logit y x Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood = = = = -253.69187 -242.36572 -242.32729 -242.32729 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Std. Err. .2910729 .1179409 z 4.50 -2.10 P>|z| 0.000 0.036 = = = = 366 22.73 0.0000 0.0448
Std. Err. .0041431 .0957771
[95% Conf. Interval] .069612 -1.879533 .0887202 -1.437808
e 1 e0.0792 1.082
这就意味着,当收入增加1万元时,根据该样本回归的结果认为, 拥有自有住房的发生比将增加8.2%
因为通常情况下,我们考虑被解释变量为二元变
量的模型,这种模型也因此被称为二元选择模型或者离
散选择模型,如果为多元,则称之为多元选择模型。 离散选择模型起源于Fechner于1860年所进行的动
物条件二元反射研究,1962年Warner首次将这一方法
应用与经济研究领域。Mcfadden因为在离散选择模型
logistic回归分析
logistic回归为概率型非线性回归模型,是研究分 类观察结果(y)与一些影响因素(x)之间关系的一种多变 量分析方法。 1.多元线性回归方法要求 Y 的取值为连续性随机变量
2.多元线性回归方程要求Y与X间关系为线性关系
3.多元线性回归结果不能回答“发生与否” logistic回归方法补充多元线性回归的不足
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d
危险因素 x= 1 p1 1-p1
Y 发病=1 不发病=0
x= 0 p0 1-p0
a p1 ac
有暴露因素人群中发病的比例
1 反映了在其他变量固定后,X=1与X=0相比发生Y事件的对
但问题是,当收入10万元,或者更少的情况下,平均拥有住房的
概率为负值,而当收入为20万元,或者更多的情况下,平均拥有 住房的概率大于1,因此,我们必须考虑相应的方法对这一问题 进行处理。
对同样的问题,我们采用如下的模型形式:
E (Yi / X i ) PYi 1 / X i
1
( 0 1 X i )
估计。
对模型* 估计之后,如何计算指定收入水平下拥有住房的概率?
回归结果如下:
. reg Lhat Source Model Residual Total Lhat x _cons x SS 7.91931987 .173522962 8.09284283 Coef. .0791661 -1.65867 df 1 8 9 MS 7.91931987 .02169037 .899204759 t 19.11 -17.32 P>|t| 0.000 0.000 Number of obs F( 1, 8) Prob > F R-squared Adj R-squared Root MSE = = = = = = 10 365.11 0.0000 0.9786 0.9759 .14728
*
二、logit模型的估计
1.一般情况下的估计 为了估计事件发生的概率之比Li,除了需要知道解释变量的数 据之外,还得知道Li的数值。此时,该如何处理?
依然以是否拥有自有住房为例进行说明,不同的收入水平下
有很多个家庭N,在这一收入水平下有n个家庭拥有自己的住房, 其余N-n个家庭没有自己的住房,那么我们就可以用事件发生的相 对频率作为事件发生概率的估计值Pi ,并利用这个估计值得到Li 。 事实上,当样本容量足够大的时候,这样的频率将是概率的良好
2.两值因变量的logistic回归模型方程
一个自变量与Y关系的回归模型
Yi 0 1 X i ui
1 其中: Y 0
条件期望:
如果拥有自己的住房 如果没有自己的住房
E(Yi / X i ) 0 1 X i
记家庭拥有自有住房的条件概率为P(Yi=1/Xi),则不拥有自己住 房的概率就是1- P(Yi=1/Xi) : 那么: E (Yi / X i ) 1 PYi 1 / X i 0 1 PYi 1 / X i
OR e
3
e1.8936 6.6432
这意味着在其他条件都相同的情况下,或者说控制了其他影 响学生期末成绩的情况下,接受新教学方法的学生得到A的可能
性是没有接受新教学方法学生的6倍多。
需要注意的是,在logit模型中,模型的拟合优度衡量的是正
确预测次数的概率,这样的拟合优度对于回归而言是次要的,回
数优势比。
回归系数β1与OR β1 =0,OR=1 β1 >0,OR>1 β1 <0,OR<1,
X与Y的关联 无关 有关,危险因素 有关,保护因子
例:抽烟与否与患食道癌的概率 Y(患食道癌) X(抽烟习惯) 发生的频数
1
2 3
1
0 1
1
1 0
55
19 128
4
0