第八讲_离散因变量模型(LPM_Probit_Logit)

合集下载

第八章 离散因变量模型

第八章 离散因变量模型

第八章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。

在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)一、二元选择模型设因变量1、线性概率模型(LPM模型)如果采用线性模型,给定,设某事件发生的概率为P i,则有所以称之为线性概率模型。

不足之处:1、不能满足对自变量的任意取值都有。

2、3、所以线性概率模型不是标准线性模型。

给定,为使,可对建立某个分布函数,使的取值在(0,1)。

2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。

其中,二元Logit模型是掌握多类别Logit模型的基础。

图4-1 逻辑曲线(Logit Curve)以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。

为了使二元选择问题的研究成为可能,首先建立随机效用模型:令表示个体i选择=1的效用,表示个体i选择=0的效用,显然当时,选择结果为1,反之为0。

将两个效用相减,即得随机效用模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常用的二元选择模型——Logit模型。

离散选择模型

离散选择模型

模型检验
类似R 类似 2
类似F检验 类似 检验
Company
LOGO
3.线性概率模型存在的问题
(1)因变量的期望值与Xβ的取值范围不同 (2)异方差问题 (3)随机扰动项不再是正态分布,而是服从二项分布。 (4)LPM模型假定自变量和Y=1的概率之间存在线性关系,而此 关系往往不是线性的。
(5) 2 或 R 2 调整的不适合用来测度拟合优度。 R 通常用“模型正确预测的观测值的百分比”来代替。
【例题2】市长竞选,谁会投您的票?
数据如下
面板数据模型的设定与检验
根据以上数据我们得到如下结果:
根据上述回归结果,我们可以得出如下结论:年老一些、 富裕一些的选民更喜欢投票给候选人甲。
“模型正确预测的观测值的百分比”的计算
列表给出CAND1的拟合值,每个大于等于0.5的拟合值计入 CAND1为1的预测,而小于0.5的拟合值则计入CAND1为0的预 测。汇总统计30个观测值中,27个(或90%)预测正确。选甲的 14人中,12人(或85.7%)预测正确。选乙的16人中,15人(或 2 93.8%)预测正确。而R 是0.58,表明模型解释了因变量的58% 的变动,这远低于90%的正确预测比例。
模型检验
模型检验
2.整个方程的显著性检验 整个方程的显著性检验 采用LR(最大似然比)统计量和 ( 采用 (最大似然比)统计量和LM(拉格 朗日乘子)统计量, 朗日乘子)统计量,通常值越大则越拒绝原假 设(H0:方程不显著) :方程不显著)
【注意】 注意】 第一,二元选择模型输入的是y的值,但输出的是y*的值。 第一,二元选择模型输入的是 的值,但输出的是 的值。 的值 的值 第二,二元选择模型中的系数不能被解释成对因变量的边际 第二, 影 响,只能从符号上判断,如果为正,表明解释变量越大,因变 只能从符号上判断,如果为正,表明解释变量越大, 量取1的概率越大,反之,如果系数为负,表明相应的概率将越小。 量取 的概率越大,反之,如果系数为负,表明相应的概率将越小。 的概率越大

probit模型与logit模型

probit模型与logit模型

probi‎t模型与l‎o git模‎型2013-03-30 16:10:17probi‎t模型是一‎种广义的线‎性模型。

服从正态分‎布。

最简单的p‎r obit‎模型就是指‎被解释变量‎Y是一个0‎,1变量,事件发生地‎概率是依赖‎于解释变量‎,即P(Y=1)=f(X),也就是说,Y=1的概率是‎一个关于X‎的函数,其中f(.)服从标准正‎态分布。

若f(.)是累积分布‎函数,则其为Lo‎g isti‎c模型Logit‎模型(Logit‎model‎,也译作“评定模型”,“分类评定模‎型”,又作Log‎i stic‎regre‎s sion‎,“逻辑回归”)是离散选择‎法模型之一‎,属于多重变‎量分析范畴‎,是社会学、生物统计学‎、临床、数量心理学‎、市场营销等‎统计实证分‎析的常用方‎法。

逻辑分布(Logis‎t ic distr‎i buti‎o n)公式P(Y=1│X=x)=exp(x’β)/1+exp(x’β)其中参数β‎常用极大似‎然估计。

Logit‎模型是最早‎的离散选择‎模型,也是目前应‎用最广的模‎型。

Logit‎模型是Lu‎c e(1959)根据IIA‎特性首次导‎出的;Marsc‎h ark(1960)证明了Lo‎g it模型‎与最大效用‎理论的一致‎性;Marle‎y (1965)研究了模型‎的形式和效‎用非确定项‎的分布之间‎的关系,证明了极值‎分布可以推‎导出Log‎i t 形式的‎模型;McFad‎d en(1974)反过来证明‎了具有Lo‎g it形式‎的模型效用‎非确定项一‎定服从极值‎分布。

此后Log‎i t模型在‎心理学、社会学、经济学及交‎通领域得到‎了广泛的应‎用,并衍生发展‎出了其他离‎散选择模型‎,形成了完整‎的离散选择‎模型体系,如Prob‎i t模型、NL模型(Nest Logit‎model‎)、Mixed‎Logit‎模型等。

模型假设个‎人n对选择‎枝j的效用‎由效用确定‎项和随机项‎两部分构成‎:Logit‎模型的应用‎广泛性的原‎因主要是因‎为其概率表‎达式的显性‎特点,模型的求解‎速度快,应用方便。

probit logit 解析表达式

probit logit 解析表达式

probit logit 解析表达式
Probit模型和Logit模型是二项式回归模型的两种常见形式,用于分析二分类问题。

它们的表达式如下:
1. Probit模型表达式:
Probit模型使用累积标准正态分布函数(cumulative standard normal distribution function)来建模概率。

对于观测变量y的概率p,Probit模型的表达式为:
P(y=1|x) = Φ(β₀ + β₁x₁ + β₂x₂ + ... + β_kx_k)
其中,Φ代表标准正态分布函数,β₀、β₁到β_k表示模型的参数,x₁到x_k是自变量。

2. Logit模型表达式:
Logit模型使用逻辑函数(logistic function)来建模概率。

对于观测变量y的概率p,Logit模型的表达式为:
P(y=1|x) = 1 / (1 + exp(-(β₀ + β₁x₁ + β₂x₂ + ... + β_kx_k)))其中,exp表示指数函数,β₀、β₁到β_k表示模型的参数,x₁到x_k是自变量。

这两个模型的主要区别在于建模概率的函数形式不同。

Probit 模型使用标准正态分布函数,而Logit模型使用逻辑函数。

在实际应用中,选择哪种模型取决于具体情况和问题需求。

离散选择模型

离散选择模型

Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )

【推荐文档】离散因变量PPT

【推荐文档】离散因变量PPT

P iF(01xi)2 1
e dt 01xi t2/2
将其转化为线性模型,则为: F1(Pi)01xi
离散因变量模型应用
在设定模型之后,我们要对模型的参数 进行估
计。对参数估计方法采用的是极大似然估计法。 由于Logit模型或Probit模型实际上都是非线性回 归模型,因此回归模型的系数不能像普通线性回 归那样理解为对因变量的解释程度,而只能从符 号上判断解释变量增加引起的相应变量的出现某 种结果的概率增减。
一、logistic模型
Logistic模型,即逻辑模型是由Verhulst在1945年提出 ,最早被用来描述生物生长规律(逻辑成长率)。现 在已经在经济与金融计量中得到广泛应用。它的具体 形式为:
1 Pi E(yi xi)e(01xi)
这一函数表达的是一条S曲线。
Pi
1
O
i
逻辑曲线
0 1xi
现在已经在经济与金融计量中得i 到广泛应用。
式中, 1 P i 称为机会差异比,即所研究事件“发生”与“
不发生”的概率之比。
离散因变量模型应用
二、Probit模型
当我们用逻辑分布函数去拟合S曲线时,得到Logit模型, 而当我们用正态分布函数去拟合S曲线时,而得到Probit 模型。Probit模型的具体形式为:
离散因变量模型应用
这一函数表达的是一条S曲线。
离散因变量模型应用 事件发生的条件概率
与 之间的非线性通常单调函数,即随着 的增加
少。
对参数估计方法采用的是极大似然估计法。
单调增加,或者随着的 减少
单调减
事件发生的条件概率
与 之间的非线性通常单调函数,即随着 的增加
单调增加,或者随着的 减少

离散因变量模型课件

离散因变量模型课件
特点
离散因变量模型可以处理分类数据,如性别、婚姻状况、学历等;可以分析不 同类别之间的比较和关系;通常采用概率论和统计学方法进行建模和分析。
离散因变量模型的应用场景
市场分析
用于分析市场细分、消费者行 为、品牌选择等,如消费者偏 好分析、市场占有率预测等。
人口学研究
用于分析人口统计数据,如婚 姻状况、生育率、教育程度等 ,可以揭示人口变化趋势和影 响因素。
自变量选择
根据研究目的和理论,选 择与因变量相关的自变量 ,可以是连续或离散变量 。
数据收集和处理
数据来源
确定数据来源,如调查、 数据库等。
数据清洗
对数据进行预处理,如缺 失值填充、异常值处理等 。
数据转换
对数据进行必要的转换, 以满足模型要求。
模型选择与拟合
模型选择
根据研究目的和数据特点,选择合适 的离散因变量模型,如Logit模型、 Probit模型等。
案例三:信用评分模型
总结词
信用评分模型是离散因变量模型在金融领域的典型应用,用于评估个人或企业的信用风 险。
详细描述
信用评分模型是一种常见的离散因变量模型应用,用于评估个人或企业的信用风险。通 过收集个人或企业的信用记录、历史表现和其他相关信息,可以建立信用评分模型,对 个人或企业的信用等级进行评估。这种模型可以帮助金融机构更准确地评估贷款申请人
社会学研究
用于分析社会现象和人类行为 ,如犯罪率、社会阶层、文化 差异等,可以揭示社会规律和 影响因素。
生物学研究
用于分析生物分类、物种分布 、生态平衡等,如物种多样性
分析、生态平衡评估等。
离散因变量模型与其他模型的比较
与连续因变量模型比较
离散因变量模型处理的是分类数据,而连续因变量模型处理 的是连续数据;离散因变量模型通常采用概率论和统计学方 法进行建模和分析,而连续因变量模型可以采用回归分析、 时间序列分析等方法。

logit 和probit模型的系数解释

logit 和probit模型的系数解释

logit 和probit模型的系数解释Logit和Probit模型是通常在二分类问题中使用的统计模型,这些模型的系数表示了解释变量对于被解释变量的影响程度。

在本文中,我将解释Logit和Probit模型的系数含义,并探讨它们在实际应用中的解释。

首先,我们先来了解一下Logit和Probit模型。

这两种模型都属于广义线性模型(Generalized Linear Models,简称GLM),使用类似的数学形式来描述被解释变量与解释变量之间的关系。

对于一个二分类问题,我们希望找到一个函数f(x)来预测被解释变量y=1的概率P(y=1|x),其中x表示解释变量。

Logit模型将被解释变量与解释变量的关系建模为一个logistic函数,它的数学形式是:P(y=1|x) = 1 / (1 + exp(-z))其中,z = β0 + β1*x1 + β2*x2 + ... + βn*xn表示线性预测器,β0,β1,...,βn表示系数。

这些系数可以表示是模型的"回归系数",它们衡量了解释变量在对被解释变量的影响程度上的贡献。

Logit模型中的系数解释是基于"对数几率比"(log odds ratio)的改变来描述的。

具体来说,系数β1的解释是:当其他解释变量保持不变时,若解释变量x1的值增加一个单位,则被解释变量y=1的对数几率(即log odds)将增加β1个单位。

换句话说,系数β1表示了解释变量x1对于预测y=1的概率的影响程度。

如果β1是正的,表示x1的增加会增加预测y=1的概率,而如果β1是负的,则表示x1的增加会减少预测y=1的概率。

Probit模型的数学表达形式与Logit模型略有不同,它使用了标准正态分布的累积分布函数(CDF)来建模被解释变量与解释变量之间的关系:P(y=1|x) = Φ(z)其中,Φ(z)表示标准正态分布的累积分布函数,z的计算方式与Logit模型相同。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Li ,
P为y取1时的概率
(3) Logit 模型的边际分析 1、自变量的变化对响应概率(p)的影响:
dp e f (Z ) dZ (1 e Z )2
Z
p d ln( ) dZ 1 p j dx j dx j
p dp Z eZ f (Z ) j j (z)(1-(z)) j Z 2 x j dZ x j (1 e )
(0.873)
(4)检验:可以直接根据括弧里的 p 值进行判断,也可以 利用正态分布表查临界值进行检验。
检验假设 H :
0
2
0
p
H0
z
z 1
2 1

表查出的1- 其中 z 为由正态N(0,1)

2

2
分位点。
当=0.1时查表可得 z
1

2
1.65

2
当=0.05时查表可得 z
2、对Logit模型系数的解释:
p odds ln( ) L ln(odds) 1 p odds j x j x j x j x j
当 xj 增加一个单位时机会比率的增长率为

j
例 1:
南开大学国际经济研究所1999级研究生考试分 数及录取情况见数据表(N = 95)。
U i1 U i0 X i (1 0 ) (i1 i0 )
y Xi
* i
i
yi 1( yi 0) y 0( y i 0) i
选择1
不选择1 (选择0)
(二) 二元选择的经济计量一般模型
P ( yi 1 X i ) P ( yi* 0) P ( i* Xi ) 1 P ( i* Xi ) 1 F ( X i ) F ( X i )
模型形如:
(调用数据库和程序E:\logit)
Log likelihood =
-3.979482
y
Coef.
Std. Err. 0.348036 2.984581 124.5184
z 1.95 -0.16 -1.95
P>z 0.052 0.873 0.052
[95% Conf. -.0050766 -6.326276 -486.509
2 2
F ( X i B) 1 F ( X i B)
E ( yi X i ) P F ( X i B) r 斜率: x j x j x j dF ( X i B) ( X i B) f ( X i B) j d ( X i B) x j
(四) 分布函数F的选取
选取分布函数F的原则:
0 F ( X i B) 1
X i B
F ( X i B) 1
X i B
F是单调函数
F ( X i B) 0
按照上述原则F取作累计分布函数。 下面介绍三种不同分布函数下的计量模型: LPM, Probit, Logit
1、 线性概率模型(LPM)
F ( X i B) ( X i B)
Xi B

(2 )
12
e
( x2 2)
dx
模型
yi ( X i B) i
X B 是x的线性函数,Y 是X 的非线性函数
i
Z

pi ( X i B)
1
Xi B

(2 )
12
e
( x2 2)
dx
Zi F ( pi ) X i B i
'
eZ ∵ ( Z ) 1 eZ pi ln( ) XiB 1 pi
得到:
pi ( X i B) e Xi B 1 pi 1 ( X i B)
yi 取1或0
取值范围
Li X i B i
pi 0,1
pi 其中 Li ln 1 pi
机会比率odds
Interval] 1.359199 5.373068 1.593967
score .6770611 d1 -.4766044 _cons -242.4575
(3)得到估计式:
注:括号里是p值。
p ln( ) 242.4576 0.6771Score 0.4766 D1 1 p
(0.052) (0.052)
1
1.96
因为 Z=2.05>1.96,所以score 变量在0.05的显著水平下 对Y的影响是显著的。 (5) 对参数加以解释:

2
0.6771
说明当考生分数增加一分,被录取的机会比率增长率增加0.6771. 另外,是否应届生对录取与否没有显著影响。

3. Probit模型
如果选择
F (t )
线性概率模型存在的问题及适用性
随机误差项是异方差:Var ( i ) pi (1 pi )
办法:可用WLS估计。 拟合值可能不在0-1之间,有可能大于1或小于0: 办法:强令预测值相应等于0或1 进行约束估计。
1
y
* i

y
0
i
Xi B 1 0 Xi B 1 Xi B 0
第九章 离散因变量模型


实际经济分析当中的离散变量问题 对于单个方案的取舍购买决策、职业的选择、贷 款决策; 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。 农业经济分析当中的离散因变量问题 农民技术采用、农村选举等等
内容
二元选择模型的三类模型介绍 二元选择模型的估计: 二元选择模型的检验: 二元选择模型的应用
定义变量: Y :考生录取为1,未录取为0; SCORE :考生考试分数; D1:应届生为1,非应届生为0。
数据表
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Y 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 SCORE 401 401 392 387 384 379 378 378 376 371 362 362 361 359 358 356 356 355 354 354 353 350 349 349 348 D1 1 0 1 0 1 0 0 0 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 0 1 obs 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 347 347 344 339 338 338 336 334 332 332 332 331 330 328 328 328 321 321 318 318 316 308 308 304 303 D1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 obs 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 303 299 297 294 293 293 292 291 291 287 286 286 282 282 282 278 275 273 273 272 267 266 263 261 260 D1 1 1 1 0 1 1 0 1 1 1 1 0 1 1 0 0 0 0 1 1 0 1 1 1 0 obs 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 256 252 252 245 243 242 241 239 235 232 228 219 219 214 210 204 198 189 188 182 166 123 D1 0 0 1 1 1 0 0 1 0 0 1 1 1 1 1 1 0 1 1 1 1 0
E( yi X i ) 1 P 0 (1 P) F (Xi )
F ( t ) 1 F (t )
Y E (Y X )
总体回归模型 样本回归模型
Y F ( XB) yi F ( X i B) i (i 1, 2......n)
(三) 二元选择模型随机误差项及斜率
(1)模型
Y

1
2
Score D1
3
(2)估计:用 logit 法估计。
模型结果:
Logit estimates
Y ( x)
Stata 命令:logit y score d1
Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 97 72.11 0 0.9006
(2) Probit 模型的边际分析
自变量的变化对响应概率(p)的影响:
dp 1 2Z2 f (Z ) e dZ 2
对于回归模型: yi F ( X i B) i
E(i ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B) 0
Var ( i ) E ( i2 ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B)
相关文档
最新文档