第八讲 离散因变量模型(LPM,Probit,Logit)
第八讲离散因变量模型LPM,Probit,Logit

E ( y i X i) 1 P 0 ( 1 P ) F ( X i )
YE(YX)
总体回归模型
样本回归模
YF(XB) y 型i F (X iB )i( i 1 ,2 ......n )
(三) 二元选择模型随机误差项及斜率
对于回归模型: yi F(XiB)i
E ( i ) 1 F ( X i B ) F ( X i B ) F ( X i B ) 1 F ( X i B ) 0
-.0050766 -6.326276
-486.509
Interval]
1.359199 5.373068 1.593967
(3)得到估计式: 注:括号里是p值。
ln (1 p p ) 2 4 2 .4 5 7 6 0 .6 7 7 1 S c o re 0 .4 7 6 6 D 1
(0.052) (0.052)
数据来源?根据全国粮食生产的区域布局分别从东北华北华中和西南四个区域采用分层随机抽样的方法分别选取辽宁省的辽阳县山东省的桓台县湖南省的南县和广西的马山县4个县40个乡镇80个村400个农户的样本主要针对农民粮食生产技术的需求和采用行为进行调查内容涉及县乡村各级的社会经济基本情况和农户特征技术需求技术采用等方面的内容以及县乡两级农业技术推广部门情况
LPM的估计方法:OLS
➢ 线性概率模型存在的问题及适用性
随机误差项是异方差:Var(i)pi(1pi)
办法:可用WLS估计。 ❖拟合值可能不在0-1之间,有可能大于1或小于0:
办法:强令预测值相应等于0或1 进行约束估计。
1
X iB 1
y y *
i
i 0 XiB1
0
XiB 0
LPM在实际的回归当中应用很少,用于理论模型的比较。
第八章 离散因变量模型

第八章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)一、二元选择模型设因变量1、线性概率模型(LPM模型)如果采用线性模型,给定,设某事件发生的概率为P i,则有所以称之为线性概率模型。
不足之处:1、不能满足对自变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建立某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。
其中,二元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。
为了使二元选择问题的研究成为可能,首先建立随机效用模型:令表示个体i选择=1的效用,表示个体i选择=0的效用,显然当时,选择结果为1,反之为0。
将两个效用相减,即得随机效用模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常用的二元选择模型——Logit模型。
probit模型与logit模型

probit模型与lo git模型2013-03-30 16:10:17probit模型是一种广义的线性模型。
服从正态分布。
最简单的pr obit模型就是指被解释变量Y是一个0,1变量,事件发生地概率是依赖于解释变量,即P(Y=1)=f(X),也就是说,Y=1的概率是一个关于X的函数,其中f(.)服从标准正态分布。
若f(.)是累积分布函数,则其为Log istic模型Logit模型(Logitmodel,也译作“评定模型”,“分类评定模型”,又作Logi sticregres sion,“逻辑回归”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销等统计实证分析的常用方法。
逻辑分布(Logist ic distri butio n)公式P(Y=1│X=x)=exp(x’β)/1+exp(x’β)其中参数β常用极大似然估计。
Logit模型是最早的离散选择模型,也是目前应用最广的模型。
Logit模型是Luc e(1959)根据IIA特性首次导出的;Marsch ark(1960)证明了Log it模型与最大效用理论的一致性;Marley (1965)研究了模型的形式和效用非确定项的分布之间的关系,证明了极值分布可以推导出Logi t 形式的模型;McFadd en(1974)反过来证明了具有Log it形式的模型效用非确定项一定服从极值分布。
此后Logi t模型在心理学、社会学、经济学及交通领域得到了广泛的应用,并衍生发展出了其他离散选择模型,形成了完整的离散选择模型体系,如Probi t模型、NL模型(Nest Logitmodel)、MixedLogit模型等。
模型假设个人n对选择枝j的效用由效用确定项和随机项两部分构成:Logit模型的应用广泛性的原因主要是因为其概率表达式的显性特点,模型的求解速度快,应用方便。
第八讲 离散因变量模型(LPM,Probit,Logit)

= F ( X i B) [1 − F ( X i B)]
∂E ( yi X i ) ∂F ( X i B ) ∂P r= = = 斜率: 斜率: ∂x j ∂x j ∂x j dF ( X i B ) ∂ ( X i B ) = = f ( X i B)β j d ( X iB) ∂x j
分布函数F的选取 (四) 分布函数 的选取
选取分布函数F的原则: 选取分布函数 的原则: 的原则
0 ≤ F ( X i B) ≤ 1
X iB → +∞
F ( X i B) → 1
X i B → −∞
F是单调函数 是单调函数
F ( X i B) → 0
按照上述原则F取作累计分布函数。 按照上述原则 取作累计分布函数。 取作累计分布函数 下面介绍三种不同分布函数下的计量模型: 下面介绍三种不同分布函数下的计量模型: LPM, Probit, Logit
注:括号里是p值。 括号里是 值
p ln( ) = −242.4576 + 0.6771Score − 0.4766 D1 1− p
(0.052) (0.052) (0.873) 值进行判断, (4)检验:可以直接根据括弧里的 p 值进行判断,也可以 )检验: 利用正态分布表查临界值进行检验。 利用正态分布表查临界值进行检验。
E ( yi X i )
P( yi = 0 X i ) = 1 − pi
= 1* P( yi = 1 X i ) + 0 * P( yi = 0 X i ) = 1 ∗ pi + 0 ∗ (1 − pi ) = pi
yi = E ( yi X i ) + ε i = pi + ε i = X i B + ε i
离散因变量演示文稿

二、Probit模型
当我们用逻辑分布函数去拟合S曲线时,得到Logit模型, 而当我们用正态分布函数去拟合S曲线时,而得到Probit 模型。Probit模型的具体形式为:
Pi F (0 1xi )
1
e dt 0 1xi t2 / 2
2
将其转化为线性模型,则为: F 1(Pi ) 0 1xi
离散因变量演示文稿
(优选)离散因变量
离散因变量模型应用
离散因变量模型应用
对于离散型因变量,使用普通最小二乘模型是不适宜
的,建议对于此类因变量使用非线性函数。事件发生
的条件概率 P(yi 1 xi) 与 xi 之间的非线性通常单调函数,
即随着 的增xi 加
P(yi 单1调xi) 增加,或者随着的 减少xi
和Probit模型。
离散因变量模型应用
一、logistic模型
Logistic模型,即逻辑模型是由Verhulst在1945年提出, 最早被用来描述生物生长规律(逻辑成长率)。现在 已经在经济与金融计量中得到广泛应用。它的具体形 式为:
Pi
E( yi
xi )
1 e(0 1xi )
这一函数表达的是一条S曲线。
Pi
1
O
i
逻辑曲线
0 1xi
离散因变量模型应用
逻辑模型的估计,由于
Pi 1 Pi
1/1 e(0 1xi )
e /1 e (0 1xi )
(0 1xi )
e0 1xi
ln Pi 1 Pi
0
1xi
Pi
式中, 1 Pi 称为机会差异比,即所研究事件“发生”与 “不发生”的概率之比。
离散因变量模型应用
离散选择模型

Yi 0 1GPAi 2 INCOMEi ui
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPA=第i个学生本科平均成绩 INCOME=第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计上显著):
ˆ Yi 0.7 0.4GPAi 0.002 INCOMEi
yi 0 yi 1
函数可以简化为:
L (1 F ( X ))1 yi F ( X ) yi
yi 1
对方程左右取对数我们便得到:
ln L [ yi ln F ( X ) (1 yi ) ln(1 F ( X ))]
i 1
n
似然函数为
fi ln L n yi fi [ (1 yi ) ]xi 0 Fi 1 Fi i 1
Pr ob(Y 1 X ) X F ( X ) f ( X ) X
因此我们在遇到二元响应模型时,估计出参数我们不能盲目的 将其解释为:解释变量变动一个单位,相对应的因变量变化参 数个单位。
为了解决偏效应的问题我们引入调整因子的概念。 在上式中的 f ( X ) 我们 便称为比例因子或调整因子,它与全部 的解释变量有关,为了方便起见,我们要找一个适用于模型所有 斜率的调整因子。有两种方法可以解决: (1)用解释变量的观测值计算偏效应的表达式,调整因子为:
四、二元选择模型的估计
1.除了LPM模型以外,二元选择模型的估计都是以极大似然法为基础 的 。由前面的讨论我们知道:
P(Y 1 X ) F ( X )
由此我们可以得到模型的似然函数为:
P(Y1 y1 ,Yn yn X ) (1 F ( X )) F ( X )
离散因变量模型

0.4
0.2
0.0 X
-0.2 280 300 320 340 360 380 400 420
第10章 离散因变量模型
ቤተ መጻሕፍቲ ባይዱ
对 yi = + xi + ui 取期望,
E(yi) = + xi
(2)
下面研究 yi 的分布。因为 yi 只能取两个值,0 和 1,所以 yi 服从两点分布。 把 yi 的分布记为,
1.0
CNORM
CLOGISTIC
(依据(4)式)
= (1- - xi) ( + xi) = (1 - pi) pi = pi - pi2, (抛物线,依据(4)式)
上两式说明,误差项的期望为零,方差具有异方差。当 pi 接近 0 或 1 时,ui 具有较
小的方差,当 pi 接近 0.5 时,ui 具有最大方差(如图)。所以线性概率模型(1)回
10.1 线性概率模型 线性概率模型的形式如下,
yi = + xi + ui
(1)
其中 ui 为随机误差项,xi 为定量解释变量。yi 为二元选择变量。如利息税、 机动车的费改税(燃油税)问题等。设
1, 若 是 第 一 种 选 择 yi 0, 若 是 第 二 种 选 择
1.2 Y
1.0
0.8
归系数的 OLS 估计量具有无偏性和一致性,但不具有有效性。
y
0.25 0.2
1.4 Y
1.2
1.0
0.8
0.15
0.6
0.1
0.4
0.05
x
0.2 0.4 0.6 0.8
1
Var(ui2) = pi - pi2当pi = 0.5时最大
probit模型

Probit模型Probit模型是一种统计学中常用的模型,主要用于处理二分类问题。
它是一种概率模型,与Logistic回归类似,但在一些情况下可以提供更好的拟合效果。
在本文中,我们将介绍Probit模型的基本概念、原理和应用。
1. Probit模型的基本概念Probit模型是一种广义线性模型(GLM),它使用累积标准正态分布的分位函数作为链接函数。
在Probit模型中,我们通常假设一个二分类变量y服从这样的概率分布: $P(y=1|x) = \\Phi(\\beta_0 + \\beta_1x_1 + ... + \\beta_kx_k)$ P(y=0|x)=1−P(y=1|x)其中,$\\Phi(\\cdot)$是标准正态分布的分布函数,$\\beta_0, \\beta_1, ...,\\beta_k$是模型的系数,x1,x2,...,x k是特征变量。
2. Probit模型的原理Probit模型的训练过程通常采用极大似然估计。
给定训练数据集(X,y),通过最大化似然函数来确定模型的系数$\\beta$。
具体地,我们要最大化以下似然函数:$L(\\beta) = \\prod_{i=1}^{n} [P(y_i=1|x_i)]^{y_i} [P(y_i=0|x_i)]^{1-y_i}$ 对数似然函数为: $l(\\beta) = \\sum_{i=1}^{n} [y_i\\log(P(y_i=1|x_i)) + (1-y_i)\\log(P(y_i=0|x_i))]$然后通过迭代优化算法(如梯度下降、拟牛顿法等)来求解最优参数$\\beta$。
3. Probit模型的应用Probit模型在金融领域、医学领域、市场营销等领域都有广泛的应用。
例如,在金融领域,Probit模型常用于信用评分、违约预测等问题;在医学领域,Probit模型可以用于分析疾病的风险因素;在市场营销中,Probit模型可以预测客户的购买意向等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2 )
t
12
e
( x2 2)
dx
0.4 0.2 0 -4 -2 0 2 4
累积正态概率分布曲线
Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5处有拐点, 但logit曲线在两个尾部要比Probit曲线厚。
(1) Probit 模型的设定
yi F ( X i B) i
线性概率模型存在的问题及适用性
随机误差项是异方差:Var ( i ) pi (1 pi )
办法:可用WLS估计。 拟合值可能不在0-1之间,有可能大于1或小于0: 办法:强令预测值相应等于0或1 进行约束估计。
1
y
* i
y
0
i
Xi B 1 0 Xi B 1 Xi B 0
2 2
F ( X i B) 1 F ( X i B)
E ( yi X i ) P F ( X i B) r 斜率: x j x j x j dF ( X i B) ( X i B) f ( X i B) j d ( X i B) x j
(四) 分布函数F的选取
E( yi X i ) 1 P 0 (1 P) F (Xi )
F ( t ) 1 F (t )
Y E (Y X )
总体回归模型
Y F ( XB)
样本回归模 型 F(X y
i
i
B) i (i 1, 2......n)
(三) 二元选择模型随机误差项及斜率
1* P( yi 1 X i ) 0* P( yi 0 X i ) 1 pi 0 (1 pi ) pi
yi E ( yi X i ) i pi i X i B i
xj
对响应概率(p)的偏效应: j LPM的估计方法:OLS
Interval] 1.359199 5.373068 1.593967
score .6770611 d1 -.4766044 _cons -242.4575
(3)得到估计式:
注:括号里是p值。
p ln( ) 242.4576 0.6771Score 0.4766 D1 1 p
(0.052) (0.052)
(0.873)
(4)检验:可以直接根据括弧里的 p 值进行判断,也可以 利用正态分布表查临界值进行检验。
检验假设 H :
0
2
0
p
H0
z
z 1
2 1
表查出的1- 其中 z 为由正态N(0,1)
2
2
分位点。
当=0.1时查表可得 z
1
2
1.65
2
当=0.05时查表可得 z
(2) Probit 模型的边际分析自变量的变化对响应概率(p Nhomakorabea的影响:
dp 1 2Z2 f (Z ) e dZ 2
(1)模型
Y
1
2
Score D1
3
(2)估计:用 logit 法估计。
模型结果:
Logit estimates
Y ( x)
Stata 命令:logit y score d1
Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 97 72.11 0 0.9006
具有以上分布函数的二元选择模型称为Logit模型。
(2) Logit 模型的设定 Z e yi F ( X i B) i F (Z ) ( Z ) Z
1 e
模型 yi ( X i B) i 线性化 pi ( X i B)
eZ f (Z ) F (Z ) ( Z )(1 ( Z )) Z 2 (1 e )
如果选择 F ( X i B) X i B
yi X i B i
yi E( yi X i ) i
E( yi X i ) E( X i B i ) X i B
P( yi 1 X i ) pi
E ( yi X i )
P( yi 0 X i ) 1 pi
第九章 离散因变量模型
实际经济分析当中的离散变量问题 对于单个方案的取舍购买决策、职业的选择、贷 款决策; 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。 农业经济分析当中的离散因变量问题 农民技术采用、农村选举等等
内容
二元选择模型的三类模型介绍 二元选择模型的估计: 二元选择模型的检验: 二元选择模型的应用
2、对Logit模型系数的解释:
p odds ln( ) L ln(odds) 1 p odds j x j x j x j x j
当 xj 增加一个单位时机会比率的增长率为
j
例 1:
南开大学国际经济研究所1999级研究生考试分 数及录取情况见数据表(N = 95)。
对于回归模型: yi F ( X i B) i
E(i ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B) 0
Var ( i ) E ( i2 ) 1 F ( X i B) F ( X i B) F ( X i B) 1 F ( X i B)
'
eZ ∵ ( Z ) 1 eZ pi ln( ) XiB 1 pi
得到:
pi ( X i B) e Xi B 1 pi 1 ( X i B)
yi 取1或0
取值范围
Li X i B i
pi 0,1
pi 其中 Li ln 1 pi
机会比率odds
F ( X i B) ( X i B)
Xi B
(2 )
12
e
( x2 2)
dx
模型
yi ( X i B) i
X B 是x的线性函数,Y 是X 的非线性函数
i
Z
pi ( X i B)
1
Xi B
(2 )
12
e
( x2 2)
dx
Zi F ( pi ) X i B i
1
1.96
因为 Z=2.05>1.96,所以score 变量在0.05的显著水平下 对Y的影响是显著的。 (5) 对参数加以解释:
2
0.6771
说明当考生分数增加一分,被录取的机会比率增长率增加0.6771. 另外,是否应届生对录取与否没有显著影响。
3. Probit模型
如果选择
F (t )
选取分布函数F的原则:
0 F ( X i B) 1
X i B
F ( X i B) 1
X i B
F是单调函数
F ( X i B) 0
按照上述原则F取作累计分布函数。 下面介绍三种不同分布函数下的计量模型: LPM, Probit, Logit
1、 线性概率模型(LPM)
LPM在实际的回归当中应用很少,用于理论模型的比较。
2、 Logit 模型
(1) Logit 模型的分布函数 如果选择
eZ 1 1 F (Z ) 1 1 eZ 1 eZ 1 e Z
1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30
Logistic分布函数
定义变量: Y :考生录取为1,未录取为0; SCORE :考生考试分数; D1:应届生为1,非应届生为0。
数据表
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Y 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 SCORE 401 401 392 387 384 379 378 378 376 371 362 362 361 359 358 356 356 355 354 354 353 350 349 349 348 D1 1 0 1 0 1 0 0 0 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 0 1 obs 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 347 347 344 339 338 338 336 334 332 332 332 331 330 328 328 328 321 321 318 318 316 308 308 304 303 D1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 obs 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 303 299 297 294 293 293 292 291 291 287 286 286 282 282 282 278 275 273 273 272 267 266 263 261 260 D1 1 1 1 0 1 1 0 1 1 1 1 0 1 1 0 0 0 0 1 1 0 1 1 1 0 obs 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SCORE 256 252 252 245 243 242 241 239 235 232 228 219 219 214 210 204 198 189 188 182 166 123 D1 0 0 1 1 1 0 0 1 0 0 1 1 1 1 1 1 0 1 1 1 1 0