回归分析二元选择模型

合集下载

二元线性回归

二元线性回归

第三章 多元线性回归模型基本要求:1、理解多元线性回归模型的定义2、理解多元线性回归模型的假定3、掌握参数估计的计算4、理解参数统计性质第一节 多元线性回归模型及假定一、多元线性回归模型许多经济现象往往要受多个因素的影响,研究被解释变量受多个解释变量的影响,就要利用多元回归模型。

多元线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量Y 与多个解释变量k X X X ,,,21 之间存在线性关系。

假定被解释变量Y 与多个解释变量k X X X ,,,21 之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型。

即μββββ+++++=k k X X X Y 22110 (3-1)其中Y 为被解释变量,(1,2,,)j X j k =为k 个解释变量,(0,1,2,,)j j k β=为1k +个未知参数,μ为随机误差项。

被解释变量Y 的期望值与解释变量k X X X ,,,21 的线性方程为: 01122()k k E Y X X X ββββ=++++ (3-2)称为多元总体线性回归方程,简称总体回归方程。

对于n 组观测值),,2,1(,,,,21n i X X X Y ki i i i =,其方程组形式为:01122,(1,2,,)i i i k ki i Y X X X i n ββββμ=+++++= (3-3)即⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=nkn k n n n k k k k X X X Y X X X Y X X X Y μββββμββββμββββ 2211022222121021121211101 其矩阵形式为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n Y Y Y 21=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡kn n nk k X X X X X XX X X 212221212111111⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡k ββββ 210+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n μμμ 21 即=+Y X βμ (3-4)其中=⨯1n Y ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n Y Y Y 21为被解释变量的观测值向量;=+⨯)1(k n X ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡kn n n k k X X X X X X X X X 212221212111111为解释变量的观测值矩阵;(1)1k +⨯=β⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡k ββββ 210为总体回归参数向量;1n ⨯=μ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n μμμ 21为随机误差项向量。

二元选择模型

二元选择模型

二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。

在实际经济问题中,被解释变量也可能是定性变量。

如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。

当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。

这里主要介绍Tobit (线性概率)模型,Probit (概率单位)模型和Logit 模型。

1.Tobit (线性概率)模型 Tobit 模型的形式如下,y i = α + β x i + u i (1) 其中u i 为随机误差项,x i 为定量解释变量。

y i 为二元选择变量。

此模型由James Tobin 1958年提出,因此得名。

如利息税、机动车的费改税问题等。

设 1 (若是第一种选择) y i =0 (若是第二种选择)-0.20.00.20.40.60.81.01.2330340350360370380XY对y i 取期望,E(y i ) = α + β x i (2) 下面研究y i 的分布。

因为y i 只能取两个值,0和1,所以y i 服从两点分布。

把y i 的分布记为, P ( y i = 1) = p i P ( y i = 0) = 1 - p i 则E(y i ) = 1 (p i ) + 0 (1 - p i ) = p i (3) 由(2)和(3)式有p i = α + β x i (y i 的样本值是0或1,而预测值是概率。

) (4)以p i = - 0.2 + 0.05 x i 为例,说明x i 每增加一个单位,则采用第一种选择的概率增加0.05。

现在分析Tobit 模型误差的分布。

由Tobit 模型(1)有,u i = y i - α - β x i =⎩⎨⎧=--=--0,1,1i i i i y x y x βαβαE(u i ) = (1- α - β x i ) p i + (- α - β x i ) (1 - p i ) = p i - α - β x i 由(4)式,有E(u i ) = p i - α - β x i = 0因为y i 只能取0, 1两个值,所以,E(u i 2) = (1- α - β x i )2 p i + (- α - β x i )2 (1 - p i )= (1- α - β x i )2 (α + β x i ) + (α +β x i )2 (1 - α - β x i ), (依据(4)式) = (1- α - β x i ) (α + β x i ) = p i (1 - p i ) , (依据(4)式) = E(y i ) [1- E(y i ) ]上两式说明,误差项的期望为零,方差具有异方差。

SPSS—回归—二元Logistic回归案例分析

SPSS—回归—二元Logistic回归案例分析

SPSS—回归—⼆元Logistic回归案例分析数据分析真不是⼀门省油的灯,搞的⼈晕头转向,⽽且涉及到很多复杂的计算,还是书读少了,⼩学毕业的我,真是死了不少脑细胞,学习⼆元Logistic回归有⼀段时间了,今天跟⼤家分享⼀下学习⼼得,希望多指教!⼆元Logistic,从字⾯上其实就可以理解⼤概是什么意思,Logistic中⽂意思为“逻辑”但是这⾥,并不是逻辑的意思,⽽是通过logit变换来命名的,⼆元⼀般指“两种可能性”就好⽐逻辑中的“是”或者“否”⼀样,Logistic 回归模型的假设检验——常⽤的检验⽅法有似然⽐检验(likelihood ratio test)和 Wald检验)似然⽐检验的具体步骤如下:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL02:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InL13:最后⽐较两个对数似然函数值的差异,若两个模型分别包含l个⾃变量和P个⾃变量,记似然⽐统计量G的计算公式为 G=2(InLP - InLl). 在零假设成⽴的条件下,当样本含量n较⼤时,G统计量近似服从⾃由度为 V = P-l 的 x平⽅分布,如果只是对⼀个回归系数(或⼀个⾃变量)进⾏检验,则 v=1.wald 检验,⽤u检验或者X平⽅检验,推断各参数βj是否为0,其中u= bj / Sbj, X的平⽅=(bj / Sbj), Sbj 为回归系数的标准误这⾥的“⼆元”主要针对“因变量”所以跟“曲线估计”⾥⾯的Logistic曲线模型不⼀样,⼆元logistic回归是指因变量为⼆分类变量是的回归分析,对于这种回归模型,⽬标概率的取值会在(0-1),但是回归⽅程的因变量取值却落在实数集当中,这个是不能够接受的,所以,可以先将⽬标概率做Logit变换,这样它的取值区间变成了整个实数集,再做回归分析就不会有问题了,采⽤这种处理⽅法的回归分析,就是Logistic 回归设因变量为y, 其中“1” 代表事件发⽣, “0”代表事件未发⽣,影响y的 n个⾃变量分别为 x1, x2 ,x3 xn等等记事件发⽣的条件概率为 P那么P= 事件未发⽣的概理为 1-P事件发⽣跟”未发⽣的概率⽐为( p / 1-p ) 事件发⽣⽐,记住Odds将Odds做对数转换,即可得到Logistic回归模型的线性模型:还是以教程“blankloan.sav"数据为例,研究银⾏客户贷款是否违约(拖⽋)的问题,数据如下所⽰:上⾯的数据是⼤约700个申请贷款的客户,我们需要进⾏随机抽样,来进⾏⼆元Logistic回归分析,上图中的“0”表⽰没有拖⽋贷款,“1”表⽰拖⽋贷款,接下来,步骤如下:1:设置随机抽样的随机种⼦,如下图所⽰:选择“设置起点”选择“固定值”即可,本⼈感觉200万的容量已经⾜够了,就采⽤的默认值,点击确定,返回原界⾯、2:进⾏“转换”—计算变量“⽣成⼀个变量(validate),进⼊如下界⾯:在数字表达式中,输⼊公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0"为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置⼀个“选择条件”点击“如果”按钮,进⼊如下界⾯:如果“违约”变量中,确实存在缺失值,那么当使⽤"missing”函数的时候,它的返回值应该为“1”或者为“true",为了剔除”缺失值“所以,结果必须等于“0“ 也就是不存在缺失值的现象点击 ”继续“按钮,返回原界⾯,如下所⽰:将是“是否曾经违约”作为“因变量”拖⼊因变量选框,分别将其他8个变量拖⼊“协变量”选框内,在⽅法中,选择:forward.LR⽅法将⽣成的新变量“validate" 拖⼊"选择变量“框内,并点击”规则“设置相应的规则内容,如下所⽰:设置validate 值为1,此处我们只将取值为1的记录纳⼊模型建⽴过程,其它值(例如:0)将⽤来做结论的验证或者预测分析,当然你可以反推,采⽤0作为取值记录点击继续,返回,再点击“分类”按钮,进⼊如下页⾯在所有的8个⾃变量中,只有“教育⽔平”这个变量能够作为“分类协变量” 因为其它变量都没有做分类,本例中,教育⽔平分为:初中,⾼中,⼤专,本科,研究⽣等等, 参考类别选择:“最后⼀个” 在对⽐中选择“指⽰符” 点击继续按钮,返回再点击—“保存”按钮,进⼊界⾯:在“预测值"中选择”概率,在“影响”中选择“Cook距离” 在“残差”中选择“学⽣化”点击继续,返回,再点击“选项”按钮,进⼊如下界⾯:分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别⽤值“1“和“0”代替,在“分类变量编码”中教育⽔平分为5类,如果选中“为完成⾼中,⾼中,⼤专,⼤学等,其中的任何⼀个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究⽣“ 频率分别代表了处在某个教育⽔平的个数,总和应该为 489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“⽅程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029⼏乎接近,是因为我对数据进⾏的向下舍⼊的关系,所以数据会稍微偏⼩,B和Exp(B) 是对数关系,将B进⾏对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中⾃由度为1, sig为0.000,⾮常显著1:从“不在⽅程中的变量”可以看出,最初模型,只有“常数项”被纳⼊了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, ⽽其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了⼀个平⽅)下⾯来举例说明这个计算过程:(“年龄”⾃变量的得分为例)从“分类表”中可以看出:有129⼈违约,违约记为“1” 则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 = 0.2638036809816x¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216则:y¯(1-y¯)* ∑(Xi-x¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五⼊)计算过程采⽤的是在 EXCEL ⾥⾯计算出来的,截图如下所⽰:从“不在⽅程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~1:从“块1” 中可以看出:采⽤的是:向前步进的⽅法,在“模型系数的综合检验”表中可以看出:所有的SIG ⼏乎都为“0” ⽽且随着模型的逐渐步进,卡⽅值越来越⼤,说明模型越来越显著,在第4步后,终⽌,根据设定的显著性值和⾃由度,可以算出卡⽅临界值,公式为:=CHIINV(显著性值,⾃由度) ,放⼊excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR⽅和 Nagelkerke R⽅拟合效果都不太理想,最终理想模型也才:0.305 和 0.446,最⼤似然平⽅的对数值都⽐较⼤,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR⽅的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含⾃变量的检验)再根据公式:即可算出:Cox&SnellR⽅的值!提⽰:将Hosmer 和 Lemeshow 检验和“随机性表” 结合⼀起来分析1:从 Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡⽅统计量为:11.919,⽽临界值为:CHINV(0.05,8) =15.507卡⽅统计量< 临界值,从SIG ⾓度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。

二元logistic回归分 析

二元logistic回归分 析

二元logistic回归分析二元Logistic回归分析是一种常见的统计方法,它被广泛应用于分类问题。

这种回归方法主要关注的是因变量为二分类的情况,通常将概率作为因变量,并使用Logistic函数将其映射到[0,1]范围内。

Logistic回归模型的公式如下:p = 1 / (1 + e^(- (β0 + β1x1 + β2x2 + . + βn*xn)))其中,p是预测为正类的概率,β0、β1、βn是模型参数,x1、x2、xn是特征。

在进行二元Logistic回归分析时,首先需要收集数据集,该数据集中应包含预测变量的值和目标变量的值。

预测变量可以是任何数值型的特征,而目标变量应该是二分类的标签,即0或1。

接下来,需要对数据进行预处理,包括数据清洗、缺失值处理、异常值处理等。

然后,利用二元Logistic回归模型对数据进行拟合,得到模型的参数。

在模型拟合完成后,可以使用模型进行预测。

对于一个新的样本,只需将样本的特征代入模型中,即可得到预测为0或1的概率。

根据这个概率,可以判断样本属于哪一类。

在实际应用中,二元Logistic回归分析可以应用于各种场景,如信用风险评估、疾病诊断等。

例如,在信用风险评估中,可以使用二元Logistic回归模型预测一个借款人是否会违约,从而帮助银行更好地管理风险。

此外,二元Logistic回归分析还可以进行特征选择。

在模型拟合过程中,如果发现某个特征对于模型的贡献很小,那么就可以将该特征剔除,从而降低模型的复杂度,提高模型的泛化能力。

在进行二元Logistic回归分析时,需要注意以下几点:1.数据的质量和数量对于模型的准确性和泛化能力都有重要影响。

因此,在进行数据分析前,需要对数据进行充分的质量控制和预处理。

2.在选择模型参数时,需要综合考虑模型的准确性和复杂度。

如果模型过于复杂,可能会导致过拟合;如果模型过于简单,可能会导致欠拟合。

3.在进行模型评估时,需要使用适当的评估指标,如准确率、召回率、F1值等。

二元logistics回归结果解读

二元logistics回归结果解读

二元Logistic回归是一种用于预测离散变量的机器学习模型,可以用来预测一个事件是否发生或者预测一个物体属于哪一类。

其结果解读如下:1. 估计的回归系数:回归系数的符号表示自变量与因变量之间的相关关系,正值表示正相关,负值表示负相关。

回归系数的绝对值越大,表示该自变量对因变量的影响越大。

2. OR值:OR值是用来衡量自变量对因变量的影响程度,如果OR值大于1,说明自变量对因变量的影响程度比参考类别更大,反之则更小。

3. P值:P值是用来判断回归系数的显著性水平,如果P值小于设定的显著性水平(如0.05),则说明该自变量对因变量的影响是显著的。

4. 95%置信区间:置信区间是用来衡量回归系数的可信程度,如果置信区间不包含1,则说明该自变量对因变量的影响是显著的。

5. R方值:R方值是用来衡量模型拟合程度的一个指标,其值越大表示模型拟合程度越好。

但是需要注意的是,R方值的解释需要谨慎,因为其值可能会受到样本量、数据分布等因素的影响。

在解读二元Logistic回归结果时,需要注意以下几点:1. 模型假设条件:二元Logistic回归的假设条件包括比例风险假设、独立性假设和正态性假设等。

如果数据不符合这些假设条件,则需要对模型进行调整或者采用其他模型进行预测。

2. 变量选择:在选择自变量时,需要考虑到其与因变量的关系以及其在模型中的贡献。

如果某个自变量对因变量的影响不大或者与其他自变量存在高度相关性,则可以考虑将其从模型中移除。

3. 结果解释:在解释结果时,需要注意回归系数的符号、OR值、P 值以及95%置信区间等信息。

同时还需要结合实际业务背景和专业知识进行综合分析,以便更好地理解结果并做出决策。

二元线性回归预测模型

二元线性回归预测模型

二元线性回归分析预测法(复位向自二元线性回归预测法)什么是二元线性回归分析预测法二元线性回归分析预测法是指运用影响一个因变数的两个自变量进行回归分析的一种预测方法。

关键是通过因变数同两个自变量的因果关系进行回归分析术解回归方程,对回归方程进行检验得出预测值。

[编辑]二元线性回归分析模型[1]二元线性回归分析模型及参数的确定。

二元线性回归分析预测法的回归方程为:式中:x1,x2——自变数;——因变数,即线性回归分析估值,或预测值;a,b1,b2——待定回归方程参数。

最小二乘法建立的求参数的方程为:只需将历史数据自变量2和对应的因变量—v的数据代人上面公式,并联立求解方程组,即可求得回归参数a,b1,b2再将这些参数代人回归方程,即可得预测模型。

[编辑]二元线性回归分析模型的检验及参数确定[1]二元线性回归分析预测法预测模型的检验比一元线性回归预测模型的检验复杂得多。

常用的有经济意义检验、回归标准差检验、相关系数检验、F检验和t检验等。

(1)一般经济意义检验,是指根据一般的经济规律,从参数的符号来鉴别模型的真实性。

其它检验都需要根据统计分析来确定模型是否能够通过检验。

(2)回归标准差检验。

计算多元回归标准差的公式与计算一元线性方程回归标准差的公式相同,即:式中:yt——因变量第t期的观察值;——因变量第t期的估计值;n——观察期的个数;k——自由度,为变量的个数(包括因变量和自变量)。

判断回归标准差能否通过检验,仍用以下公式:式中:s——回归标准差;——因变量观察值的平均值。

当依此式计算出的值小于15%,说明预测模型通过了回归标准差检验。

(3)相关系数检验。

相关系数检验是检验变量之间线性关系密切程度的指针。

在多元回归分析中应计算复相关系数和偏相关系数。

•复相关系数复相关系数是反映因变量y与自变量x1,x2之间线性相关关系密切程度的指标,其计算公式为:即其中,r表示的是所有自变量作为一个整体对因变量y的影响。

二元选择模型和二值响应模型

二元选择模型和二值响应模型

二元选择模型和二值响应模型
"二元选择模型"(Binary Choice Model)和"二值响应模型"(Binary Response Model)通常在统计学和计量经济学中使用,用于处理对一个二元结果的建模和分析。

尽管这两个术语有时可以互换使用,但它们通常涉及到略微不同的概念。

1.二元选择模型(Binary Choice Model):这个术语通常用于描述一类模型,其中观测值的因变量(响应变量)只有两个可能的取值,通常是0和1。

这个模型用于解释一个二元决策或选择的过程。

例如,考虑一个人是否购买某个产品(购买=1,不购买=0),这种情况下可以使用二元选择模型来建模。

2.常见的二元选择模型包括Logit模型(逻辑回归)和Probit模型(概率模型),它们都是处理二元结果的广泛应用的模型。

3.二值响应模型(Binary Response Model):这个术语更加通用,它指的是对于某个事件或观测结果的响应只有两个可能取值的模型。

这也可以包括那些不仅仅涉及到选择或决策的情境,还包括其他类型的二元结果。

例如,是否违约(违约=1,未违约=0)也可以用二值响应模型来建模。

4.二值响应模型可以包括二元选择模型,但不限于此,因为它可以应用于更广泛的情境,包括一些不涉及明确选择的问题。

总体而言,这两个术语都涉及到处理二元结果的模型,而具体使用哪一个取决于具体的上下文和研究问题。

逻辑回归和概率模型是处理这类问题时常见的方法,它们在许多领域,包括经济学、社会科学和医学等方面都有广泛的应用。

二元选择模型

二元选择模型

对y i 取期望,E (y i ) = :- + X i(2)\ P ( y i = 1) = P i wP( y i = 0) = 1 - p i 则E(y i ) = 1 (P i ) + 0 (1 - P i ) = P i由(2)和(3)式有(y i 的样本值是0或1,而预测值是概率。

)以P i = - 0.2 + 0.05 X i 为例,说明X i 每增加一个单位,则采用第一种选择的概率增加 现在分析Tobit 模型误差的分布。

由 Tobit 模型(1)有,⑶⑷0.05。

R1 ―口 - “ , u = y i - a - P X i = *住严-取,y i =1y i =0E(U i ) = (1- : - : X i ) P i + (- : - : X i ) (1 - P i ) = P i - : - : X i 由(4)式,有二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。

在实际经济问题中,被解释变量 也可能是 定性变量。

如通过一系列解释变量的观测值观察人们对某项动议的 态度,某件事情的成功和失败等。

当被解释变量为定性变量时怎样建立模型呢?这就是要介 绍的二元选择模型或多元选择模型,统称离散选择模型。

这里主要介绍 Tobit (线性概率)模型,Probit (概率单位)模型和 Logit 模型。

1. Tobit (线性概率)模型 Tobit 模型的形式如下,其中U i 为随机误差项,X i 为定量解释变量。

y i 为二元选择变量。

此模型由 年提出,因此得名。

如利息税、机动车的费改税问题等。

设James Tobin 1958(若是第一种选择)1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2330340350360370380E(U i ) = p i -圧-!::i X i = 0因为y i 只能取0, 1两个值,所以,E(u i 2) = (1- : - - X i )2 p i + (- : - - X i )2 (1 - p)=(1- :- - X i )2 (: +1:, X i ) + (:- +1「X i )2(1 -:■ - !::; X i ), (依据 ⑷式)=(1- : -:X i ) ( :- + : X i ) = p i (1 - p i ),(依据⑷式)=E(y i ) [1- E(y i )]上两式说明,误差项的期望为零,方差具有异方差。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 本节只介绍二元选择模型。
• 离散选择模型起源于Fechner于1860年进行的动 物条件二元反射研究。
• 1962年,Warner首次将它应用于经济研究领域, 用以研究公共交通工具和私人交通工具的选择问 题。
• 70、80年代,离散选择模型被普遍应用于经济布 局、企业定点、交通问题、就业问题、购买决策 等经济决策领域的研究。
二、二元离散选择模型
1、原始模型
• 对于二元选择问题,可以建立如下计量经济学模 型。其中Y为观测值为1和0的决策被解释变量;X 为解释变量,包括选择对象所具有的属性和选择
主体所具有的属性。
Y X yi Xi i
E(i ) 0 E(yi ) Xi
pi P( yi 1) 1 pi P( yi 0)
• 模型的估计方法主要发展于80年代初期。
一、二元离散选择模型的经济背景
实际经济生活中的二元选择问题
• 研究选择结果与影响因素之间的关系。 • 影响因素包括两部分:决策者的属性和备选方案
的属性。 • 对于单个方案的取舍。例如,购买者对某种商品
的购买决策问题 ,求职者对某种职业的选择问题, 投票人对某候选人的投票决策,银行对某客户的 贷款决策。由决策者的属性决定。 • 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。
3、最大似然估计
• 欲使得效用模型可以估计,就必须为随机误差项 选择一种特定的概率分布。
• 两种最常用的分布是标准正态分布和逻辑 (logistic)分布,于是形成了两种最常用的二元 选择模型—Probit模型和Logit模型。
• 最大似然函数及其估计过程如下:
F(t) 1 F(t)
标准正态分布或逻 辑分布的对称性
三、二元Probit离散选择模型及其参数 估计
1、标准正态分布的概率分布函数
t
F(t)
(2
)
1 2
exp( x 2
2)dx
f
(x)
(2
)
1 2
exp(
x2
2)
2、重复观测值不可以得到情况下二元Probit 离散选择模型的参数估计
ln L
fi yi 0 1 Fi
Xi
yi 1
fi Fi
§7.2 二元选择模型 Binary Choice Model
一、二元离散选择模型的经济背景 二、二元离散选择模型 三、二元Probit离散选择模型及其参数估计 四、二元Logit离散选择模型及其参数估计 五、二元离散选择模型的检验
说明
• 在经典计量经济学模型中,被解释变量通常被假 定为连续变量。
• 注意,在模型中,效用是不可观测的,人们能够 得到的观测值仍然是选择结果,即1和0。
• 很显然,如果不可观测的U1>U0,即对应于观测 值为1,因为该个体选择公共交通工具的效用大于 选择私人交通工具的效用,他当然要选择公共交 通工具;
• 相反,如果不可观测的U1≤U0,即对应于观测值 为0,因为该个体选择公共交通工具的效用小于选 择私人交通工具的效用,他当然要选择私人交通 工具。
•样 本 观 测 值
CC=XY CM=SC
JG
XY
SC
0
125.0 -2
0 599.0 -2
0 100.0 -2
0 160.0 -2
0 46.00 -2
0 80.00 -2
0 133.0 -2
0 350.0 -1
1
23.00
0
0 60.00 -2
0 70.00 -1
1 -8.000
E( yi ) 1 P( yi 1) 0 P( yi 0) pi
E(yi ) P(yi 1) X i
左右端矛盾
i
1 X
Xi i
当yi 1,其概率为X i 当yi 0,其概率为1 X i
具有异 方差性
• 由于存在这两方面的问题,所以原始模型不能作 为实际研究二元选择问题的模型。
P( yi 1) P( yi* 0) P(i* X i ) 1 P(i* X i )
1 F( X i ) F( X i )
P(y1, y2 ,, yn ) (1 F(X i )) F(X i )
yi 0
yi 1
n
L
( F ( X i )) yi (1 F ( X i )) 1 yi
• 离散被解释变量数据计量经济学模型(Models with Discrete Dependent Variables)和离散 选择模型(DCM, Discrete Choice Model)。
• 二元选择模型(Binary Choice Model)和多元选 择模型(Multiple Choice Model)。
Xi
n i 1
qi
f
(qi
Xi
)
F (qi X i )
Xi
n
i X i
i 1
0
qi 2yi 1
• 关于参数的非线性函数,不能直接求解,需采用 完全信息最大似然法中所采用的迭代方法。
• 应用计量经济学软件。
• 这里所谓“重复观测值不可以得到”,是指对每 个决策者只有一个观测值。如果有多个观测值, 也将其看成为多个不同的决策者。
例7.2.2 贷款决策模型
• 分析与建模:某商业银行从历史贷款客户中随机 抽取78个样本,根据设计的指标体系分别计算它 们的“商业信用支持度”(CC)和“市场竞争地 位等级”(CM),对它们贷款的结果(JG)采 用二元离散变量,1表示贷款成功,0表示贷款失 败。目的是研究JG与CC、CM之间的关系,并为 正确贷款决策提供支持。
• 需要将原始模型变换为效用模型。
• 这是离散选择模型的关键。
2、效用模型
U
1 i
X i 1
i1
第i个个体 选择1的效用
U
0 i
X i 0
i0
第i个个体 选择0的效用
U
1 i
U
0 i
Байду номын сангаас
Xi
(1
0
)
(i1
i0 )
yi* X i i*
作为研究对象的二元选择模型
P( yi 1) P( yi* 0) P(i* X i )
i 1
似然函数
n
ln L ( yi ln F ( X i ) (1 yi ) ln(1 F ( X i )))
i 1
ln L
n i 1
yi fi
Fi
(1
yi
)
(1
fi Fi
)
X
i
0
1阶极值条件
• 在样本数据的支持下,如果知道概率分布函数 和概率密度函数,求解该方程组,可以得到模 型参数估计量。
相关文档
最新文档