LOGIT模型参数估计方法研究_金安

合集下载

多分类有序logit模型的模型结果解释

标题：深入探讨多分类有序logit模型的模型结果解释在统计学和机器学习领域，多分类有序logit模型是一种常用的模型，用来处理有序分类变量的预测和解释。

在本文中，我们将深入探讨多分类有序logit模型的模型结果解释，帮助读者更好地理解其原理和应用。

1. 多分类有序logit模型的基本原理多分类有序logit模型是一种广义线性模型，用于对有序分类变量进行建模和预测。

它建立在logistic函数的基础上，通过最大似然估计对模型参数进行拟合，从而推断不同自变量对特定有序分类变量的影响。

其基本原理是将有序分类变量转化为一组二分类变量，然后使用logistic回归模型进行建模。

这种方法可以有效地处理有序分类变量，对于解释性强的场景非常适用。

2. 模型结果解释的重要性和方法在使用多分类有序logit模型进行建模和预测时，模型结果的解释至关重要。

在解释模型结果时，我们可以使用各种方法，比如变量的边际效应、相对风险比、转移概率等。

这些方法可以帮助我们理解不同自变量对有序分类变量的影响程度，从而更好地理解模型的预测能力和应用场景。

图表和统计检验也是解释模型结果的常用方法，可以直观地展现变量之间的关系和影响程度。

3. 在多分类有序logit模型中如何解释模型结果在多分类有序logit模型中，我们可以通过计算变量的边际效应来解释模型结果。

边际效应可以反映出自变量对因变量的影响程度，帮助我们理解模型的预测能力。

相对风险比是另一种重要的解释方法，可以告诉我们不同自变量水平之间的风险差异。

转移概率可以帮助我们理解不同分类变量之间的转移规律，从而为决策提供参考。

4. 个人观点和理解在使用多分类有序logit模型进行建模和解释时，我认为深入理解模型结果和解释方法是非常重要的。

只有通过对模型结果的全面解释，我们才能更好地理解自变量对有序分类变量的影响，从而做出合理的预测和决策。

在解释模型结果时，我倾向于使用边际效应和相对风险比这两种方法，因为它们可以直观地展现变量之间的关系和影响程度，帮助我更好地应用模型进行预测和分析。

金融计量经济第五讲虚拟变量模型和Probit、Logit模型

.
二、虚拟变量的设置原则
• 引入虚拟变量一般取0和1。
• 对定性因素一般取级别数减1个虚拟变量。例子1：性别因素，二个级别（男、女）取一个虚拟变量，D=1表示男（女），D=0表示女（男）。
• 例子2：季度因素，四个季度取3个变量。
1, 一季度 D1 0, 其它季度
1, 二季度
D2
0,
其它季度
• 同样可以写成二个模型：
y ˆi ˆ0(ˆˆ1)x1iˆkxki D1
y ˆi ˆ0ˆ1x1iˆkxki
D0
• 可考虑同时在截距和斜率引入虚拟变量：
y i 0 0 D i (1 D i 1 ) x 1 i k x k iu i (5.
.
.
• 3、虚拟变量用于季节性因素分析。
•取
1, 当样本 i季为度第的数据 Di 0,其它季度的, i数 2,3据 ,4
• 工资模型为：
• Ii01 [S 1 (1 D 1 i D 2 i)S ( i S 1 )] 2 [D 2 i(S 2 S 1 ) D 1 i(S i S 1 ) ]3 D 2 i(S i S 2 ) u i (5.7
.
D2=1
S0
D1=1
S1
S2
.
• 作OLS得到参数估计值后，三个阶段的报酬回归模型为： Iˆi ˆ0ˆ1Si, Si S1 Iˆi ˆ0ˆ1S1ˆ2(Si S1), S2Si S1 Iˆi ˆ0ˆ1S1ˆ2(S2S1)ˆ3(Si S2), Si S2
0.503543 0.500354 1.13E+03 1.99E+09 -13241.74 1.648066
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

广义有序logit模型

广义有序logit模型广义有序logit模型是一种重要的统计模型，广泛应用于社会科学、医学科学、市场调查等领域。

本文将从以下几个方面介绍广义有序logit模型的基本概念、应用及其优缺点。

一、基本概念广义有序logit模型是一种广义线性模型，它是有序logit模型的扩展。

有序logit模型是将一个有序变量作为因变量，通过对观测数据进行拟合得到模型参数，从而预测因变量的取值。

有序logit模型的基本形式如下：$$begin{aligned}&logleft(frac{P(Y leq k)}{P(Y > k)}right) = alpha_k + beta_1 x_1 + cdots + beta_p x_p&k = 1,2,cdots,K-1end{aligned}$$其中，$Y$是有序变量，$k$表示序列中的一个位置，$x_1,cdots,x_p$是自变量，$alpha_k$和$beta_1,cdots,beta_p$是待估参数。

广义有序logit模型在有序logit模型的基础上引入了广义线性模型的思想，可以处理更加复杂的数据结构。

广义有序logit模型的基本形式如下：$$begin{aligned}&logleft(frac{P(Y leq k)}{P(Y > k)}right) = alpha_k + beta_1 x_1 + cdots + beta_p x_p&k = 1,2,cdots,K-1&g(E(Y)) = alpha_0 + beta_1 x_1 + cdots + beta_p x_pend{aligned}$$其中，$g(cdot)$是一个已知的链接函数，$E(Y)$是有序变量$Y$的期望值，$alpha_0$和$beta_1,cdots,beta_p$是待估参数。

二、应用广义有序logit模型在社会科学、医学科学、市场调查等领域有着广泛的应用。

基于Logistic模型的几类系统的动力学研究及其参数估计

性质分析
Logistic模型的性质分析主要包括稳定性、周期性和全局收敛性等方面。
稳定性是指系统对于微小扰动的反应程度，根据特征根的位置不同， Logistic模型存在两种稳定状态：焦点平衡和边界平衡。周期性是指系统在一定条件下出现的规律性重复变化，Logistic模型在某些参数条件下可能出现周期性振荡现象。全局收敛性是指系统在长时间演化后最终趋向于某个稳定状态， Logistic模型在资源充足的情况下通常具有全局收敛性。
应用案例
本部分将通过两个实例来说明如何使用Logistic模型进行实际应用。
首先，我们考虑使用Logistic模型来预测人口增长。根据历史数据，我们可以估计出人口增长率和环境容量，并利用Logistic模型预测未来人口变化趋势。这种预测对于政策制定、资源规划等方面具有重要意义。
其次，我们可以使用Logistic模型来分析社会经济问题。例如，在研究经济发展时，我们可以将Logistic模型中的种群增长率替换为经济增长率，环境容量替换为经济天花板，从而分析经济系统的增长极限和稳定性。这种分析对于制定经济发展战略和政策具有一定的指导意义。
系统建模
Logistic模型的基本形式为：，其中x表示种群密度，t表示时间，r表示种群增长率，K表示环境容量。该模型假设种群增长受资源限制，当种群密度达到环境容量K时，种群增长速度将减至零。
根据不同研究需求，Logistic模型可以衍生出多种形式。例如，考虑空间分布的Logistic模型、加入随机干扰的Logistic模型、分段Logistic模型等。这些不同的模型能够更好地刻画实际系统中种群增长的复杂行为。
基于Logistic模型的几类系统的动力学研究及其参数估计
01 引言

logistic回归模型和logit模型

logistic回归模型和logit模型引言部分：在机器学习领域中，分类问题一直是研究的热点之一。

Logistic回归模型和Logit模型是二分类问题中，表现优异的分类算法。

基于二项分布的原理，这两个模型能够有效的进行分类，因此受到了广泛的应用和研究。

正文部分：一、Logistic回归模型Logistic回归模型是一种广义线性模型，被广泛应用于分类问题中。

它通过Sigmoid函数将线性回归的结果映射到概率值，在进行分类时，将概率值与设定的阈值进行比较，从而进行分类。

Logistic回归模型的形式如下：$$ P(Y=1|X)=\frac{1}{1+e^{-(w^TX+b)}} $$其中，$w$表示特征的权值，$b$表示偏置的值，$X$表示输入的特征向量，$Y$表示输出的标签。

该模型的训练过程通常采用最大似然估计方法进行优化，从而得到最佳的模型参数。

二、Logit模型Logit模型也是一种二分类模型，它的实现基于对数几率的概念。

在Logit模型中，将正例的对数几率表示为输入向量的线性函数，而负例的对数几率为其相反数。

模型的形式如下：$$ \log(\frac{P(Y=1|X)}{1-P(Y=1|X)})=w^TX+b $$Logit模型使用最大似然估计法进行参数的学习，使得模型尽可能地对训练数据进行拟合。

通过计算输入向量对应的对数几率，可以得到相应的输出标签，从而进行分类。

三、Logistic回归模型与Logit模型的异同1. 形式不同：Logistic回归模型采用的是Sigmoid函数进行分类，而Logit模型则是基于对数几率的理论进行分类。

2. 拟合效果不同：Logistic回归模型在分类效果上表现出更好的鲁棒性，能够在处理多重共线性等情况下表现出较好的效果；而Logit模型的拟合效果较为稳定，能够更好地应对噪声和异常点的干扰。

3. 处理方式不同：Logistic回归模型通常采用迭代法和正则化方法来优化模型参数；而Logit模型常常采用牛顿法等基于优化的方法来更新模型参数。

一种估计Logistic模型参数的方法及应用实例

效估计的方法］本文首先分析了Ｌｇｓｉ线的解析性质，出了曲线上三个关键点和增．ｏｉｔｃ曲提
长过程中的三个阶段．同时，在现有文献
研究的基础上，Ｌｇｓｉ数的估计问题作了对ｏｉｃ参ｔ
在增长曲线中，最著名的是Ｌｇｓｉ曲线，ｏｉｃｔ它最初是在研究人口增长规律时提出来的，后
Ｌ
来，比利时数学家ＰＦＶｅｈｌｔ其归纳提炼成数学模型ｊ一．．ｒｕｓ将，）（
１ｅＴ
，＞０ “ ｋ， ∈Ｒ，＞０ｒ，
－
－
－
—
—
１６－０－ — —
经
济
数
学
第２７卷
２Ｌｇｓｉｏｉｔｃ曲线及其解析性质
利用极限和导数工具进行分析，以得到Ｌｇｓｉ可ｏｉｃ曲线具有如下重要性质：ｔ
１有两渐近由墨）条线：于
两条渐近线Ｙ一０Ｙ— ｋ，．
范国兵
（南财政经济学院经济数学研究所，湖湖南长沙４００）１２５
摘要分析了Ｌｇｓｉｏｉｃ函数的解析性质，到了曲线上三个关键点和三个不同的增长阶段，用差ｔ得利
分和最小二乘法，出了Ｉｇｓｉ模型的一种便于使用的参数估计方法．通过实例，立Ｌｇｓｉ模型对给．ｉｃｏｔ并建ｏｉｃｔ

多元logit回归模型

多元logit回归模型
多元logit回归模型是一种常用的统计分析方法，它可以用来研究多个自变量对一个二元或多元因变量的影响。

在实际应用中，多元logit回归模型被广泛应用于社会科学、医学、经济学等领域，以研究各种社会现象和经济现象。

多元logit回归模型的基本思想是，将一个二元或多元因变量的概率与多个自变量之间的关系建立数学模型，然后通过最大似然估计等方法来估计模型参数，从而得到各个自变量对因变量的影响程度。

在多元logit回归模型中，因变量通常是一个二元变量，例如“是”或“否”、“成功”或“失败”等，而自变量可以是连续变量或分类变量。

多元logit回归模型的优点在于，它可以同时考虑多个自变量对因变量的影响，从而更全面地分析问题。

此外，多元logit回归模型还可以用来预测因变量的概率，从而为决策提供依据。

然而，多元logit回归模型也存在一些限制。

首先，它要求因变量是一个二元或多元变量，因此不能用于连续变量的分析。

其次，多元logit回归模型假设各个自变量之间是独立的，但在实际应用中，各个自变量之间可能存在相关性，这会影响模型的准确性。

多元logit回归模型是一种重要的统计分析方法，它可以用来研究多个自变量对一个二元或多元因变量的影响。

在实际应用中，我们需要根据具体问题选择合适的自变量和因变量，并注意模型的限制
和假设，以获得准确的分析结果。

log-logit的拟合方法

一、介绍log-logit拟合方法log-logit拟合方法是一种常用的统计技术，它用于分析二分类问题中的非线性关系。

在许多领域，如医学、生态学和市场营销等，研究人员经常需要对因变量和自变量之间的关系进行建模。

log-logit拟合方法可以帮助研究人员理解并预测这些关系。

二、log-logit拟合方法的原理1. log-logit拟合方法基于逻辑回归模型，它假设因变量和自变量之间的关系可以用逻辑函数来描述。

逻辑函数可以将自变量的线性组合转换成0和1之间的概率值，从而对两个类别进行分类。

2. log-logit拟合方法通过对数据进行最大似然估计，寻找最优的模型参数，使得模型的预测值与实际观测值之间的差异最小。

3. 与线性拟合方法不同，log-logit拟合方法考虑了因变量取值的非线性特征，能够更准确地描述复杂的分类关系。

三、log-logit拟合方法的优势1. 可处理非线性关系：log-logit拟合方法适用于因变量和自变量之间的非线性关系，能够更准确地描述实际情况。

2. 高度灵活性：log-logit拟合方法可以灵活地适应不同的数据特征，对不同领域的问题提供了一种通用的建模技术。

3. 可解释性强：通过log-logit拟合方法得到的模型参数具有很强的解释性，可以帮助研究人员理解因变量和自变量之间的关系。

四、log-logit拟合方法的应用1. 医学领域：log-logit拟合方法常常用于疾病风险预测和生物医学数据分析，可以帮助医生和研究人员理解疾病发生的概率与影响因素之间的关系。

2. 生态学领域：log-logit拟合方法可以用于分析生态系统中的物种分布、种裙动态和种间关系，为生态保护和环境管理提供科学依据。

3. 市场营销领域：log-logit拟合方法可以帮助企业预测用户的购物行为和偏好，优化营销策略和产品定位。

五、总结log-logit拟合方法是一种强大的统计工具，它能够处理非线性关系，具有高度灵活性和解释性强的优势。

logit回归模型学生成绩预测

logit回归模型学生成绩预测1. 引言在现代教育评估中，学生成绩预测一直是一项具有重要意义的任务。

通过对学生的背景信息和相关因素进行分析和建模，可以帮助教育工作者更好地了解学生的学习状况，优化教学策略，提升教育质量。

本文将介绍一种常用的预测学生成绩的方法，即logit回归模型。

2. Logit回归模型的基本原理Logit回归模型是一种二分类的预测模型，常用于预测一个事件发生的概率。

在学生成绩预测中，我们可以将模型输入设为学生的背景信息（如性别、年龄、家庭背景等）和其他相关因素（如学习时间、课外活动参与度等），输出设为学生成绩（例如通过与未通过）。

通过构建合适的模型，我们可以根据学生的背景信息来预测他们的学习成绩。

3. 数据收集与准备为了构建logit回归模型，我们需要收集有关学生背景信息和相关因素的数据。

这些数据可以通过调查问卷、学生档案、课堂观察等方式获得。

在数据收集之后，我们需要对数据进行预处理，包括缺失值处理、异常值检测和数据标准化等。

确保数据的完整性和准确性是进行有效分析的前提。

4. 模型建立与变量选择在模型建立阶段，我们需要选择合适的变量来构建logit回归模型。

变量的选择应该基于实际情况和专业知识，既需要重要的预测因素，又要避免共线性和过拟合等问题。

通过统计方法或者领域专家的建议，我们可以进行变量筛选和模型优化，以获得更高的预测准确性。

5. 参数估计与模型评估在参数估计阶段，我们通过最大似然估计等方法来估计logit回归模型中的参数。

通过对估计结果进行显著性检验和模型适配度检验，我们可以评估模型的可靠性和拟合优度。

常用的评估指标包括对数似然比统计量、AIC、BIC等。

6. 模型应用与结果解释在模型建立和评估之后，我们可以利用logit回归模型来预测学生成绩。

输入学生的背景信息和相关因素后，模型将给出学生通过考试的概率预测值。

根据预测结果，教育工作者可以根据学生的实际情况来制定个性化的教学计划和指导措施。

stata logit 模型解读

一、概述logit 模型是一种经典的统计回归模型，用于解决二分类问题。

它可以帮助我们预测一个变量的可能取值是0还是1，适用于很多实际问题中的预测和决策。

二、logit 模型基本原理1. logit 函数logit 模型使用的是 logit 函数，其数学表达式为：logit(p) = log(p / (1-p))其中 p 是事件发生的概率，logit(p) 是 p 的 logit 值。

logit 函数的作用是将概率转换为一个无限制的实数范围内，方便进行回归分析。

2. logit 模型的建立logit 模型假设因变量 Y 的对数几率是自变量 X 的线性函数，数学表达式为：logit(p) = β0 + β1X1 + ... + βnXn其中β0, β1, ... , βn 是回归系数，X1, ... , Xn 是自变量。

通过最大似然估计等方法，可以求得回归系数的估计值。

三、logit 模型的参数估计1. 最大似然估计logit 模型的参数估计通常使用最大似然估计方法。

最大似然估计是一种常用的参数估计方法，其目标是使得观测到的样本数据出现的概率最大化。

通过最大似然估计，可以求得logit模型中回归系数的估计值。

2. 参数估计的解释logit 模型中的回归系数估计值代表了自变量对因变量的影响程度。

回归系数的正负和大小可以表明自变量对因变量的影响方向和程度，而回归系数的显著性检验可以帮助判断自变量的影响是否显著。

四、logit 模型的应用1. 二分类预测logit 模型最常见的应用是进行二分类预测。

通过建立logit模型，可以预测一个事件发生的概率，并将其转化为一个0-1之间的取值，从而进行分类判断。

2. 风险评估在金融、医疗等领域，logit 模型也被应用于风险评估。

通过logit模型，可以判断个体发生某一事件的概率，从而进行风险评估和决策。

五、logit 模型的优缺点1. 优点logit 模型具有良好的解释性，可以通过回归系数解释自变量对因变量的影响。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第4卷第1期2004年2月交通运输系统工程与信息Jo ur nal of T r anspo rt atio n Sy stems Eng ineer ing and Infor matio n T echno lo gyVo l.4No.1Febr uar y 2004文章编号:1009-6744(2004)01-0071-05LOGIT 模型参数估计方法研究金　安(广州市规划局交通研究所,广州510030)摘要:　离散选择模型,特别是L OG IT 模型在交通需求模型建立过程中,应用非常广泛,许多实际的交通政策问题都涉及到方式选择,然而L OG IT 模型的建立非常困难,尤其是效用函数及参数估计.本文重点就L O GIT 模型参数估计的有关问题进行讨论,特别是运用统计方法如何对效用函数的变量进行选取及比较不同形式效用函数.关键词:　L O GI T 模型;参数估计;t 检验;似然率检验中图分类号:　N 945.12On Methodology of Parameter Estimation in L OGIT ModelJIN An(Instit ute o f T r aspo r tatio n,G uang zho u P la nning Bur eau,Guang zho u 510030,China )Abstract :　Disagg reg ate choice mo del ,especially L O GIT m odel ,hav e been used w idely in dev elo pment of tr avel demand mo del ,many pr actical tr anspor tation policy issues ar e concerned w ith mode choice.But pro cedure o f development of L OG IT mo del is difficult,especially mo del calibr atio n and for m of utility functio n.T his paper discuss r elat ional pr oblems o n development of L OG IT model,P articular emphasis is placed o n pr actical pr ocedur es for selection the co rr ect ex planato ry var iables and on compar ing differ ent ver sions of utility functio n using st atistical metho ds.Keywords :　L OG IT mo del;par ameter est imation;t -test;likeliho od testCLC number :　N 945.12收稿日期:2003-11-24金安:广州市规划局交通研究所工程师,工学硕士.研究方向为交通规划及交通需求模型.1　引言实践过程中,LOGIT 模型效用函数不可能预先知道,模型师在建立LOGIT 模型最初阶段几乎没有效用函数任何信息,最多认为在效用函数中会有哪些可能的变量,但也不能确定所有的变量是否都需要,更不可能知道哪些变量需要进行函数变换或效用函数参数的具体数值是多少.这些问题只有通过拟合合适的观测数据,并检验这些模型来确定哪一个最能够描述观测数据.本文主要介绍拟合和测试LOGIT 模型方法.2　数据的要求估计和检验过程的第一步是选择合适的观测数据,用于建立LOGIT 方式选择模型所需的数据有:(1)对个体实际方式选择行为的观测.例如,要建立工作出行方式选择模型,需要对上班出行者方式选择进行观测的数据.(2)所有被选择和没有被选择方式的相关属性值.这些属性可能作为模型中的变量.例如,假设总出行时间被认为是模型中的一个变量,则对于样本中每一个个体而言,所需数据包括每一种可能方式的总出行时间.如果属性数据仅包含被选择方式,LOGIT 模型就不能建立.(3)任何可能作为变量的个体属性值.例如,汽车拥有水平,则需要样本中每个个体家庭汽车拥有水平数.3　模型的设定所需数据收集后,下一步工作是设定一种或多种效用函数形式.设定步骤包括确定效用函数中变量、属性的函数变换以及效用函数的形式.这个步骤通常不确定效用函数参数值.例如,建立LOGIT 方式选择模型,可以设定如下两种比选效用函数形式:形式1V DA=a1T DA+a2A+a3(1a)V CP=a1T CP+a4A+a5(1b)V B=a1T B(1c) 形式2V DA=b1log(T DA)+b2A+b3(2a)V CP=b1log(T CP)+b4A+b5(2b)V B=b1lo g(T B)(2c) 在这些等式中,T表示出行时间(分),A表示出行者家庭汽车拥有量,a1～a5和b1～b5是参数.这个阶段设定的形式(1)和(2)并不意味着模型师必然相信其中一个是正确的,而是(1)和(2)都是模型师认为值得去估计和检验的效用函数形式.在估计和检验过程中,可以获取有助于确定是否这些形式应该修正的信息(例如从一个或两个形式中剔除一个或几个变量),以及提供确定哪一种函数形式能够更好地解释观测样本值.4　估计结果的解释——模型检验LOGIT模型一般采用最大似然估计法进行参数估计,LOGIT估计软件输出结果,除了模型参数的估计值外,还有许多用来解释估计参数的信息,用来决定哪一个参数应该包含在模型中,以及模型之间的比较.4.1　估计的精确度——估计的标准误大多数LOGIT估计软件的输出结果,除了参数估计值外,还有一套称为估计值的标准误.由于随机抽样误差的存在,某一参数估计值的标准误用来指示参数估计值偏离真值的大小.因此,估计值标准误是被估计参数精确度的指标.假如模型被正确的设定,则有0.95的概率相信真参数值落在估计值的1.96s(估计的标准误)范围内.换句话说,假如b est是参数的估计值,b tr ue是未知真值,s是估计的标准误,下面不等式以0.95的概率满足:b est- 1.96s<b tru e<b est+ 1.96s(3)改变数值1.96到1.645或2.575将认为不等式以0.90或0.99的概率满足.4.2　决定是否保留变量——t统计量除了参数估计的标准误外,大多数LOGIT软件还输出称为参数的t统计量.参数的t统计量通过参数估计值除以估计标准误来获取,即t=b est/s.参数的t统计量用来确定与参数相对应变量在描述或解释观测值是否显著,因此t统计量决定一个变量是否应该留在还是剔除出模型非常有用.有显著解释能力的变量应该留下,而那些没有什么解释能力的变量应该剔除.一般来说,具有较大正或负t统计量的变量比t统计量在1和-1之间的变量更具有解释能力.因此,具有较大正或负t统计量的变量应该保留,而t统计量在1和-1之间的变量则可以从模型中剔除.不存在唯一t统计量分界线来区分变量去留与否.经验表明,t统计量大于1.0或小于-1.0的变量一般应当保留.但是如果参数的t统计量在这范围之外,它的符号却同理论不一致,则该模型不正确.例如方式选择模型中,出行费用的参数应该是负数,然而在模型中出行费用的参数是+0.50,t统计量为2.7,这个模型是不正确的,应该重新建立.现实中t统计量较小并意味着相应的变量必须从模型中剔除.错误设定效用函数也可能引起一个或多个t统计量较小,甚至这些变量所表示的属性值对方式选择非常重要.例如,假如某一属性正确的表示是ln(X),但是在估计模型中,该属性被错误表示成X,则X参数的t统计量可能比较小,甚至X所表示的属性对方式选择非常重要,在这种情况下,假如用变量ln(X)代替X重新进行估计就有可能获得非常高的t统计量,因此,在根据t 统计量推断某一属性是否出现在效用函数中之前,应使用属性的不同函数变换进行比较实验.另外一种情形,虽然是小的t统计量,但与此同时有两个或多个参数也是小的t统计量,这时就不表明该变量应该剔除.有这种可能,几个参数的t统计量比较小,但与之对应变量联合一起却有显著解释能力.换句话说,单个变量有低的解释能力,但一组这样的变量却有很高的解释能力.在这种情形下,就不能剔除其中的任何变量,尽管它们参数的t统计量比较小.假设在汽车(A)和公交车(B)的方式选择模型中,效用函数表示成:V A=b1+b2IVT T A+b3OVT T A+b4C A+b5A+b6D(4a) V B=b2IVT T B+b3OVTT B+b4C B(4b)其中IVTT表示车内出行时间,OVTT表示车外出行时间,C表示出行费用,A表示出行者家庭汽车拥有量,D等于1假如出行的工作地在中央商务区,否则为0.假设估计结果如表1所示.72交通运输系统工程与信息2004年2月表1　t统计量估计结果参数变量估计值标准误t统计量b1In tercept 1.450.39 3.72b2IVTT-0.00897-0.00632-1.42b3OVT T-0.0308-0.0106-2.91b4C-0.115-0.0262-4.39b5A0.770.244 3.16b6D-0.5610.783-0.716b6的t统计量在-1.0和1.0之间,这意味着变量D解释能力很低,该变量可以从模型中剔除.没有其他变量的t统计量在- 1.0和1.0之间,因此,再没有其它变量可以剔除.4.3　决定是否保留一组变量——似然率检验大多数LOGIT估计软件输出样本LOG似然值.这个最大LOG似然值提供了决定一组变量是否可以从模型中剔除,这个过程称为似然率检验.直观地工作流程如下:假如一组变量几乎没有什么解释能力,那么将它们从模型中剔除应该对最大LOG似然值没有什么影响,剔除一个或多个变量一般来说使最大LOG似然值减少,但如果变量没有什么解释能力的话,最大LOG似然值减少应该很少.换句话说,假如一组变量没什么解释能力,有、无这些变量对估计模型的LOG似然值差值接近于0.似然率检验按以下步骤进行:(1)对包括所有变量的模型进行估计.令LOG L1表示最大LOG似然值.(2)剔除有问题的变量,重新估计模型.令LOG L2表示最大LOG似然值.(3)计算LR=2(LOG L1-LOG L2).LR 称为似然率检验统计量,通常手工计算,一般为正值.(4)假如LR超过合适的临界值CV,则被检验的变量应该保留在模型中,尽管它们所有的参数值的t统计量在-1.0和1.0之间.假如LR小于CV,则可以将这些变量从模型中剔除.临界值CV,对于似然率检验统计量来说,同检验的变量数目有关.表2列出检验2到5个变量的合理临界值.单变量的似然率检验相当于4.2中所描述的t-检验.因此,对单个变量就没有必要实施似然率检验.表2　似然率检验统计量的临界值检验变量数临界值2 2.4083 3.6654 4.8785 6.064 假设LOGIT模型的估计满足表3结果.表3　L OG IT模型的估计值参数变量估计值标准误t统计量b1Intercept 1.450.39 3.72b2IVTT-0.00897-0.00632-1.42b3OVT T-0.0308-0.0106-2.91b4C-0.115-0.0262-4.39b5A0.770.244 3.16b6D-0.5610.783-0.716log L=-374.4假设无法确定变量IVT T和D对模型是否有显著的解释能力.为了确定是否这些变量应该从模型中剔除,利用如下的效用函数重新估计模型: V A=b1+b3OVT T A+b4C A+b5A(5a)V B=b3OVTT B+b4C B(5b) 假设估计的结果如表4.则似然率检验统计量表4　利用新效用函数的估计值参数变量估计值标准误t统计量b1Intercept 2.670.438 6.1b3OVT T-0.0291-0.0143-2.04b4C-0.175-0.0482-3.63b5A0.5670.163 3.48log L=-377.2是LR=2[(-374.4)-(-377.2)]= 5.60.两个变量被检验,根据表2,两个变量似然率统计量的临界值是2.408.因此LR超过这个值,变量IVT T和D联合在一起具有显著的解释能力,尽管它们中的任何一个t统计量都在- 1.0和1.0之间.虽然每一个变量对选择结果的影响非常不准确,两变量任何一个都不能从模型中剔除.如果剔除这两个变量,会在剩余的参数估计上产生重大偏差,导致更大的预测误差.换句话,该模型不能够精确预测改变车内时间或工作地对方式选择影响,但是必须将这些变量保留在模型中防止其它变量变化影响预测的偏差.73第1期L O GIT模型参数估计方法研究4.4　模型的比较——修正的似然率检验到目前为止,所有模型检验的讨论都只是检验是否某一或一组变量应该从模型中剔除.并不是所有的检验都可以采用这种方法.例如,假设有两套方式选择LOGIT模型,要求确定哪一个模型能够更好地解释观测数据.假设这些模型的效用函数如下:M odel1:V=a1T+a2C(6)M odel2:V=b1lo g T+b2C(7)其中T和C分别表示出行时间和出行费用,a1、a2和b1、b2是常参数.前面讨论的t和似然率检验就不能用来确定哪一个模型更好,这是因为没有一个模型能够通过增加一个变量或剔除一个变量从另外一个中推导出来.这种不能通过增加一个变量或剔除一个变量从另外一个中推导的模型称为No n-Nested.直觉上认为,假如两个Non-Nested模型中一个比另外一个能更好解释观测数据,则更好的模型应该有更大的LOG似然值.因此,期望建立有如同似然率检验类似的一种检验来测试No n-Nested 模型.修正的似然率检验过程如下:假设No n-Nested模型叫做模型1和2,LOG L1和LOG L2分别表示模型1和2的最大LOG 似然值,K1和K2分别表示两个模型中参数的数目,(例如在等式(6)和(7)中,K1=K2=2),假如LOG L2<LOG L1,则模型1优于模型2,反之亦然.定义修正的似然率检验统计量如下:M LR=(lo g L1-K1/2)-(lo g L2-K2/2)(8)假如M LR> 1.35,则模型1在解释观测数据优于模型2.考虑LOGIT方式选择模型,其效用函数如下:M odel1:V=a1logIVT T+a2log OVTT+a3C(9) M odel2:V=b1T+b2C(10)其中T、IVT T、OVT T和C分别表示总出行时间,车内出行时间,车外出行时间和出行费用,a1、a2、a3和b1、b2、b3是常参数.假设两个模型的最大似然估计结果是log L1=-437.7和log L2=-440.2.模型1中有3个参数,模型2中有2个参数,因此K1 =3和K2=2.修正的似然率检验统计量是:M LR=(-437.7-3/2)-(-440.2-2/2)= 2.00由于MLR超过1.35,模型1比模型2更好解释观测数据.5　另外一些估计的问题有几种设定错误使LOGIT模型不能用最大似然法估计,这时估计软件将会异常终止,并产生错误或警告提示,在这些情况下的任何估计都是无意义的.(1)使用太多的特定方案(alter native-specific)常量.在大多数的实际问题中,LOGIT方式选择模型的效用函数包括特定方案常量,而模型中这些常量的数目不应超过交通方式数减1.假如特定方案常量等于交通方式数,则就不可能有唯一的参数解集满足样本LOG似然值最大.这通常会引起估计软件异常中断或产生一些提示估计发生的问题.(2)错误设定社会经济变量.社会经济变量,如收入和汽车拥有水平,对于所有的方案来说都是相同的.这些变量当且仅当以特定方式(mode specific)或乘以或除以一个属性值(其值在各方案中是不同的)进入到LOGIT模型中.假如它们以一般性(g eneric)变量进入到LOGIT模型的效用函数中,则这些变量对选择概率不发生作用.结果一般性的社会经济变量同LOGIT模型中其他变量不发生相互作用,也就不存在唯一的参数解集满足样本LOG似然值最大,估计软件将会异常终止.以特定方式表示的社会经济变量的数目不能超过模型中交通方式数减1,违反这条规则将导致参数估计失败,LOGIT估计软件异常终止或产生错误信息.(3)变量的完全多种相关性.完全多种相关性指的是这样情形,效用函数中一个或多个变量恰恰是其它几个变量的线性组合.例如,假设T,IVTT,和OVTT分别表示全部出行时间,车内出行时间和车外出行时间.假设LOGIT的效用函数设定如下:V=b1T+b2IVT T+b3OVT T+其它项(11)则完全多种相关性存在,因为T恰恰是IVTT和OVT T的线性组合.即T=IV TT+OVT T.完全多种相关性对估计引起的问题可以通过重写74交通运输系统工程与信息2004年2月(11)解释:V=b1(IVT T+OVT T)+b2IVTT+b3OVT T+其它项(12) =(b1+b2)IVT T+(b1+b3)OVT T+其它项(13)等式(13)显示选择预测仅仅依赖b1+b2和b1+b3的值.但是有无穷多种b1、b2、b3组合满足相同的b1 +b2和b1+b3的值.结果就不可能找到唯一b值满足样本LOG似然值最大.6　结论本文着重解释了估计LOGIT选择模型的方法.同时也描述了统计过程,用来指导变量的选择和LOGIT模型的检验.这些统计过程在建立模型时非常关键,但必须清楚地认识到任何统计方法都不能孤立保证建立一个满意的模型.与其说建模是门科学,不如说更像一门艺术,判断和经验都是其重要组成部分.即使有客观的统计方法存在时,也需要判断和经验,这主要是统计检验不能确定一个模型正确与否,它们仅能确定一个模型是否错误,统计方法很少能够洞察为什么模型是错误的,以及如何修正.模型师必须用判断和经验确定错误最有可能来源,之后修改模型消除错误.修改后的模型也需进一步统计检验以确定它们错误与否.因此,实际建立模型的过程经常是统计分析和判断交替进行的活动.参考文献[1]　M Ben-A kiva and S.R.L erman.Discr ete ChoiceAnalysis:T heor y and A pplication to T rav elDemand[M].T he M.I.T.Pr ess,Cambr idg e,M A,1985.[2]　Br uce D.Spear.A pplications of New T rav elDemand F or ecast ing T echniques t o T ranspo rt atio nPlanning:A Study o f Indiv idua l Choice M odels.U.S.Depar tment of T ranspo r tatio n,1977.[3]　J.d.D.O r t zar and L.G.W illumsen.M odellingT r anspor t[J].John Wiley&So ns,1994.[4]　Hag ue Consulting Gr oup.A L OG IT 4.0help-file.(上接第70页) 在此基础上,参考华北地区其它收费公路的费率标准,拟定低费率方案如表3所示。