离散选择模型logit模型实例stata分析.

合集下载

Stata入门手册 STATA操作方法概述

Stata入门手册 STATA操作方法概述

统计分析与计量分析的结合
单元统计:描述统计、假设检验(参数、非参数)、ANOVA、质量控制、统计 作图
多元统计:MANOVA、主成分、因子分析、典型相关、聚类、判别分析、对应 分析、多维标度 线性回归、非线性回归、工具变量回归、广义线性回归、分位数回归(稳健回 归)、系统方程模型(SUR、联立方程)、离散选择模型(二项选择、排序选择、 多项选择、条件Logit、嵌套Logit模型、二元选择模型等)、计数模型(泊松回归、 负二项回归)、截断与归并模型、海克曼选择模型、逐步回归(stepwise)等。 时间序列分析:时间序列的平滑、相关图、ARIMAX、GARCH、单位根检验、 Johansen协整检验、 VAR、VEC、滚动回归等。 面板数据(线性模型、工具变量回归、动态面板、分层混合效应、广义估计方 程(GEE)、随机边界模型等)。
语法结构(varlist)
已存在的变量
varlist表示若干变量。对于数据中存在的变量,允许的表达形式包括 *、?和。其中,*表示任意字符,?表示一个字符,表示两个变量 之间的所有变量(根据数据中变量的存放位置)。 比如,数据文件中共有20个变量,依次为var1、var2、… 、 var20,则var* 表示所有变量var1-var20,var?表示变量var1、 var2、… 、var9,var1-var6表示变量var1、var2、… 、var6。 新变量
生成新变量时,变量名称不能简化。如果变量具有相同的前缀并且 都以数字结尾,可以用-表示。比如,生成新变量V1、V2、V3、V4 input v1 v2 v3 v4 或者 . input v1-v4。
16
《STATA应用高级培训教程》 南开大学数量经济研究所 王群勇
语法结构(varlist)

离散选择模型logit模型实例stata分析.pptx

离散选择模型logit模型实例stata分析.pptx
MODEL 3-2 2variables (cost/LOS)
MODEL 4-2 2variables (time/LOS)
Data Modification
• We modify row-data to remove unreasonable data set
- Such as the choice of the not-dominant alternative
logcost5
los2
60
0
0.7419ቤተ መጻሕፍቲ ባይዱ7
6
60
1
1.029619
6
100
0
0.741937
10
60
1
1.029619
6
Modeling Estimated Results(DIST5)
Model distance5
1-1-5
2-1-5
3-1-5
0.2899 0.2884 0.1042
Modeling Estimated Results(DIST6)
Model 1 has 1 unreasonable data sets(in all data sets) Model 2 has 31 unreasonable data sets(in all data sets) Model 3 has 8 unreasonable data sets(in all data sets) Model 4 has 85 unreasonable data sets(in all data sets)
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0 m1-1-5

哈肯模型stata代码

哈肯模型stata代码

哈肯模型stata代码哈肯模型是一种用于分析离散选择数据的统计模型,常用于经济学和社会科学领域。

它可以帮助研究人员理解和解释个体在面临多个选择时的决策行为。

在本文中,我们将介绍如何使用Stata软件来实施哈肯模型。

首先,我们需要准备数据。

假设我们有一个关于消费者购买决策的数据集,其中包含了消费者的个人特征以及他们购买某个产品的选择。

我们的目标是使用哈肯模型来分析这些数据,以了解哪些因素对消费者的购买决策产生了影响。

在Stata中,我们可以使用`hheckman`命令来实施哈肯模型。

首先,我们需要使用`heckman`命令来估计选择方程。

选择方程是一个二元回归模型,用于预测个体是否会进行某个选择。

在我们的例子中,选择方程可以是一个关于消费者特征的Logit模型。

以下是一个示例代码:```heckman purchase_var X1 X2 X3, select(var1 var2 var3) twostep```在上述代码中,`purchase_var`是我们的因变量,表示消费者是否购买了产品。

`X1`、`X2`和`X3`是我们的自变量,表示消费者的个人特征。

`select(var1 var2 var3)`指定了选择方程中的自变量,`twostep`表示使用两步法进行估计。

接下来,我们需要使用`heckprob`命令来估计选择方程的预测概率。

以下是一个示例代码:```heckprob, predict(purchase_prob)```在上述代码中,`predict(purchase_prob)`指定了选择方程的预测概率变量名为`purchase_prob`。

然后,我们可以使用`heckman`命令来估计结果方程。

结果方程是一个线性回归模型,用于预测购买者的购买数量或购买金额。

以下是一个示例代码:```heckman purchase_quantity X1 X2 X3, select(var1 var2 var3) twostep```在上述代码中,`purchase_quantity`是我们的因变量,表示购买者的购买数量或购买金额。

第八章--离散选择模型――Logist回归

第八章--离散选择模型――Logist回归

第八章离散选择模型—Logistic回归基于logistic回归模型的企业信用评价——以材料和机械制造行业上市公司为例一、引言中国市场经济制度的日益健全与完善以及证券债券等金融市场的逐步建立与发展,信用成为经济交往、债务形成的一个重要的基础,信用风险越来越受到市场交易者的关注。

信用风险是指借款人、证券发行人或交易方由于各种原因不愿或无能力履行商业合同而违约,致使债权人、投资者或交易方遭受损失的可能性。

对于上市公司而言,这种违约行为经常表现为拖欠账款、资不抵债以及以发行证券或债券进行圈钱等失信行为。

对这种违约失信的可能性的度量显得十分重要。

怎样分析公司的信用状况,对信贷管理者如何分析企业的信用,对证券投资者如何衡量投资项目的风险和价值以及企业家如何评价自己管理的公司,都有极大的价值。

自上世纪中期以来,国内外以计算违约率(本文计算守信率,守信率=1-违约率)对信用风险进行评价和度量的方法和模型得到了迅速发展。

对企业的信用评价主要是基于综合财务指标特征计算违约风险并用来划分等级。

以综合财务指标为解释变量,运用计量统计方法建立模型,分析信用在金融和学术界成为主流,并且评价效果显著。

特别对于logistic回归模型效果更好,因为该模型没有关于变量分布的假设,也不要求假设指标存在多元正态分布。

最早有Martin(1977)建立logistic回归模型预测公司的破产以及违约的概率。

Madalla(1983)建立logistic回归模型来区分违约和非违约贷款申请人,并确认0.551为两者的分界线。

比如在我国,张后启等(2002),杨朝军等(2002),应用Logistic模型研究上市公司财务危机,得出有效结论等等。

面对我国在深沪两家证券市场上市的一千多家上市公司,由于公司体制和管理机制缺陷,或者自身利益最大化利益驱使,或者多部分有国企改制而来等各种原因,信用风险程度变的更大。

若能够应用一个较简单的计量模型对他们的信用状况进行评价,对债权人选择贷款对象,投资者投资和交易方的选取都有较大帮助。

chap09 stata与离散被解释变量模型

chap09 stata与离散被解释变量模型

二实验操作指导 1.选择合理模型 在Stata中将数据按照某个或某几个变量进行分类 并按这个变量获得其频数分布的命令如下: tab varlist 其中varlist表示按照其分类的变量或者变量组合。 在本实验中,打开数据文件并将数据按brand取 值分类,在Stata命令窗口中输入如下命令 use brand ,clear tab brand 读图可知brand取值有三个,分别是1,2,3。由 于所要探究的问题female和age对brand的影响, 且假定了选择各个品牌之间是相互独立的,那么 建立多值选择模型来分析问题是合理的。
本实验中,在Stata命令窗口中输入如下命令进行 异方差模型估计和检验,可以得到图9.12的运行 结果: hetprob work age education married children, het (age education married children) 结果显示LR检验的结果是接受原假设,即模型不 存在异方差问题。所以回归不应使用异方差回归 模型,可以直接应用probit模型进行估计。
最后是godness-of-fit拟合优度检验,在 Stata命令窗口中输入如下命令: estat gof
3.二值选择模型的异方差问题 Stata中对probit二值选择模型进行异方差检验和 回归的命令语句如下: hetprob y x1 x2 …[if] [in] [weight] , het(varlist [offset(varname)]) [,options] 其中hetprob表示对模型进行异方差probit模型估 计和异方差检验,if和in表示对检测拟合优度时的 条件和范围的设定,weight表示对观测值的权重 设定,选择项 het(varilist)是影响扰动项的变量清 单,在该命令语句的输出结果里,会汇报LR检验 的结果,据此判断是否应该使用此异方差模型, options的内容如下表所示:

离散因变量模型(Logit模型,Probit模型).ppt

离散因变量模型(Logit模型,Probit模型).ppt

yi 0
yi 1
所以似然函数为:
n
L
( F (X i))yi (1 F (X i))1yi
i 1
n
ln L ( yi ln F ( X i ) (1 yi ) ln(1 F ( X i )))
i 1
ln L
n i 1
yi f i Fi
(1
yi
)
fi (1 Fi
)
X
P( yi*
0)
P(
* i
Xi)
1
P(
* i
Xi)
1 F (Xi) F (Xi)
F(t) 1 F(t)
E( yi Xi ) 1 P 0 (1 P) F (Xi)
Y E(Y X )
总体回归模型
样本回归模型
Y F ( XB) yi F ( Xi B) i (i 1, 2......n)
U
1 i
Xi 1
i1
第i个个体选择1的效用
U
0 i
Xi 0
i0
第i个个体不选择1(选择0)的效用
U
1 i
U
0 i
Xi (1
0 )
(i1
i0 )
yi* Xi
i
yi 1( yi 0) 选择1
yi
0( yi
0)
不选择1 (选择0)
(二) 二元选择的经济计量一般模型
P( yi
1
Xi)
模型 yi ( Xi B) i
f
(Z )
F'(Z)
eZ (1 eZ )2
(Z )(1 (Z ))
线性化 pi ( Xi B)

(
Z

离散选择模型完整版

离散选择模型完整版

离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。

我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。

本章主要介绍以下内容:1、为什么会有离散选择模型。

2、二元离散选择模型的表示。

3、线性概率模型估计的缺陷。

4、Logit模型和Probit模型的建立与应用。

第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。

1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。

例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。

由离散数据建立的模型称为离散选择模型。

2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。

例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。

这种类型的数据成为审查数据。

再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。

这两种数据所建立的模型称为受限被解释变量模型。

有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。

下面是几个离散数据的例子。

例研究家庭是否购买住房。

由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。

stata中的logit命令

stata中的logit命令

Stata中的logit命令1. 介绍在统计学和经济学中,logit模型是一种用于二分类问题的回归模型。

它是一种广义线性模型(GLM),常用于分析二元变量的概率与自变量之间的关系。

Stata是一种流行的统计软件,提供了logit命令来进行logit回归分析。

本文将详细介绍Stata中的logit命令,包括命令语法、参数解释、结果解读以及常见问题和注意事项等内容。

2. 命令语法在Stata中,使用logit命令进行logit回归分析的基本语法如下:logit dependent_variable independent_variables [if] [in] [weight], options其中,dependent_variable表示因变量(二元变量),independent_variables表示自变量(可以是连续变量或者分类变量)。

if、in和weight为可选参数,用于指定数据子集、样本权重等。

options为可选参数,用于控制回归模型的具体设定。

常见的options包括:•robust:使用鲁棒标准误估计回归系数;•cluster(varname):进行聚类标准误估计;•vce(robust):同时使用鲁棒标准误和聚类标准误;•nolog:不输出回归结果。

3. 参数解释logit命令的结果输出包括两部分:回归系数和模型拟合信息。

下面分别介绍这两部分的内容及其解释。

3.1 回归系数logit命令输出的回归系数表示自变量对于因变量的影响程度。

具体解释如下:•Coef.:自变量的系数估计值;•Std. Err.:系数估计值的标准误;•z:系数估计值与标准误之比,用于进行假设检验(z检验);•P>|z|:假设检验的双侧p值,用于判断自变量是否显著影响因变量。

通常情况下,我们关注P值是否小于0.05,以确定自变量是否对因变量有显著影响。

3.2 模型拟合信息logit命令还输出了一些模型拟合信息,用于评估模型的拟合程度和预测能力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
MODEL 3-2 2variables (cost/LOS)
MODEL 4-2 2variables (time/LOS)
Data Modification
• We modify row-data to remove unreasonable data set
- Such as the choice of the not-dominant alternative
✓ Model 1 has 1 unreasonable data sets(in all data sets) ✓ Model 2 has 31 unreasonable data sets(in all data sets) ✓ Model 3 has 8 unreasonable data sets(in all data sets) ✓ Model 4 has 85 unreasonable data sets(in all data sets)
MODEL 3-1 - Distance 5/6 2variables (cost/LOS)
MODEL 4-1 - Distance 5/6 2variables (time/LOS)
MODEL 1-2 N 3variables (cost/time/LOS)
MODEL 2-2 2variables (cost/time)
Model distance6
1-1-6
2-1-6
3-1-6
0.2588 0.2539 0.0704
Modeling Estimated Results(DIST5&6)
Model Distance5&6
1-2
2-2
3-2
0.2539 0.2521 0.0838
Modeling Comparison
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0 m1-1-5
m2-1-5
m3-1-5
m1-1-6
m2-1-6
m3-1-6
m1-1
m2-1
m3-1
Conclusion
• The best model is Model 1-1 • Statistical results of the estimation indicate that
Introduction
• This paper developed a disaggregated logistics demand models using discrete choice analysis method.
• Data used is 2008-SP data from a survey. • Stata was employed for the estimation of logit
time [hour] LOS [#/10]
Modeling Scenarios Setting
Modeling scenarios
Market Segment?
MODEL 1-1 - Distance 5/6
3variables (cost/time/LOS)
Y
MODEL 2-1 - Distance 5/6 2variables (cost/time)
7
60
2
• Data reorganize example
id mode distance
qtype
cost
time
223 rail
5
1
210000
14
223 truck
5
223 rail
5
1
280000
6
10
210000
000
7
los
choice
logcost5
los2
Discrete Choice Analysis Term paper
Logit modeling with stata
2016. 12. 14 G201538010 LI TINGTING
Contents
• Introduction • SP Data set information • Modeling scenarios setting • Data modification • Modeling estimated results • Modeling comparison • Conclusion
Model 4 is ignored
Data Modification
• Basic data
rail
truck
id distance question type
cost
time
los
cost
time
los
choice
223
5
1
210000
14
60 280000
6
60
2
223
5
2
260000
14
80 350000
models.
SP Data set information
• Stated pointed: 2007 • Analysis commodity: steel • Analysis range: 30 people(row 600-1500) • Dependent variable: choice • Independent variables: cost [log(#/10^5)]
market segmentation makes the model more comprehensive. • The more variables model has, the more comprehensive model is.
❖ The model which is used 3 variables is more comprehensive than the model used 2 variables.
60
0
0.741937
6
60
1
1.029619
6
100
0
0.741937
10
60
1
1.029619
6
Modeling Estimated Results(DIST5)
Model distance5
1-1-5
2-1-5
3-1-5
0.2899 0.2884 0.1042
Modeling Estimated Results(DIST6)
THANK YOU
相关文档
最新文档