第十章_logit回归

第十章_logit回归
第十章_logit回归

第十章 logitic 回归

本章导读:

Logitic 回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。

10.1 logit 模型和原理

Logistic 回归分析是对因变量为定性变量的回归分析。它是一种非线性模型。其基本特点是:因变量必须是二分类变量,若令因变量为y ,则常用y=1表示“yes ”,y=0表示“no ”。

[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。自变量可以为虚拟变量也可以为连续变量。从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:

???===事情未发生

事情发生01y 我们可以采用多种方法对取值为0、1的因变量进行分析。通常以P 表示事件发生的概率(事件未发生的概率为1-P ),并把P 看作自变量x 的线性函数。由于y 是0-1型Bernoulli 分布,因此有如下分布:

P=P (y=1|x ):自变量为x 时y=1的概率,即发放现金股利公司的概率

1-P=P (y=0|x ):自变量为x 时y=0的概率,即不发放现金股利公司的概率 事件发生和不发生的概率比成为发生比,即相对风险,表现为P

P odds -=

1.因为是以 对数形式出现的,故该发生比为对数发生比(log odds ),表现为)1ln(P P odds -=。对数发生比也是事件发生概率P 的一个特定函数,通过logistic 转换,该函数可以写成logistic 回归的logit 模型:

)1(log )(log P

P P it e -= Logit 一方面表达出它是事件发生概率P 的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。

根据离散型随即变量期望值的定义,可得:

E(y)=1(P)+0(1-P)=P

进而得到x P y E 10)(ββ+==

因此,从以上分析可以看出,当因变量的取值为0、1时,均值x y E 10)(ββ+=总是代表给定自变量时y=1的概率。虽然这是从简单线性回归分析而得,但也适合复杂的多元回归函数情况。

k k x x x itP y E ββββ++++== 22110log )(

β0为常数项,β1,β2,…,βk 分别为k 个自变量的回归系数。

因此,logistic 模型为:

k

k k k x x x x x x P P e e e e P f ββββββββ+++++++++=+= 221102211011)(

10.2 模型的stata 程序

Stata 有两个命令可进行二元logistic 回归分析:logit 和logistic 。其分析的结果的实质是一样的。但输出的结果的表现形式有所不同。前者提供参数估计,后者提供发生比。

Logit 命令:

Logit 因变量 变量1 变量2… 变量m

/*二元非线性回归的基本命令,输出回归系数*/

Logistic 命令:

logistic 因变量 变量1 变量2… 变量m

/*二元非线性回归的基本命令,输出发生比*/

lfit

/* lfit 是模型适定性诊断命令*/

clogit 因变量 变量1 变量2… 变量m ,strata(配对编号变量) [or]

/* clogit 是条件logistic 回归命令*/

10.3 关于股利政策的logit 模型及解释

use E:\stata\logit.dta

/*打开stata 数据集*/

(1)logit 命令

. logit cashdum roa td size lagcashdum growth cg12 first

Iteration 0: log likelihood = -753.6759

Iteration 1: log likelihood = -464.64549

Iteration 2: log likelihood = -413.47149

Iteration 3: log likelihood = -384.32824

Iteration 4: log likelihood = -376.73079

Iteration 5: log likelihood = -376.20593

Iteration 6: log likelihood = -376.20303

Logistic regression Number of obs = 1116 LR chi2(7) = 754.95 Prob > chi2 = 0.0000 Log likelihood = -376.20303 Pseudo R2 = 0.5008

------------------------------------------------------------------------------

cashdum | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+----------------------------------------------------------------

roa | 36.27163 3.999394 9.07 0.000 28.43296 44.11029 td | -.3322466 .4976051 -0.67 0.504 -1.307535 .6430414 size | .1079257 .0839493 1.29 0.199 -.0566119 .2724633 lagcashdum | 2.815261 .2006755 14.03 0.000 2.421944 3.208578

growth | .4252429 .2686294 1.58 0.113 -.1012611 .9517469 cg12 | .1585007 .0477705 3.32 0.001 .0648722 .2521292 first | 1.665727 .5831852 2.86 0.004 .5227054 2.80875 _cons | -6.445765 1.332788 -4.84 0.000 -9.057982 -3.833548

这里,log likelihood 即对数似然值,乘以2即为-2LL ,是模型的估计方法。在进行逐步回归时,通过比较不同模型的-2LL ,判断模型的拟合程度。取值越小,模型的适应性越好;取值越大,模型的效果越差。

Number of obs 是我们所使用的样本量。

LR chi2(7)即为卡方检验统计量,也就是回归模型无效假设(即所有协变量的发生比均为1)所对应的似然比检验量,其中的(7)为自由度,Prob > chi2是模型无效假设检验对应的P 值。这两个指标与线性回归的F 统计量和其P 值的功能大体一致。0.0000数值表明,该模型是显著的。

另一个统计量Pseudo R2是伪决定系数R 2。虽不完全等于R 2,但大致提供模型中自变量对因变量变异的解释能力。

Coef.是每个自变量对应的系数估计。在logistic 回归分析中,该系数为对数;Std.Err 即系数对应的标准误;OLS 通过t 检验来判断自变量对因变量的影响是否显著,logistic 模型使用z 检验来达到该目的。因此,z 是单个系数检验的统计量;P>|z|是系数检验的P 值;最后两列为系数95%的置信区间。

二元logit 回归分析中系数的解释与多元线性回归分析中回归系数的解释并无不同,βi 表示,x i 改变一个单位时,logitP 的平均变化量。

Logit 回归中的常数项(β0)表示,在不接触任何潜在危险(或保护因素)条件下,因变量发生与不发生的概率之比的对数值。Logit 回归中的回归系数(βi )表示,某一自变量改变一单位时,因变量发生与不发生时间的概率之比的对数变化值,即发生比(Odds Ratio )的对数值。

由于系数为对数,故不能像线性回归那样将其直接解释为自变量对因变量的影响程度。只有将其转换为风险比后,系数才更有明确的意义。比如,分析结果显示,size (单位为千元)的回归系数为0.11。但我们不能将系数解释为size 每增加一单位,发放股利的概率增加11%。事实上,我们并不知道规模对股利发放概率的影响程度,虽然我们知道其影响性质和显著水平。就变量lagcashdum 来说,上期发放股利的公司的概率高于上期不发放股利的公司,但我们并不知道二者之间的差别有多大。

当自变量为连续性变量时(如size ),e (βi )表示xi 增加一个计量单位的对数比;当自变量为二分类变量时(如:lagcashdum ),发生/是=1,不发生/否=0,则logistic 回归中的系数即为是/否的对数值。若上面的系数转化为风险比(Odds Ratio ),则可直接比较组间差异以及自变量对因变量的影响程度。转化公式为:

)

1/()1/(0011p p p p OR --= (2)logistic 命令

Stata 另外一个命令可以直接输出风险比:

. logistic cashdum roa td size2 lagcashdum growth cg12 first

Logistic regression Number of obs = 1116

LR chi2(7) = 754.95

Prob > chi2 = 0.0000

Log likelihood = -376.20303 Pseudo R2 = 0.5008

------------------------------------------------------------------------------

cashdum | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+----------------------------------------------------------------

td | .7173104 .3569373 -0.67 0.504 .2704861 1.902258 size2 | 1.113965 .0935166 1.29 0.199 .9449608 1.313195 lagcashdum | 16.69753 3.350786 14.03 0.000 11.26774 24.74386 growth | 1.529962 .4109928 1.58 0.113 .903697 2.590231

cg12 | 1.171753 .0559752 3.32 0.001 1.067023 1.286762

first | 5.28952 3.08477 2.86 0.004 1.686584 16.58916

roa | 5.66e+15 2.26e+16 9.07 0.000 2.23e+12 1.44e+19 ------------------------------------------------------------------------------

Odds Ratio为自变量各自对应的风险比;Std.Err.即相应的风险比的标准差;z是单个风险比=1检验的z统计量;P>|z|是耽搁风险比=1检验的P值;最后两列为95%的置信区间。

由风险比(Odds Ratio)可知,样本的资产负债率(td)没增加1单位,公司发放股利的概率降低71%;上一期发放股利的公司本期发放股利的概率是上一期未发放股利的16倍。

最后,需要指出的是,多因素logistic回归分析时,对回归系数的解释都是指在其他所有变量固定的情况下的风险比。当模型包括自变量的交互项时,logistic回归系数的解释变得更为复杂。

eviews多元线性回归案例分析

中国税收增长的分析 一、研究的目的要求 改革开放以来,随着经济体制的改革深化和经济的快速增长,中国的财政收支状况发生了很大的变化,中央和地方的税收收入1978年为519.28亿元到2002年已增长到17636.45亿元25年间增长了33倍。为了研究中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增长趋势,需要建立计量经济学模型。 影响中国税收收入增长的因素很多,但据分析主要的因素可能有:(1)从宏观经济看,经济整体增长是税收增长的基本源泉。(2)公共财政的需求,税收收入是财政的主体,社会经济的发展和社会保障的完善等都对公共财政提出要求,因此对预算指出所表现的公共财政的需求对当年的税收收入可能有一定的影响。(3)物价水平。我国的税制结构以流转税为主,以现行价格计算的DGP等指标和和经营者收入水平都与物价水平有关。(4)税收政策因素。我国自1978年以来经历了两次大的税制改革,一次是1984—1985年的国有企业利改税,另一次是1994年的全国范围内的新税制改革。税制改革对税收会产生影响,特别是1985年税收陡增215.42%。但是第二次税制改革对税收的增长速度的影响不是非常大。因此可以从以上几个方面,分析各种因素对中国税收增长的具体影响。 二、模型设定 为了反映中国税收增长的全貌,选择包括中央和地方税收的‘国家财政收入’中的“各项税收”(简称“税收收入”)作为被解释变量,以放映国家税收的增长;选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的代表。由于税制改革难以量化,而且1985年以后财税体制改革对税收增长影响不是很大,可暂不考虑。所以解释变量设定为可观测“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数” 从《中国统计年鉴》收集到以下数据 财政收入(亿元) Y 国内生产总值(亿 元) X2 财政支出(亿 元) X3 商品零售价格指 数(%) X4 1978519.283624.11122.09100.7 1979537.824038.21281.79102 1980571.74517.81228.83106

spss多元回归分析案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 总消费(C:亿元) 总GDP(亿元)消费率(%) 1995 1095.97 2109.38 51.96 1997 1438.12 2856.47 50.35 2000 1594.08 3545.39 44.96 2001 1767.38 3880.53 45.54 2002 1951.54 4212.82 46.32 2003 2188.05 4757.45 45.99 2004 2452.62 5633.24 43.54 2005 2785.42 6590.19 42.27 2006 3124.37 7617.47 41.02 2007 3709.69 9333.4 39.75 2008 4225.38 11328.92 37.30 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

多元回归分析案例

多元回归分析案例 计量经济学案例分析 多元回归分析案例 学院: 数理学院 班级: 数学092班 学号: 094131230 姓名: 徐冬梅 摘要:为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,用Eviews软件对相关数据进行了多元回归分析,得出了相关结论 关键词:多元回归分析 ,Evicews软件, 中国人口自然增长; 一、建立模型 为了全面反映中国“人口自然增长率”的全貌,选择人口自然增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。国名总收入,居民消费价格指数增长率,人均GDP作为解释变量暂不考虑文化程度及人口分布的影响。 通过对表1的数据进行分析,建立模型。其模型表达式为: (i=1,2,,3) Y,,,,X,,X,,X,ui11i22i33ii 其中Y表示人口自然增长率,X 表示国名总收入,X表示居民消费价格指12 数增长率,X表示人均GDP,根据以往经验和对调查资料的初步分析可知,Y与3

X,X,X3呈线性关系,因此建立上述三元线性总体回归模型。Xi则表示各解12 释变量对税收增长的贡献。μi表示随机误差项。通过上式,我们可以了解到,每个解释变量增长,亿元,粮食总产值会如何变化,从而进行财政收入预测。相关数据: 表1 国民总收居民消费价人口自然增人均GDP年份入(亿元)格指数增长长率(%。)Y (元)X3 X1 率(CPI)%X2 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336

基于Logit模型的上市公司评级研究

基于Logit模型的上市公司评级研究 摘要:本文选用Altman的ZETA模型中7个变量,利用Logit 模型对我国上市公司进行了评级分类,结论表明Logit模型能够将估计样本中的71.89%的公司进行正确评级分类,而能将预测样本中62.50%的公司进行正确评级分类,Logit 模型对我国上市公司的评级具有一定的效力。 关键词:Logit模型;上市公司;评级 一、引言 我国股票市场和债券市场的扭曲发展不仅使得资本市场的资源配置作用并未得到有效发挥,而且使得股票市场独自承担了所有的市场风险,从而导致了股票市场的巨大波动。然而,引起我国债券市场发展滞后的主要原因之一就是债券评级制度的不成熟。因此,对上市公司能够做出独立且正确的信用评级,不仅可以引导投资者做出正确的投资决策,完善市场结构,还对我国债券市场乃至整个资本市场的健康发展具有重要的意义。 随着资本市场的资本配置作用日益显著,公司的信用评级研究在国内外都有了巨大的发展。Altman(1968)与Altman等(1977)利用多元判别分析(MAD)分别建立了著名的得分模型和第二代信用评分模型,即ZETA模型。Ohlson (1980)将Logit模型引入到公司财务危机预测上来,发现logit模型能够将具有不同财务质量的公司做出有效的分类。李湛和徐一骞(2009)运用Altman的Z 得分模型,检验了2006-2007年由中诚信所作信用评级的34家企业,结果表明我国企业存在众多信用评级相背离的现象。刘瑞霞、张晓丽、陈小燕以及郝艳丽(2008)将多元有序Logit模型应用于我国的信用评级,并选取我国53家上市公司作为样本对Logit模型的适用性进行了检验,但未对结果做出详细的分析。 本文将659家具有五种不同财务质量的公司分为估计样本和测试样本,以Altman的ZETA模型中的7个变量作为本文的解释变量,应用Logit模型对我国上市公司进行信用评级,结论表明Logit模型对我国上市公司具有较好的分辨能力,能够把不同财务质量的上市公司进行有效区分。 二、变量及数据 在大量的实证检验中,由于Altman的ZETA模型具有较高的信用分辨能力,因此,本文直接采用ZETA模型由财务指标构造的的7个变量,分别是:资产收益率、收益稳定性指标、留存收益/总资产、利息保障倍数、资本化率、流动比率和规模。下表是对本文变量的简要说明。 表1 变量说明 对于因变量y,本文从我国A股市场一共选取了659家上市公司,根据其风险属性将这659家公司分成5类不同的风险级别。并且将样本分为估计样本和预

多元回归分析案例解析

计量经济学案例分析 多元回归分析案例 学院:数理学院 班级:数学092班 学号: 094131230 姓名:徐冬梅

摘要:为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,用Eviews 软件对相关数据进行了多元回归分析,得出了相关结论 关键词:多元回归分析 ,Evicews 软件, 中国人口自然增长; 一、 建立模型 为了全面反映中国“人口自然增长率”的全貌,选择人口自然增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP ”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。国名总收入,居民消费价格指数增长率,人均GDP 作为解释变量暂不考虑文化程度及人口分布的影响。 通过对表1的数据进行分析,建立模型。其模型表达式为: i i i i i u X X X Y ++++=332211ββββ (i=1,2,,3) 其中Y 表示人口自然增长率,X 1 表示国名总收入,X 2表示居民消费价格指数增长率,X 3表示人均GDP ,根据以往经验和对调查资料的初步分析可知,Y 与X 1,X 2 ,X3呈线性关系,因此建立上述三元线性总体回归模型。Xi 则表示各解释变量对税收增长的贡献。μi 表示随机误差项。通过上式,我们可以了解到,每个解释变量增长1亿元,粮食总产值会如何变化,从而进行财政收入预测。 相关数据: 表1 年份 人口自然增长率(%。)Y 国民总收 入(亿元) X1 居民消费 价格指数增长率(CPI )%X2 人均GDP (元)X3 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024 2007 5.24 235367 1.7 17535 2008 5.45 277654 1.9 19264

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

基于Logit模型的中小企业信贷风险实证分析

基于Logit模型的中小企业信贷风险实证分析 【摘要】中小企业普遍存在的“融资难”现象影响了中小企业的发展。文章分析了中小企业的信贷风险,适当选取2013年上市公司为样本,利用SPSS统计软件,运用因子分析方法对中小企业信贷风险指标进行了筛选,构建了基于Logit回归模型的中小企业信贷风险度量模型。实证分析表明,模型具有较高的有效性和准确性,可作为中小企业信贷风险评估的科学依据。 【关键词】中小企业;信贷风险;因子分析;Logit回归模型 一、引言 中小企业在国民经济发展中具有重要地位,在推动技术创新、缓解就业压力、方便群众生活、保持社会稳定等方面发挥着重要作用。但是,相对于大型企业而言,中小企业一般规模较小、员工素质不高、研发投入不足、把握市场能力较弱,在激烈的市场竞争中缺乏应变能力,使商业银行对其设置了严格的融资约束和限制,普遍出现“融资难”的情况,导致经营状况、财务状况越来越差,进一步加剧了中小企业获取资金的难度。为了改善中小企业经营环境,促进中小企业健康发展,中国人民银行先后发布了有关服务中小企业的货币信贷政策和指导意见,加大了对中小企业的信贷支持。工业和信息化部发布的《“十二五”中小企业成长规划》指出,中小企业成长面临着国际和国内经济巨大变革带来的历史机遇和严峻挑战,提出了完善政策、加强金融支持等一系列保障措施。根据中国人民银行发布的《2013年金融机构贷款投向统计报告》,金融机构(含商业银行及农村合作社、城市信用社和外资银行等)全年中小企业贷款余额增加1.63万亿元,占全部企业新增贷款的43.5%;年末小企业贷款余额13.21万亿元,同比增长14.2%。因此,研究中小企业面临的信贷风险,分析其来源和表现形式,科学地度量其风险水平,对于提高中小企业风险控制能力具有重要的理论价值和现实意义。 二、中小企业信贷风险分析 目前,中小企业财务融资和信贷风险主要表现在:融资渠道单一、融资成本较高、信贷支持不够等方面。现有的信贷风险分析的方法和度量模型,大多数针对大型上市公司,并没有一套完全适合我国中小企业信贷风险的评价体系。针对我国中小企业自身的特点,结合我国的经济发展状况和中小企业面临的环境,分析中小企业信贷现状和存在的风险,是建立中小企业信贷风险度量模型的基础。 与大型企业不同,中小企业信贷风险来源广泛,主要是宏观经济风险、金融机构的风险、企业自身的风险等方面。 1.宏观经济风险。宏观政策风险——宏观政策的调整(产业政策调整、信贷政策紧缩及出口退税政策等)可能为中小企业带来不可抗力的市场风险;利率风险——当财政和货币政策较为宽松时,贷款利率降低,融资成本较低,反之会增大企业的融资风险;汇率风险——对涉及进出口、外贸型的中小企业,汇率变动风险也是不可忽略的。

多元回归分析实例

某农场负责人认为早稻收获量(y :单位为kg/公顷)与春季降雨(x 1:单位为mm )和春季温度(x 2:单位为℃)有一定的联系,通过7组试验获得了相关的数据。利用Excel 得到下面的回归结果(α=0.1): 方差分析表 (2)写出早稻收获量与春季降雨量、春季温度的多元线性回归方程,并解释各回归系数的意义。 (3)检验回归方程的线性关系是否显著? (4)检验各回归系数是否显著? (5)计算判定系数2 R ,并解释它的实际意义。 (6)计算估计标准误差Se ,并解释它的实际意义。 (每个空格为0.5分) -----3分 2、设总体回归模型为Y =1 2 1 2 x x αεββ+ ++ 估计回归方程为y ?=1 2 1 2 ???x x αββ++,由EXCEL 输出结果可知,y ?=120.3914.92218.45-++x x ,回归系数1 ?β 的意义指在温度不变的条件下,当降雨量每增加1mm ,早稻收获量平均增加14.92kg/公顷;回归系数 2 ?β 的意义指在降雨量不变的条件下, 当温度增加1℃,早稻收获量平均增加218.45kg/公顷。 ---5分

3、由于p 值=0.000075<α=0.05,则拒绝原假设,即表明回归方程的线性关系是显著的。 ---2分 4、由于各回归系数的P 值均小于α(0.05),所以各回归系数是显著的。 ---2分 5、 2 13878495.67 0.9914000000 = ==SSR SST R ,表示早稻收获量的总变异中有99%的部分可以由降雨量、温度的联合变动来解释。 ---4分 6、 174.29= ===e S (k 为自变量个数) ,是总体回归模型中随机扰动项ε的标准差的无偏估计量,用来衡量回归方程拟合程度的分析指标,e S 越大, 拟合程度越低;e S 越小,拟合程度越高. ---4分

Logit模型

Logit模型 LOGLINEAR vary (1,2) BY devolve(1,2) data(1,2) /CRITERIA=DELTA(0) /PRINT=ESTIM /DESIGN=vary vary by devolve vary by data . CROSSTABS /TABLES=vary BY devolve BY data /FORMAT= A V ALUE TABLES /CELLS= COUNT . 饱和模型和分层模型 HILOGLINEAR data(1 2) vary(1 2) devolve(1 2) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(0) /PRINT=ASSOCIATION /DESIGN . try’s data analyze HILOGLINEAR str(1 2) in(1 2) mea(1 2) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(0) /PRINT=ASSOCIATION /DESIGN . LOGLINEAR str (1,2) BY in(1,2) mea(1,2) /CRITERIA=DELTA(0) /PRINT=ESTIM /DESIGN=str str by in str by mea . CROSSTABS /TABLES=str BY in BY mea /FORMAT= A V ALUE TABLES /CELLS= COUNT . LOGLINEAR ch (1,2) BY stan(1,2) ore(1,2) sit(1,4) /CRITERIA=DELTA(0) /PRINT=ESTIM /DESIGN=ch ch by stan ch by ore ch by sit .

多元线性回归分析范例

国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。《中国统计年鉴》把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,其中自变量单位为亿元人民币。即样本量n=31,变量p=12。 利用SPSS软件对数据进行处理,输出: 图1 输入/移除变量 图1即输入了所有模型中的变量,分别为 x1:农林牧渔服务业 x2:地质勘查水利管理业 x3:交通运输仓储和邮电通信业 x4:批发零售贸易和餐饮业 x5:金融保险业 x6:房地产业 x7:社会服务业 x8:卫生体育和社会福利业 x9:教育文化艺术和广播 x10:科学研究和综合艺术 x11:党政机关 x12:其他行业

图2 模型概述 即回归方程对样本观测值的拟合程度,复相关系数R=0.875,决定系数R 2=0.935。由决定系数接近1,得出回归拟合的效果较好,但是并不能作为严格的显著性检验。由R 2决定模型优劣时需慎重,尤其是样本量与自变量个数接近时。 图3 回归方程显著性的F 检验 F=10.482,F α(n,n-p-1)=F α(30,18)=2.11(α=0.05),P 值=0.000,表明回归方程高度显著,即12个自变量整体对因变量y 产生显著线性影响。但是并不能说明回归方程中所有自变量都对因变量y 有显著影响,因此还要对回归系数进行检验。 图4 回归系数的显著性t 检验(t 0.05(20)=1.725) y 对12个自变量的线性回归方程为: 1234 5678 9101112y 205.388 1.438 2.622 3.2970.9465.521 4.068 4.16215.40417.3389.15510.536 1.37x x x x x x x x x x x x =--++--++-++-+

SPSS多元回归分析报告实例

多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量x j(j=1,2,3,…,n)之间的多元线性回归模型: 其中:b0是回归常数;b k(k=1,2,3,…,n)是回归参数;e是随机误差。 多元回归在病虫预报中的应用实例: 某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。 预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。 预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。 表2-1 x1 x2 x3 x4 y 年蛾量级别卵量级别降水量级别雨日级别幼虫密 度 级别 1960 1022 4 112 1 4.3 1 2 1 10 1 1961 300 1 440 3 0.1 1 1 1 4 1 1962 699 3 67 1 7.5 1 1 1 9 1 1963 1876 4 675 4 17.1 4 7 4 55 4 1965 43 1 80 1 1.9 1 2 1 1 1 1966 422 2 20 1 0 1 0 1 3 1 1967 806 3 510 3 11.8 2 3 2 28 3

基于Logit模型的上市公司财务预警模型研究以及实证分析

基于Logit模型的上市公司财务预警模型研究以及实证分析 【摘要】上市公司是现代公司的最高形式,上市公司的数量和质量直接影响着证券市场的兴衰。在上海和深圳证券交易所上市公司需要连续三年盈利,上市之后如果连续两年亏损,就会被戴上ST的帽子,这标志着上市公司陷入了财务困境。本文以沪深A股市场上于2015年被ST和未被ST的上市公司为研究的总体,随机抽取样本90个,并结合公司的财务数据,尤其是代表公司经营状况的动态指标,来预测企业在未来一年内是否会有财务危机,给公司的财务人员预警,同时也有利于投资者判断一家公司的发展状况,做出合理决策。 【关键字】上市公司财务预警Logit模型 一、引言 (2) 1.1财务预警模型的研究背景 (2) 1.2财务预警模型的研究概况 (2) 1.3本文的创新之处 (2) 二、Logit模型简介 (2) 三、样本和财务指标的确定 (3) 3.1样本采集 (3) 3.2财务指标的初步选择 (3) 四、财务预警模型的实证分析 (4) 4.1案例处理摘要 (4) 4.2模型汇总 (4) 4.3Hosmer-Lemeshow检验结果 (5) 4.4预测分类结果 (5) 4.5逐步回归过程 (7) 4.6不在方程中的统计变量 (9) 4.7预测概率直方图 (9) 五、模型的改进和对上市公司风险防范的建议 (11) 5.1模型的改进 (11) 5.2对上市公司的建议 (11) 参考文献 (12)

一、引言 1.1财务预警模型的研究背景 现代企业从创业到发展,都在追求一个目标——上市。而在我国的股票市场上,公司上市需要最近三年连续盈利,上市后的公司要接受社会的监督,定期公布财务报告以及其他信息,因此我们可以很容易得到上市公司的财务指标,相比通过经验来判断公司的财务状况,财务指标是量化的,更容易分析。 一个公司的财务指标一定程度上反映了该公司的财务状况,从财务状况我们可以看出该公司的经营管理情况以及发展情况,如果一个公司财务发生了危机,那么整个公司的现状也令人担忧。因此,正确的预测企业财务危机将有助于保护投资者和债权人的权益、有助于经营者防范财务危机、有助于政府管理部门监控上市公司质量和证券市场的风险,所以建立企业财务危机预警模型具有重要意义。 各种不同的原因共同导致了公司的财务危机,既有企业内部的原因,也有企业外部不可控制的原因。以下我们归纳归属于企业自身的原因: 1.公司管理者盲目追求扩张,决策缺乏科学性。 2.企业筹资方式不当,资本结构不合理 3.企业内控制度不完善,公司治理结构不合理。 如果企业不对其存在的问题作出快速的反映,在不断创新和变革的时代,最终会走向破产,因此财务预警能够在公司财务危机发生前进行预测,避免其陷入财务困境。 1.2财务预警模型的研究概况 对上市公司的财务预测和预警的常用模型是上市公司信用风险度量,我国关于财务风险预警分析的研究起步较晚,而国外开始相关领域的研究比较早,已有企业将财务风险预警模型投入实际运用中。信用风险的度量和管理的探索大致可分为三个阶段;第一个阶段是1970年以前,主要分析工具有5C分析法、LAPP 法、五级分类法,大多数金融机构基本上是依据银行专家的经验和主管分析来评估信用风险。第二个阶段是建立于基于财务报表的信用评级模型,主要有Logit 模型、线性比率模型、Probit模型、判别分析模型等。第三个阶段是进入20世纪90年代以来,西方若干商业银行以风险价值为基础,开始运用数学工具、现代金融理论来定量研究信用风险,建立了以违约概率、预期损失率为核心指标的度量模型。 1.3本文的创新之处 我国财务预警模型处于发展初期,复杂的财务预警模型在实践中运用较少。简单而又实用的预警模型应属Logit模型,多数学者已对Logit模型进行了实证分析,肯定了Logit模型有较好的预测能力。本文拟对Logit模型在上市公司财务危机预警分析与评估应用方面进行研究,避开大多数研究者选取的盈利指标等静态指标,以与上市公司经营状况有关的财务指标为变量(包括两个动态指标)通过实证分析验证改进结果。 二、Logit模型简介 Logit方法采用logistic回归建立一个非线性模型,其曲线是s型或倒s 型。因变量的取值在O~1之间,回归方程为:

多元线性回归模型案例分析.doc

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。其中已有变量:“c ”—截距项 “resid ”—剩余项。在“Objects ”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,点击“OK ”出现数据编辑窗口。 年份 人口自然增长率 (%。) 国民总收入(亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024

Logistic模型应用模板

基于logistic模型的2014年影响中国各省城市化水平的 经济地理因素分析 摘要:本文利用2013年中国31个省份的数据,从经济与地理位置两个因素出发,运用logistic回归的方法在SPSS软件上进行分析。结果显示:中国城市化发展水平不仅与经济密切相关,而且与其地理位置也有很大的关系,地区间城市化发展水平差距较明显,城市化各方面的因素水平发展不平衡。 关键词:logistic模型,城市化水平,SPSS软件

目录 一、引言 (3) 二、Logistic模型 (3) 1. 基本概念 (3) 2. 统计原理 (4) (1)logit变换 (4) (2)Logistic回归模型 (4) (3)统计检验 (4) 三、基于logistic模型的我国各省城市化水平影响因素实证分析 (5) 1.数据来源与说明 (5) 2.模型检验 (5) 3.模型的建立与预测 (6) 四、结论 (7) 参考文献 (8)

一、引言 城市化的定义众多,本文参照《中华人民共和国国家标准城市规划术语》,认为城市化是“人类生产与生活方式由农村型向城市型转化的历史过程,主要表现为农村人口转化为城市人口及城市不断发展完善的过程。”城市化是一个系统的动态过程,包含了人口、经济、社会、城市建设等各方面变化的影响。它是经济发展和社会进步的必然结果,反过来也推动了经济的发展和社会的进步。 中国大陆的城市化进程在不同的时期具有不同的特点,总的来看城市化水平普遍较低,并已成为制约国家经济、社会和谐发展的主要原因之一。因而,各地区普遍把推进城市化进程作为经济、社会发展战略的一项重要目标选择。当前中国大陆已经进入了城市化水平的持续上升发展时期,此时对这样一个过程实施有效、客观、科学、动态的监测,从而及时发现并解决城市化进程中出现的难题,就必须加强对中国大陆城市化水平质与量等方面的考察和研究。这对于我们这样一个人口众多、区域经济发展不平衡的国家尤为重要。 本文不仅分析影响城市化水平的经济因素,还加入了地理位置对其城市化发展的影响。由于地理因素数据不是数值型变量,因此我们引用logistic回归方法对其进行建模。 二、Logistic模型 1.基本概念 Logistic回归分析就是针对因变量是定型变量的回归分析,这与一般的回归分析不同。在实际生活中,我们会经常遇到因变量是定型

多元线性回归分析案例

SPSS19.0实战之多元线性回归分析 (2011-12-09 12:19:11) 转载▼ 分类:软件介绍 标签: 文化 线性回归数据(全国各地区能源消耗量与产量)来源,可点击协会博客数据挖掘栏:国泰安数据服务中心的经济研究数据库。 1.1 数据预处理 数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。 1.1.1 数据导入与定义 单击“打开数据文档”,将xls格式的全国各地区能源消耗量与产量的数据导入SPSS中,如图1-1所示。 图1-1 导入数据 导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型。单击菜单栏的“ ”-->“ ”将所选的变量改为数值型。如图1-2所示:

图1-2 定义变量数据类型 1.1.2 数据清理 数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击“ ”-->“ ”,将检查所输入的数据的缺失值个数以及百分比等。如图1-3所示: 图1-3缺失值分析

表1-1 能源消耗量与产量数据缺失值分析 SPSS提供了填充缺失值的工具,点击菜单栏“ ”-->“ ”,即可以使用软件提供的几种填充缺失值工具,包括序列均值,临近点中值,临近点中位数等。结合本次实习数据的具体情况,我们不使用SPSS软件提供的替换缺失值工具,主要是手动将缺失值用零值来代替。 1.1.3 描述性数据汇总 描述性数据汇总技术用来获得数据的典型性质,我们关心数据的中心趋势和离中趋势,根据这些统计值,可以初步得到数据的噪声和离群点。中心趋势的量度值包括:均值(mean),中位数(median),众数(mode)等。离中趋势量度包括四分位数(quartiles),方差(variance)等。 SPSS提供了详尽的数据描述工具,单击菜单栏的“ ”-->“ ”-->“ ”,将弹出如图2-4所示的对话框,我们将所有变量都选取到,然后在选项中勾选上所希望描述的数据特征,包括均值,标准差,方差,最大最小值等。由于本次数据的单位不尽相同,我们需要将数据标准化,同时勾选上“将标准化得分另存为变量”。

基于logit模型的旅客出行选择行为

浅析基于logit模型的旅客出行选择行为摘要:通过分析铁路客流构成和旅客列车分类,将铁路旅客乘车选择行为的影响因素归结为旅客主体特性、列车特性和随机因素。采用随机效用理论建立铁路旅客乘车选择行为非集计模型,给出个体旅客对列车选择概率的多项logit模型,并通过影响因素选择及参数标定等设定求解方法。 关键词:铁路旅客运输;乘车选择行为;影响因素;logit模型abstract: through the analysis of railway passenger traffic composition and classification of passenger trains, railway passengers’ choice behavior will choose the influence factors of subject characteristics, boil down to the passenger train characteristics and random factors. using the random utility theory, a railway passengers’ choice behavior choice disaggregate model given individual passengers on the train choose a number of probability logit model, and through the influence factors such as parameters calibration set choice and the solving method. keywords: railway passenger transportation; bus choice behavior; influencing factors; logit model 中图分类号:f530.32 文献标识码:a 文章编号: 对旅客出行选择行为的研究,向来是铁路运输组织研究的重要

多元线性回归实例分析

多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为:毫无疑问,多元线性回归方程应该为: 上图中的 x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样)1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示: 点击“分析”——回归——线性——进入如下图所示的界面: 将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入)

如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于,当概率值大于等于时将会被剔除) “选择变量(E)" 框内,我并没有输入数据,如果你需要对某个“自变量”进行条件筛选,可以将那个自变量,移入“选择变量框”内,有一个前提就是:该变量从未在另一个目标列表中出现!,再点击“规则”设定相应的“筛选条件”即可,如下图所示: 点击“统计量”弹出如下所示的框,如下所示: 在“回归系数”下面勾选“估计,在右侧勾选”模型拟合度“ 和”共线性诊断“ 两个选项,再勾选“个案诊断”再点击“离群值”一般默认值为“3”,(设定异常值的依据,只有当残差超过3倍标准差的观测才会被当做异常值)点击继续。 提示: 共线性检验,如果有两个或两个以上的自变量之间存在线性相关关系,就会产生多重共线性现象。这时候,用最小二乘法估计的模型参数就会不稳定,回归系数的估计值很容易引起误导或者导致错误的结论。所以,需要勾选“共线性诊断”来做判断 通过容许度可以计算共线性的存在与否?容许度TOL=1-RI平方或方差膨胀因子(VIF): VIF=1/1-RI平方,其中RI平方是用其他自变量预测第I个变量的复相关系数,显然,VIF为TOL的倒数,TOL的值越小,VIF的值越大,自变量XI与其他自变量之间存在共线性的可能性越大。 提供三种处理方法: 1:从有共线性问题的变量里删除不重要的变量 2:增加样本量或重新抽取样本。 3:采用其他方法拟合模型,如领回归法,逐步回归法,主成分分析法。 再点击“绘制”选项,如下所示:

相关文档
最新文档