因子分析+logistic回归度量信用风险违约概率
logit违约率模型

logit违约率模型引言:在金融领域,违约率是一个非常重要的指标,它衡量了借款人无法按时偿还债务的概率。
为了准确预测违约率并进行风险管理,学者们提出了各种模型。
本文将重点介绍logit违约率模型,该模型是一种常用的统计方法,用于预测二分类变量(违约与非违约)的概率。
一、logit违约率模型的基本原理logit模型是一种基于逻辑回归的模型,它将线性回归模型的结果通过一个logit函数进行转换,使得模型的输出范围在0到1之间,表示违约的概率。
logit函数的表达式为:logit(p) = ln(p / (1-p))其中,p表示违约的概率。
通过logit函数的转换,我们可以将线性回归模型的输出转化为违约的概率,进而进行风险管理和决策制定。
二、logit违约率模型的建模过程1. 数据准备建模前首先需要准备数据集,包括违约与非违约的样本数据,以及一些可能影响违约的特征变量,例如个人信用评分、收入水平、负债情况等。
2. 模型建立logit模型的建立包括两个步骤:模型拟合和模型评估。
(1)模型拟合:通过最大似然估计等方法,拟合出logit模型的参数估计值,得到违约的概率预测模型。
(2)模型评估:使用一些评估指标,例如准确率、召回率、F1值等,对模型进行评估,判断模型的预测能力和准确性。
3. 模型应用通过得到的logit模型,可以进行违约率的预测和风险管理。
(1)违约率预测:根据已有的特征变量值,利用logit模型进行预测,得到违约的概率。
(2)风险管理:根据违约的概率,可以制定相应的风险管理策略,例如批准或拒绝借款申请,调整利率或贷款额度等。
三、logit违约率模型的优缺点1. 优点(1)模型简单:logit模型是一种简单而有效的预测违约率的方法,不需要过多的数据前处理和复杂的模型构建。
(2)解释性强:logit模型的参数具有一定的解释性,可以分析各个特征变量对违约率的影响程度。
(3)适用性广泛:logit模型适用于各种类型的数据,包括个人信用、企业违约等领域。
信用评估中的违约概率计算方法

信用评估中的违约概率计算方法信用评估是金融业中一项关键的风险管理技术,旨在对借款人的还款能力进行评估和预测。
其中一个重要的指标就是违约概率,用于衡量借款人在未来一段时间内违约的可能性。
本文将介绍信用评估中常用的违约概率计算方法。
一、传统方法传统的违约概率计算方法主要基于统计学和经验分析。
以下列举两种常用的方法:1.1 逻辑回归模型逻辑回归是一种常用的统计学模型,通过对借款人的历史数据进行分析,建立一个逻辑回归方程来预测违约概率。
这种方法主要依赖于大量的数据样本,在建模过程中需要考虑到借款人的个人信息、财务状况等因素。
1.2 评级系统评级系统采用一种基于历史数据和经验分析的方法,将借款人划分为不同的风险等级。
每个等级对应一种违约概率,从而实现违约概率的计算。
评级系统的优势在于简单易用,但对历史数据的要求较高,同时也无法考虑到个体差异。
二、机器学习方法随着大数据和人工智能技术的发展,机器学习已经成为信用评估中违约概率计算的新趋势。
以下列举两种常用的机器学习方法:2.1 支持向量机支持向量机是一种常用的机器学习算法,通过将数据映射到高维空间,寻找一个最优的超平面来进行分类。
在信用评估中,可以将违约概率的计算问题转化为一个二分类问题,从而利用支持向量机来进行预测。
2.2 随机森林随机森林是一种集成学习算法,结合了多个决策树模型来进行分类。
通过对大量的历史数据进行训练,随机森林可以生成一个强大的分类器,从而预测借款人的违约概率。
三、混合方法为了提高违约概率的准确性和可靠性,研究人员也尝试结合传统方法和机器学习方法,提出了一些混合的计算方法。
这些方法主要通过将传统方法和机器学习方法的结果进行加权平均或者进行逻辑连接,得到一个更有效的违约概率计算结果。
结论在信用评估中,违约概率的计算是至关重要的。
传统方法主要基于统计学和经验分析,而机器学习方法则通过利用大数据和人工智能技术来提高准确性和可靠性。
混合方法则试图结合不同方法的优势,从而得到更精确的违约概率预测结果。
判别企业违约的财务指标研究——基于行业差异的分析

判别企业违约的财务指标研究——基于行业差异的分析在当今社会的企业中,举债成为企业正常生产运营的重要内容,全球中的主权借款者也在急剧增长。
信用风险成为企业所有者和经理人、投资者、商业银行等金融结构和政府面临的最重要的金融风险。
因此,信用风险的度量成为这些机构面临的核心课题,其中违约概率是度量的关键和出发点。
一、行业差异的提出许多研究都表明:财务数据在很大意义上可以判别企业的违约问题。
单纯利用财务数据判别企业是否违约固然有一定的效力,但是由于许多影响企业违约的因素来自外在环境,包括所处生命周期、竞争状况、宏观政策等等,由单纯财务变量所建立的模型,在短期的预测有效,长期效果则较差。
行业变量与总体经济变量具有显著的预测效果,可以提高预测正确率。
距离违约时间点越近,总体经济变量的效果越大;不同行业之间财务比率的差异较大,考虑行业因素所建立的判别模型具有更好的判别效果。
二、基于行业差异分析的思路不同行业之间企业的财务风险特征是不同的,虽然使用行业平均值可以在一定程度上消除行业内企业的相对地位,但却无法处理不同行业之间风险特征不同的干扰;采用所有行业样本所建立的判别模型,不可能适用于每一个行业。
因此,本文认为,不同行业间分别采用样本来建立判别模型,可能可以比较好地处理行业变量的干扰。
而且,因为各个行业的风险特征不同,不同行业之间显著影响企业违约的变量也可能有所不同,利用最能影响单一行业的显著变量建立判别模型,可能会得到比较满意的结果。
三、实证分析与检验本文选取深沪两市上2006年制造业、信息技术业、批发和零售贸易、房地产业四个行业中所有ST股公司和蓝筹股公司为学习样本来建立模型,即77家ST股公司作为违约公司和172家蓝筹股公司作为正常公司,样本在各行业中的分布如表1所示。
对于财务指标的选择,本文从反映企业的偿债能力、资金周转能力和获利能力三个方面选出32个指标,按照“严格管制下线性Logit评分模型中信用因子的最优选择”的思路筛选出27个经济含义较大的指标,并通过因子分析进入分别反映企业的资产、负债、所有者权益、流动性、盈利性、周转性、生产销售能力、偿债能力和企业财务的总体状况的9个因子:流动性因子、负债比重因子、周转能力因子、盈利能力因子、资产规模因子、偿债能力因子、总体财务状况因子、销售变现因子、净资产增长因子。
基于Logistic回归分析的上市公司信贷违约概率预测模型研究

(一 ) 基于 L og istic 回归分 析的上 市公司信 贷违 约概率 预测模型
1. 选择适合的自变量和因变量 进入回归分析的样本有 182家, 占 所有样 本总数 的 99. 5% , 缺失样本 1家。这里 的 182家样本为 训练样本, 或者说 为建立 L og istic回归模型而选取的建立模型的样本。在模型 建立后, 新的模型会对这 样本公司重新判断其类别。因变量 为 0代表样本进入 正常 组, 1 代表 样本 进入 违约 组, L og istic 回归过程默认以因变量较大取值的概率 p( Y = 1)建立模型。
摘 要: 本文利用 Log istic回归分析建立了上市公司信贷违 约概率 预测模 型, 通过选取 样本数 据、测试数 据、年 度配比 数据和
反映公司的偿债、举债经营和运作资金的能力的 15个上市公司财务指标, 首先使用样本数据和测试数据对模型进行了分析和
检验, 其次分别通过改变数据的配比方式、年度数据来观察模型预测分类结果, 检验模 型的历史预 测能力, 最后根据 全文分析
! 145!
在进行 Log istic回归分析前, 在 182个初始训练样本中, 有 61 个样本进入违约组, 有 121个 样本 进入正 常组, 本 模型设 置
一、上市公司信贷违约模型的数据选取和指标确定
( 一 )数据选取与分析 本文应用到三组 数据, 样本数据、测试数据、年度配 比数
! 144!
据。样本数据是建立上市 公司信 贷违约 概率预 测模 型所需 数据; 测试数据是用于检验上市公 司信贷违约概率预测模型 的准确性和适用性所需数据; 年度 配比数据是对模型进行实 验性分析所需数据。
Logistic回归模型在信用风险分析中的运用

Logistic回归模型在信用风险分析中的运用信用风险分析是金融领域的重要主题之一,金融机构需要通过评估个体或组织的信用状况来决定是否给予贷款或信用额度。
为了实现准确的信用评估,Logistic回归模型成为了一种常用的方法。
Logistic回归模型基于Logistic函数,可以将线性回归模型的输出转换为概率值。
在信用风险分析中,Logistic回归模型可用于分类借款人的违约风险。
具体而言,模型可以根据借款人的历史数据、财务指标、信用记录等特征,预测借款人是否会违约。
这种能够将输出转换为概率的特性使得Logistic回归模型在信用风险分析中非常有用。
在应用Logistic回归模型进行信用风险分析时,需要先收集借款人的相关数据,并将其转化为可以用于模型的特征。
这些特征可以包括性别、年龄、收入水平、历史贷款记录、信用评分等。
接下来,将这些特征输入到Logistic回归模型中进行训练。
模型的训练过程通常使用最大似然估计法,通过最小化训练数据上的对数似然损失函数来估计模型的参数。
完成模型训练后,可以使用该模型对新的借款人进行违约预测。
模型会将输入特征值通过线性回归计算得到一个数值,然后应用Logistic函数将其转换为一个概率值。
如果概率超过一定阈值,可以判定借款人为高违约风险,从而减少对其贷款或降低信用额度。
需要注意的是,在应用Logistic回归模型进行信用风险分析时,一定要选择恰当的特征并进行特征工程,以确保模型的准确性。
同时,模型的性能评估也是关键的一步,可以使用混淆矩阵、准确率、精确率、召回率等指标来评估模型的预测效果。
通过迭代和优化模型,可以逐渐提升模型的性能。
总而言之,Logistic回归模型在信用风险分析中的运用具有重要的意义。
它能够将线性回归模型的输出转换为概率值,从而帮助金融机构准确地评估借款人违约风险,并做出相应的决策。
然而,模型的准确性和性能评估是使用Logistic回归模型进行信用风险分析的关键步骤,需要慎重进行。
基于Logistic回归分析的违约概率预测研究

基于Logistic回归分析的违约概率预测研究
于立勇;詹捷辉
【期刊名称】《财经研究》
【年(卷),期】2004(030)009
【摘要】内部评级法是巴塞尔新资本协议的核心内容之一,而计算客户违约概率(PD)是实施内部评级法的关键步骤.文章在结合我国国有商业银行实际数据的基础上,利用正向逐步选择法(forward stepwise)构建了较为科学的信用风险评估指标体系,通过Logistic回归模型构建了违约概率的测算模型.实证结果表明,模型可以作为较为理想的预测工具.
【总页数】9页(P15-23)
【作者】于立勇;詹捷辉
【作者单位】北京大学,光华管理学院,北京,100871;哈尔滨工业大学,金融研究所,黑龙江,哈尔滨,157001
【正文语种】中文
【中图分类】F830.5
【相关文献】
1.商业银行内部评级法的违约概率预测新方法——基于二值响应面板数据模型的研究 [J], 郑大川;王恒;黄震
2.基于KMV模型的科技型中小企业违约概率预测研究 [J], 陈倩;张目
3.Logistic回归分析在违约概率预测中的应用 [J], 兰云鹏;周生彬;王玉文
4.基于Logit回归的公司违约概率预测 [J], 付世豪
5.基于Logistic回归分析的上市公司信贷违约概率预测模型研究 [J], 杨蓬勃;张成虎;张湘
因版权原因,仅展示原文概要,查看原文内容请购买。
基于因子分析和Logistic分析的个人信用评估方法研究

基于因子分析和Logistic分析的个人信用评估方法研究作者:李杰方卫东来源:《时代金融》2017年第12期【摘要】随着大数据概念的提出,企业和个人越来越重视数据中隐藏的潜在价值。
为准确评价P2P网络贷款平台借款人的信誉度,本文利用因子分析方法从22个自变量中浓缩出8个“共同因子”,建立信用评价指标体系,并利用Logistic模型对借款人行为进行预测。
这种个人信用评价指标体系的筛选保留了大量的信息量,并利用Logistic模型给出了用户违约概率。
【关键词】P2P网贷因子分析评估指标体系 Logistic分析一、引言从硅谷到北京,大数据的话题正在被传播。
如今,一个大规模生产、分享和应用数据的时代正在开启[1]。
众多企业正面临着海量的管理数据,越来越关注如何从海量的数据中挖掘提炼出对企业有效的决策支持信息,提高企业的生存能力和企业的发展速度。
某种程度上,数据就是企业最珍贵的财富。
而数据财富的转化需要一种能够将大量数据智能化地转化为有价值的信息的技术,以达到为人们提供决策服务的目的。
随着计算机技术和统计分析方法的发展,量化分析已经成为各个学科领域中广泛应用的技术方法。
根据国际权威高德纳咨询公司的调查分析报告显示,数据挖掘技术将是今后几年全世界范围内重点加大投资研究的十大新兴高科技技术之一,它已经引起了学术界和工商界的重点关注,是当今数据库系统开发、研究和应用领域的一个热点技术[2]。
自2007年国外网络贷款平台模式引入中国以来,国内P2P网络借贷平台如雨后春笋般蓬勃发展。
这一模式为很多无法从银行或其他信贷机构获取贷款的支持的个人消费者、微企业主提供了一种新的融资渠道。
然而,P2P网贷面临诸多风险:个人信用风险,平台账户资金使用不当引发经营风险,法律风险等。
目前我国的公民信用体系还不健全,平台与平台之间又缺乏联系和沟通,各个平台频频出现坏账,借款人不能及时还款,造成了借款人集中违约,借款人信用风险无疑是平台面临的最大风险。
基于Logistic模型的校园贷违约风险因素分析

基于Logistic模型的校园贷违约风险因素分析作者:黄丽仇乐宁徐琬莹门明坤来源:《现代经济信息》2016年第08期摘要:违约风险是潜藏在校园贷发展过程中的重要风险,也是校园贷平台可持续发展的主要障碍。
学生违约的根本原因还是由于其没有稳定的收入来源,无法保证还款的及时性,同时其他潜在因素也影响着学生的违约行为,例如学生的年级、贷款金额和贷款期限等。
本文基于对大学生使用校园贷情况的问卷调查,统计整理调查数据,通过建立logistic模型来探究影响大学生违约的相关因素,从大学生角度分析其违约行为,并在最后给出相关建议。
关键词:校园贷款;违约风险;logistic模型中图分类号:F832.4;F224;F724.6 文献识别码:A 文章编号:1001-828X(2016)08-000-03继信用卡被银监会叫停,退出大学生市场后,随着互联网金融发展的不断延伸以及大学生日益增长的消费需求,校园贷转手接力信用卡,迅速进驻高校。
除国家助学贷款和生源地贷款外,现今的校园网络贷款已在高校占据很大的市场额,而校园贷的模式也多种多样,主要分为P2P网贷、分期消费平台和电商平台开展的信贷服务,而当前这些平台的发展模式尚不完善,平台的风控系统还存在诸多漏洞,且大学生的信用意识又较为薄弱,因此在校园贷发展过程中,违约风险无疑是制约平台发展的重要因素,也是学生贷款时所面临的重要问题。
一、文献综述针对学生贷款中越来越高的违约率,许多学者致力于研究学生的违约行为,希望探究出其影响因素以降低贷款过程中的信用风险。
廖茂忠,沈红[1](2008)结合大量经验数据,发现学生贷款违约主要受七大因素影响,即学生的学业状况,毕业后的收入水平与就业状况,债务水平,就读院校特征,家庭特征,个人特征及学生贷款制度。
沈华[2](2010)通过实证分析研究了四种主要贷款模式下学生的偿还影响因素,并针对相应的研究结果提出贷款发放和偿还的政策性意见。
廖茂忠、沈红[3](2010)调研了贷款参与方的信息,论证了大学毕业生的收入状况、还款意愿和社会信用环境是影响贷款违约的重要因素,而收入状况则是最核心的因素。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于因子分析的logistic违约概率模型的实证研究作者:葛钊本文针对一般商业银行等单位采用Logistic回归估计PD的模型中多重共线性、没有考虑时间因素等问题,构建和验证了基于因子分析的logistic违约概率测算模型的效果和可行性,并对财务指标进行了时间加权化处理的模型改进工作,在最后对模型的进一步优化提出了新的思考和方向。
本文样本数据获取渠道为中国证券市场公开信息,选取6家在2005-2006年和2010年发生过银行贷款违约的制造业上市公司(违约笔数8笔),和31家同行业同期贷款未发生违约且非ST类的上市公司,并且总资产与销售规模与违约公司相似(考虑到建模样本数量过少,加入此约定为提高模型精度),组成39个建模数据,进行模型构造。
其中,财务数据均取自违约/非违约公司对应违约年份前一年末或前二年末的数据,此是模型具有预测功能的必要条件。
6家违约上市公司8条违约记录(其中3条违约记录来自同一公司)如下:6家上市公司发生逾期的贷款类型均为短期流贷,全部归属于公司风险暴露中一般公司风险暴露。
另外,之所以将上海宽频科技股份有限公司的三次逾期数据全部纳入建模,是由于一方面可供建模的违约数据过少,将其加入不影响模型的建立和使用,另一方面数据量的增加增强了模型的预测能力。
31家非违约上市公司信息如下(合并报表数据):*其中四川大通燃气开发股份有限公司在2006年由医药、生物制品类转为批发和零售贸易类;浙江钱江生物化学股份有限公司在2006年由医药、生物制品转为石油、化学、塑胶、塑料类。
特此说明。
以下对从网络公开信息获取的数据,进行数据手机、业务定义、数据清洗、模型分组、模型分析、变量构造、变量分析和变量选择等步骤。
选取如下14个财务指标,作为建模数据估计模型参数。
选取数据的原则主要是从数据的易获得性、完整性考虑的,同时为了免去单因素初步筛选等较为简单的过程,直接按现有资料综合选取了显著性较高的财务指标。
所选指标全部是以百分比度量的财务比率,这样的好处是将企业规模等因素在模型系统中的影响最小化,提高模型的预测精度。
提取指标列表:对于违约上市公司,做因子分析和Logistic回归时采用违约当年和前一年经时间加权计算的财务数据,对于非违约上市公司,由于违约公司违约发生年份大多集中于2005年和2006年,故对非违约公司财务数据以2005年和2006年为基础做时间加权平均处理。
采取此方法的目的主要是由于企业各种指标会随着时间变化而变化,如果仅仅考虑最近一年的指标,可能会由于经济周期或偶然因素造成财务指标失真,最终影响违约概率测算的准确性。
为解决这一问题,我采取了基于2年时间加权的方法计算模型的输入变量。
公式为:其中,T取2,代表2年;X i代表按时间加权平均后的结果;X it表示指标i第t年的数值。
据此可知时间越晚的年份所占权重越大。
将违约和非违约公司数据经过时间加权方法进行调整,得到8个违约和31个非违约共计39个样本,用SPSS软件进行因素分析(抽取共同因素时选用主成分分析法)。
这里特别指出的是,诸多文献指出在进行此类问题的因素分析时,需先将数据按如下Z-score公式进行标准化处理:其中,x ij为第i个样本的第j个指标值,x j为样本第j个指标的平均值,s j为样本第j 个指标标准差,z ij为第i个样本第j个指标值标准后化的得分。
进行该标准化的目的主要为了消除各项财务指标由于量纲单位不同或正、逆性指标不同带来的不可比拟性,但经现有数据进行标准化前后的因子分析结果来看,分析所得数据和结论在标准化前后无丝毫不同,故本文未采取先将数据标准化,再进行分析,而是直接将数据进行了因子分析,过程和结论如下:KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy. .685Bartlett's Test of Sphericity Approx. Chi-Square 584.771 df 91 Sig. .000从上表看到,KMO值为0.685,当其数值越大时,表示变量间的共同因素越多,越适合进行因素分析。
一般大于0.5时,均适合进行因素分析。
此外,从Bartlett’s球形检验达显著,代表母群体间有共同因素存在,同样表明适合进行因素分析。
选取特征值大于0.6的抽取共同因素,共抽取6了个共同因素,可以解释的总变异量为91.701%。
另外,可以看到采用最大方差法转轴后每个因素的特征值和方差贡献率都发生了变化,但累计方差贡献率未发生变化,均为91.701%,而且转轴缩小了各因素方差贡献率之间的差距,使各因素解释原变量的能力更加平衡。
详见下表:以下是陡坡图,可以看到从第6个点后坡度线比较平滑,故可以侧面告诉我们选取6个因素是较为适宜的。
以下是未转轴的因素矩阵(因素负荷量小于0.1的未予显示)。
以下是经过转轴后的因素矩阵(因素负荷量小于0.1的未予显示),转轴方法为最大方差法,属正交转轴方法之一,也叫直交转轴法,其特点是因素间没有相关。
我们正是想利用这一特性避免在后面的Logistic回归中出现多重共线性。
另外,由下表可看出,转轴前共同因素1包含VAR12、VAR11、VAR10,共同因素2包含VAR5、VAR4,共同因素3包含VAR8、VAR6,共同因素4包含VAR13、VAR14、VAR17、VAR9,共同因素5包含VAR16、VAR15,共同因素6包含VAR7。
另外,从下面的因素得分协方差矩阵也可以看出6个公共因素是不相关的,从而达到了既简化财务指标数目,又防止出现多重共线性的目的。
下图是最终的得到的因素得分系数矩阵。
VAR00006 -.050 -.046 .502 -.062 .011 -.145VAR00007 -.069 -.131 -.093 -.030 -.026 .971VAR00008 -.033 .251 -.614 .073 .064 .047VAR00009 .019 .104 -.111 .230 .035 .038VAR00010 .255 -.073 .235 -.131 -.248 .120VAR00011 .480 -.067 -.055 -.153 -.022 -.096VAR00012 .564 -.093 .032 -.352 .056 -.030VAR00013 -.089 -.122 -.039 .609 -.132 -.206VAR00014 -.358 -.094 .019 .606 -.022 .253VAR00015 .146 -.131 .023 -.145 .471 -.054VAR00016 -.126 .210 -.111 -.084 .565 -.020VAR00017 .072 .033 -.064 .237 -.003 -.025由因素得分系数矩阵即可得到公共因素(F1-F6)被表示成14个财务指标线性组合的形式,如F1的线性组合如下:F1=-0.1VAR4-0.056VAR5-0.05VAR6-0.069VAR7-0.033VAR8+0.019VAR9+0.255VAR10+0.48VAR11+0.564VAR12-0.089VAR13-0.358VAR14+0.146VAR15-0.126VAR16+0.072VAR17所得到的用于下一步Logistic回归的原始数据从SPSS软件中已给出,即:*这里特别需要说明的是,此表中的FAC1_1与上面F1的计算公式略有不同,是由于SPSS将数据自动进行了标准化操作,即FAC1_1等于因素得分系数矩阵(a ij)和原始变量的标准化值的乘积之和,公式为:FAC1_1=a11*(VAR1-u)/σ+a21*(VAR2-u)/σ+...,其中u所有样本的均值,σ为所有样本的标准差。
*FAC1_1-FAC6_1可直接用于logistic回归,作为其自变量估计参数使用。
下面是所有数据准备完毕后,使用SAS软件的Logistic回归函数进行回归分析。
程序代码如下:ods graphics on; /*为绘制ROC曲线做准备*/proc logistic data=dr_logis.defaultrisk_logistic descendingplots=roc(id=prob);/*调用Logistic;指定绘制ROC曲线;descending用来指定按照选项order指定顺序的倒序排列,目的是为得到针对违约概率p的模型参数*/model y=FAC1_1 fac2_1 fac3_1 fac4_1 fac5_1 fac6_1/selection=stepwiseslstay=0.15slentry=0.15details lackfit stb;/*指定y为因变量,fac1_1到fac6_1为自变量;采用逐步筛选法,变量被选进和剔除模型的显著水平均为15%;details为输出选择方法的详细信息;lackfit为进行对模型进行拟合失真检验(Hosmer and Lemeshow Test);stb指定输出标准化数据模型选项*/ run;ods graphics off;以下为SAS软件执行以上程序输出的结果和相应的解释:Probability modeled is Y='1.00'.以上主要显示的是要建模的数据集信息,数据集为DR_LOGIS.DEFAULTRISK_LOGISTIC;响应变量为Y,0代表未违约,1代表违约;响应水平数为2;连接函数为binary logit;最优化方法为费雪得分算法;读入和使用的观测数均为39,其中违约观测数为8,未违约观测数为31;最后一行代表计算用的分析响应变量的概率模型值为1事件的发生概率以下是采用逐步筛选法对变量进行筛选的过程:Stepwise Selection Procedure从上表可以看出此模型时是收敛的,和变量无关,说明模型拟合达到收敛标准。
下表说明的是下一步可能进入模型筛选的变量信息。
其中第2、5、6号变量不符合我们制定的显著性水平达15%的标准。
第一个变量进入模型。
Step 1. Effect FAC1_1 entered:以上三个指标值均为越小越好。
以下三个指标值的p值均小于0.01,说明有显著统计意义,建模效果比较显著。
从上表可以看出,fac1_1前的系数显著。
Standardized Estimate是在模型代码中加入stb语句才出现的。
以上表格主要注意c统计量,它反映了实际观测值和模型预测的事件概率的关联强度,越高越好。
另外Percent Concordant代表ROC曲线所围面积。