随机森林与逻辑回归模型在违约预测中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2016年第21期
信息与电脑
China Computer&Communication
计算机工程应用技术
随机森林与逻辑回归模型在违约预测中的应用
刘开元
(广州大学 计算机科学与教育软件学院,广东 广州 510006)
摘 要:近几年来随着国家经济以及汽车消费信贷市场的发展,贷款违约问题逐渐成为各家信贷机构关注的焦点。

目前,汽车信贷违约预测的方法还不够完善,为了建立起一套行之有效的模型,笔者通过将随机森林组合算法与逻辑回归相结合,对某商业银行的汽车信贷数据进行分析,构建了一个易于解释且实用的违约判别模型。

关键词:随机森林;逻辑回归;违约预测;汽车贷款
中图分类号:P642.22 文献标识码:A 文章编号:1003-9767(2016)21-111-02
1 引言
21世纪初,车辆信贷市场在国内打开,许多银行预感汽车信贷的获利机遇,纷纷开始进入车贷市场。

在接下来的几年里,车辆信贷业务发展迅猛,仅仅两年多的时间里,银行车辆信贷业务增加了数倍,据统计,仅2003年车贷额就增加30亿左右,平均每月增加2亿至3亿,最多的月增加达到6亿多。

2003年底,上海一个市的银行发放汽车贷款超过80亿。

然而在车贷市场迅猛发展的同时,车贷违约问题逐渐暴露出来,因为车贷风险要比房贷来得快而高,车贷风险释放使银行违约率上升的同时,车贷坏账最终的受害者也是银行本身。

为了降低坏账率,构建一个适用的违约判别模型就成为了各家信贷机构关注的重大点。

本文在传统决策树模型的基础上引入随机森林组合算法,使得模型在易于解释的同时能得到更好的预测结果。

2 随机森林与逻辑回归组合模型
2.1 决策树与随机森林
决策树是一个贪婪算法,它代表的是对象属性与对象值之间的一种映射关系。

决策树通过熵增益率或Gini 系数下降幅度对对象属性进行分组判断,理想的分组应尽量使两组输出变量值的Gini 系数下降幅度或熵增益率最大。

Gini 系数表达式为:2
1i Gini p =−∑。

信息熵表达式为:2log ()i i info p p =∑。

其中为样本类别在当前分类样本下出现的频率。

随机森林最早起源于贝尔实验室Tin Kam Ho 提出的随即决策森林(Random Decision Forests )算法,后由Leo Breiman 和Adele Cutler 提出。

随机森林实际上由许多决策树组成,最后分类结果取决于各个决策树分类器的简单多数选举。

随机森林是一个由一组决策树分类器(h (X ,f k (θ)),k =1~K )组成的分类器集合,其中为输入向量集,
f (x )表示单个决策树,θk 是服从独立同分布的输入向量集的子集,K 表示随机森林中决策树的个数,在给定自变量X 的情况下,每个决策树通
过投标来决定最优的分类结果。

随机森林算法构造如下:
(1)对给定的训练样本,随即可重复取样,形成新的子样本数据;
(2)对新的子样本数据中的M 个特征变量随机抽取m (m <M )个特征,构造完整的决策树;
(3)重复前两个步骤得到K 个决策树,形成随机森林;(4)每个决策树投票,选出最优的分类。

随机森林模型如图1
所示。

图1 随机森林模型
2.2 逻辑回归
逻辑回归是一种广义线性回归(Generalized Linear Model ),因此与多元线性回归分析有很多相同之处。

它们的模型形式基本上相同,都具有βx+β0,其中β为权重,β0为阈值,区别在于它们的因变量不同,多元线性回归直接将βx+β0作为因变量,即y =βx+β0,而逻辑回归则通过逻辑函数对表达式进行logit 变换,然后根据阈值设定大小决定因变量的值。

逻辑回归算法构造如下。

(1)对给定的训练样本X 进行多元线性回归得到逻辑回归的输入向量h (x ): 011()
i
n n
h x βββ=+x +...+x (2)对h (x )进行logit 变换,得到预测向量集P :
()
1
1i
i
h x p e −=
+作者简介:刘开元(1991-),男,安徽宣城人,研究生。

研究方向:数据挖掘与算法。

2016年第21期
信息与电脑
China Computer&Communication
计算机工程应用技术
(3)得到差值函数(,)i i
Cost p y :
(,)log()(1)log(1)
i i i i i i Cost p y y p y p =+−−(4)联立三式得到总差值函数J (β)并对β的最优解:
1()
11
()(,)1i n i i h x J Cost y n e
β=−=+∑由于逻辑回归本身并没有变量选择的功能,当我们对样本数据没有足够的先验知识时,直接使用逻辑回归非常容易发生多个变量之间有较强共线性的问题,由于先验知识不足,只能通过逐步回归来消除有共线性的变量,这是十分繁琐且耗时的。

基于以上原因,本文通过将随机森林与逻辑回归相结合组成一种新的算法模型(RFL ),这种模型在没有先验知识的情况下能有效减少参数调优和去除共线性所需的时间,提高建模效率,并且比传统的模型拥有更强的拟合度和泛用性。

3 建模与实验结果分析
本实验数据来自于某商业银行的汽车信贷数据,其中包括是否违约、汽车购买时间、曾经是否破产、五年内信用不良事件数等36个属性一共6 000条数据。

数据分析平台为R ,使用模型为随机森林与逻辑回归组合算法(RFL )。

3.1 建模过程3.1.1 数据预处理
首先对数据进行去重,消去可能由输入错误导致的重复数据,并且填补缺失值,连续变量用均值、分类变量使用众数进行填补。

对于只有二分类的缺失变量则将缺失变量单独作为一类。

其次,通过盖帽法消去可能存在的异常值,将所有属性中1%以下和99%以上的值去除。

最后,由于违约数据属于偏态数据,为了使得建模更加准确本文使用SMOTE 法对样本进行采样,并将数据按照7:3的训练集:测试集比例进行随机抽取。

3.1.2 提取建模变量
假定在对训练样本没有先验知识的情况下需要从训练样本中提取建模变量,将测试样本导入随机森林模型,对于模型参数ntree (决策树数量)和mtry (最小叶节点)的调校,由于只需要通过随机森林提取出重要程度(varimpt )高的变量,所以并没有最优参数,本文使用的参数为ntree=20、mtry=2。

得到重要度(varimpt )在2e-03以上的属性,如表1所示。

表1 样本属性varimpt值表属性值FICO 打分
9.883721e-03五年内不良信用事件数量 4.697674e-03可循环贷款账户余额 3.534884e-03可循环贷款账户使用比例 3.395349e-03最久账号存续时间
3.372093e-03
3.1.3 预测模型建模
将随机森林提取出的五个变量作为建模变量进行多元线性回归,得到多元线性回归预测模型。

通过共线性检查和交
叉验证,该模型没有发生共线性且泛化能力以及预测正确率良好,设阈值为0.5,测试集正确率为0.68,召回率为0.73,ROC 指标达到0.748。

各属性逻辑回归估计结果如表2所示。

表2 各属性逻辑回归估计结果
属性系数标准误显著性FICO 打分
-1.13e-02 1.10e-03 1.98e-16五年内不良信用事件数量-4.97e-03 1.52e-027.43 e-01可循环贷款账户余额-1.84e-05 3.78e-06 1.09e-06可循环贷款账户使用比例 2.64e-03 1.45e-03 6.9e-02最久账号存续时间
-2.33e-03
6.30e-04
2.0e-04
3.2 算法比较
为了检查随机森林与逻辑回归(RFL )的优势,本文将该模型与KNN 最近邻算法、决策树算法以及BP 神经网络算法进行横向比较。

通过比较得到表3,其中各个算法的阈值调整规则为使得召回率(RECALL )保持在70左右。

由表3可知,RFL 模型在召回率指标达到0.73的情况下正确率(ACCURACY )指标达到了0.68,BP 神经网络在召回率0.69的情况下正确率为0.67,随机森林和KNN 最近邻在相近召回率的情况下正确率分别为0.55和0.56。

此外,ROC 指标下RFL 模型为0.78,BP 神经网络为0.74。

综合比较各个算法的性能,在车辆信贷违约预测中RFL 模型是最优的。

表3 算法性能比较
算法名ACCURACY
recall ROC RFL 0.680.730.78BP 神经网络0.670.690.74随机森林0.550.740.67KNN 最近邻
0.56
0.72
0.65
4 结 语
通过研究发现,车辆信贷市场违约率与用户的FICO 评分、失信事件数量等特征有着显著的关系,使用RFL 算法对数据建模后得到的结果也基本与实际吻合,说明RFL 算法有着较高的精度和泛用性,可以有效降低车贷企业遭遇违约的风险。

参考文献
[1]宋荣威.信用风险度量:基于多元判别分析模型的实证研究[J].经济参考研究,2007.
[2]徐晓萍,马文杰,非上市中小企业贷款违约率的定量分析——基于判别分析法和决策树模型的分析[J].金融研究,2011(3).
[3]PP Bonissone,JM Cadenas,MC Garrido,et al.A fuzzy random forest[C].International Conference on Information Processing & Management of Uncertainty in Knowledge-based Systems.2008.
[4]李战江.基于分层逻辑回归的小企业信用评价模型[J].统计与决策,2016(7).。

相关文档
最新文档