基于融360数据的模型构建和用户贷款审批结果预测

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

word格式文档

数据挖掘课程论文

—基于融360数据的模型构建及用户贷款审批结果预测

XXXX

摘要

本文的主要工作是运用数据挖掘的相关技术对申请贷款的客户的大量数据进行数据挖掘,发现隐藏在大量数据中的隐含模式,最终得到风险评估模型。本文的内容主要分为数据获取与探查、数据预处理、模型建立和结果分析与应用四个部分。在模型建立的过程中使用了SAS企业数据挖掘模块,基于决策树、回归和神经网络的方法, 充分利用已有数据建立模型, 对申请贷款客户进行科学归类, 从而帮助金融机构提高对贷款信用风险的控制能力。

关键词:SAS 分类技术数据挖掘预测贷款风险评估

目录:

1.绪论 (2)

1.1项目背景 (2)

1.2文献综述 (2)

2.数据获取与探查 (4)

2.1数据获取 (4)

2.2数据简介 (4)

2.3字段说明 (4)

2.4数据探查 (6)

3.数据处理与建模 (6)

3.1数据预处理 (6)

3.2数据建模过程——决策树 (11)

3.3数据建模过程——神经网络 (13)

3.4数据建模过程——回归 (14)

3.5最佳模型选择 (15)

4.结果分析与应用 (16)

5.项目评估与收获 (19)

5.1项目改进 (19)

5.2收获 (20)

参考文献 (20)

1.绪论

1.1项目背景

金融是现代经济的核心,各类金融机构则是现代金融的支柱。各类金融机构在社会经济发展过程中, 发挥着筹集融通资金、引导资产流向、提高资金运用效率和调节社会总需求的作用。中国加入WTO后, 中外金融机构的竞争日益激烈, 中国商业银行必须加快改革步伐, 尽快打造自己的核心竞争力。但是中国金融机构的信贷资产质量较差, 不良贷款的规模大、比例高, 严重阻碍中国金融业的发展。有效控制不良贷款信用风险已经成为中国金融机构面对的主要课题。

1.2文献综述

目前国际银行业对不良贷款信用风险评估的方法主要采用的是古典分析法和多元统计法[ 1-2] 。古典分析法是指银行经营者依赖一批训练有素的专家的主观判断对贷款人进行信用分析。多元统计分析的基本思想是根据历史累积样本建立数学模型, 并对新样本发生某种事件的可能性进行预测的方法,具体包括线性概率模型、LOGIT法、PROBIT法以及判别分析法(MDA)[ 1] 。巴塞尔委员会于2001 年1月公布了《新巴塞尔资本协议》草案, 新协议给出了两种计量信用风险的方法, 即标准法和内部评级法(IRB), IRB法对标准法中的风险加权系数进行了修正。新协议允许银行使用内部评级方法, 使新协议的监管规则有一定的灵活性。但目前, 金融界使用最多的两个信用风险评估模型是信用度量制(Credit Metrics)模型和KMV模型。Credit Metrics是J.P. Morgan于1997年开发的一种基于VAR方法的信贷风险管理模型 [3] 。所谓VAR就是衡量一项资产或者负债在一定时间内、在一定的置信水平下其价值的最大损益额。Credit Metrics 是一种盯市(MTM)模型, 认为如果信用资产的信用等级发生了变化, 就产生了信用损失的可能性, 这种损失是多状态的, 不只是违约和不违约两种状态。KMV模型是KMV公司利用期权定价原理, 提出了以预期违约频率为核心的信用风险管理模型。KMV模型将资产的状态分为违约和不违约两种, 信用损失只发生在违约的时候。而且KMV模型有一个核心的假设, 就是当公司的资产价值下降到一定程度之后, 公司就会对其债务违约。由于受样本数量限制, 国内已有学者对信用风险评估方法进行研究, 着重研究某一具体方法在信用风险评估中的应用。王春峰等[ 4-7] 运用线性判别法、LOGIT法、遗传规划模型、神经网络模型, 以及距离判别法与神经网络方法相结合的组合预测法对信用风险评估方法作了研究。施锡铨等[ 8] 运用线性多元判别方法对上市企业的信用风险评估进行了研究, 得出评价上市企业信用风险水平的线性判别模型。

以上所述方法虽然被广泛应用, 但是它们只是针对某一方面如财务, 进行分析建模, 不能够充分利用有关客户和信贷产品的大量且全面的信息。在信贷风险评估中, 对信用风险的评价, 不仅要考虑贷款者的财务能力, 还要考虑贷款者所需求产品的信息等各方面因素, 仅靠单一指标的评价体系不足以对信用风

险予以充分揭示。因此, 研究如何从贷款样本数据中挖掘更丰富的信用信息, 建立更完备的信用风险评估模型将成为一种必然。本文使用了SAS企业数据挖掘模块,基于决策树、回归和神经网络的方法, 充分利用已有数据建立模型, 对申请贷款客户进行科学归类, 从而帮助金融机构提高对贷款信用风险的控制能力。

2.数据获取与探查

2.1数据获取

本文的实验数据获取于数据堂,来源于融360。融360是中国最大的网络贷款平台,平台的一端是数亿的有借款需求的小微企业和个人消费者,另一端是数万的有贷款资金的金融机构(银行、小贷、担保、典当等)和数百万的金融产品,平台通过搜索和推荐服务来撮合借款用户和贷款。通常,用户进入平台后,会通过搜索和推荐服务找到合适的贷款产品,填写自己的个人基本资料,最终提交贷款订单。金融机构通过平台收到订单后,对用户资质进行风控审核,最终决定是否通过用户的订单。

2.2数据简介

数据包含了user, product, quality和order四张表,下面结合业务流程解释一下四个数据的产生过程。

第一步:用户访问融360网站搜索合适的贷款产品,这就产生了user数据,它包含了用户在网站的点击、搜索和下单记录,这里面的date字段记录了是哪一天;

第二步:用户在提供的贷款产品中搜索符合自己需求的,在些产品保存在product数据中,包含了产品的申请金额、期限、申请所需的材料等信息;

第三步:找到合适产品的用户会在线填写申请,这部分数据保存在quality 数据中,包含了用户的年龄、性别、职业、收入等信息;

第四步:把用户订单提交给相应的金融机构,金融机构在进行风控审核后会决定是否通过用户的订单,这部分数据保存在order数据中,其中包含用户与其申请的产品编号、订单的申请金额和期限等基本信息以及订单是否审核通过。

具体每表的说明如下:

order_train.txt:用于训练的订单数据

product_final.txt:产品相关数据,包含训练集和测试集出现的所有产品quality_final.txt:用户申请信息相关数据,包含训练集和测试集出现的所有用户

user_final.txt:用户访问信息相关数据,包含训练集和测试集出现的所有用户

order_test_no_label:用于测试的订单数据,与训练数据相比缺少最终结果标签。

2.3字段说明

user表

变量说明

user_id 用户id

pv 总pv

pv_inde x_loan:贷款首页PV

pv_apply_total 申请次数

pv_ask 问答页Pv

相关文档
最新文档