大数据背景下网络借贷的信用风险评估——以人人贷为例(下)
P2P网络信贷行为及风险评估研究以拍拍贷为例

P2P网络信贷行为及风险评估研究以拍拍贷为例一、本文概述随着互联网金融的快速发展,P2P网络信贷作为一种新兴的金融模式,在全球范围内得到了广泛的关注和应用。
P2P网络信贷平台通过互联网技术实现了个人与个人之间的直接借贷,为借贷双方提供了更加便捷、高效的金融服务。
然而,随着P2P行业的快速发展,其背后的风险也逐渐暴露出来,引起了广泛的关注。
因此,对P2P网络信贷行为及风险评估的研究具有重要的现实意义和理论价值。
本文以拍拍贷为例,深入探讨了P2P网络信贷的行为特征、风险评估方法以及风险控制策略。
文章对拍拍贷的发展历程、业务模式、运营现状等进行了详细的介绍,以揭示其网络信贷行为的基本特征。
文章从借款人、出借人以及平台三个角度出发,分析了P2P网络信贷中的信用风险、操作风险、流动性风险等主要风险类型,并提出了相应的风险评估方法。
文章结合拍拍贷的实际案例,深入探讨了P2P网络信贷的风险控制策略,包括风险分散、风险预警、风险处置等方面,以期对P2P行业的风险管理和健康发展提供有益的参考。
本文的研究不仅有助于深入理解P2P网络信贷的行为特征和风险评估方法,也为P2P行业的风险管理和监管提供了有益的借鉴和启示。
本文的研究也有助于推动互联网金融领域的学术研究和理论发展,为未来的金融创新和风险管理提供有益的参考。
二、P2P网络信贷行为分析P2P网络信贷,即Peer-to-Peer lending,是一种通过互联网平台实现的个人对个人借贷模式。
在这种模式下,资金的需求方和供给方通过P2P平台直接进行交易,平台则负责信息匹配、风险评估和贷后管理等服务。
近年来,随着互联网金融的快速发展,P2P网络信贷在中国市场迅速崛起,成为了一种新型的融资方式。
以拍拍贷为例,作为国内领先的P2P平台之一,其信贷行为具有鲜明的特点。
拍拍贷注重借款人的信用评估。
在借款人申请贷款时,平台会对其进行严格的信用审核,包括征信查询、收入核实、资产评估等多个环节,以确保借款人的信用状况良好。
《2024年基于用户互联网行为数据的个人征信评估体系建设分析——以芝麻信用为例》范文

《基于用户互联网行为数据的个人征信评估体系建设分析——以芝麻信用为例》篇一一、引言随着互联网技术的迅猛发展,大数据技术已经渗透到社会生活的各个领域。
个人征信作为衡量个人信用状况的重要依据,其评估体系正逐渐从传统的金融数据转向更为广泛的互联网行为数据。
本文以芝麻信用为例,深入分析基于用户互联网行为数据的个人征信评估体系建设,探讨其发展现状、存在的问题及未来发展趋势。
二、个人征信评估体系的发展背景个人征信评估体系是指通过收集、整合和分析个人信用信息,对个人信用状况进行综合评价的体系。
随着互联网的普及和大数据技术的应用,个人征信评估体系逐渐从传统的金融数据扩展到互联网行为数据。
这些数据包括但不限于网络购物、社交网络、网络支付、搜索记录等,为个人征信提供了更为丰富和全面的数据来源。
三、芝麻信用及其应用芝麻信用是阿里巴巴集团旗下的一家独立第三方征信机构,其核心是利用用户在阿里巴巴旗下各平台的互联网行为数据,进行信用评估。
芝麻信用分是其主要产品,通过分析用户的网购、支付、社交等行为数据,综合评估用户的信用状况,为金融机构提供信贷决策参考。
四、基于互联网行为数据的个人征信评估体系建设(一)数据来源与收集基于互联网行为数据的个人征信评估体系,数据来源广泛。
除了常见的网购、社交、支付等数据外,还包括用户的搜索记录、浏览记录、消费习惯等。
这些数据的收集需要依靠大数据技术和云计算技术,对海量数据进行高效处理和分析。
(二)数据处理与分析收集到的数据需要进行清洗、整合和分析。
通过机器学习和人工智能技术,对用户的行为数据进行深度挖掘和分析,提取出有用的信用信息。
同时,还需要建立数据模型和算法,对用户的信用状况进行综合评价。
(三)评估体系构建在数据处理和分析的基础上,建立个人征信评估体系。
该体系需要综合考虑用户的个人信息、行为数据、社交关系等多方面因素,对用户的信用状况进行全面评价。
同时,还需要建立相应的监督机制和风险控制机制,确保评估结果的准确性和公正性。
大数据时代下网络金融平台风险评估研究

大数据时代下网络金融平台风险评估研究随着互联网和移动互联网的快速发展,大数据已经成为当今社会中不可忽视的力量之一。
在金融领域,特别是网络金融平台中,大数据的应用给风险评估带来了前所未有的改变和发展机遇。
本文将探讨大数据时代下网络金融平台风险评估的研究现状、方法和挑战。
一、研究现状随着网络金融平台的广泛应用,金融风险评估成为网络金融行业不可回避的重要问题。
传统风险评估方法基于有限的数据和经验判断,无法完全覆盖大规模、高维度的数据特征。
然而,大数据技术的引入为风险评估提供了新的思路和工具。
目前,研究者们开始关注如何利用大数据技术实现网络金融平台风险评估的精准性和效率。
二、研究方法1.数据采集和处理大数据的价值在于从大量、多样的数据中提取信息和洞察。
在网络金融平台风险评估中,需要采集和处理用户的行为数据、交易数据、身份认证数据等多种数据。
通过数据清洗、数据预处理和数据特征提取等过程,将原始数据转化为可用于风险评估的指标。
2.机器学习算法机器学习是大数据时代处理和分析数据的关键方法之一。
在网络金融平台风险评估中,研究者们可以利用机器学习算法建立模型,通过对用户数据的学习和训练,预测用户的风险等级。
常用的机器学习算法包括逻辑回归、支持向量机、随机森林等。
3.人工智能技术人工智能技术可以提供更加智能和精准的风险评估服务。
例如,利用自然语言处理技术分析用户评论和评价,可以更全面地了解用户的信用风险。
此外,深度学习技术也可以应用于网络金融平台风险评估中,通过对大规模数据的深层次挖掘,提高预测准确性。
三、挑战与问题1.数据隐私和安全问题在利用大数据进行风险评估的过程中,数据的隐私和安全问题是亟待解决的。
网络金融平台需要采取有效的数据保护措施,确保用户的数据不受侵犯和滥用。
2.模型的可解释性大数据时代的机器学习算法和人工智能技术往往被认为是“黑箱”,其预测和决策过程不容易被观察和理解。
这种缺乏可解释性使得风险评估的结果难以被用户和监管机构接受。
P2P网络借贷风险控制探析—以拍拍贷为例

P2P网络借贷风险控制探析—以拍拍贷为例P2P网络借贷是指个人之间通过互联网来进行借贷活动,其具有无需抵押、灵活便捷、费用低廉等优势,成为投资人和借款人的首选。
然而,P2P网络借贷也存在着一些风险,如违约风险、信息不对称风险、平台风险等。
本文以拍拍贷为例,探析P2P网络借贷的风险控制措施,旨在提供借贷平台更为精准的风险控制建议。
一、拍拍贷业务模式、风险控制框架及结果1、拍拍贷的业务模式拍拍贷是一家专注于P2P网络借贷的借贷平台,在平台上,借款人可以通过发布借款需求,吸引不同的投资人投资,拨款方式采用全额拨款。
拍拍贷将所有借款人合同归纳为借款合同组合,并基于此,通过投资人的投资,组合出不同的投资组合。
投资人所获得的收益,来自于借款人还款中扣除的利息和管理费。
同时,拍拍贷也为投资人提供托管服务。
2、拍拍贷的风险控制框架(1)信息披露拍拍贷对借款人和投资人进行信息披露,格外注重借款人的基本情况披露。
披露内容包括:借款人基本信息、资料、申明和承诺等,帮助投资人进行投资决策。
(2)风险定价拍拍贷通过对借款人进行360°测评,为借款人评估风险。
根据客观数据和借款人行为评估,综合评估借款人的还款能力和意愿,最终确定借款人的贷款利率。
(3)监控和预警拍拍贷设有专门的风险定价及控制团队,对借款人的还款情况进行实时监控,并针对逾期和违约的情况进行预警处理,帮助投资人有效管理自己的投资风险。
(4)强制执行针对违约借款人,拍拍贷将启动强制执行程序,对借款人进行保全和强制执行。
3、拍拍贷的风险控制结果从2014年开始,拍拍贷已经在P2P行业中安全运营了4年,其坏账率低于行业平均水平,在行业内的影响力不断提升。
同时,拍拍贷继续引入第三方机构来加强风险控制,如南京银行和安硕信息等,提升了风控能力,进一步保障了借款人和投资人的利益。
二、拍拍贷的风险控制的不足1、信息披露质量需进一步提高拍拍贷在信息披露方面做得不错,但是仍有不足之处。
P2P网贷借款人信用风险评价研究

P2P网贷借款人信用风险评价研究P2P网贷作为新型的互联网金融模式,以互联网为媒介,为资金需求方提供了新的融资渠道,是一种新型借贷模式,能与传统金融进行互补。
对于传统金融关注不到位的小微企业和群众,P2P网贷能更好的为其提供服务。
但是P2P网贷行业在我国起步较晚,发展并不成熟。
P2P网贷行业的“无从业门槛、无行业标准、无监管机构”的现状,使得平台面临诸多风险,近年来平台倒闭风、跑路风等现象频繁发生,P2P网贷平台的风险控制及管理亟待解决。
在诸多风险中,借款者的信用风险是网贷行业所面临的主要风险之一,本文以借款人信用风险为切入点展开实证分析,分析借款人信息对信用风险的影响。
本文首先对与P2P网贷的相关的概念进行了简单介绍,分析了P2P网贷面临的风险及P2P网贷的相关理论基础。
在进行实证分析之前建立了借款人信用风险评价指标体系。
体系的构建参考了我国几大传统商业银行评价个人信用的方式和国内相关文献中所构建的指标体系,并结合所选平台“人人贷”上借款标的的相关信息,构建出一套适用于网贷平台的借款人信用风险评价指标体系。
随后,利用从“人人贷”平台上爬取的2015年1月-12月的61186条有效的交易数据进行研究。
实证研究方面,先对全部数据进行了整体的描述性统计分析,接着对违约的交易数据进行了详细的描述性分析;在将变量纳入模型进行回归之前分析了变量之间是否具有多重共线性,确保变量之前互联独立之后利用二元Logistic回归模型对样本进行了实证分析。
结果得出,借款人年龄、学历、收入、借款利率、借款期限、借款人信用等级、借款逾期次数这七项指标对借款人信用风险具有显著影响,其中年龄、借款利率、借款期限、借款逾期次数与借款人违约率呈显著的正相关关系;借款人学历、收入、信用等级则呈显著的负相关关系。
最后根据研究结论与当下我国P2P网贷的实际情况从投资人和网贷平台这两个角度提出了建议。
本文希望所得的研究结果和风险评价模型能对投资者和平台正确甄别、防范和化解信用风险提供参考价值。
《2024年基于用户互联网行为数据的个人征信评估体系建设分析——以芝麻信用为例》范文

《基于用户互联网行为数据的个人征信评估体系建设分析——以芝麻信用为例》篇一一、引言随着互联网的飞速发展,大数据技术被广泛应用于各个领域。
其中,个人征信评估体系的建设显得尤为重要。
它不仅关乎金融风险控制,也深刻影响着社会信用体系的构建。
芝麻信用作为国内领先的征信评估机构,其基于用户互联网行为数据的评估模型备受关注。
本文旨在分析基于用户互联网行为数据的个人征信评估体系建设,以芝麻信用为例,探讨其建设过程、评估方法及未来发展趋势。
二、用户互联网行为数据在个人征信评估中的重要性在数字化时代,用户互联网行为数据已成为个人征信评估的重要依据。
这些数据包括但不限于网络购物、社交网络、网络服务使用等行为所产生的大量信息。
这些数据能够全面反映一个人的信用状况、消费习惯、社交关系等多方面信息,为个人征信评估提供了丰富的数据支持。
三、芝麻信用征信评估体系建设芝麻信用作为国内领先的征信评估机构,其基于用户互联网行为数据的评估模型具有很高的参考价值。
芝麻信用通过收集用户在阿里巴巴集团旗下各平台的行为数据,包括购物、支付、社交、出行等多个方面,构建了一个全面的信用评估体系。
在这个体系中,用户的每一次行为都会被记录并转化为信用分数,从而形成一个动态、实时的信用评估结果。
四、评估方法与模型芝麻信用的评估方法主要包括数据分析、机器学习、人工智能等技术手段。
通过对用户行为数据进行深度挖掘和分析,构建出多个评估模型。
这些模型能够全面反映用户的信用状况,包括但不限于消费能力、还款能力、社交关系等方面。
同时,芝麻信用还采用了实时更新的方式,确保评估结果的准确性和实时性。
五、应用场景与影响芝麻信用的征信评估体系已广泛应用于金融、电商、社交等多个领域。
在金融领域,银行、保险公司等机构纷纷采用芝麻信用评分作为贷款、保险等业务的审批依据。
在电商领域,芝麻信用评分也成为了商家评价用户信用的重要手段。
此外,芝麻信用还为政府、企业等提供了数据支持和服务,推动了社会信用体系的构建。
大数据在金融行业中的贷款风险评估
大数据在金融行业中的贷款风险评估随着信息技术的快速发展,大数据在金融行业中扮演着越来越重要的角色。
其中之一就是在贷款风险评估方面发挥着巨大的作用。
本文将探讨大数据在金融行业中的贷款风险评估,并分析其优势和挑战。
一、引言在金融行业中,贷款是一项重要的金融服务。
然而,贷款涉及到风险,如果贷款风险评估不准确,对金融机构和借款人都可能带来不利的后果。
因此,如何准确评估贷款风险成为了金融行业中的一个重要问题。
二、大数据在贷款风险评估中的应用大数据提供了海量的数据资源,使得金融机构能够更加准确地评估贷款风险。
以下是大数据在贷款风险评估中的几种应用方式:1.挖掘非传统数据传统的贷款风险评估主要依赖于申请人提供的个人资料和信用报告。
然而,大数据使得金融机构能够更好地挖掘非传统数据,如社交媒体信息、消费记录等,从而更全面地了解借款人的还款能力和还款意愿。
2.建立预测模型大数据可以通过分析历史数据和实时数据,建立预测模型来评估借款人的风险。
这些预测模型可以基于机器学习算法,根据各种因素如借款人的年龄、收入、职业等进行风险评估,并作出相应的决策。
3.增强反欺诈能力大数据可以帮助金融机构更好地识别欺诈行为。
通过分析大量的数据,金融机构可以建立反欺诈模型,识别出潜在的欺诈行为,从而减少贷款风险。
三、大数据在贷款风险评估中的优势大数据在贷款风险评估中具有许多优势,如下所示:1.更准确的风险评估传统的贷款风险评估主要依靠个人资料和信用报告,有时难以全面评估借款人的还款能力。
而大数据可以提供更多的数据来源,通过数据的挖掘和分析,使得评估更加准确。
2.更高效的风险评估大数据的处理速度快,可以实时处理大量的数据。
这使得金融机构能够更快速地对借款人的风险进行评估,提高信贷决策的效率。
3.降低欺诈风险利用大数据分析,金融机构可以更好地识别欺诈行为,从而减少贷款欺诈的风险。
这可以保护金融机构的利益,并提高整个金融行业的安全性。
四、大数据在贷款风险评估中的挑战然而,大数据在贷款风险评估中也面临着一些挑战,如下所示:1.数据隐私问题为了评估贷款风险,金融机构需要收集和处理大量的个人数据。
大数据环境下的个人信用评估与风险控制
大数据环境下的个人信用评估与风险控制随着人们生活水平的提高和信息化、智能化技术的日新月异,数据被视为一个企业和个人决策支持系统的核心资源,而大数据则成为了这个系统的标志。
在大数据环境下,个人信用评估与风险控制成为了热门话题。
一、什么是个人信用评估?个人信用评估是指各种因素综合考虑,对个人或者群体信用情况进行评定、分级的工作。
目前,各类个人信用评估主要包括贷款信用评级、信用卡信用评级、金融机构对企业及个人的信用评级、社会团体会员的信用评级等等。
二、大数据为何成为个人信用评估的核心资源?在大数据时代,各种类型的数据涌入数据库,如社交网络、医疗记录、银行记录、购买记录、地理位置等。
通过对这些数据的分析、处理和挖掘,可以准确地对个人进行信用评估,输出客观的信用分数。
例如,个人信用评估公司利用大数据技术,能够对每个人进行多重维度的评估,如个人信息、消费习惯、社交网络、金融数据等。
根据这些数据的综合评估,对个人进行信用状况的评定和分类,输出可供金融机构等使用的信用分数。
这样,金融机构可以利用这些信用分数,对借贷人、信用卡申请人、投资人等进行个性化的信用决策。
三、使用大数据时需要注意的风险?虽然大数据技术可以为个人信用评估和风险控制带来巨大帮助,但是也需注意以下两个重要问题:1. 保护个人信息的隐私。
大数据分析涉及到个人隐私信息,若被不当使用或泄露,就会对个人隐私造成不良影响。
因此,在使用大数据时,需要注意信息的安全保护,防止意外事件的发生。
2. 评估准确性的问题。
由于大数据源数据量大、类型多、速度快,数据分析的结果也会受到多种因素的影响。
这些因素包括数据质量、数据采集的时效性、数据分析的方法等等。
因此,需要对数据进行监控和质量保证,使评估结果准确可靠。
四、如何克服大数据评估的风险?为了应对风险,需要从以下几个方面进行关注:1. 加强数据治理。
建立健全的数据分析体系,通过数据质量评估、数据安全管理、数据管理与共享、数据道德原则等措施,确保数据评估的准确性和公正性。
互联网金融平台的风险评估与可信度建模研究——以P2P平台为例
互联网金融平台的风险评估与可信度建模研究——以P2P平台为例互联网金融的快速发展极大改变了传统金融行业的格局,其中P2P (Peer-to-Peer)平台作为互联网金融的重要组成部分,为投资者和借款人提供了一种去中介化的借贷方式。
然而,在享受便利的同时,互联网金融平台也面临着一系列的风险和信任问题。
本文将着重探讨互联网金融平台的风险评估与可信度建模问题,并以P2P平台为例进行分析。
一、平台背景与监管环境介绍互联网金融平台作为金融创新的代表,已经成为泛金融产业的重要一环。
在P2P平台中,借款人和投资人直接进行借贷交易,平台仅作为信息咨询和撮合的中介。
然而,出于监管的考虑,各国对P2P平台的业务进行了不同程度的监管。
二、互联网金融平台的风险分类和评估指标互联网金融平台的风险主要包括信用风险、流动性风险、操作风险等。
风险评估指标可以从财务状况、借款人信用评级、平台业务模式等多个方面进行考量。
三、风险评估方法论的选择针对互联网金融平台的风险评估,可以采用传统的金融风险评估模型,也可以结合互联网金融特点进行改进。
例如,可以参考借款人之间的交易行为和数据以及平台的历史数据来辅助评估。
四、数据采集与处理风险评估需要大量的数据支持,包括借款人的个人信息、财务状况、还款能力等,以及平台的交易数据、历史风险等。
因此,数据采集和处理是风险评估的重要一环。
五、基于统计学的风险模型建立在数据采集和处理的基础上,可以运用统计学方法建立风险模型,通过分析历史数据和预测未来趋势,为投资者提供可靠的风险评估结果。
六、基于机器学习的风险模型建立相比传统的统计学方法,机器学习具备更强的数据挖掘和模式识别能力,可以更准确地预测风险。
通过采用机器学习算法,可以建立更可靠的风险模型。
七、可信度建模的研究互联网金融平台的可信度是投资者选择平台的重要指标之一。
因此,研究互联网金融平台的可信度建模固然重要。
通过分析平台的信息披露、运营历史、监管合规等因素,可以建立可信度评估体系,为投资者提供参考。
基于大数据技术的个人信用风险评估
基于大数据技术的个人信用风险评估一、引言随着互联网金融时代的到来,个人信用评估变得越来越重要。
传统的个人信用评估方法主要基于银行授信记录、贷款记录、信用卡账单等多种数据来源,通过人工管理员工手动管理数据进行信用评估,在一定程度上降低了风险,但也存在着数据准确度低、效率低下等问题。
本文将着重探讨基于大数据技术的个人信用风险评估的应用,解析大数据技术在该领域中的具体应用场景。
二、大数据技术在个人信用风险评估中的应用1.数据收集和加工与传统个人信用评估方法相比,基于大数据技术的个人信用风险评估具备更广泛的数据来源。
大数据技术可以整合来自不同领域的数据,例如消费记录、社交网络数据、移动端行为数据等,同时,大数据技术可以对海量数据进行自动化的处理和清洗。
2.数据挖掘和分析在大数据领域中,最重要的一环是数据挖掘和分析。
数据挖掘和分析可以帮助我们更加全面地了解贷款用户的行为习惯、信用记录等情况,通过对这些数据进行分析和建模,可以找出和识别用户的信用风险。
传统手工式的数据分析方法难以完成这些任务,而基于大数据技术的数据挖掘和分析方法可以很好地解决这些问题。
3.人工智能决策模型大数据技术不仅可以挖掘出贷款用户的行为习惯、信用记录等情况,还可以通过“人工智能”对数据进行计算和模型训练。
这里的“人工智能”是指一类计算机程序,它可以根据一定的算法和模型,对数据进行处理、计算和分析,最终形成决策模型,对用户进行评分和评估。
4.数据可视化基于大数据技术的个人信用风险评估的另一个优点是,可以进行数据可视化。
通过数据可视化,决策者可以可视化掌握并理解数据的情况,进而更好地调整策略和决策。
基于大数据技术的数据可视化工具让数据分析人员能够更加高效地分析数据并获取数据中的关键洞察。
三、前景基于大数据技术的个人信用风险评估开发现已引发了很多金融科技公司的兴趣。
目前,国内和国际的金融科技公司已经开始使用这种方法进行信用评估,不少大型的银行和金融机构也已经开始开拓这一领域。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据背景下网络借贷的信用风险评估大数据背景下网络借贷的信用风险评估 ————以人人贷为例以人人贷为例以人人贷为例((下)
2016年09月30日 四、基于数据挖掘算法的信用风险评估模型基于数据挖掘算法的信用风险评估模型 (一)非平衡数据处理 本文收集的数据中违约项目为30个(2.935%),非违约项目为992个(97.065%),属于非平衡数据集。由于类的分布是不平衡的,传统数据挖掘算法在处理这类数据时容易倾向于多数类,对少数类的关注较少,得到的模型分类性能降低。
1.SMOTE算法。国内外学者对非平衡类数据问题进行了深入的研究,提出了多种不同的处理方法:一类是使用数据采样方法来平衡数据集,比如向上采样(人为地增加少数类的样本)、向下采样(人为地减少多数类的样本)等;另一类是对数据挖掘算法进行改进,比如代价敏感学习等。向下采样容易导致一些重要样本信息的丢失,因此在实践中使用较多的是向上采样。最简单的向上采样方法是通过随机复制少数类样本来平衡数据,但容易导致过拟合[11]111-117。
合成少数类过取样算法(简称SMOTE)利用少数样本生成人工样本来平衡数据,在一定程度上解决了过拟合问题,该算法是由Chawla等提出的,通过在特征空间中相邻近样本之间插入人工样本来增加少数类样本的数目[12]。对少数类Smin中的每一个样本Xi∈Smin,搜素k个最近邻点,近邻可以根据距离(欧氏距离等)或相似系数(相关系数等)选择。从k个最近邻点中随机地选择一个样本点Yj。计算Xi与Yj对应特征向量的差值,并产生一个0~1之间的随机数δ,最后合成一个少数类的人工样本Xnew为:
Xnew=Xi+(Xi-Yj)×δ 若向上采样倍率为n,那么在k个最近邻点中随机地选择n个样本点,即j=1,2,…,n。重复上述步骤,直到所有少数类样本都被处理完成为止。
在实践中,Chawla等(2012)将向下取样与SMOTE算法结合进行取样,取得了良好效果。SMOTE算法可通过R语言的DMwR包中的SMOTE函数实现,SMOTE(formula,data,perc.over=n1,k=5,perc.under=m1)假设原数据中少数类和多数类的样本数分别为N、M,向上采样倍率n=n1%,向下采样倍率m=m1%,最后得到的数据集中少数类样本数为N+nN、多数类样本数为nNm。
2.P2P网络借贷数据平衡性处理。首先,运用简单随机抽样方法将原始数据分为训练集和测试集。然后,采用SMOTE算法平衡训练集数据,少数类N=15、多数类M=496,取n=500%、m=200%、k=5,平衡后的训练集中少数类与多数类的比例为3∶5,运用于后续模型建立效
果最好。 表2 数据构成情况 数据处理 数据集 0 1 总计 0 1 随机抽样 原始数据 30 992 1 022 2.935% 97.065% 测试集(test) 15 496 511 2.935% 97.065% 训练集(train) 15 496 511 2.935% 97.065% SMOTE 新训练集(ntrain) 90 150 240 37.5% 62.5%
注:0,1表示还款情况类别。0:逾其次数>0违约,1:逾期次数=0(非违约)。 (二)模型实证分析 本文以还款情况作为分类变量,使用R语言编程,根据准确率和AUC的变化进行各个模型的参数选择,获得各个数据挖掘模型的分析结果。
1.模型参数选择与模型结果。这里主要介绍随机森林的参数选择,根据准确率和AUC的变化选择生成树的棵数(ntree)和节点分支所选变量个数(mtry)。在基于新训练集建模的过程中,当生成树的棵数小于40时,错误率均在0~0.05之间不规则变动,当其大于40时预测错误率等于0;节点所选变量个数在3~12之间时,准确率和AUC均达最大且处于平稳状态。因此,选取ntree=800、mtry=3建立模型,训练集中所有类别均预测正确,错误率的OOB估计值为0。具体见图1。 图1 随机森林参数选择 表3列出了各个模型的参数选择结果和重要变量,综合来看,变量Paid、Succeed、Application、Score、Field、Size、Grade、Emplength等较为重要,而AdaBoost和随机森林的运行结果显示House、Marriage、Autoloan、Mortgage、Car、Loan Type、PrepaymentRate等变量重要值较小甚至为零,说明信用档案中的历史借款信息(成功借款、还清笔数、申请借款)以及信用等级和信用评分、个人信息中的工作情况(公司规模、工作时间)等在信用风险评估中起着重要作用,而个人信息(婚姻状况、房/车产(贷)等)重要程度较低。信用等级和评分是人人贷根据借款人提交的材料按照信用评级机制(加减分规则)进行加工处理之后呈现给投资者的,在一定程度上综合反映了借款人的信用情况。历史借款信息之所以也是重要变量,是因为成功借款次数为1,还清借款次数为0的借款人为新用户,不存在逾期记录;借款人的工作时间、公司规模等情况,反映了借款人工作状况的稳定性,说明了其按时还款的能力。平台应加强重要信息的收集和储存,以提高审核阶段对劣质借款的筛选准确率,使投资者能够在保证资金安全的前提下获得收益。
表3 各个模型参数选择及重要变量 模型 原训练集 新训练集 参数选择 重要变量 参数选择重要变量
CART — Succeed、Field — Succeed
C4.5 — Succeed、Field、Size — Succeed、Emp Length、Autoloan、Score
Ada Boost — Succeed、Field、Tile、Application、Size、Score — Succeed、Emp Length、Paid、Size、Grade、Borrow Type
SVM C-classification分类方式、多项式核函数 — C-classification分类方式、多项式核函数、权重为2∶1,4 —
ANN 隐藏层节点数=6、最大迭代次数=200 — 隐藏层节点数=11、最大迭代次数=207 — RF 生成树的棵数=800、节点分支所选变量个数=25 Paid、Succeed、Score、Field、Application、Grade 生成树的棵数=800、节点分支所选变量个数=3 Paid、Succeed、Application、Score、Size、Grade
2.数据平衡性处理前后模型性能比较。在实践中,一般采用准确率来评价分类器的性能,但在非平衡数据分类问题中,通常少数类的正确分类更有价值,而准确率将各个类同等对待,如果仅采用准确率来评价模型是不合适的,因此也考虑其他度量如灵敏度(真正率)和特指度(真负率)、ROC曲线与AUC(ROC曲线下方的面积)等。总的来说,使用SMOTE算法对训练集进行处理后建立的模型优于使用原训练集建立的模型。
表4 各个模型分类结果汇总
模型 原训练集 新训练集
0 1 真正率 真负率 准确率 AUC 01 真正率 真负率 准确率 AUC CART 0 12 3 0.8 0.978 0.9730.8890141 0.933 0.964 0.9630.9491 11 485 1 18 478 C4.5 0 9 6 0.6 0.976 0.9650.7880132 0.867 0.978 0.9750.9221 12 484 1 11 485 Ada Boost 0 9 6 0.6 0.986 0.9750.7940123 0.8 0.972 0.9670.886
1 7 489 1 14 482 SVM 0 8 7 0.533 0.994 0.98 0.76401 4 0.733 0.976 0.9690.8551 3 493 1 12 484 ANN 0 10 5 0.667 0.982 0.9730.8240123 0.8 0.988 0.9820.8941 9 487 1 6 490 RF 0 10 5 0.667 0.998 0.9880.8320150 1 0.974 0.9750.9871 1 495 1 13 483
第一,准确率。使用新训练集建立的模型准确率在0.963~0.982之间,排名前三是ANN、RF、C4.5,虽然CART、AdaBoost、SVM、RF的准确率略有下降,但是6个模型对少数类(违约项目)的预测准确率即真正率均有明显提高,其中C4.5和ANN模型无论是对多数类还是少数类的预测准确率都高于使用原训练集建立的C4.5和ANN模型。
第二,ROC曲线和AUC。图2为两组模型的ROC曲线,ROC曲线越靠近左上角说明模型的分类性能越好,使用新训练集建立的模型ROC曲线更集中于左上角。使用SMOTE算法进行平衡性处理后建立的一组模型的AUC有明显提高且均达0.85以上,排名前三的为RF、CART、C4.5,其中随机森林(RF)的AUC达0.987接近于1,明显优于其他模型。 图2 各模型的ROC曲线 在信用风险问题研究中,一般来说,准确预测少数类样本,对投资者确定投资项目、平台筛选借款项目,保证资金安全,更有价值。因此,本文引入SMOTE算法对原训练集数据进行处理,提高了信用风险评估模型的性能。
3.各个模型性能比较分析。由表4可知使用新训练集建立的模型中,随机森林模型的真正率为1,AUC为0.987,准确率亦较高,并且它正确识别了所有的违约样本,可以初步判定随机森林模型的性能最佳。
本部分引入3折交叉验证,进行最佳模型的最终判定。原始数据中因变量有非违约和违约两个类别,为了平衡,将两个类别中的每一类都随机地分为3份,最后得到包含两类别的3份数据集。每次运行,选择一份作为测试集,剩下两份作为训练集,运用SMOTE算法对训练集数据进行处理,再用于模型建立,并用测试集检验模型的分类性能。