基于融360数据的模型构建和用户贷款审批结果预测

合集下载

基于XGBoost的互联网金融贷前逾期识别与模型表达

摘要摘要本文主要基于XGBoost(eXtreme Gradient Boosting极限梯度提升)模型，研究在互联网金融场景中对有贷前逾期风险的用户进行识别的问题，并通过强大的SHAP(SHAPley夏普利)解释框架对模型进行可视化表达。

为了研究这一问题，本文选取了融360企业提供的公开数据集，在万级数据量以及匿名变量的场景中，实现对变量的清洗、模型的构造、比较、可视化，以此说明XGBoost模型的高精度以及在贷前逾期场景中可解释性。

本文一方面综合考虑各种变量的性质，对匿名变量的缺失值进行有规律地插补，以实现对变量的清洗，避免“垃圾进、垃圾出”(Garbage In Garbage Out)的情况发生。

另一方面，通过控制训练集和测试集的一致性，构造了逻辑回归(LR)、随机森林(RF)、梯度提升决策树(GBDT)三个模型，将这三个经典模型作为基线模型，通过精度对比说明XGBoost模型的优良性。

为了让模型评估指标更贴合实际场景，本文选取了三大类七个指标综合地评判各个模型的识别效果。

评价指标中包括模型的排序能力、对正样本的识别能力等，并构造了预期收益这一指标替代常规的准确率指标。

进一步地，为了提升模型的精度，本文对所建立的XGBoost模型进一步进行超参数调优。

最后，利用对集成模型的解释框架SHAP，将这一模型中各个变量的价值进行可视化处理，从变量角度和样本角度分别进行可视化，实现模型表达的效果。

并在匿名变量的场景下进行模拟解释，以便更好地解读其经济管理含义。

关键词：互联网金融；贷前逾期识别；参数调优；极限梯度提升模型；夏普利解释框架；AbstactAbstractBased on the XGBoost model, this paper studies the problem of identifying users with pre-lending overdue risks in the Internet financial scenario, and visualizes the model through a powerful SHAP framework. In order to study this problem, this paper selects the public data set provided by Rong 360 enterprise, realizes the cleaning of variables, the construction, comparison and visualization of the model in the scene of 10,000 data volume and anonymous variables, so as to illustrate the XGBoost model. High accuracy and interpretability in pre-lending overdue scenarios.On the one hand, this paper comprehensively considers the nature of various variables, and regularly interpolates the missing values of anonymous variables to achieve the cleaning of variables and avoid the occurrence of Garbage In Garbage Out. On the other hand, by controlling the consistency of the training set and the test set, three models of Logistic Regression (LR), Random Forest (RF) and Gradient Boosting Decision Tree (GBDT) are constructed. These three classic models are used as baseline models. The accuracy comparison shows the superiority of the XGBoost model.In order to make the model evaluation indicators more suitable for the actual scene, this paper selects three categories of seven indicators to comprehensively judge the recognition effect of each model. The evaluation indicators include the sorting ability of the model, the ability to identify positive samples, etc., and construct the expected return index instead of the conventional accuracy rate indicator. In order to improve the accuracy of the XGBoost model, this paper further performs hyperparameter tuning on the established XGBoost model. Finally, using the interpretation framework SHAP of the integrated model, the value of each variable in the model is visualized, visualized from the perspective of variables and samples, and simulated in the context of anonymous variables for better interpretation. Its economic management implications. Keywords:Internet finance，pre-lending overdue recognization , parameter tuning, eXtreme Gradient Boosting, SHAP目录目录摘要 (I)Abstract............................................................................................................................. I I 第1章绪论 .. (1)1.1 课题来源与研究意义 (1)1.2 传统金融的贷前逾期识别 (1)1.3 互联网金融的贷前逾期识别 (2)1.4 国内外研究现状 (3)1.4.1 国外研究现状 (3)1.4.2 国内研究现状 (5)1.4.3 国内外文献综述 (7)1.5 论文研究内容 (8)第2章理论模型与方法 (10)2.1 逻辑回归模型 (10)2.1.1 逻辑回归模型的应用 (10)2.1.2 逻辑回归模型的求解原理 (10)2.1.3 逻辑回归模型的参数说明 (13)2.1.4 逻辑回归的优缺点 (14)2.2 随机森林模型 (15)2.2.1 随机森林模型的应用 (15)2.2.2 随机森林模型的求解原理 (15)2.2.3 随机森林模型的参数说明 (18)2.2.4 随机森林模型的优缺点 (18)2.3 GBDT模型 (19)2.3.1 GBDT模型的应用 (19)2.3.2 GBDT模型的求解原理 (20)2.3.3 GBDT模型的参数说明 (21)2.3.4 GBDT模型的优缺点 (22)2.4 XGBoost模型 (22)2.4.1 XGBoost模型的应用 (22)2.4.2 XGBoost模型的求解原理 (22)2.4.3 XGBoost模型的参数说明 (24)2.4.4 XGBoost模型的优缺点 (25)目录2.5 四个模型的可解释性 (26)2.6 本章小结 (26)第3章模型的建立和模型评价 (28)3.1 数据来源与说明 (28)3.1.1 数据背景 (28)3.1.2 数据缺失情况 (29)3.1.3 数据类型 (31)3.2 评价基线与指标选择 (32)3.2.1 评价基线的确定 (32)3.2.2 评价指标的选择 (33)3.3 基线模型的评价结果 (35)3.3.1 逻辑回归模型的评价结果 (35)3.3.2 随机森林模型的评价结果 (36)3.3.3 GBDT模型的评价结果 (36)3.3.4 基线模型小结 (37)3.4 XGBoost模型的建立与评价结果 (38)3.5 XGBoost模型的优化 (39)3.5.1 参数调优 (39)3.5.2 变量降维 (40)3.6 本章小结 (40)第4章XGBoost模型的可视化表达 (42)4.1 XGBoost模型的解释性 (42)4.1.1 变量的重要性 (42)4.1.2 单棵决策树 (44)4.1.3 解释能力的局限性 (45)4.2 基于SHAP值的解释框架 (45)4.2.1 SHAP含义 (45)4.2.2 SHAP值的特性 (46)4.3 XGBoost模型中变量与样本的重要性分析 (47)4.3.1 变量重要性分析 (47)4.3.2 单变量SHAP值的映射关系 (50)4.3.3 单个样本的SHAP值计算 (51)4.4 匿名变量的业务处理方案 (52)4.5 本章小结 (53)结论 (55)目录参考文献 (56)攻读硕士学位期间发表的论文及其它成果 (60)哈尔滨工业大学学位论文原创性声明和使用权限 (61)致谢 (62)哈尔滨工业大学管理学硕士学位论文第1章绪论1.1课题来源与研究意义互联网金融是一种新型的金融业务模式。

金融行业中贷款审批模型的建立与使用技巧

金融行业中贷款审批模型的建立与使用技巧随着金融行业的不断发展，贷款审批模型成为金融机构中不可或缺的工具。

正确建立和使用贷款审批模型，能够有效提高审批的准确性和效率。

本文将就金融行业中贷款审批模型的建立与使用技巧进行详细介绍，帮助金融从业人员更好地运用这一工具。

一、贷款审批模型的建立1. 数据收集与整理贷款审批模型的建立首先需要大量的数据作为基础。

金融机构应根据自身的实际情况收集相关的客户数据，如个人信息、财务状况、信用记录等。

同时，还需要收集与贷款申请相关的外部数据，如行业数据、宏观经济数据等。

数据的整理工作也十分重要，要对收集到的数据进行清洗和标准化处理，确保数据的准确性和一致性。

此外，还可以利用机器学习方法处理数据，提取有用的特征。

2. 特征选取与构建在建立贷款审批模型时，选择适当的特征对模型的准确性起着关键作用。

特征选取需基于实际情况和经验进行，选取那些与贷款违约风险相关的特征。

同时，还可以通过特征工程的方式构建一些新的特征，以增强模型的表现力。

特征的选取和构建需要结合实际经验和数据分析，在保持模型简洁性的同时，尽可能提高模型的预测性能。

3. 模型选择与训练模型的选择是建立贷款审批模型的重要一步。

常用的模型包括逻辑回归、支持向量机、决策树等。

不同模型有不同的特点和适用范围，金融机构应根据自身的情况选择合适的模型。

模型的训练是建立贷款审批模型的核心步骤。

金融机构应使用已整理好的数据集对选定的模型进行训练，并根据训练结果进行模型调优，提高模型的准确性和鲁棒性。

二、贷款审批模型的使用技巧1. 模型评估与监控贷款审批模型建立完成后，需要对模型进行评估和监控，确保模型的稳定性和准确性。

评估模型时，可以使用一些常见的评估指标，如准确率、召回率、精确率等，对模型的表现进行评价。

同时，还需要对模型进行监控，及时发现模型的异常表现和预测偏差，对模型进行调整和改进。

监控模型需要建立一套完善的流程和机制，确保模型能够及时适应市场的变化和风险的变化。

基于大数据分析的金融机构信贷风险评估模型构建

基于大数据分析的金融机构信贷风险评估模型构建金融机构信贷风险评估是银行和其他金融机构在放贷过程中必须进行的核心工作之一。

随着大数据技术的快速发展，金融机构开始利用大数据分析方法来构建更加准确和可靠的信贷风险评估模型。

本文将探讨基于大数据分析的金融机构信贷风险评估模型的构建方法和关键要素。

一、引言信贷风险评估是金融机构中最重要的工作之一。

传统的信贷评估模型主要基于贷款申请人的个人信用记录、资产负债表和收入等信息，并通过建立复杂的统计模型来预测违约风险。

然而，这种基于传统数据的评估模型往往无法准确地捕捉到贷款申请人的真实信用状况，容易导致信贷决策的不准确和不稳定。

二、基于大数据分析的金融机构信贷风险评估模型的构建方法1. 数据采集和准备构建基于大数据分析的信贷风险评估模型的第一步是收集和准备数据。

金融机构可以从内部和外部数据源中获取大量的数据，如贷款历史记录、个人信用报告、社交媒体数据等。

同时，还需要清洗和预处理数据，确保数据的质量和一致性。

2. 特征选择和特征工程在数据准备完成后，需要进行特征选择和特征工程。

特征选择是从大量的特征中筛选出对信贷风险有显著影响的关键特征。

特征工程则是通过对特征进行转换和组合，生成新的特征，以提高模型的预测能力。

3. 模型选择和训练在特征选择和工程完成后，就可以开始选择合适的模型来进行训练和预测。

常用的模型包括逻辑回归、决策树、支持向量机等。

此外，还可以采用集成学习的方法，如随机森林和梯度提升树，以进一步提升模型的性能。

4. 模型评估和优化模型训练完成后，需要对模型进行评估和优化。

常用的评估指标包括准确率、召回率、精确率和F1值等。

如果模型的性能不够理想，可以通过调整模型参数、增加训练样本或修改特征工程方法来优化模型。

三、基于大数据分析的金融机构信贷风险评估模型的关键要素1. 数据质量数据质量是构建准确信贷风险评估模型的基础。

要确保所使用的数据准确、完整和一致，并排除异常值和噪声。

基于大数据的不良贷款预测模型构建与评估研究

基于大数据的不良贷款预测模型构建与评估研究随着金融行业的发展，金融机构着重于不良贷款的风险控制。

不良贷款是指借款人不能按时或不完全偿还其贷款本金和利息的情况。

这种情况严重影响了金融机构的利润和稳定性。

因此，开发一种有效的不良贷款预测模型，对金融机构的风险控制和发展至关重要。

大数据技术的发展为不良贷款预测模型的构建提供了强有力的支持。

大数据可以从海量的数据中快速准确地提取出有价值的信息，并通过有效的数据分析技术来构建出一种高准确率的模型。

不良贷款预测模型的构建需要处理大量的数据，包括借款人的个人信息、贷款信息、职业信息、还款记录和交易信息等等。

数据分析技术可以对这些数据进行筛选、清洗、归类、处理和分析，以提取出对预测不良贷款影响较大的关键因素。

构建不良贷款预测模型有多种方法和技术可供选择，如逻辑回归模型、支持向量机模型、决策树模型和神经网络模型等。

这些模型的主要原理是将原始数据集分为训练集和测试集，通过大量数据的学习和分析，构建出一个高精度的预测模型。

在预测的过程中，通过分析模型的输出结果和实际情况的差异，不断调整和优化模型，以达到更加准确的预测效果。

同时，不良贷款预测模型的评估也非常重要。

评估的目的是确定模型的优劣、准确率和可靠性。

评估指标包括精度、召回率、F值、ROC曲线、AUC等。

精度指模型准确预测的正样本占所有样本的比例；召回率指模型识别的正样本占总正样本的比例；F值指精度和召回率的综合评价；ROC曲线指用真正率（TPR）表示的横坐标和假正率（FPR）表示的纵坐标的曲线；AUC则是ROC曲线下的面积，表示模型的预测能力。

总的来说，基于大数据的不良贷款预测模型构建和评估需要充分利用各种数据分析技术和模型构建技术。

通过综合运用这些技术，可以构建出一个高准确率、高预测能力的不良贷款预测模型，为金融机构的风险管理和发展提供重要支持。

人工智能在金融领域的贷款申请与审核中的应用与挑战

人工智能在金融领域的贷款申请与审核中的应用与挑战随着科技的不断发展，人工智能（Artificial Intelligence, AI）在各个领域发挥着越来越重要的作用，包括金融领域的贷款申请与审核。

借助人工智能技术，银行和金融机构可以更高效、准确地处理贷款申请，但同时也面临一些应用与挑战。

一、人工智能在贷款申请与审核中的应用1. 贷款申请预测评估：人工智能可以通过分析大量的客户数据和历史贷款记录，建立起预测模型，准确评估借款人的信用风险。

这种预测评估可以帮助金融机构更快速地决定是否批准贷款申请。

2. 自动化审批流程：传统的贷款审批通常需要人工操作和判断，非常耗时且容易出错。

而人工智能技术可以通过自动化流程，将大部分审批过程自动完成，极大地提高审批效率。

3. 反欺诈识别：借助机器学习算法，人工智能可以检测出潜在的欺诈行为。

通过分析借款人的个人信息、历史行为和交易模式等数据，系统可以发现异常行为，提前预警识别可能的欺诈。

二、人工智能在贷款申请与审核中面临的挑战1. 隐私与数据安全：在贷款申请与审核过程中，金融机构需要收集大量的个人数据。

但是，这些数据的安全性成为人工智能应用的重要问题，必须确保借款人的隐私不被泄露或滥用。

2. 解释性与可信度：人工智能的决策过程通常是基于复杂的算法和模型，普通人难以理解其具体的判断依据。

这使得人们对于人工智能的可信度产生疑虑，也加大了监管部门对于人工智能的审核和监管难度。

3. 数据偏见与歧视：人工智能系统的训练数据来自于历史记录，如果这些数据带有偏见或歧视，那么人工智能算法可能会在贷款申请与审核过程中重复和扩大这些偏见和歧视。

这可能对某些群体造成不公平对待，进而引发社会和道德问题。

三、解决挑战的途径与建议1. 加强数据隐私保护：金融机构应该建立严格的数据保护措施，保障借款人的隐私安全。

同时，在使用人工智能系统过程中，要遵循相关的隐私法规和道德准则，确保数据的合法使用。

基于大数据分析的个人信用评估与信贷风险预测模型研究

基于大数据分析的个人信用评估与信贷风险预测模型研究随着金融科技的迅猛发展和大数据技术的成熟应用，个人信用评估和信贷风险预测变得更为准确和可靠。

本文将探讨基于大数据分析的个人信用评估与信贷风险预测模型的研究，并探讨其在金融行业的应用和挑战。

一、概述个人信用评估和信贷风险预测是金融机构进行信贷业务的关键环节。

过去，传统的信贷评估主要依赖于客户的个人资产和还款记录等有限信息。

然而，这种评估方式存在信息不全、评估精度低、潜在风险无法识别的问题。

而基于大数据分析的个人信用评估与信贷风险预测模型则通过集成海量数据、构建全面的信贷风险模型，能够更准确地评估个体信用状况，提高信贷业务的效率和风险控制能力。

二、基于大数据的信用评估模型1. 数据收集和整合在构建基于大数据的信用评估模型时，首先需要收集和整合各种个人数据，包括但不限于财务状况、消费记录、社交网络活动、手机定位数据等。

这些数据来自于多个渠道，如银行、电商平台、社交媒体等。

2. 特征提取和选择通过数据预处理和挖掘技术，对收集到的海量数据进行特征提取和选择。

这一步旨在从庞杂的数据中选取对信用评估具有重要意义的特征，并剔除不相关或冗余的特征。

通常会采用机器学习算法和统计方法来辅助进行特征选择。

3. 模型构建和训练基于提取的特征，建立合适的信用评估模型。

常用的模型包括决策树、逻辑回归、支持向量机、神经网络等。

利用历史数据进行模型训练和参数优化，以捕捉相关特征与个体信用之间的潜在关系。

4. 评估模型性能完成模型训练后，需要进行模型性能评估。

可以采用精确度、召回率、F1分数等评估指标，计算模型的准确性和可靠性。

此外，还可以通过交叉验证等技术来评估模型的稳定性和泛化能力。

三、基于大数据的信贷风险预测模型1. 数据获取和整理信贷风险预测模型依赖于大量的历史数据，因此需要获取和整理贷款申请、客户信息、还款记录等相关数据。

这些数据通常来自于金融机构内部的数据库，同时也可以结合外部数据源获取更多的信息。

贷款预测模型及风险评估技术

贷款预测模型及风险评估技术随着金融科技的不断发展，贷款预测模型及风险评估技术已成为了现代金融业务中的不可或缺的一部分。

这些技术可以帮助银行和其他金融机构更好地评估贷款申请人的信用状况，从而减少风险，并更好地管理其贷款组合。

贷款预测模型的基本概念贷款预测模型是基于多种变量来预测贷款违约风险的一种数学模型。

这些变量可能包括贷款申请人的信用评级、历史贷款记录、社会经济状况、工作经历等等。

该模型可以给银行提供一个综合的评估结果，并帮助银行根据不同风险程度决定是否批准申请、授予多少额度以及采取什么样的贷款条件等。

一般来说，贷款预测模型可以分为两类：基于统计的模型和基于机器学习的模型。

基于统计的模型使用传统的回归、分类和聚类等统计学方法，依靠统计学假设来解释数据之间的关系，从而预测贷款违约风险。

而基于机器学习的模型，比如说支持向量机和神经网络，采用更加复杂的算法来预测贷款违约风险。

机器学习模型通过自我学习来识别有用的特征，并对它们进行分类或预测。

贷款风险评估的基本原则贷款风险评估是银行或其他金融机构判断贷款申请人还款能力和可靠性的一种过程。

这个过程的主要原则包括：1.信用评级。

银行通常会给每个贷款申请人一个信用评级，来识别不同的风险程度。

这个评级通常会基于申请人的信用历史、收入、债务水平等因素。

一般来说，评分越高，那么该申请人违约的可能性就越小。

2.债务收入比。

债务收入比是指借款人的债务总额与收入总额的比例。

一般来说，银行会要求借款人的债务收入比在一个相对较低的范围内，从而确保申请人有足够的收入来还款。

3.借款人财务状况。

银行也会对借款人的财务状况进行评估，包括财务报表、信用历史、其他负债等。

这些变量的分析可以揭示借款人的财务稳定性和信用可信度。

贷款预测模型的应用贷款预测模型可以应用在以下几个方面：1.风险评估。

银行可以使用贷款预测模型来评估每个贷款申请人的信用风险，并以此进行审核。

这有助于银行更好地控制风险，减少贷款违约率。

金融行业的贷款风险评估模型

金融行业的贷款风险评估模型金融行业的贷款风险评估模型是银行和其他金融机构用于确定贷款申请人的信用风险和违约可能性的工具。

这些模型基于历史数据和统计分析，以帮助金融机构合理地评估贷款风险，从而降低经济损失，并更好地管理贷款组合。

本文将介绍金融行业常用的贷款风险评估模型及其应用。

一、经典的贷款评估模型1. 信用评分模型信用评分模型是最常见的贷款风险评估模型之一。

它基于申请人的个人信用历史、收入状况、负债情况等因素，通过建立一个评分系统来预测违约概率。

该模型通过量化个人信用状况并进行加权，得出一个信用评分。

评分越高，代表贷款违约可能性越低，银行则更愿意批准该笔贷款。

2. 基于统计的模型基于统计的模型使用历史数据和统计方法来确定违约概率。

这些模型可以是二元逻辑回归模型、决策树模型、随机森林模型等。

统计模型通过分析大规模的历史数据集，寻找与违约相关的因素，并建立预测模型。

金融机构通过将申请人的信息输入到模型中，来获得该申请人违约的概率。

二、先进的贷款评估模型1. 人工智能模型随着人工智能技术的发展，金融行业越来越多地应用人工智能技术来评估贷款风险。

人工智能模型可以处理非线性和复杂的数据关系，并能够自动学习和优化模型。

通过深度学习、神经网络等技术，人工智能模型能够更准确地预测违约可能性，提高贷款评估的准确性和效率。

2. 大数据模型大数据模型利用大规模的数据集和数据挖掘算法来评估贷款风险。

金融机构可以利用大数据技术从海量数据中提取有价值的信息，进而识别潜在的风险因素。

通过分析大数据集，金融机构可以建立预测模型，更好地判断贷款违约可能性。

三、模型应用和挑战贷款风险评估模型在金融行业有着广泛的应用。

它可以帮助金融机构准确地评估申请人的信用风险，避免不良贷款的风险，同时也能降低信贷风险和损失。

然而，贷款风险评估模型也面临一些挑战。

首先，模型的准确性依赖于历史数据的质量和可靠性。

如果历史数据不准确或不完整，模型的预测效果将会受到影响。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

word格式文档数据挖掘课程论文—基于融360数据的模型构建及用户贷款审批结果预测XXXX摘要本文的主要工作是运用数据挖掘的相关技术对申请贷款的客户的大量数据进行数据挖掘，发现隐藏在大量数据中的隐含模式，最终得到风险评估模型。

本文的内容主要分为数据获取与探查、数据预处理、模型建立和结果分析与应用四个部分。

在模型建立的过程中使用了SAS企业数据挖掘模块，基于决策树、回归和神经网络的方法, 充分利用已有数据建立模型, 对申请贷款客户进行科学归类, 从而帮助金融机构提高对贷款信用风险的控制能力。

关键词：SAS 分类技术数据挖掘预测贷款风险评估目录：1.绪论 (2)1.1项目背景 (2)1.2文献综述 (2)2.数据获取与探查 (4)2.1数据获取 (4)2.2数据简介 (4)2.3字段说明 (4)2.4数据探查 (6)3.数据处理与建模 (6)3.1数据预处理 (6)3.2数据建模过程——决策树 (11)3.3数据建模过程——神经网络 (13)3.4数据建模过程——回归 (14)3.5最佳模型选择 (15)4.结果分析与应用 (16)5.项目评估与收获 (19)5.1项目改进 (19)5.2收获 (20)参考文献 (20)1.绪论1.1项目背景金融是现代经济的核心,各类金融机构则是现代金融的支柱。

各类金融机构在社会经济发展过程中, 发挥着筹集融通资金、引导资产流向、提高资金运用效率和调节社会总需求的作用。

中国加入WTO后, 中外金融机构的竞争日益激烈, 中国商业银行必须加快改革步伐, 尽快打造自己的核心竞争力。

但是中国金融机构的信贷资产质量较差, 不良贷款的规模大、比例高, 严重阻碍中国金融业的发展。

有效控制不良贷款信用风险已经成为中国金融机构面对的主要课题。

1.2文献综述目前国际银行业对不良贷款信用风险评估的方法主要采用的是古典分析法和多元统计法[ 1-2] 。

古典分析法是指银行经营者依赖一批训练有素的专家的主观判断对贷款人进行信用分析。

多元统计分析的基本思想是根据历史累积样本建立数学模型, 并对新样本发生某种事件的可能性进行预测的方法,具体包括线性概率模型、LOGIT法、PROBIT法以及判别分析法(MDA)[ 1] 。

巴塞尔委员会于2001 年1月公布了《新巴塞尔资本协议》草案, 新协议给出了两种计量信用风险的方法, 即标准法和内部评级法(IRB), IRB法对标准法中的风险加权系数进行了修正。

新协议允许银行使用内部评级方法, 使新协议的监管规则有一定的灵活性。

但目前, 金融界使用最多的两个信用风险评估模型是信用度量制(Credit Metrics)模型和KMV模型。

Credit Metrics是J.P. Morgan于1997年开发的一种基于VAR方法的信贷风险管理模型 [3] 。

所谓VAR就是衡量一项资产或者负债在一定时间内、在一定的置信水平下其价值的最大损益额。

Credit Metrics 是一种盯市(MTM)模型, 认为如果信用资产的信用等级发生了变化, 就产生了信用损失的可能性, 这种损失是多状态的, 不只是违约和不违约两种状态。

KMV模型是KMV公司利用期权定价原理, 提出了以预期违约频率为核心的信用风险管理模型。

KMV模型将资产的状态分为违约和不违约两种, 信用损失只发生在违约的时候。

而且KMV模型有一个核心的假设, 就是当公司的资产价值下降到一定程度之后, 公司就会对其债务违约。

由于受样本数量限制, 国内已有学者对信用风险评估方法进行研究, 着重研究某一具体方法在信用风险评估中的应用。

王春峰等[ 4-7] 运用线性判别法、LOGIT法、遗传规划模型、神经网络模型, 以及距离判别法与神经网络方法相结合的组合预测法对信用风险评估方法作了研究。

施锡铨等[ 8] 运用线性多元判别方法对上市企业的信用风险评估进行了研究, 得出评价上市企业信用风险水平的线性判别模型。

以上所述方法虽然被广泛应用, 但是它们只是针对某一方面如财务, 进行分析建模, 不能够充分利用有关客户和信贷产品的大量且全面的信息。

在信贷风险评估中, 对信用风险的评价, 不仅要考虑贷款者的财务能力, 还要考虑贷款者所需求产品的信息等各方面因素, 仅靠单一指标的评价体系不足以对信用风险予以充分揭示。

因此, 研究如何从贷款样本数据中挖掘更丰富的信用信息, 建立更完备的信用风险评估模型将成为一种必然。

本文使用了SAS企业数据挖掘模块，基于决策树、回归和神经网络的方法, 充分利用已有数据建立模型, 对申请贷款客户进行科学归类, 从而帮助金融机构提高对贷款信用风险的控制能力。

2.数据获取与探查2.1数据获取本文的实验数据获取于数据堂，来源于融360。

融360是中国最大的网络贷款平台，平台的一端是数亿的有借款需求的小微企业和个人消费者，另一端是数万的有贷款资金的金融机构（银行、小贷、担保、典当等）和数百万的金融产品，平台通过搜索和推荐服务来撮合借款用户和贷款。

通常，用户进入平台后，会通过搜索和推荐服务找到合适的贷款产品，填写自己的个人基本资料，最终提交贷款订单。

金融机构通过平台收到订单后，对用户资质进行风控审核，最终决定是否通过用户的订单。

2.2数据简介数据包含了user, product, quality和order四张表，下面结合业务流程解释一下四个数据的产生过程。

第一步：用户访问融360网站搜索合适的贷款产品，这就产生了user数据，它包含了用户在网站的点击、搜索和下单记录，这里面的date字段记录了是哪一天；第二步：用户在提供的贷款产品中搜索符合自己需求的，在些产品保存在product数据中，包含了产品的申请金额、期限、申请所需的材料等信息；第三步：找到合适产品的用户会在线填写申请，这部分数据保存在quality 数据中，包含了用户的年龄、性别、职业、收入等信息；第四步：把用户订单提交给相应的金融机构，金融机构在进行风控审核后会决定是否通过用户的订单，这部分数据保存在order数据中，其中包含用户与其申请的产品编号、订单的申请金额和期限等基本信息以及订单是否审核通过。

具体每表的说明如下：order_train.txt：用于训练的订单数据product_final.txt：产品相关数据，包含训练集和测试集出现的所有产品quality_final.txt：用户申请信息相关数据，包含训练集和测试集出现的所有用户user_final.txt：用户访问信息相关数据，包含训练集和测试集出现的所有用户order_test_no_label：用于测试的订单数据，与训练数据相比缺少最终结果标签。

2.3字段说明user表变量说明user_id 用户idpv 总pvpv_inde x_loan：贷款首页PVpv_apply_total 申请次数pv_ask 问答页Pvpv_calculator 计算器页PVorder_count_loan 贷款下单量pv_daikuan 贷款总PVpv_credit 信用卡总PV pv_search_daikuan 搜索页pv_detail_daikuan 贷款详情页PVdate 不同日期product表变量说明product_id 产品idcity_id 城市idbank_id 产品所属机构id product_type 产品类型guarantee_type 产品担保类型loan_term_min 最短期限loan_term_max 最长期限loan_term_type 期限类型decision_cycle 审批时间loan_cycle 放款时间repayment_type 还款方式loan_quota_min 最小额度loan_quota_max 最大额interest_rate_type 利率类型guarantee_required 是否必须有担保quality表变量说明user_id 用户idcity_id 城市idapplication_type 申请类型application_term 申请期限application_limit 申请金额op_type 职业类型col_type 房产类型user_loan_experience 两年内征信情况user_has_car 是否有车user_social_security 缴纳社保年份qid77 是否有公积金cash_receipts 现金收入user_income_by_card 打卡收入user_work_period 工作年限user_age 用户年龄company_type 公司类型col_value 房产价值com_op_period 经营年限com_month_flow 月流水qid123 文化程度qid122 婚姻状况qid135 公司规模qid139 居住类型qid93 是否办过营业执照qid57 能提供流水数order表变量说明user_id 用户idproduct_id 产品iddate 不同日期term 申请期限limit 申请金额Result 0表示未被批准，1表示被批准2.4数据探查我们利用SAS EM观察到以下有关各个变量的基本统计指标的异常情况：偏度偏大（>5）的有：loan_term_max,loan_quota_min,loan_quota_max,limit,application_ter m,application_limit.缺失值过多（>50%）的有：user_age,qid93,qid78,qid135,qid133,qid123,qid122,col_has_morgage 取值过于单一且集中的有：term,pv,,loan_term_max,loan_quota_min,loan_quota_max,limit,fangku an_num,decesion_cycle,apply_num3.数据处理与建模3.1数据预处理3.1.1导入EM之前的处理在将数据导入EM之前，先将四张表的数据整合到了一起，这里使用的是链接的方法，具体语句如下：在这里使用了DISTINCT，是为了将重复数据去除。

为了观察数据，先将数据导入EM中进行分析，使用INSIGHT节点，发现TOTAL 一共含有79万多条记录，100多个字段。

通过INPUT发现，许多字段的缺失值比例已经达到60%以上，有的甚至超过了95%，达到了100%。

这样的字段是毫无意义的，所以我们在后续的处理中可以直接REJECTED。

另外，通过之前的观察发现，有些字段之间是有关联的，比如说EARLY_REPAYMENT字段和PENALTY字段，前者代表是否可以提前还款，后者代表提前还款是否需要交纳违约金，对于后者，如果前者为0或者缺失，那么后者也就自然为缺失值，造成缺失值比例升高，同时，我们也注意到，如果采用后面的REPLACEMENT节点，使用的方法也是会产生歧义，因为EARLY_REPAYMENT字段为0的时候，PENALTY字段本身就是缺失的，而使用REPLACEMENT节点反而会导致错误的结果。