基于大数据的信用评分模型

基于大数据的信用评分模型
基于大数据的信用评分模型

基于大数据的信用风险评分模型辨析

作者:中国XX银行风险管理部 ZLP

信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异,总结分析大数据信用风险评分模型的优缺点,并提出了若干建议。

信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。早在20世纪40年代,美国有些银行就开始尝试性研究信用评分方法,用于快速处理大量信贷申请。

1956年,工程师BillFair和数学家EarlIsaac共同发明了著名的FICO评分方法。该方法基本以Logistic回归方法为技术核心,是当前业界应用最成熟的信用风险评分模型。在20世纪60~80年代,随着信息技术的进步和业务的快速发展,信用评分模型在信用卡、消费信贷、住房抵押贷款和小企业贷款中得到了广泛应用。

近几年来,随着大数据和互联网金融的兴起,某些新颖的机器学习算法走出了学术领域,开始在部分互联网金融机构的信用风险评分模型中得到应用。以Zestfinance公司为例,该公司将机器学习算法应用于信用风险评分模型中,这是大数据信用风险评分模型领域的早期探索之一,也是业界讨论热点。然而,在讨论基于大数据的信用评分模型过程中,经常见到的是出于公关需要的炒作、宣传文章,对技术方法本身的讨论较少,不利于应用方正确辨析和恰当应用大数据信用风险评分模型。

本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异,总结分析大数据信用风险评分模型的优缺点,并提出了若干建议。

一、基于大数据的信用风险评分模型和传统信用风险评分模型的差异分析

互联网金融机构基于大数据的信用风险评分模型和传统金融机构采用的信用风险评分模型在数据来源、变量生成、模型方法、应用方式、应用目标上均存在一定差异,主要体现在以下几方面。

1.数据来源及数据特征的差异

传统信用风险评分模型的数据来源主要是三大类:客户向金融机构提交的个人申请信息、金融机构内部积累的客户历史数据、人民银行征信中心等外部机构提供的数据。

数据的主要特点是数据质量和信息价值密度高、维度相对单一、可验证性较差、数据采集渠道规范性较好。传统金融机构基于传统的高价值密度的数据,研发出各类信用风险评分模型,实现对客户信用风险的评价,已经成为成熟的、规范化的运行方式。

大数据时代的客户信息来源更加多元化,主要包括各互联网金融机构掌控的生态体系内积累的客户信息,以及通过外部各种渠道采集的客户信息。其数据特征包括:

一是数据较为稀疏。数据采集渠道的多元化和非标准化,导致客户信息缺失率较高,同一客户不同维度的信息经常不完整,最终体现为数据的稀疏性。

二是价值密度相对较低。单项数据的信用评估价值密度较低,缺少传统金融机构拥有的含金量较高的征信类数据、历史违约数据。

三是数据覆盖维度广。部分机构通过各种渠道积累了涉及用户行为各方面的数据,如不少机构采集了覆盖衣、食、住、行、娱乐、购物、通信等各种来源的信息。

四是单变量风险区分能力弱。分析发现,尽管市场上常见的大数据机构采集了各种维度的客户行为信息,对客户总体形象的刻画更详细,但这类数据并未专注于客户信用风险,往往缺少内部征信数据、外部征信数据、个人资产评估等有强区分能力的变量。大数据机构采集的客户衣食住行、社交类等信息,

在信用风险评估领域大多属于弱区分能力变量,需要汇集、整合大量信息以后才能实现区分效果的实质性提升。

五是数据来源规范性不足,不少大数据采集机构通过灰色渠道采集个人隐私数据,数据可持续性不佳。

2.模型变量生成和挑选方式的差异

不同的数据特征直接影响到模型变量的生成、挑选方式。传统信用风险评分模型候选变量数量较少,单一模型候选变量常在数百至数千个数量级。进入模型的变量往往在数十个数量级。模型变量数量较少,客观上使得数据可以经过多番清洗,清洗后的数据质量相对较好;同样由于变量较少,传统金融机构往往在变量挑选过程中开展多轮定量和定性分析。在筛选模型变量的过程中,除了参考变量的区分能力等定量维度,往往还需要参考机构内部业务专家的意见。

大数据时代,由于原始数据体量较大,通过变量本身衍生、变量之间衍生后产生更多候选变量。在单个模型内,相近的候选变量可多达数百乃至上万个。由于缺乏专家团队支持,通常采用挑选规则等方式自动化挑选候选变量,人工干预和专家审核较少。同时,由于模型变量数量庞大和数据质量较差,容易出现模型变量未经严格数据清洗程序就进入模型的情况,对模型表现造成影响。

3.建模技术方法的差异

不同的数据特征直接影响到建模技术方法的选择。传统的信用风险评分模型以Logistic回归方法为核心。Logistic方法处理二分类因变量的数据有独特的优势,同时模型关于数据分布的假定较弱,在数据为非正态分布时,也有较好的表现。因此,该方法是当前国内外金融机构、征信机构最广泛应用的方法。

大数据信用风险评分模型更多采用了神经网络(Neural Network)、支持向量机 (Support Vector Machine)、随机森林(Random Forest)等算法。这些机器学习方法在解决特定问题时具有优势,如有些方法适用于处理稀疏的数据;有些能更好地解决模型过度拟合问题;有些能处理大量的输入变量,预测准确度较高,能有效提升模型表现。和传统的Logistic方法相比,每类机器学习方法都有自己的特色,但并未完全超越传统方法。

4.模型技术架构的差异

传统信用风险评分模型大多采用单层模型技术架构,即自变量因子通过WOE转换以后计算产生评分和违约概率。在这种技术架构下,传统模型运行维护相对较为简单,但模型少数关键变量直接影响模型的表现。一旦少数变量导致模型表现下降,需要通过研发新模型及时替换原有的模型。

大数据信用风险评分模型的模型结构具有两大特点:一是采用母子模型结构。即先通过子模型将稀疏的大数据信息加工成密集信息,再将子模型的输出信息作为母模型的输入变量,将信息逐层加工,形成模型嵌套模型的技术架构。子模型一般采用神经网络、随机森林、支持向量机等机器学习算法,母模型采用传统的、成熟的Logistic回归等技术方法,实现模型应用框架不发生太大变化的情况下,具有更好的区分效果。

二是采用动态挑战者模型挑选和淘汰机制。在母子模型架构下,假设进入运行的子模型有100个,备选模型有200个,一旦在运行的子模型中有效果下降至某个最低阈值的模型,则会被剔除,而从备选的200个模型中挑选效果较好的替补模型进入到子模型序列中。这种动态调整机制在实现总体模型运行效果相对稳定的同时,也给模型的运行维护带来了较高的复杂度。

5.模型上线运行方式的差异

模型技术架构的差异直接导致模型上线运行方式的差异。传统的信用风险评分模型通常将单一模型嵌入到在业务流程系统中,直接用于信贷决策。部分

成熟的欧美银行可以同步运行2~3个挑战者模型,当单一模型表现下降的时候,实现及时切换。

大数据信用风险评分模型中,数百个模型同步上线并行计算成为可能。这对部署在信贷业务流程系统中的决策引擎和数据环境提出了更高的要求。如决策引擎需要采用分布式架构,以实现海量变量的同步计算,要求提前在数据环境中部署海量的原始变量和建模变量,以保障模型在切换时随时有新变量可供替换。

6.模型应用方式的差异

传统的信用风险评分模型本质上是对信贷专家决策过程的模拟,银行等传统金融机构在应用信用评分模型时通常采用人机结合的方式,对信息比较充分的客户,根据评分和规则实现自动化审批;对信息不充分的客户,由专家进行人工审批决策。

互联网金融机构倾向于应用大数据信用风险评分模型,除了极少数情况(如信贷额度较大)外,均采用全自动化决策方式,一般不进行人工干涉。

上述差异产生的原因主要包括:一是在传统金融机构内部,信用评分模型是整个信贷决策流程的一部分,完全采用模型决策代替人工决策,需要信贷决策的利益相关方逐步接受和适应;

二是传统机构对部分客户掌握信息不够丰富,对部分灰色区域的客户风险判断依据不足,需要结合审批人的专家判断作为补充;

三是传统金融机构授信额度相对更大,在客户信息掌握不充分的情况下,潜在损失更大,而互联网金融机构授信额度普遍较低,完全通过模型进行信贷决策产生的潜在损失较小。

7.模型应用目标的差异

传统的信用风险评分模型目标和大数据信用风险评分模型目标存在差异。简单地说,可以把传统模型盯住的目标变量认定为狭义的信用,大数据模型盯住的目标变量认定为广义的信用。

传统信用风险评分模型的目标变量是客户信贷违约可能性,核心是预测客户在某个信贷产品上的违约概率。大数据信用风险评分模型的目标变量更多反映的是广义上客户信用品质,并未专注于客户信贷违约预测。因此,大数据信用评分模型也应用于客户信贷评价以外的领域。

8.模型开发和运行效率的差异

传统的信用风险评分模型由于结构相对简单,数据来源相对固定,模型开发和运行所需的计算环境和性能要求相对单一。大数据信用风险评分模型,无论在模型训练还是应用环节,均需要海量计算,对存储和计算性能要求较高。

二、基于大数据的信用风险评分模型的优缺点辨析

在讨论模型优缺点之前,有必要设定优秀模型的判定标准,基于明确定义的判别标准才能准确界定模型的优缺点。

1.信用风险评分模型好坏的判别标准

笔者认为,信用风险评分模型判别标准应当包括若干维度:模型区分能力、稳定性、可解释性、统计显著性、复杂度等。一个良好的信用风险评分模型,应当具备如下特点。

一是区分能力优秀。优秀的信用风险评价模型应当具备准确区分客户的风险等级,并按照其风险等级进行准确排序的能力。这是判断信用风险评价模型优劣的主要标准。

二是运行稳定。包括区分能力的稳定性和可持续运作的稳定性。区分能力的稳定性指模型不仅在开发阶段、开发样本中具备区分客户的能力,在投入运

行后具备同样的能力。模型可持续运作能力很大程度取决于数据的可获得性,一旦数据无法持续获得,模型可持续运行能力将受到影响。

三是具备可解释性。模型的可解释性指向监管机构、金融机构内部利益相关方进行合理解释。这要求模型拟合结果符合基本经济学逻辑和业务逻辑,以便向监管机构、内部利益相关方清晰解释模型的运作机理和风险驱动因素。

四是统计显著。如果是统计类模型,则在单变量及模型总体层面均需要通过统计检验,以确保基于实际数据建立的关系在统计上是成立的。

五是复杂度尽可能低。一般来说,在同等效果或效果接近的情况下,优先采用简单模型。

2.基于大数据的信用风险评分模型的优缺点分析

按照上述标准判断,基于大数据的信用风险评分模型是一种优缺点都比较显著的模型,既有独特的优势,也存在较为明显的缺点。

主要优点包括:一是模型区分能力较佳。研究发现,以海量大数据为基础、机器学习算法为支持,模型区分能力得到有效提升。

二是模型运行的自动化程度较高。以大数据作为支持,通过采用一整套信用风险评分模型和业务规则,可以建立全自动贷款审批系统,并进一步建立全自动的全流程风控系统,以极少的人工干预和较低的运营成本,建立起适合零售小额贷款的信贷管理流程。

主要缺点包括:一是可解释性不佳,模型“黑箱”特征明显。传统金融机构开发的内部信用风险评分模型结构相对简单,模型的整体结构、主要解释变量和影响得分的驱动因素可以清晰解释,容易获得监管机构和金融机构利益相关方的认可。

此外,传统金融机构采用的内部信用风险评分模型,除了用于信贷审批、额度调整、风险监控等内部管理领域以外,往往还会和监管资本计量模型挂

钩,用于监管资本计量。而凡是用于监管资本计量的模型,都要面临内部验证和外部监管约束。

因此,一旦传统金融机构将基于大数据的信用风险评分模型应用于上述领域,还要面临严格的监管审查和内部验证。如果复杂度较高的模型内部计算逻辑不能向监管机构和验证团队透彻解释,则有可能面临监管资本加点的惩罚。

二是模型关系的稳定性有待检验。在大数据领域,比较常见的一种观点是只需要考虑数据之间的相关性,不需要考虑因果性和经济学含义,该观点是大数据信用风险评分模型赖以建立的基础。

然而,这种观点在社会科学领域是否成立依然存疑。事实上,在社会科学领域,人们的行为模式是动态的,规律是不稳定的,经济周期和客户群行为模式的改变直接导致模型展示的规律发生变化。大量采用客户网络浏览、网络购物等非违约有关的大数据建立的信用风险评分模型,有可能只显示了较短期限内数据之间的相关性,在评估客户违约可能性上效力不足。

理论上说,只要有足够的数据作为解释变量,总能找到因变量和解释变量之间的某种关联性。因此,如不关注大数据背后的因果逻辑链,仅仅考虑数据之间关联性建立的模型关系是不审慎、不可靠的。此外,目前我国法律并没有明确界定哪些个人数据是可采集、可访问、可使用的,一旦这方面法律法规逐步完善,数据可用性下降也将影响到模型运行的稳定性。

三是复杂度较高造成模型管理任务加重。首先,在业务中使用相对复杂的模型,需要在模型管理上配置更多资源,以确保模型可持续运行、减少模型风险。

大数据信用风险评分模型将海量变量纳入模型,对变量的数据可得性、数据质量控制提出了很高要求。一旦这些模型关键数据不能持续可得,或数据质量不能得到保障,容易导致模型区分能力下降甚至模型不能持续运行。随着国家个人隐私和数据管理的法律法规逐步规范,部分从灰色渠道采集的数据难以持续获取,也会影响模型的持续开发和应用。

其次,应用更复杂的模型,还需要对海量的模型中间变量和整体模型区分能力监控和验证,以确保区分能力和模型稳定性保持在一定水平上。

再次,在建模中采用支持向量机、随机森林等机器学习算法,对模型开发、监控、验证、IT开发和业务应用人员提出了更高要求,最直接的影响是导致模型开发过程和IT处理过程难度加大。在模型应用环节,计算复杂度增加,对模型运行所需的内存、CPU的要求、IT运行模式提出了挑战。

三、有关启示和建议

大数据和机器学习算法在信用评分领域的应用,为传统机构开发和应用信用风险评价模型带来新视角。金融机构在应用上述模型的过程中,应当理性看待大数据对金融机构的冲击,主动对现有模型开发和应用方式作出调整。同时,还可以结合自身需要、数据储备及模型特性,扬长避短,在业务中选择采用不同种类模型。

1.理性看待大数据信用风险评分模型,准确分析其利弊

研究发现,决定信用风险评分模型的区分能力的主要因素是有效的数据样本,而非模型本身。在以相同的建模样本为数据基础的情况下,机器学习算法模型和传统的 Logistic回归模型在区分能力上的差异有限。只要对大数据进行适当加工处理,采用传统Logistic回归方法依然是可行的,区分能力是稳定的。

从业界视角来看,评价模型方法优劣,技术性能只是一方面,更多的考量因素是方法之间不同成本收益的权衡。即使单纯从技术角度分析,业界在选择使用哪种模型的过程中,也要综合考虑模型区分能力、模型稳定性、可应用性、可解释性等因素,不会仅仅将模型区分能力作为唯一判别标准。

当前,基于大数据的信用风险评分模型处于从学术研究领域走向应用的过程中,尚未和传统业界机构的模型应用流程、模型应用文化相适应。推广应用

此类模型,需要仔细研究、探索建立与模型技术方法匹配的一整套模型应用IT 技术架构、数据基础、模型应用流程和模型应用文化。

2.积极调整模型研发方式,应对大数据时代的冲击

传统机构开发应用信用风险评分模型,可在如下几方面进行调整,以适应大数据时代的需要。

一是优化现有的模型开发和部署方式,改变手工作坊式的模型开发流程。大数据时代,面对海量的数据和快速更新的模型需求,手工方式难以跟上时代的需要,可通过搭建统一的大数据集市,设立标准化的模型开发流程、自动化的数据清洗规则、标准化的变量衍生方式、标准化的程序代码、标准化的模型产出模板,采用自动化决策引擎推送和部署等多种管理手段,实现流水线式模型开发、部署,提升模型开发和上线的效率。

二是适当调整当前的模型架构。传统信用风险评分模型采用单层的模型技术架构,导致难以在单一的模型内容纳足够的信息,客观上影响了区分能力的提升。建议可借鉴大数据信用风险模型技术架构,在不改变传统的Logistic方法框架基础上,嵌套2~3层子模型,将更多有价值信息纳入到模型中,提升模型表现。

三是建立数据积累和交换机制。模型表现的提升来源于有价值的信息。针对首次来到金融机构办理业务的、无信用历史的新客户,传统的信用风险评分模型对其识别能力较弱。对这类客户进行信用风险评价,首先要解决的是客户信息不足的问题。可通过逐步积累、外部采购和交换的方式,有针对性地获取部分数据,以解决有效信息不足的问题。

四是逐步试点,积累大数据模型应用经验。目前,大数据信用风险评分模型的应用尚处于探索阶段,缺乏成熟经验,并尚未搭建起与模型技术方法匹配的一整套模型应用IT技术架构、数据基础、模型应用流程和模型应用文化。建议可以在部分敞口较小的产品中尝试性开展新模型的试点应用,积累经验,不断对模型应用方式进行探索和调整。

应用文-浅析信用评分模型

浅析信用评分模型 '\xa0\xa0\xa0 [摘要] 本文对信用评分领域中主要的模型和方法做了细致的概述和优缺点比较, 这些模型包括判别分析模型、决策树分析回归分析和神经 模型。 \xa0\xa0\xa0 [关键词] 信用评分判别分析模型决策树分析回归分析法神经网络法 一、信用评分概况 信用评分模型作为信用风险 的基础和核心,无论是对于建立 征信体系还是对于金融机构的信贷资产管理,都有着不可替代的作用。其主要目的,在于尽量将能够预测借款人未来行为的指标加以整合,并统一成可以比较的单一指标,以显示借款人在未来特定时间内违约的可能性,所有的信用评分模型,无论采用什么理论或方法,其最终目的都是将贷款 者的信用级别分类。为达到分类目的。当前,对个人信用评分模型的定义有多种,较为权威的种观点认为:“信用评分是预测贷款申请人或现有借款人违约可能性的一种方法。”这一观点指出了信用评分的作用和目的,不过随着信用评分模型的不断 ,信用评分已不仅是一种统计方法,也包含了运筹学,如数学规划法、非线性模糊数学(如神经网络方法)等。此外,信用评分的实际操作 也与决策原则紧密相关,决策原则事实上决定了信用评分模型实现其目的和作用的程度。因此,对个人信用评分模型这一数学工具在金融和银行业中的应用来说,较为全面和恰当的定义应是,“信用评分是运用数学优化理论(包括统计方法、运筹方法等),依照即定原则或策略(损失最小原则或风险溢价原则),在数据分析决策阶段区分不同违约率水平客户的方法。 二、各类信用评分模型概述 1.判别分析模型 判别分析法是对研究对象所属类别进行判别的一种统计分析方法。进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。判别分析就是要从中筛选出能提供较多信息变量并建立判别函数,使推导出的判别函数对观测样本分类时的错判率最小。这种方法的理论基础是样本由两个分布有显著差异的子样本组成,并且它们拥有共同的属性。它起源于1936年Fisher引进的线性判别函数,这个函数的目的是寻找一个变量的组合,把两个拥有一些共同特征的组区分开来。 判别分析方法的优点:适用于二元或多元性目标变量,能够判断,区分个体应该属于多个不同小组中的哪一组。自身也存在不可避免的缺点:该模型假设前提是自变量的分布都是正态分布的,而 中的数据往往不是完全的正态分布,从而导致统计结果的不可靠性。 2.决策树方法 决策树模型是对总体进行连续的分割,以预测一定目标变量的结果的统计技术。决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉或多叉树。构造决策树的方法是采用自上而下的递归构造。在实际中,为进行个人信用分析,选取个人信用作为目标属性,其他属性作为独立变量。所有客户被划分为两类,即好客户的和坏客户,将客户信用状况转换为“是否好客户”(值为1或0),而后利用数据集合来生成一个完整的决策树。在生成的决策树中可以建立一个规则基。一个规则基包含一组规则,每一条规则对应决策树的一条不同路径,这条路径代表它经过节点所表示的条件的一条链接。通过创立一个对原始祥本进行最佳分类判别的决策树,采用递归分割方法使期望误判损失达到最小。

评分卡模型

评分卡模型 0 引言 信用评分模型是消费信贷管理中的先进的技术手段,是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。 信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来总和评估消费者未来的某种信用表现。 信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。 1 基于Logistic回归分析的客户信用评价卡模型 本文将采用 Logistic 逻辑回归分析方法对小额贷款公司的客户信用进行评价。首先,建立信用评价模型,给出客户信用评分卡模型,并对客户样本进行初步分类预测。下面的理论基础和变量选择都以该小额贷款公司为例。 1.1 建模的准备 1.1.1 目标变量的定义 研究的目标变量为客户是否具有“违约”行为,本文是以客户逾期未归还贷款定义为“违约”行为(即“坏”客户)。 1.1.2 定量指标的筛选方法 第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显著的指标。 第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显著的指标。 第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显著的指标。 第四种定量指标的筛选方法:通过自变量的逐步回归法,获取自变量中对违约状态影响最显著的指标。 第五种定量指标的筛选方法:采用“Boruta”法,获取自变量中对违约状态影响最显著的指标。 1.1.3 定性指标的筛选方法 定性指标的筛选是通过IV值选出适用于建模的指标。IV的全称是Information Value,

商业银行个人信贷信用评分模型的构建与应用

商业银行个人信贷信用评分模型的构建与应用 刘莉亚 上海财经大学金融学院 摘要:面对全球经济、金融一体化的现实背景以及随之而来的白热化竞争态势,个人信贷业务将是我国银行业目前及未来发展的关键领域。为此,文章首先从借款人、贷款方案、贷款投向和风险缓释四个要素出发,构建了一套产品水平的信用评分模型的整体分析框架,并将该框架具体应用于个人住房贷款产品;在此基础上,考虑到我国银行业的发展现状与评分模型的可实施性,设计了一个根据专家判断法的评分结果和定量模型法的评分结果进行相互校验的混合型个人住房贷款信用评分模型,并基于所收集的某股份制商业银行的样本贷款数据进行了部分验证工作,同时指出下一步的研究方向。 关键词:住房贷款信用评分模型;专家判断法;定量模型法 一、引言与文献回顾 从历史的视角来看,我国银行业最初是以对公业务为主,其特点是机构客户数量较少、资金规模大、参与的银行业务人员也较少。然而,面对经济全球化和金融国际化的激烈竞争,特别是随着外资银行的不断进人,极大地加剧了银行产品和服务竞争的白热化。因此,对私业务,即个人信贷业务这一发达国家银行的重要基础业务和利润支柱将成为我国商业银行今后发展的重点领域。个人信贷业务,例如房贷、车贷、信用卡消费及其他个人消费贷款,其特点是单笔业务的资金规模小、业务复杂且数量大,因此如继续沿用传统的人工审批方法,则必将占用银行大量的业务人员,增加成本,降低效率,从而影响银行竞争力,同时也不符合全球银行业的发展趋势。 在国外已经发展了50年的信用评分是以计算机技术为核心的,以取代人力为特征的大规模自动化处理方法,是发达国家普遍采用的能够有效控制风险、降低业务人员数量、极大提高审批效率的商业银行革命性措施之一。因此,构建个人信贷信用评分模型对银行开展个人消费信贷业务有重要作用。 最初的信用评分是由评级人员依个人经验进行主观评价,之后发展到3C评价(品德、能力、担保)和5C评价(品行、能力、资金、条件和抵押担保)。这些多数是主观、定性的评价方法。为了降低信用评分中的主观因素,越来越多的定量评估方法被采用。这些方法主要包括:判别分析、Logistic回归模型、线性规划法、神经网络法和分类决策树法。 银行常常采用某种统计方法建立个人信用评分模型,至于具体采用何种方法则取决于不同方法对不同问题的预测精度以及建模人员的知识及偏好。线性判别分析是第一个用于信用评分模型的简单参数回归模型,而Logistic回归方法则是信用评分的一种常用方法,在预测二分性结果上,Logistic是一种准确性最高的技术。此外,其他的一些学者将一些非参数统计模型,如K—近邻判别、分类树应用于信用评分。

银行个人客户信用评分模型研究

银行个人客户信用评分模型研究 近年来,中国的信用卡业务飞速发展,为银行带来了丰厚的利润。但招揽信用卡用户的激烈竞争导致银行不断放宽对于信用卡申请者的要求,疏忽了风险的管理和控制。能否掌握信用卡客户的业务规律,并能设计相应对策以管理控制风险,是信用卡业务成败与否的关键。据此,针对银行信用卡客户,收集并处理他们的信息,利用决策树算法建立个人信用评分模型,并结合社会实际情况对模型做出调整建议。 标签: 数据挖掘;决策树;信用评分 1 个人信用评分 一般信用的考察对象有两个:企业和个人。对于不同对象研究方式不同,但考察目的相同,即分析借款人的还款意愿和能力。本文研究的是个人信用,个人信用指的是基于信任、通过一定的协议或契约提供给自然人(及其家庭)的信用,使得接受信用的个人不用付现就可以获得商品或服务。 个人信用评分,是指通过使用科学严谨的分析方法,综合考察影响个人及其家庭的内在和外在的主客观环境,并对其履行各种经济承诺的能力进行全面的判断和评估。针对不同的应用,个人信用评分分为风险评分、收入评分、响应度评分、客户流失(忠诚度)评分、催收评分、信用卡发卡审核评分、房屋按揭贷款发放审核评分、信用额度核定评分等。个人信用评分是对个人信用的一种定量化描述,用客观的方式来预测信用行为。它具有减少和控制风险、辅助准确决策等作用。 2 数据采集 2.1 指标体系的选择 在实际的环境中,并不是所有的数据项都可为研究所用,因而本文结合专家法和实际可获取数据,选取了衡量客户的信用情况的四大主要因素,即:基本情况、职业情况、家庭情况、与银行的往来业务关系。 2.2 数据的采集 指标体系确定后,我们确立了具体的考察指标,并拟出了一份银行客户信息的调查问卷,在银行进行发放,发放总数100分,回收86份,回收率86%。 3 数据预处理

评分卡模型开发技术报告

评分卡模型开发技术报告 韩江涛 2018年02月12日

Contents 1前言1 2评分卡开发流程2 3数据获取3 3.1采样范围选择 (3) 3.2收集整理数据 (3) 3.3German Credit数据集 (3) 4探索性数据分析7 4.1统计特性和分布 (7) 4.2缺失值处理 (11) 4.3离群点处理 (14) 5数据准备16 5.1创建数据集 (16) 5.2平衡训练集 (16) 5.3数据分箱 (17) 5.4证据权重(WoE)转换 (20) 5.5相关性分析 (23) 5.5.1相关系数分析 (23) 5.5.2多重共线性检测 (24) 6变量选取和模型开发26 6.1模型指标变量选择 (26) 6.2模型训练 (26) 6.3Bias v.s.Variance (29) 7模型评价30 7.1混淆矩阵 (30) 7.2ROC、AUC和Gini值 (31) 7.3KS曲线及KS值 (32) 8评分卡创建和实施35 8.1评分卡创建 (35) 8.2评分验证 (37) 8.3评分卡实施 (39) 8.4拒绝推论 (39) 9监测40 10Appendix41 10.1Change Log (41) 10.1.12018-2-12 (41) 10.1.22017-10-20 (41) 10.1.32017-9-6 (41) 参考文献42

List of Figures 1评分卡开发流程图 (2) 2名义变量分布统计 (8) 3数值变量分布统计 (9) 4类别分布统计 (11) 5查看缺失值 (13) 6使用Cook距离标记离群点 (14) 7类别分布统计 (17) 8连续变量分箱结果 (19) 9WoE转换结果 (21) 10信息值 (22) 11相关性分析 (24) 12LASSO回归的交叉验证曲线 (27) 13LASSO Trace (28) 14学习曲线 (29) 15混淆矩阵及其衍生指标的定义 (30) 16ROC曲线和AUC (32) 17KS曲线和KS-value (34) 18German Credit的实际得分分布与理论分布对比 (39) List of Tables 1评分卡数据介绍 (3) 2评分卡刻度表 (35) 3评分卡表 (36) 4平衡数据集和非平衡数据集的效果对比 (41)

(仅供参考)信用评级模型

评级技术基础规范之六编码:P-J-B-0006 信用评级模型 (2012年11月版)

信用评级模型 (2012年11月版1) 信用评级模型是以企业经营和财务信息、行业信息、宏观经济信息和市场信息为基础,运用统计分析、专家打分等手段,以量化方式测算受评对象信用风险的评级分析工具,是评级方法在数理统计操作层面的具体表现形式,也是信用评级机构评级技术的重要组成部分。中债资信通过学习、吸收国内外评级模型设计理念,并在征求专家顾问团信用风险建模领域专家意见的基础上,确定了目前采用的评级模型类型。中债资信评级模型力求体现中国企业信用风险特点,减少评级过程中的主观判断因素,提高评级结果的客观性、一致性和准确性。中债资信目前可使用的建模数据主要是发债企业数据和来自商业银行的信贷数据(以下简称“信贷数据”),发债企业数据包括经营数据和财务数据,但没有违约率数据;信贷数据包括借款企业的违约数据和大部分财务数据,但没有企业经营数据。基于可获得数据源及其质量,中债资信目前的评级模型为分行业的打分卡模型和二元选择模型。 一、经营与财务指标相结合的打分卡模型 以发行债券企业作为统计样本,以发债企业数据和信贷数据为主要数据源,选择合适的经营指标和财务指标,分行业建立打分卡模型。按照中债资信工商企业主体评级方法总论,对工商企业进行评级时,首先以经营风险和财务风险的综合平衡确定受评企业自身的个体信用等级,然后考虑外部支持等因素对企业自身个体级别进行调整,最终确定受评企业的信用等级。由于在同一行业内,不同经营风险程度的企业所能容忍的财务政策激进程度不同,因而经营风险对信用等级的影响程度存在显著差异。因此,在本评级模型中依据受评企业经营风险程度的高低对经营风险和财务风险赋以可变权重。此外,依据短板原理的评级思想,对弱势因素给予更高的权重以放大其对最终评级结果的影响。由于体现这一影响的调整过程具有明显的主观性,因此将此类调整以及其他难以量化的因素归类于模型外考虑因素。 在具体的模型设计中,相对应的采取分层建模思路:首先以线性加和形式得到经营风险模块得分和财务风险模块得分;然后根据经营风险得分情况确定两模块权重的分配,加权平均得到总分;最后根据其它难以量化的因素进行调整,得到最终对应级别。 具体模型形式如下: 1 2011年10月形成初稿并对外披露,2012年11月修订并正式发布。 - 1 -

商业银行个人信贷信用评分模型的构建与应用

商业银行个人信贷信用评分模型的构建与应 用 摘要:面对全球经济、金融一体化的现实背景以及随之而来的白热化竞争态势,个人信贷业务将是我国银行业目前及未来发展的关键领域。为此,文章首先从借款人、贷款方案、贷款投向和风险缓释四个要素出发,构建了一套产品水平的信用评分模型的整体分析框架,并将该框架具体应用于个人住房贷款产品;在此基础上,考虑到我国银行业的发展现状与评分模型的可实施性,设计了一个根据专家判断法的评分结果和定量模型法的评分结果进行相互校验的混合型个人住房贷款信用评分模型,并基于所收集的某股份制商业银行的样本贷款数据进行了部分验证工作,同时指出下一步的研究方向。 关键词:住房贷款信用评分模型;专家判断法;定量模型法 一、引言与文献回顾 从历史的视角来看,我国银行业最初是以对公业务为主,其特点是机构客户数量较少、资金规模大、参与的银行业务人员也较少。然而,面对经济全球化和金融国际化的激烈竞争,特别是随着外资银行的不断进人,极大地加剧了银行产品和服务竞争的白热化。因此,对私业务,即个人信贷业务这一发达国家银行的重要基础业务和利润支柱将成为我国商业银行今后发展的重点领域。个人信贷业务,例如房贷、车贷、信用卡消费及其他个人消费贷款,其特点是单笔业务的资金规模小、业务复杂且数量大,因此如继续沿用传统的人工审批方法,则必将占用银行大量的业务人员,增加成本,降低效率,从而影响银

行竞争力,同时也不符合全球银行业的发展趋势。 在国外已经发展了50年的信用评分是以计算机技术为核心的,以取代人力为特征的大规模自动化处理方法,是发达国家普遍采用的能够有效控制风险、降低业务人员数量、极大提高审批效率的商业银行革命性措施之一。因此,构建个人信贷信用评分模型对银行开展个人消费信贷业务有重要作用。 最初的信用评分是由评级人员依个人经验进行主观评价,之后发展到3C评价(品德、能力、担保)和5C评价(品行、能力、资金、条件和抵押担保)。这些多数是主观、定性的评价方法。为了降低信用评分中的主观因素,越来越多的定量评估方法被采用。这些方法主要包括:判别分析、Logistic回归模型、线性规划法、神经网络法和分类决策树法。 银行常常采用某种统计方法建立个人信用评分模型,至于具体采用何种方法则取决于不同方法对不同问题的预测精度以及建模人员的知识及偏好。线性判别分析是第一个用于信用评分模型的简单参数回归模型,而Logistic回归方法则是信用评分的一种常用方法,在预测二分性结果上,Logistic是一种准确性最高的技术。此外,其他的一些学者将一些非参数统计模型,如K—近邻判别、分类树应用于信用评分。 近年来在信用评分领域也开始尝试引入神经网络方法,Desai等和West等人都使用神经网络技术来构造个人信用评分模型。通过实证分析,他们验证了在各种变量间呈现复杂的非线性关系的情况下,神

信誉评分卡介绍

信用评分卡 信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客 户按时还款的可能性,据此决定是否给予授信以及授信的额度和利率。 虽然授信者通过人工分析客户的历史信用资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。 一、引进信用评分卡的目的及意义 1、由于零售信贷业务具有笔数多、单笔金额小、数据丰富的特征,决定了 需要对其进行智能化、概率化的管理模式。信用评分模型运用现代的数理统计 模型技术,通过对借款人信用历史记录和业务活动记录的深度数据挖掘、分析 和提炼,发现蕴藏在纷繁复杂数据中、反映消费者风险特征和预期信贷表现的 知识和规律,并通过评分的方式总结出来,作为管理决策的科学依据。 2、目前国内大多数银行信用卡部门采取人工审批作业形式,审批依据是审批政策、客户提供的资料及审批人员的个人经验进行审批判断,存在以下问题: (1)信审人员对申请人所提交申请资料真实性的认定基本依赖于受理申请资料的信贷业务员的职业操守和业务素质,审批人员对申请人资料的核实手段 基本依赖于电话核查,对申请核准与否基本依赖于自己的信审业务经验,授信 审查成本高、效率低而又面临很大的欺诈风险,这种状况很难应对年末所谓的 “行业 旺季”中大规模集中的小额贷款业务需要。 (2)审批决策容易受主观因素影响、审批结果不一致,审批政策调控能力 相对薄弱。 (3)不利于量化风险级别,无法进行风险分级管理,影响风险控制的能力 及灵活度,难以在风险与市场之间寻求合适的平衡点。 (4)审批效率还有较大提升空间。 3、信用评分卡具有客观性,它是根据从大量数据中提炼出来的预测信息和 、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。在管路敷设过程中,要加强看护关于管路高中资料试卷连接管口处理高中资料试卷弯扁度固定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术包含线槽、管架等多项方式,为解决高中语文电气课件中管壁薄、接口不严等问题,合理利用管线敷设技术。线缆敷设原则:在分线盒处,当不同电压回路交叉时,应采用金属隔板进行隔开处理;同一线槽内,强电回路须同时切断习题电源,线缆敷设完毕,要进行检查和检测处理。、电气课件中调试对全部高中资料试卷电气设备,在安装过程中以及安装结束后进行 高中资料试卷调整试验;通电检查所有设备高中资料试卷相互作用与相互关系,根据生产工艺高中资料试卷要求,对电气设备进行空载与带负荷下高中资料试卷调控试验;对设备进行调整使其在正常工况下与过度工作下都可以正常工作;对于继电保护进行整核对定值,审核与校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料试卷试验方案以及系统启动方案;对整套启动过程中高中资料试卷电气设备进行调试工作并且进行过关运行高中资料试卷技术指导。对于调试过程中高中资料试卷技术问题,作为调试人员,需要在事前掌握图纸资料、设备制造厂家出具高中资料试卷试验报告与相关技术资料,并且了解现场设备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况,然后根据规范与规程规定,制定设备调试高中资料试卷方案。 、电气设备调试高中资料试卷技术电力保护装置调试技术,电力保护高中资料试卷配置技术是指机组在进行继电保护高中资料试卷总体配置时,需要在最大限度内来确保机组高中资料试卷安全,并且尽可能地缩小故障高中资料试卷破坏范围,或者对某些异常高中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并且拒绝动作,来避免不必要高中资料试卷突然停机。因此,电力高中资料试卷保护装置调试技术,要求电力保护装置做到准确灵活。对于差动保护装置高中资料试卷调试技术是指发电机一变压器组在发生内部故障时,需要进行外部电源高中资料试卷切除从而采用高中资料试卷主要保护装置。

信用评分模型

信用评分模型的关键在于特征变量的选择和各自权重的确定。目前,应用最广泛的信用评分模型有:

②其次,根据历史数据进行回归分析,得出各相关因素的权重以体现其对这一类借款人违约的影响程度; ③最后,将属于此类别的潜在借款人的相关因素数值代入函数关系式计算出一个数值,根据该数值的大小征量潜在借款人的信用风险水平,给予借款人相应评级并决定货款与否。 现代金融工程模型的概述 20世纪80年代以来,受债务危机的影响,各国银行普遍重视对信用风险的管理和防范,新一代金融工程专家利用工程化的思维和数学建模技术,在传统信用风险度量的基础上提出了一系列成功的信用风险量化模型。 (1)神经网络分析法。神经网络是从神经心理学和认识科学研究成果出发,应用数学方法发展起来的一种并行分布模式处理系统,具有高度并行计算能力、自学能力和容错能力。神经网络方法克服了传统

分析过程的复杂性及选择适当模型函数形式的困难,它是一种自然的非线性建模过程,无须分清存在何种非线性关系,给建模与分析带来极大的方便。该方法用于企业财务状况研究时,一方面利用其映射能力,另一方面主要利用其泛化能力,即在经过一定数量的带噪声的样本的训练之后,网络可以抽取样本所隐含的特征关系,并对新情况下的数据进行内插和外推以推断其属性。 (2)衍生工具信用风险的度量方法。20世纪80年代以来,作为一种有效的避险工具,衍生工具因其在金融、投资、套期保值和利率行为中的巨大作用而获得了飞速发展。然而,这些旨在规避市场风险应运而生的衍生工具又蕴藏着新的信用风险。研究者相继提出许多方法来度量衍生工具的信用风险,最具代表性的有下列三种:一是风险敞口等值法,这种方法是以估测信用风险敞口价值为目标,考虑了衍生工具的内在价值和时间价值,并以特殊方法处理的风险系数建立了一系列REE计算模型。二是模拟法,这种计算机集约型的统计方法采用蒙特卡罗模拟过程,模拟影响衍生工具价值的关键随机变量的可能路径和交易过程中各时间点或到期时的衍生工具价值,最终经过反复计算得出一个均值。三是敏感度分析法,就是利用这些比较值通过方案分析或应用风险系数来估测衍生工具价值。 (3)集中风险的评估系统。前述方法绝大多数是度量单项贷款或投资项目的信用风险,而很少注重信用集中风险的评估。信用集中风险是所有单一项目信用风险的总和。金融机构和投资者采用贷款组合、投资组合来达到分散和化解风险的目的。1997年,J.P.摩根推出的“信用计量法”和瑞士信贷金融产品的“信用风险法”,均可以用来评估信用风险敞口亏损分布以及计算用以弥补风险所需的资本。“信用计量法”是以风险值为核心的动态量化风险管理系统,它集计算机技术、计量经济学、统计学和管理工程系统知识于一体,从证券组合、贷款组合的角度,全方位衡量信用风险。该方法应用的范围比较广,诸如证券、贷款、信用证、贷款承诺、衍生工具、应收账款等领域的信用风险都可用此方法进行估测。“信用风险法”是在信用评级框架下,计算每一级别或分数下的平均违约率及违约波动,并将这些因素与风险敞口综合考虑,从而算出亏损分布与所需资本预测数。 [编辑] 现代金融工程模型的几种信用风险度量模型的优缺点主要是: (1)神经网络分析方法应用于信用风险评估的优点在于其无严格的假设限制,且具有处理非线性问题的能力。它能有效解决非正态分布、非线性的信用评估问题,其结果介于0与1之间,在信用风险的衡量下,即为违约概率。神经网络法的最大缺点是其工作的随机性较强。因为要得到一个较好的神经网络结构,需要人为地去调试,非常耗费人力与时间,因此,使该模型的应用受到了限制。爱德华·阿尔特曼博士(Edward I.Altman)(1995)在对神经网络法和判别分析法的比较研究中得出结论认为,神经网络分析方法在信用风险识别和预测中的应用,并没有实质性的优于线性判别模型。 (2)衍生工具信用风险模型的优点是具有较强的严谨性,该模型力图以数量化的、严谨的逻辑识别信用风险。从缺点和不足来看,衍生工具信用风险模型的严密的前提假设(当一个变量发生改变,则原有的结论需要全部推翻重新进行论证)限制了它的使用范围。而且从大量的实证研究结果来看,衍生工具信用风险模型没有得到足够的支持。例如达菲·辛格顿(Duffie Singleton)(1999)发现简约模型无法解释观测到的不同信用等级横截面之间的信用差期限结构。衍生工具信用风险模型虽然是最新的科学化方法,但其要发挥作用,还必须与金融风险管理的理念和主观判断结合起来。 (3)集中风险评估系统的目的是综合反映评价对象的风险,更接近于风险分析的本源目的,但过多的变量因素又使其陷入浩繁的考察与计量之中,过于繁密的信息造成“噪音”过大,这又使结论容易发生偏离。

信用评分卡介绍

信用评分卡 信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和利率。 虽然授信者通过人工分析客户的历史信用资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。 一、引进信用评分卡的目的及意义 1、由于零售信贷业务具有笔数多、单笔金额小、数据丰富的特征,决定了需要对其进行智能化、概率化的管理模式。信用评分模型运用现代的数理统计模型技术,通过对借款人信用历史记录和业务活动记录的深度数据挖掘、分析和提炼,发现蕴藏在纷繁复杂数据中、反映消费者风险特征和预期信贷表现的知识和规律,并通过评分的方式总结出来,作为管理决策的科学依据。 2、目前国内大多数银行信用卡部门采取人工审批作业形式,审批依据是审批政策、客户提供的资料及审批人员的个人经验进行审批判断,存在以下问题:(1)信审人员对申请人所提交申请资料真实性的认定基本依赖于受理申请资料的信贷业务员的职业操守和业务素质,审批人员对申请人资料的核实手段基本依赖于电话核查,对申请核准与否基本依赖于自己的信审业务经验,授信审查成本高、效率低而又面临很大的欺诈风险,这种状况很难应对年末所谓的“行业 旺季”中大规模集中的小额贷款业务需要。 (2)审批决策容易受主观因素影响、审批结果不一致,审批政策调控能力相对薄弱。 (3)不利于量化风险级别,无法进行风险分级管理,影响风险控制的能力及灵活度,难以在风险与市场之间寻求合适的平衡点。 (4)审批效率还有较大提升空间。 3、信用评分卡具有客观性,它是根据从大量数据中提炼出来的预测信息和行为模式制定的,反映了借款人信用表现的普遍性规律,在实施过程中不会因审减少了审批员过去单凭个人好恶和情绪等改变,个人偏见、批人员的主观感受、.人工经验进行审批的随意性和不合理性。 4、信用评分卡具有一致性,在实施过程中前后一致,无论是哪个审批员,只要用同一个评分卡,其评估和决策的标准都是一样的。 5、信用评分卡具有准确性,它是依据大数原理、运用统计技术科学地发展出来的,预测了客户各方面表现的概率,使银行能比较准确地衡量风险、收益等各方面的交换关系,找出适合自己的风险和收益的最佳平衡点。 6、运用信用评分卡可以极大地提高审批效率。由于信用评分卡是在申请处理系统中自动实施,只要输入相关信息,就可以在几秒中内自动评估新客户的信用风险程度,给出推荐意见,帮助审批部门更好地管理申请表的批核工作,对于业务批量巨大、单笔业务金额较小的产品特别适合。 二、信用评分模型的简介 信用评分模型的类型较多,比较使用的3个如下:

个人信用评分模型构建以及个人欺诈评分模型构建

个人信用评分模型构建以及个人欺诈评分模型构建 —、个人信用评分概念 个人信用评分又称“消费者信用评分”,是预测信用申请人或现有借款人违约可能性的一种统计方法。它通过对消费者的人口特征、信用历史记录、行为记录、交易记录等大量历史数据进行系统的分析,利用统计方法及其他定量方法挖掘数据中蕴含的行为模式和信用特征,开发出预测性模型,用以对消费者未来的信用行为进行预测。 有很多信用记录会明显影响个人信用评分,如延迟付款额度变化、拖延付款时间的严重程度、信贷账户数目增减、信贷余额变化、账龄、最近的查询记录等。当个人信用评分模型工作时,它会从个人信用档案中抽取不同因素来评价消费者的信用状态,一旦信用记录中有瑕疵出现,评分模型就会度量出瑕疵的大小,直接从现有的分数中扣除, 从而使信用评分的分值减小一些。 信用评分及其自动化的操作加速了整个信贷决策过程,申请人可以更加迅速地得到答复,提高了操作的效率。据美国消费银行协会的最新一份资料,以前不使用信用评分,小额消费信贷的审批平均需要12小时,如今使用信用评分和自动处理程序,这类贷款的审批缩短到15分钟。使用信用分后,60%的汽车贷款的审批可以在1小时内完成。信用卡的审批只要一两分钟,甚至几秒钟。 二、个人信用评分模型构建 (一)“信用评分卡”的概念 在了解个人信用评分模型之前,需要了解“信用评分卡”的概念。在消费者信用评分过程中,信用评分卡是一种表格,由描述借款人状况的各个特征变量的不同取值对应的信用分值所组成。使用信用评分卡可以计算不同借款人的信用评分分值。典型的信用评分卡见表4-1。 □第四章个人征信业务 一个贷款申请人的状况如下:在现岗位工作时间为12个月,租房住,同时拥有活期存款账户和储蓄存款账户,尚无信用卡,职业为销售人员,年龄24岁。因此,通过表中所给的数据,可以算出该人的信用评分分值为:14+19+31 + 11 + 18 + 19 = 112。 (二)建立信用评分模型的过程 一个人信用评分模型的建—立是市场分析人员、风险管理经理、统计—学家、数据库管理人员和计算机程序员等多个领域的专家综合协调的结果。为了保证个人信用评分模型的顺利开发和应用,必须对建模过程的每个部分进行仔细的设计和计划。通常,建立信用评分模型的过程一般包括以下几个部分:

评分卡模型剖析之一(woe、IV、ROC、信息熵)_光环大数据培训

https://www.360docs.net/doc/b95055829.html, 评分卡模型剖析之一(woe、IV、ROC、信息熵)_光环大数据培训 信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明。 Woe公式如下: Age#bad#goodWoe0-1050200=ln((50/100)/(200/1000))=ln((50/200)/(100 /1000))10-1820200=ln((20/100)/(200/1000))=ln((20/200)/(100/1000))18-3 55200=ln((5/100)/(200/1000))=ln((5/200)/(100/1000))35-5015200=ln((15/ 100)/(200/1000))=ln((15/200)/(100/1000))50以上10200=ln((10/100)/(200/1000))=ln((10/200)/(100/1000))汇总1001000 表中以age年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组(至于如何分组,会在以后专题中解释),#bad 和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是woe值的计算,通过后面变化之后的公式可以看出,woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响。再加上woe计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))

浅析信用评分模型(一)

浅析信用评分模型(一) 摘要]本文对信用评分领域中主要的模型和方法做了细致的概述和优缺点比较,这些模型包括判别分析模型、决策树分析回归分析和神经网络模型。 关键词]信用评分判别分析模型决策树分析回归分析法神经网络法 一、信用评分概况 信用评分模型作为信用风险管理的基础和核心,无论是对于建立社会征信体系还是对于金融机构的信贷资产管理,都有着不可替代的作用。其主要目的,在于尽量将能够预测借款人未来行为的指标加以整合,并统一成可以比较的单一指标,以显示借款人在未来特定时间内违约的可能性,所有的信用评分模型,无论采用什么理论或方法,其最终目的都是将贷款申请者的信用级别分类。为达到分类目的。当前,对个人信用评分模型的定义有多种,较为权威的种观点认为:“信用评分是预测贷款申请人或现有借款人违约可能性的一种统计方法。”这一观点指出了信用评分的作用和目的,不过随着信用评分模型的不断发展,信用评分已不仅是一种统计方法,也包含了运筹学,如数学规划法、非线性模糊数学(如神经网络方法)等。此外,信用评分的实际操作应用也与决策原则紧密相关,决策原则事实上决定了信用评分模型实现其目的和作用的程度。因此,对个人信用评分模型这一数学工具在金融和银行业中的应用来说,较为全面和恰当的定义应是,“信用评分是运用数学优化理论(包括统计方法、运筹方法等),依照即定原则或策略(损失最小原则或风险溢价原则),在数据分析决策阶段区分不同违约率水平客户的方法。 二、各类信用评分模型概述 1.判别分析模型 判别分析法是对研究对象所属类别进行判别的一种统计分析方法。进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。判别分析就是要从中筛选出能提供较多信息变量并建立判别函数,使推导出的判别函数对观测样本分类时的错判率最小。这种方法的理论基础是样本由两个分布有显著差异的子样本组成,并且它们拥有共同的属性。它起源于1936年Fisher引进的线性判别函数,这个函数的目的是寻找一个变量的组合,把两个拥有一些共同特征的组区分开来。 判别分析方法的优点:适用于二元或多元性目标变量,能够判断,区分个体应该属于多个不同小组中的哪一组。自身也存在不可避免的缺点:该模型假设前提是自变量的分布都是正态分布的,而实践中的数据往往不是完全的正态分布,从而导致统计结果的不可靠性。 2.决策树方法 决策树模型是对总体进行连续的分割,以预测一定目标变量的结果的统计技术。决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉或多叉树。构造决策树的方法是采用自上而下的递归构造。在实际中,为进行个人信用分析,选取个人信用作为目标属性,其他属性作为独立变量。所有客户被划分为两类,即好客户的和坏客户,将客户信用状况转换为“是否好客户”(值为1或0),而后利用数据集合来生成一个完整的决策树。在生成的决策树中可以建立一个规则基。一个规则基包含一组规则,每一条规则对应决策树的一条不同路径,这条路径代表它经过节点所表示的条件的一条链接。通过创立一个对原始祥本进行最佳分类判别的决策树,采用递归分割方法使期望误判损失达到最小。 决策树模型的优点:浅层的决策树视觉上非常直观,容易解释;对数据的结构和分布不需做任何假设;可以容易地转化成商业规则。它的缺点在于:深层的决策树视觉上和解释上都比较困难;决策树对样本量的需求比较大;决策树容易过分微调于样本数据而失去稳定性和抗震荡性。 3.回归分析法 回归分析法是目前为止应用最为广泛的一种信用评分模型,这其中以著名的logistic回归为代

基于大数据的信用评分模型

基于大数据的信用风险评分模型辨析 作者:中国XX银行风险管理部 ZLP 信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异,总结分析大数据信用风险评分模型的优缺点,并提出了若干建议。 信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。早在20世纪40年代,美国有些银行就开始尝试性研究信用评分方法,用于快速处理大量信贷申请。 1956年,工程师BillFair和数学家EarlIsaac共同发明了著名的FICO评分方法。该方法基本以Logistic回归方法为技术核心,是当前业界应用最成熟的信用风险评分模型。在20世纪60~80年代,随着信息技术的进步和业务的快速发展,信用评分模型在信用卡、消费信贷、住房抵押贷款和小企业贷款中得到了广泛应用。 近几年来,随着大数据和互联网金融的兴起,某些新颖的机器学习算法走出了学术领域,开始在部分互联网金融机构的信用风险评分模型中得到应用。以Zestfinance公司为例,该公司将机器学习算法应用于信用风险评分模型中,这是大数据信用风险评分模型领域的早期探索之一,也是业界讨论热点。然而,在讨论基于大数据的信用评分模型过程中,经常见到的是出于公关需要的炒作、宣传文章,对技术方法本身的讨论较少,不利于应用方正确辨析和恰当应用大数据信用风险评分模型。 本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异,总结分析大数据信用风险评分模型的优缺点,并提出了若干建议。 一、基于大数据的信用风险评分模型和传统信用风险评分模型的差异分析

信用评分的分类

信用评分的分类 信用评分模型有各种类型,它们具备不同的数据来源和特征,在消费信贷管理中也有不同的应用。 (一)按照评分模型和评分所预测的未来表现结果划分 1.风险评分:对违约拖欠的风险概率进行预测; 2.收益评分:对消费者给信贷机构带来收益的潜力大小进行预测; 3.流失倾向评分:对现有客户在未来一定时期内流失的概率进行预测; 4.市场反应评分:对目标客户把贷款余额从别的银行转账过来的概率进行预测; 5.循环信贷倾向评分模型:对目标客户或现有客户利用信用卡账户进行循环信贷(Revolving)的概率进行预测; 6.欺诈评分模型:对信用卡申请或信用卡交易欺诈行为的概率进行预测。 显然,如果消费信贷机构能够对消费者或客户的上述各种未来信用表现结果进行有效的预测,那么,利用这些评分模型可以对目标客户或现有客户进行全面的评估,制定针对性很强的信贷管理策略,有效地提高管理效益。 (二)按照评分模型的数据来源划分 1.征信局评分(Credit Bureau Score):征信局是专门从事消费者全方位的信用记录的收集、汇总,并且对数据进行加工和整理的商业机构,其数据成为全面预测消费者未来信用表现的各种信用评分,如风险评分、收益评分、破产评分等模型的信息来源。如美国的Trans Union、Equifax、Experian三大信用局收集了大量消费者的信用历史信息,主要有全球著名的评分科技公司Fair Isaac公司利用其数据开发出FICO系列信用评分模型,为美国和加拿大的绝大多数银行和信用卡公司所购买使用。

2.行业共享模型评分(Pooled Models Score):以本行业内部许多家银行集体数据为评分基础,为许多家银行所购买并共享。一个重要的例子是共享性行为评分。在美国,由于许多银行内部数据[交易数据和主档案数据(Master File Data)]的保存和加工均外包给第一资讯公司(First Data Resources)或全系统公司(Total System),所以这两大公司集中了各银行的数据,由Fair Isaac公司利用该数据开发共享性行为评分模型。另一个重要的例子是美国、英国许多银行把信用卡交易数据和欺诈性交易的记录交给Fair Isaac公司集中起来,发展共享性欺诈风险评分,为各成员银行购买使用。 3.以银行内部自由数据为评分基础的客户化模型评分(Custom Models Score):以银行内部自己的数据集,如申请者数据、交易数据、主档案数据、付款表现数据等作为评分基础,根据自己的需要量身定做。其最根本的特征是以银行自己特有的客户数据为基础,反映自己客户群独特的行为模式,根据自己的需要制定特有的评分标准。常见的客户化模型有申请风险评分模型和各种行为评分模型。 信用局评分和行业共享模型又被称为通用化模型(Generic Models)。通用化模型和客户化模型各有优点。通用化的评分优点包括:所有银行都可以使用,不管规模大小、业务历史长短;数据量更大更丰富,反映了消费者全方位的信用信息;可以迅速购买获得,对小银行来说更加便宜等。客户化模型评分的优点有:可能更加准确,因为模型反映了银行自己的客户群体特征;研发的弹性更大,可以自己制定模型流程和标准;对大银行来说可能更加便宜。同时,由于预测信息的来源不同,通用化模型评分与客户化模型评分之间往往存在一定的互补关系。 (三)按照评分模型的实证化(Empirical)程度划分 1.专家风险模型评分:不需要使用用户数据,而是根据专家长期积累的模型开发经验,结合专业的分析技术开发的。专家评分模型以专家经验出发,采用了典型评分模型中常见的

信用评分模型

信用评分模型(Credit Scoring Models ) 什么是信用评分模型[1] 信用评分模型是一种传统的信用风险量化模型,利用可观察到的借款人特征变量计算出一个数值(得分)来代表债务人的信用风险,并将借款人归类于不同的风险等级。 对个人客户而言,可观察到的特征变量主要包括收入、资产、年龄、职业以及居住地等;对法人客户而言,包括现金流量、财务比率等。 信用评分模型的种类 信用评分模型的关键在于特征变量的选择和各自权重的确定。 目前,应用最广泛的信用评分模型有: ?线性概率模型(Linear Probability Model) ?Logit模型 ?Probit模型 ?线性辨别模型(Linear Discriminant Model)—Z-score 信用评分模型的运用过程 运用信用评分模型进行信用风险分析的基本过程是: ①首先,根据经验或相关性分析,确定某一类别借款人的信用风险主要与哪些经济或财务因素有关,模拟出特定形式的函数关系式; ②其次,根据历史数据进行回归分析,得出各相关因素的权重以体现其对这一类借款人违约的影响程度; ③最后,将属于此类别的潜在借款人的相关因素数值代入函数关系式计算出一个数值,根据该数值的大小征量潜在借款人的信用风险水平,给予借款人相应评级并决定货款与否。 [编辑] 信用评分模型隐含的假设 信用评分模型隐含的一个假设是: 存在着一种测度能将良好信用及较差信用的评价对象区分成不同的两种分布。当然在这两个分布之间可能有一些重叠,即所谓的灰色地带。

有些信用评分专注于对这个灰色地带的信用消费者群体进行细分。这是由于在激烈的市场竞争下,信用评分极低的信用申请者早已被排除,而信用评分极高的也早已被各个授信机构竞相争夺,信用需求已得到满足,各种信用供给者需要从获得中等评分的潜在客户群体中挑选合适的授信目标,因而对中间地带的信用消费者进行细分的评分模型是十分必要的。 进行近乎连续的细致地信用评分不能仅仅依靠消费者偿债、公共记录、专业和雇用记录来简单的排除有明显不良记录者,而更需要在此基础上,进一步详细地分析消费者的消费行为,包括所属的消费者群体、年龄段、消费规律、偏好、习惯等,一个科学的信用评分模型需要建立在对消费者群体的长期或阶段性跟踪、区域调查和大量的数理统计分析的基础上。AveIy(2000)等就曾指出,区域经济状况及所处的经济周期是影响偿债的重要因素,但现有的信用评分模型大多忽略了这一因素。 [编辑] 信用评分模型存在的问题 尽管信用评分模型是商业银行分析借款人信用风险的主要方法之一,但在使用过程中同样存在一些突出问题: ①信用评分模型是建立在对历史数据(而非当前市场数据)模拟的基础上,因此是一种向后看的模型。由于历史数据更新速度比较慢,因此回归方程中各特征变量的权重在一定时间内保持不变,从而无法及时反映公司信用状况的变化。 ②信用评分模型对借款人历史数据的要求相当高,商业银行需要相当长的时间才能建立起一个包括大多数公司历史数据的数据库。此外,对新兴公司而言。由于其成立时间不长,历史数据则更为有限,这使得信用评分模型的适用性和有效性受到影D向。 ③信用评分模型虽然可以给出客户信用风险水平的分数,却无法提供客户违约概率的准确数值,而后者往注是信用风险管理最为关注的。

相关文档
最新文档