搭建风控量化模型

搭建风控量化模型
搭建风控量化模型

搭建风控量化模型

当前,大型金融机构已被监管机构批准使用内部模型来计量风险和监管资本;中小金融机构的积极性也很高,力求借鉴资本管理高级法,调整资产组合,提高资本使用效率,推进管理流程再造,由“干了再算”向“算了再干”转变。

以上趋势令人鼓舞。我们看到,强化风险量化管理的理念正在对中国金融业提高识别、计量和控制风险的能力产生重要的影响,中国金融业风险量化管理水平正在迅速提升。

如何更好地“算了再干”?为了回答这一问题,本文谈一谈金融机构的风险量化模型。为保证风险量化模型的开发质量和实施效果,金融机构所有的风险量化模型都应该参考模型建设和管理技术行业标准进行开发、评估和文档归档。下文总结了国内外信用风险量化模型建设和管理的先进经验,全面遵循这些要求有利于模型的建设、使用、监控、审批、上线。

模型的设计

模型的设计对模型最终是否能实现其目标起着举足轻重的作用。为了保证模型的设计可以满足模型的目标,审批人员应需要关注的是从哪些方面对模型的设计进行评估。总结来说,以下方面要特别留意。

要解决的业务问题

建模人员应该用简单易懂的语言对模型要解决的业务问题进行描述。这些描述应该包括一个或多个已达成共识的业务原则或核心价值,如客户的行为、银行员工的参与度、竞争对手的动作、经济形势的变动、合规的需要、公司战略的考虑等。例如,信用卡部门要设计一个申请评分模型来测算新客户出现不良贷款的风险。这个模型在新客户审批过程的应用中,需要审批人员和客户进行沟通,手动输入一些关键的模型变量数值,在很多情况下还需要对模型的评分结果进行覆盖。这种模型在业务中的应用方式就需要在模型设计开发的过程中,考虑如何解决验证客户提供信息的真实性、员工手动输入数据的可靠性、对模型评分结果覆盖的审批案例如何进行表现监控等问题。

目标变量的定义

建模人员应该对目标变量的定义进行如下描述:明确描述目标变量的定义,并说明为何这样的定义与要解决的任务问题是相关的;明确定义目标变量的表现时间窗(performance window)和观察时间窗:例如,目标变量可以定义为未来12个月贷款出现至少一次60天或60天以上逾期的概率。在这个定义里,“未来12个月”为表现时间窗,“贷款出现至少一次60天或60天以上逾期”为观察时间窗。如果模型需要满足监管部门的要求,此定义是否满足监管部门的要求;为何选择这样的定义而不是其他定义;对定义可能产生的误解进行澄清,如定义是在客户层面还是账号层面的,定义是在观察期之间的表现还是在观察期结束的时间点的表现等。

样本的选择

建模人员应该对建模样本的选择进行如下描述:样本选择的方法,如有随机抽样和非随机抽样(有目的抽样),其中随机抽样方法包括简单随机抽样、等距抽样、分层随机抽样、整群抽样几种常用类型;非随机抽样也称为有目的抽样,包括全面抽样、最大差异抽样、极端个案抽样、典型个案抽样几种常用类型;样本的大小,为了增强可测性和检验的准确性,应该尽量增大样本容量,但同时还应考虑可行性和经济成本;建模样本、保留样本、验证样本的划分;样本可能有的偏差,如必须通过审批的条件限制、经过客户自然流失后的样本、外部因素的变化对样本的影响如产品特征、竞争对手的策略、经济周期、季节性因素等。

分析的方法

分析方法的描述应该包括以下内容:数据获取渠道的描述,主要分为直接渠道和间接渠道:直接渠道主要指通过统计调查获得的第一手统计数据,如办理信用卡业务时客户填写的个人信息资料、当下十分流行的大数据方法等;间接渠道通常指通过查阅资料或者通过其他网站、平台获取的二手数据,如通过WIND或Bloomberg获得数据;模型的结构,根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构建各个变量间的等式关系或其他的数学结构。同时,在建模过程中还应注意细节问题,如客户的分群、子模型的架构等;建模技术,在建模过程中常用到的数学方法和计算机技术,如logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等;变量的处理,如变量的剔除、转换、最大最小值的设置、缺失值的处理、变量相关性的处理等。

模型验证过程

验证模型是否有效的描述应包括:随机保留样本的描述,如选取记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集。选取随机保留样本的标准、比例、特征等方面的描述;Bootstrap验证,是非参数统计中的一种重要的统计方法,在执行上常需借助计算机技术得以实现。举例来说,当总体可用正态分布描述时,其sampling distribution服从正态分布或服从t分布;但当总体不服从正态分布或未知时,我们采用计算机模拟或用渐进分析的方法更加有效;交叉验证,基本思想是在某种意义下将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集进行测试,再利用验证集来测试得到的模型,以此作为评价模型的性能指标。常见方法有Hold-Out Method,K-fold Cross Validation,Leave-One-Out Cross Validation;外来样本的验证,通过外部获取的样本对已有的模型进行检验,判断模型的有效性。

模型的局限性

一般来说,模型的局限性可以分为客观的、不能加以修正的局限性和可以通过人为修正的局限性。验证客观局限性的描述主要包括:系统的局限性;模型的局限性等;验证主观局限性的描述主要包括:建模时间的规划;建模人员的配置、人员水平等;业务和数据的理解上的局限性;样本的局限性;外部因素对模型的影响,如竞争对手的压力、合规时限的压力等。

模型的进度

主要包括有限资源的有效配置,在可以利用的资源数量一定的条件下,通过调配进度使项目工期尽可能短;建模时间的规划,几个有效时间节点的把控,如是否有外部竞争或合规方面的压力而需要在短时间内完成建模等。

数据处理

如何进行数据处理,是一个非常关键的环节。对于该环节,综观国内外经验,可以从以下八个方面给予关注。

建模原数据源的描述分析

建模数据的评估主要包括:数据的获取渠道,如内部数据集市、历史数据存档、第三方公司提供的数据等;数据的样本记录数及每一条记录所代表的含义;数据的变量的个数;数据的收集时间。

模型变量的描述

模型变量的描述应该包括对每一个变量定义的准确描述及变量的值所对应的含义。定义和使用变量时,通常要把变量名定义为容易使用阅读和能够描述所含数据用处的名称,而不要使用一些难懂的缩写如A或B2等。例如:编写一个销售苹果的软件时,我们需要两个变量来存储苹果的价格和销量。此时,可以定义两个名为Apple_Price和Apple_Sold 的变量。每次运行程序时,用户就这两个变量提供具体值,这样看起来就非常直观。

建模样本的大小和目标变量的分布

对此部分的描述应该包括:建模样本的大小是如何决定的;如何获得各个细度的数据记录并有效的控制成本;目标变量的分布,包括异常值、多峰性分布、负值的处理等。

数据时间窗定义

对此部分的描述应该包括:目标变量表现的观察时间:采用滚动时间窗或固定时间窗的方法;模型独立变量的观察时间;模型目标变量和独立变量数据是否有时间不足的情况,如有些样本的目标变量表现观察期不足,模型变量的观察时间不足等。

数据源有效数据的频率和缺失值处理

对此部分的描述应该包括:样本变量数据的有效频率;样本记录中有效记录的频率;某些变量或记录数据缺失的原因,这些缺失原因是否会对模型产生影响或偏差;在建模过程中,如何对数据源的各种数据缺失原因进行考虑。

建模人员应该用简单易懂的语言对模型要解决的业务问题进行描述。这些描述应该包括一个或多个已达成共识的业务原则或核心价值,如客户的行为、银行员工的参与度、竞争对手的动作、经济形势的变动、合规的需要、公司战略的考虑等

每个模型独立变量的缺失值频率;模型独立变量的缺失值是否有具体的含义;缺失值出现的频率是否稳定;有缺失值的变量在模型中的重要性及表现的稳定性;每一个变量对缺失值的处理方法,包括采用中位数、平均数、最大或最小值、最好或最坏值替代,单变量处理,多变量处理,以变量减少、建模或评分、或拒绝原因算法为目标的处理等。

变量最大、最小值处理

对此部分的描述应该包括:每个变量的最大或最小值;对最大或最小值的处理方法;处理后对这些变量取值范围的影响以及数据记录表现的影响;以变量减少、建模或评分、或拒绝原因算法为目标的最大或最小值设置;这些设置是否能防止所有可能出现的取值错误。

变量转换

对此部分的描述应该包括:单变量转换,如反正弦、对数、开方、Box-Cox等;多变量转换,如变量之间相除、相减、相加、相乘等;变量取值的划分或归成大类;变量转换的处理程序及编程方法;这些设置是否能防止所有可能出现的取值;采用Weight of Evidence(WoE)方法(该方法在生态风险评估ERA领域使用多年,能结合多方面数据给出总体风险评估)进行分栏并计算Information Value来验证。

数据的外部因素

可能影响目标变量表现的外部因素主要有:国家或区域的经济环境;宏观经济指标;产品特征;获客渠道;主要竞争对手的策略;天气因素;季节性周期因素等。

模型的选择

模型审批人员应该对建模的方法及模型的表现是否能够到达预期的目标进行诊断和评估,这是一个至关重要的步骤。从具体实施的角度而言,评估应该至少包含以下九个方面内容。

子模型分割方法

模型分割(子模型)的方法应该包括以下内容:分割优化的标准及目的:如对无数据记录的处理、模型表现的连续性考虑、变量相关性的区格、变量预测能力的区格等;选择分割的手段,如历史数据分析、CART分析、贝叶斯树等;采用分割后对模型的表现所带来的提升的数据支持,尤其要说明表现的提升足以覆盖由于分割所带来的模型复杂度增加的负担。

变量剔除

模型独立变量剔除或合并的考虑因素包括:变量缺失的频率;变量的波动性;变量组合;变量聚类,将集合分成由类似的对象组成的多个类;变量之间的相关性检验,如采用相关系数矩阵,Pearson 相关系数或者Spearman 相关系数方法;不同分割模型(子模型)变量的同质性检验,用卡方统计量验证不同子模型是否来自同一总体;变量选择的方式:如向前选择、向后选择、逐步选择等;变量的交叉验证。

模型优化的标准

对此部分的描述应该明确定义模型优化的标准,进而说明为何候选模型是最佳的选择。如果选择多个指标,应说明多个指标的选择标准,例如:KS值, 决策边际变现等。对于需要满足监管要求的模型,要将监管要求融入到选择模型优化的过程中。

模型参数的确定

对此部分的描述应该明确模型选择的方法,包括:如何确定模型的参数;如何从众多的候选模型中选择最终的模型;VIF(Variance Inflation Factor)检验,判断模型是否存在多重共线性问题,经验判断方法表明:当0

建模程序的结构

对此部分的描述应该说明建模使用的程序的结构,包括:处理原始数据的所有的程序,从开始到结束;程序是否具有恰当的标注和结构说明,如数据处理部分,变量选择部分,候选模型比较部分等;程序是否被妥善统一存档,存档是否可以被访问,程序是否可以被其他人运行这些具体备注说明。

建模程序细节

对此部分的描述应该选择一段建模程序进行评估,评估内容包括:程序的标注是否充分,程序的结构是否容易理解;变量的名称、标识是否简单易懂;容易误解或复杂的部分是否有特殊标注;程序引用的模块是否有相应的文档;程序格式是否恰当使用缩进和空格;程序的作者是否标注;在程序的开发、运行和程序的重复使用之间是否保持恰当的平衡。

模型的表现

对此部分的描述应该评价模型对目标行为预测的能力,主要包括:建模样本的表现;非建模样本的表现:如果和建模样本表现不同,要解释表现不同的原因;对未来样本表现的预期;对所有未来可能影响模型表现的不确定性因素是如何考虑的。

模型是否拟合不足或拟合过度

任何模型都可能会有拟合不足或拟合过度的问题,对拟合度的评估可以在几个不同的层面展开,如使用可决系数对模型进行拟合优度检验,使用模拟数据或其他历史数据对模型进行再次验证,是否有以往的经验或数据来验证模型等。

残差分析

残差分析主要是:用残差证实模型的假定,如用残差图判断模型效果与样本数据的质量,检验模型是否满足基本假定,以便对模型作进一步的修改;用残差检测异常值和有影响的观测值,如果异常值是一个错误数据,如是由记录错误造成,应该修正数据,以便改善模型效果;如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑修正模型;如果完全是由于随机因素造成的,则应该将该数据视为有效观测值,予以保留。同时应注意的问题有:残差是否是随机分布的;一个或几个记录的变化是否会对整个模型有较大的影响;不同的取样方法是否会产生不同的模型或不同的残差分布。

模型的最终审批

模型审批人员在最终批准模型之前,应对以下三个方面进行评估。

1、模型替换分析

任何模型都会有几个不同的版本,如原有模型,简单的业务逻辑替代的模型,和第三方公司的模型。模型审批人员应该就最终的模型版本和其他版本进行比较,进行优劣分析,包括:如果不用这个模型,业务模式会如何展开?对原来被否决,新模型会批准的样本进行分析并评估对业务的影响;待审批的模型和其他模型相比,有哪些优势?这些优势是如何获得的,它们是否符合基本的业务逻辑;模型在应用的目标客户群内的主要的独立变量的分布是否符合业务逻辑?和其他模型的版本相比,它们是否和上述的新版本的模型优势相吻合?应用测试技术对现有模型进行挑战,模型上线的版本策略如过度阶段和原模型或其他规则共用等。

2、监控策略

模型的监控策略应包括以下内容:监控的主要指标,频率;监控报告的审阅人员及存档流程;对于监控的指标来讲,稳定性指标和准确性指标通常只是最低标准;稳定性指标应该包括模型目标变量和独立变量的稳定性监控;模型指标的参考客群是如何定义的;模型的目标应用客群如果发生变化,如何能够识别目标客群的变化?如何对模型的表现进行有效的跟踪?监控程序是否经过调试和验证;如果数据导入出错,如何对错误信息进行识别和报警?如果模型运行失败,业务开展的备用方案是什么?识别模型失败的流程和重新启动模型运行的流程各是什么?在什么情况下,建模人员需要对模型进行重新评估或重新建模?明确定义这些情况下主要表现指标的临界值。

3、未来规划

模型的未来规划应描述模型如何进一步提高,具体包括:如何获得更客观全面的样本?客观全面的样本应该包括正常业务运营之外的样本,例如申请审批的样本应包括所有申请客户的表现而不仅仅是通过审批的客户的表现;对于审批模型的临界值附近的样本,业务是否需要加大样本收集的力度为未来的建模做准备;样本收集的经济成本和流程成本各有多大?投入是否值得?未来的业务规划的大方向是什么?模型的样本采集策略应如何配合业务发展的需要?是否有其他数据源或建模技术能够进一步提升模型的表现?

神州融量化风控与自动决策

神州融充分借鉴和引入Experian(益博睿)全球零售及小微金融信贷风控和流程管理的最佳实践,结合其在本土个人及小微金融信贷业务的丰富经验,依据“信贷工厂”的运作理念、以量化风控与自动决策为核心,构建了专门针对小微金融机构的大数据风控平台,并安全稳定运营在阿里金融云上,通过构建量化评分模型与策略决策体系,满足精准风险评估和未来批量化、规模化业务发展的要求,实现审批作业的集中管理,降低业务的信用风险和操作风险。“神州融希望将量化的风控决策能力和IT技术开放给小微机构,让他们能够像银行一样健壮。”神州融联合创始人黄海珈介绍。

大数据风控建模标准流程

大数据风控建模标准流程 一、风控建模标准过程 (一)数据采集汇总 2、评估数据真实性和质量,数据质量好的变量进入后续步骤 (二)模型设计 1、时间窗和好坏客户定义 时间窗:根据获取数据的覆盖周期,将数据分为用来建模的观察期数据,和后面用来验证表现的表现期数据; 好坏客户定义:分析客户滚动和迁移率,来定义什么程度逾期的为“坏客户”,例如定义M3为坏客户就是定义逾期3个月的才是坏 客户; 2、样本集切分和不平衡样本处理 样本集切分:切分为训练集和测试集,一般7/3或8/2比例; 不平衡样本:最理想样本为好坏各50%,实际拿到的样本一般坏 客户占比过低,采取过采样或欠采样方法来调节坏样本浓度。 3、模型选择 评分卡模型以逻辑回归为主。 (三)数据预处理及变量特征分析 1、变量异常值、缺失值处理:使用均值、众数等来平滑异常值,来填补缺失,缺失率过高的变量直接丢弃; 2、变量描述性统计:看各个变量的集中或离散程度,看变量的 分布是否对样本好坏有线性单调的相关性趋势; (四)变量筛选

1、变量分箱:变量取值归入有限个分组中,一般5个左右的分 箱数量,来参加后面的算法模型计算。分箱的原则是使得各箱内部 尽量内聚,即合并为一箱的各组坏样本率接近;使得相邻分箱的坏 样本率呈现单调趋势。从方法上一版采取先机器分箱,后人工微调。 2、定量计算变量对于识别坏样本的贡献度(WOE和IV) (1)WOE是统计一个变量的各分箱区间之间的好占总好比值坏 占总坏之比,不同分箱之间差异明显且比例成单调趋势,说明分箱 的区分度好; (2)IV是在WOE基础上进一步加权计算这个变量整体上对于区 分好坏样本的识别度,也就是变量影响因子。数越大说明用这个变 量进行区分的效果越好,但IV值过大容易引起模型过拟合,即模型 过于依赖单一变量,造成使用过程中平衡性健壮性不好; 3、计算变量之间的相关性或多重共线性,相关性高于0.5甚至0.7的两个变量里,就要舍弃一个,留下iv值较高的那个。例如 “近一个月查询次数”、“近三个月查询次数”、“近六个月查询 次数”这三个变量显然明显互相相关度高,只保留其中一个变量进 入模型即可。 (五)变量入模计算 1、以最终选定的若干变量,进入回归模型算法,机器自动计算 其中每一个X就是一种变量,这个计算就是为了算出每种变量的最终权重,也就是算出所有的b。 2、客户违约概率映射为客户分数。以上公式一旦计算确定,则 给出一个确定的客户,就可以算出其违约概率,下面公式是把概率 进一步再映射计算成一个客户总评分。 3、计算确定每种变量每个分箱所应该给的得分 某一变量在一个分箱的得分该组WOE 1、模型区分好坏客户能力评价

大数据风控的现状、问题及优化路径

大数据风控的现状、问题及优化路径 2016-04-11巴曙松侯畅唐时达互联网金融互联网金融 iefinance互联网金融与金融互联网、互联网等模式,主要包括(p2p网贷、虚拟货币、众筹模式、第三方支付、互联网银行、电商小贷、金融服务等)进行研究与分析。发布的内容也请转发到朋友圈。本账号编辑转载目的在于传递信息对真实性不负责,版权及观点归原作 者所有。4:54 Yiruma - Do You来自互联网金融 文/巴曙松;侯畅(东北大学工商管理学院);唐时达(北京大学光华管理学院博士后流动站) 摘要:在互联网技术和信息技术的推动下,大数据在金融行业的风控中获得了引 人注目的进展,但是在实际运用中其有效性还需进一步提高。当前大数据风控有效性不足既有数据质量的障碍,也有大数据风控的理论性障碍,还有数据保护的制度障碍。消除这些障碍、提高大数据风控的有效性,需要金融企业、金融研究部门和政府监管部门的共同努力。 关键词:互联网金融;大数据;风险控制 大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会其他各个领域。早在1980年,阿尔文?托夫勒(Alvin Toffler,1980)在《第三次浪潮》一书中就预言大数据将成“第三次浪潮”。奥巴马政府将大数

据定义为“未来的新石油”。凯文?凯利(Kevin Kelly,2014)认为所有的生意都是数据生意。2013年互联网金融将“大数据”推向了新的高度。金融的核心是风险控制,将风控与大数据结合、不断完善和优化风控制度和体系,对于互联网金融企业和传统金融企业而言都同等重要。 一.大数据风控发展迅速,但有效性不佳 在应用层面,金融行业利用大数据进行风控已经取得了一定的成效。使用大数据进行风控已成为美国等发达国家互联网金融企业的标准配置。 美国Zest Finance公司开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。 为网上商家提供金融信贷服务的公司Kabbage主要目标客户是ebay、Amazon、PayPal等电商,其通过获取这些企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。 中国互联网金融企业对于大数据风控的运用也如火如荼。

细数大数据风控那点事_光环大数据培训

https://www.360docs.net/doc/945345868.html, 细数大数据风控那点事_光环大数据培训 大数据风控同传统风控在本质上没有区别,主要区别在于风控模型数据输入的纬度和数据关联性分析。据统计,目前银行传统的风控模型对市场上70%的客户是有效的,但是对另外30%的用户,其风控模型有效性将大打折扣。 大数据风控作为传统风控方式补充,主要利用行为数据来实施风险控制,用户行为数据可以作为另外的30%客户风控的有效补充。大数据风险控制的作用就是从原来被拒绝的贷款用户中找到合格用户,识别出已经通过审核的高风险客户和欺诈客户。 一、银行信用风险控制的原理 金融行业中,银行是对信用风险依赖最强的一个主体,银行本质就是经营风险,不同的风险偏好决定了银行的经营水平。在经济结构调整周期过程中,信用风险管理也是各个银行面临的巨大挑战。 1.两种常见的信用风险管理方式 银行信用风险管理有两种方式,第一种方式是从大量申请人中找到合格的贷款客户,将贷款放给这些人。第二种方式是从申请人中识别出有潜在风险的贷款客户,不将贷款发给这些人。可以简单地认为是找到好种子和识别出坏种子 2.如何找到合格的贷款人? 银行在找好种子时,一般会对好种子进行一些基本限定,从贷款人的学历、年龄、收入、职业、资产、负债、消费等几个方面进行打分,最后综合评级,依

https://www.360docs.net/doc/945345868.html, 据评估分数进行贷款审批,可以简单地认为是风险定价(RBP)。 贷款销售人员主要的任务是找到好种子的用户,通过KYC和风险评估等方式的找到潜在合格客户。这个阶段的风险控制可以认为是一个基线控制,经过风险评估之后,会得到客户的评估分数或风险评级。在控制基线之上的客户会被放进来,认为是潜在合格客户;风险管理部门进一步验证,如果审核通过之后,就会依据分数和级别发放贷款。 3.识别出潜在风险的人 利用数学模型来识别风险客户,目的是找到欺诈客户和未来不会还款的用户。在识别坏种子时,数学模型和坏种子是关键,数学模型决定风控方式是否科学,数据纬度是否全面,结论是否科学。坏种子是用来修正风控模型参数,提升模型的鲁邦性,同时让模型可以不断完善自己。在预防欺诈用户时,行业共享的黑名单也起到了很大的作用。 坏种子对识别出欺诈用户和潜在违约用户十分关键,风控模型是否有效的一个前提就是是否有足够多的坏种子。 4.个人消费金融授信的5P原则 信用贷款分为抵押贷款和无抵押贷款,其中抵押贷款的风险相对较低,风险评估过程中主要关注抵押品的自身价值和贷款覆盖率,贷款用途和还款能力占信用审批权重比例较低。银行过去大量的个人贷款,都是抵押贷款,其中按揭房贷占了很大的比重。 无抵押贷款称为信用贷款,时髦的称呼为消费金融。贷款人无需进行财产抵押,仅仅依靠自身信用分数或还款能力申请贷款。相对于抵押贷款,其风险较高,

互联网金融的做大数据风控的九种维度

互联网金融做大数据风控的九种维度 在互联网金融迅猛发展的背景下,风险控制问题已然成为行业焦点,基于大数据的风控模型正在成为互联网金融领域的热门战场。那么,大数据风控到底是怎么一回事呢?与传统风控相比,它又是怎样来进行风险识别的呢?本文对此进行了探讨。 大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控。 金融的本质是风险管理,风控是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、P2P、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。 传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个纬度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据纬度为十个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产,汽车、单位、还贷记录等,金融企业参考用户提交的数据进行打分,最后得到申请人的信用评分,依据评分来决定是否贷款以及贷款额度。其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等。

互联网金融的大数据风控并不是完全改变传统风控,实际是丰富传统风控的数据纬度。互联网风控中,首先还是利用信用属性强的金融数据,判断借款人的还款能力和还款意愿,然后在利用信用属性较弱的行为数据进行补充,一般是利用数据的关联分析来判断借款人的信用情况,借助数据模型来揭示某些行为特征和信用风险之间的关系。 互联网金融公司利用大数据进行风控时,都是利用多维度数据来识别借款人风险。同信用相关的数据越多地被用于借款人风险评估,借款人的信用风险就被揭示的更充分,信用评分就会更加客观,接近借款人实际风险。常用的互联网金融大数据风控方式有以下几种: 1验证借款人身份 验证借款人身份的五因素认证是姓名、手机号、身份证号、银行卡号、家庭地址。企业可以借助国政通的数据来验证姓名、身份证号,借助银联数据来验证银行卡号和姓名,利用运营商数据来验证手机号、姓名、身份证号、家庭住址。 如果借款人是欺诈用户,这五个信息都可以买到。这个时候就需要进行人脸识别了,人脸识别等原理是调用国政通/公安局API接口,将申请人实时拍摄的照片/视频同客户预留在公安的身份证进行识别,通过人脸识别技术验证申请人是否是借款人本人。

什么是大数据风控

什么是大数据风控 相信大家都听过大数据,大数据到底是什么?研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。随着大数据的普及应用,大数据风控的概念随之而生。互联网金融与传统信贷公司对于大数据风控的态度有褒有贬,有认为大数据风控是一剂济世良药包治百病的,也有认为大数据风控无法适应当前市场现状的等等。本文就从五个问题展开,简单的谈一谈大数据风控。 一、什么是大数据风控:大数据风控即大数据风险控制,是指通过运用大数据构建模型的方法对借款人进行风险控制和风险提示。在现阶段,绝大多数的小微金融企业,特别是小额贷款公司,基本处于凭借人工手段(Excel表格、纸质报告)来管理公司的各项数据,往往无法归纳并利用基础数据进行有效分析(或者作最简单的统计分析)。与原有人为对借款企业或借款人进行经验式风控相比,大数据风控通过采集大量借款人或借款企业的各项指标进行数据建模分析,效率更高、统计结果更有效。 二、大数据风控还离我们多远:早在1997年,中国人民银行的开始创建企业信息基础数据库,并于2006年7月份实现全国联网查询;而中国人民银行个人信用信息基础数据库建设最早始于1999年,2005年8月底完成与全国所有商业银行和部分有条件的农信社的联网运行,2006年1月,个人信用信息基础数据库正式运行。截至2015年底,该数据库收录自然人数共计6亿多人,其中1亿多人有信贷记录。传统的贷款审核无不依托于人民银行征信系统的数据库,随着信息技术的高速发展,当前的大数据风控对于信息收集、统计、审核的要求早已超出了人行征信记录这一范畴,“大数据”+征信已经是行业内的基本审核手段。 现如今,大数据风控在互联网金融领域的运用已经不是新鲜事。在这里,不得不提阿里小贷,依托于阿里巴巴庞大的数据库,阿里小贷通过云计算来对用户数据进行分析处理,最终产生用户的信用数据。阿里数据库的数据种类之多、容量之大,使得阿里小贷能够通过现有数据来对用户违约概率进行较为精准的预测,迅速确定用户授信,真正实现信贷扁平化。目前,各大互联网金融企业均已采用大数据风控分析这一手段,蚂蚁金服、融360、拍拍贷、点融网等均开发有独立的大数据风控系统。 三、大数据风控能解决什么问题 1.有效提高审核的效率和有效性:在传统的风控审核过程中,申请人信息调查审核最为费时、费力、也最难管控,基于传统的经验审核也会造成审核结果的偏差与非有效性。引入大数据风控技术手段分析,通过多维度的信息分析、过滤、交叉验证、汇总,可以形成一张全面的申请人数据画像,辅助审核决策,可以提高审核的效率和有效性。 2.有效降低信息的不对称:信贷市场是典型的信息不对称市场,即表现为信贷公司与申请人的信息不对称,也表现为各信贷公司之间的信息不对称。信贷公司面临的主要风险为恶意欺诈,70%左右的信贷损失来源于申请人的恶意欺诈。欺诈者能够骗取贷款,利用的正是这种

基于大数据的信用评分模型

基于大数据的信用风险评分模型辨析 作者:中国XX银行风险管理部 ZLP 信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异,总结分析大数据信用风险评分模型的优缺点,并提出了若干建议。 信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。早在20世纪40年代,美国有些银行就开始尝试性研究信用评分方法,用于快速处理大量信贷申请。 1956年,工程师BillFair和数学家EarlIsaac共同发明了著名的FICO评分方法。该方法基本以Logistic回归方法为技术核心,是当前业界应用最成熟的信用风险评分模型。在20世纪60~80年代,随着信息技术的进步和业务的快速发展,信用评分模型在信用卡、消费信贷、住房抵押贷款和小企业贷款中得到了广泛应用。 近几年来,随着大数据和互联网金融的兴起,某些新颖的机器学习算法走出了学术领域,开始在部分互联网金融机构的信用风险评分模型中得到应用。以Zestfinance公司为例,该公司将机器学习算法应用于信用风险评分模型中,这是大数据信用风险评分模型领域的早期探索之一,也是业界讨论热点。然而,在讨论基于大数据的信用评分模型过程中,经常见到的是出于公关需要的炒作、宣传文章,对技术方法本身的讨论较少,不利于应用方正确辨析和恰当应用大数据信用风险评分模型。 本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异,总结分析大数据信用风险评分模型的优缺点,并提出了若干建议。 一、基于大数据的信用风险评分模型和传统信用风险评分模型的差异分析

大数据风控的现状、问题及优化路径

摘要:在互联网技术和信息技术的推动下,大数据在金融行业的风控中获得了引人注目的进展,但是在实际运用中其有效性还需进一步提高。当前大数据风控有效性不足既有数据质量的障碍,也有大数据风控的理论性障碍,还有数据保护的制度障碍。消除这些障碍、提高大数据风控的有效性,需要金融企业、金融研究部门和政府监管部门的共同努力。 关键词:互联网金融;大数据;风险控制 大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会其他各个领域。早在1980年,阿尔文?托夫勒(Alvin Toffler,1980)在《第三次浪潮》一书中就预言大数据将成“第三次浪潮”。奥巴马政府将大数据定义为“未来的新石油”。凯文?凯利(Kevin Kelly,2014)认为所有的生意都是数据生意。2013年互联网金融将“大数据”推向了新的高度。金融的核心是风险控制,将风控与大数据结合、不断完善和优化风控制度和体系,对于互联网金融企业和传统金融企业而言都同等重要。 一.大数据风控发展迅速,但有效性不佳 在应用层面,金融行业利用大数据进行风控已经取得了一定的成效。使用大数据进行风控已成为美国等发达国家互联网金融企业的标准配置。 美国Zest Finance公司开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。 为网上商家提供金融信贷服务的公司Kabbage主要目标客户是ebay、Amazon、PayPal等电商,其通过获取这些企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。 中国互联网金融企业对于大数据风控的运用也如火如荼。 阿里推出了面向社会的信用服务体系芝麻信用,芝麻信用通过分析大量的网络交易及行为数据,对用户进行信用评估,这些信用评估可以帮助互联网金融企业对用户的还款意愿及还款能力做出结论,继而为用户提供相关的金融和经济服务。 腾讯的微众银行推出的“微粒贷”产品,其风控核心就是,通过社交大数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易、基本社会特征、人行

大数据风控竞争格局分析

BAT、网易、京东等如何做大数据风控的? 大数据风控目前应该是前沿技术在金融领域的最成熟应用,相对于智能投顾、区块链等还在初期的金融科技应用,大数据风控目前已经在业界逐步普及,从BATJ这样的大企业,到交易规模比较大的网贷平台,再到做现金贷、消费金融的创业公司,都在通过大数据风控技术来控制贷款规模扩张中的风险。 大数据风控目前应该是前沿技术在金融领域的最成熟应用,相对于智能投顾、区块链等还在初期的金融科技应用,大数据风控目前已经在业界逐步普及,从BATJ这样的大企业,到交易规模比较大的网贷平台,再到做现金贷、消费金融的创业公司,都在通过大数据风控技术来控制贷款规模扩张中的风险。 现在提到互联网金融、Fintech,首先想到的就是大数据风控。随着网易北斗大数据风控平台的上线,业内包括BAT、网易在内的主要国内互联网巨头都开始在大数据和金融衍生应用领域进入了金融科技化阶段,和互联网金融第一阶段相比,目前产生了以大数据金融、风控、智能投顾、个性化产品等为代表的新阶段,伴随着监管的深入和全国性互联网金融政治风暴的规范化推进,1.0时代的互联网渠道和通道金融将逐步被融合了大数据、人工智能和机器深度学习的金融科技所替代。大家都在做,对行业格局有什么影响,未来的市场格局会是什么样子? 模型、资金、场景,互联网与金融机构各取所需 在大数据风控领域,核心的三个要素是风控模型、场景和资金。传统商业银行往往拥有低成本资金优势,在线下场景也具有长期客户积累,但是在线上大数据和数以千、万计的风控因子方面却稍显吃力;而BAT、网易在内的互联网IT巨头,则在海量的数据、金融云、线上场景和用户精准分析方面优势领先,但是需要一定的资金对接和金融牌照服务资质。于是乎,在目前金融监管收紧,而双方都有迫切需求的情况下,通过互联网IT巨头的技术、数据、模型对接线下传统金融的资金,成为了一个标准化的产业链合作模式。 近期互金公司在大数据风控领域布局愈加频繁 进入12月份不到半个月,大数据风控领域不断有新动作: 12月6日, 360金融借助大数据征信和风控,推出消费金融产品360借条,推出闪电放款随借随还机制。 12月8日,网易金融发布了网易北斗智能风控系统,基于网易的数

TalkingData大数据风控解决方案

TalkingData 大数据风控解决方案及成功案例 一、 行业背景 随着“互联网+”、互联网金融、金融大数据、金融科技等领域的持续创新和快速增长,众多金融企业开始掘金以个人消费者为中心的新兴市场,P2P金融、消费金融、现金贷等创新金融业务持续推出。与此同时,各类金融风险不断涌现,传统的数据及风控手段难以及时和准确地发现个人用户的潜在风险。企业亟需着手建立基于大数据的智能化决策能力,依托拥有海量数据资源的第三方机构,在保证数据全面、公正的前提下,持续优化风控和营销等关键决策效率。 二、 TalkingData大数据风控解决方案 TalkingData以稳定、合规、安全可靠的数据为基础,围绕金融用户这一核心,为金融企业提供数据采集、接入、加工、分析、决策为一体的金融风控数据服务,帮助金融企业构建营销反欺诈、用户反欺诈、用户授信辅助等业务决策能力。

TalkingData大数据风控解决方案将移动大数据技术与专业的金融风控业务相融合,既适用于需要拓展和下沉用户的传统金融机构,也适用于正在积极拓展创新金融场景的互联网金融企业,为这些企业提供独有数据和专业化风控技术。 三、 TalkingData风控解决方案在商业银行信用卡中心的案 例 某国内商业银行信用卡业务风控及反欺诈系统项目中,TalkingData作为数据及服务的供应商,提供了平台、数据、服务一体化解决方案,帮助客户实现了数据采集、外界数据接入、用户反欺诈和授信评分模型服务等数据决策系统。

具体实现内容包括: 1.风控数据采集、接入和加工服务:用户行为数据获取及应用 能力一直是制约客户采用新技术的主要障碍,TalkingData提供了完善的数据技术能力帮助客户建立风控数据能力 l●在用户申请客户端利用设备指纹技术,经过授权后,无干扰采集用户行为数据 l●基于用户行为标签的外部数据服务,形成面向用户分析的基础信息 l●依照业务场景定制风控标签服务,形成可用于风控分析建模的深度加工特征 l●数据特征加工及模型服务,形成数据决策基础。 2.用户反欺诈服务:欺诈用户的申请欺诈和交易是金融企业损失 的主要来源之一,TalkingData用户反欺诈方案通过综合多维数据对用户行为进行探测、评估及评分,帮助客户提升多类型欺诈行为的识别率。

大数据风控服务公司调研

一、91征信公司(91征信现已将品牌升级为智帆金科) 1.股东架构 法定代表人:薛本川。兼任91征信首席执行官,并入选2017福布斯中国30岁以下精英榜。注册资本:206.3909万元人民币。 成立日期:2015-06-12。 所属地区:北京。 2.投融资情况: 1) 2015年6月,经纬中国的千万级天使轮融资。公司以创新的不良资产处置方案获得市场及资本认可,并获得国际知名风险投资机构经纬中国的千万级天使轮融资,同年10月,致力于深层解决金融风险问题与征信数据共享问题的产品91征信正式上线。 2) 2016年2月,A轮融资,经纬中国跟投。91征信企业用户量超过200家,同期完成A轮融资,经纬中国跟投,2016年底公司实现全面盈利。 3) 2017年5月,完成由银之杰(股票代码300085)投资的B轮数千万融资。 3.公司概况 91征信是全国首家通过分布式数据库技术方案,从系统服务、场景应用、用户体验、业务交易等层面提供互联网征信数据服务的公司。在两年的迅速发展过程中,至今已服务包括中银消费、百度、玖富、中腾信、夸客金融在内的等近600家机构,为用户累计提供超过6600万人次的数据共享服务,产品每日为金融机构提供共享数据查询服务在50万次以上,全面覆盖了银行、消费金融、保险、三方支付、P2P、租车、保理等各类领域。 4.主打产品及数据底层组成 征信行业定位粗略根据业务类型可以分三大类,包括个人/企业数据接口整合报告,个人/企业数据接口批发商及个人/企业数据建模及分析系统搭建。91征信的定位显得比较专一,只做数据批发,为信贷行业提供信贷数据共享平台。 其主打的产品主要有同业征信报告,91征信分。

大数据风控那点事儿

大数据风控那点事儿 中国金融市场供给不平衡,很多人的金融需求不能够被满足,金融产品的风险定价也不科学,很多合格贷款申请人无法 得到贷款。这些客观情况造成了大数据风控拥有巨大的市场, 只要涉及到风控或征信的公司,必然会吸引资本市场的注意, 获得较高的估值。 普惠金融的发展对金融产品的风险控制提出了较大的挑战,银行已有的风控方式已经不适合很多年轻的客户。过于保守的 风控方法,在很大程度上,错误地拒绝了很多合格贷款人,同 时又放过了一些不合格的申请人。 大数据风控同传统风控在本质上没有区别,主要区别在于 风控模型数据输入的纬度和数据关联性分析。据统计,目前银 行传统的风控模型对市场上70%的客户是有效的,但是对另外30%的用户,其风控模型有效性将大打折扣。 大数据风控作为传统风控方式补充,主要利用行为数据来 实施风险控制,用户行为数据可以作为另外的30%客户风控的 有效补充。大数据风险控制的作用就是从原来被拒绝的贷款用 户中找到合格用户,识别出已经通过审核的高风险客户和欺诈 客户。

一银行信用风险控制的原理 金融行业常见的风险可以分为市场风险、信用风险、政策风险、流动性风险、操作风险等。其流动性风险和信用风险对金融行业自身生存影响最大,操作风险的影响也在增加。 金融行业中,银行是对信用风险依赖最强的一个主体,银行本质就是经营风险,不同的风险偏好决定了银行的经营水平。在经济结构调整周期过程中,信用风险管理也是各个银行面临的巨大挑战。 1.两种常见的信用风险管理方式 银行信用风险管理有两种方式,第一种方式是从大量申请人中找到合格的贷款客户,将贷款放给这些人。第二种方式是从申请人中识别出有潜在风险的贷款客户,不将贷款发给这些人。可以简单地认为是找到好种子和识别出坏种子 2. 如何找到合格的贷款人? 银行在找好种子时,一般会对好种子进行一些基本限定,从贷款人的学历、年龄、收入、职业、资产、负债、消费等几个方面进行打分,最后综合评级,依据评估分数进行贷款审批,可以简单地认为是风险定价(RBP)。

大数据风控-2017

《大数据风控》 华博创始人张孝昆著作 --大数据颠覆传统企业管控模式 从信息化到智能化,从传统ERP到企业大数据 运用风险管控,给企业管控及大数据构建“灵魂”,从而把企业内外部数据整合,形成把数据输入、把问题输出的数据化管理新模式! 仅以此书,献给正在转型中的企业管控人员,特别是风险管控、审计、管理会计、ERP实施人员。

目录 《大数据风控》 (1) 序................................................................................................................ 错误!未定义书签。前言 .......................................................................................................... 错误!未定义书签。思想篇 .................................................................................................... 错误!未定义书签。第1章企业大数据核心思想概述 ................................................. 错误!未定义书签。 1.1企业管控与大数据应用 ..................................................... 错误!未定义书签。 1.2企业管控中的风险、内控、审计手段融合 ..................... 错误!未定义书签。 1.3集团管控与风险管控的联动 ............................................. 错误!未定义书签。 1.4风险管控融入业务、融入信息化 ..................................... 错误!未定义书签。 1.5智能监控的思路及方式方法 ............................................. 错误!未定义书签。第2章运用大数据解决风险管控 ................................................. 错误!未定义书签。 2.1企业风险管控构建要点 ..................................................... 错误!未定义书签。 2.2应用大数据为风险管控服务 ............................................. 错误!未定义书签。 2.2.1 总体思路 ................................................................................ 错误!未定义书签。 2.2.2 企业内外部大数据构成 ........................................................ 错误!未定义书签。 2.2.3 大数据专项技术及措施 ........................................................ 错误!未定义书签。 2.3大数据风控落地运行新模式 ............................................. 错误!未定义书签。 2.4风险识别实务 ..................................................................... 错误!未定义书签。 2.4.1风险识别思路 ......................................................................... 错误!未定义书签。 2.4.2风险识别的方法 ..................................................................... 错误!未定义书签。 2.4.3风险识别的具体操作 ............................................................. 错误!未定义书签。 2.4.4风险识别成果 ......................................................................... 错误!未定义书签。 2.5风险评估实务 ..................................................................... 错误!未定义书签。 2.5.1风险评估的思路 ..................................................................... 错误!未定义书签。 2.5.2风险评估的方法 ..................................................................... 错误!未定义书签。 2.5.3 风险评估的具体操作 ............................................................ 错误!未定义书签。 2.5.4风险评估成果 ......................................................................... 错误!未定义书签。 2.6风险应对实务 ..................................................................... 错误!未定义书签。 2.6.1风险应对的思路 ..................................................................... 错误!未定义书签。 2.6.2风险应对的方法 ..................................................................... 错误!未定义书签。

相关主题
相关文档
最新文档