评分卡模型剖析之一(woe、IV、ROC、信息熵)_光环大数据培训

合集下载

【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配

【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配

【评分卡】评分卡⼊门与创建原则——分箱、WOE 、IV、分值分配本⽂主要讲“变量选择”“模型开发”“评分卡创建和刻度”变量分析⾸先,需要确定变量之间是否存在共线性,若存在⾼度相关性,只需保存最稳定、预测能⼒最⾼的那个。

需要通过 VIF(variance inflation factor)也就是 ⽅差膨胀因⼦进⾏检验。

变量分为连续变量和分类变量。

在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的⼀种称呼。

要将logistic 模型转换为标准评分卡的形式,这⼀环节是必须完成的。

信⽤评分卡开发中⼀般有常⽤的等距分段、等深分段、最优分段。

单因⼦分析,⽤来检测各变量的预测强度,⽅法为WOE、IV;WOEWOE(weight of Evidence)字⾯意思证据权重,对分箱后的每组进⾏。

假设good为好客户(未违约),bad为坏客户(违约)。

#good(i)表⽰每组中标签为good的数量,#good(T)为good的总数量;bad相同。

这⾥说⼀下,有的地⽅计算WOE时使⽤的是的,其实是没有影响的,因为我们计算WOE的⽬的其实是通过WOE去计算IV,从⽽达到预测的⽬的。

后⾯IV计算中,会通过相减后相乘的⽅式把负号给抵消掉。

所以不管谁做分⼦,谁做分母,最终的IV预测结果是不变的。

IVgood 占⽐bad 占⽐IV(information value)衡量的是某⼀个变量的信息量,公式如下:N为分组的组数;IV可⽤来表⽰⼀个变量的预测能⼒。

IV预测能⼒<0.03⽆预测能⼒0.03~0.09低0.1~0.29中0.3~0.49⾼>=0.5极⾼根据IV值来调整分箱结构并重新计算WOE和IV,直到IV达到最⼤值,此时的分箱效果最好。

分组⼀般原则1. 组间差异⼤2. 组内差异⼩3. 每组占⽐不低于5%4. 必须有好、坏两种分类举例说明例如按年龄分组,⼀般进⾏分箱,我们都喜欢按照少年、青年、中年、⽼年⼏⼤类进⾏分组,但效果真的不⼀定好:Age good bad WOE<185040 18~3010060 30~6010080 >608040 ALL330220ln()=40/22050/330−0.182321556793955 ln()=60/220100/3300.105360515657826 ln()=80/220100/330−0.182321556793955 ln()=40/22080/3300.287682072451781根据IV值可以看出,预测能⼒低,建议重新调整分箱。

大数据的分析与处理方法解读_光环大数据培训机构

大数据的分析与处理方法解读_光环大数据培训机构

大数据的分析与处理方法解读_光环大数据培训机构越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。

基于此,大数据分析的方法理论有哪些呢?大数据分析的五个基本方面PredictiveAnalyticCapabilities(预测性分析能力)数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

DataQualityandMasterDataManagement(数据质量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。

通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

AnalyticVisualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。

可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

SemanticEngines(语义引擎)我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。

语义引擎需要被设计成能够从“文档”中智能提取信息。

DataMiningAlgorithms(数据挖掘算法)可视化是给人看的,数据挖掘就是给机器看的。

集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。

这些算法不仅要处理大数据的量,也要处理大数据的速度。

假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。

大数据处理大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。

具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。

大数据培训班_你对大数据了解多少呢_光环大数据培训

大数据培训班_你对大数据了解多少呢_光环大数据培训

大数据培训班_你对大数据了解多少呢_光环大数据培训随着大数据时代的迅速来临,大数据的应用开始逐渐进入了社会的各个领域,他的相关技术已经渗透到各行各业,基于大数据分析的新兴学科也随之衍生。

网络大数据的呈现为大数据分析技术人才提供了前所未有的宝贵机遇,但同时也提出了非常大的挑战。

大数据为人们更好地感知现在、预测未来将带来的新型应用。

大数据的技术与应用还是处于起步阶段,其应用的前景不可预测。

不要犹豫啦,来光环大数据参加大数据培训吧。

什么是大数据?大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。

这个定义带有主观性,对于“究竟多大才算是大数据”,其标准是可以调整的。

简单来说,大数据由三项主要技术趋势汇聚组成,一是海量交易数据,二是海量交瓦数据,三是海量数据处理。

大数据自诞生开始,便受到广泛的关注。

什么数据结构、思维仓库、迭代算法、样本相关一个个概念玄乎其神,让人摸不着头脑。

作为一家专业的大数据处理公司,开运联合告诉你:其实,大数据一点都不神秘,而且就在我们身边。

一:医疗大数据看病更便捷在未来,借助于大数据平台我们可以收集不同病例和治疗方案,以及病人的基本特征,可以建立针对疾病特点的数据库。

如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类数据库。

在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确定位疾病。

同时这些数据也有利于医药行业开发出更加有效的药物和医疗器械。

医疗行业的数据应用一直在进行,但是数据没有打通,都是孤岛数据,没有办法进行大规模应用。

未来需要将这些数据统一收集起来,纳入统一的大数据平台,为人类健康造福。

二:金融大数据赚钱更给力企业和个人的一些信用记录现在有全国性质的统一数据库能够拿到部分数据。

但是对于单个银行来说,同样是无法拿到用户在其他银行的行为记录数据的,其二银行本身在做很多信贷风险分析的时候,确实需要大量数据做相关性分析,但是很多数据来源于政府各个职能部门,包括工商税务,质量监督,检察院法院等,这些数据短期仍然是无法拿到。

光环大数据数据分析培训 数据分析的基本方法论

光环大数据数据分析培训 数据分析的基本方法论

光环大数据数据分析培训数据分析的基本方法论在目前讲解数据分析的文章里,大多数会忽略数据分析本身的目的。

这会导致我们在执行时,会出现动作变形的情况。

以终为始,才能保证不会跑偏。

个人的理解上,数据分析是为了能以量化的方式来分析业务问题并得出结论。

其中有两个重点词语:量化和业务。

首先讲下量化。

量化是为了统一认知,并且确保路径可回溯,可复制。

统一认知后,才能保证不同层级,不同部门的人在平等话语权和同一个方向的背景下进行讨论和协作,才能避免公司内的人以「我感觉」「我猜测」来猜测当前业务的情况。

路径可回溯可复制指的是,通过量化后的结果,许多优化的方法是可以被找到原因并且可以被复制的。

同样是转化率优化,用A方案和B方案,谁的效果会比较好和具体好多少,都是可被预测的。

要想做到量化,需要做到三点:建立量化体系,明确量化重点和保证数据准确性。

1.1建立量化体系建立量化体系,主要是根据「指标设计方法」,设计业务的「核心指标+拆解指标+业务指标」,最后落地成全公司通用的「指标字典」和「维度字典」。

这种工作一般是由数据分析师或数据PM来担任完成。

通过这种方式,我们就能初步建立面向全公司全面而系统的量化分析框架,保证日常分析可以做到「逐层拆解,不重不漏」。

1.1.1指标设计方法讲到指标设计方法,大家可能觉得,之前听过了产品设计方法,程序开发方法,指标这种东西也有设计方法么?确实有,指标设计是一套以准确和易懂为准则,集合统计学和业务效果的方法论。

准确是指能够准确满足衡量目的,易懂是指标算法能直观显示好与坏,并且指标的算法也能够通俗易懂。

这两者很多时候需要有所抉择,准确是第一位的。

举个例子:当我们想衡量一个群体收入的差异性时,用方差还是用基尼系数?方差好懂,但不能显示两个极端的差异性多大。

基尼系数算法不好懂,但能准确描述这个问题。

具体到指标设计,我们需要使用一些常用的统计学工具:以顾客质量分析为例:概况是我们看下顾客的平均支付金额,或者支付中位数,来了解顾客概况。

评分卡模型评估方法

评分卡模型评估方法

评分卡模型评估方法全文共四篇示例,供读者参考第一篇示例:评分卡模型是银行和金融机构常用的信用评估工具,它通过对个人或企业的信息进行数学建模和评分,帮助机构准确地评估借款人的信用风险。

评分卡模型的建立和评估是一个复杂且需要一定经验的过程,需要考虑模型的准确性、稳定性和可解释性。

评分卡模型的评估方法有很多种,其中比较常用的包括ROC曲线、KS值和模型AUC值等指标。

ROC曲线是接收者操作特征曲线的缩写,它通过绘制以不同阈值为判断标准的真正例率(True Positive Rate)和假正例率(False Positive Rate)的曲线,来评估模型的准确性。

ROC曲线下的面积即AUC值,AUC值越接近1,代表模型的准确性越高。

除了ROC曲线和AUC值,KS值也是评估评分卡模型的常用指标。

KS值是模型对不同信用风险客户的区分能力,通俗来讲就是在不同阈值下,模型对好客户和坏客户的区分程度。

KS值越高,代表模型的区分能力越强。

在评估评分卡模型时,还需要考虑模型的稳定性和可解释性。

模型的稳定性指的是模型在不同时间段或不同数据集上的表现是否稳定,即使在不同数据集上也能够保持一定的准确性;而模型的可解释性是指模型的每个变量对于最终评分的影响程度是否容易理解和解释。

除了以上的指标外,还可以通过对模型的PSI值进行评估来检验模型的稳定性。

PSI(Population Stability Index)是用来度量两个不同时间点或不同数据集之间的分布变化程度,PSI值越小代表两者之间的差异越小,模型的稳定性越高。

在评估评分卡模型时,需要综合考虑以上指标和方法,以确保模型的准确性、稳定性和可解释性。

还可以通过交叉验证、样本外验证等方法,对模型进行进一步评估和验证,以提高模型的可靠性。

只有在经过严格的评估和验证之后,评分卡模型才能真正发挥其在信用评估和风险控制中的作用。

第二篇示例:评分卡模型是一种用于评估个人或机构信用风险的工具。

光环大数据告诉你大数据是万能的吗_光环大数据培训

光环大数据告诉你大数据是万能的吗_光环大数据培训

光环大数据告诉你大数据是万能的吗_光环大数据培训光环大数据培训机构,数据科学正在被当做货物一样崇拜数据科学已经逐渐成为各个行业公司的重要竞争优势。

随着越来越多的公司开始引进数据管理的新模式,公司内部就可能会产生所谓的“货物崇拜”,即去学习模仿一系列行为而不去了解其中动机的现象。

在数据科学的应用方面,公司很可能会照搬数据科学背后的技术体系,而忽略了建立数据驱动型的组织文化。

这种情况颇为常见,对此我想分享一下解决之法。

数据科学是一种强大的工具,其优势在于:∙自动决策∙辅助人为决策虽然有许多公司已经认识到了数据科学的重要性,但他们往往没有匹配上有效的数据能力。

个人认为这源于对数据科学的根本性误解,这种误解让人们在忽略自身的基础上进行数据科学的技术构架。

其他的领域也存在相似的问题。

本文阐述了我对于规避此类现象的最佳办法以及如何从数据科学投资领域获得更多价值的思考。

一个典型的数据科学项目绝大多数数据科学项目和其他的IT项目一样,遵循以下的发展轨迹:∙上层管理者同意立项,组员们踌躇满志,饱含希望;∙初始原型看似前途无量,项目本身也似乎能解决一个非常重要的组织问题;∙项目中期效果不佳,没能完成既定目标;∙同时,公司管理层不再关心项目的进展,项目推进受阻;∙项目结束,但是没有能实现最初承诺的组织变革。

对于数据项目而言,这个流程本身就是有问题的。

因为数据项目意味着引入新的管理方法和组织行为。

与许多传统的IT项目不同,数据项目是对现有流程的改进,并且旨在改变组织整体的运行模式。

这个项目为什么失败了?多数人,尤其是数据科学家,会归咎于技术缺陷或是管理不当。

然而在我看来,早在初始设计没能理清项目完成后要如何适应组织运作的时候,失败就已成定局。

数据科学的人性面就我的经验来看,一个“数据驱动型组织”要做的远不止分析和测量。

从根本上说,要成为一家数据驱动的公司,就需要让数据成为公司员工日常工作生活的一部分。

这与上述项目形成了鲜明对比,那些项目更注重技术应用而非达成目标,是种典型的货物崇拜行为,例如最为常见的“企业数据湖项目”。

大数据挖掘模型中地IV和WOE详解

大数据挖掘模型中地IV和WOE详解

数据挖掘模型中的IV和WOE详解标签:IVWOE信息价值证据权重数据挖掘模型2016-03-02 15:36 28747人阅读评论(8) 收藏举报分类:数据挖掘模型(7)版权声明:本文为博主原创文章,未经博主允许不得转载。

目录(?)[+] 1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。

我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。

比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。

那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。

但是,其中最主要和最直接的衡量标准是变量的预测能力。

“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。

IV就是这样一种指标,他可以用来衡量自变量的预测能力。

类似的指标还有信息增益、基尼系数等等。

2.对IV的直观理解从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。

对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。

数据分析必备的三大能力体系_光环大数据数据分析培训

数据分析必备的三大能力体系_光环大数据数据分析培训

数据分析必备的三大能力体系_光环大数据数据分析培训数据分析目前在国内互联网圈的受重视程度在逐步提升,但是问题也很突出:1、大家对于数据分析的认知和理解支离破碎,缺乏一个整体的、系统的思维框架;2、大家的视野更多局限在数据报表、BI系统、广告监测等领域,对于数据以及数据分析其实是缺乏深层次洞察的。

这篇文章就从整体框架出发,介绍一下数据分析的三大层次。

包括对数据分析的整体理解和认识,做数据分析的科学方法,以及数据分析相关的工具介绍。

一、数据分析价值观上面我介绍了:“道”指的是价值观,即如何看待数据分析的价值。

要想真正吃透这一点,必须在价值认同、工作定位和商业模式三点上取得突破。

数据分析的价值观(一)数据分析的价值认同做好数据分析,首先要认同数据的意义和价值。

一个不认同数据、对数据分析的意义缺乏理解的人是很难做好这个工作的。

放到一个企业里面,企业的CEO及管理层必须高度重视和理解数据分析的价值。

你想一下,如果老板都不认可数据分析的价值,那么数据相关的项目在企业里面还能推得动吗?然后,企业内部还需要有数据驱动的公司文化。

如果大家宁可拍脑袋做决定也不相信数据分析师的建议,那么数据分析往往是事倍功半、走一下形式而已,反之则是事半功倍。

(二)数据分析的工作定位做好数据分析,要对数据分析的价值有清楚的定位。

既不要神化数据分析,把它当做万能钥匙;也不要轻易否定数据分析的意义,弃之不用。

数据分析应该对业务有实际的指导意义,而不应该流于形式,沦为单纯的“取数”、“做表”、“写报告”。

在LinkedIn那么多年的工作时间里面,我们对数据分析的工作早已有了清晰的定位:利用(大)数据分析为所有职场人员作出迅捷、高质、高效的决策,提供具有指导意义的洞察和可规模化的解决方案。

数据分析的EOI框架当时我们还采用了一套EOI的分析框架,对不同业务的数据分析价值有明确的定位。

针对核心任务、战略任务和风险任务,我们认为数据分析应该分别起到助力(Empower)、优化(Optimize)、创新(Innovate)的三大作用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

评分卡模型剖析之一(woe、IV、ROC、信息熵)_光环大数据培训
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。

本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明。

Woe公式如下:
Age#bad#goodWoe0-1050200=ln((50/100)/(200/1000))=ln((50/200)/(100 /1000))10-1820200=ln((20/100)/(200/1000))=ln((20/200)/(100/1000))18-3 55200=ln((5/100)/(200/1000))=ln((5/200)/(100/1000))35-5015200=ln((15/ 100)/(200/1000))=ln((15/200)/(100/1000))50以上10200=ln((10/100)/(200/1000))=ln((10/200)/(100/1000))汇总1001000
表中以age年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组(至于如何分组,会在以后专题中解释),#bad 和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是woe值的计算,通过后面变化之后的公式可以看出,woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响。

再加上woe计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))
如此相似,因而可以将自变量woe值替代原先的自变量值;
讲完WOE下面来说一下IV:
IV公式如下:
其实IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量woe值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度;从另一个角度来看的话,IV公式与信息熵的公式极其相似。

事实上,为了理解WOE的意义,需要考虑对评分模型效果的评价。

因为我们在建模时对模型自变量的所有处理工作,本质上都是为了提升模型的效果。

在之前的一些学习中,我也总结了这种二分类模型效果的评价方法,尤其是其中的ROC曲线。

为了描述WOE的意义,还真的需要从ROC说起。

仍旧是先画个表格。

数据来自于著名的German credit dataset,取了其中一个自变量来说明问题。

第一列是自变量的取值,N表示对应每个取值的样本数,n1和n0分别表示了违约样本数与正常样本数,p1和p0分别表示了违约样本与正常样本占各自总体的比例,cump1和cump0分别表示了p1和p0的累计和,woe是对应自变量每个取值的WOE(ln(p1/p0)),iv是woe*(p1-p0)。

对iv求和(可以看成是对WOE 的加权求和),就得到IV(information value信息值),是衡量自变量对目标变量影响的指标之一(类似于gini,entropy那些),此处是0.666,貌似有点太大了,囧。

上述过程研究了一个自变量对目标变量的影响,事实上也可以看成是单个自变量的评分模型,更进一步地,可以直接将自变量的取值当做是某种信用评分的
得分,此时需要假设自变量是某种有序变量,也就是仅仅根据这个有序的自变量直接对目标变量进行预测。

正是基于这种视角,我们可以将“模型效果的评价”与“自变量筛选及编码”这两个过程统一起来。

筛选合适的自变量,并进行适当的编码,事实上就是挑选并构造出对目标变量有较高预测力(predictive power)的自变量,同时也可以认为,由这些自变量分别建立的单变量评分模型,其模型效果也是比较好的。

就以上面这个表格为例,其中的cump1和cump0,从某种角度看就是我们做ROC曲线时候的TPR与FPR。

例如,此时的评分排序为A12,A11,A14,A13,若以A14为cutoff,则此时的TPR=cumsum(p1)[3]/(sum(p1)),FPR=cumsum(p0)[3]/(sum(p0)),就是cump1[3]和cump0[3]。

于是我们可以画出相应的ROC曲线。

可以看得出来这个ROC不怎么好看。

之前也学习过了,ROC曲线有可以量化的指标AUC,指的就是曲线下方的面积。

这种面积其实衡量了TPR与FPR之间的距离。

根据上面的描述,从另一个角度看TPR与FPR,可以理解为这个自变量(也就是某种评分规则的得分)关于0/1目标变量的条件分布,例如TPR,即cump1,也就是当目标变量取1时,自变量(评分得分)的一个累积分布。

当这两个条件分布距离较远时,说明这个自变量对目标变量有较好的辨识度。

既然条件分布函数能够描述这种辨识能力,那么条件密度函数行不行呢?这就引出了IV和WOE的概念。

事实上,我们同样可以衡量两个条件密度函数的距离,这就是IV。

这从IV的计算公式里面可以看出来,IV=sum((p1-p0)*log(p1/p0)),其中的p1和p0就是相应的密度值。

IV这个定义是从相对熵演化过来的,里面仍然可以看到x*lnx的影子。

至此应该已经可以总结到:评价评分模型的效果可以从“条件分布函数距离”与“条件密度函数距离”这两个角度出发进行考虑,从而分别得到AUC和IV这两个指标。

这两个指标当然也可以用来作为筛选自变量的指标,IV似乎更加常用一些。

而WOE就是IV的一个主要成分。

那么,到底为什么要用WOE来对自变量做编码呢?主要的两个考虑是:提升模型的预测效果,提高模型的可理解性。

首先,对已经存在的一个评分规则,例如上述的A12,A11,A14,A13,对其做各种函数变化,可以得到不同的ROC结果。

但是,如果这种函数变化是单调的,那么ROC曲线事实上是不发生变化的。

因此,想要提高ROC,必须寄希望于对评分规则做非单调的变换。

传说中的NP引理证明了,使得ROC达到最优的变换就是计算现有评分的一个WOE,这似乎叫做“条件似然比”变换。

用上述例子,我们根据计算出的WOE值,对评分规则(也就是第一列的value)做排序,得到新的一个评分规则。

此处按照WOE做了逆序排列(因为WOE越大则违约概率越大),照例可以画出ROC线。

可以看出来,经过WOE的变化之后,模型的效果好多了。

事实上,WOE也可以用违约概率来代替,两者没有本质的区别。

用WOE来对自变量做编码的一大目的就是实现这种“条件似然比”变换,极大化辨识度。

同时,WOE与违约概率具有某种线性关系,从而通过这种WOE编码可以发现自变量与目标变量之间的非线性关系(例如U型或者倒U型关系)。

在此基础上,
我们可以预料到模型拟合出来的自变量系数应该都是正数,如果结果中出现了负数,应当考虑是否是来自自变量多重共线性的影响。

另外,WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。

进一步地,可以研究自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,构造出各个自变量的贡献率及相对重要性。

一般地,系数越大,woe的方差越大,则自变量的贡献率越大(类似于某种方差贡献率),这也能够很直观地理解。

总结起来就是,做信用评分模型时,自变量的处理过程(包括编码与筛选)很大程度上是基于对单变量模型效果的评价。

而在这个评价过程中,ROC与IV 是从不同角度考察自变量对目标变量的影响力,基于这种考察,我们用WOE值对分类自变量进行编码,从而能够更直观地理解自变量对目标变量的作用效果及方向,同时提升预测效果。

这么一总结,似乎信用评分的建模过程更多地是分析的过程(而不是模型拟合的过程),也正因此,我们对模型参数的估计等等内容似乎并不做太多的学习,而把主要的精力集中于研究各个自变量与目标变量的关系,在此基础上对自变量做筛选和编码,最终再次评估模型的预测效果,并且对模型的各个自变量的效用作出相应的评价。

为什么大家选择光环大数据!
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据领域具有多年经验的讲师,提高教学的整体质量与教学水准。

讲师团及时掌握时
代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。

通过深入浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现就业梦想。

光环大数据启动了推进人工智能人才发展的“AI智客计划”。

光环大数据专注国内大数据和人工智能培训,将在人工智能和大数据领域深度合作。

未来三年,光环大数据将联合国内百所大学,通过“AI智客计划”,共同推动人工智能产业人才生态建设,培养和认证5-10万名AI大数据领域的人才。

参加“AI智客计划”,享2000元助学金!
【报名方式、详情咨询】
光环大数据网站报名:
手机报名链接:http:// /mobile/。

相关文档
最新文档