评分卡模型
评分卡模型时间外样本选择标准

评分卡模型时间外样本选择标准评分卡(Scoring Card)模型是风控领域应用广泛的一种评估信用违约风险的方法。
评分卡模型的建立离不开样本选择,而样本选择又分为训练样本和时间外样本,其中,对于时间外样本的选择对于评估模型的准确性至关重要。
本文将介绍评分卡模型时间外样本的选择标准。
1. 时间外样本的定义时间外样本(Out-of-Time Sample)指的是在模型训练完成之后,按照一定的时间点或时间段将数据划分为训练样本和试验样本两部分,试验样本即为时间外样本。
时间外样本的目的是验证模型在新样本上的稳定性和预测能力。
(1) 独立性原则:时间外样本必须与训练样本相互独立。
这意味着时间外样本的分布和训练样本的分布应该是相似或相同的,避免出现对模型的过度拟合或欠拟合。
(2) 时间一致性原则:时间外样本的数据应该是在模型建立过程之后采集的新数据,而且在建模期与时间外样本之间不存在因变量Y的相关性。
(3) 数据可用性原则:时间外样本的数据应该是可获取的,而且在实际应用中也会出现的。
如果数据不可用,就不能保证时间外样本的结果与实际情况的一致性。
(1) 简单随机抽样法:从全部数据样本中随机抽取一部分作为时间外样本,这样做的好处是可以保证随机性和平均性,但抽样比例不能过大,否则可能会影响模型的稳定性。
(2) 时间序列法:按时间顺序划分出一段时间作为训练样本,而后面的时间作为时间外样本。
这种方法在时序模型中应用比较广泛,可以有效的避免模型对未来的过拟合。
(3) 分层抽样法:根据数据的特征属性(如年龄、职业,收入等)将样本分层,分别选取一部分样本作为时间外样本,这种方法可以保证样本的特点在时间上的一致性。
在完成时间外样本的选取之后,需要对模型的稳定性和预测能力进行检验,这里介绍两个主要的指标:(1) KS值:KS指标是评估分类模型好坏的一种重要指标,它根据正负样本的累积比例曲线,判断两者之间的距离是否越大,则说明模型的预测能力越好。
信用风险评估的常见模型分析

信用风险评估的常见模型分析随着社会的进步和经济的发展,信用风险评估越来越受到金融机构和企业的重视。
信用风险评估是指对借款人或者投资者的信用状况进行评估,以确定其还款能力和借款偿付能力的一种方法。
而信用风险评估主要就是通过对借款人的信用记录、借款人的经济状况、行业环境、政策法规等的综合分析,对借款人的信用情况进行评估。
信用风险评估有多种方法和模型,常见的有以下几种:一、德文-肯德尔模型德文-肯德尔模型(Duffie-Singleton-Kendall Model, DSK)是一种基于股票价格模型的信用风险评估方法。
它的核心思想是通过计算公司财务数据与市场指数之间的差别,从而测量其财务风险和信用风险。
在德文-肯德尔模型中,借款人的违约概率是基于公司股票的波动率来确定的,如果波动性越高,那么违约风险就越高。
二、评分卡模型评分卡模型是一种应用非常广泛的信用风险评估方法。
它是通过对大量客户历史数据进行细致的分析和模型建立,通过将客户的多个维度信息进行权重评估并变成得分卡的形式,进而对未来客户的风险程度进行精准过滤,从而为金融机构和企业提供可靠信用风险评估的依据。
一般来说,评分卡模型中会有多个变量作为考察维度,比如说客户的年龄、性别、职业、信用纪录、社会评价、资产、暴露于风险的程度等等。
三、基于机器学习的模型基于机器学习的模型是一种新兴的信用风险评估方法。
它是基于大数据和机器学习技术,利用人工神经网络、逻辑回归、支持向量机等算法进行建模,并将模型应用于信用评估中。
当然,这种模型的建立需要考虑到多个维度的因素,如特征选择、数据预处理、模型选择、交叉验证等等。
综上所述,信用评估是贷款和投资等金融和商业活动中最为关键的环节之一。
而要对借款人或投资者的信用状况进行评估,我们需要使用一些有效的模型方法。
当前常见的信用风险评估模型包括德文-肯德尔模型、评分卡模型、基于机器学习的模型等等,每种方法都有其优点和局限性,对于不同的金融机构或企业而言,选择合适的模型方法非常重要。
银行信用评估模型介绍

银行信用评估模型介绍银行信用评估模型是银行业务中重要的工具,用于评估借款人的信用状况及其还款能力。
它通过对借款人的个人信息、财务状况和历史信用记录等数据进行分析和预测,为银行在贷款审批和风险管理中提供参考依据。
本文将介绍几种常见的银行信用评估模型。
一、传统评分卡模型传统评分卡模型是一种经典的银行信用评估模型,以FICO(Fair Isaac Corporation)信用评分模型为代表。
该模型通过对借款人不同特征指标进行加权评分,从而得出整体的信用评分。
这些指标可以包括借款人的年龄、性别、婚姻状况、工作经验、收入状况等。
通过建立样本数据库并对其进行回归分析,确定各指标对信用风险的影响程度,进而得出一个综合的信用评分。
这个评分可以代表借款人的信用等级,方便银行进行信用审批和贷款定价。
二、行为评分模型行为评分模型是基于借款人在银行进行交易活动的数据,如账户余额、存取款频率、贷款还款情况等,来评估其信用状况的模型。
这种模型更加关注借款人的行为表现,通过对交易数据进行统计分析,识别出与高风险行为相关的特征,从而为银行提供对借款人的信用评估。
与传统评分卡模型相比,行为评分模型更加注重借款人的实际行为,可以更精准地评估其信用风险。
三、机器学习模型随着人工智能和大数据技术的发展,机器学习模型在银行信用评估中得到了广泛应用。
机器学习模型可以通过分析大规模的数据集,发现其中隐藏的模式和规律,从而预测借款人的信用风险。
这些模型可以利用多种算法进行训练和优化,如决策树、支持向量机、神经网络等。
相比传统评分卡模型和行为评分模型,机器学习模型更加灵活和准确,可以处理更加复杂的信用评估场景。
四、区块链信用评估模型区块链技术作为一种去中心化的分布式账本技术,正在逐渐应用于信用评估领域。
区块链信用评估模型的特点是更加透明和可追溯,可以消除信息不对称的问题,提高信用评估的准确性和可信度。
借助区块链技术,银行可以实时获取和验证借款人的交易数据和信用记录,更好地判断其信用状况和还款能力。
贷中行为评分卡(B卡)模型

贷中行为评分卡(B卡)模型一、风控业务背景随着新客获客成本越来越高,贷中客户管理越来越重要,包括额度管理(提降额度)、利率调整、提单意愿预测、流失倾向预测、营销响应预测等。
行为评分卡(Behavior Scoring)是一种根据客户在账户使用期间所产生的各种行为,动态预测客户风险的评分模型。
其像是对客户过去一段时间的动态表现录像,然后与其在未来时间的一些状态照片对比。
本文以信用卡和小额信贷分期产品为例,介绍行为评分卡(B卡)的基本知识。
二、信贷场景信贷生命周期管理大致可分为贷前(准入审核、额度授信、支用审批等)、贷中(额度管理、流失预测、营销响应等)、贷后(催收:还款率预测、账龄滚动、失联预测)三个阶段。
图 1 - 信用卡和小额信贷分期产品如图1所示,我们以信用卡和小额信贷分期产品为例,分别介绍两者的特点:1. 信用卡信用卡在审批下卡前的阶段称为贷前,机构(银行、信用卡公司)会对客户风险综合评估,给予一个初始信用额度(如8000元)。
下卡并激活后,进入贷中阶段,期间客户可在信用额度范围内进行透支消费,每两个账单日之间的消费流水账单将在后一个账单日(例如每月8号)通知客户。
账单日至最晚还款日(例如每月26号)前,客户可以随时还款,期间免息。
还款方式一般支持一次性还清和分期还款。
分期还款将产生利息收入,因此对于机构而言,自然是希望客户分期,默认推荐项也就是这个(为提高转化率,UI设计时肯定在右手边)。
一旦客户逾期,那就进入贷后催收阶段。
2. 小额信贷分期在贷前阶段,小额信贷分期产品所产生的每笔支用订单都需审批,通过后才放款到客户手中。
放款后至结清的这段时间称为贷中。
订单具有金额、期限、利率等属性,其约定了出借人和借款人之间的契约。
与信用卡分期还款类似,小额信贷分期产品在每个还款日也必须偿还相应的本金和利息。
在客户发起支用申请订单后,将会生成一张还款计划表,如图2所示。
显然,该还款方式为等额本息,即:在还款期内,每月偿还同等数额的贷款(包括本金和利息)。
评分卡模型评估方法

评分卡模型评估方法全文共四篇示例,供读者参考第一篇示例:评分卡模型是银行和金融机构常用的信用评估工具,它通过对个人或企业的信息进行数学建模和评分,帮助机构准确地评估借款人的信用风险。
评分卡模型的建立和评估是一个复杂且需要一定经验的过程,需要考虑模型的准确性、稳定性和可解释性。
评分卡模型的评估方法有很多种,其中比较常用的包括ROC曲线、KS值和模型AUC值等指标。
ROC曲线是接收者操作特征曲线的缩写,它通过绘制以不同阈值为判断标准的真正例率(True Positive Rate)和假正例率(False Positive Rate)的曲线,来评估模型的准确性。
ROC曲线下的面积即AUC值,AUC值越接近1,代表模型的准确性越高。
除了ROC曲线和AUC值,KS值也是评估评分卡模型的常用指标。
KS值是模型对不同信用风险客户的区分能力,通俗来讲就是在不同阈值下,模型对好客户和坏客户的区分程度。
KS值越高,代表模型的区分能力越强。
在评估评分卡模型时,还需要考虑模型的稳定性和可解释性。
模型的稳定性指的是模型在不同时间段或不同数据集上的表现是否稳定,即使在不同数据集上也能够保持一定的准确性;而模型的可解释性是指模型的每个变量对于最终评分的影响程度是否容易理解和解释。
除了以上的指标外,还可以通过对模型的PSI值进行评估来检验模型的稳定性。
PSI(Population Stability Index)是用来度量两个不同时间点或不同数据集之间的分布变化程度,PSI值越小代表两者之间的差异越小,模型的稳定性越高。
在评估评分卡模型时,需要综合考虑以上指标和方法,以确保模型的准确性、稳定性和可解释性。
还可以通过交叉验证、样本外验证等方法,对模型进行进一步评估和验证,以提高模型的可靠性。
只有在经过严格的评估和验证之后,评分卡模型才能真正发挥其在信用评估和风险控制中的作用。
第二篇示例:评分卡模型是一种用于评估个人或机构信用风险的工具。
python评分卡模型

python评分卡模型信⽤风险计量模型可以包括跟个⼈信⽤评级,企业信⽤评级和国家信⽤评级。
⼈信⽤评级有⼀系列评级模型组成,常见是A卡(申请评分卡)、B卡(⾏为模型)、C卡(催收模型)和F卡(反欺诈模型)。
今天我们展⽰的是个⼈信⽤评级模型的开发过程,数据采⽤kaggle上知名的give me some credit数据集。
⼀、建模流程典型的信⽤评分卡模型如图1-1所⽰。
信⽤风险评级模型的主要开发流程如下:(1) 获取数据,包括申请贷款客户的数据。
数据包括客户各个维度,包括年龄,性别,收⼊,职业,家⼈数量,住房情况,消费情况,债务等等。
(2) 数据预处理,主要⼯作包括数据清洗、缺失值处理、异常值处理、数据类型转换等等。
我们需要把原始数据层层转化为可建模数据。
(3) EDA探索性数据分析和描述性统计,包括统计总体数据量⼤⼩,好坏客户占⽐,数据类型有哪些,变量缺失率,变量频率分析直⽅图可视化,箱形图可视化,变量相关性可视化等。
(4) 变量选择,通过统计学和机器学习的⽅法,筛选出对违约状态影响最显著的变量。
常见变量选择⽅法很多,包括iv,feature importance,⽅差等等 。
另外缺失率太⾼的变量也建议删除。
⽆业务解释性变量且没有价值变量也建议删除。
(5) 模型开发,评分卡建模主要难点是woe分箱,分数拉伸,变量系数计算。
其中woe分箱是评分卡中难点中难点,需要丰富统计学知识和业务经验。
⽬前分箱算法多达50多种,没有统⼀⾦标准,⼀般是先机器⾃动分箱,然后再⼿动调整分箱,最后反复测试模型最后性能,择优选取最优分箱算法。
(6) 模型验证,核实模型的区分能⼒、预测能⼒、稳定性、排序能⼒等等,并形成模型评估报告,得出模型是否可以使⽤的结论。
模型验证不是⼀次性完成,⽽是当建模后,模型上线前,模型上线后定期验证。
模型开发和维护是⼀个循环周期,不是⼀次完成。
(7) 信⽤评分卡,根据逻辑回归的变量系数和WOE值来⽣成评分卡。
信用评估模型研究及应用

信用评估模型研究及应用随着社会经济的不断发展,信用评估模型成为各个领域关注的焦点。
从银行信贷业务到电商平台,从金融风险控制到个人征信服务,信用评估模型的重要性和广泛适用性已经成为众所周知的事实。
在这篇文章中,我们将探讨信用评估模型的相关问题,包括其定义、分类、影响因素、发展现状以及应用前景等。
一、信用评估模型定义及分类信用评估模型是指根据一定的规则和方法,对某个实体的信用状况进行测评和判断,以便对其信用风险进行量化分析和控制的一种工具。
其范围包括个人信用评价、企业信用评估、金融服务信用评估和电商平台信用评估等。
常见的信用评估模型包括:1.传统评分卡模型(Scorecard Model)传统评分卡模型是银行信贷风险控制中最常见的一种模型,其主要通过各种评分卡,对借款人的基本信息、资产负债状况、收入来源、工作经验和信用历史等指标进行分析,最终得出信用评分并进行分类。
2.机器学习模型(Machine Learning Model)机器学习模型是一种比传统评分卡模型更加灵活和精细的信用评估方法。
它通过大数据分析和算法优化,对借款人的个人信息、财务信息、信用历史等多维度指标进行综合评估,并从中挖掘出影响客户信用状况的关键因素。
3.组合评估模型(Combined Model)组合评估模型是一种结合传统评分卡模型和机器学习模型的综合方法。
它分别利用传统评分卡和机器学习模型对客户进行评估,并将两者的评估结果进行加权综合,得出一个更加综合全面的客户信用评级。
二、信用评估模型的影响因素信用评估模型的结果是由多个因素决定的,主要包括客户个人信息、申请贷款的用途、还款能力和历史信用记录等。
1.客户个人信息客户个人信息是信用评估模型的基础,包括客户的性别、年龄、婚姻状况、学历等基本信息。
这些信息在一定程度上反映了客户的社会地位和个人能力,对信用评估起到重要作用。
2.申请贷款的用途不同的贷款用途对信用评估模型所产生的影响也有所不同。
房贷申请评分卡模型、行为评分卡模型评估效果分析

房贷申请评分卡模型、行为评分卡模型评估效果分析
房贷申请评分卡模型和行为评分卡模型的评估效果分析,是对该模型在实际应用中的准确性和可靠性进行评估的过程。
评估效果分析常用的指标有:
1. 准确性指标:包括正确率、误差率、精确度、召回率等,用于评估模型的分类准确性和错误率。
2. 区分度指标:包括KS值(Kolmogorov-Smirnov statistic)和GINI系数等,用于评估模型在不同分数区间的区分能力。
3. 稳定性指标:包括PSI(Population Stability Index)和Woe值变化等,用于评估模型在不同时间段或不同数据集上的稳定性。
具体分析步骤如下:
1. 数据准备:根据评分卡模型的数据需求,准备样本数据集,包括特征变量和目标变量。
2. 模型应用:利用训练集进行评分卡模型的建模,并将模型应用于测试集进行预测。
3. 准确性评估:计算模型的准确性指标,如正确率、误差率、精确度、召回率等,并绘制混淆矩阵进行结果分析。
4. 区分度评估:计算模型的KS值和GINI系数,并根据评估结果进行模型的调整和优化。
5. 稳定性评估:计算模型在不同时间段或不同数据集上的PSI和Woe值变化,并分析模型的稳定性情况。
评估结果的分析和解释,可以帮助判断模型的优劣和是否适用于实际业务需求,并进一步优化和改进模型。
需要根据具体业务场景和数据特点,选择合适的评估指标和方法进行分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评分卡模型0 引言信用评分模型是消费信贷管理中的先进的技术手段,是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。
被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。
信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来总和评估消费者未来的某种信用表现。
信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。
具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。
1 基于Logistic回归分析的客户信用评价卡模型本文将采用 Logistic 逻辑回归分析方法对小额贷款公司的客户信用进行评价。
首先,建立信用评价模型,给出客户信用评分卡模型,并对客户样本进行初步分类预测。
下面的理论基础和变量选择都以该小额贷款公司为例。
1.1 建模的准备1.1.1 目标变量的定义研究的目标变量为客户是否具有“违约”行为,本文是以客户逾期未归还贷款定义为“违约”行为(即“坏”客户)。
1.1.2 定量指标的筛选方法第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显著的指标。
第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显著的指标。
第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显著的指标。
第四种定量指标的筛选方法:通过自变量的逐步回归法,获取自变量中对违约状态影响最显著的指标。
第五种定量指标的筛选方法:采用“Boruta”法,获取自变量中对违约状态影响最显著的指标。
1.1.3 定性指标的筛选方法定性指标的筛选是通过IV值选出适用于建模的指标。
IV的全称是Information Value,中文意思是信息价值,或者信息量。
挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。
但是,其中最主要和最直接的衡量标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。
IV就是这样一种指标,他可以用来衡量自变量的预测能力。
类似的指标还有信息增益、基尼系数等等。
从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。
对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。
前面我们从感性角度和逻辑层面对IV进行了解释和描述,那么回到数学层面,对于一个待评估变量,他的IV值究竟如何计算呢?为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。
这里以年龄(age)为例来帮组了解WOE和IV值的说明和计算公式。
表 1 按“年龄”各属性的“好”、“坏”统计Age #bad #good WOE0-10 50 200 =ln((50/100)/(200/1000))=ln((50/200)/(100/1000))10-18 20 200 =ln((20/100)/(200/1000))=ln((20/200)/(100/1000))18-35 5 200 =ln((5/100)/(200/1000))=ln((5/200)/(100/1000))35-50 15 200 =ln((15/100)/(200/1000))=ln((15/200)/(100/1000))50以上10 200 =ln((10/100)/(200/1000))=ln((10/200)/(100/1000))汇总100 1000表1中以age年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组,#bad和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是WOE值的计算,通过后面变化之后的公式可以看出,WOE反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为WOE蕴含了自变量取值对于目标变量(违约概率)的影响。
再加上WOE计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))如此相似,因而可以将自变量WOE值替代原先的自变量值;计算公式如下:式中:B i代表第i组“违约”用户的数量,B T代表“违约”用户的总数量,G i代表第i组“正常”用户的数量,G T代表“正常”用户的总数量,同样,对于每个分组i,都有一个IV值,IV值的计算公式如下:IV 值衡量的是解释变量对于目标变量的影响显著水平。
在使用 IV 值来考虑解释变量对于目标变量的影响时,解释变量筛选、解释变量赋值编码和模型稳健性评估这些有先后顺序的过程可以同时进行。
筛选出能够较好地预测目标变量的解释变量,并同时给出这些解释变量的一个合理的赋值编码结果。
在进行建模前选择入模变量一般选择IV值较大的变量。
1.1.4 WOE值计算对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。
对连续变量的分段方法通常分为等距分段和最优分段两种方法。
等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值(计算的方法和公式在上面一节有介绍)。
最优分段是指根据变量的分布属性,并结合该变量对违约状态变量预测能力的变化,按照一定的规则将属性接近的数值聚在一起,形成距离不相等的若干区间,最终得到对违约状态变量预测能力最强的最优分段。
1.2 基于逻辑回归的标准评分卡实现Logistic回归在信用评分卡开发中起到核心作用。
由于其特点,以及对自变量进行了证据权重转换(WOE),Logistic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式。
1.2.1 基本公式Logistic回归模型其本身是一个非线性回归模型,经过logit转换(连接函数)将相应变量Y和线性自变量相联系,可以得到一个线性的形式,使用线性回归模型对参数进行估计,所以说logistic回归模型是一个广义线性模型。
下面简单地介绍下Logistic回归模型。
考虑具有n个独立变量的向量x=(x1,x2,…,x n),设条件概率P(y=1|x)=p为根据观测量相对于某事件x发生的概率。
那么Logistic回归模型可以表示为:这里成为Logistic函数。
其中,那么在x 条件下y不发生的概率为:所以这个比值称为事件的发生比(the odds of experiencing an event),简记为odds。
对odds取对数得到:1.2.2 建立模型利用前面的定量指标和定性指标的筛选出来的指标作为建立模型的入模变量,利用这些变量构建Logistic回归模型,得到对应的回归方程和回归模型的系数。
1.2.3模型评估通常一个二值分类器可以通过ROC(Receiver Operating Characteristic)曲线和AUC 值来评价优劣。
很多二元分类器会产生一个概率预测值,而非仅仅是0-1预测值。
我们可以使用某个临界点(例如0.5),以划分哪些预测为1,哪些预测为0。
得到二元预测值后,可以构建一个混淆矩阵来评价二元分类器的预测效果,如表2所示。
所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即TP + TN。
表2 分类结果混淆矩阵预测1 0 合计实际1 True Postive TP False Negative FN Actual Postive(TP+FN) 0 False Postive FP Ture Negative TN Actual Negative(FP+TN)合计Predictpositive(TP+FN)PredictedNegative(FN+TN)(TP+FN+FP+TN)ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,我们根据模型的预测结果对样本进行排序,按此顺序组个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了“ROC曲线”。
ROC曲线的纵轴是“真正例率”(True Postive Rate,简称TPR), 横轴是“假正例率”(False Postive Rate,简称TPR),基于表2中的符号,两者的定义如下:显示的ROC曲线的图称为“ROC图”,如图1所示。
图1 ROC曲线和AUCROC绘图过程是:对于给定的样本集,根据建立的模型预测结果对样例进行排序,然后把分类阈值设为最大,即把所有样例均预测为反例此时真正例率和假正例率均为0,然后,将分类阈值设为每个样例的预测值,分别计算它们的TPR和FPR,得到一系列的FPR和TPR 值,将它们为坐标画出ROC曲线图。
用下面的例子来详细讲解画图步骤。
假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。
Inst# Class Score Inst# Class Score1 p 0.9 11 p 0.42 p 0.8 12 n 0.393 n 0.7 13 p 0.384 p 0.6 14 n 0.375 p 0.55 15 n 0,366 p 0.54 16 n 0.357 n 0.53 17 p 0.348 n 0.52 18 n 0.339 p 0.51 19 p 0.3010 n 0.505 20 n 0.1接下来,我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。