贝叶斯网络预测信用卡欺诈行为

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

贝叶斯网络预测信用卡欺诈行为

——贝叶斯网络应用(1)

一、理论说明

1.贝叶斯网络的应用

使用贝叶斯网络,可以通过将观察到并记录下的数据与实际常识结合起来构建概率模型,以通过使用表面看上去不相关的属性确定发生的可能性,找出一个结果到底与哪些影响变量相关,或者说,究竟是什么因素影响了结果。

贝叶斯分类模型继承了贝叶斯网络的优点并具有良好的分类精度,正受到越来越多的关注,并广泛的应用在欺诈识别、客户管理、医学诊断上、互联网搜索上,比如,利用贝叶斯分类模型建立客户的等级分类,如信用等级、忠诚等级,当新客户出现时,即可以按该分类模型对其等级情况做出分类预测。又比如本文所例举的,根据信用卡用户的信用记录及相关信息建立用户的信用模型,并监测哪些用户会做出贷款拖欠的行为。

2.贝叶斯网络模型

(1)贝叶斯原理

统计学分成两派,一派是传统的频率学派,一派是贝叶斯派,能够在统计学界自成一派,可见其影响。贝叶斯的核心思想在于一个公式

P(A|X)=P(X|A)·P(A)/P(X)

其中A是随机变量,X是数据,P(X|A)是似然,P(A)是先验分布,P(A|X)是后验分布,P(X)是一个数。

这个公式的意义在于,我们可以通过一个经验的概率,加上数据的实践,来得出一个后验的概率,也就是说“经验+数据=结果”。那么将这个原理用在贝叶斯网络上,即将先验贝叶斯网络和数据相结合而得到一个后验贝叶斯网络。那么什么是贝叶斯网络?

(2)贝叶斯网络模型概述

贝叶斯网络(Bayesian network),又叫概率因果网络、信任网络、知识图等,是一种有向无环图。一个贝叶斯网络由两个部分构成,一个是具有K个节点的有向无环图,图中有节点和连接节点的有向边,节点代表随机变量,有向边代表了节点间的相互关联关系。

另一个是与每个节点相关的条件概率表(Conditional Probabilities Table,CPT)P,它表示了节点和父节点之前的相关关系,这个关系就是条件概率。那么由这个图G和概率表P构成的网络就是贝叶斯网络,贝叶斯网络有如下假设(或者规定):

给定一个父节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节点子集。即如果用A(V i)表示非V i后代节点构成的任何节点子集,用∏(V i)表示V i的直接双亲节点,则

p(Vi|A(Vi),∏(V i))=p(Vi|∏(Vi))

在这个假定下,变量Vi的联合概率就是:给定每个节点的父节点情况下,每个节点条件概率只积,如图中的联合概率为

p(V1,V2,...,V6)=p(V6|V5)·p(V5|V2,V3)·p(V4|V2)·p(V3|V1)·p(V2|V1)·p(V1)

这就是贝叶斯网络和其网络的概率。我们可以让贝叶斯网络通过数据不断的学习修正,上次修正的贝叶斯网络又是下次学习的先验贝叶斯网络,持续的学习使得网络更能体现数据的意义,即,让数据来说话!

(2)树增强朴素贝叶斯网络模型概述

尽管贝叶斯网络有良好的逻辑性、预测性、并在处理复杂问题上有很大的优势,但它的假

设还是带给了它一定的局限性(还记得刚才说的贝叶斯网络那拗口的假设?——给定一个父节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节点子集)。近年来,很多学者对贝叶斯网络模型做了改进,其中一个重要的改进模型就是树增强的朴素贝叶斯网络模型(Tree Augmented Naïve Bayes),英文简称TAN。

TAN放松了独立性的假设,它的核心在于:除了父节点之外,每个节点还可以有一个节点的边指向它。

树增强的朴素贝叶斯主要用来分类,由于他允许一个节点被除父节点之外的另一个节点指向,因此有更高的分类精度。但是TAN要求节点,即随机变量均为离散型,因此有必要将连续的变量离散化,但这却损失了连续变量中包含的信息。

(3)马尔科夫链贝叶斯网络模型概述

马尔科夫毯贝叶斯网络模型(Markov Blanket Algorithms),事前不对节点之前做边指向,换句话说,初试图是一个只有节点没有边的空图,而后通过一定的检验来辨认变量之间的条件独立,并逐步识别出贝叶斯网络的结构。但这也会带来计算的复杂性,并花费更长的时间,一个办法是用特征选择过程(Feature Selection)来筛选对目标变量关系显著的变量。

二、案例分析

1.案例说明

某银行希望依据现有的客户贷款拖欠数据,来预测未来哪些潜在客户可能在偿还贷款时有问题,以便对这些“不良风险”的客户减少贷款,或者为他们提供其他产品。

现有的客户数据包含了当前贷款拖欠情况(default)、客户年龄(age)、受教育程度(ed)、职业(employ)、家庭地址(address)、收入(income)、负债率(debtinc)、信用卡债务(creddebt),其他债务(othdebt)和三个其他相关变量preddef1、preddef2、preddef3,现在用SPSS CLEMENTINE对已有的数据进行三种贝叶斯网络模型的建模——TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网络,并同时用人工神经网络模型建模,以比较这四个模型的分类效果。

2.软件实现

使用CLEMENTINE读入数据,并将default的字段方向改为输出,用过滤节点过滤掉无效的空值。接着用对数据创建TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网络,和人工神经网络(也可以用来预测)。

3.结果说明

(1)TAN模型如下图:

可以看出,TAN模型创建的结果是变量preddef2对是否拖欠贷款最重要,其次是变量preddef1和其他负债情况(othdebt)

(2)马尔科夫毯模型结果如下:

可以看出,马尔科夫毯模型结果是变量preddef3对是否拖欠贷款最重要,其次是变量preddef2和preddef1.

(3)特征选择的马尔科夫毯模型结果如下:

由于进行了特征选择,图中可以看出只选择了两个变量,对拖欠贷款最重要的是preddef2。(4)人工神经网络结果:

人工神经网络结果是preddef2对是否拖欠贷款最重要,其次是变量preddef1,地址(address)。

(5)四种模型效果评估

CLEMENTINE提供了“分析”节点,以评估模型的预测效果。将分析节点添加入流,执行得到评估结果如下:

可以看出,准确率最高的是马尔科夫毯模型,在数据学习后,对现有数据中贷款的拖欠情

相关文档
最新文档