基于clementine神经网络的电信客户流失预测

合集下载

Logit模型预测客户流失 - 软件测试,数据分析

Logit模型预测客户流失 - 软件测试,数据分析
一、logit模型
在一般线性模型中,因变量为一个连续变量,如建立一个GDP与进出口的线性模型,GDP为一个连续变量。但在实际工作中,因变量常常为分类变量,比如性别,要么是男性、要么是女性,又如本文要解决的,对电信客户是否流失的预测。这时可以用事件的发生概率P为因变量,以影响因素作为自变量,进行线性回归分析,那么此时因变量P的取值就必须是0-1之间,一般的线性回归分析就不能满足了,logit回归可以解决这个问题。
7 0 0 0 1.45 0.0862 0
8 1 0 0 2.63 0.0299 0
9 0 1 1 1.34 0.6638 1
10 1 1 0 2.15 0.3259 0
11 0 0 0 3.09 0.0056 0
12 1 0 1 1.58 0.3223 0
13 0 0 0 3.47 0.0029 0
ln()=
优势比如图:
从优势比中可以得到结论,男性流失概率是女性的2.5倍,接受语音聊天服务顾客的流失率是不接受的6.86倍,使用电子账户的客户流失概率是不使用的2.53倍,长途服务中,距离越长顾客的流失概率为稍低一个等级顾客的0.18倍。
(3)预测telcotest.sav的客户流失
将telcotest的新客户数据代入生成的logit模型中,只需要代入gender、voice、ebill、loglong四个变量,预测结果如下表所示:
No. Gender Voice Ebill Loglong Churn 是否流失
1 0 0 0 1.65 0.0626 0
2 0 1 0 2.52 0.0929 0
3 1 1 1 2.96 0.2326 0
4 0 0 0 2.2 0.0253 0
5 1 1 1 1.45 0.8031 1

基于神经网络的客户流失预警研究

基于神经网络的客户流失预警研究

摘要基于神经网络的客户流失预警研究面对不断变化的市场需求和竞争激烈的市场环境,将客户流失率降至最低,是企业赢得市场、取得成功的根本。

自从我国加入WTO后,各个市场对外开放,我国各行各业都面临来自外国产品的竞争,大大加重了企业对客户资源的争夺,与此同时,信息技术的快速发展推动了电子商务时代的到来,网络营销以其独特的优势运营而生,使得供应商也成为企业的竞争对手,这对零售企业来说无疑是雪上加霜。

因此,对零售行业的进行客户关系管理显得迫切而重要。

客户关系管理的重点在于降低客户流失率,而降低客户流失率的关键在于客户流失预警,进行客户流失预警的常用技术是数据挖掘。

本论文在客户关系管理的大知识背景框架下,梳理分析客户流失管理相关理论的基础上,利用数据挖掘技术方法对零售业客户流失预测问题进行了研究。

本文首先回顾了客户关系管理的相关理论知识,客户流失的定义、原因及客户流失管理过程,探讨了客户价值的概念以及客户价值评估的几类算法。

然后提出了基于RFM客户价值和IG-NN属性选择的客户流失预警模型,利用RFM模型计算出客户价值,用信息增益选择主要属性,再用神经网络分析每个主要属性对客户流失率的影响程度并结合二八法则判断导致客户流失的关键属性,并以客户价值、关键属性作为神经网络的输入,客户流失概率作为网络输出,构建基于RFM客户价值和IG-NN属性选择的客户流失预警模型。

然后将本文所得结果与单一神经网络和基于IG-NN属性选择的客户流失预警模型进行对比,发现本文的客户流失预警模型在准确率、命中率、覆盖率以及提升度方面均优于另外两个模型。

最后,对本文的研究结论进行了总结,并对未来研究提出展望。

关键词:客户价值,RFM模型,信息增益,神经网络,属性选择,零售业AbstractResearch on Customer Churn Early-warningBased on Neural NetworkIn nowadays, the market demands are changing continuously and the market is full of competition, so minimizing the loss of customers is an essential method for enterprises to win the market shares and successes. Since we acceded in WTO, domestic industries have been facing on the increasing challenges from abroad for the opening of the market, which aggravates the contest on customer resources. Meanwhile, the development of information technology brings electronic commerce. Owing to the network marketing’s advantages, the suppliers are accounted as opponents by enterprises, and this situation is especially severe for the retailers. For above reason, customer analysis is necessary and urgent in retailing.The point to decrease the loss of customers is early warning, which always take advantages of data mining technology. The work in this article is conducted on the framework of customer relations management, researching the early warning on customer losses by means of data mining technology. At first, relevant basic theory on customer relation management is reviewed in this article, including the definition, reason and management of the loss of customers. Then discussions on customer values and some kinds of algorithms are demonstrated. Secondly, the early warning model is constructed base on RFM customer values and IG-NN attributes selection. In this model RFM is used to calculate customer values, and the main attributes are selected according to the information gains. The neural net analyses all main attributes’ contributions on the loss rate of customers and then gives the key attributes in accordance with the Rule of two eight. Another neural net is trainedusing customer values and key attributes as inputs and loss rate of the customers as output, so we say the constructed model is based on RFM customer values and IG-NN attributes selections. Comparisons between our model with single neural net as well as that only base on IG-NN attributes selections are also done in this article. The results show that our model is more satisfactory than those two on the aspects of accuracy, hit rate and speed improvement. The last part is the conclusion and some discussion on future researches.Key words:Customer value ,RFM model ,Information gain,Retali businessNeural network ,Attribute selection目录第1章绪论 (1)1.1研究背景、目的、意义 (1)1.2研究方法 (2)1.3论文的组织结构 (3)1.4论文创新点 (4)第2章文献综述 (5)2.1客户关系管理理论 (5)2.2客户流失理论 (7)2.3客户价值理论 (12)2.4数据挖掘 (17)第3章零售业客户流失预警模型的构建 (30)3.1客户流失预警的概念及其内容 (30)3.2客户流失预测系统的结构及功能 (31)3.3客户价值计算及属性选择 (34)3.4构建零售企业预测客户流失概率的BP网络模型 (37)第4章实证分析 (43)4.1数据准备 (43)4.2属性选择 (46)4.3计算客户流失概率 (50)4.4客户价值与客户流失概率相关性分析 (52)4.5模型评估 (53)结论与展望 (56)参考文献 (58)致谢 (62)第1章绪论1.1 研究背景、目的、意义市场中存在着各行各业,零售企业是指那些专门从事采购日用品及非生产性消费品,并连同一定的服务将它们向最终消费者出售的营利性经济组织[1]。

基于注意力机制的电信用户流失预测模型研究

基于注意力机制的电信用户流失预测模型研究

基于注意力机制的电信用户流失预测模型研究基于注意力机制的电信用户流失预测模型研究摘要:随着电信行业竞争日益激烈,如何预测用户流失并采取相应措施已成为电信企业关注的焦点。

本文提出一种基于注意力机制的电信用户流失预测模型,通过对多个因素进行分析和建模,预测客户是否会发生流失。

该模型采用自注意力机制,能够对数据中不同特征之间的关系进行建模,有效提高了预测的准确性和稳定性。

在数据集上的实验结果表明,该模型的准确率达到了85%以上,比传统的预测方法显著提高了预测效果。

关键词:电信用户流失;预测模型;注意力机制;自注意力机制一、引言电信公司是信息技术领域的先行者之一,其用户是竞争者争夺的重要资源。

然而,由于竞争激烈和客户需求变化等原因,电信用户流失已经成为一个普遍的问题。

预测用户流失并及时采取相应措施,不仅可以提高客户满意度和忠诚度,也能够有效降低企业的成本和风险。

因此,电信用户流失预测成为电信企业关注的焦点和研究的热点之一。

传统的电信用户流失预测方法主要基于统计分析和机器学习技术,如逻辑回归、决策树、支持向量机等。

然而,这些方法在建模多个因素、挖掘数据潜在关联等方面存在一定的局限性。

随着深度学习技术的发展,基于神经网络的用户流失预测方法逐渐得到广泛的应用,如多层感知机、循环神经网络等。

然而,当特征之间存在较强的关联性时,这些方法往往难以准确地捕捉其之间的复杂交互。

为了解决这一问题,本文提出了一种基于注意力机制的电信用户流失预测模型。

注意力机制是近年来深度学习领域广泛使用的一种技术,它可以通过对不同特征之间的重要性进行加权,同时对数据中不同特征之间的关系进行建模,有效提高了模型的准确性和稳定性。

本文采用自注意力机制,用于建模特征之间的交互关系,从而更好地捕捉潜在的数据关联。

实验结果表明,该模型相较于传统的预测方法,在预测准确率和稳定性方面都取得了显著的提高。

二、相关工作电信用户流失预测是业界和学术界长期关注的研究问题,已经涌现出许多优秀的方法。

第四篇-电信客户流失影响因素与预测分析

第四篇-电信客户流失影响因素与预测分析

电信客户流失影响因素与预测分析一、引言目前电信运营商面临着激烈的市场竞争。

对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。

因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。

客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。

可以说,未来的电信行业,得客户者得天下。

当今电信市场竞争激烈,运营商每月客户流失率在1%~3%,挽留将要流失客户,降低客户流失率是近年来热门的研究领域。

而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine(IBN SPSS Modeler)进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户。

二、问题分析根据已有的结果——流失客户(在数据中直接有判别数据有没有流失的字段churn),寻找他们流失的原因,即流失客户的特征。

通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。

对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。

三、算法简介3.1分类分析分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。

分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。

分类技术已经在很多领域得到成功应用,如医疗诊断,客户流失预测,信用度分析,客户分群和诈骗侦测。

使用Clementine多项式Logistic回归判定电信客户类别

使用Clementine多项式Logistic回归判定电信客户类别
Ab s t r a c t :Ac c o r d i n g t o u s a g e p a t t e r n s o f c u s t o me r s ,t e l e c o m s e r v i c e p r o v i d e r s c l a s s i f y t h e m i n t o f o u r c a t e g o i r e s :b a s i c s e r v i c e s ,
a c c u r a c y , we c a n i n v e s i t g a t e t h e c a t e g o i r e s o f p o t e n t i a l c u s t o me s r . T h e e x p e r i me n t a l r e s u l u s h o w t h a t t h e u s e r ’ S e d u c a t i o n l e v e l , j o b t e n u r e ,
s e t t l e d l i v e s a n d t h e n u mb e r o f f a mi l y me mb e r s l e a d s h i d i s c imi r n a t i n g a c c u r a c y f o r a d it d i o n a l —s e r v i c e C l a S S . Th e s e i f e l d s s h o u l d b e i n v e s i t g a t e d f r o m p o t e n t i l a u s e s’ r d e mo ra g p h i c s .
【 中图分类号 】T N9 1 4

神经网络在客户流失预测系统的应用

神经网络在客户流失预测系统的应用
出向量和对应的目标输出向量都接近,才认为训练结束,权值都得到固定,此时,该网络便 构成了一个模式分类器。[3]
-2-

3. 基于BP神经网络的客户流失预测模型
现以某超市为例,基于BP神经网络的客户流失预测系统系统采用JAVA程序设计语言编 程实现,整个系统的软件结构主要由数据输入、数据预处理、神经网络学习、神经网络测评 四个模块组成.影响客户流失的因素有很多,企业和客户方面的都有。具体评价指标笔者主 要总结一下几个,分别为X1,X2,X3,X4,X5,X6,其中X1代表产品质量,X2代表客户服 务,X3代表产品价格,X4代表购物环境,X5代表产品种类,X6代表售后服务。通过市场调 研让顾客给超市的以上指标打分,我们将评价指标及评价目标的取值范围定为[0,10], 在综合考虑各种情况的基础上,得到如表1所示的 BP 神经网络学习样本集。
客户的需求就是企业奋斗的目标,随着信息化时代的到来,我们的传统工作方式发生了 显著的变化。在各大中小企业,商业以及服务行业里,对客户需求进行综合测评的工作也开 始计算机化。评价一位顾客的综合需求,须从等方面进行,而各个评价指标和总体综合素质 之间的关系并不一定是简单的线性关系,所以本文利用 BP 神经网络建立了客户需求综合 测评模型,为CRM客户流失预测模型的研究提供了有意义的参考价值,而且还使企事业的 管理人员从繁琐、重复的工作中解脱出来,提高工作效率[1]。
1. 引言
在当今的商业环境中,竞争对手的增加、业务的多样化和经济的全球化使企业之间的竞 争日益激烈。新经济时代的到来,使得客户成为企业至关重要的成功因素和利润来源,谁把 握了客户,谁就拥有了市场。企业的战略正从“以产品为中心”向“以客户为中心”转变。他们 已经意识到,只有不断通过各种渠道加强与客户之间的交流,并且不失时机地从中获取有用 信息,才能改善客户关系,提高客户满意度,从而增强自身的核心竞争力,在竞争中立于不 败之地。

基于神经网络模型的客户流失分析研究

基于神经网络模型的客户流失分析研究

基于神经网络模型的客户流失分析研究第一章绪论1.1 研究背景客户流失是企业面临的一个难题,对企业的经营和发展都有不利影响。

随着信息化、数字化时代的到来,客户数据快速积累,如何利用这些数据分析客户流失成为了企业面临的一个重要问题。

神经网络模型是一种常见的数学模型,可以较好地处理高维、非线性数据。

基于神经网络模型的客户流失分析研究成为了一个热门的研究方向。

1.2 研究目的本文旨在探讨基于神经网络模型的客户流失分析方法,以提高企业对客户流失的预警和防范能力,增强企业竞争力。

1.3 研究内容1)回顾客户流失的研究现状和问题2)介绍神经网络模型的原理和应用3)提出基于神经网络模型的客户流失分析方法4)实证分析和结果讨论5)总结和展望第二章客户流失的研究现状和问题2.1 客户流失的概念客户流失是指原本使用某企业产品或服务的客户不再使用或购买该产品或服务,包括永久性和暂时性的流失。

2.2 客户流失的原因客户流失有多种原因,包括:产品价值不足、服务质量下降、竞争对手优势、个人喜好变化等。

2.3 客户流失的影响客户流失对企业经营和发展产生不利影响,包括:减少收入、增加营销成本、降低品牌形象、损害企业声誉等。

2.4 客户流失的研究现状在客户流失的研究中,传统的统计学方法主要集中在描述性统计和因果关系的分析,而在机器学习和大数据时代,基于数据挖掘和深度学习的方法受到越来越多的关注。

2.5 客户流失的问题客户流失的问题主要包括以下几个方面:1)数据质量的不稳定,可能带来预测偏差和误解。

2)缺乏有效的特征选择方法,模型泛化能力较弱。

3)不同的客户流失原因需要采用不同的分析方法。

第三章神经网络模型的原理和应用3.1 神经网络模型的基本原理神经网络模型是一种模拟人脑神经元对信息进行处理的数学模型,其基本原理是通过数据的训练,对隐含于数据中的模式进行识别和分类,从而构建一个具有自我学习和发现能力的模型。

3.2 神经网络模型的应用神经网络模型已在很多领域得到广泛应用,包括图像识别、自然语言处理、语音识别、财务分析等。

基于神经元网络的客户流失数据挖掘预测模型

基于神经元网络的客户流失数据挖掘预测模型


要: 数据挖 掘技 术是预测客 户流 失最常 用的方 法。 以电信行 业的客 户流失 问题 为研 究 对象, 讨论如何提 高
使 用数据挖掘对客 户离网预测的准确性。通 过分析 离网客 户建立挖掘模 型 , 获得 大量 流失的客 户群 特征 , 服 务属性 和客 户消费数据 与流失的最终状态的关 系, 并用此 关系建 立不 同的算 法的挖掘模 型 , 最后 分析、 验证 不 同模型的优缺 点, 给 出挖 掘的最佳 方案, 制定具体有效的挽 留战略 以减少流失率, 其结果也体现 了基 于神经元 网络 的移动大客户流
J o u r n a l o f C o mp u t e r Ap p l i c a t i o n s
I S S N 1 0 01— 9 0 8l
2 01 3一 O 6— 3 O
计算机应 用, 2 0 1 3 , 3 3 ( s 】 ) : 4 8— 5 1
文章编号 : 1 0 0 1 — 9 0 8 1 ( 2 0 1 3 ) S 1— 0 0 4 8— 4 0
L I Ya n g
( S c h o o l o f I n f o r m a t i o n a n d C o m p u t e r ,A n h u i A g r i c u l t u r a l U n i v e  ̄ i @,He f e i A n h u i 2 3 0 0 3 6 ,C h i n a )
c u s t o m e r c h u r n p r o b l e m a s t h e r e s e a r c h o b j e c t ,t h i s p a p e r d i s c u s s e d h o w t o i m p r o v e t h e p r e d i c t i o n a c c u r a c y o f c u s t o m e r c h u据挖掘 ; 客 户流 失 信 息 ; 移 动 业务 支撑 系统 ; 神 经元 网络 ; 预 测 模 型 中 图分 类 号 : T P 3 1 1 . 1 3 ; T P 1 8 2 文献标志码 : A
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于clementine神经网络的电信客户流失预测基于clementine神经网络的电信客户流失模型应用昆明理工大学信息与自动化学院颜昌沁胡建华周海河摘要本文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,以电信行业为背景,通过收集客户的基本数据、消费数据和缴费行为等数据,建立离网客户的流失预测模型。

进行客户流失的因素分析以及流失预测。

以某电信分公司决策支撑系统为背景,通过在电信一年半时间的领域调研和开发实践,以此为基础,使用了统计分析和数据挖掘的技术,对PAS客户流失主题进行了较为完善、深入的分析与研究,为电信经营分析系统作了有益的尝试与探索。

针对PAS客户流失分析主题,本文选取了3个月的PAS在网用户和流失用户及其流失前的历史消费信息为样本,确定了个体样本影响流失的基本特征向量和目标变量。

通过对大量相关技术和统计方法的研究,最终确定了clementine的神经网络模型来作为电信客户流失的预测模型。

实践证明,本论文整体的技术路线是可行的,神经网络模型对电信客户流失预测有较高的准确性,所发现的知识具有一定的合理性和参考价值, 对相关领域的研究起到了一定的推动作用。

关键词:数据挖掘、客户流失、统计分析、神经网络一、引言本文是基于中国电信某分公司经营分析支撑系统项目为背景来展开的。

电信分公司经营分析支撑系统是电信运营商为在激烈的市场竞争中生存和持续发展,尽可能全面地满足企业经营管理工作的需要,跟上市场形势的变化,使庞大的数据库系统有效地产生企业知识,以新经营管理支撑手段及时准确地了解市场竞争、业务发展和资源使用情况,以便及时发现问题和解决问题,并根据分析结果及时调整政策而开发的分析系统。

根据调查机构的数据显示,“用户保持率”增加5%,就有望为运营商带来85%的利润增长,发展一位新客户的成本是挽留一个老客户的4倍;客户忠诚度下降5%,则企业利润下降25%;向新客户推销产品的成功率是15%,然而,向老客户推销产品的成功率是50%。

这些数据表明:如何防范老客户流失必须要引起高度重视。

对企业而言,长期的忠诚客户比短期获取的客户更加有利可图。

因为长期顾客较容易挽留,服务成本比新顾客低,而且能够为公司宣传、带来新的客户,因此客户离网成为电信运营商们最为关注的问题之一。

本文针对电信分公司PAS流失客户,从时间、地域、产品类型、在网时长、用户状态、消费金额、年龄等角度进行分析,通过构建数据仓库模型得到数据挖掘需要的样本集,通过聚类及知识领域的指导来生成关于PAS客户流失的神经网络模型,找出PAS客户流失的特征和规律,来辅助电信公司制定营销政策。

二、研究现状及神经网络模型特点国内的电信企业出于市场竞争的需求,大多己建立或在建“电信经营分析系统”,客观上为深层次的数据分析提供了良好的数据平台。

但是在分析及应用开发上,大多数的“经营分析系统”都基于固定报表、即时查询以及主观探索OLAP基础之上,深层次的数据挖掘大多处于理论探讨和尝试的阶段。

在国外,不少知名的电信公司利用数据挖掘技术提升利润空间,通过建立流失客户的预测模型,对高流失概率的客户进行针对性的市场挽留工作,能够明显减小在网客户的离网率。

目前采用的流失预测的数据挖掘模型包括决策树、神经网络、逻辑回归、聚类关联性分析等,其中大多数流失模型采用决策树进行建模,比如C4.5及其扩展、CART等模型。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含生其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

Clementine 是一个数据挖掘工具平台,通过此平台可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。

Clementine 参照行业标准 CRISP-DM 模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。

在clementine中有各种不同的模型节点,如:K-Means 节点将数据集聚类到不同分组(或聚类)。

分类和回归树(C&RT)节点生成可用于预测和分类未来观测值的决策树。

线性回归是一种通过拟合直线或平面以实现汇总数据和预测的普通统计方法。

二元分类器节点用于创建和对比二元结果(是或否,流失或不流失等)的若干不同模型,使用户可以选择给定分析的最佳处理方法。

Logistic 回归是根据输入字段值对记录进行分类的统计技术。

本文选择的是神经网络模型节点来进行电信的客户流失预测。

神经网络节点使用的模型是对人类大脑处理信息的方式简化了的模型。

此模型通过模拟大量类似于神经元的抽象形式的互连简单处理单元而运行。

神经网络是功能强大的一般函数估计器,只需要最少的统计或数学知识就可以对其进行训练或应用。

神经网络是神经系统运转方式的简单模型。

其基本单元是神经元,通常将其组织到层中,这些处理单元都位于层中。

通常在神经网络中有三个部分:一个输入层,其中的单元表示输入字段;一个或多个隐藏层;一个输出层,带有一个或多个表示输出字段的单元。

这些单元通过可变的连接强度(或权重)连接。

输入数据显示在第一层,其值从每个神经元传播到下一层的每个神经元。

最终从输出层中输出结果。

该网络可通过以下过程进行学习,即检查单个记录,然后为每个记录生成预测,并且当生成的预测不正确时,对权重进行调整。

在满足一个或多个停止标准之前,此过程会不断重复,而网络会持续提高其预测准确度。

最初,所有的权重都是随机生成的,并且从网络输出的结果很可能没有意义的。

网络可通过训练来学习。

向该网络重复应用已知道结果的示例,并将网络给出的结果与已知的结果进行比较。

从此比较中得出的信息会传递回网络,并逐渐改变权重。

随着训练的进行,该网络对已知结果的复制会变得越来越准确。

一旦训练完毕,就可以将网络应用到未知结果的未来案例中。

神经网络节点可以处理数字、符号或标志型输入和输出。

神经网络节点应使用一个或多个方向为输入的字段,以及一个或多个方向为输出的字段。

设置为双向或无的字段将忽略。

执行节点时,字段类型必须已完全实例化。

三、神经网络模型的构建及应用在clementine中应用神经网络进行电信客户流失预测的过程如下:首先选择数据源:本例中数据源为一个电子表格,打开clementine11在底部的选项板区中选择数据源项,双击其中的excel, 右击excel选择编辑,在导入文件中选择要用的数据源。

然后在选项板中选择字段选项,选择其中的类型,进行编辑,读取所有值后将标识客户流失项设置为输出,总的挖掘过程如下图所示:在设置好输出后,在建模里选择特征选项,特征选择节点会根据某组条件(例如缺失百分比)筛选可删除的预测变量字段,对于保留的预测变量,随后将对其相对于指定目标的重要性进行排序。

这项的目的是用于对所有输入的项进行选择,可以用系统默认的设置,这样能保留哪些对输出(也就是客户的流失标志)有影响的项,以及各项对此的影响效果大小。

能去掉哪些对输出没有影响的项。

执行以后会生成一个模型,在这个特征模型里选择生成过滤节点,在过滤节点里,我们可以看到哪些对输出没有影响的项已经被过滤了,当然这一步如果对数据非常熟悉的话,也可以直接从数据类型里来做。

如下图所示:接着我们在模型里面选择神经网络,编辑神经网络模型的选项,可以在里面选择要使用的方法, Clementine 提供了六种用于构建神经网络模型的训练方法:1.快速:此方法使用数据的简明规则和特征来选择合适的网络形状(拓扑)。

2.动态:此方法会创建一个初始拓扑,但可以在训练过程中增加和/或删除隐藏的单元,从而修改该拓扑。

3.多重:此方法会创建几个具有不同拓扑的网络(确切数量取决于训练数据)。

4.修剪:此方法首先从一个较大的网络开始,然后会在训练过程中删除(修剪)隐藏层和输入层中最差的单元。

此方法通常速度较慢,但比其他方法产生的结果要好。

5.RBFN,6.穷举型修剪。

在模型中设置预防过度训练。

此选项会将数据随机分割为两部分,训练集合和检验集合,以便于建模。

如果正在使用单独的分区字段(例如分区节点创建的分区字段),预防过度训练设置则仅适用于训练分区,实际效果为“对分区进行分区”。

而设置随机数种子的意义在于:如果不设置随机数种子,则每次执行节点时用于初始化网络权重的随机值的序列都会不同。

这将导致即使节点设置和数据值都完全相同,节点也会在不同的运行中创建不同的模型。

通过选择该选项,可以将随机种子设置为特定值,从而使结果模型具有精确的可再现性。

特定的随机种子通常会生成相同的随机值序列,在这种情况下执行节点通常会产生相同的生成模型。

有以下几种停止标准:1.默认:如果使用此设置,网络将在表现为已经达到其最佳训练状态时停止训练。

2.精确性(%):如果使用此选项,训练则会一直继续,直到达到指定的精确性。

这种情况可能永远不会出现,但您可以随时中断训练,以截止到目前所达到的最佳精确性保存该网络。

3.周期:如果使用此选项,训练将持续指定的周期数(传递数据的次数)。

如果使用此选项,训练将持续指定的时间长度(以分钟为单位)。

5.选择内4.时间(分钟):存使算法在适当的时候以牺牲一定的速度为代价使用磁盘溢出,默认情况下选中此选项。

注意:以分布模式运行时,此设置可被在 options.cfg 中指定的管理员选项覆盖。

选项中有几个选项应加以注意:1.继续训练现有模型,默认情况下,每次执行神经网络节点时,都会创建一个全新的网络。

选择此选项,则训练会继续,直至节点成功生成最后一个网络。

2.使用二进制集合编码,选择此选项,Clementine 将对于集合字段使用压缩的二进制编码方案,可以将具有很多个值的集合字段用作输入,从而更加简便地构建神经网络模型。

3.显示反馈图形,可看到一个显示网络精确性的图形。

4.敏感度分析,敏感度分析会提供哪些输入字段对于预测输出字段最重要的相关信息。

下图为模型在生成前的选项和生成后的统计情况。

在执行后会在右面的窗口中生成神经网络模型,打开模型,可看到统计的数据,模型的准确度及时间等,还可在模型里导出PMML及导出SQL等。

在模型的准确度达到要求以后,将生成的模型导入到业务支撑系统中,在导出模板中,选择数据库,输入服务器地址及数据库名称。

如下图所示:四、客户流失分析及总结经过模型的建立和生成,对其进行分析整理后,可看出PAS 客户流失的特征,在没有预存的用户中,客户的流失率达到20%,比有预存的用户流失率要高8个百分点。

而在FEE_ALL这一项中,高端客户的流失率较低,PAS流失最严重的客户群在月消费为10至40的客户,流失率在22%以上,这也是占比最多的一部分。

如下表所示 FEE_ALL 流失数总用数流失率100<X<=150 50 666 0.07507580<X<=100 70 701 0.09985770<X<=80 65 551 0.11796760<X<=70 142 948 0.1497890<X<=10 425 2723 0.15607820<X<=30 969 4387 0.2208830<X<=40 711 3081 0.23076910<X<=20 959 4122 0.232654在网时长这一项中,在网时长位于28至31这一段的客户流失最为严重,流失率高达30%以上,应重点关注这部分用户。

相关文档
最新文档