利用数据挖掘实现电信行业客户流失分析

合集下载

电信行业数据挖掘技术应用案例总结

电信行业数据挖掘技术应用案例总结

电信行业数据挖掘技术应用案例总结数据挖掘技术是一种从大量数据中获取有用信息的技术,通过使用数据挖掘技术,电信行业可以挖掘出隐藏在海量数据中的商业价值,从而提升运营效率和用户体验。

本文将总结电信行业中常见的数据挖掘技术应用案例,以展示数据挖掘在电信行业中的重要作用。

1. 客户细分电信行业拥有海量的用户数据,包括用户的姓名、年龄、性别、通话时长、通话频率、上网流量等信息。

通过数据挖掘技术,电信公司可以将用户进行细分,以便更好地了解不同用户群体的需求,并提供个性化的服务。

例如,通过挖掘用户的通话记录和上网流量,可以将用户分为高通话时长用户、高上网流量用户等不同群体,并根据他们的喜好和需求提供相应的增值服务。

2. 欺诈检测电信行业一直面临着欺诈问题,例如,SIM卡被盗用或者用户欺诈行为等。

数据挖掘技术可以通过分析用户通话记录、短信记录以及其他使用数据的方式来检测潜在的欺诈行为。

通过建立欺诈检测模型,可以识别出一些异常行为,如通话时长、通话次数等异常指标,从而减少欺诈事件的发生。

3. 用户流失预测对于电信公司而言,用户流失是一个关键的问题。

通过数据挖掘技术,可以分析用户的使用行为和消费情况,找到用户流失的关键特征,并建立流失预测模型。

通过监测这些特征,并及时采取措施如提供个性化的优惠刺激措施,电信公司可以有效降低用户流失率,提升客户满意度。

4. 营销有效性分析数据挖掘可以帮助电信企业分析其营销活动的有效性。

通过挖掘用户的消费数据、行为数据和营销活动记录,可以了解营销策略的有效性,并进行相应的调整。

例如,通过分析用户对某项营销活动的响应情况,可以确定优化营销策略的方向,提高营销活动的成功率。

5. 路网优化在电信行业,实现高效的通信网络建设和优化是至关重要的。

通过数据挖掘,可以分析用户的通信网络使用情况,找出网络瓶颈,优化网络结构。

例如,在城市中,通过分析用户数据,可以确定最常用的通信信道和通信塔的位置,从而更好地优化通信网络,提供更好的信号覆盖和通信质量。

SPSSModeler预测电信客户流失案例

SPSSModeler预测电信客户流失案例

SPSSModeler预测电信客户流失案例Modeler 帮助电信运营商预测客户流失案例本文主要通过运用IBM SPSS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果引言目前电信运营商面临着激烈的市场竞争。

对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。

因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。

客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。

可以说,未来的电信行业,得客户者得天下。

数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。

客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。

本文主要通过运用IBM SPS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。

数据准备读入数据源读入电信客户数据,数据有多达42 个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别,还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。

将流失字段churn 角色设置为目标。

将所有其他字段的角色设置为输入。

图 1.数据源由于数据包括多达42 个字段,我们将先进行数据准备阶段。

数据挖掘及其在电信客户流失中的应用

数据挖掘及其在电信客户流失中的应用

关键词 :客户流失;数据挖掘 ;L gsc o i i ̄归;神经网络;决策树 tl
中 图分 类号 :T 2 4 P 7 文献标 识码 :A 文章编 号 :1 0 — 0 1 ( 0 8 1 o 7 一O o 9 3 2 2 0 )O 一 0 7 5
随着 市场持 续扩 张 ,运 营商竞 争加剧和 客户要求 不断提 高,电信行业 的垄 断格局 正逐步被打 破 ,客户 流失 问题越来越严 重,体 现在离 网率的不 断增加 ” 0 。据报 告显示 ,2 0 年 ,中国移动 的离 04
( )数据理解 2
数据理解包括收集原始数据 、数据描述、数据探索分析 和数据质量描述 。
经过和 电信公司业 务人员 的多次交流 ,本文客户流失的定义 是连续两个 月语音通话次数、短信 条数均为0 的客户 。数据来源是某 电信公司某年度2 月份 的数据。本文选用 的客户范围是本月状态 、3
为在 网并且在网时间超过3 月的客户 。本 文根据 日期把数据分成两部分 :2 个 月份数据用于建立流失 模型;3 月份数据用于模 型的评估 。
数 据 挖 掘 及 其 在 电 信 客 户 流 失 中 的 应 用
钟 庆 琪
( 莞理 工 学 院 软 件 学 院, 广 东 东莞 5 3 0 ) 东 2 8 8
摘要 :以某 电信公 司的历史数据为对 象,运用数据挖掘技 术 ,建立 了基 于决策树 、神 经网络和
L gsc 归的三种 客户 流失预 测模 型 .并对 高价 值 高流失概 率的客 户进行 K m as oii t ̄ . on聚类分 析 ,得 到具有 不 同使 用特征 的五群客 户 ,为对 不同 的流失客 户群体提 供针对 性 的营销策略 提供 了依据 .
数据 集 。 ( )模 型 建 立 4 模 型建 立包 括 选 择 建模 技 术 、产 生检 验 数据 、 建立 模 型和 评 价模 型 。 本 文 使用L gsi回 归 、神 经 网络和 决 策树 三 种技 术 分 别建 立模 型 ,并 通 过两 种 不 同的方 法对模 o it c

数据挖掘的32个案例

数据挖掘的32个案例

数据挖掘的32个案例1. 电商平台的用户行为分析:通过对用户的浏览、搜索、购买等行为进行数据挖掘,提高用户购买转化率和精准推荐商品。

2. 医疗领域的疾病诊断:通过对患者的病历、检查结果等数据进行挖掘,辅助医生进行疾病诊断和治疗。

3. 金融领域的风险评估:通过对客户的信用记录、财务状况等数据进行挖掘,评估客户的信用风险和贷款风险。

4. 社交媒体的用户画像分析:通过对用户的社交行为、兴趣爱好等数据进行挖掘,建立用户画像,提供个性化推荐和广告投放。

5. 物流领域的路线优化:通过对货物的数量、重量、目的地等数据进行挖掘,优化物流路线,提高物流效率和降低成本。

6. 电信领域的客户流失预测:通过对客户的通话记录、消费行为等数据进行挖掘,预测客户是否会流失,提前采取措施保留客户。

7. 旅游领域的景点推荐:通过对用户的出行偏好、历史记录等数据进行挖掘,推荐符合用户口味的景点和旅游路线。

8. 教育领域的学生表现评估:通过对学生的考试成绩、作业完成情况等数据进行挖掘,评估学生的表现和学习状态,提供个性化教育方案。

9. 能源领域的能源消耗分析:通过对能源的消耗情况、使用效率等数据进行挖掘,优化能源使用方案,降低能源成本和环境污染。

10. 媒体领域的内容推荐:通过对用户的阅读历史、兴趣爱好等数据进行挖掘,推荐符合用户口味的新闻、文章等内容。

11. 物联网领域的设备故障预测:通过对设备的运行数据、故障记录等数据进行挖掘,预测设备故障,提前进行维修和保养。

12. 健康领域的疾病预防:通过对个人的健康数据、生活习惯等数据进行挖掘,预测患病风险,提供健康管理建议。

13. 政府领域的公共安全预警:通过对社会事件、气象数据等进行挖掘,预测公共安全风险,提前采取措施保障公众安全。

14. 餐饮领域的菜品推荐:通过对用户的口味偏好、历史点餐记录等数据进行挖掘,推荐符合用户口味的菜品和套餐。

15. 游戏领域的用户行为分析:通过对用户的游戏行为、游戏成就等数据进行挖掘,提高用户留存率和游戏体验。

客户流失预测数据挖掘方法对比分析

客户流失预测数据挖掘方法对比分析

策树 根据 客户特征分类 , 识别高价值客户 , 以达到挽 留高价
值客户的 目的。为了克服 决策树 固有的缺点, 提高客户流失 预测模型 的精确度和可解释性, 文献[ 结合了 AD Te 模型 5 】 re 与 Lgsc回归方程 的优点 , 出了T eL g 模型 。 o i i t 提 ro i e t 1 神经 网络 . 3 神 经网络是一组连接 的输A/ 出单元 , 中每个连接 输 其 都有一个加权值 。 神经 网络 的分类 知识体现在 网络连接上, 被隐式地存储在连接 的权值 中。神经 网络 的学 习过程是通 过跌代运算对权值 不断进行 调整 的过程 ,学习的 目标就 是
关 键 词 : 客户流失 教据挖掘
预测模型
云模型
中图分类号:P 8 T 1
文献标识码: A 文章编 号:0 2 2 2 ( 0 0) 4 0 7 — 3 10 — 4 2 2 1 0 — 0 6 0
Co p r fv ay i f Daa M i ig M eh d a o t Cu t m es Ch r r d cin m a a e An l s o t n n i s t o b u so r u n P e it o
I 3 45 C ., A T等 。 D ,., 50 C R
预测 出客户是否具有流失可能性 。 学术界开发 、应用 了基 于数据挖掘方 法与技术 的客户
流 失 预 测 模 型 , 中 , 常 用 的 有 回 归 分 析 、 策 树 和 神 经 其 最 决 网络 。 两 年 ,V 贝叶 斯 网 络 , 糙 集 等 也 被 用 于 客 户 流 近 S M, 粗 失预 测 建 模 。 得 了不 错 的 效 果 。 取
11 回 归 分 析 .

流失预测模型的设计与实现

流失预测模型的设计与实现

【A b s t r a c t 】 W i t h t h e i n c r e a s i n g c o m p e t i t i o n i n t h e m a r k e t , c u s t o m e r c h u r n p r o b l e m i s a n d t e l e c o m o p e a r o t r s a e r f a c i n g u r g e n t p r o b l e m s . T o s o l v e t h i s
p ob r l e m, w e mu s t i f r s t a n a l y z e a n d p ed r i c t c u s t o me r , t h i s a r t i c l e i s t o i n t od r u c e t h e u s e 0 f mi n i n g s o f t wa e r f o r t e l e c o m c u s t o me r s S P A S S Mo d e l e r d a t a a c q u i s i t i o n a n d a n a l y s i s o f t en r d s i n t h e l o s s o f c o n t r o l a n d o l d c u s t o m e r s , a n d t h e l o s s o f c u s t o m e r c h a r a c t e r i s t i c s a r e c l a s s i i f e d a s a f t e r t e l e c o m o p e r a t o r s
特征节点 、 直方 图、 分 布 图 等 节 点 初 步 确 定 影 响 客 户 流 失 的 变量 。

电信客户流失预测模型研究

1 引 言 .
识 别 。本 次 客 户 流 失 预 测 主 要 是 针 对 电信 行 业 的 流 失 客户 。 3 2 数 据 理 解 和 准 备 . 为 了建 立 客 户 流 失 模 型 ,必 须 收 集 所 有 的 原 始 数 据 , 并
目前 在 全 球 电 信 业 发 展 处 于 低 迷 的情 况 下 , 我 国 不 断 深 化 企 业 对
行 为 变 量 ; 内 、 内 漫 游 通 话 的 行 为 变 量 ; 澳 台 、 它 国 省 国 港 其 家 漫 游 通 话 及 国 际 、 澳 台长 途 的 行 为 变 量 : 转 及 呼 叫 。 港 呼 反
映客户 呼转 到不同 电信运 营商的情况 , 客户 呼叫不 同电信运
营 商 的 情 况 ; 据 业 务 的 使 用 情 况 ; 话 号 码 数 : 户 的总 体 数 通 客 主 被 叫 行 为 等 ) 进 一 步 的衍 生 变 量 X4 建 模 的 目的 就 是 要 ; 。 分析 、确 定这 些 向量变量 与客 户流 失状态 变 量 Y 的关 系 , 即 : Fx1X2 X3 X ) Y= f , , , 4 。
具进行 数据预测 模型 的建立 ,数据处 理采用 了 S bs yae公司
的 I 数据 仓库 。 O
3 数 据 挖 掘 模 型 应 用 .
进 行 知 识 挖 掘 时 _ 先 从 原 始 数 据 集 合 r 里 指 数 据 挖 掘 3 J , 这
目标表 1 中取 出一 个与探 索 的 问题 相关 的样本 数据 集 , 经过
针对 被动流 失客户( 即欠 费销户) 建立 模型 , 一般客 户 对
而 言 , 因欠 费停 机 , 且 在 3个 月 内 没 有 还 款 , 后 会 被 欠 若 并 最

基于数据挖掘的电信业客户流失

基于数据挖掘的电信业客户流失
张秀玲
【期刊名称】《滨州学院学报》
【年(卷),期】2006(22)6
【摘要】针对电信行业日益突出的客户流失问题,采用了多种理论相互融合的思想,将神经网络和决策树技术相结合,构建客户流失分析模型.最后通过实际数据对模型进行了应用评估,结果表明这种基于神经网络和决策树技术的预测模型能够对客户流失情况做出准确的预测,达到了商业使用的要求.
【总页数】4页(P49-52)
【作者】张秀玲
【作者单位】滨州职业学院,计算机信息科学系,山东,滨州,256603;中国石油大学,计算机与通信工程学院,山东,东营,257061
【正文语种】中文
【中图分类】NT911
【相关文献】
1.基于数据挖掘技术的电信业客户流失分析 [J], 水静;米红娟
2.基于数据挖掘技术的电信业客户流失管理框架 [J], 牛琨;张舒博
3.基于数据挖掘的电信业客户流失分析 [J], 丁红; 陈京民
4.基于数据挖掘的电信业客户流失分析 [J], 丁红; 陈京民
5.基于CART二叉决策树的电信业客户流失的模型构建与控制 [J], 郝梅
因版权原因,仅展示原文概要,查看原文内容请购买。

数据挖掘在电信中的应用分析

数据预处理
1 数 据挖掘 产生背 景
数据挖 掘是一种从大型数据库或数据仓库 中提取隐藏 的预测性信
息的新技术 。它能开采出潜在的模式 , 从巨量的数据信息 中找 出最有价
值的信息 , 指导商业行 为或辅助科学研究 , 为企业 经营提供分析依据。 数
据挖掘被信息界认为是数据库系统最重要的前 沿技术之一 , 是信息产业
高级决策人员建立高度综合的个人 级数据仓库 。在现实 中, 也允许企业
这些数据 , 可以使用其他材料 , 例如纸质文件进行人 工检查并予以更正。 () 2 数据集成。 数据挖掘经常需要数据集成 , 用来将多个数据源 中 它 的数据结合起来存放在一个一致的数据存储 巾。 这些数据源可能包括多 个数据库 、 数据立方体或一般文件。
在数据集成 时涉及实 体识别 .冗余问题和数据值 冲突的检测和处 理。 进行实体识别是 因为来 自不同数据源 L的同一 属性可能用不同的名 f 】 字; 冗余 的产生是因为有些属性或维 能用 其他表推算出来 , 以要消 除 所 冗余 ; 而同一属性值产生 冲突则来源于不同数据源中采 用的存储标准不
中的 几 种应 用 , 包括 客 户 流 失 分 析 、 户 获取 、 客 交叉 营销 、 户 细 分 、 场 分析 、 诈 行 客 市 欺 为 分析 及 网络告 警 分 析 。 关键 词 : 据 挖 掘 ; 数 电信 业 ; 户信 息 客 中 图分 类 号 :P 7 T 24 文献标识码: A
维普资讯
科技情报开发与经济
文 章编 号 :0 5 6 3 ( 0 7 1 — 2 8 0 10 — 0 3 2 0 )2 0 1— 2
S IT C F R A I N D V L P E T&E O O Y C — E H I O M TO E E O M N N CNM

基于数据挖掘技术的客户流失预警模型

基于数据挖掘技术的客户流失预警模型【摘要】结合客户细分的思想,提出了一种基于慢启动的频繁模式挖掘算法,并基于该算法提出了一种新的电信企业客户流失预警模型,湖南某大型电信企业基于该客户流失预警,在其一个地市分公司进行了客户维系与挽留二期工程的实施试点,试点结果表明,提出的客户流失预警模型具有良好的预警功能。

【关键词】客户流失客户维系与挽留预警模型电信企业一、引言随着电信企业之间的竞争加剧,电信运营商不断推出新的套餐和新的业务,希望能够争取到更多的市场份额。

但同时也在很大程度上加大了客户的不稳定性,使得客户离网现象频繁发生。

研究表明,一个公司如果将其顾客流失率降低5%,利润就能增加25%至85%。

由此可见,大量的客户流失让运营商蒙受巨大损失。

结合客户细分的思想,本文提出了一种新的电信企业客户流失预警模型。

二、相关定义(一)客户流失的定义与分类客户流失只指客户因为某些原因与电信运营商解除服务合同的行为。

客户解除服务合同的原因有多种多样,但归纳起来主要有如下几类:自然流失:是指客户因为企业不能给提供所期望的产品和服务(如不能提供宽带上网功能等)或者某些客观因素(如到异地工作或下岗等)而选择离网所导致的客户流失;恶意流失:是指客户因为个人私欲因素(如恶意欠费后为了逃避缴费等)而选择离网所导致的客户流失;竞争流失:是指客户因为企业竞争对手因素(如竞争对手提供了更优惠的资费政策)而选择离网所导致的客户流失;失望流失:是指客户因为企业服务质量因素(如网络覆盖或服务态度等)而选择离网所导致的客户流失。

三、客户流失预警模型的构建(一)客户细分客户细分有多种方法,如依据客户的性别、年龄、支付能力、信用度等均可对客户进行分类。

在客户流失预警模型中,我们依据客户对企业的贡献大小进行分类,主要分为以下三种:高价值客户、普通价值客户、低价值客户。

假定企业每月均摊到每个客户的日常维护成本为c,则各类客户定义如下:高价值客户:是指月均话费大于等于kc的客户;普通价值客户:是指月均话费介于1c到kc之间的客户;低价值客户:是指月均话费小于1c的客户。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

利用数据挖掘实现电信行业客户流失分析

李军 数据仓库之路原创资料 http://www.dwway.com 利用数据挖掘实现电信行业客户流失分析 随着世界经济的全球化、市场的国际化和我国加入WTO步伐的加速,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识,已提出了严峻的挑战。企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。

在电信企业面向市场,面向国内外众多的竞争者,努力创造更高价值的同时,客户流失的不断增加,客户平均生命周期的不断缩短严重影响了电信企业的发展。那么,在激烈的市场竞争和不断变化的市场需求面前,如何最大程度的降低客户的流失率呢?常用的方法之一就是利用数据挖掘技术。

数据挖掘技术是目前数据仓库领域最强大的数据分析手段。它的分析方法是利用已知的数据通过建立数学模型的方法找出隐含的业务规则,在很多的行业已经具有成功的应用。在电信行业的应用领域主要有客户关系管理,客户欺诈分析,客户流失分析,客户消费模式分析,市场推广分析等。

那么,在客户流失分析系统中,如何应用数据挖掘技术呢?主要方式是根据以前拥有的客户流失数据建立客户属性、服务属性和客户消费数据与客户流失可能性关联的数学模型,找出客户属性、服务属性和客户消费数据与客户流失的最终状态的关系,并给出明确的数学公式。只要知道客户属性、服务属性和客户消费数据,我们就可以计算出客户流失的可能性。市场/销售部门可以根据得到的数学模型随时监控客户流失的可能性。如果客户流失的可能性过高,高于事先划定的一个限度,就可以通过多种促销手段提高客户的忠诚度,防止客户流失的发生,从而可以大大降低客户的流失率。基于严格数学计算的数据挖掘技术能够彻底改变以往电信企业在成功获得客户以后无法监控客户的流失,无法实现客户关怀的状况,把基于科学决策的客户关系管理全面引入到电信企业的市场/销售工作中来。

通常一个完整的数据挖掘过程由业务问题定义,数据选择,数据清洗和预处理,模型选择与预建立,模型建立与调整,模型的评估与检验,模型解释与应用等多个步骤组成。这里我们以个人客户流失为例说明各个步骤的功能。

1. 业务问题的定义 业务问题的定义要求非常明确。任何不明确的定义都会严重影响模型的准确和应用时的效果。例如:在客户流失分析系统中,需要明确客户流失的定义。在客户流失分析中,主要有两个核心的变量:1.财务原因/非财务原因;2.主动流失/被动流失。客户的流失 利用数据挖掘实现电信行业客户流失分析 类别根据这两个核心变量可以分为四种。其中自愿的、非财务原因的流失客户往往是高价值的、稳定的客户。他们会正常的支付自己的服务费用,并对市场活动有所响应。所以这种客户才是我们真正想保持的客户。而真正在分析客户流失的状况时,我们还必须区分公司客户与个人客户,不同服务的贡献率,或者是不同客户消费水平流失标准的不同。举例来说,对于用一种新服务替代原有服务的客户,是否作为流失客户?又或者,平均月消费额为2000元左右的客户,当连续几个月消费额降低到500元以下,我们就可以认为客户发生流失了,而这个流失标准就不能适用于原本平均月消费额就为500元左右的客户。实际上,在国外成熟的电信行业客户流失分析系统中,经常是根据相对指标判别客户流失。市场调查表明,通常大众的个人通信费用约占总收入的1%-3%,当客户的个人通信费用降低到远远低于此比例时,就可以认为客户流失发生。所以,客户流失分析系统必须针对各种不同的种类分别定义业务问题,进而分别进行处理。

2. 数据选择 数据选择包括目标变量的选择,输入变量的选择和建模数据的选择等多个方面。 󰁺 目标变量的选择 目标变量表示了数据挖掘的目标。在客户流失分析应用目标变量通常为客户流失状态。依据业务问题的定义,我们可以选择一个已知量或多个已知量的明确组合作为目标变量。目标变量的值应该能够直接回答前面定义的业务问题。在客户流失分析系统中,我们实际面对的流失形式主要有两种:账户取消发生的流失和账户休眠发生的流失。对于不同的流失形式,我们需要选取不同的目标变量。对于账户取消发生的流失,目标变量直接就可以选取客户的状态:流失或正常。对于账户休眠发生的流失,情况就较为复杂。通常的定义是持续休眠超过给定时间长度的客户被认为是发生了流失。但是,这个给定时间长度定义为多长合适呢?另外一方面,每月的通话金额低于多少就可以认为是客户处于休眠状态?或者要综合考虑通话金额,通话时长和通话次数来划定流失标准?实际上,目标变量的选择是和业务问题的定义紧密关联在一起的。选择目标变量所要面对的这些问题,都需要业务人员给予明确的回答。

󰁺 输入变量的选择 输入变量用于在建模时作为自变量寻找与目标变量之间的关联。在选择输入变量时,我们通常选择两类数据:静态数据和动态数据。静态数据指的是通常不会经常改变的数据,包括服务合同属性,如服务类型,服务时间,交费类型等等;和客户的基本状态,如性别,年龄,收入,婚姻状况,受教育年限/学历,职业,居住地区等等。动态数据指的是经常或定期改变的数据,如每月消费金额,交费纪录,消费特征等等。输入变量的选 利用数据挖掘实现电信行业客户流失分析 择应该在业务人员帮助下进行,这样才能选择出真正与客户流失可能性具有潜在关联的输入变量。业务人员经常在实际业务活动中深深感觉到输入变量与目标变量的内在联系,但是却无法以量化表示出来。在这种情况下,数据挖掘的工作往往能够得到良好的回报。在一时无法确定某种数据是否与信用卡流失可能性有关联时,应该选取,在后续步骤考察各变量分布情况和相关性时再决定取舍。

󰁺 建模数据的选择 通常电信行业客户流失的方向有两种。第一种是客户的自然消亡。例如由于客户的身故,破产,迁徙,移民等原因,导致客户不再存在。或者是由于客户的升级,如GSM 升级为CDMA,造成特定服务的目标客户消失。第二种是客户的转移流失。通常指客户转移到竞争对手享受服务。

显然第二种流失的客户才是电信企业真正关心的,对企业具有挽留价值的客户。因此,我们在选择建模数据时必须选择第二种流失的客户数据参与建模,才能建立出较精确的模型。

3. 数据清洗和预处理 数据清洗和预处理是建模前的数据准备工作。数据清洗和预处理的目的一方面保证建模的数据是正确和有效的;另一方面,通过对数据格式和内容的调整,使建立的模型更加准确和有效。数据整理的主要工作包括对数据的转换和整合,抽样,随机化,缺失值的处理等等。数据转换和整合的工作目的就是为了保证数据的质量和可用性。例如,样本数据中客户最终流失的数据比例较低,只占全部数据的8%。用这样的数据建模不容易找出流失了的客户的特征,建立精确的模型。我们可以按比例抽取未流失客户和流失了的客户,把两者合并构成建模的数据源。还有,在建模之前,我们建议把样本数据分为两到三部分。一部分用来建模,其他数据用来对模型进行修正和检验。一个模型在建立以后,需要用大量的数据对它进行检验。只有经过实际数据检验并被证明正确的模型才能得到充分的相信。如果一个未经检验的模型被贸然推广使用,就有可能由于模型的不精确带来应用的损失。所以我们通常会把数据分为两部分:2/3的数据用来建模,1/3的数据用来检验。

4. 模型选择与预建立 到底哪些变量和客户流失概率有密切关系呢?我们需要利用数据挖掘工具中的相关性比较功能找出每一个输入变量和客户流失概率的相关性。通过这样的比较选择,我们可以删除那些和客户流失概率相关性不大的变量,减少建模变量的数量。这样不仅可以缩短建立模型的时间,减小模型的复杂程度,而且有时还能够使建立的模型更精确。Oracle 利用数据挖掘实现电信行业客户流失分析 的数据挖掘工具能够提供包括决策树,神经网络,近邻学习,回归,关联,聚类,贝叶斯判别等多种建模方法。但是哪种方法最适合用于信用卡流失分析呢?我们可以使用多种建模方法,预建立多个模型,再比较这些模型的优劣,从而选择出最适合客户流失分析的建模方法。Oracle的数据挖掘工具提供了建模方法选择的功能,它能够预建立决策树,神经网络,近邻学习,回归等多种方法,十个模型供使用者选择。它还能自动判别哪一个是最优的模型,供使用者参考。在预建模之前,使用者还能够改变模型的参数,从而根据实际情况生成更好的模型。

5. 模型建立与调整 模型建立与调整是数据挖掘过程中的核心部分。通常这部分工作会由专业的分析专家完成。需要指出的是,不同的商业问题和不同的数据分布与属性,经常会影响到模型建立与调整的策略。而且在建模过程中还会使用多种近似算法来简化模型的优化过程。所有这些处理方法,对模型的预测结果都会产生影响。所以在模型建立与调整过程中,需要业务专家参与制定调整策略,避免不适当的优化导致业务信息的丢失。

6. 模型的评估与检验 模型的评估应该利用未参与建模的数据进行,这样才能得到准确的结果。如果我们使用建模的数据对模型进行检验,由于模型就是按照这些数据建立的,检验结果自然会很好。但是一旦运用到实际数据中,就会产生很大的偏差。所以我们必须使用未参与建模的数据对模型进行检验。检验的方法是对已知客户状态的数据利用模型进行预测,得到模型的预测值,和实际的客户状态相比较。预测正确值最多的模型就是最优的模型。

下图就是Oracle数据挖掘工具的模型预测结果比较图,我们可以通过观察模型的预测准

确度曲线评价模型的预测效果:

相关文档
最新文档