利用数据挖掘实现电信行业客户流失分析
电信行业数据挖掘技术应用案例总结

电信行业数据挖掘技术应用案例总结数据挖掘技术是一种从大量数据中获取有用信息的技术,通过使用数据挖掘技术,电信行业可以挖掘出隐藏在海量数据中的商业价值,从而提升运营效率和用户体验。
本文将总结电信行业中常见的数据挖掘技术应用案例,以展示数据挖掘在电信行业中的重要作用。
1. 客户细分电信行业拥有海量的用户数据,包括用户的姓名、年龄、性别、通话时长、通话频率、上网流量等信息。
通过数据挖掘技术,电信公司可以将用户进行细分,以便更好地了解不同用户群体的需求,并提供个性化的服务。
例如,通过挖掘用户的通话记录和上网流量,可以将用户分为高通话时长用户、高上网流量用户等不同群体,并根据他们的喜好和需求提供相应的增值服务。
2. 欺诈检测电信行业一直面临着欺诈问题,例如,SIM卡被盗用或者用户欺诈行为等。
数据挖掘技术可以通过分析用户通话记录、短信记录以及其他使用数据的方式来检测潜在的欺诈行为。
通过建立欺诈检测模型,可以识别出一些异常行为,如通话时长、通话次数等异常指标,从而减少欺诈事件的发生。
3. 用户流失预测对于电信公司而言,用户流失是一个关键的问题。
通过数据挖掘技术,可以分析用户的使用行为和消费情况,找到用户流失的关键特征,并建立流失预测模型。
通过监测这些特征,并及时采取措施如提供个性化的优惠刺激措施,电信公司可以有效降低用户流失率,提升客户满意度。
4. 营销有效性分析数据挖掘可以帮助电信企业分析其营销活动的有效性。
通过挖掘用户的消费数据、行为数据和营销活动记录,可以了解营销策略的有效性,并进行相应的调整。
例如,通过分析用户对某项营销活动的响应情况,可以确定优化营销策略的方向,提高营销活动的成功率。
5. 路网优化在电信行业,实现高效的通信网络建设和优化是至关重要的。
通过数据挖掘,可以分析用户的通信网络使用情况,找出网络瓶颈,优化网络结构。
例如,在城市中,通过分析用户数据,可以确定最常用的通信信道和通信塔的位置,从而更好地优化通信网络,提供更好的信号覆盖和通信质量。
SPSSModeler预测电信客户流失案例

SPSSModeler预测电信客户流失案例Modeler 帮助电信运营商预测客户流失案例本文主要通过运用IBM SPSS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果引言目前电信运营商面临着激烈的市场竞争。
对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。
因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。
客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。
可以说,未来的电信行业,得客户者得天下。
数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。
客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。
本文主要通过运用IBM SPS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。
数据准备读入数据源读入电信客户数据,数据有多达42 个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别,还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。
将流失字段churn 角色设置为目标。
将所有其他字段的角色设置为输入。
图 1.数据源由于数据包括多达42 个字段,我们将先进行数据准备阶段。
数据挖掘的32个案例

数据挖掘的32个案例1. 电商平台的用户行为分析:通过对用户的浏览、搜索、购买等行为进行数据挖掘,提高用户购买转化率和精准推荐商品。
2. 医疗领域的疾病诊断:通过对患者的病历、检查结果等数据进行挖掘,辅助医生进行疾病诊断和治疗。
3. 金融领域的风险评估:通过对客户的信用记录、财务状况等数据进行挖掘,评估客户的信用风险和贷款风险。
4. 社交媒体的用户画像分析:通过对用户的社交行为、兴趣爱好等数据进行挖掘,建立用户画像,提供个性化推荐和广告投放。
5. 物流领域的路线优化:通过对货物的数量、重量、目的地等数据进行挖掘,优化物流路线,提高物流效率和降低成本。
6. 电信领域的客户流失预测:通过对客户的通话记录、消费行为等数据进行挖掘,预测客户是否会流失,提前采取措施保留客户。
7. 旅游领域的景点推荐:通过对用户的出行偏好、历史记录等数据进行挖掘,推荐符合用户口味的景点和旅游路线。
8. 教育领域的学生表现评估:通过对学生的考试成绩、作业完成情况等数据进行挖掘,评估学生的表现和学习状态,提供个性化教育方案。
9. 能源领域的能源消耗分析:通过对能源的消耗情况、使用效率等数据进行挖掘,优化能源使用方案,降低能源成本和环境污染。
10. 媒体领域的内容推荐:通过对用户的阅读历史、兴趣爱好等数据进行挖掘,推荐符合用户口味的新闻、文章等内容。
11. 物联网领域的设备故障预测:通过对设备的运行数据、故障记录等数据进行挖掘,预测设备故障,提前进行维修和保养。
12. 健康领域的疾病预防:通过对个人的健康数据、生活习惯等数据进行挖掘,预测患病风险,提供健康管理建议。
13. 政府领域的公共安全预警:通过对社会事件、气象数据等进行挖掘,预测公共安全风险,提前采取措施保障公众安全。
14. 餐饮领域的菜品推荐:通过对用户的口味偏好、历史点餐记录等数据进行挖掘,推荐符合用户口味的菜品和套餐。
15. 游戏领域的用户行为分析:通过对用户的游戏行为、游戏成就等数据进行挖掘,提高用户留存率和游戏体验。
基于数据挖掘技术的电信客户精确化营销

和客 户价值 进行 准确判 断和 分析 。为客 户精确 化 营销 进行 数据 准备 。 【 键词 】 精确 营销 、 据挖掘 、 户 细分和 定位 关 : 数 客
( o e sr o P w r e ) U{ : 一… Nhomakorabea…
m
;
…
・
l |
i
・
流失 管理 需要 很 好 的 了解 客 户 的行 为 .最 重要 的 问题 是识 别客户 . 些是 即将要 离 开选 择 的 电信公 司 , 哪 同时 哪些 客户是 有利 可 图的 。 电信 来说 , 止客 户离 对 阻
户群 体需 求设计 差异 化产 品 和服务 ;4 提 供根 据 客户 性 . () 分类 器 可 以预测 出某 一个 特定 的属 性 。Mi S t n e 可 e 群体 的差 异化产 品 和服务 ;5 ( )通 过营 销 活动反 馈 , 进 以从一个 训 练集 中 自动地生 成分 类器 。这 个训 练集 由
21 0 0年第 1 期 1
福
建
电
脑
19 1
基 于数据挖掘技术 的电信 客户精确化营销
黄 皴
(福 建福 富软 件技 术股份 有 限公 司 福 建 福 州 3 0 0 5 0 3)
【 摘 要】 :本文主要介绍精确营销产生的背景 , 以及精确定义和五个阶段 , 重点介绍 了在精确营销过
耕 细作 的营 销操作 方式 , 将市 场 做深 做 透 。 而获 得预 数据 库 中存 在 千万级 左 右的数 据集 中抽 取样 本 .以作 进 精 确 营销通 常有 五个 阶段 : 1 收集 和整 理 有关 的 套集成 化 的数据 挖掘 和数 据可 视化软 件 工具集 。 它能 ()
数据挖掘技术在通信行业中的应用

数据挖掘技术在通信行业中的应用摘要:本文作者结合自己多年的实际工作经验,对通信行业中数据挖掘技术的相关问题进行分析,同时提出了自己的看法和意见,仅供参考。
关键词:数据挖掘通信应用1、前言随着科技的进步,通信技术也得到了迅猛的发展,数据挖掘技术以其强大的数据分析能力,在通信行业客户分析及消费行为分析方面得到广泛的应用,如客户关系管理,客户欺诈分析,客户流失分析,客户消费模式分析,市场推广分析等。
通信行业是最早采用数据挖掘技术的行业之一。
电信运营企业在日常经营中产生并存储了海量的数据,这些数据包括以下几类:呼叫详单数据,描述呼叫在电信网络中的全部情况;网络数据,描述网络中软硬件设施的状况;用户数据,描述电信网络中的用户信息情况。
这些数据量非常之大,手工进行分析是很困难或根本不可能的。
在海量数据处理需求的背景下,以知识为基础的专家系统(knowledgebased expert systems)应运而生的。
简单地讲,专家系统就是一个具有智能特点的计算机程序,它的智能化主要表现为能够在特定的领域内模仿人类专家思维来求解复杂问题。
因此,专家系统必须包含领域专家的大量知识,拥有类似人类专家思维的推理能力,并能用这些知识来解决实际问题。
这类的专家系统可以实现一些通信行业分析的功能,然而问题系统是从现实专家那里获取知识是非常耗时的,而且在很多情况下专家并不具备所需的知识。
数据挖掘技术的优势为这些问题提供了解决方案,正是因为如此通信行业较早的采用了数据挖掘技术。
2、通信行业用于挖掘的数据内容数据挖掘过程的第一步就是理解数据,只有在对数据的理解的基础上,才可以开发出有价值的应用。
这里对通信行业中具有特殊意义的呼叫详单数据进行描述,如果原始数据不适合进行数据挖掘,则需要提前对数据进行转换。
每当电信网络中发生一次呼叫,呼叫的描述信息将作为呼叫详单记录存储下来。
网络中生成和存储的详单记录数量是十分巨大的。
例如中国联通一个二类城市3G本地网每天产生的话单条数就有1000万条之多。
客户流失预测数据挖掘方法对比分析

策树 根据 客户特征分类 , 识别高价值客户 , 以达到挽 留高价
值客户的 目的。为了克服 决策树 固有的缺点, 提高客户流失 预测模型 的精确度和可解释性, 文献[ 结合了 AD Te 模型 5 】 re 与 Lgsc回归方程 的优点 , 出了T eL g 模型 。 o i i t 提 ro i e t 1 神经 网络 . 3 神 经网络是一组连接 的输A/ 出单元 , 中每个连接 输 其 都有一个加权值 。 神经 网络 的分类 知识体现在 网络连接上, 被隐式地存储在连接 的权值 中。神经 网络 的学 习过程是通 过跌代运算对权值 不断进行 调整 的过程 ,学习的 目标就 是
关 键 词 : 客户流失 教据挖掘
预测模型
云模型
中图分类号:P 8 T 1
文献标识码: A 文章编 号:0 2 2 2 ( 0 0) 4 0 7 — 3 10 — 4 2 2 1 0 — 0 6 0
Co p r fv ay i f Daa M i ig M eh d a o t Cu t m es Ch r r d cin m a a e An l s o t n n i s t o b u so r u n P e it o
I 3 45 C ., A T等 。 D ,., 50 C R
预测 出客户是否具有流失可能性 。 学术界开发 、应用 了基 于数据挖掘方 法与技术 的客户
流 失 预 测 模 型 , 中 , 常 用 的 有 回 归 分 析 、 策 树 和 神 经 其 最 决 网络 。 两 年 ,V 贝叶 斯 网 络 , 糙 集 等 也 被 用 于 客 户 流 近 S M, 粗 失预 测 建 模 。 得 了不 错 的 效 果 。 取
11 回 归 分 析 .
分析电信公司客户流失风险预警与应对策略
对于电信运营商来说,客户就是最宝贵的财富,降低客户 流失率、保持并增长客户虽然是一项非常困难的任务,然而, 哪怕是客户的流失率只降低了1%,这一数据将意味着带给企业 近百万元的收入,为企业获取经济效益创造的空间是巨大的, 可见降低客户流失、挽留客户是电信运营商立足于竞争市场的 重要手段。长期以来,电信用户的客户不断的流失,使得全球 电信运营商非常困惑,尤其是在发达国家每年有接近50%的客 户流失。在新客户的开发上,需要该客户用5年的时间才能带给 企业净利润,很明显客户的回报率是下降的[1]。基于此,提高 现有客户的忠诚度,尽可能地挽留客户提升其价值,则成为电 信运营商在激烈的竞争环境中制胜的关键。而挖掘研究流失客 户的原因,依据现有客户的消费行为及性质展开深入剖析,以 此对流失客户建立预测模型,提出数据挖掘的客户预警解决措 施,并针对流失的客户制订出相应的挽留方案是当前电信运营 商重点研究的课题。
2.2 客户挽留方案实施 通过对流失原因的分析,针对预警客户群制定出适当挽留 方案,及时快速地将营销策略调整。对当前客户使用产品的状 况进行查看,了解其详细的信息包括具体的通话行为、产品使 用形成的费用支付状况、流失倾向等,通过查看客户信息,对 有流失倾向客户提供主动挽留的营销建议,并对客访等跟 踪信息提供给决策者,作为后续工作开展的基础。进行挽留效 益的分析要将此项工作开展以后客户使用产品、通话行为产生 的费用信息,并融合挽留效果,最终对挽留形成的效益展开评 估,同步考核相关业务人员。
流失预测模型的设计与实现
【A b s t r a c t 】 W i t h t h e i n c r e a s i n g c o m p e t i t i o n i n t h e m a r k e t , c u s t o m e r c h u r n p r o b l e m i s a n d t e l e c o m o p e a r o t r s a e r f a c i n g u r g e n t p r o b l e m s . T o s o l v e t h i s
p ob r l e m, w e mu s t i f r s t a n a l y z e a n d p ed r i c t c u s t o me r , t h i s a r t i c l e i s t o i n t od r u c e t h e u s e 0 f mi n i n g s o f t wa e r f o r t e l e c o m c u s t o me r s S P A S S Mo d e l e r d a t a a c q u i s i t i o n a n d a n a l y s i s o f t en r d s i n t h e l o s s o f c o n t r o l a n d o l d c u s t o m e r s , a n d t h e l o s s o f c u s t o m e r c h a r a c t e r i s t i c s a r e c l a s s i i f e d a s a f t e r t e l e c o m o p e r a t o r s
特征节点 、 直方 图、 分 布 图 等 节 点 初 步 确 定 影 响 客 户 流 失 的 变量 。
电信客户流失预测模型研究
识 别 。本 次 客 户 流 失 预 测 主 要 是 针 对 电信 行 业 的 流 失 客户 。 3 2 数 据 理 解 和 准 备 . 为 了建 立 客 户 流 失 模 型 ,必 须 收 集 所 有 的 原 始 数 据 , 并
目前 在 全 球 电 信 业 发 展 处 于 低 迷 的情 况 下 , 我 国 不 断 深 化 企 业 对
行 为 变 量 ; 内 、 内 漫 游 通 话 的 行 为 变 量 ; 澳 台 、 它 国 省 国 港 其 家 漫 游 通 话 及 国 际 、 澳 台长 途 的 行 为 变 量 : 转 及 呼 叫 。 港 呼 反
映客户 呼转 到不同 电信运 营商的情况 , 客户 呼叫不 同电信运
营 商 的 情 况 ; 据 业 务 的 使 用 情 况 ; 话 号 码 数 : 户 的总 体 数 通 客 主 被 叫 行 为 等 ) 进 一 步 的衍 生 变 量 X4 建 模 的 目的 就 是 要 ; 。 分析 、确 定这 些 向量变量 与客 户流 失状态 变 量 Y 的关 系 , 即 : Fx1X2 X3 X ) Y= f , , , 4 。
具进行 数据预测 模型 的建立 ,数据处 理采用 了 S bs yae公司
的 I 数据 仓库 。 O
3 数 据 挖 掘 模 型 应 用 .
进 行 知 识 挖 掘 时 _ 先 从 原 始 数 据 集 合 r 里 指 数 据 挖 掘 3 J , 这
目标表 1 中取 出一 个与探 索 的 问题 相关 的样本 数据 集 , 经过
针对 被动流 失客户( 即欠 费销户) 建立 模型 , 一般客 户 对
而 言 , 因欠 费停 机 , 且 在 3个 月 内 没 有 还 款 , 后 会 被 欠 若 并 最
数据挖掘在电信中的应用分析
1 数 据挖掘 产生背 景
数据挖 掘是一种从大型数据库或数据仓库 中提取隐藏 的预测性信
息的新技术 。它能开采出潜在的模式 , 从巨量的数据信息 中找 出最有价
值的信息 , 指导商业行 为或辅助科学研究 , 为企业 经营提供分析依据。 数
据挖掘被信息界认为是数据库系统最重要的前 沿技术之一 , 是信息产业
高级决策人员建立高度综合的个人 级数据仓库 。在现实 中, 也允许企业
这些数据 , 可以使用其他材料 , 例如纸质文件进行人 工检查并予以更正。 () 2 数据集成。 数据挖掘经常需要数据集成 , 用来将多个数据源 中 它 的数据结合起来存放在一个一致的数据存储 巾。 这些数据源可能包括多 个数据库 、 数据立方体或一般文件。
在数据集成 时涉及实 体识别 .冗余问题和数据值 冲突的检测和处 理。 进行实体识别是 因为来 自不同数据源 L的同一 属性可能用不同的名 f 】 字; 冗余 的产生是因为有些属性或维 能用 其他表推算出来 , 以要消 除 所 冗余 ; 而同一属性值产生 冲突则来源于不同数据源中采 用的存储标准不
中的 几 种应 用 , 包括 客 户 流 失 分 析 、 户 获取 、 客 交叉 营销 、 户 细 分 、 场 分析 、 诈 行 客 市 欺 为 分析 及 网络告 警 分 析 。 关键 词 : 据 挖 掘 ; 数 电信 业 ; 户信 息 客 中 图分 类 号 :P 7 T 24 文献标识码: A
维普资讯
科技情报开发与经济
文 章编 号 :0 5 6 3 ( 0 7 1 — 2 8 0 10 — 0 3 2 0 )2 0 1— 2
S IT C F R A I N D V L P E T&E O O Y C — E H I O M TO E E O M N N CNM
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用数据挖掘实现电信行业客户流失分析 Oracle 公司广州办事处资深顾问 李军 随着世界经济的全球化、市场的国际化和我国加入WTO步伐的加速,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识,已提出了严峻的挑战。企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。 在电信企业面向市场,面向国内外众多的竞争者,努力创造更高价值的同时,客户流失的不断增加,客户平均生命周期的不断缩短严重影响了电信企业的发展。那么,在激烈的市场竞争和不断变化的市场需求面前,如何最大程度的降低客户的流失率呢?常用的方法之一就是利用数据挖掘技术。 数据挖掘技术是目前数据仓库领域最强大的数据分析手段。它的分析方法是利用已知的数据通过建立数学模型的方法找出隐含的业务规则,在很多的行业已经具有成功的应用。在电信行业的应用领域主要有客户关系管理,客户欺诈分析,客户流失分析,客户消费模式分析,市场推广分析等。 那么,在客户流失分析系统中,如何应用数据挖掘技术呢?主要方式是根据以前拥有的客户流失数据建立客户属性、服务属性和客户消费数据与客户流失可能性关联的数学模型,找出客户属性、服务属性和客户消费数据与客户流失的最终状态的关系,并给出明确的数学公式。只要知道客户属性、服务属性和客户消费数据,我们就可以计算出客户流失的可能性。市场/销售部门可以根据得到的数学模型随时监控客户流失的可能性。如果客户流失的可能性过高,高于事先划定的一个限度,就可以通过多种促销手段提高客户的忠诚度,防止客户流失的发生,从而可以大大降低客户的流失率。基于严格数学计算的数据挖掘技术能够彻底改变以往电信企业在成功获得客户以后无法监控客户的流失,无法实现客户关怀的状况,把基于科学决策的客户关系管理全面引入到电信企业的市场/销售工作中来。 通常一个完整的数据挖掘过程由业务问题定义,数据选择,数据清洗和预处理,模型选择与预建立,模型建立与调整,模型的评估与检验,模型解释与应用等多个步骤组成。这里我们以个人客户流失为例说明各个步骤的功能。 1. 业务问题的定义 业务问题的定义要求非常明确。任何不明确的定义都会严重影响模型的准确和应用时的效果。例如:在客户流失分析系统中,需要明确客户流失的定义。在客户流失分析中,主要有两个核心的变量:1.财务原因/非财务原因;2.主动流失/被动流失。客户的流失类别根据这两个核心变量可以分为四种。其中自愿的、非财务原因的流失客户往往是高价值的、稳定的客户。他们会正常的支付自己的服务费用,并对市场活动有所响应。所以这种客户才是我们真正想保持的客户。而真正在分析客户流失的状况时,我们还必须区分公司客户与个人客户,不同服务的贡献率,或者是不同客户消费水平流失标准的不同。举例来说,对于用一种新服务替代原有服务的客户,是否作为流失客户?又或者,平均月消费额为2000元左右的客户,当连续几个月消费额降低到500元以下,我们就可以认为客户发生流失了,而这个流失标准就不能适用于原本平均月消费额就为500元左右的客户。实际上,在国外成熟的电信行业客户流失分析系统中,经常是根据相对指标判别客户流失。市场调查表明,通常大众的个人通信费用约占总收入的2%-7%,当客户的个人通信费用降低到远远低于此比例时,就可以认为客户流失发生。所以,客户流失分析系统必须针对各种不同的种类分别定义业务问题,进而分别进行处理。 2. 数据选择 数据选择包括目标变量的选择,输入变量的选择和建模数据的选择等多个方面。 目标变量的选择 目标变量表示了数据挖掘的目标。在客户流失分析应用目标变量通常为客户流失状态。依据业务问题的定义,我们可以选择一个已知量或多个已知量的明确组合作为目标变量。目标变量的值应该能够直接回答前面定义的业务问题。在客户流失分析系统中,我们实际面对的流失形式主要有两种:账户取消发生的流失和账户休眠发生的流失。对于不同的流失形式,我们需要选取不同的目标变量。对于账户取消发生的流失,目标变量直接就可以选取客户的状态:流失或正常。对于账户休眠发生的流失,情况就较为复杂。通常的定义是持续休眠超过给定时间长度的客户被认为是发生了流失。但是,这个给定时间长度定义为多长合适呢?另外一方面,每月的通话金额低于多少就可以认为是客户处于休眠状态?或者要综合考虑通话金额,通话时长和通话次数来划定流失标准?实际上,目标变量的选择是和业务问题的定义紧密关联在一起的。选择目标变量所要面对的这些问题,都需要业务人员给予明确的回答。 输入变量的选择 输入变量用于在建模时作为自变量寻找与目标变量之间的关联。在选择输入变量时,我们通常选择两类数据:静态数据和动态数据。静态数据指的是通常不会经常改变的数据,包括服务合同属性,如服务类型,服务时间,交费类型等等;和客户的基本状态,如性别,年龄,收入,婚姻状况,受教育年限/学历,职业,居住地区等等。动态数据指的是经常或定期改变的数据,如每月消费金额,交费纪录,消费特征等等。输入变量的选择应该在业务人员帮助下进行,这样才能选择出真正与客户流失可能性具有潜在关联的输入变量。业务人员经常在实际业务活动中深深感觉到输入变量与目标变量的内在联系,但是却无法以量化表示出来。在这种情况下,数据挖掘的工作往往能够得到良好的回报。在一时无法确定某种数据是否与客户流失可能性有关联时,应该选取,在后续步骤考察各变量分布情况和相关性时再决定取舍。 建模数据的选择 通常电信行业客户流失的方向有两种。第一种是客户的自然消亡。例如由于客户的身故,破产,迁徙,移民等原因,导致客户不再存在。或者是由于客户的升级,如GSM 升级为CDMA,造成特定服务的目标客户消失。第二种是客户的转移流失。通常指客户转移到竞争对手享受服务。 显然第二种流失的客户才是电信企业真正关心的,对企业具有挽留价值的客户。因此,我们在选择建模数据时必须选择第二种流失的客户数据参与建模,才能建立出较精确的模型。 3. 数据清洗和预处理 数据清洗和预处理是建模前的数据准备工作。数据清洗和预处理的目的一方面保证建模的数据是正确和有效的;另一方面,通过对数据格式和内容的调整,使建立的模型更加准确和有效。数据整理的主要工作包括对数据的转换和整合,抽样,随机化,缺失值的处理等等。数据转换和整合的工作目的就是为了保证数据的质量和可用性。例如,样本数据中客户最终流失的数据比例较低,只占全部数据的8%。用这样的数据建模不容易找出流失了的客户的特征,建立精确的模型。我们可以按比例抽取未流失客户和流失了的客户,把两者合并构成建模的数据源。还有,在建模之前,我们建议把样本数据分为两到三部分。一部分用来建模,其他数据用来对模型进行修正和检验。一个模型在建立以后,需要用大量的数据对它进行检验。只有经过实际数据检验并被证明正确的模型才能得到充分的相信。如果一个未经检验的模型被贸然推广使用,就有可能由于模型的不精确带来应用的损失。所以我们通常会把数据分为两部分:2/3的数据用来建模,1/3的数据用来检验。 4. 模型选择与预建立 到底哪些变量和客户流失概率有密切关系呢?我们需要利用数据挖掘工具中的相关性比较功能找出每一个输入变量和客户流失概率的相关性。通过这样的比较选择,我们可以删除那些和客户流失概率相关性不大的变量,减少建模变量的数量。这样不仅可以缩短建立模型的时间,减小模型的复杂程度,而且有时还能够使建立的模型更精确。Oracle的数据挖掘工具能够提供包括朴素贝叶斯、自适应贝叶斯网络、支持矢量机等多种建模方法。但是哪种方法最适合用于客户流失分析呢?我们可以使用多种建模方法,预建立多个模型,再比较这些模型的优劣,从而选择出最适合客户流失分析的建模方法。针对海量数据的挖掘要求,Oracle还提供重要属性分析(Attribute Importance)功能,可以帮助使用者从成百上千个属性变量中筛选出与预测变量相关程度最高的变量参与建模。 5. 模型建立与调整 模型建立与调整是数据挖掘过程中的核心部分。通常这部分工作会由专业的分析专家完成。需要指出的是,不同的商业问题和不同的数据分布与属性,经常会影响到模型建立与调整的策略。而且在建模过程中还会使用多种近似算法来简化模型的优化过程。所有这些处理方法,对模型的预测结果都会产生影响。所以在模型建立与调整过程中,需要业务专家参与制定调整策略,避免不适当的优化导致业务信息的丢失。 6. 模型的评估与检验 模型的评估应该利用未参与建模的数据进行,这样才能得到准确的结果。如果我们使用建模的数据对模型进行检验,由于模型就是按照这些数据建立的,检验结果自然会很好。但是一旦运用到实际数据中,就会产生很大的偏差。所以我们必须使用未参与建模的数据对模型进行检验。检验的方法是对已知客户状态的数据利用模型进行预测,得到模型的预测值,和实际的客户状态相比较。预测正确值最多的模型就是最优的模型。 Oracle的数据挖掘工具提供多种方法支持模型的评估与检验,其中包括Lift Chart(提升图)和Confusion Matrix(含混矩阵)等重要的方法。 下图就是Oracle数据挖掘工具的模型基于Lift Chart(提升图)生成的评估图,我们可以通过观察模型的预测准确度曲线评价模型的预测效果:
7. 模型解释与应用