利用数据挖掘实现客户流失分析
数据挖掘在证券客户流失管理中的应用

n n . Fr t ,t e p p rito u e h a i h o y o aa mi ig tc n lg .T e ,i e pa n e k y c n t cin se s ig i l s y h a e n rd c st e b ct e r f t n n h oo s d e y h n t x li st e o s u t tp h r o
基 金 项 目 :浙 江 省 软 科 学 研 究计 划 项 目 “ 开放 式 创 新 背 景 下 大 学 知 识 产 权 交 易机 制 研 究 ” ( 00 3 0 6 2 1C 5 2 )
} 芳 :数 据 挖 抛 在 券 客 流 失管 中的 应 川减 少 数 据 挖 掘 时要 考 虑 的特 征 或变量 个数 。 ( ) 数 据挖 掘 算 法执 行 :首 先 根据 对 3 问题 的定义 明 确挖 掘 的 任 务 或 目的 ,其 次 是 确定 算 法 ,然后 建 立 数 据 挖 掘模 型 ,进 行 数 据 挖 掘 。除 了 算法选 择外 ,其余 的工 作都 能 自动 完 成 。 ( 知识 4)
2 构建 基于数 据挖 掘的证 券 客户流 失分 析 系统
2 1 客 户流 失的定 义 .
S R I T等 。本文 应用 决策 树 C P N 5作 为证 券 客 户关 系管 理 中的挖 掘 算 法 。决 策 树算 法 主要 是一 种 分类 方 法 ,它从 数 据 中选 出 已经 分 好 类 的 训 练 集 ,在该 训练 集上运 用 数 据挖 掘 分 类 技 术 建 立 分 类 模 型 ,对 于没 有分类 的 数 据进 行 分 类 ,同 时决 策 树 也 可 以用 于预 测 。本文 具 体 使 用 的挖 掘 软 件 是 S S l e— P SCe n m
应用数据挖掘预测客户流失

应用数据挖掘预测客户流失一、引言客户流失是企业中必须考虑的问题之一,对于企业来说,维持现有客户和吸引新客户对于企业的发展非常重要。
而流失问题一旦出现,对企业所造成的负面影响很大,不仅会导致财务损失,还会破坏企业品牌形象。
因此,如何减少客户流失,维护客户忠诚度成为企业需要解决的难题。
而数据挖掘技术可以为企业在这方面提供帮助。
通过分析大量的历史数据,企业可以预测哪些客户可能会离开,及时采取措施留住他们。
二、客户流失的影响客户流失对于企业来说,是非常严重的问题。
它可能带来以下的负面影响:1.损失客户价值一位客户不仅可以带来现有的收入,还可能通过口碑带来更多的新客户。
而一旦该客户流失,企业不仅会失去他的收益,还会因为他的不满而带来更多的流失风险,甚至可能影响到整个品牌形象。
2.增加营销成本企业需要花费更多的成本吸引新客户。
而一个流失的客户,需要花费更多的时间和金钱去争取新客户才能补偿。
3.影响企业经济生态客户的忠诚度是企业经济生态的核心,客户流失会破坏生态平衡,甚至可能带来连锁反应影响整个市场。
三、如何使用数据挖掘预测客户流失为了提高企业的客户满意度和忠诚度,预测客户流失是非常重要的。
数据挖掘技术为企业预测客户流失提供了良好的方法。
1.数据收集数据收集是预测客户流失的第一步。
企业需要收集相关的客户数据,包括客户基本信息,购买历史,客户服务记录等等。
同时,企业还可以考虑从社交媒体,网络评论等外部渠道收集更多的数据。
2.数据清洗和预处理在将数据用于预测之前,需要对其进行清洗和预处理。
包括去除重复数据,填充缺失值,进行特征选择和标准化等操作。
这些操作可以提高模型的准确性,避免因噪声等干扰因素而影响预测结果。
3.建模和训练模型建立模型是预测客户流失的核心部分。
可以使用分类器算法,如决策树、逻辑回归等来构建预测模型。
训练模型需要使用历史数据,通过分类器算法进行训练,并对其进行测试和验证。
4.预测和应用一旦模型成功训练,可以开始使用它来预测客户的流失风险。
利用数据挖掘实现客户流失分析

利用数据挖掘实现客户流失分析随着互联网的发展,各行各业都迎来了巨大的竞争压力。
在这个竞争激烈的时代,企业需要更好地理解客户,并及时发现并解决客户流失的问题。
数据挖掘是一种有效的工具,可以帮助企业实现客户流失分析并提供相应的解决方案。
客户流失分析是指通过挖掘客户数据,找出客户流失的原因和模式,并为企业提供相应的解决方案。
数据挖掘主要包括数据预处理、特征选择、模型建立和模型评估等步骤。
首先,数据预处理是客户流失分析的基础。
企业应该收集和整理客户的相关数据,如客户的消费金额、消费频率、消费时间等。
这些数据可以通过企业的销售系统、客户关系管理系统等渠道获得。
在数据预处理过程中,需要清洗数据、处理缺失值和异常值等。
其次,特征选择是客户流失分析的关键。
根据企业的实际情况和业务问题,选择合适的特征变量进行分析。
常用的特征变量包括客户的消费金额、消费频率、客户的属性(如年龄、性别等)等。
通过分析客户的特征变量,可以发现与客户流失相关的因素。
然后,模型建立是客户流失分析的核心。
常用的模型包括逻辑回归、决策树、随机森林等。
这些模型可以通过训练数据来建立,并运用到新的数据中进行预测和分析。
在模型建立过程中,需要使用训练集和测试集对模型进行评估和优化。
最后,模型评估是客户流失分析的结束。
通过评估模型的性能指标,如准确率、召回率和F1值等,可以判断模型的好坏,并对模型进行改进。
同时,还可以通过模型的预测结果,识别和预测客户的流失情况,并提供相应的解决方案。
对于客户流失的解决方案,可以根据客户的流失原因和模式进行制定。
例如,对于因价格问题导致客户流失的情况,可以考虑降低产品价格或提供优惠活动;对于因服务质量问题导致客户流失的情况,可以加强售后服务;对于因产品质量问题导致客户流失的情况,可以加强质量控制等。
总之,利用数据挖掘实现客户流失分析可以帮助企业更好地理解客户、预测客户流失并提供相应的解决方案。
对于企业来说,客户流失是非常重要的问题,如果能够及时发现并解决客户流失的问题,将对企业的发展产生积极的影响。
数据挖掘技术在客户关系管理中的应用

数据挖掘技术在客户关系管理中的应用在当今竞争激烈的商业环境中,企业要想取得成功,与客户建立和保持良好的关系至关重要。
客户关系管理(CRM)已经成为企业战略的重要组成部分,而数据挖掘技术的出现为客户关系管理带来了新的机遇和挑战。
本文将探讨数据挖掘技术在客户关系管理中的应用,帮助企业更好地理解客户需求,提高客户满意度和忠诚度。
一、数据挖掘技术概述数据挖掘是从大量的数据中提取出有价值的信息和知识的过程。
它涉及到统计学、机器学习、数据库技术等多个领域的知识和技术。
数据挖掘的主要任务包括数据预处理、分类、聚类、关联分析、预测等。
通过这些任务,数据挖掘可以帮助企业发现隐藏在数据中的模式、趋势和关系,为企业的决策提供支持。
二、客户关系管理中的数据来源在客户关系管理中,数据的来源非常广泛。
企业内部的数据源包括客户的基本信息、购买记录、投诉记录、服务记录等。
此外,企业还可以从外部获取数据,如市场调研数据、社交媒体数据、竞争对手数据等。
这些数据通常是异构的、分散的,需要进行整合和预处理,以便进行数据挖掘。
三、数据挖掘技术在客户细分中的应用客户细分是客户关系管理的重要环节,它可以帮助企业将客户分为不同的群体,针对不同群体制定个性化的营销策略。
数据挖掘技术中的聚类分析可以用于客户细分。
通过对客户的属性、行为等数据进行聚类分析,企业可以将客户分为不同的细分群体,如高价值客户、潜在客户、流失客户等。
然后,企业可以针对不同细分群体的特点和需求,制定相应的营销和服务策略,提高客户满意度和忠诚度。
例如,一家电商企业通过聚类分析发现,有一部分客户购买频率高、购买金额大,属于高价值客户群体;另一部分客户购买频率低、购买金额小,但对价格比较敏感,属于价格敏感型客户群体。
针对高价值客户群体,企业可以提供专属的客服服务、优先配送等特权,以提高他们的满意度和忠诚度;针对价格敏感型客户群体,企业可以定期推出促销活动、发放优惠券等,以吸引他们购买更多的商品。
数据挖掘方法在用户流失预测分析中的应用

14 5
2 0 ,3 9 074 ()
C m u rE 聊e , ad A pi t n op t e n p l ai s计 算 机 工 程 与 应 用 c o
数据挖掘方法在 用户流失预测析 中的应用
刘 光远 苑森 淼 董立 岩 , ,
E gn e ig a d Ap l ain ,0 7 4 ( ) 1 4 1 6 n i e r n pi t s 2 0 ,3 9 :5 — 5 . n c o
Abtat I h e cm u i t n a m jrt i i t pe i h h m fc s me ae n te d t ae wt ut r’ s c: n te t eo m nc i , ao o c S o rdc te cu o ut r b sd o h a b s i c s mes r l ao p t o s a h o
成 为 各 个 运 营 商普 遍 关 注的 问题 。 章 基 于客 户 的历 史数 据 和 短 期 偶 发 数 据 , 出 了链 型数 据 挖 掘 方 法 , 结合 决策 树 , 成 了一 文 提 并 形 个 综 合 的链 型树 分 类 器 ( h nTe lsie,T ) 用 户行 为预 测 模 型 , C a re Cas rC C 和 i i f 实验 结 果 显 示 , 分 类 器 对 移 动 通 信 运 营 商感 兴 趣 的单 该
个事件发生具有 良好的预测 能力, 可被应用到客 户离网预测 中, 而帮助运 营商提 前发现具有 离网倾 向的用户 , 而获得更 高的 从 进
利润。
关键 词 : 数据 挖 掘 ; 型 树 分 类 器 ; 户流 失 预 测 链 用 文章 编 号 :0 2 8 3 (0 7 0 — 14 0 文 献 标 识码 : 中 图分 类 号 :P 8 10 — 3 12 0 )9 0 5 — 3 A l r
客户流失分析(数据挖掘-第1讲)

预测自变量时间窗口
间隔
预测目标变量时间窗口
商业理解
如何从分析结果中获取实际收益 得到了流失预测结果,如何使用?如何事先预估市场 挽留活动的收益?通过数据挖掘得到流失分析的结果往往有 两类: 一类是流失客户的特征描述 另一类是针对每一个客户的流失评分。 流失客户的特征描述可用来帮助市场部业务人员在制订 挽留性营销策略时参考,从而制订出有针对性的挽留策略; 而流失评分结合其它变量(例如客户价值)可以员的讨 论,我们得知针对特定客户的挽留措施往往是给他们一定折 扣或者优惠政策,这样就大体上得到了预估市场挽留活动预 期收益的数据公式: 预期收益=流失客户预期收入-流失客户挽留预期成本 其中,流失客户预期收入可以用流失客户过去若干个月的 总花费或者平均花费来表示,流失客户挽留预期成本包括: 电信公司进行时常挽留活动的总体策划、宣传成本;针对客 户的集体折扣或优惠成本。
数据理解与数据准备
在数据理解与数据准备阶段,我们将 对数据做初步探索性分析,了解数据质量 状况,考察数据的大致分布情况,此外还 要将各方面的数据进行合并,整理成可以 进行数据挖掘的宽表形式(即行代表记录, 列代表变量的二维表),并进一步根据业 务上的考虑,生成一些有业务含义的衍生 变量。在实际的数据挖掘项目中,我们会 发现,数据理解和数据准备的时间经常会 占到整个项目周期的60%~70%,甚至更多。
指标变量获取
2、衍生变量 对时间序列数据有以下一些常用的生成衍生变量的方 法: ①、滞后类指标:对于时间序列数据,各条记录之间 联系更加紧密,我们通常会取上一条记录(例如代表上月 取值)及上年同期(例如去年同月),与当前记录相比得 到环比增长率(例如本月值/上月值)和同比增长率(例如 本月值/上年同期值);为了消除波动,有时我们还对多个时 间段数值进行求和、平均等操作。例如股市中常用的股价 5日平均值,这类指标可以被归结为滞后类指标。 ②、汇总类指标: 汇总类指标:求和,平均值,最小值,最大值,标 准差,记录数等。
数据挖掘技术在客户关系管理中的应用

数据挖掘技术在客户关系管理中的应用在当今商业环境中,客户关系管理(Customer Relationship Management, CRM)是企业非常重要的一项策略。
通过有效地管理和维护客户关系,企业能够实现客户满意度的提高,增加销售额,提高市场竞争力等。
随着大数据时代的到来,数据挖掘技术被广泛应用于客户关系管理,以帮助企业更好地理解客户需求、预测市场变化并制定更有效的营销策略。
一、数据挖掘技术在客户分析中的应用客户分析是CRM的核心,通过对已有数据的挖掘和分析,能够帮助企业了解客户的特征、行为模式和需求。
数据挖掘技术在客户分析中能够发挥重要作用,主要体现在以下几个方面:1. 客户细分:通过数据挖掘技术,企业可以将客户按照一定标准进行细分,从而更好地了解不同客户群体的需求。
例如,根据客户的年龄、性别、地理位置等因素,将客户划分为不同的群体,有助于企业制定针对性的营销策略。
2. 客户价值分析:企业可以借助数据挖掘技术对客户进行价值评估,帮助企业确定哪些客户对企业价值更高,从而优先进行资源分配。
通过预测客户的未来消费行为,企业可以建立客户生命周期价值模型,制定相应的营销计划。
3. 客户流失预测:通过数据挖掘技术,企业可以获取大量历史数据,并利用这些数据建立预测模型,预测客户是否有可能流失。
一旦发现某个客户有流失的趋势,企业可以采取相应的措施,如提供个性化的服务或进行回访等,从而最大限度地减少客户流失率。
二、数据挖掘技术在个性化营销中的应用个性化营销是提高客户满意度和忠诚度的重要手段之一,而数据挖掘技术在个性化营销中具有独特的优势,能够帮助企业更好地理解客户需求并提供个性化的产品和服务。
以下是数据挖掘技术在个性化营销中的几个典型应用:1. 推荐系统:通过对用户历史行为数据的分析,企业可以为每个客户提供个性化的推荐产品和服务。
例如,电子商务平台可以基于用户的购买记录和浏览行为,推荐相似产品或潜在感兴趣的物品,提高购买转化率。
客户流失预测数据挖掘方法对比分析

策树 根据 客户特征分类 , 识别高价值客户 , 以达到挽 留高价
值客户的 目的。为了克服 决策树 固有的缺点, 提高客户流失 预测模型 的精确度和可解释性, 文献[ 结合了 AD Te 模型 5 】 re 与 Lgsc回归方程 的优点 , 出了T eL g 模型 。 o i i t 提 ro i e t 1 神经 网络 . 3 神 经网络是一组连接 的输A/ 出单元 , 中每个连接 输 其 都有一个加权值 。 神经 网络 的分类 知识体现在 网络连接上, 被隐式地存储在连接 的权值 中。神经 网络 的学 习过程是通 过跌代运算对权值 不断进行 调整 的过程 ,学习的 目标就 是
关 键 词 : 客户流失 教据挖掘
预测模型
云模型
中图分类号:P 8 T 1
文献标识码: A 文章编 号:0 2 2 2 ( 0 0) 4 0 7 — 3 10 — 4 2 2 1 0 — 0 6 0
Co p r fv ay i f Daa M i ig M eh d a o t Cu t m es Ch r r d cin m a a e An l s o t n n i s t o b u so r u n P e it o
I 3 45 C ., A T等 。 D ,., 50 C R
预测 出客户是否具有流失可能性 。 学术界开发 、应用 了基 于数据挖掘方 法与技术 的客户
流 失 预 测 模 型 , 中 , 常 用 的 有 回 归 分 析 、 策 树 和 神 经 其 最 决 网络 。 两 年 ,V 贝叶 斯 网 络 , 糙 集 等 也 被 用 于 客 户 流 近 S M, 粗 失预 测 建 模 。 得 了不 错 的 效 果 。 取
11 回 归 分 析 .
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用数据挖掘实现电信行业客户流失分析利用数据挖掘实现电信行业客户流失分析随着世界经济的全球化、市场的国际化和我国加入 WTO 步伐的加速,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。
同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。
国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识,已提出了严峻的挑战。
企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。
在电信企业面向市场,面向国内外众多的竞争者,努力创造更高价值的同时,客户流失的不断增加,客户平均生命周期的不断缩短严重影响了电信企业的发展。
那么,在激烈的市场竞争和不断变化的市场需求面前,如何最大程度的降低客户的流失率呢?常用的方法之一就是利用数据挖掘技术。
数据挖掘技术是目前数据仓库领域最强大的数据分析手段。
它的分析方法是利用已知的数据通过建立数学模型的方法找出隐含的业务规则,在很多的行业已经具有成功的应用。
在电信行业的应用领域主要有客户关系管理,客户欺诈分析,客户流失分析,客户消费模式分析,市场推广分析等。
那么,在客户流失分析系统中,如何应用数据挖掘技术呢?主要方式是根据以前拥有的客户流失数据建立客户属性、服务属性和客户消费数据与客户流失可能性关联的数学模型,找出客户属性、服务属性和客户消费数据与客户流失的最终状态的关系,并给出明确的数学公式。
只要知道客户属性、服务属性和客户消费数据,我们就可以计算出客户流失的可能性。
市场/销售部门可以根据得到的数学模型随时监控客户流失的可能性。
如果客户流失的可能性过高,高于事先划定的一个限度,就可以通过多种促销手段提高客户的忠诚度,防止客户流失的发生,从而可以大大降低客户的流失率。
基于严格数学计算的数据挖掘技术能够彻底改变以往电信企业在成功获得客户以后无法监控客户的流失,无法实现客户关怀的状况,把基于科学决策的客户关系管理全面引入到电信企业的市场/销售工作中来。
通常一个完整的数据挖掘过程由业务问题定义,数据选择,数据清洗和预处理,模型选择与预建立,模型建立与调整,模型的评估与检验,模型解释与应用等多个步骤组成。
这里我们以个人客户流失为例说明各个步骤的功能。
1.业务问题的定义业务问题的定义要求非常明确。
任何不明确的定义都会严重影响模型的准确和应用时的效果。
例如:在客户流失分析系统中,需要明确客户流失的定义。
在客户流失分析中,主要有两个核心的变量: 1.财务原因/非财务原因;2.主动流失/被动流失。
客户的流失利用数据挖掘实现电信行业客户流失分析类别根据这两个核心变量可以分为四种。
其中自愿的、非财务原因的流失客户往往是高价值的、稳定的客户。
他们会正常的支付自己的服务费用,并对市场活动有所响应。
所以这种客户才是我们真正想保持的客户。
而真正在分析客户流失的状况时,我们还必须区分公司客户与个人客户,不同服务的贡献率,或者是不同客户消费水平流失标准的不同。
举例来说,对于用一种新服务替代原有服务的客户,是否作为流失客户?又或者,平均月消费额为 2000元左右的客户,当连续几个月消费额降低到 500 元以下,我们就可以认为客户发生流失了,而这个流失标准就不能适用于原本平均月消费额就为 500元左右的客户。
实际上,在国外成熟的电信行业客户流失分析系统中,经常是根据相对指标判别客户流失。
市场调查表明,通常大众的个人通信费用约占总收入的 1%-3%,当客户的个人通信费用降低到远远低于此比例时,就可以认为客户流失发生。
所以,客户流失分析系统必须针对各种不同的种类分别定义业务问题,进而分别进行处理。
2.数据选择数据选择包括目标变量的选择,输入变量的选择和建模数据的选择等多个方面。
目标变量的选择目标变量表示了数据挖掘的目标。
在客户流失分析应用目标变量通常为客户流失状态。
依据业务问题的定义,我们可以选择一个已知量或多个已知量的明确组合作为目标变量。
目标变量的值应该能够直接回答前面定义的业务问题。
在客户流失分析系统中,我们实际面对的流失形式主要有两种:账户取消发生的流失和账户休眠发生的流失。
对于不同的流失形式,我们需要选取不同的目标变量。
对于账户取消发生的流失,目标变量直接就可以选取客户的状态:流失或正常。
对于账户休眠发生的流失,情况就较为复杂。
通常的定义是持续休眠超过给定时间长度的客户被认为是发生了流失。
但是,这个给定时间长度定义为多长合适呢?另外一方面,每月的通话金额低于多少就可以认为是客户处于休眠状态?或者要综合考虑通话金额,通话时长和通话次数来划定流失标准?实际上,目标变量的选择是和业务问题的定义紧密关联在一起的。
选择目标变量所要面对的这些问题,都需要业务人员给予明确的回答。
输入变量的选择输入变量用于在建模时作为自变量寻找与目标变量之间的关联。
在选择输入变量时,我们通常选择两类数据:静态数据和动态数据。
静态数据指的是通常不会经常改变的数据,包括服务合同属性,如服务类型,服务时间,交费类型等等;和客户的基本状态,如性别,年龄,收入,婚姻状况,受教育年限/学历,职业,居住地区等等。
动态数据指的是经常或定期改变的数据,如每月消费金额,交费纪录,消费特征等等。
输入变量的选利用数据挖掘实现电信行业客户流失分析择应该在业务人员帮助下进行,这样才能选择出真正与客户流失可能性具有潜在关联的输入变量。
业务人员经常在实际业务活动中深深感觉到输入变量与目标变量的内在联系,但是却无法以量化表示出来。
在这种情况下,数据挖掘的工作往往能够得到良好的回报。
在一时无法确定某种数据是否与信用卡流失可能性有关联时,应该选取,在后续步骤考察各变量分布情况和相关性时再决定取舍。
建模数据的选择通常电信行业客户流失的方向有两种。
第一种是客户的自然消亡。
例如由于客户的身故,破产,迁徙,移民等原因,导致客户不再存在。
或者是由于客户的升级,如 GSM 升级为 CDMA,造成特定服务的目标客户消失。
第二种是客户的转移流失。
通常指客户转移到竞争对手享受服务。
显然第二种流失的客户才是电信企业真正关心的,对企业具有挽留价值的客户。
因此,我们在选择建模数据时必须选择第二种流失的客户数据参与建模,才能建立出较精确的模型。
3.数据清洗和预处理数据清洗和预处理是建模前的数据准备工作。
数据清洗和预处理的目的一方面保证建模的数据是正确和有效的;另一方面,通过对数据格式和内容的调整,使建立的模型更加准确和有效。
数据整理的主要工作包括对数据的转换和整合,抽样,随机化,缺失值的处理等等。
数据转换和整合的工作目的就是为了保证数据的质量和可用性。
例如,样本数据中客户最终流失的数据比例较低,只占全部数据的 8%。
用这样的数据建模不容易找出流失了的客户的特征,建立精确的模型。
我们可以按比例抽取未流失客户和流失了的客户,把两者合并构成建模的数据源。
还有,在建模之前,我们建议把样本数据分为两到三部分。
一部分用来建模,其他数据用来对模型进行修正和检验。
一个模型在建立以后,需要用大量的数据对它进行检验。
只有经过实际数据检验并被证明正确的模型才能得到充分的相信。
如果一个未经检验的模型被贸然推广使用,就有可能由于模型的不精确带来应用的损失。
所以我们通常会把数据分为两部分: 2/3 的数据用来建模, 1/3 的数据用来检验。
4.模型选择与预建立到底哪些变量和客户流失概率有密切关系呢?我们需要利用数据挖掘工具中的相关性比较功能找出每一个输入变量和客户流失概率的相关性。
通过这样的比较选择,我们可以删除那些和客户流失概率相关性不大的变量,减少建模变量的数量。
这样不仅可以缩短建立模型的时间,减小模型的复杂程度,而且有时还能够使建立的模型更精确。
Oracle利用数据挖掘实现电信行业客户流失分析的数据挖掘工具能够提供包括决策树,神经网络,近邻学习,回归,关联,聚类,贝叶斯判别等多种建模方法。
但是哪种方法最适合用于信用卡流失分析呢?我们可以使用多种建模方法,预建立多个模型,再比较这些模型的优劣,从而选择出最适合客户流失分析的建模方法。
Oracle 的数据挖掘工具提供了建模方法选择的功能,它能够预建立决策树,神经网络,近邻学习,回归等多种方法,十个模型供使用者选择。
它还能自动判别哪一个是最优的模型,供使用者参考。
在预建模之前,使用者还能够改变模型的参数,从而根据实际情况生成更好的模型。
5. 模型建立与调整模型建立与调整是数据挖掘过程中的核心部分。
通常这部分工作会由专业的分析专家完成。
需要指出的是,不同的商业问题和不同的数据分布与属性,经常会影响到模型建立与调整的策略。
而且在建模过程中还会使用多种近似算法来简化模型的优化过程。
所有这些处理方法,对模型的预测结果都会产生影响。
所以在模型建立与调整过程中,需要业务专家参与制定调整策略,避免不适当的优化导致业务信息的丢失。
6.模型的评估与检验模型的评估应该利用未参与建模的数据进行,这样才能得到准确的结果。
如果我们使用建模的数据对模型进行检验,由于模型就是按照这些数据建立的,检验结果自然会很好。
但是一旦运用到实际数据中,就会产生很大的偏差。
所以我们必须使用未参与建模的数据对模型进行检验。
检验的方法是对已知客户状态的数据利用模型进行预测,得到模型的预测值,和实际的客户状态相比较。
预测正确值最多的模型就是最优的模型。
下图就是 Oracle 数据挖掘工具的模型预测结果比较图,我们可以通过观察模型的预测准确度曲线评价模型的预测效果:利用数据挖掘实现电信行业客户流失分析7.模型解释与应用得到最优的模型以后,我们需要业务人员针对得到的模型做出一些合理的业务解释。
例如:我们可能发现在开户时长与的客户的流失可能性相关度较高。
那么,业务人员利用业务知识可以解释为:由于客户在使用一定年限后需要换领新 SIM 卡,而换领新 SIM卡的手续比较繁琐或时间周期过长,客户宁愿去申请新号码,导致流失可能性上升量。
通过对模型做出合理的业务解释,我们就有可能找出一些以前没有发现,但实实在在存在的潜在的业务规律。
找出这些规律后,就可以指导我们的业务行为。
另一方面,如果真的能够根据业务知识解释我们得到的数学模型,也说明了这个数学模型在业务上的合理性,我们就更能够大胆应用于业务活动中了。
模型的真正应用推广必须谨慎从事。
我们可以先选择一个试点单位应用模型,避免由于模型的不精确导致高额的业务损失。
试点的时间可以界定在半年到一年,期间必须随时注意模型应用的收益情况。
一旦发生异常偏差,应该立即停止,检查偏差是由于模型本身的原因还是由于应用环境发生了重大变化,从而导致模型不再适用。
如果是由于模型本身不准确造成的,可以对模型不精确的部分进行修正。