第八章 数据挖掘与大数据

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

直接的数据挖掘 间接的数据挖掘
商业领域的数据挖掘
作为研究工具的数据挖掘; 改进生产过程的数据挖掘; 市场营销中的数据挖掘; 客户关系管理中的数据挖掘。
数据挖掘的互动循环过程
数据挖掘的互动过程促成学习机制
使用数据挖掘方法将数 据转换成可执行的决策行动
理解企业业务问题, 了解数据
分析结果的价 值体现领域
第八章 数据挖掘与大 数据
内容
数据挖掘 数据挖掘技术 大数据
数据挖掘
数据挖掘的含义
技术上的定义及含义 数据挖掘(Data Mining)就是从大量
的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先 不知道的但又是潜在有用的信息和知识的过程。
数据挖掘举例-美国零售商Target
被使用
关联规则可视化Using Plane Graph
工业控制技术研究所
关联规则可视化Using Rule Graph
工业控制技术研究所
• 个性化推荐的主要机理: WEB挖掘和协同过滤分析
• WEB挖掘可以利用数据挖掘技术从互联网上的文档中及互 联网服务上自动发现并提取人们感兴趣的信息。 Web挖 掘的一个实现方法是对服务器日志、错误信息日志和本地 终端数据日志等日志文件进行分析,挖掘出用户的访问行 为、访问频率和浏览内容等信息,从而找出一定的模式和 规则。
– 规则2:C → A (支持度50%,置信度100%)
• 假设最小支持度和最小置信度的要求均为50%(出现2次)
TID Items 100 1, 3, 4 200 2, 3, 5 300 1, 2, 3, 5 400 2, 5 数据库D
C1
Scan D
L Itemset 2 {1, 3} {2, 3} {2, 5} {3, 5}
Debt=0%
Time
Yes
Good Credit Risks
NO NO
Bad Credit Risks
Yes
Good Credit Risks
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析 Clustering
关联分析 Association
神经网络 Neural Networks
• 协同过滤是信息检索的一种技术,目标是为了帮用户在海 量的互联网信息(商品)中找出感兴趣的内容,即可以帮 助找到和你喜好类似的那群人,看他们买了什么东西,然 后推荐给你。协同过滤推荐是基于这样的假设:如果一些 用户对一些项的评分比较相似,则和这些用户相似的其他 用户对这些项的评分也比较相似,而这些用户对于和这些 项相似的其他项所做的评分也是相似的。
例:(超级市场)在购买商品A的客户中有90%的人会同时 购买商品B,则可用关联规则表示为:
A → B …………………………………… 规则1
规则1: A → B
• 支持度(Support) – 同时购买A和B的客户人数占总客户数的百分比称为规则1 的支持度。 – Support(A → B) = Probability(B)
2、支持度(Support),又称覆盖率,描述关联规
则的适用范围。具体而言,规则XY在交易集中的
支持度是指交易集中同时包含X和Y的交易次数与所 有交易次数之比,记作support(XY)。
支持度 (Support)=
同时购买商品X 和 商品Y 的交易数 分析记录中的总交易数
应用
购物篮分析、交叉销售、产品目录设 计、 loss-leader analysis、聚集、 分类等
Itmeset {1} {2} {3} {4} {5}
Sup. 2 2 3 2
L Sup.
Itmeset Sup.
2
1 {1} 2
3
{2} 3
3
{3} 3
1
{5} 3
3 Itemset Sup.
C2 {1, 2} 1
{1, 3} 2
{1, 5} 1
{2, 3} 2
{2, 5} 3
{3, 5} 2
C2 Itmeset {1, 2} {1, 3} {1, 5} {2, 3} {2, 5} {3, 5}


关联规则、序列模式、分类、聚集、神经元网络、偏差分析…
挖掘算 法

数据挖掘的应用
决策树 Decision Trees
序列分析 Sequence Analysis
Income>$40K • 倾向性分析
Yes
NO
Open
Add New
Decrease
???
wk.baidu.com
Accn’t Product
Usage
Debt<10% of Income
目标 市场
新客户
新客户
已确定客户
最初的 客户
高价值 高潜力
低价值
其余
重获
流失客户
自愿离开 客户
被迫离开 的客户
数据挖掘技术在客户生命周期事件中的应用
未来潜在 客户
目标 市场
回应的客户
已确定客户
回应的 客户
最初的 客户
高价值
高潜力
流失客户
自愿离开 客户
低价值
被迫离开 的客户
争取客户 的促销活 动
回应客户 数据的取 得
被迫离开 的客户
终止原因
数据挖掘应用技术
• 数据挖掘的方法很多,大致可分为:统计方法、机器学 习方法、神经网络方法和数据库方法。其中,统计方法 可细分为:回归分析(多元回归、自回归等)、判别分 析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类 分析(系统聚类、动态聚类等)、探索性分析(主元分 析法、相关分析法等)、以及模糊集、粗糙集、支持向 量机等。机器学习中,可细分为:归纳学习方法(决策 树、规则归纳等)、基于范例的推理CBR、遗传算法、 贝叶斯信念网络等。神经网络方法,可细分为:前向神 经网络(BP算法等)、自组织神经网络(自组织特征映 射、竞争学习等)等。数据库方法主要是基于可视化的 多维数据分析或OLAP方法,另外还有面向属性的归纳方 法。
次激 购活 买,

真正客户的重要事件
(使用、交叉营销、向 上营销)
反馈活动和收集 活动
未来潜在 客户
目标 市场
不同客户生命周期阶段出现的数据
回应的客户 已确定客户
回应的 客户
最初的 客户
高价值 高潜力
流失客户
自愿离开 客户
低价值
促销记录活动 已消费客户的 人口数据
信用报告 自报信息
产品使用率 付账记录 对促销活动的反应 消费渠道偏好
• 协同过滤的主要方法有三种:
• 基于用户的:收集用户的信息属性。对于每一个 用户A,找到和他比较接近(或者相似)的几个 用户。
• 基于项目的:收集项目的信息属性。对于一个用 户,如果他对项目X有很高的兴趣,那么他很有可 能也对与X相似的项目有潜在的兴趣。
{1, 3},{2, 3},{2, 5},{3, 5}, {2, 3, 5} }
关联规则的支持度与置信度的实际意义
关联规则的支持度与置信度
置信度低
置信度高
支持度低 支持度高
关联规则很少正确, 关联规则在多数情况下 而且很少被使用 是正确的,但是很少被
使用
关联规则很少正确, 关联规则在多数情况下 但可以经常被使用 是正确的,但可以经常
购买B的顾客
• 如果不考虑关联规则的支持度和置信度,那么在事务数 据库中存在无穷多的关联规则。事实上,人们一般只对 满足一定的支持度和可信度的关联规则感兴趣。
• 为了发现出有意义的关联规则,需要给定两个阈值:最 小支持度和最小置信度。关联规则挖掘的实质是在 OLTP数据库中寻找满足用户给定的最小支持度和最小 置信度的规则。
数据挖掘的应用

银行
制药
业 应 用
电信 零售 保险
各行业电子商务网站
生物信息 科学研究 。。。
相关行 业

CRM

产品推荐

客户细分

客户流失

客户利润

客户响应
WEB挖掘
网站结构优化 网页推荐 商品推荐 。。。
基因挖掘
基因表达路径分析 基因表达相似性分析 基因表达共发生分析
。。。
商业应 用
商业模 型
• 关联规则挖掘算法:The Apriori Algorithm • Apriori算法的原理:
– 项集(itemset):在数据库中出现的属性值的集合。 – 频繁项集(frequent itemset):满足最小支持度要求
的项集。
– 关联规则一定是在满足用户的最小支持度要求的频繁 项集中产生的,因此,关联规则挖掘也就是在数据库 中寻找频繁项集的过程。
– 在寻找频繁项集的过程中,我们遵循一条规则:
• 每个频繁项集的任一子集必定也是一个频繁项集。
• 假设最小支持度和最小置信度的要求均为50%
Transaction ID Items
2000
A, B, C
Itmeset Support
A
75%
1000
A, C
B
50%
4000 7000
A, D B, E, F
• 置信度(Confidence) – 同时购买A和B的客户人数占购买A的客户人数的百分比称 为规则1的置信度。 – Confidence(A → B) = Probability(B/A) = Probability(A B) / Probability(A)
同时购买A和B的顾客
D
购买A的顾客
OLTP数据库
C
50%
D 25%
E
25%
F
25%
最后找到的频繁项集是:(A), (B), (C), (A, C)
Itmeset Support A, B 25% A, C 50% B, C 25%
• 因此,在上述数据库中,我们能找到的关 联规则只能是频繁项集(A,C)上的。
– 规则1:A → C(支持度50%,置信度66.6%)
常见数据挖掘技术
• 人工神经网络 • 决策树 • 遗传算法 • 回归预测 • 贝叶斯分类 • 聚类分析 • 时间序列分析 • 基于案例的推理 • Web数据挖掘 • 关联规则
选择数据挖掘技术
1、根据数据挖掘目标选择数据挖掘技术 目标性数据挖掘 描述性数据挖掘 2、根据数据类型选择数据挖掘技术
关联规则
关联规则的含义
简单的说是在数据库和数据仓库中发现大量数据之 间的有趣的相关联系。关联规则形式化的定义如下:
设I={i1, i2,…, im}是二进制文字的集合,其中的 元素称为项。记D为交易T的集合,这里交易T是项 的集合, TI 。对应每一个交易有唯一的标识,记 作TID。设X是一个I中项的集合,如果XT,则交易 T包含X。一个关联规则就是一个形如XY的蕴涵式, 这里XI,YI,并且X∩Y=。
按照决策 采取行动
评价工作成效,提出数据 探索方面的建设性意见
确定分析和预测目标
CRM

了解数据
基础数据不足

或噪音太大

数据准备

数 据
数据相关性前期探索 是
预测变量相关 性不准确
挖 掘
模型构造
的 实
模型评估与检验


检验达到预


定成功率?
是 部署和应用
数据挖掘在客户关系管理中的应用
新客户的获取 交叉销售 增量销售 客户保持 实现一对一营销 发现重点客户——客户中的VIP
沃尔玛著名的“啤酒与尿布”案例是很早的数据挖掘案例。由于大数据 时代Volume(规模大)及Variety(类型多)对数据分析与数据挖掘提出 了新要求。更全面、速度更及时的大数据,必然对市场预测及决策分析 进一步上台阶提供更好的支撑。要知道,似是而非或错误的、过时的数 据对决策者而言简直就是灾难。
www.91survey.com
Scan D
L2
Itemset Sup. {1, 3} 2 {2, 3} 2 {2, 5} 3 {3, 5} 2
C3
Itmeset {2, 3, 5}
Scan D
L3
Itemset Sup. {2, 3, 5} 2
最后得到的频繁项集是:L1 L2 L3 即:{ {1},{2},{3},{5},
关联规则的两个重要特性
1、置信度(Confidence),又称为正确率,描述 关联规则的可靠程度。具体而言,规则XY在交易 集中的置信度是指包含X和Y的交易次数与包含X的 交易次数之比,记作confidence(XY)。
置信度(Confidence)=
同时购买商品X 和 商品Y 的交易数 购买商品X 的交易数
• 客户细分 • 市场细分
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2
factor n
factor 1 factor 2
从客户生命周期角度分析数据挖掘技术的应用
不同阶段客户扮演的角色
未来潜在 客户
商业角度的定义 数据挖掘是一种新的商业信息处理技术,其 主要特点是对商业数据库中的大量业务数据 进行抽取、转换、分析和其他模型化处理, 从中提取辅助商业决策的关键性数据。
数据挖掘与传统分析方法的区别 数据挖掘是在没有明确假设的前提下去挖掘 信息、发现知识
数据挖掘的方法
1、分类 2、估计 3、预测 4、组合或关联法则 5、聚类 6、描述和可视化
相关文档
最新文档