第八章数据挖掘与大数据

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

直接的数据挖掘间接的数据挖掘
商业领域的数据挖掘
作为研究工具的数据挖掘；改进生产过程的数据挖掘；市场营销中的数据挖掘；客户关系管理中的数据挖掘。
数据挖掘的互动循环过程
数据挖掘的互动过程促成学习机制
使用数据挖掘方法将数据转换成可执行的决策行动
理解企业业务问题，了解数据
分析结果的价值体现领域
第八章数据挖掘与大数据
内容
数据挖掘数据挖掘技术大数据
数据挖掘
数据挖掘的含义
技术上的定义及含义数据挖掘（Data Mining）就是从大量
的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。
数据挖掘举例-美国零售商Target
被使用
关联规则可视化Using Plane Graph
工业控制技术研究所
关联规则可视化Using Rule Graph
工业控制技术研究所
• 个性化推荐的主要机理: WEB挖掘和协同过滤分析
• WEB挖掘可以利用数据挖掘技术从互联网上的文档中及互联网服务上自动发现并提取人们感兴趣的信息。 Web挖掘的一个实现方法是对服务器日志、错误信息日志和本地终端数据日志等日志文件进行分析，挖掘出用户的访问行为、访问频率和浏览内容等信息，从而找出一定的模式和规则。
– 规则2：C → A （支持度50%，置信度100%）
• 假设最小支持度和最小置信度的要求均为50%(出现2次）
TID Items 100 1, 3, 4 200 2, 3, 5 300 1, 2, 3, 5 400 2, 5 数据库D
C1
Scan D
L Itemset 2 {1, 3} {2, 3} {2, 5} {3, 5}
Debt=0%
Time
Yes
Good Credit Risks
NO NO
Bad Credit Risks
Yes
Good Credit Risks
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析 Clustering
关联分析 Association
神经网络 Neural Networks
• 协同过滤是信息检索的一种技术，目标是为了帮用户在海量的互联网信息（商品）中找出感兴趣的内容，即可以帮助找到和你喜好类似的那群人，看他们买了什么东西，然后推荐给你。协同过滤推荐是基于这样的假设：如果一些用户对一些项的评分比较相似，则和这些用户相似的其他用户对这些项的评分也比较相似，而这些用户对于和这些项相似的其他项所做的评分也是相似的。
例：(超级市场)在购买商品A的客户中有90%的人会同时购买商品B，则可用关联规则表示为：
A → B …………………………………… 规则1
规则1： A → B
• 支持度(Support) – 同时购买A和B的客户人数占总客户数的百分比称为规则1 的支持度。 – Support(A → B) = Probability(B)
2、支持度（Support），又称覆盖率，描述关联规
则的适用范围。具体而言，规则XY在交易集中的
支持度是指交易集中同时包含X和Y的交易次数与所有交易次数之比，记作support（XY）。
支持度（Support）=
同时购买商品X 和商品Y 的交易数分析记录中的总交易数
应用
购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等
Itmeset {1} {2} {3} {4} {5}
Sup. 2 2 3 2
L Sup.
Itmeset Sup.
2
1 {1} 2
3
{2} 3
3
{3} 3
1
{5} 3
3 Itemset Sup.
C2 {1, 2} 1
{1, 3} 2
{1, 5} 1
{2, 3} 2
{2, 5} 3
{3, 5} 2
C2 Itmeset {1, 2} {1, 3} {1, 5} {2, 3} {2, 5} {3, 5}
算
法
关联规则、序列模式、分类、聚集、神经元网络、偏差分析…
挖掘算法
层
数据挖掘的应用
决策树 Decision Trees
序列分析 Sequence Analysis
Income>$40K • 倾向性分析
Yes
NO
Open
Add New
Decrease
???
wk.baidu.com
Accn’t Product
Usage
Debt<10% of Income
目标市场
新客户
新客户
已确定客户
最初的客户
高价值高潜力
低价值
其余
重获
流失客户
自愿离开客户
被迫离开的客户
数据挖掘技术在客户生命周期事件中的应用
未来潜在客户
目标市场
回应的客户
已确定客户
回应的客户
最初的客户
高价值
高潜力
流失客户
自愿离开客户
低价值
被迫离开的客户
争取客户的促销活动
回应客户数据的取得
被迫离开的客户
终止原因
数据挖掘应用技术
• 数据挖掘的方法很多，大致可分为：统计方法、机器学习方法、神经网络方法和数据库方法。其中，统计方法可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）、以及模糊集、粗糙集、支持向量机等。机器学习中，可细分为：归纳学习方法（决策树、规则归纳等）、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法，可细分为：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。数据库方法主要是基于可视化的多维数据分析或OLAP方法，另外还有面向属性的归纳方法。
次激购活买，
初
真正客户的重要事件
(使用、交叉营销、向上营销)
反馈活动和收集活动
未来潜在客户
目标市场
不同客户生命周期阶段出现的数据
回应的客户已确定客户
回应的客户
最初的客户
高价值高潜力
流失客户
自愿离开客户
低价值
促销记录活动已消费客户的人口数据
信用报告自报信息
产品使用率付账记录对促销活动的反应消费渠道偏好
• 协同过滤的主要方法有三种：
• 基于用户的：收集用户的信息属性。对于每一个用户A，找到和他比较接近（或者相似）的几个用户。
• 基于项目的：收集项目的信息属性。对于一个用户，如果他对项目X有很高的兴趣，那么他很有可能也对与X相似的项目有潜在的兴趣。
{1, 3}，{2, 3}，{2, 5}，{3, 5}， {2, 3, 5} }
关联规则的支持度与置信度的实际意义
关联规则的支持度与置信度
置信度低
置信度高
支持度低支持度高
关联规则很少正确，关联规则在多数情况下而且很少被使用是正确的，但是很少被
使用
关联规则很少正确，关联规则在多数情况下但可以经常被使用是正确的，但可以经常
购买B的顾客
• 如果不考虑关联规则的支持度和置信度，那么在事务数据库中存在无穷多的关联规则。事实上，人们一般只对满足一定的支持度和可信度的关联规则感兴趣。
• 为了发现出有意义的关联规则，需要给定两个阈值：最小支持度和最小置信度。关联规则挖掘的实质是在 OLTP数据库中寻找满足用户给定的最小支持度和最小置信度的规则。
数据挖掘的应用
行
银行
制药
业应用
电信零售保险
各行业电子商务网站
生物信息科学研究。。。
相关行业
层
CRM
商
产品推荐
业
客户细分
逻
客户流失
辑
客户利润
层
客户响应
WEB挖掘
网站结构优化网页推荐商品推荐。。。
基因挖掘
基因表达路径分析基因表达相似性分析基因表达共发生分析
。。。
商业应用
商业模型
• 关联规则挖掘算法：The Apriori Algorithm • Apriori算法的原理：
– 项集（itemset）：在数据库中出现的属性值的集合。 – 频繁项集（frequent itemset）：满足最小支持度要求
的项集。
– 关联规则一定是在满足用户的最小支持度要求的频繁项集中产生的，因此，关联规则挖掘也就是在数据库中寻找频繁项集的过程。
– 在寻找频繁项集的过程中，我们遵循一条规则：
• 每个频繁项集的任一子集必定也是一个频繁项集。
• 假设最小支持度和最小置信度的要求均为50%
Transaction ID Items
2000
A, B, C
Itmeset Support
A
75%
1000
A, C
B
50%
4000 7000
A, D B, E, F
• 置信度(Confidence) – 同时购买A和B的客户人数占购买A的客户人数的百分比称为规则1的置信度。 – Confidence(A → B) = Probability(B/A) = Probability(A B) / Probability(A)
同时购买A和B的顾客
D
购买A的顾客
OLTP数据库
C
50%
D 25%
E
25%
F
25%
最后找到的频繁项集是：(A), (B), (C), (A, C)
Itmeset Support A, B 25% A, C 50% B, C 25%
• 因此，在上述数据库中，我们能找到的关联规则只能是频繁项集（A，C）上的。
– 规则1：A → C（支持度50%，置信度66.6%）
常见数据挖掘技术
• 人工神经网络 • 决策树 • 遗传算法 • 回归预测 • 贝叶斯分类 • 聚类分析 • 时间序列分析 • 基于案例的推理 • Web数据挖掘 • 关联规则
选择数据挖掘技术
1、根据数据挖掘目标选择数据挖掘技术目标性数据挖掘描述性数据挖掘 2、根据数据类型选择数据挖掘技术
关联规则
关联规则的含义
简单的说是在数据库和数据仓库中发现大量数据之间的有趣的相关联系。关联规则形式化的定义如下：
设I={i1, i2,…, im}是二进制文字的集合，其中的元素称为项。记D为交易T的集合，这里交易T是项的集合， TI 。对应每一个交易有唯一的标识，记作TID。设X是一个I中项的集合，如果XT，则交易 T包含X。一个关联规则就是一个形如XY的蕴涵式，这里XI，YI，并且X∩Y=。
按照决策采取行动
评价工作成效，提出数据探索方面的建设性意见
确定分析和预测目标
CRM
中
了解数据
基础数据不足
是
或噪音太大
应
数据准备
用
数据
数据相关性前期探索是
预测变量相关性不准确
挖掘
模型构造
的实
模型评估与检验
施
步
检验达到预
否
骤
定成功率？
是部署和应用
数据挖掘在客户关系管理中的应用
新客户的获取交叉销售增量销售客户保持实现一对一营销发现重点客户——客户中的VIP
沃尔玛著名的“啤酒与尿布”案例是很早的数据挖掘案例。由于大数据时代Volume（规模大）及Variety（类型多）对数据分析与数据挖掘提出了新要求。更全面、速度更及时的大数据，必然对市场预测及决策分析进一步上台阶提供更好的支撑。要知道，似是而非或错误的、过时的数据对决策者而言简直就是灾难。
www.91survey.com
Scan D
L2
Itemset Sup. {1, 3} 2 {2, 3} 2 {2, 5} 3 {3, 5} 2
C3
Itmeset {2, 3, 5}
Scan D
L3
Itemset Sup. {2, 3, 5} 2
最后得到的频繁项集是：L1 L2 L3 即：{ {1}，{2}，{3}，{5}，
关联规则的两个重要特性
1、置信度（Confidence），又称为正确率，描述关联规则的可靠程度。具体而言，规则XY在交易集中的置信度是指包含X和Y的交易次数与包含X的交易次数之比，记作confidence（XY）。
置信度（Confidence）=
同时购买商品X 和商品Y 的交易数购买商品X 的交易数
• 客户细分 • 市场细分
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2
factor n
factor 1 factor 2
从客户生命周期角度分析数据挖掘技术的应用
不同阶段客户扮演的角色
未来潜在客户
商业角度的定义数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。
数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识
数据挖掘的方法
1、分类 2、估计 3、预测 4、组合或关联法则 5、聚类 6、描述和可视化

第八章 数据挖掘与大数据

第八章数据挖掘与大数据