《R语言数据挖掘(第2版)》教学课件—第十章R的关联分析：揭示数据

合集下载

[课件]RR2 大数据分析PPT

– 人工神经网络 – 遗传算法
• 信息论方法
– 决策树
• 集合论方法
– 约略集 – 模糊集 – 最邻近技术
• 统计学方法 • 可视化技术
6
生物学方法－神经网络方法
• 神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构，而与传统的系统截然不同。由医学可知，人的大脑中有几十亿个大脑细胞（称为神经元），这些神经元通过神经中枢的导电神经纤维互相连接，从而形成一个复杂的脑神经网络。人在学习某一件事的时候，某些神经元的连接得到强化。
1/12/2018
17
Step 2. Calculate cluster means
e.g Cluster 1 has examples
Cases
1 2 3
Marriage length (yrs)
35 3 7
Wealth ($000’s)
100 20 10
(1,4,7,8,9) Marriage length mean = 27.4 Wealth mean = 128.6
1/12/2018
28 28
关联规则：基本概念
• 给定: (1)交易数据库 (2)每笔交易是：一个项目列表 (消费者一次购买活动中购买的商品) • 查找: 所有描述一个项目集合与其他项目集合相关性的规则 – E.g., 98% of people who purchase tires and auto accessories also get automotive services done • 应用 – * 护理用品 (商店应该怎样提高护理用品的销售？) – 家用电器 * (其他商品的库存有什么影响?) – 在产品直销中使用附加邮寄

《R语言数据挖掘(第2版)》教学课件—第九章R的特色聚类：揭示数据

BIRCH聚类
聚类特征
第j个小类的聚类特征一般由3组数值组成
聚类特征具有可加性
BIRCH聚类
聚类特征树
利用树形结构反映聚类结果的层次关系
聚类特征树的规模取决于两个参数：分支因子B和阈值T
压缩数据存储空间，各个节点仅存储聚类特征
BIRCH聚类
BIRCH聚类过程：采用逐个随机抽取和处理观测数据的方式，建立聚类特征树初始化聚类特征树，对每个观测做如下判断处理：
核心点P的密度可达点Q：若存在一系列观测点O1, O2,…, On，
且Oi+1(i=1,2,…,n－1)是Oi的直接密度，且O1=P, On=Q，则
称点Q 是点P的密度可达点噪声点：除上述点之外的其他观测点
DBSCAN聚类
DBSCAN聚类的相关概念
DBSCAN聚类
DBSCAN聚类过程：第一，形成小类
SOM网络聚类的R实现
som函数
som(data=矩阵,grid=网络结构,rlen=100,alpha=学习率,radius= 邻域半径,n. hood=邻域范围形状)
SOM网络聚类的可视化函数
plot(x=som函数结果对象名,type=图形类型名)
模拟数据的SOM网络聚类
SOM网络聚类的R实现
第四步，调整“获胜”节点Winc(t)和其邻接节点的网络权值
第五步，上述第三步和第四步会不断反复，直到满足迭代终止条件为止。迭代终止条件是：权值基本稳定或者到达指定迭代的次数
SOM网络聚类
网络权值调整涉及两个问题第一，调整算法
第二，怎样的节点应视为“获胜”节点的邻接节点
以Winc(t)为中心覆盖范围内的输出节点均视为 Winc(t)的邻接节点

R语言数据挖掘(第2版)课件：R的网络分析初步

《R语言数据挖掘(第2版)》
网络的定义表示及构建
网络分析的基础是网络的定义及表示，通常有两种相互联系的表示方式：图论表示方式、矩阵表示方式
图论表示方式：从图论角度看，网络由多个节点和节点间的连接（也称边）组成，是一种广义的图
网络可记为G=(N,E) 。网络G中沿着连接在不同节点间的移动，称为游走
相关R函数：
shortest.paths(graph=网络类对象名, v=起始节点对象, to=终止节点对象,mode=方向类型)
diameter(graph=网络类对象名 ,directed=TRUE/FALSE,unconnected=TRUE/FALSE)
《R语言数据挖掘(第2版)》
节点“中心”作用的测度
《R语言数据挖掘(第2版)》
R的网络可视化
网络可视化的核心是以怎样的外观轮廓展示网络，尤其对较为庞大的网络更为如此
合理安排网络外观轮廓的算法
最小分割法：目的是最小化连接间的交叉数最小空间法：基于几何意义上的空间距离，令空间距离较
近的节点摆放在相邻的位置上谱分解法：依据节点的特征向量中心度安排节点的位置树形/层次法：根据节点间的连接将节点安排成树形形状，
edge.betweenness(graph=网络类对象名)，可计算连接的中间中心度
《R语言数据挖掘(第2版)》
节点重要性的其他方面
结构洞
一个系统（网络）中，若某个成员（节点）退出系统，使得局部系统中的其他成员（节点）间不再有任何联系（连接）。从结构上看就像局部网络中出现了一个关系断裂的 “洞穴”，该成员称为一个结构洞
在网络G中，若一对节点被两个以上的连接相连，则称网络G存在多边
若网络G存在环或者多边，则称网络G为多重图。否则为简单图。网络的分析中，通常需将多重图简化为简单图后再研究

R语言数据挖掘(第2版)课件：R的近邻分析：数据预测

旁置法适合样本量较大的情况
留一法
在包含n个观测的样本中，抽出一个观测作为测试样本集，剩余的n－1个观测作为训练样本集；依据建立在训练样本
集上的预测模型，对被抽出的一个观测进行预测，并计算
预测误差；这个过程需重复n次；最后，计算n个预测误差
的平均值，该平均值将作为模型预测误差的估计
《R语言数据挖掘(第2版)》
R的K-近邻法和应用示例
K-近邻的R函数
knn(train=训练样本集, test=测试样本集, cl=输出变量, k=近邻个数K,prob=TRUE/FALSE, use.all=TRUE/FALSE)
knn1(train=训练样本集, test=测试样本集, cl=输出变量) knn.cv(train=训练样本集,cl=输出变量,k=近邻个数)
数据的预处理
《R语言数据挖掘(第2版)》
K-近邻法中的近邻个数
最简单情况下只需找到距离X0最近的一个近邻Xi，即参数K=1（1-近邻） 1-近邻法非常简单，尤其适用于分类预测时，特征空间维度较低且类别边界极不规则的情况 1-近邻法只根据单个近邻进行预测，预测结果受近邻差异的影响极大，通常预测波动（方差）性较大，稳健性低
典型的近邻分析方法是K-近邻法(KNN）。它将样本包含的n个观测数据看成为p维（p个输入变量）特征空间中的点，并根据X0的K个近邻的(y1 ，y2 ，…，yk)依函数计算
《R语言数据挖掘(第2版)》
K-近邻法中的距离
常用的距离：闵可夫斯基距离欧氏距离绝对距离切比雪夫距离夹角余弦距离
R的近邻分析：数据预测
《R语言数据挖掘(第2版)》
学习目标
理论方面，理解近邻分析方法的原理和适用性。了解特征提取在近邻分析中的必要性和提取方法。掌握基于变量重要性和观测相似的加权近邻法的原理和使用特点

[课件]RR2 大数据分析PPT

• 通常使用距离来衡量两个对象之间的相异度。 • 常用的距离度量方法有:
明考斯基距离（ Minkowski distance）:
d (i, j) q (| x x |q | x x |q ... | x x |q ) i1 j1 i2 j2 ip jp
其中 i = (xi1, xi2, …, xip) 和 j = (xj1, xj2, …, xjp) 是两个p维的数据对象, q是一个正整数。
• 在人工神经网络中，用计算机处理单元来模拟人脑的神经元，并将这些处理单元象人脑的神经元那样互相连接起来，构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作，而是采用所谓“训练”的方法让神经网络进行“学习”。完成某项工作的正确动作，使得神经网络的某些连接或模式得到强化；而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络“学会”如何去做这项工作。
• d(i,j) d(i,k) + d(k,j)
• 可以根据每个变量的重要性赋予一个权重
2018年12月1日星期六 Data Mining: Concepts and Techniques 13
K-平均算法
• 给定k，算法的处理流程如下:
1.随机的把所有对象分配到k个非空的簇中； 2.计算每个簇的平均值，并用该平均值代表相应的簇； 3.将每个对象根据其与各个簇中心的距离，重新分配到与它最近的簇中； 4.回到第二步，直到不再有新的分配发生。
当q = 1时, d 称为曼哈坦距离（ Manhattan
distance）
2018年12月1日星期六
d (i, j) | x x | | x x | ... | x x | i1 j1 i2 j 2 ip jp

用R实现关联分析

⽤R实现关联分析关联分析多年前，新的互联⽹销售开始在⽹上卖书，随着时间的推移，积累了⼀些关于客户购买书籍的信息。

使⽤关联分析，可以识别⼀些客户有相似兴趣的书，使⽤⽤户购买信息，建⽴相应的推荐系统。

关联分析是发现数据集中对象或者属性间的相关性，这些相关性可以⽤关联规则来表达。

这个⽅法⼀直成功的应⽤于⼤的事物数据库，⽐如购物车和线上客户的购买。

关联分析是数据挖掘核⼼算法之⼀。

对于线上卖书的实例，原始数据作为建模的基础识别数据。

⽐如，⼀个⽤户购买了两本特定的的书，也很有可能购买相关的另外⼀本特定的书。

原始数据可能表明所有⽤户购买前两本书的的概率是0.5%，但是70%的⼈会购买第三本。

作为⼀个企业，我们将利⽤观察到的这个信息，对购买前两种书的客户投⼊第三种书的⼴告。

关联分析输⼊数据的⼀般类型由事物型数据构成，如在超市购物车中的商品信息、单机购买的书和光盘、病⼈收到的药物治疗和测试数据等。

这⼀篇简单介绍了关联分析的内容，以及在Rattle和R中的实现。

1.知识概要关联规则的表达即是表明事物间的相关性，假设每项事物由⼀系列的项⽬组成（可以表⽰为{A，B，C，D，E，F}），⽬的是确定⼀起出现在多个购物车中的项⽬集合（可能项⽬{A，C，F}⼀起出现在多个购物车当中）这⾥我们称之为项集。

⽐如我们确认规则A，F=>C，意思是当A和F在事物中出现的时候（购物车中出现A和F），那么C通常也会出现。

关联分析输出的模型可以由⼀系列的关联规则表⽰，关联规则的⼀般格式表⽰为： A -->CA和C都是集合当中的⼀项，通常我们将项⽬看作特定的书籍，⽐如特定的杂货店项⽬。

例⼦可能是：⽜奶 ---> ⾯包啤酒&坚果 --->马铃薯薯⽚史莱克1 --->史莱克2&史莱克3项⽬的内容可以概括为特定的属性/值的组合。

关联分析的内容可以应⽤于许多不同的数据集。

使⽤weather数据集，关联规则的表达如下：WindDir3pm=NNW ---> RainToday = No.2.启发式搜索关联分析算法的基础是⽣成频繁项集。

用R语言进行关联分析

用R语言进行关联分析用R语言进行关联分析关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。

关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系，描述数据之间的密切度。

几个基本概念1. 项集这是一个集合的概念，在一篮子商品中的一件消费品即为一项（Item），则若干项的集合为项集，如{啤酒，尿布}构成一个二元项集。

2. 关联规则一般记为的形式，X为先决条件，Y为相应的关联结果，用于表示数据内隐含的关联性。

如：，表示购买了尿布的消费者往往也会购买啤酒。

关联性强度如何，由三个概念——支持度、置信度、提升度来控制和评价。

例：有10000个消费者购买了商品，其中购买尿布1000个，购买啤酒2000个，购买面包500个，同时购买尿布和面包800个，同时购买尿布和面包100个。

3. 支持度（Support）支持度是指在所有项集中{X, Y}出现的可能性，即项集中同时含有X和Y的概率：该指标作为建立强关联规则的第一个门槛，衡量了所考察关联规则在“量”上的多少。

通过设定最小阈值（minsup），剔除“出镜率”较低的无意义规则，保留出现较为频繁的项集所隐含的规则。

设定最小阈值为5%，由于{尿布，啤酒}的支持度为800/10000=8%，满足基本输了要求，成为频繁项集，保留规则；而{尿布，面包}的支持度为100/10000=1%，被剔除。

4. 置信度（Confidence）置信度表示在先决条件X发生的条件下，关联结果Y发生的概率：这是生成强关联规则的第二个门槛，衡量了所考察的关联规则在“质”上的可靠性。

相似的，我们需要对置信度设定最小阈值（mincon）来实现进一步筛选。

具体的，当设定置信度的最小阈值为70%时，置信度为800/1000=80%，而的置信度为800/2000=40%，被剔除。

5. 提升度（lift）提升度表示在含有X的条件下同时含有Y的可能性与没有X这个条件下项集中含有Y的可能性之比：该指标与置信度同样衡量规则的可靠性，可以看作是置信度的一种互补指标。

【最新】R语言关联分析模型报告案例附代码数据

【原创】附代码数据有问题到淘宝找“大数据部落”就可以了关联分析目录一、概括 (1)二、数据清洗 (1)2.1公立学费（NPT4_PUB） (1)2.2毕业率（Graduation.rate） (1)2.3贷款率（GRAD_DEBT_MDN_SUPP） (2)2.4偿还率（RPY_3YR_RT_SUPP） (2)2.5毕业薪水（MD_EARN_WNE_P10）。

(3)2.6 私立学费（NPT4_PRIV） (3)2.7 入学率（ADM_RATE_ALL） (4)三、Apriori算法 (4)3.1 相关概念 (5)3.2 算法流程 (6)3.3 优缺点 (7)四、模型建立及结果 (8)4.1 公立模型 (8)4.2 私立模型 (11)一、概括对7703条样本数据，分别根据公立学费和私立学费差异，建立公立模型和私立模型，进行关联分析。

二、数据清洗2.1公立学费（NPT4_PUB）此字段，存在4个负值，与实际情况不符，故将此四个值重新定义为NULL。

重新定义后，NULL值的占比为75%，占比很大，不能直接将NULL值删除或者进行插补，故将NULL单独作为一个取值分组。

对非NULL的值按照等比原则进行分组，分组结果如下：A：[0,5896]B：(5896,7754]C：(7754, 9975]D：(9975, 13819]E：(13819, +]分组后取值分布为：2.2毕业率（Graduation.rate）将PrivacySuppressed值重新定义为NULL，重新定义后，NULL值的占比为20%，占比较大，不适合直接删除或进行插补，故将NULL单独作为一个取值分组。

对非NULL值根据等比原则进行分组，分组结果如下：A：[0,0.29]B：(0.29,0.47]C：(0.47, 0.61]D：(0.61, 0.75]E：(0.75, +]分组后取值分布为：2.3贷款率（GRAD_DEBT_MDN_SUPP）将PrivacySuppressed值重新定义为NULL，重新定义后，NULL值的占比为20%，占比较大，不适合直接删除或进行插补，故将NULL单独作为一个取值分组。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

简单关联的可视化R实现
可视化频繁项集
plot(x=频繁项集类对象名,method="graph",control=list(main= 图形主标题))
可视化简单关联规则
plot(x=关联规则类对象名,method=图类型名,control=控制参数)
Eclat算法
Eclat算法与Apriori算法的思路类似，特色在于：基于对等类（equivalence class），采用上述自底向上的搜索策略，只需访问很少次的数据集便可确定最大频繁项集例：
规则没有指导意义
简单关联规则及其测度
简单关联规则的实用性评价规则的提升度（Lift）定义为：规则置信度与后项支持度之比
规则提升度反映了项目X的出现对项目Y（研究项）出现的影响程度
有实用价值的简单关联规则应是规则提升度大于1的规则，意味着X的出现对Y的出现有促进作用。规则提升度越大越好
第十章
R的关联分析：揭示数据关联性
学习目标
• 理论方面，理解简单关联和时序关联的含义，各种关联算法的特点、核心原理和基本实现思路，掌握不同方法的适用性和应用场景
• 实践方面，掌握R的各种关联算法实现、应用以及结果解读，能够正确运用不同关联算法解决找到实际数据中的各种关联性
关联分析
关联分析是揭示数据内在结构特征的重要手段关联分析的目的就是基于已有数据，找到事物间的简
事务标识是确定一个事务的唯一标识；项目集合简称项集，是一组项目的集合
简单关联规则及其测度
简单关联规则
例：面包牛奶（S=85%，C=90%）例：性别(女) ∩ 收入(>5000)品牌(A)（S=80%，C=85%）
简单关联规则及其ቤተ መጻሕፍቲ ባይዱ度
简单关联规则的有效性评价规则置信度：是对简单关联规则准确度的测量，定义为包含项目X的事务中同时也包含项目Y项的概率，反映X出现条件下Y出现的可能性
序列关联分析（也称时序关联分析）研究的目的是要从所收集到的众多事务序列中，发现某个事务序列连续出现的规律，找到事务发展的前后关联性。这种前后关联性通常与时间有关
序列关联分析
序列关联中的基本概念序列关联研究的对象事务序列
序列关联规则：（X）Y（S=s%，C=c%）
序列关联分析
生成序列关联规则第一，搜索频繁事务序列频繁事务序列是指，事务序列的支持度大于等于用户指定的最小支持度的序列第二，依据频繁事务序列生成序列关联规则
R函数
eclat(data=transactions类对象名, parameter=NULL) ruleInduction(x=频繁项集对象名,transactions=事务类对项名
,confidence=0.8)
简单关联分析应用：商品推荐
发现连带销售商品顾客选择性倾向对比
序列关联分析
简单关联规则及其测度
简单关联规则的实用性评价简单关联规则应具有实际意义例：牛奶性别（男）（S=40%，C=40%）。在最小置信度和支持度为20%时该规则是一条有效规则
规则反映的是一种前后项无关联下的随机性关联，没有提供更有意义的指导性信息
简单关联规则及其测度
简单关联规则的实用性评价简单关联规则应具有指导意义例：成绩(优异)早餐(吃)（S=30%，C=60%），在最小置信度和支持度为20%时该规则是一条有效规则
单关联关系或序列关联关系数据挖掘中，关联分析成果（即关联关系）的核心体
现形式是关联规则（Association Rule）简单关联规则序列关联规则
简单关联规则及其测度
理解简单关联规则的前提是理解事务和项集简单关联分析的分析对象是事务（Transaction）。事务可理
解为一种商业行为，含义极为宽泛事务通常由事务标识（TID）和项目集合X组成。
Apriori算法
Apriori算法包括第一，搜索频繁项集，每次迭代均包含两个步骤第一，产生候选集Ck 第二，修剪候选集Ck
Apriori算法
Apriori算法包括第二，依据频繁项集合产生关联规则从频繁项集中产生所有简单关联规则，选择置信度大于用户指定最小置信度阈值的关联规则，组成有效规则集合
apriori(data=transactions类对象名, parameter=NULL,appearance=NULL)
size(x=关联规则类对象名) sort(x=关联规则类对象名, decreasing=TRUE/FALSE, by=排
序依据)
筛选关联规则
subset(x= 关联规则类对象名,subset=条件)
Apriori算法的R实现步骤
建立事务数据集对象：事实表和事务表
transactions类对象 read.transactions(file=文本文件名, format=组织形式,cols=数
值或字符向量,sep=分割符)
Apriori算法的R实现步骤
搜索频繁项集，生成有效的简单关联规则
SPADE算法
SPADE算法采用纵向id列表（Vertical id-list）形式组织事务序列，基于对等类的候选序列组合，只需很少次的数据集扫描即可得到频繁k-序列
纵向id列表
Apriori算法
Apriori算法包括第一，搜索频繁项集频繁项集是指：对包含项目A的项集C，其支持度大于等于用户指定的最小支持度，称C(A)为频繁项集
频繁1-项集、频繁k-项集、最大频繁k-项集
Apriori算法
Apriori算法包括第一，搜索频繁项集搜索频繁项集：采用迭代方式逐层找到上层的超级，并在超级中发现频繁项集。如此反复，直到最顶层得到最大频繁项集为止
规则支持度：测度了简单关联规则应用的普适性，定义为项目X和项目Y项同时出现的概率
前项支持度和后项支持度
简单关联规则及其测度
简单关联规则的有效性评价一个有效的简单关联规则应具有较高的置信度和较高的支持度大于最小置信度和支持度阈值的规则是有效规则
规则置信度、规则支持度、前项支持度和后项支持度与统计中的列联表密切相关

《R语言数据挖掘(第2版)》教学课件—第十章R的关联分析：揭示数据

[课件]RR2 大数据分析PPT

《R语言数据挖掘(第2版)》教学课件—第九章R的特色聚类：揭示数据

R语言数据挖掘(第2版)课件：R的网络分析初步

R语言数据挖掘(第2版)课件：R的近邻分析：数据预测

[课件]RR2 大数据分析PPT

用R实现关联分析

用R语言进行关联分析

【最新】R语言关联分析模型报告案例 附代码数据

【最新】R语言关联分析模型报告案例附代码数据