2 聚类、分类、关联规则

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

聚类分析的含义

z聚类（Clustering）用于发现在数据库中未知的对象类

z聚类方法对象类划分的依据是“物以类聚”，即考察个体或数据对象间的相似性z在聚类之前，对象类划分的数量与类型均是未知的

分割聚类方法概述

z分割聚类方法是一种基于原型（Prototype）的聚类方法。

z其本质是首先从数据集中随机地选择几个对象作为聚类的原型，然后将其它对象分别分配到由原型所代表的最相似、也就是距离最近的类中。

z分割聚类方法通过迭代控制策略对原型不断地进行调整，从而使得整个聚类得到优化。

k-means算法的思路

z1.首先随机地选择k个对象代表k个类，每一个对象作为一个类的原型，根据距离原型最近的原则将其它对象分配到各个类中。

k-means算法的思路

z2.以每一个类所有对象的平均值（mean）作为该类新的原型，迭代进行对象的再分配，直到没有变化为止，从而得到最终的个类。

k-means算法步骤

1.首先随机地选择k个对象，每一个对象作为一个类的“中心”，分别代表将分成的k个类。

2.根据距离“中心”最近的原则，寻找与各对象最为相似的类，将其它对象分配到各个相应的类中。

k-means算法步骤

3. 在完成对象的分配之后，针对每一个

类，计算其所有对象的平均值，作为该类的新的“中心”。

4. 根据距离“中心”最近的原则，重新进行

所有对象到各个相应类的分配。

5. 返回步骤（3），直到没有变化为止。

层次聚类方法概述

z层次聚类方法（Hierarchical Clustering Method）是采用“自顶向下（Top-Down）”或“自底向上（Bottom-Up）”的方法在不同的层次上对对象进行分组，形成一种树形的聚类结构。

z其包括分解型层次聚类法（自顶向下）和聚结型层次聚类法（自底向上）。

层次聚类方法思想

z层次聚类方法按照一定的相似性判断标准，合并最相似的部分，或者分割最不相似的两个部分。

z如果合并最相似的部分，从每一个对象作为一个类开始，逐层向上聚结，直到形成唯一的一个类。

z如果分割最不相似的两个部分，从所有的对象归属在唯一的一个类中开始，逐层向下分解，直到每一个对象形成一个类。

98 123467510

分类的目标

z分类的目标是通过分析训练集中的数据，对类进行准确的描述或者建立模型，然后用它对数据库中的其它数据分类或者上升为分类规则。

分类发现的处理过程

z1. 分类模型的建立

z监督学习(Supervised Learning)

z分类模型的建立是通过分析训练样本数据总结出一般性的分类规则，建立分类模型。

z分类模型以分类规则、决策树或数学公式的形式给出。

分类发现的处理过程

z2. 分类模型的应用

z在对建立的分类模型进行应用前，需要对建立的分类模型进行评估，在确保分类模型的准确性及精确度的情况下，才能运用该分类模型对未知其类别的数据样本进行分类处理。

分类发现的主要方法z1.基于决策树模型的数据分类z——ID3算法

z2. 基于统计模型的数据分类z——贝叶斯分类

z3. 基于神经网络的数据分类

决策树生成过程

z1. 用户根据实际需求以及所处理数据的特性，选择类别标识属性和决策树的决策属性集。

决策树生成过程

z4. 针对上一步中得到的每一个子集，重复进行上述的2、3两个步骤，直到最后的子集符合结束的三个条件之一。

三个条件

z1. 子集中的所有元组都属于同一类；

z2. 该子集是遍历了所有决策属性得到的；z3. 子集中的所有剩余决策属性取值完全相同，已不能根据这些决策属性进一步进行子集划分。

决策树生成过程

z5. 根据符合条件的不同，生成叶子节点。

z对满足“条件一”所产生的叶子节点，直接根据该子集的元组所属类别进行类别标识。

z满足步骤“条件二”或“条件三”所产生的叶子节点，选取子集所含元组的代表性类别特征进行类别标识。

决策树剪枝

z有决策树得到的初步规则中，有一些预测规则准确性较低，因此需要对上述得到的决策树进一步处理，这个进一步处理的过程由“剪枝”过程完成。

决策树剪枝

z主要是采用新的样本数据集（称为测试数据集）中的数据检验决策树生成过程中产生的初步规则，将那些影响预测准确性的分枝剪除。

贝叶斯原理

z X为未知其类标识的训练样本数据；

z H表示作出的一些假设(例如，假设训练样本数据X属于某一特定类C)；

z我们想得到P(H|X)，即该假设成立的可能性。

z P(H|X)被称为假设H在训练样本数据X的基础上的后验概率。

P(年龄= '21…30' | c1) = 0

简单贝叶斯分类例z由此可得：

z P(X|c1)= P(部门= '系统部' | c1)×z P(职位= '高级' | c1) ×z P(年龄= '21…30' | c1) z=0

z P(X|c1)P(c1)=0

简单贝叶斯分类例z同理可得：

z P(X|c2)= P(部门= '系统部' | c2)×z P(职位= '高级' | c2) ×

z P(年龄= '21…30' | c2) z=0.4 ×0.4 ×0.4

z=0.064

z P(X|c2)P(c2)=0.064 ×0.4545=0.029

简单贝叶斯分类例z同理可得：

z P(X|c3)= P(部门= '系统部' | c3)×z P(职位= '高级' | c3) ×z P(年龄= '21…30' | c3) z=0 ×0.5 ×0.4

z=0

z P(X|c3)P(c3)=0