第10章聚类分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

密切相关；而这些参数常常也很难决定，特别是包含高维对象的数据集。这不仅构成了用户的负担；也使得聚类质量难以控制。
10.1 聚类分析概念

（8）基于约束的聚类。现实世界中的应用可能需要在各种约束下进行聚类。假设需要在一个城市中确定一些新加油站的位置，就需要考虑诸如：城市中的河流、高速路，以及每个区域的客户需求等约束情况下居民住地的聚类分析。设计能够发现满足特定约束条件且具有较好聚类质量的聚类算法也是一个重要聚类研究任务。（9）可解释性和可用。用户往往希望聚类结果是可理解的、可解释的，以及可用的。这就需要聚类分析要与特定的解释和应用联系在一起。因此研究一个应用的目标是如何影响聚类方法选择也是非常重要的。
元变量来表示标称变量。

对一个有特定状态值的对象，对应该状态值的二元变量值置为1，而其余的二元变量值置为0。例如，为了对标称变量map_color 进行编码，对应于上面所列的五种颜色分别创建一个二元变量。如果一个对象是黄色，那么yellow 变量被赋值为1，而其余的四个变量被赋值为0。对于这种形式的编码，可以采用二元变量的方法来计算相异度。

个的状态值。例如，map_color 是一个标称变量，它
可能有五个值：红色 ,黄色，绿色，粉红色，和蓝色。假设一个标称变量的状态数目是M。这些状态可以用
字母，符号，或者一组整数（如1，2，…,M）来表示。
要注意这些整数只是用于数据处理，并不代表任何特定的顺序。
10.2 聚类分析中的数据类型
10.2.4标称变量
10.1 聚类分析概念

（6）对输入记录顺序不敏感。一些聚类算法对输入数据的顺序敏感，也就是不同的数据输入顺序会导致获得非常不同的结果。因此设计对输入数据顺序不敏感的聚类算法也是非常重要的。

（7）需要（由用户）决定的输入参数最少。许多聚类算法需要用户输入聚类分析中所需要的一些参数（如：期望所获聚类的个数）。而聚类结果通常都与输入参数
2)d(i, i)=0：一个对象与自身的距离是0。
3)d(i, j)= d(j, i)：距离函数具有对称性。
4)d(i, j)≤ d(i, h) +d(h, j)：从对象i 到对象j 的直接距离不会大于途径任何其他对象的距离（三角形不等式）。
10.2 聚类分析中的数据类型
10.2.2区间标度变量
例2 包含标称变量的样本数据如下，计算其相异度。
对象标识符 Test-1(标称) 1 2 3 4

Code-A Code-B Code-C Code-A
标称变量Test-1采用简单匹配法得到差异矩阵为
0 1 0 1 1 0 0 1 1 0
d(i, j) = (p-m)/p，p是全部变量的数目；m是匹配的数目。

10.2 聚类分析中的数据类型
10.2.3二元变量

如果两个状态有相同的权重，那么该二元变量是对称的。例如，属性“性别” 的两个值：“女性”和 “男性”。基于对称二元变量的相似度称为恒定的相似度，即当一些或者全部二元变量编码改变时，计算结果不会发生变化。对恒定的相似度来说，评价两个对象i和j 之间相异度的最著名的系数是简单匹配系数：

数据挖掘对聚类分析的基本要求：

（1）可扩展性。许多聚类算法在小数据集（少于200 个数据对象）时可以工作很好；但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果，这时就需要可扩展的聚类分析算法。
（2）处理不同类型属性的能力。许多算法是针对基于区间的数值属性而设计的。但是有些应用需要对其它类型数据，如：二值类型、符号类型、顺序类型，或这些数据类型的组合。
第10章聚类分析
宋杰鲲
®中国石油大学（华东）管理科学与工程系
聚类分析

物以类聚，人以群分。聚类的用途非常广泛。生物学中，聚类可以辅助动、植物分类方面的研究，以及通过对基因数据的聚类，找出功能相似的基因；在地理信息系统中，聚类可以找出具有
相似用途的区域，辅助石油开采；在商业上，聚
类可以帮助市场分析人员对消费者的消费记录进行分析，从而概括出每一类消费者的消费模式，
10.2 聚类分析中的数据类型
10.2.2区间标度变量

为了实现度量值的标准化，一种方法是将原来的度量值转换为无单位的值。给定一个变量f 的度量值，可以进行如下的变换：

（1）计算平均的绝对偏差Sf：

（2）计算标准化的度量值，或z-score： zif = (xif – mf) / sf
10.2 聚类分析中的数据类型
10.2 聚类分析中的数据类型
10.2.2区间标ห้องสมุดไป่ตู้变量

区间标度变量是一个粗略线性标度的连续度量。
典型的例子包括重量和高度，经度和纬度，以及大气温度。

选用的度量单位将直接影响聚类分析的结果。例如，将高度的度量单位由“米”改为“英尺”，或者将重量的单位由“千克”改为“磅”，可能产生非常不同的聚类结构。一般而言，所用的度量单位越小，变量可能的值域就越大，这样对聚类结果的影响也越大。为了避免对度量单位选择的依赖，数据应当标准化。

10.2 聚类分析中的数据类型
10.2.3二元变量
假设对象（病人）之间的距离只基于非对称变量来计算。根据Jaccard 系数公式，三个病人两两间相异度：

d(jack, mary) = (0+1)/(2+0+1) = 0.33 d(jack, jim) = (1+1)/ (1+1+1) = 0.67

d(jim, mary)=(1+2)/(1+1+2) = 0.75
上面的值显示Jim 和Mary 不可能有相似的疾病，因
为他们有着最高的相异度。在这三个病人中，Jack 和 Mary 最可能有类似的疾病。
10.2 聚类分析中的数据类型
10.2.4标称变量
标称变量是二元变量的推广，它可以具有多于两
10.2 聚类分析中的数据类型
10.2.3二元变量
如果两个状态的输出不是同样重要，那么该二元

变量是不对称的。例如一个疾病检查的肯定和否定的
结果。根据惯例，将比较重要的输出结果，通常也是出现几率较小的结果编码为1（例如，HIV 阳性），
而将另一种结果编码为0（如HIV 阴性）。给定两个
不对称的二元变量，两个都取值1 的情况（正匹配）被认为比两个都取值0 的情况（负匹配）更有意义。
10.2 聚类分析中的数据类型
10.2.5序数型变量

序数型变量可以是离散的，也可以是连续的。一个离散的序数型变量类似于标称变量，除了序数型变量的 M 个状态是以有意义的序列排序的。序数型变量对记录那些难以客观度量的主观评价是非常有用的。例如，职业的排列经常按某个顺序，例如助理，副手，正职。

聚类（clustering）是一个将数据集划分为若干组
（class）或类（cluster）的过程，并使得同一个组内的
数据对象具有较高的相似度；而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的，通常就是利用（各对象间）距离来进行表示的。
10.1 聚类分析概念
10.2 聚类分析中的数据类型
10.2.3二元变量

基于这样变量的相似度被称为非恒定的相似度。
对非恒定的相似度，最著名的评价系数是Jaccard 系
数，在它的计算中，负匹配的数目被认为是不重要的，因此被忽略。
10.2 聚类分析中的数据类型
10.2.3二元变量
例1 二元变量之间的相异度：假设一个病人记录表包含属性如下。name 是对象标识，gender是对称的二元变量，其余的属性都是非对称的二元变量。
10.2 聚类分析中的数据类型
10.2.1数据结构

（2）差异矩阵差异矩阵是一个对象-对象结构。它存放所有n个对象彼此之间所形成的差异。它一般采用n × n矩阵来表示：
d(i,j)表示对象i和对象j之间的差异（或不相似程度）。通常d(i,j)为一个非负数；当对象i和对象j非常相似或彼此 “接近”时，该数值接近0；该数值越大，就表示对象i和对象j越不相似。d(i,j)=d(j,i)且d(i,i) = 0。

（1）简单匹配方法计算相异度： d(i, j) = (p-m)/p m 是匹配的数目，即对i 和j 取值相同的变量的数目；而 p 是全部变量的数目。可以通过赋权重来增加m 的影响，或者赋给有较多状态的变量的匹配更大的权重。
10.2 聚类分析中的数据类型
10.2.4标称变量

（2）通过为每个状态创建一个二元变量，可以用二
10.2 聚类分析中的数据类型
10.2.1数据结构

数据矩阵通常又称为是双模式矩阵；而差异矩阵则
称为是单模式矩阵。因为前者行和列分别表示不同的实
体；而后者行和列则表示的是同一实体。许多聚类算法都是基于差异矩阵进行聚类分析的。如果数据是以数据矩阵形式给出的，那么就首先需要转换为差异矩阵，方可利用聚类算法进行处理。

（3）进行孤立点分析。如在欺诈探测中，孤立点可能预示着欺诈行为的存在，通过聚类可以有效发现孤立点。
10.2 聚类分析中的数据类型
10.2.1数据结构

（1）数据矩阵
数据矩阵是一个对象-属性结构。它是由n个对象组成，如：人、房子，文档，国家等；这些对象是利用p个属性来进行描述的，如：年龄、高度、重量等。数据矩阵采用关系表形式或n×p矩阵来表示：
实现消费群体的区分。此外还可以帮助分类识别
互联网上的文档以便进行信息发现。
聚类分析

本章重点：
掌握聚类分析中的数据类型；
了解聚类方法分类；

了解典型聚类方法。
聚类分析

10.1聚类分析概念 10.2聚类分析中的数据类型 10.3聚类方法分类 10.4典型的聚类方法
10.1聚类分析概念
10.1 聚类分析概念

（4）发现任意形状的聚类。基于距离的聚类方法一般
只能发现具有类似大小和密度的圆形或球状聚类。而实际
上一个聚类是可以具有任意形状的，因此设计出能够发现任意形状类集的聚类算法是非常重要的。

（5）处理噪声数据的能力。大多数现实世界的数据库均包含异常数据、不明数据、数据丢失和噪声数据，有些聚类算法对这样的数据非常敏感并会导致获得质量较差的数据。
10.2.2区间标度变量

在标准化处理后，对象间的相异度（或相似度）是基于对象间的距离来计算的。（1）欧几里得距离：

（2）Manhattan距离：
10.2 聚类分析中的数据类型
10.2.2区间标度变量

上面的两种距离度量方法都满足对距离函数的如下数学要求：

1)d(i, j)≥0：距离是一个非负的数值。

（3）明考斯基距离（Minkowski）是欧几里得距离和曼哈顿距离的概化：

（4）加权的欧几里得距离等。

其中，∑wi=1。同样，Minkowski距离和Manhattan 距离也可以引入权值进行计算。
10.2 聚类分析中的数据类型
10.2.3二元变量

一个二元变量只有两个状态：0 或1，0 表示该变量为空，1 表示该变量存在。例如，给出一个描述病人的变量smoker，1 表示病人抽烟，而0 表示病人不抽烟。一种差异计算方法就是根据二值数据计算差异矩阵。得到一个22条件表。

10.1 聚类分析概念

（3）高维问题。一个数据库或一个数据仓库或许包含若干维或属性。许多聚类算法在处理低维数据（仅包含二到三个维）时表现很好。人的视觉也可以帮助判断多至三维的数据聚类分析质量。然而设计对高维空间中
的数据对象，特别是对高维空间稀疏和怪异分布的数据
对象，能进行较好聚类分析的聚类算法已成为聚类研究中的一项挑战。

10.1聚类分析概念

聚类分析在数据挖掘中的作用：（1）其它算法的预处理步骤。利用聚类进行数据预处理，可以获得数据的基本概况，在此基础上进行其他数挖掘任务就可以提高精确度和挖掘效率。（2）独立工具获得数据的分布。聚类分析是获得数据分布情况的有效方法。例如，在商业上，可以帮助市场分析人员从客户基本库中发现不同的顾客群，并且用购买模式来刻画不同客户群的特征。

一个连续的序数型变量看起来象一个未知刻度的连续数据的集合，也就是说，值的相对顺序是必要的，而其实际的大小则不重要。例如，在某个比赛中的相对排

第10章 聚类分析

第10章聚类分析