第10章 聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

密切相关;而这些参数常常也很难决定,特别是包含高 维对象的数据集。这不仅构成了用户的负担;也使得聚 类质量难以控制。
10.1 聚类分析概念

(8)基于约束的聚类。现实世界中的应用可能需要 在各种约束下进行聚类。假设需要在一个城市中确定一 些新加油站的位置,就需要考虑诸如:城市中的河流、 高速路,以及每个区域的客户需求等约束情况下居民住 地的聚类分析。设计能够发现满足特定约束条件且具有 较好聚类质量的聚类算法也是一个重要聚类研究任务。 (9)可解释性和可用。用户往往希望聚类结果是可 理解的、可解释的,以及可用的。这就需要聚类分析要 与特定的解释和应用联系在一起。因此研究一个应用的 目标是如何影响聚类方法选择也是非常重要的。
元变量来表示标称变量。

对一个有特定状态值的对象,对应该状态值的二元 变量值置为1,而其余的二元变量值置为0。例如,为了 对标称变量map_color 进行编码,对应于上面所列的五 种颜色分别创建一个二元变量。如果一个对象是黄色, 那么yellow 变量被赋值为1,而其余的四个变量被赋值 为0。对于这种形式的编码,可以采用二元变量的方法 来计算相异度。

个的状态值。例如,map_color 是一个标称变量,它
可能有五个值:红色 ,黄色,绿色,粉红色,和蓝色。 假设一个标称变量的状态数目是M。这些状态可以用
字母,符号,或者一组整数(如1,2,…,M)来表示。
要注意这些整数只是用于数据处理,并不代表任何特 定的顺序。
10.2 聚类分析中的数据类型
10.2.4标称变量
10.1 聚类分析概念

(6)对输入记录顺序不敏感。一些聚类算法对输入 数据的顺序敏感,也就是不同的数据输入顺序会导致获 得非常不同的结果。因此设计对输入数据顺序不敏感的 聚类算法也是非常重要的。

(7)需要(由用户)决定的输入参数最少。许多聚 类算法需要用户输入聚类分析中所需要的一些参数(如: 期望所获聚类的个数)。而聚类结果通常都与输入参数
2)d(i, i)=0:一个对象与自身的距离是0。
3)d(i, j)= d(j, i):距离函数具有对称性。
4)d(i, j)≤ d(i, h) +d(h, j):从对象i 到对象j 的直接距离不 会大于途径任何其他对象的距离(三角形不等式)。
10.2 聚类分析中的数据类型
10.2.2区间标度变量
例2 包含标称变量的样本数据如下,计算其相异度。
对象标识符 Test-1(标称) 1 2 3 4

Code-A Code-B Code-C Code-A
标称变量Test-1采用简单匹配法得到差异矩阵为
0 1 0 1 1 0 0 1 1 0
d(i, j) = (p-m)/p,p是全部变量的 数目;m是匹配的数目。

10.2 聚类分析中的数据类型
10.2.3二元变量

如果两个状态有相同的权重,那么该二元变量是 对称的。例如,属性“性别” 的两个值:“女性”和 “男性”。基于对称二元变量的相似度称为恒定的相 似度,即当一些或者全部二元变量编码改变时,计算 结果不会发生变化。对恒定的相似度来说,评价两个 对象i和j 之间相异度的最著名的系数是简单匹配系数:

数据挖掘对聚类分析的基本要求:

(1)可扩展性。许多聚类算法在小数据集(少于200 个数据对象)时可以工作很好;但一个大数据库可能会包 含数以百万的对象。利用采样方法进行聚类分析可能得到 一个有偏差的结果,这时就需要可扩展的聚类分析算法。
(2)处理不同类型属性的能力。许多算法是针对基于 区间的数值属性而设计的。但是有些应用需要对其它类型 数据,如:二值类型、符号类型、顺序类型,或这些数据 类型的组合。
第10章 聚类分析
宋杰鲲
®中国石油大学(华东)管理科学与工程系
聚类分析

物以类聚,人以群分。聚类的用途非常广泛。 生物学中,聚类可以辅助动、植物分类方面的研 究,以及通过对基因数据的聚类,找出功能相似 的基因;在地理信息系统中,聚类可以找出具有
相似用途的区域,辅助石油开采;在商业上,聚
类可以帮助市场分析人员对消费者的消费记录进 行分析,从而概括出每一类消费者的消费模式,
10.2 聚类分析中的数据类型
10.2.2区间标度变量

为了实现度量值的标准化,一种方法是将原来的度量 值转换为无单位的值。给定一个变量f 的度量值,可以进 行如下的变换:

(1)计算平均的绝对偏差Sf:

(2)计算标准化的度量值,或z-score: zif = (xif – mf) / sf
10.2 聚类分析中的数据类型
10.2 聚类分析中的数据类型
10.2.2区间标ห้องสมุดไป่ตู้变量

区间标度变量是一个粗略线性标度的连续度量。
典型的例子包括重量和高度,经度和纬度,以及大气 温度。

选用的度量单位将直接影响聚类分析的结果。例 如,将高度的度量单位由“米”改为“英尺”,或者 将重量的单位由“千克”改为“磅”,可能产生非常 不同的聚类结构。一般而言,所用的度量单位越小, 变量可能的值域就越大,这样对聚类结果的影响也越 大。为了避免对度量单位选择的依赖,数据应当标准 化。

10.2 聚类分析中的数据类型
10.2.3二元变量
假设对象(病人)之间的距离只基于非对称变量来 计算。根据Jaccard 系数公式,三个病人两两间相异度:


d(jack, mary) = (0+1)/(2+0+1) = 0.33 d(jack, jim) = (1+1)/ (1+1+1) = 0.67


d(jim, mary)=(1+2)/(1+1+2) = 0.75
上面的值显示Jim 和Mary 不可能有相似的疾病,因
为他们有着最高的相异度。在这三个病人中,Jack 和 Mary 最可能有类似的疾病。
10.2 聚类分析中的数据类型
10.2.4标称变量
标称变量是二元变量的推广,它可以具有多于两
10.2 聚类分析中的数据类型
10.2.3二元变量
如果两个状态的输出不是同样重要,那么该二元

变量是不对称的。例如一个疾病检查的肯定和否定的
结果。根据惯例,将比较重要的输出结果,通常也是 出现几率较小的结果编码为1(例如,HIV 阳性),
而将另一种结果编码为0(如HIV 阴性)。给定两个
不对称的二元变量,两个都取值1 的情况(正匹配) 被认为比两个都取值0 的情况(负匹配)更有意义。
10.2 聚类分析中的数据类型
10.2.5序数型变量

序数型变量可以是离散的,也可以是连续的。一个 离散的序数型变量类似于标称变量,除了序数型变量的 M 个状态是以有意义的序列排序的。序数型变量对记录 那些难以客观度量的主观评价是非常有用的。例如,职 业的排列经常按某个顺序,例如助理,副手,正职。

聚类(clustering)是一个将数据集划分为若干组
(class)或类(cluster)的过程,并使得同一个组内的
数据对象具有较高的相似度;而不同组中的数据对象是 不相似的。相似或不相似的描述是基于数据描述属性的 取值来确定的,通常就是利用(各对象间)距离来进行 表示的。
10.1 聚类分析概念
10.2 聚类分析中的数据类型
10.2.3二元变量

基于这样变量的相似度被称为非恒定的相似度。
对非恒定的相似度,最著名的评价系数是Jaccard 系
数,在它的计算中,负匹配的数目被认为是不重要的, 因此被忽略。
10.2 聚类分析中的数据类型
10.2.3二元变量
例1 二元变量之间的相异度:假设一个病人记录表 包含属性如下。name 是对象标识,gender是对称 的二元变量,其余的属性都是非对称的二元变量。
10.2 聚类分析中的数据类型
10.2.1数据结构

(2)差异矩阵 差异矩阵是一个对象-对象结构。它存放所有n个对象 彼此之间所形成的差异。它一般采用n × n矩阵来表示:
d(i,j)表示对象i和对象j之间的差异(或不相似程度)。 通常d(i,j)为一个非负数;当对象i和对象j非常相似或彼此 “接近”时,该数值接近0;该数值越大,就表示对象i和对 象j越不相似。d(i,j)=d(j,i)且d(i,i) = 0。

(1)简单匹配方法计算相异度: d(i, j) = (p-m)/p m 是匹配的数目,即对i 和j 取值相同的变量的数目; 而 p 是全部变量的数目。可以通过赋权重来增加m 的影响, 或者赋给有较多状态的变量的匹配更大的权重。
10.2 聚类分析中的数据类型
10.2.4标称变量

(2)通过为每个状态创建一个二元变量,可以用二
10.2 聚类分析中的数据类型
10.2.1数据结构

数据矩阵通常又称为是双模式矩阵;而差异矩阵则
称为是单模式矩阵。因为前者行和列分别表示不同的实
体;而后者行和列则表示的是同一实体。许多聚类算法 都是基于差异矩阵进行聚类分析的。如果数据是以数据 矩阵形式给出的,那么就首先需要转换为差异矩阵,方 可利用聚类算法进行处理。


(3)进行孤立点分析。如在欺诈探测中,孤立点可能预 示着欺诈行为的存在,通过聚类可以有效发现孤立点。
10.2 聚类分析中的数据类型
10.2.1数据结构

(1)数据矩阵
数据矩阵是一个对象-属性结构。它是由n个对象组 成,如:人、房子,文档,国家等;这些对象是利用p个 属性来进行描述的,如:年龄、高度、重量等。数据矩 阵采用关系表形式或n×p矩阵来表示:
实现消费群体的区分。此外还可以帮助分类识别
互联网上的文档以便进行信息发现。
聚类分析

本章重点:
掌握聚类分析中的数据类型;
了解聚类方法分类;

了解典型聚类方法。
聚类分析

10.1聚类分析概念 10.2聚类分析中的数据类型 10.3聚类方法分类 10.4典型的聚类方法
10.1聚类分析概念
10.1 聚类分析概念

(4)发现任意形状的聚类。基于距离的聚类方法一般
只能发现具有类似大小和密度的圆形或球状聚类。而实际
上一个聚类是可以具有任意形状的,因此设计出能够发现 任意形状类集的聚类算法是非常重要的。

(5)处理噪声数据的能力。大多数现实世界的数据库 均包含异常数据、不明数据、数据丢失和噪声数据,有些 聚类算法对这样的数据非常敏感并会导致获得质量较差的 数据。
10.2.2区间标度变量

在标准化处理后,对象间的相异度(或相似度)是 基于对象间的距离来计算的。 (1)欧几里得距离:


(2)Manhattan距离:
10.2 聚类分析中的数据类型
10.2.2区间标度变量

上面的两种距离度量方法都满足对距离函数的如下 数学要求:

1)d(i, j)≥0:距离是一个非负的数值。

(3)明考斯基距离(Minkowski)是欧几里得距离和 曼哈顿距离的概化:

(4)加权的欧几里得距离等。

其中,∑wi=1。同样,Minkowski距离和Manhattan 距离也可以引入权值进行计算。
10.2 聚类分析中的数据类型
10.2.3二元变量

一个二元变量只有两个状态:0 或1,0 表示该变量 为空,1 表示该变量存在。例如,给出一个描述病人的变 量smoker,1 表示病人抽烟,而0 表示病人不抽烟。 一种差异计算方法就是根据二值数据计算差异矩阵。 得到一个22条件表。

10.1 聚类分析概念

(3)高维问题。一个数据库或一个数据仓库或许包 含若干维或属性。许多聚类算法在处理低维数据(仅包 含二到三个维)时表现很好。人的视觉也可以帮助判断 多至三维的数据聚类分析质量。然而设计对高维空间中
的数据对象,特别是对高维空间稀疏和怪异分布的数据
对象,能进行较好聚类分析的聚类算法已成为聚类研究 中的一项挑战。

10.1聚类分析概念

聚类分析在数据挖掘中的作用: (1)其它算法的预处理步骤。利用聚类进行数据预处理, 可以获得数据的基本概况,在此基础上进行其他数挖掘 任务就可以提高精确度和挖掘效率。 (2)独立工具获得数据的分布。聚类分析是获得数据分 布情况的有效方法。例如,在商业上,可以帮助市场分 析人员从客户基本库中发现不同的顾客群,并且用购买 模式来刻画不同客户群的特征。

一个连续的序数型变量看起来象一个未知刻度的连 续数据的集合,也就是说,值的相对顺序是必要的,而 其实际的大小则不重要。例如,在某个比赛中的相对排
相关文档
最新文档