gCLUTO中文说明书

gCLUTO 使用说明书

Matt Rasmussen, Mark Newman

明尼苏达大学. 版权2003

最后修改：CST 2003年 1月20日星期一12:33:38

https://www.360docs.net/doc/2f15005894.html,/~mrasmus/gcluto

1 说明 (3)

1.1 gCLUTO简介 (3)

1.2 gCLUTO特征 (3)

1.3 版本说明 (3)

2 gCLUTO安装 (3)

3 gCLUTO使用 (4)

3.1 概述 (4)

3.2 创建新项目 (5)

3.3 导入数据 (5)

3.4 数据聚类 (6)

3.5 可视化方案 (8)

3.5.1可视化矩阵 (8)

3.5.1可视化矩阵——缩放比例 (9)

3.5.1可视化矩阵——树状图的使用 (8)

3.5.2可视化山丘 (10)

1 说明

1.1 gCLUTO简介

gCLUTO (Graphical Clustering Toolkit,图形聚类工具包)是CLUTO数据聚类文库的图形前端。它的目的是使CLUTO以用户友好的图形方式进行聚类。另外，gCLUTO还提供了交互式聚类结果可视化的几种方法。在

https://www.360docs.net/doc/2f15005894.html,/~mrasmus/gcluto可下载gCLUTO。关于gCLUTO的更多信息请访问https://www.360docs.net/doc/2f15005894.html,/~karypis/cluto。

1.2 gCLUTO特征

gCLUTO具有以下特征：

?管理数据文件，聚类方案和可视化方案的项目树视图；

?选择聚类选项的详细对话框；

?浏览数据的扩展表界面；

?浏览聚类方案的HTML 界面；

?可视化矩阵——一个彩色的交互式矩阵；

?可视化山丘——多维标度法生成的三维山丘聚类图形。

1.3 版本说明

gCLUTO目前正处于初始期。发行的目的是开发出可以最好地应用于聚类分析的特征和用户界面。

2 . gCLUTO安装

目前, gCLUTO 适用于Linux 和Microsoft Windows 平台.

?在https://www.360docs.net/doc/2f15005894.html,/~mrasmus/gcluto找到gCLUTO的最新版本。

?下载并在你电脑的任意位置解压文档。

?阅读README.txt文件以将正确版本的gCLUTO载入你的操作系统。

?Windows用户可以通过将gcluto.exe放入资源管理器来创建桌面快捷方式。右击图标，将其拖至桌面，从弹出的菜单中选择“在此创建快捷方式”。

?Linux用户可以创建一个符号链接至gcluto，并将符号链接置在最方便使用的地方。

注意：实际的可执行文件（gcluto, gcluto.exe）必须在其所在的文件夹内才可保证程序的执行。请勿将其重新定位。

3．gCLUTO使用

3.1 概述

图3.1 gCLUTO界面

数据聚类时，会涉及到多个信息，如数据文件，聚类方案文件和可视化方案文件。像许多其他应用一样，gCLUTO使用“项目”的概念来组织用户的数据和工作流。当一个项目载入，它的内容将会在树状图中显示，见图3.1（a）.

树状图中的图标为项目中的项。

?项目——代表项目本身，是项目树的根。

?数据——将数据导入项目后，数据图标就会出现在项目树上。一个项目可包含许多不同的数据项。

?方案——对某个数据项聚类后，方案图标就会生成并置于聚类数据项的下方。

?可视化矩阵——这是聚类后生成的一个可视化方案。所有的可视化方案都出现在它们所源自的聚类方案下方。

?可视化山丘——这是另一个可视化方案，它尝试从三维的角度来描述类群之间的相互关系。

在任意项上右击会弹出菜单列出该项上可执行的操作，双击可以在一个叫作“视图”的新窗口中打开该项的内容，类似于图3.1中的（b）（c）（d）。当在其中一个视图中工作的时候，菜单栏就会出现该视图特有的菜单选项。

3.2 创建新项目

gCLUTO第一次打开时是一个空的项目树。我们必须创建一个新的项目树以开始工作。在菜单栏选择“File”，再选择“New Project”，就会出现一个对话窗口，命名项目并在指定位置保存。

gCLUTO将会生成一个目录，称为项目目录。项目目录以项目命名并存储在特定位置。与该项目相关的信息都会存储在项目目录里。

打开已有项目需选择“File”，再选择“ Open Project”，然后会出现对话框。确定项目目录的位置并打开它。项目目录内会有一个“project_name.prj”文件，“project_name”为项目名。选择这个文件点击“打开”。

这些步骤后，项目树的项目将被载入并显示。

3.3 导入数据

gCLUTO接受的数据类型与CLUTO相同。参见CLUTO的说明书可详细了解具体的数据类型。以下类型的文件可用于创建新的数据项：

?matrix file (*.mat)——包括致密矩阵，稀疏矩阵，或者代表聚类数据的相似性图形。

?row lables (*.rlabel)——包含数据矩阵的行标签。

?column labels (*.clabel)——包含数据矩阵的列标签。

?class labels (*.rclass)——包含数据矩阵的行标签集。

导入新的数据项：在菜单栏上选择“Project”，再选择“Import Data”。出现的导入数据对话框允许用户打开指定位置的上述几种文件类型。点击“Browse”将弹出文件对话框，允许用户定位所需文件。对于*.txt文件可选择Delimited File进行导入。只有*.mat文件要求用户必须通过适当的选项指定*.mat文件包含的是矩阵数据还是图形数据。

如果先选择*.mat文件，gCLUTO会尝试通过为*.mat文件名加上扩展名来推测可选文件(*.rlabel, *.clabel, *.rclass)的位置，例如，对于名为genes.mat 的文件，gCLUTO会推测genes.mat.rlabel为行标文件。如果这个文件存在，gCLUTO会将它作为默认文件并在"Browse"文件对话框中打开。

当指定这些文件后，用户可为该数据项设定标签。如不设定，数据项将以除去扩展名的*.mat文件作为标记。在导入数据对话框点击“OK”, gCLUTO将试着读取所选文件。如果没有遇到错误，gCLUTO将添加新的数据项至项目树并打开数据视图。数据视图允许用户浏览数据，核实其是否被正确导入。

例如，若想导入“julei.txt”这个矩阵文件，可选择“Delimited File”，并在“Deliminated File Option”中选择以首行（列）作为行（列）标，“Delimiters”选择“Tab”,最后点击“OK”即可完成julei.txt文件的导入。

3.4 数据聚类

如果按照3.3中介绍的步骤导入数据，那么就可以准备数据聚类了。开始聚类有两种途径。第一种是右击项目树中的数据项，在弹出菜单上选择"Cluster"。第二种是数据视图打开后在菜单栏"Data"下选择"Cluster"。

在任一菜单选择"Cluster"后会出现聚类选项对话框，包含用于聚类的所有选项。只有特定的选项在一起才有意义。随着用户作出选择，gCLUTO会自动更新对话框以确保选择的合理性。

Cluster Method(聚类方法)有四种：Repeated Bisection(重复二分法)，Direct（直接聚类），Agglomerative（凝聚聚类）和 Graph（图形聚类）。其各自特点如表1所示。用户可根据实际需要选择恰当的聚类方法。

表1 算法特点简述表

聚类算法特点简要介绍

RB K-way算法遵循重复二分法的系列步骤计算。

Direct 整个K-way算法仅仅在一步直接计算。

Agglomerative 传统的凝聚聚类算法。

Graph 基于聚类算法的图形分散切割，优化各种相似度参数。

Number of Clusters（聚类数量）可先默认选择10类，然后根据聚类结果的好坏重新聚类，直到得到用户比较满意的结果为止。

Similarity Function（相似性函数）有Cosin,Correlation Coefficient,Euclidean Distance三种。默认选择Cosin。

Criterion Function(判别函数)包括I1,I2,E1,G1,G1’,H1,H2。不同的判别函数有时可产生明显不同的聚类方案。通常，数量相当的聚类，I2,H2比E1，G1’聚类效果好。用户可根据所应用的领域事先做些试验，以选择适用的函数。注意，凝聚聚类的计算复杂性取决于所选的判别函数。尤其是，如果聚类对象的数量为n，那么H1,H2的计算复杂度为O(n3)￡?而其余函数的计算复杂度为O(n2 log n)?￡

图3.2 判别函数

聚类时，判别函数可默认选择I2.

其余聚类选项均默认即可。

选好聚类选项后，在聚类选项对话框点击"Cluster"。gCLUTO完成聚类计算后，项目树中数据项下会生成聚类方案项。

gCLUTO还会自动打开类似于图3.1中（b）的聚类方案视图。视图中包括聚类的选择和一些关于所得类群的统计学指标，见表2。这个报告是根据CLUTO的报告设计的。另外，这个报告中还包含链接，类似于网页。点击这些链接可实现相关信息的快速导航。

表2 聚类报告中参数对照表

参数参数含义

Cluster聚类所得的类群

Size 聚类对象数量

Isim 类内对象间平均相似度

Isdev 类内对象间平均相似度的标准差

Esim 类间平均相似度

Esdev 类间相似度的标准差

gCLUTO可对相同的数据聚类多次。如果之前聚类的数据要再次聚类，聚类选项对话框中将出现上次聚类所使用的选项。右击项目树中想要重新聚类的聚类方案项，在弹出菜单选择"Recluster"，重新选择聚类选项生成特定的方案。gCLUTO的这个特征使聚类选择的调整过程变得容易。

3.5 可视化方案

目前，gCLUTO包含两种可视化方案：可视化矩阵和可视化山丘。可在“solution”菜单选择想要得到的可视化方案。右击项目树上的聚类方案项或在当前正在运行的解决方案视图的菜单栏“Solution”下，都可找到生成可视化的菜单。

3.5.1可视化矩阵

gCLUTO可视化矩阵类似于CLUTO可视化矩阵。前者通过使矩阵具有交互性而扩展了后者。

在可视化矩阵中，颜色代表原始数据矩阵中的数值。gCLUTO用白色代表接近零值，逐渐加深的红色代表较大的数值，逐渐加深的绿色代表负值。矩阵的行重新排列，使得同一类的行列在一起。黑色的水平线隔开各个类。

图3.3 可视化矩阵

若建立树状图可行，在可视化矩阵的上方和左侧则会出现树状图。若使用了凝聚聚类法，聚类时所产生的树显示为行树。否则，树状图的产生则要适合聚类方案。列树产生于凝聚聚类法对矩阵列的聚类。

如果导入数据时选择了行标签和列标签，那么它们将显示在矩阵的下方和右侧。只有当空间允许时才会显示这些标签。

为了帮助用户探查可视化矩阵包含的信息，gCLUTO执行了一些功能。一是矩阵的大小可用多种方式缩放。二是在矩阵中可折叠或扩展感兴趣的区域。

3.5.1可视化矩阵——缩放比例

缩放矩阵最简单的方法就是利用矩阵正上方的缩放控制。在文本框内输入新的尺寸，或者点击上或下的箭头缩放比例就会改变。控制标签“W”控制矩阵的宽度，“H”控制高度。这些缩放控制改变整个矩阵的大小，方便缩小或放大矩阵中感兴趣的区域。

很多时候，用户需要放大矩阵中的某一区域，而缩小某些不重要的区域。这种形式的缩放软件也可以做到。只对矩阵的一部分重设尺寸时，先选定该区域。点击任一单元格，拖动鼠标至另一单元格。这两个单元格将成为选定区域的角。选定的单元格会变成蓝色。将鼠标放在区域的任一边上，光标会变成重设大小的光标，点击并拖拽边至期望的位置，即可为选定的区域重设大小。选定的单元格也会相应重设以适应新的区域。

最后，选择菜单栏"Matrix"再选择"Reset Sizing"，矩阵还可恢复原来的缩放比例。在"Matrix"菜单选择"Fit to Screen"，矩阵还可自动缩放适应屏幕大小。

3.5.1可视化矩阵——树状图的使用

行树和列树可用来折叠或扩展矩阵。树的蓝色方块代表完全展开的节点。点击任意展开的节点即可折叠它。折叠的节点显示为粉色方块。当节点折叠，它所有的派生点都会隐藏。如果行树中的节点折叠，折叠区域中的所有行都会隐藏，并被包含平均值的单行取代。简单地点击折叠的节点即可将其再次扩展。列树的操作方式与此相同。

区域折叠，描述的标签就会改变。如果区域包含的行都属于相同的类，那么标签就是该类的类号。如果折叠区域内含有多个类，那么标签将为

“multi-cluster”（复合类）。

可视化山丘用于可视化类群的相对相似性，聚类的数量，类内相似性，类内标准差。可视化山丘中，每个类群被描述为三维地形的一个山丘。山丘的位置，体积，高度和颜色都描绘了相关类群的信息。

在三维显示图上点击和拖拽鼠标可为用户导航。不同的鼠标键执行不同的动作。

?左键——旋转地形。

?右键——上，下，左，右移动地形。

?中键——缩小放大。

平面上山丘的位置决定于对各类中点所用的多维标度法。当将顶点从高维空间绘至低维空间时，多维标度法尝试保持顶点间的距离。在这个应用中，多维标度法将类群中点作为顶点，并将其画到二维平面上。

3.5.2可视化山丘

图3.4 可视化山丘

多维标度法允许用户利用可视化山丘对他们的数据作出推测。例如，图3.4中，一个数据矩阵被聚成10类。可视化山丘将10个类群显示为10个山丘，并标记了相应的类号。尽管要求聚成10类，但多维标度法将山丘分为清晰的两组。我们可以推断每组内的类群具有高度的相似性，且与另一组内的类群大不相同。因此，该可视化图形暗示着该数据聚为两类效果会更好。

图3.4 山丘高度相加演示图

每个山丘的形状为高斯曲线。这种形状用来作为每个类内数据分布的粗略估计。山丘的高度与类内相似性成比例，体积与类群包含的对象数量成比例。合成的高斯曲线相加在一起形成可视化山丘的地形。

注意：比较山丘高度时牢记山丘可视化是把山丘曲线相加在一起，如图3.4所示，因而产生的高度要高于实际的高度。

山丘的颜色与类内标准差成比例。红色代表低标准差，蓝色代表高标准差。只有峰顶的颜色是有意义的。在其他所用区域，颜色混合以产生平滑过渡。

点击任意标签，相关类群的统计学指标将会导入文本窗口，并在可视化图形下方显示。这些信息与解决方案报告中的信息是一致的。如果该数据选择了列标签，那么可视化山丘可显示每个山丘最共有的特征。这个选项叫作“Show Features”（显示特征），可在“Mountain”菜单中找到。

gCLUTO版权2003

Matt Rasmussen rasm0146@https://www.360docs.net/doc/2f15005894.html,

最后修改：CST 2003年 1月20日星期一12:33:38

此页表达的观点及看法仅限于作者本人。

此页的内容尚未获明尼苏达大学审核和认可。