数据聚类中基于浓度噪音消除的可视化参数选择方法
聚类分析中的评估指标的使用方法

聚类分析中的评估指标的使用方法聚类分析是一种常用的数据挖掘和机器学习方法,用于将数据集中的对象划分为具有相似特征的组别。
评估指标在聚类分析中起着重要的作用,帮助我们理解聚类的质量和效果。
本文将介绍聚类分析中常用的评估指标以及它们的使用方法。
一、纯度(Purity)指标纯度是聚类结果的一种直观评估方法,其度量了类簇中主要类别的比例。
计算纯度的方法是将每个聚类中出现最多次数的类别作为主要类别,然后将主要类别的出现频率求和,最后除以总样本数量。
纯度= Σ(max(每个类别的频率)) / 总样本数量纯度的取值范围为0到1,值越高表示聚类结果越好。
然而,纯度只考虑了主要类别,没有考虑到其他类别的分布情况。
二、熵(Entropy)指标熵是另一种常用的聚类评估指标,它度量了聚类结果中的不确定性。
计算熵的方法是使用每个聚类簇中各个类别的频率计算条件概率,然后将所有条件概率求和并取负数。
熵 = -Σ(每个聚类簇中的条件概率)熵的取值范围为0到正无穷,值越低表示聚类结果越好。
熵比纯度更加全面,考虑了所有类别的分布情况,但也存在着与样本数量相关的偏差。
三、F-度量(F-Measure)指标F-度量是聚类结果的综合评估指标,结合了精确度(Precision)和召回率(Recall)。
精确度度量了聚类结果中正确分类的样本所占比例,召回率度量了正确分类的样本在原始数据集中所占的比例。
计算F-度量的方法是精确度和召回率的调和平均数。
F-度量 = 2 * (精确度 * 召回率) / (精确度 + 召回率)F-度量的取值范围为0到1,值越高表示聚类结果越好。
F-度量综合考虑了正确分类的样本数和原始数据集中的样本分布,因此是一种较为全面的评估指标。
四、轮廓系数(Silhouette Coefficient)指标轮廓系数是一种衡量样本分离度和聚集度的评估指标。
计算轮廓系数的方法是对每个样本计算其与同簇其他样本的平均距离(a),以及与最近邻异簇样本的平均距离(b),然后计算轮廓系数值。
聚类算法使用中常见问题解决方法(四)

在数据挖掘和机器学习领域,聚类算法是一种常用的方法,用于将数据集中具有相似特征的数据点归为一类。
然而,在实际应用中,聚类算法也面临着一些常见的问题,例如数据维度高、噪声数据和类别不平衡等。
本文将就这些问题进行探讨,并提出相应的解决方法。
数据维度高是聚类算法中常见的问题之一。
当数据集中的特征维度非常高时,传统的聚类算法往往表现不佳,因为高维数据往往会导致“维度灾难”,即样本密度的稀疏性,导致聚类结果不准确。
为解决这一问题,可以采用降维技术,如主成分分析(PCA)或线性判别分析(LDA),将高维数据映射到低维空间中进行聚类分析。
另外,也可以采用特征选择方法,从原始特征中选择出最具代表性的特征进行聚类分析,以降低数据维度对聚类结果的影响。
除了数据维度高外,噪声数据也是影响聚类算法准确性的另一个常见问题。
噪声数据指的是数据集中存在的异常值或不符合规律的数据点,如果不加以处理,会对聚类结果产生较大的干扰。
为解决噪声数据问题,可以采用滤波或异常值检测方法,将噪声数据从数据集中剔除,再进行聚类分析。
另外,也可以选择对噪声数据不敏感的聚类算法,如DBSCAN(基于密度的聚类算法),该算法能够自动识别并剔除噪声点,适用于噪声数据较多的情况。
另一个常见问题是类别不平衡,即数据集中不同类别的样本数量差异较大。
在这种情况下,传统的聚类算法往往会对样本数量较多的类别进行过度聚焦,忽视样本数量较少的类别。
为解决类别不平衡问题,可以采用过采样或欠采样技术,平衡不同类别的样本数量。
过采样指的是通过复制样本或生成合成样本来增加样本数量,而欠采样则是通过删除样本或减少样本权重来减少样本数量。
另外,也可以采用基于聚类的方法,将样本数量较多的类别进行聚类分析,再将样本数量较少的类别进行分类,以平衡不同类别的影响。
总的来说,聚类算法在实际应用中常常面临数据维度高、噪声数据和类别不平衡等问题,而这些问题也会影响聚类结果的准确性。
为解决这些问题,可以采用降维技术、噪声数据处理方法和类别平衡技术等方法,从而提升聚类算法的准确性和稳定性。
医学信息系统中的数据聚类方法研究

03
数据处理复杂
04
医学信息系统中的数据处理涉及 大量的计算和分析,如数据挖掘 、模式识别、图像处理等,需要 借助高性能计算和人工智能技术 。
数据安全和隐私保 护
医学信息系统中的数据涉及患者 的隐私和机密信息,必须采取严 格的数据安全和隐私保护措施, 确保数据不被泄露和滥用。
PART 03
数据聚类方法概述
特征选择
从提取的特征中选择出与目标变量相 关性强、对模型贡献大的特征,以降 低数据维度和提高模型性能。
PART 05
基于不同聚类算法的医学 数据聚类实验
实验设计和数据集介绍
实验设计
为了评估不同聚类算法在医学数据上的性能,我们设计了对比实验。实验包括数据预处理、特征提取 、聚类算法应用和结果评估四个主要步骤。
去噪
采用滤波、平滑等技术,消除数 据中的随机误差和噪声。
数据变换和标准化
数据变换
通过数学变换(如对数变换、Box-Cox变换等)改变数据的分布形态,使其更符 合后续分析的要求。
标准化
将数据按比例缩放,使之落入一个小的特定区间,以消除量纲和数量级对数据分 析的影响。
特征提取和选择
特征提取
从原始数据中提取出有意义的特征, 如基于医学知识的特征、基于统计学 的特征等。
国内外研究现状及发展趋势
01
国外研究现状
国外在医学信息系统数据聚类方法的研究起步较早,已经形成了较为完
善的理论和方法体系,并且在实践中取得了显著的应用成果。
02
国内研究现状
国内在医学信息系统数据聚类方法的研究相对较晚,但近年来发展迅速
,已经在理论方法和应用实践方面取得了一系列重要成果。
03
发展趋势
dbscan颜色参数 -回复

dbscan颜色参数-回复dbscan颜色参数–一种无监督聚类算法的可视化工具引言:数据聚类是机器学习和数据挖掘领域中一个重要的任务,它可以帮助我们发现数据中的隐藏模式和结构。
其中一种常用的聚类算法是基于密度的聚类算法,其中DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是其中一种经典的算法。
在应用这种聚类算法时,为了更直观地理解聚类结果,我们常常需要使用颜色参数来为不同的聚类分配不同的颜色,并将它们在可视化图表中展示出来。
1. DBSCAN算法简介DBSCAN是一种基于数据点密度的聚类算法,相比于其它算法如K-means和层次聚类,它在数据分布复杂和噪声较多的情况下更具有鲁棒性。
该算法的核心思想是以数据点周围的密度来判断该点是否属于某个聚类,以及确定该聚类的边界。
2. DBSCAN算法的输入参数DBSCAN算法的主要输入参数包括epsilon(ε)和minimum points (minPts)。
其中epsilon定义了用于确定一个数据点周围邻域的半径大小,而minimum points定义了在一个数据点的邻域内至少需要有多少个数据点才能形成一个聚类。
3. DBSCAN算法的输出结果DBSCAN算法的输出结果是一组聚类,每个聚类可以包含一个或多个数据点。
同时,算法还可以将一些噪声点(不属于任何聚类)标记出来。
4. 使用颜色参数为聚类结果着色为了更好地理解聚类结果,我们通常会为每个聚类分配不同的颜色,并将这些颜色在可视化图表中展示出来。
在DBSCAN算法中,我们可以使用不同的颜色来区分不同的聚类。
其中一种常用的颜色参数为颜色哈希码,它可以使用不同的数值(例如十六进制数值)来表示不同的颜色。
5. 实现步骤步骤1:加载数据集首先,我们需要加载数据集并进行必要的数据预处理,例如标准化或归一化。
步骤2:应用DBSCAN算法接下来,我们将数据集输入到DBSCAN算法中,并设置合适的epsilon 和minimum points参数。
聚类分析的思路和方法

揭示数据的内在结构和分布规律,为 数据分析和挖掘提供有力支持。
聚类分析的应用领域
01
02
03
04
模式识别
用于图像分割、语音识别等领 域。
数据挖掘
用于发现数据中的隐藏模式、 异常检测等。
生物信息学
用于基因序列分析、蛋白质结 构预测等。
社交网络分析
用于发现社交网络中的社区结 构、用户行为分析等。
聚类分析的基本流程
要点二
戴维森-布尔丁指数(DaviesBouldin In…
DBI通过计算每个簇内样本到簇质心的平均距离与簇质心 到其他簇质心的最小距离之比的最大值来评估聚类效果。 DBI越小表示聚类效果越好。它考虑了簇内的紧密性和簇 间的分离性。
CHAPTER 05
聚类结果的解释与应用
聚类结果的可视化
散点图
将聚类结果以二维或三维散点图 的形式展示,不同类别的样本用 不同颜色或形状表示,可以直观 地看出各类别之间的分布情况和
CHAPTER 03
聚类算法介绍
K-means算法
算法原理
K-means算法是一种基于距离的聚类算法,通过迭代将数据点划分为K个簇,使得每个簇 内的数据点尽可能相似,而不同簇之间的数据点尽可能不同。
算法步骤
首先随机选择K个数据点作为初始聚类中心,然后计算每个数据点到各个聚类中心的距离 ,并将其划分到距离最近的聚类中心所在的簇中。接着重新计算每个簇的聚类中心,并重 复上述过程直到聚类中心不再发生变化或达到最大迭代次数。
DBSCAN算法
算法原理
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法是一种基于密度的聚类 算法,通过寻找被低密度区域分隔的 高密度区域来实现数据的聚类。
数据挖掘最新精品课程完整(第14讲)---基于密度的聚类

.
基于密度方法的聚类- DBSCAN
算法执行过程:
步 选 在ε 通过计算可达点而找到的新
骤 择 中点
簇
的 的个
点数
11 22 33 44
55 66 77 88 99 10 10 11 11 12 12
2
无
2
无
3
无
5 簇C1:{1,3,4,5,9,10, 12}
3
已在一个簇C1中
3
.
DBSCAN算法步骤
输入: 数据集D,参数MinPts, ε 输出: 簇集合
(1) 首先将数据集D中的所有对象标记unvisited ;
(2) do
(3) 从D中随机选取一个unvisited对象p,并将p标记为visited ;
if p的 ε 邻域 包含的对象数至少为MinPts个
创建新簇C ,并把p添加到c中;
(14) Else 标记p 为噪声
(15) Untill 没有标记为unvisited 的对象
.
基于密度方法的聚类- DBSCAN
下面给出一个样本事务数据库(见下表), 对它实施DBSCAN算法。
根据所给的数据通过对其进行DBSCAN算法, 以下为算法的步骤(设n=12, 用户输入ε=1, MinPts=4)
意形状的聚类,有效地处理数据集中的噪声数据,数据输入顺序不敏 感
缺点 输入参数敏感. 确定参数ε,MinPts困难,若选取不当,将造成聚
类质量下降. 由于在DBSCAN算法中,变量ε,MinPts是全局惟一的, 当空间
聚类的密度不均匀、聚类间距离相差很大时,聚类质量较差。 计算密度单元的计算复杂度大,需要建立空间索引来降低计算量
生物信息学的基因聚类分析
目录
• 基因聚类分析概述 • 基因聚类分析的方法 • 基因聚类分析的步骤 • 基因聚类分析的挑战与解决方案 • 基因聚类分析的未来展望
01
基因聚类分析概述
定义与目的
定义
基因聚类分析是一种将基因按照相似 性或相关性进行分组的方法。
目的
通过聚类分析,可以更好地理解基因 之间的相互关系和功能,有助于发现 基因之间的共同特征和模式,以及潜 在的生物过程和机制。
COBWEB聚类
通过构建分类树进行聚类,假设每个节点代表一个概念,通过迭代方式优化分类树。
03
基因聚类分析的步骤
数据预处理
数据清洗
去除基因表达数据中的噪声和异常值,确保数 据质量。
归一化
将基因表达数据标准化,使不同样本间的数据 具有可比性。
缺失值处理
根据实际情况选择合适的策略处理缺失值,如填充、删除或插值。
疾病研究
聚类分析可以用于研究疾病相关 基因的共性特征和模式,有助于 发现新的疾病标记和治疗靶点。
药物发现
通过聚类分析,可以发现与药物 活性相关的基因特征和模式,有 助于药物设计和筛选。
02
基因聚类分析的方法
基于距离的聚类方法
层次聚类
通过计算基因间的距离,将距离相近的基因聚为一类,形成树状结构,最终形成不同的聚类。
02
基因表达谱数据中可能存在噪声和异常值,这些值可能由于测 序技术、样本处理等原因产生。这些值对聚类结果产生干扰,
可能导致聚类结果的不准确和不稳定。
03
解决方案: 进行数据清洗和预处理,去除或修正噪声和异常值。 可以采用一些统计方法,如Z-score标准化、中位数绝对偏差 (MAD)等方法进行清洗。ຫໍສະໝຸດ 特征提取表达量提取
数据挖掘第三篇:聚类的评估(簇数确定和轮廓系数)和可视化
数据挖掘第三篇:聚类的评估(簇数确定和轮廓系数)和可视化在实际的聚类应⽤中,通常使⽤k-均值和k-中⼼化算法来进⾏聚类分析,这两种算法都需要输⼊簇数,为了保证聚类的质量,应该⾸先确定最佳的簇数,并使⽤轮廓系数来评估聚类的结果。
⼀,k-均值法确定最佳的簇数通常情况下,使⽤肘⽅法(elbow)以确定聚类的最佳的簇数,肘⽅法之所以是有效的,是基于以下观察:增加簇数有助于降低每个簇的簇内⽅差之和,给定k>0,计算簇内⽅差和var(k),绘制var关于k的曲线,曲线的第⼀个(或最显著的)拐点暗⽰正确的簇数。
1,使⽤sjc.elbow()函数计算肘值sjPlot包中sjc.elbow()函数实现了肘⽅法,⽤于计算k-均值聚类分析的肘值,以确定最佳的簇数:library(sjPlot)sjc.elbow(data, steps = 15, show.diff = FALSE)参数注释:steps:最⼤的肘值的数量show.diff:默认值是FALSE,额外绘制⼀个图,连接每个肘值,⽤于显⽰各个肘值之间的差异,改图有助于识别“肘部”,暗⽰“正确的”簇数。
sjc.elbow()函数⽤于绘制k-均值聚类分析的肘值,该函数在指定的数据框计算k-均值聚类分析,产⽣两个图形:⼀个图形具有不同的肘值,另⼀个图形是连接y轴上的每个“步”,即在相邻的肘值之间绘制连线,第⼆个图中曲线的拐点可能暗⽰“正确的”簇数。
绘制k均值聚类分析的肘部值。
该函数计算所提供的数据帧上的k均值聚类分析,并产⽣两个图:⼀个具有不同的肘值,另⼀个图绘制在y轴上的每个“步”(即在肘值之间)之间的差异。
第⼆个图的增加可能表明肘部标准。
library(effects)library(sjPlot)library(ggplot2)sjc.elbow(data,show.diff = FALSE)从下⾯的肘值图中,可以看出曲线的拐点⼤致在5附近:2,使⽤NbClust()函数来验证肘值从上⾯肘值图中,可以看到曲线的拐点是3,还可以使⽤NbClust包种的NbClust()函数,默认情况下,该函数提供了26个不同的指标来帮助确定簇的最终数⽬。
数据科学入门数据清洗可视化和建模
数据科学入门数据清洗可视化和建模数据科学入门:数据清洗、可视化和建模数据科学在当前信息时代中扮演着重要的角色,它依靠数据的收集、清洗、可视化和模型构建等步骤来提取有价值的信息。
在本文中,我将介绍数据科学的入门技巧,特别是数据清洗、可视化和建模方面的知识。
一、数据清洗数据清洗是数据科学的第一步,它涉及到去除数据集中的噪音、处理缺失值、标准化数据等操作。
清洗后的数据集将为后续的分析和建模工作提供基础。
1.1 去除噪音在数据收集的过程中,由于各种原因可能会引入一些噪音数据,这些数据对后续分析的结果产生不良影响。
因此,我们需要使用合适的算法和方法来识别和清除这些噪音数据。
1.2 处理缺失值数据集中常常会存在缺失值,这些缺失值可能是由于数据采集过程中的技术问题或是部分样本信息确实所导致。
我们可以通过插值、删除等方法来处理缺失值,以确保数据集的完整性和准确性。
1.3 数据标准化不同特征之间的数值范围可能存在巨大差距,这可能会影响到后续的分析结果。
因此,数据标准化是将数据转化为相同尺度的一种技术手段,常见的方法有min-max标准化和Z-score标准化等。
二、数据可视化数据可视化是将数据以图形化的方式展现出来,帮助我们更好地理解数据、发现数据的规律和趋势。
通过数据可视化,我们可以更直观地分析数据、提取数据的潜在信息。
2.1 散点图散点图是一种常见的数据可视化方式,通过在二维坐标系中展示不同特征之间的关系,我们可以发现变量之间的相关性或者离群点等突出的特征。
2.2 柱状图柱状图用来展示离散数据,通常由横纵坐标和柱子的高度组成,它可以帮助我们比较不同类别或不同时间点的数据差异。
2.3 折线图折线图一般用来展示序列数据,通过将数据点用线段连接起来,我们可以看到数据随时间或其他变量的变化趋势。
三、数据建模数据建模是数据科学的核心环节,它通过数学模型和算法来揭示数据之间的关系,构建预测模型或分类模型。
3.1 监督学习监督学习是一种通过已知输入和其对应的输出来建立模型的方法。
数据挖掘中的聚类算法优化方法
数据挖掘中的聚类算法优化方法数据挖掘是一种将大量数据中隐藏的模式、关联和趋势挖掘出来的过程。
而聚类是数据挖掘中的一种重要方法,它将相似的数据点归类到一起,为数据分析提供重要信息。
然而,在大规模数据集上应用聚类算法时,常常面临着效率和准确性的问题。
为了解决这些问题,研究者们提出了多种聚类算法优化方法,以提高算法的效率和准确性。
本文将介绍几种常用的聚类算法优化方法。
一、降维技术在大规模数据集上进行聚类时,数据的维度非常高,导致计算量巨大,算法效率低下。
因此,降维技术被引入到聚类算法中,以减少数据集的维度,并保持数据的主要特征。
常用的降维技术有主成分分析(PCA)、线性判别分析(LDA)和局部线性嵌入(LLE)等。
这些技术可以将高维数据转换为低维空间,从而减少计算开销,提高聚类算法的效率。
二、聚类算法参数优化聚类算法通常包含一些参数,这些参数对算法的性能有着重要影响。
为了获得最佳的聚类结果,研究者们提出了一些聚类算法参数优化方法。
例如,基于遗传算法的参数优化方法可以通过搜索算法参数的最佳组合,以提高聚类算法的准确性。
此外,还可以使用基于粒子群优化、模拟退火等方法来进行参数优化,从而得到更好的聚类结果。
三、并行计算在大规模数据集上进行聚类时,传统的串行计算方法效率低下。
为了提高算法的效率,并行计算被应用到聚类算法中。
并行计算可以通过利用多个计算资源同时进行计算,加快聚类算法的运行速度。
常用的并行计算方法有集群计算、分布式计算和图像处理器(GPU)计算等。
这些方法可以充分利用计算资源,提高聚类算法的效率和扩展性。
四、密度聚类优化传统的聚类算法如K-means和层次聚类对数据点的分布有一些假设,不适用于多样化的数据集。
为了解决这个问题,研究者们提出了一些密度聚类算法,如DBSCAN和OPTICS。
这些算法基于密度的概念,能够自适应地发现聚类簇,并且对噪声数据具有较好的鲁棒性。
通过使用密度聚类算法,可以得到更精确的聚类结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ISSN 1000-9825,CODEN RUXUEW Journal ofSoftware,Vo1.19,No.8,August 2008,PP.1965—1979 DOI:l0.3724/SEJ.1001.2008.01965 ◎2008 by Journal ofSoftware.All rights reserved.
数据聚类中基于浓度噪音消除的可视化参数选择方法 钱宇
木
fDepartment of Pathology,University of Texas Southwestern Medical Center,Dallas,75390,USA)
E-mail:jos@iscas.ac.ca http://www.jos.org.ca 1 l/Fax:+86-l0.62562563
A Visual Approach to Parameter Selection of Density—Based Noise Removal for Effective Data Clustering
QIAN (Department ofPathology,University ofTexas Southwestern Medical Center,Dallas,75390,USA) +Corresponding author:E—mail:yu.qian@utsouthwestern.edu
Qian Y.A visual approach to parameter selection of Density-based noise removal for effective data clustering. Journal ofSoftware,2008,19(8):1965—1979.http://www.jos.org.cn/1000-9825/19/1965.htm
Abstract:Traditional visual data mining relies on visualization techniques to disclose implicit lnformation and relationship among data through utilizing human capability of pattern recognition.As an important step in data clustering,noise removal is a challenging topic as domain-specific noise is not well defined and cannot be removed by generic process of data cleaning.This paper addresses two conjugated and reciprocal issues in the use of visualization in noise removal:choosing appropriate visualization techniques based on data removing methods,and designing processing algorithms that suit visualization.The goal is a synthesis of visualization techniques and data mining methods to enhance the overall performance while reducing the subjective factor in visual mining procedure. A visual data cleaning approach called CLEAN is proposed to assist spatial data clustering in four important aspects: removal of domain-specific noise,visualization of data quality,selection of algorithm parameters,and measurement of noise removing methods on parameter sensitiveness.Experiments show that the visualization models in CLEAN do assist effective discovery of natural spatial clusters in a noisy environment. Key words:information visualization;data mining;clustering;noise removal
摘要: 可视化技术的发展极大地提高了传统数据挖掘技术的效率.通过结合人类识别模式的能力,计算机程序 能够更有效的发现隐藏在数据中的规律和信息.作为聚类分析的重要步骤,噪音消除一直都是困绕数据挖掘研究者 的问题,尤其对于不同领域的应用,由于噪音的模型和定义不同,单一的数据处理方法无法有效而准确地去除域相关 的噪音.本文针对这一问题,提出了一个新型的可视化噪音处理方法CLEAN.CLEAN的独特之处在于它设计的噪音 处理技术和提出的可视化方法有机地结合在一起.噪音处理算法为可视化模型生成所需数据,同时针对噪音处理算 法选择可视化方法,从而达到提高整个数据处理系统性能的目的.这样不仅降低了噪音去除过程中主观因素的影响, 还可以帮助数据挖掘程序去除领域相关的噪音.同时源数据的质量,算法参数的选择和不同噪音去除算法的精确性 都可以在所使用的可视化模型中反映出来.实验表明CLEAN能够有效地帮助空间数据聚类算法在噪音环境下发 现数据的自然聚类. 关键词: 信息可视化:数据挖掘:聚类;噪音消除
Received 2008-01-16;Accepted 2008-04-18
维普资讯 http://www.cqvip.com 中图法分类号:TPI8I 文献标识码:A 1 Introduction
Journal ofSoftware软件学报Vol,19,No.8,August 2008
The importance of handling a rapid growth of data has been recognized since the wide application of database technology and large-scale data collection mechanisms,Computer—aided data processing techniques have proved their utilities in managing large amount of data from various perspectives,Among these techniques,data mining or knowledge discovery in database(KDD),which refers to the non-trivial process of discovering interesting,implicit, and unknown knowledge from large databases has been widely applied to many communities,While the purpose of data mining is still primarily concerned with extracting knowledge from very large databases its techniques evolves to be more user-oriented,Users are allowed to get insights from data during the mining process.The extracted patterns,models,or relationships among the data are becoming easily interpreted and understood.Many of the benefits come from effective data visualization,an important component of visual data mining(VDM)【jJ, which emphasizes the human-computer interaction in mining process to deliver intuitive mining results, The goal of visualization is to provide qualitative insight into data,processes,and concepts through using visual pattern recognition ability humans possess .Visualization could bridge the two most powerful information-processing systems:human and computer,While humans are capable of providing overviews of patterns and detecting outliers,they are limited in the ability of handling scale and are easily overwhelmed by the volumes of data.Data mining could complement human abilities through processing large amount of data automatically.Combining the two approaches for knowledge discovery is clearly promising .Visualization plays a key role in the combination as transforming and presenting problems visually could provide new insight and pave the way to their solutions[ .