一种高维数据集的子空间聚类算法

合集下载

高维数据聚类算法研究

高维数据聚类算法研究

高维数据聚类算法研究随着数据技术的不断发展和数据获取能力的提高,我们已经可以收集到极为庞大的数据集合,这些数据集合包含了大量的维度,但是这种高维数据在处理过程中会遇到很多问题,例如如何对其进行处理和分析。

人们发现,聚类算法可以派上用场。

但是在高维空间进行聚类面临很多挑战,过于敏感和模糊的数据会使得聚类结果的准确性大大降低。

本文将探讨高维数据聚类算法研究及其应用。

一、高维数据聚类算法研究的现状从广义上来讲,聚类算法可以说是数据挖掘领域中最常用且最有作用的方法之一。

传统聚类算法,比如K-means算法、层次聚类和DBSCAN等,已经被广泛应用于数据处理和分析。

但是,在高维数据的处理中这些方法的表现开始变得异常困难,因为高维数据集合复杂度非常高,其中许多维度对结果的影响都是微弱的。

这使得传统的聚类方法可能会导致聚类结果混乱,难以从中得出有用的结论。

几十年来,数据科学家制定了各种各样的高维聚类算法,这些算法的特点是旨在解决传统方法无法处理的问题和瓶颈。

有关高维数据聚类算法研究的主要方面如下:1.1稀疏聚类稀疏聚类是一种聚类技术,能够在具有噪声的高维数据中找到隐藏的模式。

通常情况下,高维数据的特征向量中很多维都是无效的,只有少数几个维度包含了真正有用的信息,这就是所谓的“稀疏性质”。

基于稀疏性,稀疏聚类通过压缩特征维度来优化聚类结果,减少了对数据的负担。

这些算法的应用包括基因表达分析、图像处理和文本分类等领域。

1.2图像聚类图像聚类是一种根据像素值和空间位置对图像像素进行自动分组的计算机图像处理技术。

它可以帮助研究人员更好地理解图像内容和特征,并从中发现有用的模式。

具体而言,图像聚类通过将像素分组为相似的颜色、亮度和纹理,从而将图像分割成不同的区域或层次。

这些图像分割将有助于科学家分析这些分组的特征并提取受异物及人工破坏影响的区域。

1.3集成聚类集成聚类是通过将多个聚类算法进行结合的方式来增强聚类效果的算法。

基于方差权重矩阵模型的高维数据子空间聚类算法

基于方差权重矩阵模型的高维数据子空间聚类算法

High dimensional subspace clustering algorithm WMFCM based on variance weight matrix
JIANG Yizhang,WANG Shitong
( School of Digital Media,Jiangnan University,Wuxi Jiangsu 214122 ,China)
作者简介: 蒋亦樟( 1988-) , 男, 江苏无锡人, 硕士研究生, 主要研究方向为人工智能、 模式识别 ( jyz0512 @ 163. com ) ; 王士同 ( 1964-) , 男, 江苏 扬州人, 教授, 博导, 主要研究方向为模式识别 、 人工智能、 生物信息学.
第8 期
蒋亦樟, 等: 基于方差权重矩阵模型的高维数据子空间聚类算法
‖x jk - v ik ‖2 ∑k 1 ≤ j≤ N
FCM 算法的详 根据 2. 2 节的公式推导, 本文得到了 WM( 3)
细步骤如下:
…, Xn } , 输入: 数据集 data = { X1 , 聚类数目 C ( 2 ≤ C < N ) , 迭代阈 值 ε, 模糊指数 m, 迭代次数 f, 最大迭代次数 L, 权重因子 r。 输出: 聚类中心点 v i , 模糊隶属度矩阵 μ ij , 权重矩阵 w ik 。 a) 初始化随机产生中心点集 v i , 随机产生归一化的模糊隶属度矩 阵 μ ij , 令 w ik = 1 ( d 表示数据的维数) , 类方差 σ2 k; d
节权重的控制因子。为便于根据实际情况进一步对权重进行 r > 0 ; 在本文的实验中, 调控, 使其更加逼近真实值, 为方便起 r = 1。 见,
最后, 为了得到中心点 v ik 的迭代公式, 令

优化子空间的高维聚类算法

优化子空间的高维聚类算法

摘要:针对当前大多数典型软子空间聚类算法未能考虑簇类投影子空间的优化问题,提出一种新的软子空间聚类算法。

该算法将最大化权重之间的差异性作为子空间优化的目标,并提出了一个量化公式。

以此为基础设计了一个新的优化目标函数,在最小化簇内紧凑度的同时,优化每个簇所在的软子空间。

通过数学推导得到了新的特征权重计算方法,并基于kmeans 算法框架定义了新聚类算法。

实验结果表明,所提算法对子空间的优化降低了算法过早陷入局部最优的可能性,提高了算法的稳定性,并且具有良好的性能和聚类效果,适合用于高维数据聚类分析。

关键词:高维数据;聚类;子空间优化;特征权重;差异中图分类号: tp181文献标志码:a0引言聚类作为数据挖掘研究的一种重要手段,目的是将给定的一个数据集划分成多个簇,使得同一簇内的样本尽量相似,而与其他簇中的样本相异较大[1-2]。

目前,聚类分析已经在许多领域获得广泛应用,如模式识别、文本挖掘、机器学习、网络搜索、基因表达、顾客区分和图像处理等。

随着大数据时代的来临,人们在实际应用过程中经常处理的数据不再是几维或几十维的低维数据,而是几百、几千甚至上万维的高维数据。

例如,文本挖掘中由向量空间模型(vector space model, vsm)[3]表示的文档向量可能具有几百甚至上千个特征。

对于高维数据而言,其数据表现具有以下两方面现象:随着维数的增加,数据索引的维护效率急剧下降[4];在高维空间中数据点之间近似等间距[5]。

以上两方面现象泛指高维数据的“维度效应(curse of dimensionality)”。

由于传统聚类方法一般使用欧氏距离等函数度量数据之间的相似性,受“维度效应”的影响,传统聚类方法在高维数据中的聚类性能往往大为降低或聚类精度大幅度下降[6]。

在2005年10月的ieee数据挖掘国际会议上,高维数据的处理被认为是当前数据挖掘研究领域中十大挑战性课题之一[7]。

表2和表3列出了5种算法在真实数据集上获得的聚类结果,即各表所列为在相同的初始簇中心及其他环境相同的情况下,各算法在对应数据集上独立运行100次的平均聚类结果,以“均值±1个方差”形式提供。

基才遗传算法的高维子空间聚类算法设计

基才遗传算法的高维子空间聚类算法设计

的新 算 法能 够 有 效 地 进 行 高 维数 据 聚 类 , 降低“ 维数 灾效 应” 的影响。
关键 词 :遗传 算 法 ;高维 空 间 ; 聚类 : 特 征 维
中 国分 类 号 : 1 ’ P 1 8 文献标识码 : A 文 章编 号 :1 6 7 4 — 6 2 3 6 ( 2 0 1 3 ) 0 5 — 0 1 8 0 — 0 4
( 武汉 科 技 大 学 信 息 科 学 与 工程 学 院 , 湖北 武汉 4 3 0 0 8 1 ) 摘要 : 针 对 高 维 空 间数 据 的 特 点 。 为 了降 低 “ 维数 灾 难 效 应 ” 对 聚 类 结 果 的影 响 , 提 出 并 实现 了一 种 新 的 基 于遗 传 算 法的 子 空 间 聚 类 算 法 . 通 过 特 征 选择 方 法 并 结 合 遗 传 算 法 的 全 局 搜 索 能 力 对 所 有 的 特 征 子 空 间 进 行 搜 索 ; 采 用 实 数
HU AN G B a i - me i ,Z HANG Z h e n g
( C o l l e g e o fI n f o r ma t i o n a n d S c i e n c e a n d E n g i n e e r i n g , Wu h a n U n i v e r s i t y o fS c i e ce n a n d T e c h n o l o g y ,
制 编 码 方 式 对 解 空 间进 行 编 码 . 并 设 计 一 种 基 于 距 离和 信 息 熵 的 适 应 度评 估 函数 来 对聚 类结 果 和 子 空 间 所 包含 的 特 征 维进 行 评 估 。 最后 , 通过 人 工数 据 与 真 实数 据 等 几 组 实验 验证 了算 法 的 高 效性 和 鲁棒 性 。实验 结 果表 明 , 本 文提 出

一种改进的SUBCLU高维子空间聚类算法

一种改进的SUBCLU高维子空间聚类算法

一种改进的SUBCLU高维子空间聚类算法罗靖;钱雪忠;韩利钊;宋威【摘要】SUBCLU高维子空间聚类算法在自底向上搜索最大兴趣子空间类的过程中不断迭代产生中间类,这些中间类的产生消耗了大量时间,针对这一问题,提出改进算法BDFS-SUBCLU,采用一种带回溯的深度优先搜索策略来挖掘最大兴趣子空间中的类,通过这种策略避免了中间类的产生,降低了算法的时间复杂度.同时BDFS-SUBCLU算法在子空间中对核心点增加一种约束,通过这个约束条件在一定程度上避免了聚类过程中相邻的类由于特殊的数据点合为一类的情况.在仿真数据集和真实数据集上的实验结果表明BDFS-SUBCLU算法与SUBCLU算法相比,效率和准确性均有所提高.%SUBCLU algorithm is a subspace clustering algorithm for high dimensional data. However, it produces a lot of intermediate clusters during the iteration of finding maximum interesting subspace clusters by using bottom-up search strategy. A large amount of time is consumed in the process of generating these intermediate clusters. Focus on this prob-lem, algorithm BDFS-SUBCLU(the deep-first search with back-trace-based SUBCLU)is proposed. To avoid producing the intermediate clusters and reduce the time complexity, this algorithm uses deep-first search with back-trace to find max-imum interesting subspace clusters. To avoid that the adjacent clusters affected by those special data points merge to one, BDFS-SUBCLU constraints the key point in every subspace. The experiments conducted on synthetic datasets and real data-sets show that BDFS-SUBCLU improves efficiency and accuracy compared to SUBCLU.【期刊名称】《计算机工程与应用》【年(卷),期】2017(053)014【总页数】8页(P130-137)【关键词】SUBCLU;子空间聚类;高维数据;兴趣子空间【作者】罗靖;钱雪忠;韩利钊;宋威【作者单位】江南大学物联网工程学院物联网技术应用教育部工程研究中心,江苏无锡 214122;江南大学物联网工程学院物联网技术应用教育部工程研究中心,江苏无锡 214122;江南大学物联网工程学院物联网技术应用教育部工程研究中心,江苏无锡 214122;江南大学物联网工程学院物联网技术应用教育部工程研究中心,江苏无锡 214122【正文语种】中文【中图分类】TP301随着生命科学、移动通信、电子商务、社交网络等相关领域的飞速发展,涌现出大量的高维数据,如何有效地对高维数据进行聚类分析,已经引起研究人员的广泛关注。

fassis 聚类算法

fassis 聚类算法

fassis 聚类算法FASISS(Fast and Scalable Incremental Subspace Clustering)是一种增量式子空间聚类算法。

与传统的聚类算法不同,FASISS能够在数据增量的情况下进行高效的子空间聚类。

本文将对FASISS算法进行详细介绍,并逐步回答与该算法相关的问题。

1. 什么是聚类算法?聚类算法是一种将数据分为多个组别的无监督学习方法。

聚类算法旨在通过将具有相似特征的数据点分组,来揭示数据的内在结构,帮助我们更好地理解数据。

2. 什么是子空间聚类?子空间聚类是一种基于数据点在不同特征空间中的分布进行聚类的方法。

相比传统聚类算法,子空间聚类更适用于高维数据,因为它能够考虑到数据在不同维度上的相关性。

3. FASISS算法的原理是什么?FASISS算法的核心原理是基于局部距离和全局距离相结合的增量式子空间聚类。

具体来说,FASISS使用一种称为距离累积的方法来衡量数据点之间的相似性,并通过管道机制将新的数据点逐步地添加到聚类中。

4. FASISS算法的步骤是什么?FASISS算法的步骤如下:- 步骤1:初始化阶段。

在此阶段,FASISS会选择一些数据点作为初始聚类中心,并计算它们之间的距离。

- 步骤2:增量式聚类阶段。

在此阶段,FASISS会逐步添加新的数据点,并将它们分配到合适的聚类中心。

对于每个新的数据点,FASISS会计算其局部距离和全局距离,并将其添加到距离最小的聚类中心。

- 步骤3:聚类更新阶段。

在此阶段,FASISS会更新聚类中心,并重新计算数据点之间的距离。

如果某个聚类中心变得不稳定,FASISS会将其剔除,并选择一个新的聚类中心。

5. FASISS算法与传统聚类算法的区别是什么?与传统聚类算法相比,FASISS算法有以下几个不同点:- FASISS算法是一种增量式聚类算法,可以高效地处理数据增量的情况。

- FASISS算法是基于子空间聚类的,能够应对高维数据,并考虑到数据在不同维度上的相关性。

基于混合网格划分的子空间高维数据聚类算法

基于混合网格划分的子空间高维数据聚类算法

基于混合网格划分的子空间高维数据聚类算法许倡森【摘要】提出一种基于混合网格划分的子空间高维数据聚类算法.该算法消除了各个属性分量数值范围大小对计算的影响;有效去除冗余属性以提高聚类准确性与降低时间复杂度.根据数据分布情况灵活选择固定网格划分或是自适应网格划分,利用这二种不同的网格划分方法具有的优点,以实现进一步降低算法的时间复杂度和提高聚类结果的准确性,并使算法具有更优的可伸缩性.实验使用仿真数据表明,该算法在处理具有属性值域范围大的高维大规模数据时是实用有效的.【期刊名称】《计算机技术与发展》【年(卷),期】2010(020)010【总页数】4页(P150-153)【关键词】高维聚类;子空间聚类;相对熵;网格划分【作者】许倡森【作者单位】华南师范大学,计算机学院,广东,广州,510631【正文语种】中文【中图分类】TP301.60 引言科学研究与应用领域的迅速发展,积累了大量维度(属性)通常可以达到成百上千维的、属性值域大的高维数据,对此类高维数据的挖掘变得越来越重要。

但是,受“维度效应”的影响,在高维数据聚类中,当数据维数高于20时,传统聚类分析的性能会急剧下降,甚至无法完成聚类任务[1]。

高维数据的研究者们发现,很多真实数据的类仅存在于子空间内。

迄今为止,研究者已经提出了许多子空间高维聚类算法,如综合运用基于密度和网格方法的CLIQUE[2]、基于信息熵的ENCLUS[3]、基于动态区间分割的MAFIA[4],以不同的方法来实现对大规模高维数据集进行聚类,但总的来说,各有优缺点,都没有取得较全面的性能目标。

CLIQUE[5]算法根据用户输入的参数,把数据集每一维以网格进行等宽划分,常常使可能是某一聚类但被固定网格分割成多个区域造成边界不清晰和小的聚类被忽视,并且通过计算数据在网格中的分布,设定一个密度阈值把所得网格单元划分为稀疏和稠密两种类型,在覆盖相连密集区域时再将其相连,在高维情况下自底向上进行聚类的过程中,划分单元的数目增加使得产生大量的候选集;ENCLUS[6]利用信息熵来作为对聚类进行评价的标准,但其执行效率与CLIQUE方法相比没有得到明显的改善;MAFIA根据数据分布特点采用动态区间分割对数据空间进行划分,执行效率与CLIQUE算法相比有很大的提高,但它适合于并行环境,实现较为复杂[6]。

高维数据空间中的高效聚类算法研究

高维数据空间中的高效聚类算法研究

高维数据空间中的高效聚类算法研究一、高维数据空间概述在现代数据分析领域,高维数据空间是一个常见的概念,它指的是数据的特征维度非常高的数据集。

随着技术的发展,尤其是在生物信息学、图像处理、文本分析等领域,我们经常遇到具有成千上万特征的数据集。

高维数据空间带来的挑战是多方面的,其中之一就是如何有效地进行数据聚类。

1.1 高维数据空间的特点高维数据空间具有几个显著的特点。

首先是维度的诅咒,即随着维度的增加,数据点之间的距离变得不那么有区分性,传统的聚类算法在高维空间中的性能会急剧下降。

其次是稀疏性,高维数据往往伴随着稀疏性,即大部分特征值为零或接近零。

最后是数据的复杂性,高维数据通常包含复杂的模式和结构,这为聚类带来了额外的难度。

1.2 高维数据聚类的重要性聚类是无监督学习中的一种重要技术,它可以帮助我们发现数据中的内在结构,从而进行数据的分类和分析。

在高维数据空间中,有效的聚类算法可以帮助我们识别出数据中的模式,这对于数据挖掘、模式识别和机器学习等领域具有重要意义。

二、高维数据聚类算法的研究进展高维数据聚类的研究已经取得了一定的进展,许多算法被提出来应对高维数据的挑战。

2.1 基于距离的聚类算法基于距离的聚类算法是最早的聚类方法之一,它们通常依赖于计算数据点之间的距离。

然而,在高维空间中,这些算法往往会遇到维度的诅咒,导致聚类效果不佳。

为了解决这个问题,研究者们提出了一些改进的方法,比如局部敏感哈希(LSH)和基于树的数据结构,如k-d树和球树。

2.2 基于密度的聚类算法基于密度的聚类算法,如DBSCAN和OPTICS,通过识别数据空间中的高密度区域来形成聚类。

这些算法对高维数据具有一定的鲁棒性,因为它们不依赖于距离度量,而是依赖于数据点的局部密度。

2.3 基于模型的聚类算法基于模型的聚类算法,如高斯混合模型(GMM),试图通过概率模型来描述数据的分布。

这些算法在高维数据空间中的性能通常取决于模型的选择和参数的设置。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引理 1[ 1] (单调性原理 ) 如果一个样本点集 S是 k 维空间的一个密集簇, 那么将 S 映射到 k - 1维空
间得到 S∀, 则 S ∀将是 k - 1维空间某个密集簇的子集.
1 2 算法描述 1 2 1 数据标准化与排序
由于芯片原始数据集的表达多样性, 首先标准化原始数据集. 数据标准化处理以数据的最大值和最
对计算的影响. 下一步, 对每个属性下的样本值排序, 便于后面进一步的聚类工作. 1 2. 2 初始簇的生成
将每个样本点看作单独的簇, 然后在自底向上的簇合并过程中生成所有合理的初始聚类. 在一维空间
中, 本文采用密度连通的策略, 通过扫描一次样本一次性构造出初始簇. 一维空间上初始簇的形成采用密
度连通的思想: 定义的簇为密度相连的点的最大集合, 是将密度连通的区域划分为簇, 可以完全避免对输 入数据顺序的依赖性, 并可以有效降低噪声数据的干扰, 利于发现任意形状的聚类. 本文提出用一个三元
Abstrac t: A new subspace cluster ing algorithm based on gr id and density is proposed in th is paper. T he a lgo rithm m akes use o f heuristic density connected idea to genera te the initial c lusters in the first dim ension, and applies bottom up strategy to search the subspace c luste rs. W ith the exper im ents on real wo rld g ene expression da ta, the resu lts show tha t our a lgo rithm is effective w ithout sacr ific ing othe r perform ances and reduces the sensitiv ity to the da ta order and to the noise data in dealing w ith h igh d im ensiona l data. K ey word s: c lustering a lgo rithm, subspace c luster ing, gene CM O S ch ip
较高的属性之间的一维密集簇进行搜索, 合并得到二维密集簇. 对二维空间中的密集子空间的寻找, 通过
计算基于二维联合熵的函数来确定.
在计算二维联合熵时, 参考文献 [ 3] 中计算一维属性熵的方法, 首先将每个属性划分为 1 / 个等长
的区间, 设 X 为所有区间, 密度 d (x ) 定义为落入 x 内的样本点个数占数据集样本总数的百分比, 属性 A 的
第 9卷第 3期 2009年 9月
南京师范大学学 报 (工程技术版 ) JOU RNAL O F NAN JING NO RM AL UN IVERS ITY ( ENG INEER ING AN D TECHNO LOGY ED IT ION )
Vo.l 9 No. 3 Sep, 2009
一种高维数据集的子空间聚类算法
个排序的序列 Sj ). 根据定义 1, 通过顺序扫描 Sj 可以得到所有与样本点 x第 j 维相似的点 y. 定义 2 给定一个三元组 ( xi, xj, f ) 来存储样本点在每一维上的近邻关系, 其中 ( xi, xj, 1) 表示样本
点 xi 和样本点 xj 在当前指定空间维度中是相似的, (x i, x j, 0) 表示样本点 x i 和样本点 xj 在当前指定空间 维度中是不相似的.
在自底向上的搜索策略中, CL IQUE 算法 [ 1] 是最早尝试在数据子空间中查找聚类的算法. 该算法采用 了基于密度和基于网格的聚类算法的思想, 使用 Apr iori策略来查找和合并某个度量大于给定阈值的单 元, 产生候选子空间, 并且将这些候选子空间按其规模即子空间中点的数量进行排序; 随后利用最小描述 长度 ( M in im um D escript ion Length[ 2] , MDL ) 准则将规模较低的子空间剪枝. 该算法能自动标识高维空间的 子空间, 所有搜索限制在原始空间的子空间中, 而不是引入新的维度. 随后, EN CLU 算法 [ 3] 和 MA F IA 算 法 [ 4] 都在 CL IQU E 算法基础上进行了改进, 大大提高了运行速度. SU BCLU 算法 [ 5] 采用的是基于密度的聚 类算法策略, 是在 DBSCAN 算法基础上发展而来的. DOC算法 [ 6] 是基于网格的算法, 采用了反复改善簇质 量的策略. IBU SCA 算法 [ 7] 采用的是基于网格的聚类算法策略, 该算法是在 CL IQU E 和 MAF IA 的基础上发 展而来的. 自底向上的算法通过对数据集的全面搜索, 不会失去任何一个簇, 但是大部分该类算法策略很 少考虑数据的分布, 通常设定全局密度阈值, 随着维度的增加, 数据集将被打散, 其密度也将随之降低, 从 而容易导致聚类质量的降低, 很容易导致重叠的簇产生.
for x # Sj do 如果 (x i, xj, f ) 中的 f = 1, 其中 i ∃ j, xi # 一维初始簇 C, 那么 x i和 xj 在属性 k下是相似的, 一维初始簇 C % C & { xj };
- 1100 - 100
3) 算法结束, 得到所有一维初始簇.
- 00
其中关于三元组 ( xi, xj, f ), 图 1举例描述了一个包含 5个样本的 数据集在某个属性下的三元组 ( xi, xj, f ). 从图 1很显然看出有 2个簇 的存在, 簇 1 = { 1, 2, 3}, 簇 2 = { 4, 5}. 如果遇到样本 xk 与样本 xi 和 xj 都比较靠近的情况, 就按照先到先得原则, 把 xk 和 x i 划为一类, 这对 实验的结果可能有一定的影响.
-1
-
图 1 近邻三元组 F ig. 1 E xam ple of neighbor trip les
1 2 3 簇集合并
当一维初始簇完全生成后, 从一维空间到二维空间将产生数量庞大的候选簇, 所以在一维到二维密集
簇的聚类过程中, 本文通过类别标签的策略首先来查找二维密集簇可能存在的子空间, 然后通过对相关度
算法 1 生成初始簇的算Байду номын сангаас描述.
输入: 已标准化数据集
56
乐耀佳, 等: 一种高维数据集的子空间聚类算法
输出: 一维初始簇集
1) for k = 1 to d do 依据第 k 维属性下的样本值对样本排序; 计算第 k 维属性下三元组矩阵 S;
2) for k = 1 to d do
12 34 5
在自顶向下的搜索策略中, 初始将整个数据集划分为 k 个部分, 并赋给每个簇相同的权值, 然后重复 采用某种策略对这些初始簇不断改进, 并更新这些簇的权值. 在大数据集中, 这个重复过程所需的代价相
收稿日期: 2008 12 20. 通讯联系人: 许建华, 教授, 研究方向: 模式识别、神经网络、机器学习、信号处理等. E ma i:l xu jianhua@ n jnu. edu. cn
组 ( xi, x j, f ) 来存储样本点在每一维上的近邻关系, 来降低查找相似点的复杂性. 关于密度阈值如果限定 唯一的值, 那么对各个属性的评判是不公平的, 所以本文根据每个属性空间下样本的分布方式确定相对应
属性空间的密度阈值, 由此得到自适应网格. 与等间距网格划分方法相比, 自适应网格划分方法避免了对 密集簇边界的破坏.
小值的差距进行数学计算, 其结果介于 0 ~
1之间. 具体计算公式为: zi =
xi -
xm in i
xm ax i
-
xm in i
.
式中,
x i 为原始样本
值, zi 为标准化处理后的样本值, xmi in为样本集中某个属性特征的最小值, xmi ax为样本集中某个属性特征的
最大值.
经过上述标准化处理, 原始数据均转化到同一个数量级别上, 消除了各个属性分量之间数值范围大小
A Subspace C lustering A lgorithm for H igh dim ensional D ata
Yue Yao jia, Xu Jianhua
( School of Com puter S cien ce and Technology, N an jing N orm al U n iversity, N an jing 210097, Ch ina)
55
南京师范大学学报 (工程技术版 )
第 9卷第 3期 ( 2009年 )
当高, 因此大部分该类算法都采用某些策略选择实际数据的一部分作为数据样本来提高性能. PROCLU S 算法 [ 8] 和 ORCLU S算法 [ 9] 采用的策略就是将数据库分成多个子集, 将高维空间分成多个子空间, 形成子 集 子空间对, 子集在子空间中的映射形成紧凑的映射类. 其中 PROCLU S算法 [ 8] 是最早也是最典型的自顶 向下算法, 该算法选择实际数据的一部分作为数据的样本, 然后从样本中选择 k 中心点并反复改进簇的数 量, 适合查找超球面形 状的簇. 之后提出 的 ORCLU S 算法 [ 9] 较之 PROCLU S 算 法更稳定、更精 确. M eta C luster算法 [ 10] 采用的是基于网格和密度的聚类算法策略, 该算法采用相似度测量的策略来挖掘存在于重 叠网格之间的真实簇. 自顶向下的算法为数据的每个部分都建立簇, 这意味着不会有重复的簇产生, 一个 点只能赋给一个簇, 但是在大数据集中, 不断重复改进初始簇的过程需要的代价相当高, 时间开销通常随 着数据维度和子空间维度的增加呈指数级增长.
相关文档
最新文档