层次聚类算法的改进及分析

合集下载

一种改进的层次聚类算法

基金项目：省教育科学 “ 湖北十一五” 规划科研基金资助项目（０００９；２１Ｂ３）湖北省人文社科基金资助项目（００９）２１０４
８４８
武汉理工大学学报・信息与管理工程版
２１０１１年２月
应的社区ｉ和，标记合并后社区的标号为，新更
文章编号：０７—１４２１）６— ８３—０１０４Ｘ（０１００８４
文献标志码：Ａ
一
种改进的层次聚类算法
靳延安，刘行军
（湖北经济学院信息管理学院，湖北武汉４００）３２５
摘
要：针对凝聚式的层次聚类算法在聚类过程中层次化的迭代运算使误差不断累积，导致聚类结果较差的
聚类是把各不相同的个体分割为有更多相似性的簇的工作。由聚类所组成的簇是一组数据对象的集合，这些对象与同一簇中的对象彼此类似，与其他簇中的对象相异… ，目前，已有大量的聚
类算法。根据数据的类型、目的和应用场景，主要的聚类算法通常分为划分方法Ｊ层次方、法Ｊ基于密度的方法－９、于网格的方、８基ＩＪ法和基于模型的方法。其中层次聚类算卜Ｊ法由于其简单，得到了广泛的应用。但该方法经
０＝ｅ；＝０ｌ，＋０（）４
当模块性增量矩阵中最大的元素都小于零以后，模块性的值就只可能一直下降。因此，只要模块性增量矩阵中最大的元素由正变到负以后，就可以停止合并，并认为此时的社区结构就是网络的
社区结构。

改进的层次k均值聚类算法

改进的层次k均值聚类算法K-means聚类算法是一种基于距离的无监督学习算法，它在数据挖掘和机器学习中广泛应用。

然而，传统的K-means算法存在着一些问题，特别是在处理大规模数据、噪声数据和高维数据方面表现欠佳。

为了解决这些问题，研究人员提出了许多改进的K-means聚类算法。

改进的层次K-means聚类算法是一种比传统K-means更有效的聚类算法之一。

它通过增加层次结构的方式在多个层次进行聚类，能够对复杂数据结构和噪声数据进行更好的处理。

以下是改进的层次K-means聚类算法的特点及其优点：1. 增加层次结构改进的K-means聚类算法通过增加层次结构，在不同层次上进行聚类，能够更好地处理具有复杂结构的数据。

在每个层次中，数据被分为更小的聚类中心，每个聚类中心代表一个数据点的集合。

然后，将这些聚类中心看作新的数据点，再在下一个层次中重复这个过程。

通过这种方式，能够生成具有不同层次的聚类结果。

2. 非独立性噪声数据处理传统的K-means算法无法有效地处理非独立性噪声数据，这种数据可能会对聚类结果造成影响。

改进的层次K-means聚类算法通过使用权重和距离函数处理非独立性噪声数据。

具体来说，对于每个数据点，根据其与其他数据点的距离和它的权重计算它的新的聚类中心。

这种方式能够使非独立性噪声数据对聚类结果的影响降到最低，提高聚类准确率。

3. 处理大规模数据传统的K-means算法在处理大规模数据时效率低下，需要大量时间和计算资源。

改进的层次K-means聚类算法通过数据分区和并行处理技术能够更好地处理大规模数据。

具体来说，将数据分为小的块，在不同的处理器上并行处理。

这种方式能够减少计算时间，提高效率。

4. 多样性聚类结果改进的层次K-means聚类算法能够生成多样性的聚类结果，这种结果能够更好地反映数据的不同特征和结构。

在不同的层次上进行聚类，能够得到不同的聚类结果，这些结果代表了数据的不同方面。

层次聚类算法总结

层次聚类算法总结层次聚类算法的总结一、引言层次聚类算法是一种常用的数据聚类方法，它通过逐步合并或分割数据来构建聚类层次结构。

本文将对层次聚类算法进行总结，包括算法原理、应用领域以及算法的优缺点。

二、算法原理层次聚类算法主要包括凝聚型层次聚类和分裂型层次聚类两种类型。

其中，凝聚型层次聚类是自底向上的合并过程，而分裂型层次聚类是自顶向下的分割过程。

1. 凝聚型层次聚类凝聚型层次聚类从每个数据点作为一个独立的类开始，然后逐步合并最相似的类，直到达到预设的聚类数目或者合并所有数据点为止。

常用的合并策略有单链接、完全链接和平均链接等。

- 单链接：将两个最相似的类合并，其中最相似的类定义为两个类中最近的两个数据点之间的距离。

- 完全链接：将两个最相似的类合并，其中最相似的类定义为两个类中最远的两个数据点之间的距离。

- 平均链接：将两个最相似的类合并，其中最相似的类定义为两个类中所有数据点之间距离的平均值。

2. 分裂型层次聚类分裂型层次聚类从所有数据点作为一个类开始，然后逐步将类分裂成更小的子类，直到达到预设的聚类数目或者每个类只包含一个数据点为止。

常用的分裂策略有K-means算法、二分K-means算法等。

三、应用领域层次聚类算法在许多领域都有广泛的应用，下面列举几个常见的应用领域。

1. 生物学层次聚类算法可以用于基因表达谱数据的聚类分析，帮助研究人员发现不同基因的表达模式，从而揭示基因之间的相互关系。

2. 图像处理层次聚类算法可以用于图像分割，将相似的像素点聚类到同一个区域，实现图像的分割和识别。

3. 社交网络层次聚类算法可以用于社交网络中的用户聚类，将具有相似兴趣和行为模式的用户聚集在一起，为推荐系统和个性化推送提供基础。

四、优缺点分析层次聚类算法具有以下优点：1. 不需要预先指定聚类数目，能够自动构建聚类层次结构。

2. 可以处理任意形状和大小的聚类。

3. 聚类结果具有层次结构，方便后续的分析和解释。

传感器网络中分层聚类算法的研究与改进

传感器网络中分层聚类算法的研究与改进摘要：在传感器网络中，分层聚类算法是一种常用的数据挖掘技术，它可以将网络中的传感器节点按照一定的规则划分成多个层次，并通过聚类算法将相似节点分组。

本文将探讨传感器网络中分层聚类算法的研究现状，并提出改进方法，旨在提高算法的准确性和效率。

一、引言传感器网络是由大量分布式传感器节点组成的网络系统，用于采集、处理和传输环境信息。

在这个网络中，节点之间的通信受限，能量和计算资源有限。

因此，设计一种高效准确的聚类算法对于传感器网络的性能至关重要。

二、分层聚类算法的研究现状1. 层次划分传感器网络中的节点通常具有不同的特征和功能，因此，我们需要将它们划分为不同的层次。

传统的方法是根据节点的位置或者功能将网络划分为若干个区域或簇，但这种方法难以适应网络拓扑的快速变化。

近年来，研究者们提出了一些基于密度的层次划分方法，如DBSCAN和OPTICS算法。

这些方法能够根据节点的密度分布将网络划分为不同的层次，提高了网络的灵活性和适应性。

2. 层次聚类在网络划分完毕后，我们需要进行聚类分析，将相似的节点分组。

层次聚类是一种常用的方法，它通过计算节点之间的相似度或距离，将节点逐层聚类。

然而，在传感器网络中，节点的数据量庞大，传输和计算的成本很高。

因此，我们需要优化聚类算法，减少计算和通信开销。

三、改进方法1. 基于密度的分布式聚类算法传统的层次聚类算法需要全局信息，这对于分布式传感器网络来说是不现实的。

因此，我们可以使用基于密度的分布式聚类算法，如DBSCAN-D算法。

该算法将网络划分成多个局部区域，并在每个区域内执行聚类分析，然后将结果汇总，得到全局的聚类结果。

这种方法不仅降低了通信和计算的开销，还能够应对网络拓扑的动态变化。

2. 节点合并策略在传感器网络中，节点之间的距离可能存在较大的误差，导致聚类结果不准确。

为了解决这个问题，我们可以引入节点合并策略，在聚类过程中根据节点之间的距离和相似度，动态地选择是否合并节点。

基于层次聚类改进SMOTE的过采样方法6篇

基于层次聚类改进SMOTE的过采样方法6篇第1篇示例：基于层次聚类改进SMOTE的过采样方法随着机器学习和数据挖掘技术的不断发展，对于不平衡数据集的处理越来越受到重视。

在实际应用中，由于数据集中正负样本比例严重失衡，传统的分类算法容易偏向于分类样本较多的类别，导致模型的泛化能力下降。

为了解决这一问题，研究者们提出了一系列的过采样方法，其中SMOTE（Synthetic Minority Over-sampling Technique）是其中一种常用的方法之一。

传统的SMOTE方法存在着一些问题，例如生成的合成样本可能位于样本分布的空洞区域，导致样本的重叠和噪声增加。

为了解决这一问题，研究者们提出了基于层次聚类的改进SMOTE的过采样方法。

让我们回顾一下传统的SMOTE方法。

该方法通过在样本空间中合成新的少数类样本，以平衡两个类别之间的差异。

具体而言，SMOTE 首先选择一个少数类样本A，然后随机选择另一个最近邻的少数类样本B，通过线性插值的方式生成一个新的样本C。

这样，就可以在原始数据集中生成一些新的合成样本，从而增加少数类样本的数量。

传统的SMOTE方法存在一个缺陷，即生成的合成样本可能会位于原始数据分布的空洞区域，导致样本的重叠和噪声增加。

为了克服传统SMOTE方法的缺陷，研究者们提出了基于层次聚类改进的SMOTE方法。

该方法的主要思想是先将样本集进行层次聚类，然后在聚类内部进行SMOTE过采样。

具体而言，该方法的具体步骤如下：第一步，对样本集进行层次聚类。

层次聚类是一种将样本集划分为不同层次的方法，可以从全局的角度找到样本之间的相似性。

层次聚类可以有效地保留原始数据集的结构，避免生成的合成样本位于空洞区域。

第二步，在每个聚类内部进行SMOTE过采样。

在层次聚类的基础上，我们可以将样本集划分为不同的聚类簇，然后在每个簇内部进行SMOTE过采样。

通过这种方式，可以在局部范围内生成合成样本，从而更好地保持原始数据集的分布特性。

聚类算法的使用中常见问题分析及解决策略

聚类算法的使用中常见问题分析及解决策略1. 引言聚类算法是数据挖掘领域中一种常用的无监督学习方法，它可以将一个数据集划分为不同的组或簇，使得同一簇中的数据对象相似度较高，而不同簇之间的数据对象相似度较低。

不过，在使用聚类算法的过程中，我们常常会遇到一些问题，本文将针对这些问题进行分析，并提出解决策略。

2.问题一：选择合适的聚类算法在使用聚类算法之前，我们首先需要选择一个合适的聚类算法。

常见的聚类算法包括K均值聚类、层次聚类、密度聚类等。

选择合适的聚类算法取决于数据的特点和需求。

如何选择合适的聚类算法成为了我们面临的第一个问题。

解决策略：- 对数据进行归一化处理，通过计算数据的均值、方差、相关系数等指标来判断数据的分布情况，选择与数据分布特点相符的聚类算法。

- 根据数据的大小、维度、特征之间的相关性等因素来选择聚类算法。

例如，当数据具有明显的分层结构时，可以选择层次聚类算法；当数据具有非凸形状的簇时，可以选择密度聚类算法。

3.问题二：聚类算法的参数设置在使用聚类算法时，我们通常需要设置一些参数，例如K均值聚类算法中的簇数k、层次聚类算法中的合并准则、划分准则等。

参数的设置直接影响到聚类结果的质量。

解决策略：- 使用领域知识来指导参数的设置。

根据对数据的了解和领域专家的建议，设置合理的参数。

例如，根据业务需求和领域知识，将簇数k 设置为最佳的值。

- 进行参数敏感性分析。

通过改变参数的取值范围，观察聚类结果的变化，选择合适的参数取值范围从而获得较好的聚类效果。

4.问题三：聚类算法对异常值的敏感性聚类算法在聚类过程中对异常值较为敏感，这些异常值可能导致聚类结果的偏移或失效。

解决策略：- 检测和处理异常值。

可以通过统计学方法或离群点检测算法来识别和处理异常值，例如使用箱线图、Z-score等方法进行异常值检测，并进行相应的数据清洗或替换操作。

- 选择鲁棒性较好的聚类算法。

一些聚类算法在设计时对异常值具有较好的鲁棒性，例如K中心点聚类算法。

聚类算法的发展趋势与未来展望

聚类算法的发展趋势与未来展望一、引言聚类算法是数据挖掘和机器学习领域中的重要技术之一，它通过对数据进行分组，将相似的数据点归为一类，以揭示数据之间的内在关系。

随着大数据时代的到来，聚类算法在各个领域的应用越来越广泛，其发展也备受关注。

本文将探讨聚类算法的发展趋势与未来展望。

二、传统聚类算法在传统的聚类算法中，K-means算法是最为经典和常用的方法之一。

该算法通过不断迭代更新聚类中心，将数据点划分到最近的中心点所代表的簇中。

此外，层次聚类、密度聚类等方法也被广泛应用。

然而，传统聚类算法在处理大规模高维数据时存在计算复杂度高、对初始聚类中心敏感等问题。

三、基于深度学习的聚类算法随着深度学习技术的迅猛发展，基于深度学习的聚类算法也逐渐成为研究热点。

深度学习技术的强大特征提取能力，使得基于深度学习的聚类算法在处理高维数据时表现出色。

例如，基于自编码器的聚类算法、谱聚类算法等，都取得了不错的效果。

未来，随着深度学习技术的不断进步，基于深度学习的聚类算法有望在更多领域得到应用。

四、非监督学习的发展聚类算法属于非监督学习范畴，近年来，非监督学习的发展也对聚类算法的发展产生了深远影响。

例如，生成对抗网络（GAN）等新型非监督学习技术，为聚类算法的改进提供了新的思路和方法。

未来，非监督学习技术的不断发展将为聚类算法的研究和应用带来新的动力。

五、跨学科融合的趋势随着多学科交叉融合的需求日益增长，聚类算法也将更多地与其他学科相结合。

例如，在生物信息学、医学影像分析等领域，跨学科融合将为聚类算法的应用带来更多可能性。

未来，跨学科融合将成为聚类算法发展的一大趋势。

六、移动端与边缘计算的兴起随着移动互联网的普及和边缘计算技术的发展，移动端和边缘设备上的聚类算法需求也日益增长。

相比传统的数据中心，移动端和边缘设备上的聚类算法需要考虑计算资源有限、能耗低等特点。

因此，未来的聚类算法发展将更加注重移动端和边缘计算领域的应用场景。

聚类算法的优缺点分析(五)

聚类算法的优缺点分析聚类算法是一种用于将数据集中的样本分组成若干类别的无监督学习方法。

它在许多领域中都有着广泛的应用，比如：数据挖掘、模式识别、图像分割等。

在本文中，我们将分析聚类算法的优缺点，并探讨其在实际应用中的局限性和改进空间。

优点首先，聚类算法具有较高的灵活性。

它可以根据不同的数据集和需求选择不同的算法进行聚类分析，因此适用性较广。

其次，聚类算法对于处理大规模数据集有着较好的效果。

在处理大规模数据集时，传统的人工分类要求大量的时间和人力，而聚类算法能够快速而准确地完成这一任务。

此外，聚类算法还可以发现数据集中的隐藏模式和规律，帮助人们更好地理解数据。

再次，聚类算法的结果易于解释和可视化。

通过聚类分析，我们可以将数据集中的样本划分为若干个类别，从而更直观地理解数据的内在结构。

这种可视化的结果对于决策制定和问题解决具有重要的意义。

最后，聚类算法具有较好的鲁棒性。

即使在数据出现噪声或者缺失值的情况下，聚类算法仍然能够给出较为合理的结果。

缺点然而，聚类算法也存在一些缺点。

首先，聚类算法对于数据分布的假设较为苛刻。

在现实应用中，很多数据集的分布可能是复杂和非线性的，这就给聚类算法的准确性带来了一定的挑战。

其次，聚类算法对于初始值敏感。

不同的初始值可能导致不同的聚类结果，这就需要在使用聚类算法时进行多次实验，以及对结果进行稳定性分析。

再次，聚类算法需要事先确定类别的个数。

这在实际应用中是很难做到的，因为很多时候我们并不清楚数据集中到底有多少个类别。

这就需要我们在使用聚类算法时进行多次尝试，从而找到最合适的类别个数。

最后，聚类算法在处理高维数据时存在维度灾难问题。

随着数据维度的增加，样本空间的大小呈指数增长，这就给聚类算法的计算带来了巨大的挑战。

改进空间为了克服上述缺点，我们可以采取一些改进策略。

首先，可以利用特征选择和降维技术来减少数据的维度，从而避免维度灾难问题。

其次，可以结合聚类算法和密度估计技术，以克服对数据分布的假设。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

明 β+ 1对于所有测试数据集而言是小的 ,它小于 2。原始的质心点算法采用互异矩阵代替了优先队列 ,并且还没
有保留最近邻居。它的时间复杂度为 O (N3 ) , 空间复杂度为 O (N2 ) ,如果采用两阶段算法 ,那么时间复杂度就会变为 : O ( (N k′) 3 (β+ 1) 3 ( n / p + |δ| ) 2 ) + O ( k′3 ) , 空间复杂度为 O ( p3 (N / p) + |δ|2 )或 O ( k′2 )或者两者中较大的。注意 , 在这个例子中 ,受影响单元的平均数不是因子 ,这是因为全部的复杂度是由于需要通过互异矩阵进行搜索需要二次的时间量。经过简化 (没有考虑 |δ |与 k′)时间复杂度为 O (N 3 p3 (N2 / p2 ) ) , 即 O (N 3 / p) ,获取因子为 p。空间复杂度为 O ( (N2 / p) ) (获取因子为 p) 。
关键词聚类层次聚类谱系图簇 POP
O N IM PRO VEM ENT AND ANALY S IS O F H IERARCH ICAL CL USTER ING AL GO R ITHM
Guo X iaojuan1 L iu X iaoxia1 L i Xiao ling2
2. 2 改进算法的实现及时空复杂度
这个算法如下所示。通过对距离图中转折点的最近距离对设置 δ,可以在第一阶段合并大量的簇 ,在第二阶段利用传统 HAC算法合并剩余的小量的簇。
Input: Data (N ,M ) , p , δ
Output: Dendrogram / 3 第一阶段 3 / 将数据分配到 p个重叠单元中 ,为每个单元创建优先队列 P
2 改进算法及其分析过程
经验表明 ,除了谱系图的一些高层 ,所有低层聚类的簇既小而且与其他簇也非常接近。我们可称此特性为 90 - 10规则 ,它难以被很小距离分开的小簇合并。基于 90 - 10规则 ,我们提出了快速 HAC算法 ,它能有效地减少已存在 HAC算法的时空复杂性。在本文中 , 90 - 10规则用来改进已存在簇方法的有效性与正确性。90 - 10规则就是能有效地丢弃不需要的层 ,聚集潜在的层。所对每个单元获取它的最近距离对 ,确定全部的最接近点对 (C1 , C2 ) If dist ( C1 , C2 ) < δ 合并 C1 和 C2 同时更新相应的 P队列 ; 更新所有受影响单元的 P队列 W hile ( dist( C1 , C2 ) > δ) / 3 第二阶段 3 / 利用传统聚类算法合并第一阶段剩余的簇 Return 谱系图
1 传统的层次凝聚算法 [2 ]及其局限性
空复杂性 ,例如 ,对于质心点算法 (优先队列法 ) ,其时间复杂性为 : O (N 2 logN ) ,虽然可以将 HAC应用于大量数据中 ,一些技术被用到诸如 B IRCH[3 ]和 CURE[4 ] , 但它们都不能加快传统的 HAC算法 ,在使用最近点且保证正确性前提条件下减少计算量。2)用谱系图获得簇的有效性是有限的。簇的有效性主要用来决定在大型数据量中最优簇的数目。并且 ,很多有效性方法对谱系图的低层显示出转移模式 ,这就会导致评估不出不精确的最优簇数。
1 ( N orthw est U niversity , X iπan 710127, S haanxi, China) 2 ( China U n iversity of Geosciences, W uhan 430074, Hubei, China)
Abstract A p rom inent and useful class of algorithm is hierarchical agglomerative clustering (HAC) which iteratively agglomerates the clo2 sest pare until all data points belong to one cluster. However, HAC methods have several drawbacks, such as high time and memory comp lex2 ities when clustering, insufficient and inaccurate cluster validation, etc. Emp irical study show s that most HAC algorithm s follow a trend where, excep t for a number of top levels of the dendrogram , all lower level agglomerate clusters are very small in size and close in p roxim ity to other clusters. M ethods are p roposed to reduce the time and memory comp lexities significantly and to make validation very efficient and ac2 curate. Analysis and experiments all p rove the effectiveness of the p roposed method.
244
计算机应用与软件
2008年
2. 1 算法的基本思想
我们提出基于部分重叠划分 POP ( Partially Overlapp ing Par2 titioning)的改进 HAC算法。下面来具体分析一下基于 POP的一种新算法 ———两阶段算法。两阶段算法 : 在 POP 基础上对 HAC算法提出一个新的两阶段算法。第一个阶段 ,数据被分配到 P个重叠的单元 ,这个重叠的区域称作 δ区域 ,其中 δ是分离的距离。对于质心点算法来讲 ,每个簇都用单一的代表点表示 , 如果一个簇的代表点落在 δ区域 ,那么每一个受影响的单元都可捕获它并保存 ,否则 ,只有一个单元可以获取到它。基于 POP 的思想 ,在每一次迭代过程中 ,从已发现的全部最近点对中为每个单元找出最接近的点对。如果所有这些最近点对的距离小于 δ,那么合并这些点对 ,并且更新被包含单元中的优先队列。如果最接近点对或合并的簇在 δ区内 ,那么所有受影响的单元都会更新其优先队列。当最远点对距离超出 δ时 ,每一阶段终止。第二个阶段利用传统的聚类算法合并第一阶段余下的簇。这样就以得到一个谱系图。
Keywords Clustering HAC Dendrogram Cluster POP
0 引言
随着数据挖掘研究领域技术的发展 ,作为数据挖掘主要方法之一的聚类算法 , 也越来越受到人们的关注。数据挖掘 (D ata M ining)又称知识发现 ( KDD ) ,其实是知识发现过程的一个步骤. 它是从数据库、数据仓库或其他信息库中便捷地抽取出以前未知的、隐含的、有用的信息 ,所挖掘出来的知识可应用于信息管理、决策支持、过程控制和其它许多应用。所谓聚类 ( Clustering) ,就是把大量的 d维数据样本 ( n个 )聚集成 k 个类 ( k, n) ,使同一类内样本的相似性最大 ,而不同类中样本的相似性最小。聚类分析作为数据挖掘中的一种分析方法 , 它可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息。并且概括出每一类的特点 ,或者把注意力放在某一个特定的类上以作进一步的分析 ;聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。目前已经提出很多的聚类算法 [1 ] 。
2. 3 改进算法的分析
精确性分析关于第一阶段使用 POP能够确保任意小于 δ 的距离对都能保留在至少一个单元中 ,第二阶段使用传统聚类算法 ,两阶段算法能够保证正确的谱系图。
复杂性分析为简化这个分析 ,先假设每个单元有相同的单元大小 ,相同的 δ域大小。 | δ |主要是用来表明任意特殊单元 δ域中的簇数。最初由 Day和 Edelshrunner[5 ]提出的优先队列算法的时间复杂度为 : O ( n2 logN ) , O (N2 ) ,相反 ,所提出的两阶段算法 ,它的时间复杂度为 O ( (N - k′) 3 (β + 1) 3 ( n / p + |δ| ) )。 log ( n / p + |δ| )要远远大于 P, 并且 β是在每次迭代中受影响单元的平均数。空间复杂度是 : O ( p3 ( n / p + |δ| ) 2 )或者 O ( k′2 )或是两者中较大的。如果 δ设置为距离图中转折点的最近对距离 ,那么 |δ|和 k′都是非常小的 ,因此 ,如果没有考虑 |δ|与 k′,时间复杂度就变为 : O (N 3 (β+ 1) 3 (N / p) log (N / p) ) ,即 O ( (β+ 1) 3 (N 2 / p) log (N / p) ) (获取因子为 log(N /p) N 3 ( P /β + 1) ) , 空间复杂度为 : O ( p3 (N 2 3 p2 ) ) ,即 O ( (N 2 / p) ) (获取因子为 p) 。容器中所包含受影响单元的平均数为 β + 1,这个值主要依赖于数据是如何分配的 :在最坏情况下 ,对于 M 维数据而言 , 每次聚类受影响单元的最大可能数为 2M , 在最好情况下 , 每次聚类受影响的仅仅是容器本身中的单元 , 那么这个值仅为 1。经验表
第 25卷第 6期 2008年 6月
计算机应用与软件 Computer App lications and Software
Vol125 No. 6 Jun. 2008