聚类算法研究综述

陈新泉1,2周灵晶1刘耀中3

【摘要】聚类是数据挖掘研究领域的一种重要数据预处理方法，其目的是从无标签数据集中获得有价值数据集的内在分布结构，进而简化数据集的描述。历经几十年的研究，针对不同应用和数据特性已出现了千余种不同的聚类算法，但不同的聚类算法都有其特定的适用范围和不足。传统的聚类算法大致可分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。通过对传统聚类方法的回顾和总结，文章重点介绍了近年来出现的同步聚类算法、信念传播聚类算法和密度峰值聚类算法，并针对以上聚类算法的应用及发展方向进行了论述。

【期刊名称】集成技术

【年(卷),期】2017(006)003

【总页数】9

【关键词】数据挖掘；聚类；信念传播；同步聚类；密度峰值

1 引言

21世纪是一个信息化、数据化和知识化的时代，信息技术正改变着人类社会的方方面面。当前，人们已经认识到，只有将数据转化成信息或从数据中挖掘出知识才能发挥数据的更大价值。传统的数据挖掘算法随着大数据时代的到来，表现得越来越力不从心。随着第二代Web 的发展及物联网、云计算和大数据技术的兴起，我们需要开发更为高效的数据挖掘工具和算法来处理不同类型、不同属性及不同维度的海量数据以支持正确的决策和行动。

在统计学领域，与聚类分析功能相似的是多元统计分析。其分析对象一般是数