浅谈聚类算法及其存在的问题

浅谈聚类算法及其存在的问题

□杨柳张俊芝

【摘要】【摘要】数据挖掘的一个重要研究方向是聚类分析。聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。通过聚类使得同一组内的数据对象具有较高的相似度,而不同组中的数据对象相似度较低。本文简单介绍了几种常见的聚类分析算法及这些算法普遍存在的一些问题。【期刊名称】产业与科技论坛

【年(卷),期】2012(000)002

【总页数】2

【关键词】【关键词】聚类算法;数据挖掘;相似度

一、聚类分析的产生

聚类分析问题是人类活动的一个很重要的内容。人类早在远古时代就产生了对事物进行分类认识的想法,“物以类聚,人以群分”是这一想法的形象描述。随着人类对自然和社会的认识不断深入,要处理的数据呈现了如下趋势:规模越来越大,相互关系越来越复杂,类别越来越细,对算法的要求也越来越高。计算机的日益普及,已经深入到了人们的日常生活:保存商场交易记录、处理日常工作、监控工厂作业、提供娱乐工具以及信息交流等等。而且随着Internet的发展,人类已经进入了信息社会,海量的数据被保存下来,如果人们对信息聚类处理的方式仍然依靠人工方式,根本无法完成。这就促使利用计算机进行聚类分析的技术的产生和发展。

二、聚类分析算法的分类

不同的聚类算法中,用于描述相似性的函数也有所不同,有的采用欧氏距离或

相关文档
最新文档