基于文本的聚类算法研究毕业论文

摘要

聚类作为一种知识发现的重要方法，它广泛地与中文信息处理技术相结合，应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘中的有效应用，它根据文本数据的不同特征，按照文本间的相似性，将其分为不同的文本簇。其目的是要使同一类别的文本间的相似度尽可能大，而不同类别的文本间的相似度尽可能的小。整个聚类过程无需指导，事先对数据结构未知，是一种典型的无监督分类。

本文首先介绍了文本聚类的相关的技术，包括文本聚类的过程，文本表示模型，相似度计算及常见聚类算法。本文主要研究的聚类主要方法是k-均值和SOM 算法，介绍了两种算法的基本思想和实现步骤，并分析两种算法的聚类效果。同时介绍了两种算法的改进算法。

关键词：文本聚类聚类方法K-MEAN SOM

Abstract

Clustering as an important knowledge discovery method, which extensively with Chinese information processing technology, used in network information processing to meet the users to quickly access from the Internet, the information resources they need. Text clustering is a clustering problem in the effective application of text mining, which according to the different characteristics of text data, according to the similarity between the text, the text will be divided into different clusters. The aim is to make the same class as large as possible the similarity between the text, and different types of text as small as possible the similarity between. The clustering process without guidance, prior to the data structure is unknown, is a typical unsupervised classification.

This paper studies the effect of influencing factors that text clustering, text representation of the model such as the Boolean model, vector space model, probabilistic retrieval model and language model. Also studied the analysis of such text clustering algorithm: hierarchical clustering, agglomerative hierarchical clustering algorithm, hierarchical clustering algorithm to split and so on. Also studied the text clustering algorithm analysis and methods of improvement.

Key words：Text clustering clustering method k-mean som

毕业设计（论文）原创性声明和使用授权说明

原创性声明

本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。

作者签名：日期：

指导教师签名：日期：

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。

作者签名：日期：

学位论文原创性声明

本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名：日期：年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名：日期：年月日

导师签名：日期：年月日

指导教师评阅书

评阅教师评阅书

教研室（或答辩小组）及教学系意见

摘要 ........................................................................................................................... I Abstract ............................................................................................................................. I I 目录 .. (1)

第一章绪论 (1)

1.1 课题研究的背景 (1)

1.2课题研究的意义 (2)

第二章文本聚类效果影响因素 (3)

2.1文本聚类过程 (3)

2.2文本表示模型 (4)

2.2.1布尔模型 (5)

2.2.2向量空间模型 (5)

2.3 文本相似度计算 (6)

2.4文本聚类算法 (8)

2.5本章小结 (11)

第三章 k-均值聚类算法 (12)

3.1 K-均值聚类算法的思想 (12)

3.1.1 K-均值聚类算法的基本思想 (12)

3.1.2 K-均值聚类算法的算法流程 (12)

3.1.3 K-均值算法的优缺点分析 (13)

3.1.4现有的对于K-均值聚类算法的改进 (15)

3.1.5现有基于初始中心点改进的K-均值聚类算法 (16)

3.2 本章小结 (17)

第四章 SOM聚类算法 (18)

4.1 SOM聚类算法的网络特性与基本流程 (18)

4.1.1 SOM网络的特性 (18)

4.1.2 SOM网络聚类的基本流程 (19)

4.1.3 SOM网络聚类的优点及存在的问题 (19)

4.2改进的SOM聚类方法 (20)

4.2.1已有的学习策略改进 (20)

4.2.2等离差理论在神经元获胜策略中的应用改进 (21)

4.2.3初始化连接权值 (22)

4.2.4已有的初始化连接权的方法 (22)

4.2.5新的确定初始权值的方法 (23)

4.3本章小结 (25)

参考文献 (26)

致谢 (28)

第一章绪论

1.1 课题研究的背景

随着Internet的迅猛发展，信息的爆炸式增加，信息超载问题变的越来越严重，信息的更新率也越来越高，用户在信息海洋里查找信息就像大海捞针一样。搜索引擎服务应运而生，在一定程度上满足了用户查找信息的需要。然而Internet 的深入发展和搜索引擎日趋庞大，进一步凸现出海量信息和人们获取所需信息能力的矛盾。那么，如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。面对互联网时代庞杂无序的海量信息，智能高效地处理和深层次综合利用信息离不开文本挖掘技术，国际上多个国家都抓紧投入文本挖掘技术的研究，以期能对“堆积如山”的信息进行有效的过滤，开发和利用，提取发现具有指导意义的知识。

文本挖掘是指从大量文本数据中抽取出事先未知的，可理解的，最终可用的信息或知识的过程，它涉及Web，计算机语言，数据挖掘，信息检索等多个领域，较大程度地解决了信息杂乱的现象，方便用户准确地定位所需的信息和信息分流。文本挖掘可以对大量文档集合的内容进行总结，结构分析，分类，聚类，关联分析，分布分析以及利用文档进行趋势预测等，目前已成为一项具有较大实用价值的关键技术，是组织和管理数据和知识的有力手段。

聚类作为一种只是发现的重要方法，是数据挖掘中一项重要的研究课题，它广泛地与中文信息处理技术相结合，应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源，文本聚类则是聚类问题在文本挖掘中的有效应用，是文本挖掘的重要内容之一。文本聚类是根据文本数据的不同特征，按照事物间的相似性，将其划分为不同数据类的过程。其目的是使同一类别的文本间相似度尽可能大，而不同类别的文本间的相似度尽可能的小。在这一过程中无需指导，是一种典型的无需督分类，从而打破了在许多实际应用中由于缺少形成模式类别过程的知识，或者模式类别的形成非常困难时的挖掘局限性。

随着人们对聚类问题更加深入地了解和重视，国内外大量学者不断投身到该项目研究，聚类主要工作集中在寻找针对大型数据库的聚类方法和世界的聚类分析方法上，使得各种成果不断涌现，各个领域的聚类分析算法层出不穷。通过聚

类分析可以发现隐藏在数据集中的簇，标识出有意义的模式或分布。不同算法针对与不同规模的数据集而提出，而使用却不仅仅限于某些特定的环境。

1.2课题研究的意义

文本聚类分析在信息检索领域有相当长的研究历史，近年来在文本数据上的聚类分析研究和应用越来越受到关注。关于文本数据上的聚类分析研究，较早的综合性介绍可以追溯到C.J.van Rijsbergen在IR领域的经典书籍《InformationRetrieval》中提到的利用文本聚类分析技术来提高信息检索系统的准确率，但近年来此类研究已不多见。上个世纪90年代以来，文本的聚类分析技术研究更多地集中在对大规模的文档集合的浏览上在对用户提出的查询重新组织搜索引擎的查询结果的研究中利用聚类技术重新组织文档集合，用于文档集合的浏览，这是近年来文本聚类中一个广受关注的研究点，2004年SIGIR上MSRA推出的Search Result Clustering技术代表了此类应用研究目前最新的进展。在此类研究中，主要利用K-Means或者后缀树聚类算法的变种来实现其需求。文档聚类分析算法被用于自动产生文档集合的层次结构，比如用于产生类似Yahoo!的网页分类目录结构。近年来，文档聚类算法还在文档分析处理领域中一个新的应用方向话题检测与跟踪中得到了进一步研究与应用。话题检测中利用文档聚类算法从大量的文档中自动地抽取话题，应用于个性化信息服务或者情报分析。在这些应用的推动之下，文本数据上的聚类分析算法层出不穷，各说各的好处，在我们的工程实践中具体该采用哪种算法，如何设计文本聚类算法并对其进行评价都是难以解决的问题。由于算法种类众多，文本聚类算法间缺乏一个进行横向比较与分析的机制，在工程实践中对算法的选择及参数的设定都是经验性的，这对进一步开展研究以及科学地设计算法、分析算法造成了困难。因此，需要对文本聚类分析结果的质量进行评价，利用这种评价机制来指导算法设计、算法选择、算法效能分析、参数优化等。有了文本聚类分析的科学评价机制，我们未来的工作就有据可依，可以更科学地选择算法，分析、设计算法。

第二章文本聚类效果影响因素

2.1文本聚类过程

影响文本聚类分析效果的因素是多方面的，文本聚类分析全过程中的每个步骤都有可能对聚类结果造成影响。下面通过简要描述聚类分析过程来说明对结果可能造成影响的各种因素,如图2-1所示:

图2-1 聚类流程

聚类分析过程分成三个步骤，通过这三个步骤可以找到影响聚类分析效果四个方面的因素。聚类流程三个步骤的实际处理内容为：

(1)文本聚类分析首先将文本表示成机器可计算的形式。不论是抽取文本特征形成一个向量还是抽取文本特征形成一个特殊的结构，对文本的这种机器表示过程简称为文本表示。文本表示过程显然需要领域知识参与，文本中哪些因素可以构成特征，特征中哪些在聚类中可用以及如何使用是文本聚类第一步骤文本表示考察的内容；

(2)文本聚类分析的第二个步骤是算法。不同的算法有不同的特性，对相同的数据输入，不同的算法会产生出不同的聚类结果。聚类分析算法可以从不同的角度进行比较，比如是否产生层次聚类结构、是否需要参数、是否能够产生模糊聚类、能否识别出不规则形状的簇等等。目前在文献中出现的聚类分析算法数目众多，但在文本数据上效果孰优孰劣仍没有得到有效的研究。这个步骤中算法的时空效率、聚类结果质量是研发中选择算法的主要标准。该步骤还有一个关键因素就是对象距离(或者相似度)如何定义；

(3)第三个步骤是算法中参数的选择。不同的算法对参数的敏感性不同，但是基本上参数的好坏对结果的影响都比较显著。从这三个步骤可以看出影响文本聚类分析效果的因素包括四个方面：文本表示模型、距离度量方法、算法模型和参数优化。参数的设定主观性比较强，如何设定才是一个好的参数缺乏有效的方法，利用本文中实现的聚类算法包和聚类评价方法可以通过指标的变化曲线图寻找算法的最佳参数。

2.2文本表示模型

在实际的文本聚类分析研究，将实际文本内容变成机器内部表示结构的方法多种多样，可以用词、字、短语、n-Gram、显著性短语等形成向量、树等结构。在经典的研究中通常利用特征(Term，包括字、词、词组等)的词频信息建立文本向量，通过文本向量与文本向量之间的相似度来进行聚类分析。

文本表示包括两个问题：表示与计算。表示特指特征的提取，计算指权重的定义和语义相似度的定义。特征提取包括特征的定义和筛选，特征定义和筛选考虑以什么作为文本的特征，并不是所有的词和字都要求或者可以成为特征。特征的权重定义及特征结构上的相似度度量可以选取不同的模型，如向量空间模型、概率模型、语言模型等。文本表示是文本聚类的第一步，该步骤的变化很多，对最终聚类效果的影响也不尽相同。文本表示本质上是对原始文本进行转换，使之在机器上可形式化描述、可计算。特征定义与筛选可以采用不同的特征选择方法，可利用N-Gram、PAT树提取特征、可利用LSI降维转化特征、也可利用语义词典

WordNet或者HowNet定义更复杂的特征结构。关于特征定义与筛选可以参考自然语言处理领域中的相关研究，这里不详细介绍。本节接下来主要介绍信息检索和文本分析处理中经常用到的几个检索模型，这几个检索模型根据不同的理论假设推导、定义了不同的特征权重计算方法与语义相似度计算方法，是文本表示模型的重要组成部分。

2.2.1布尔模型

布尔模型是基于集合论与布尔代数之上的一种简单模型，主要应用于信息检索中。在布尔模型中，一个文档表示成文档中出现的特征的集合，也可以表示成为特征空间上的一个向量，向量中每个分量权重为0或者1，这种布尔模型称为经典布尔模型。经典布尔模型中查询与文档的相关性只能是0或者1，满足查询query中的所有逻辑表达式的文档被判定相关，不满足的被判定为不相关。经典布尔模型只能用于信息检索中计算用户查询与文档的相关性，而无法利用该模型计算两个文档更深层面的相似度，无法在更多的文本处理应用中使用。在经典布尔模型基础上，研究人员又提出了扩展布尔模型(Extended Boolean Approach)，重新定义了And与Or操作符成为多元操作符，使相关性可以成为[0,1]之间的数。

2.2.2向量空间模型

Salton教授提出的向量空间模型简称VSM模型(Vector Space Model)，是信息检索领域中经典的检索模型。向量空间模型将文档表示成一个向量，向量的每一维表示一个特征，这个特征可以是一个字、一个词、一个n-gram或某个复杂的结构。通过对文档的解析处理可以得到这些特征。通常情况下用向量空间模型中的向量表示文档时，需要对文档进行切分(中文分词、英文通过词的分界符识别单词)、停用词处理、英文词的词形还原或者提取词干(Stemming)，经过若干个处理步骤后，基本上就可以得到一系列词，将这些词作为文档的特征。所有的这些词构成一个“空间”，每个词对应着空间中的一维。每个文档可以用文档中的词来表示，这些词及其对应的权重构成一个向量。文档对应特征空间中的一个向量，对应特征空间中的一个点。表2.1 说明VSM模型中文档与向量空间之间的映射关系。