基于向量空间模型的文本聚类算法

合集下载

基于向量空间模型的层次聚类算法在文本挖掘中的应用

Ａｂｓｔｒａｃｔ：Ｏｎｔｈｅｂａｓｉｓｏｆｔｈｅｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇｍｏｄｅｌ，ａｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅ
同和相似兴趣的用户模板分为一类，通过与类重心向
表达形式。常用的文本信息特征表示有布尔逻辑模型、向量空间模型（ＶＳＭ）、概率模型及混合模型，其中向量
空间模型最大的优点在于将非结构化和半结构化的文
第ｌ３卷第１期２０１３年３月
温州职业技术学院学报
ＪｏｕｒｎａｌｏｆＷｅｎｚｈｏｕＶｏｃａｔｉｏｎａｌ＆ＴｅｃｈｎｉｃａｌＣｏｌｌｅｇｅ
、，０ｌ＿１３Ｎｏ．１
本表示为向量形式，使得各种数学处理成为可能。
点是距离和规则的相似度容易定义，不需要事先确定
聚类个数，容易发现类的层次关系，聚类成其它形状。本文基于向量空间模型，采用文本聚类中的层次聚类算法，实现文本数据的挖掘。
数据等文本数据的结构表达非常有限；文本数据中的
内容是人类的自然语言，现有的数据挖掘技术仍无法

基于向量空间模型的文本分类研究

目录1 绪论 (1)1.1 研究意义 (1)1.2 文本分类的研究现状 (2)1.3 论文的研究内容及组织结构 (5)2 文本分类相关技术 (6)2.1 文本分类过程 (6)2.2 文本预处理 (7)2.3 特征降维 (8)2.4 文本表示 (9)2.5 分类算法 (11)2.6 分类性能的评价 (11)2.6.1 文本分类语料库与测试方法 (11)2.6.2 评价指标 (12)2.7 本章小结 (13)3 特征选择方法研究 (14)3.1 几种常用的特征选择方法 (14)3.1.1 文档频率 (14)3.1.2 互信息 (14)3.1.3 信息增益 (15)3.1.4 统计量CHI (16)2χ3.2 改进的互信息特征选择方法 (16)3.3 特征选择方法的实验分析 (17)3.4 本章小结 (21)4 基于蚁群聚类的文本分类算法 (23)4.1 几种常用文本分类算法 (23)4.1.1 类中心向量算法 (23)4.1.2 朴素贝叶斯算法 (24)4.1.3 支持向量机 (25)4.1.4 KNN 算法 (29)4.2 蚁群聚类 (31)4.2.1 聚类 (31)4.2.2蚁群聚类 (32)4.3 基于蚁群聚类的KNN分类算法 (35)4.4 分类算法的实验分析 (37)4.5 本章小结 (42)5 文本分类系统的设计与实现 (43)5.1 文本分类系统总体设计 (43)5.2 系统实现 (43)5.2.1训练模块 (44)5.2.2分类模块 (47)5.3 本章小结 (49)6 全文总结及未来工作展望 (50)6.1 全文总结 (50)6.2 工作展望 (50)参考文献 (52)致谢 (55)1 绪论1.1 研究意义随着计算机技术和网络技术的飞速发展，包括文本信息在内的各种信息资源呈现爆炸式增长。

面对如此庞大而且急剧膨胀的信息海洋，如何高效地组织和管理这些信息，并快速、准确、全面地从中搜索到用户所需要的信息是当前信息科学与技术领域面临的一大挑战[1]。

基于多约简 Fisher-VSM 和 SVM 的文本情感分类

基于多约简 Fisher-VSM 和 SVM 的文本情感分类邢玉娟;谭萍;曹晓丽【摘要】为了提高文本情感分类准确率，提出基于多约简 Fisher 向量空间模型和支持向量机的文本情感分类算法。

该算法首先采用 Fisher 判别准则提取 TF-IDF 特征向量，然后依据低维文档向量空间模型间的相似度对文档进行聚类，减少文档的数目。

该算法从维度和数量两个方面对文档的向量空间模型进行约简，以期提高支持向量机的训练速度和分类性能。

仿真实验结果表明，该算法具有良好的召回率和分类准确率。

%We propose a novel text sentiment classification algorithm in this paper,it is based on multi-reduced Fisher-VSM and SVM,to improve the accuracy of text sentiment classification.The algorithm first adopts Fisher’s discriminant criterion to extract TF-IDF eigenvector, and then clusters the documents according to the similarity between vector space models of low-dimension documents so as to reduce their numbers.The algorithm makes reduction on vector space model of documents from two aspects of dimensionality and number so as to improve the training speed and classification performance ofSVM.Simulation experimental results demonstrate that the proposed algorithm has good re-call ratio and classification accuracy.【期刊名称】《计算机应用与软件》【年(卷),期】2016(033)009【总页数】5页(P301-305)【关键词】文本情感分类;Fisher 判别比;向量空间模型;支持向量机【作者】邢玉娟;谭萍;曹晓丽【作者单位】兰州文理学院数字媒体学院甘肃兰州 730000;兰州文理学院数字媒体学院甘肃兰州 730000;兰州文理学院数字媒体学院甘肃兰州 730000【正文语种】中文【中图分类】TP181随着互联网技术的飞速发展，人们将网络作为发表个人观点、评价产品和服务的平台，相应的网络文本评论信息呈爆炸式增长。

向量聚类算法范文

向量聚类算法范文一、定义向量聚类算法，又称为聚类分析、群集分析或非监督学习，是一种无监督机器学习算法，用于将数据集中的数据点分组或聚类成为不同的簇。

这些簇是由数据点的相似性来决定的，相似性一般通过距离度量来衡量。

向量聚类算法通过最大化簇内相似性和最小化簇间相似性的原则，将数据点划分为不同的类别。

二、主要方法1. K-means算法：K-means算法是最常用的聚类算法之一、它将数据点划分为K个簇，然后通过最小化各个簇内数据点与簇中心点之间的距离之和来确定簇的边界。

算法的过程包括随机初始化簇中心点，然后迭代更新簇中心点和重新分配数据点，直到簇中心点不再变化或达到迭代次数的上限。

2.DBSCAN算法：DBSCAN算法是一种基于密度的聚类算法。

它通过寻找数据点的密度可达性来确定簇的边界，而不是使用数据点之间的距离。

算法的过程包括从任意数据点开始，通过计算半径内的邻居点的密度来扩展簇，直到簇中没有更多可达的数据点为止。

3.层次聚类算法：层次聚类算法是一种基于树状结构的聚类算法。

它可以自动地将数据点组织成层次结构，并根据相似性将数据点聚合到不同的簇中。

该算法的过程包括计算数据点之间的距离，然后使用聚合规则将数据点合并为簇，最终形成树状的聚类结构。

三、应用领域1.图像处理：向量聚类算法可以用于图像分割、特征提取和目标检测等任务。

通过将图像像素转化为向量，并应用聚类算法，可以将图像中相似的像素归为一类，从而实现图像的分割和特征提取。

2.自然语言处理：向量聚类算法可以用于文本聚类、主题发现和情感分析等任务。

通过将文本表示为向量，并应用聚类算法，可以将具有相似主题或情感的文本归为一类，从而实现文本的分类和分析。

3.客户细分：向量聚类算法可以用于客户分群和市场细分的任务。

通过将客户的行为数据或属性表示为向量，并应用聚类算法，可以将具有相似特征或需求的客户归为一类，从而实现客户细分和个性化服务。

4.生物信息学：向量聚类算法可以用于基因表达数据的特征提取和基因功能预测等任务。

文本处理中的向量空间模型

向量空间模型在文本处理中的应用引言在信息检索和自然语言处理领域，向量空间模型是一种常用的文本表示方法。

它将文本转换为向量形式，通过计算向量之间的相似度来实现文本分类、聚类和检索等任务。

本文将详细介绍向量空间模型在文本处理中的原理、应用和优化方法。

1. 向量空间模型的原理向量空间模型基于词袋模型，将文本表示为一个高维向量。

每个维度代表一个词语，而向量中的值表示该词语在文本中出现的次数或权重。

通过这种方式，可以捕捉到不同词语在文本中的重要性和关联性。

具体而言，向量空间模型包括以下步骤：1.文本预处理：去除停用词、标点符号等无关信息，并进行词干化或词形还原等操作。

2.构建词典：将所有文档中出现过的词语构建成一个词典。

3.文档表示：对每个文档进行向量化表示，常见的方法有计算词频（TermFrequency）或使用TF-IDF（Term Frequency-Inverse DocumentFrequency）对词频进行加权。

4.向量相似度计算：通过计算向量之间的余弦相似度或欧氏距离等指标，来度量文本之间的相似性。

2. 向量空间模型的应用向量空间模型在文本处理中有广泛的应用，包括但不限于以下几个方面：2.1 文本分类文本分类是将文本分为不同类别的任务。

向量空间模型可以将每个文档表示为一个向量，并使用分类算法（如朴素贝叶斯、支持向量机等）进行分类。

通过对训练集进行学习，可以构建一个分类器，用于对新文档进行分类。

2.2 文本聚类文本聚类是将相似的文档分到同一类别的任务。

向量空间模型可以通过计算向量之间的相似度，将相似的文档聚在一起。

常见的聚类算法有K-means、层次聚类等。

2.3 文本检索文本检索是根据用户输入的查询词，在大规模文本库中找到相关文档的任务。

向量空间模型可以将用户查询和每个文档表示为向量，并计算它们之间的相似度。

通过排序相似度得分，可以返回与查询最相关的前几个结果。

2.4 信息抽取信息抽取是从文本中提取结构化信息的任务。

文本分类聚类算法

文本分类聚类算法
文本分类聚类算法是一种将文本数据根据其内容或特征进行分类和聚类的方法。

常见的文本分类聚类算法有以下几种：
1. K-means聚类算法：K-means是一种基于距离的聚类算法，
可以用于将文本数据划分为k个不同的类别。

该算法通过迭代地更新类别的均值来找到最佳的聚类结果。

2. 层次聚类算法：层次聚类算法通过计算文本数据之间的相似度或距离来将其分层次地组织成一个层次结构。

这样可以通过设置层次结构中的切割点来得到不同的聚类结果。

3. 朴素贝叶斯分类算法：朴素贝叶斯分类算法是一种基于统计学原理的文本分类算法，它通过计算文本数据在不同类别下的条件概率来进行分类。

4. 支持向量机分类算法：支持向量机分类算法是一种基于机器学习的文本分类算法，它通过在特征空间中构建一个最优的超平面来实现分类。

5. 基于深度学习的分类算法：近年来，随着深度学习的发展，深度学习在文本分类聚类领域也得到了广泛应用。

常见的深度学习模型包括卷积神经网络（CNN）和循环神经网络（RNN）等。

这些算法在不同场景下有不同的适用性和性能表现，具体选择哪种算法需要根据具体问题和数据特点来决定。

一种基于MinHash的改进新闻文本聚类算法

第
29 卷摇 2019 年
第2 2月
期摇
摇
摇
摇
摇
பைடு நூலகம்
摇
摇
摇
摇
摇
计算机技术与发展
摇
COMPUTER TECHNOLOGY AND DEVELOPMENT
摇
摇
摇
摇
摇
摇
摇
摇
摇
Vol. 29摇 No. 2 Feb. 摇 2019
一种基于 MinHash 的改进新闻文本聚类算法
王安瑾
( 东华大学计算机科学与技术学院,上海 200000)
词权重向量维度高,且数据较为稀疏,因此利用向量空间模型进行文本聚类经常会占用很大内存且聚类速度慢。由 Blei 等[4] 于 2003 年提出的基于贝叶斯模型的潜在狄利克雷分配( latent Dirichlet allocation,LDA) 以概率分布的形式给出文档集中每篇文档的主题,通过分析文档的主题来进行主题聚类,这种聚类适用于大规模文本聚类,但是缺点也很明显,降维后维度太低, 容易破坏文档的完整性[5] 。因此,文中提出一种基于 MinHash[6] 的文本聚类方法。
Abstract:The continuous development of information technology has brought about the rapid growth of news texts on the Internet. In the face of a large number of news texts,it is very important to cluster them effectively. Based on the above requirements,we propose an im鄄 proved DBSCAN clustering algorithm based on MinHash. In order to solve the problem of high data dimension,high computational com鄄 plexity and large resource consumption in traditional vector space model text clustering,this algorithm uses MinHash to reduce the dimen鄄 sion of all text feature word sets,thus effectively reducing the wastes of resources. Jaccard coefficient is calculated for any two-by-two data in the obtained characteristics matrix,and each result is compared with the neighborhood radius Eps in DBSCAN clustering and cal鄄 culated whether all the neighboring nodes whose distances are greater than the neighborhood radius Eps is greater than or equal to MinPts. Therefore,we can determine whether the text is a core point and whether clusters can be formed. Experiment shows that the algorithm has a better effect on news text clustering and can effectively cluster the intricate news text on the Internet. Key words:MinHash;Jaccard coefficient;DBSCAN;text-clustering

向量空间方法在自然语言处理中的应用

向量空间方法在自然语言处理中的应用自然语言处理(Natural Language Processing，简称NLP)是计算机科学领域重要的研究方向之一，其旨在让计算机能够理解人类语言并作出相应反应。

NLP的应用场景极为广泛，如搜索引擎、智能客服、机器翻译、情感分析等。

近年来，向量空间方法在NLP领域中得到了广泛应用，本文将介绍向量空间方法在NLP中的应用。

一、向量空间模型向量空间模型(Vector Space Model, VSM)是一种将文本表示为向量的方法。

在VSM中，文本被表示为一个向量空间中的点，而每个单词则被表示为向量空间中的向量。

这些向量可以通过词频统计来构建，向量的每一维表示一个词在文档中出现的频率。

基于这种表示方式，我们可以利用向量进行文本之间的相似度比较、分类等任务。

二、词向量词向量(Word Embedding)是指将单词映射为一个向量的方法。

与VSM不同的是，词向量不再是稀疏向量，而是稠密向量。

这种表示方式不仅能够向量化单个单词，还可以提取整个句子的向量表示。

近年来，由于其在NLP领域中的出色表现，词向量成为了NLP的热门话题。

有许多方法可以生成词向量，其中比较流行的是基于神经网络的方法，如Word2vec、GloVe等。

这些方法利用神经网络模型对单词进行编码，并输出一个低维度的向量作为单词的词向量。

这种方法可以使得语义上相似的单词具有相似的向量表示。

三、文本分类文本分类是一项重要的NLP任务，其旨在给定一个文本，将其分配到一个预定义的类别中。

向量空间方法在文本分类中的应用极为广泛。

在该方法中，文本可以被看作是词向量的线性组合，而分类则可以被看作是在词向量空间中找到最近邻的标签向量。

这种方法称为K最近邻(K-Nearest Neighbor，KNN)分类法。

通过KNN分类法，我们可以解决许多文本分类问题，如垃圾邮件分类、情感分析等。

在SVM、决策树等其他分类方法中，向量空间方法也往往被广泛使用。

基于DF算法改进的文本聚类特征选择算法

数过少的单词是没有意义的，因为它不能很好的
表示为使用计算机可以分析处理的形式．我们目
前通常采用的是向量空间模型（Ｍ）从文本中ＶＳ，提取特征词构成特征向量，计算出每个特征词并
在各个文档中的权重．果把特征列表看作一个如
Ｓｅ１遍历文档集Ｃ，ｔｐ：逐个读取文档Ｄ，成生原始ｗｏｄｉ．ｒｌｔｓ
Ｓｅ２再次遍历文档集和特征词列表，算ｔｐ：计
各个特征词的ＤＦ
征子集合，特征子集合代替全部特征构成的集用
收稿日期：０ｌ１—Ｏ２１＿１．１
Ｎ维的坐标系，么坐标值就对应为各维的权重，那
文本集中的每一个文档就可以看作是Ｎ维空间中的一个向量，样就把文档表示成为计算机可这以处理的形式了［．３］但是文档在特征空间上的分布是非常稀疏
０引言
聚类分析是通过比较各个对象的性质，对将象性质相近的划分到一起，质差别较大的则归性人别的类．文本聚类是聚类分析在信息检索领域的一项重要应用．将一个给定的文本集划分成它若干称之为簇（ｌｓｅ）Ｃｕｔｒ的子集，个簇中的文本每具有较大的相似度，而不同簇之间的文本具有较小的相似度．文本聚类方法可以分为划分的方法、层次的方法、基于密度的方法、基于网格的方法以

文本相似度算法基本原理

文本相似度算法基本原理文本相似度算法是指对两个文本进行比较，评估它们之间的相似程度的一种方法。

在文本处理的相关领域中，文本相似度算法被广泛应用于引擎、信息检索、文本聚类、文本分类、文本摘要等任务中。

本文将介绍几种常见的文本相似度算法的基本原理。

一、基于词频统计的文本相似度算法最简单的文本相似度算法之一是基于词频统计的算法。

该算法通过统计两个文本中共同出现的词语的个数，并计算它们的相似度。

算法的基本步骤如下：1.分词：将待比较的文本进行分词，将文本划分为一组词语。

2.统计词频：统计每个词在两个文本中出现的次数。

3.计算相似度：根据词频计算相似度。

常用的相似度度量方法包括余弦相似度、欧氏距离等。

这种方法的优点是简单直观，计算效率高。

但是它忽略了词语的顺序和上下文信息，无法有效处理一词多义、词序不同的情况。

二、基于向量空间模型的文本相似度算法向量空间模型是一种常见的文本表示方法，它将文本表示为一个高维向量，通过计算向量之间的距离或相似度来度量文本之间的相似程度。

基于向量空间模型的文本相似度算法的基本步骤如下：1.文本表示：将文本转化为向量表示。

常用的方法包括词袋模型和TF-IDF模型。

词袋模型将文本中的词语组成一个向量，向量的每个维度对应一个词语，维度值为该词在文本中的词频。

TF-IDF模型在词袋模型的基础上，通过加权计算，考虑了词语在文本集合中的重要性。

2.计算相似度：根据向量表示计算文本的相似度。

常用的相似度度量方法包括余弦相似度、欧氏距离、曼哈顿距离等。

基于向量空间模型的文本相似度算法可以更好地考虑词语的顺序和上下文信息，可以处理一词多义、词序不同的情况。

但是它对文本长度较敏感，对于长文本计算复杂度较高。

三、基于词嵌入的文本相似度算法词嵌入是一种将词语映射到连续向量空间的方法，它可以很好地保留了词语的语义信息。

基于词嵌入的文本相似度算法通过计算词嵌入向量之间的距离或相似度来度量文本之间的相似程度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于向量空间模型的文本聚类算法转自：/2009/0910/15270.php1 文本聚类研究现状Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。

随着Internet 的大规模普及和企业信息化程度的提高，各种资源呈爆炸式增长。

在中国互联网络信息中心(CNNIC)2007 年1 月最新公布的中国互联网络发展状况统计报告中显示，70.2% 的网络信息均以文本形式体现。

对于这种半结构或无结构化数据，如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。

近年来，文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。

作为一种无监督的机器学习方法，聚类技术可以将大量文本信息组成少数有意义的簇，并提供导航或浏览机制。

文本聚类的主要应用点包括：(1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。

其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统Newsblaster[1] 。

该系统将新闻进行聚类处理，并对同主题文档进行冗余消除、信息融合、文本生成等处理，从而生成一篇简明扼要的摘要文档。

(2) 对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信息。

比较典型的系统有Infonetware Real Term Search 。

Infonetware 具有强大的对搜索结果进行主题分类的功能。

另外，由Carrot Search 开发的基于Java 的开源Carrot2 搜索结果聚合聚类引擎2.0 版也是这方面的利用，Carrot2 可以自动把自然的搜索结果归类( 聚合聚类) 到相应的语义类别中，提供基于层级的、同义的以及标签过滤的功能。

(3) 改善文本分类的结果，如俄亥俄州立大学的Y.C.Fang 等人的工作[2] 。

(4) 文档集合的自动整理。

如Scatter/Gather[3] ，它是一个基于聚类的文档浏览系统。

2 文本聚类过程文本聚类主要依据聚类假设：同类的文档相似度较大，非同类的文档相似度较小。

作为一种无监督的机器学习方法，聚类由于不需要训练过程、以及不需要预先对文档手工标注类别，因此具有较高的灵活性和自动化处理能力，成为对文本信息进行有效组织、摘要和导航的重要手段。

文本聚类的具体过程如图 1 所示。

图 1 文本聚类过程2.1 文本信息的预处理文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式，即建立文本特征，以一定的特征项( 如词条或描述) 来代表目标文本信息。

要建立文本信息的文本特征，常用的方法是：对文本信息进行预处理( 词性标注、语义标注) ，构建统计词典，对文本进行词条切分，完成文本信息的分词过程。

2.2 文本信息特征的建立文本信息的特征表示模型有多种，常用的有布尔逻辑型、向量空间型、概率型以及混合型等。

其中，向量空间模型(Vector Space Model,VSM) 是近几年来应用较多且效果较好的方法之一[4] 。

1969 年，Gerard Salton 提出了向量空间模型VSM ，它是文档表示的一个统计模型。

该模型的主要思想是：将每一文档都映射为由一组规范化正交词条矢量张成的向量空间中的一个点。

对于所有的文档类和未知文档，都可以用此空间中的词条向量（T1 ,W 1 ,T 2 ,W2 ,…, Tn , Wn ）来表示( 其中，Ti 为特征向量词条；Wi 为Ti 的权重)[5] 。

一般需要构造一个评价函数来表示词条权重，其计算的唯一准则就是要最大限度地区别不同文档。

这种向量空间模型的表示方法最大的优点在于将非结构化和半结构化的文本表示为向量形式，使得各种数学处理成为可能。

2.3 文本信息特征集的缩减VSM 将文本内容表示成数学上可分析处理的形式，但是存在的一个问题是文档特征向量具有惊人的维数。

因此，在对文本进行聚类处理之前，应对文本信息特征集进行缩减。

通常的方法是针对每个特征词条的权重排序，选取预定数目的最佳特征作为结果的特征子集。

选取的数目以及采用的评价函数都要针对具体问题来分析决定。

降低文本特征向量维数的另一个方法是采用向量的稀疏表示方法。

虽然文本信息特征集的向量维数非常大，但是对于单个文档，绝大多数向量元素都为零，这一特征也决定了单个文档的向量表示将是一个稀疏向量。

为了节省内存占用空间，同时加快聚类处理速度，可以采用向量的稀疏表示方法。

假设确定的特征向量词条的个数为n ，传统的表示方法为而（T1 ,W 1 ,T 2 ,W2 ,…, Tn , Wn ）稀疏表示方法为(D1 ,W1 ,D2 ,W2 ,Dp ,…,Wp , n)(Wi ≠ 0) 。

其中，Di 为权重不为零的特征向量词条；Wi 为其相应权重；n 为向量维度。

这种表示方式大大减小了内存占用，提升了聚类效率，但是由于每个文本特征向量维数不一致，一定程度上增加了数学处理的难度。

2.4 文本聚类在将文本内容表示成数学上可分析处理的形式后，接下来的工作就是在此数学形式的基础上，对文本进行聚类处理。

文本聚类主要有 2 种方法：基于概率[6] 和基于距离[7] 。

基于概率的方法以贝叶斯概率理论为基础，用概率的分布方式描述聚类结果。

基于距离的方法，就是以特征向量表示文档，将文档看成向量空间中的一个点，通过计算点之间的距离进行聚类。

目前，基于距离的文本聚类比较成熟的方法大致可以分为 2 种类型：层次凝聚法和平面划分法。

对于给定的文件集合 D ={d1 , d 2 ,…,di ,…, dn } ，层次凝聚法的具体过程如下：(1) 将D 中的每个文件di 看成一个具有单个成员的簇ci ={di } ，这些簇构成了D 的一个聚类C={c1 ,c2 ,…,ci ,…,cn };(2) 计算C 中每对簇(ci ,cj ) 之间的相似度sim{ ci ,cj } ；(3) 选取具有最大相似度的簇对(ci ,cj ) 将ci 和cj 合并为一个新的簇ck =sim ci ∪ cj ，从而构成了D 的一个新的聚类 C =(c1 , c 2 ,…,cn-1 );(4) 重复上述步骤，直至C 中剩下一个簇为止。

该过程构造出一棵生成树，其中包含了簇的层次信息以及所有簇内和簇间的相似度。

对于给定的文件集合{}D ={d1 , d2 ,…,di ,…, dn } ，平面划分法的具体过程如下：(1) 确定要生成簇的数目k ；(2) 按照某种原则生成k 个聚类中心作为聚类的种子S=(s1 ,s2 ,…,si ,…,sk );(3) 对D 中的每个文件di ，依次计算它与各个种子sj 的相似度sim (di ,sj );(4) 选取具有最大相似度的种子，将di 归入以sj 为聚类中心的簇cj ，从而得到D 的一个聚类C={ci ,cj }(5) 重复此步骤若干次，以得到较为稳定的聚类结果。

这2 种类型各有优缺点。

层次凝聚法能够生成层次化的嵌套簇，准确度较高。

但在每次合并时，需要全局地比较所有簇之间的相似度，并选出最佳的 2 个簇，因此执行速度较慢，不适合大量文件的集合。

而平面划分法相对来说速度较快，但是必须事先确定k 的取值，且种子选取的好坏对群集结果有较大影响。

综合考虑这 2 种聚类类型的优缺点，本文提出了一种基于向量空间模型的文本聚类的改进方法—— LP 算法。

具体过程如下：对于给定的文件集合 D ={d1 , d 2 ,…,di ,…, dn }:(1) 将D 中的每个文件di 看作是一个具有单个成员的簇ci ={di } ；(2) 任选其中一单个成员簇ci 作为聚类的起点；(3) 在其余未聚类的样本中，找到与ci 距离满足条件的dj ( 可以是与ci 距离最近的点，即相似度sim (ci ,dj ) 最大的dj ，也可以是与ci 距离不超过阈值d 的点，即相似度sim (ci ,dj ) ≥ d 的任意dj ) 。

将dj 归入ci 形成一个新的簇ck =sim ci ∪ dj ;(4) 重复步骤(3) ，直至与ci 距离最近的dk 与ci 之间的距离超过阈值d ，此时认为已经聚完了一类；(5) 选择一个未聚类的单个成员簇，重复步骤(3) 和步骤(4) ，开始新的一轮聚类，直至所有的单个成员簇ci 都参与了聚类。

LP 算法不需要比较所有簇之间的相似度，执行速度较快，适合大量文件的集合，实用性更高。

同时，在聚类过程中不需要事先确定k 的取值，降低了与领域知识的依赖性，提高了灵活性。

3 实验设计本文采用搜狐研发中心搜狗实验室的互联网语料链接关系库SOGOU-T 。

该关系库提供了一个大规模互联网链接关系对应表，用于验证各种链接关系分析算法的有效性与可行性。

语料关系库中的数据分为10 大类(C000007 汽车，C000008 财经，C000010 IT ，C000013 健康，C000014 体育，C000016 旅游，C000020 教育，C000022 招聘，C000023 文化，C000024 军事) 。

语料关系库可供下载的共有 3 个版本：Mini 版，精简版，完整版。

本文使用前 2 个版本进行实验。

语料库的组织方式如下：为10 个大类各建立 1 个文件夹，在每个文件夹中，每 1 份语料自成 1 个 .txt 文件。

实验过程如下：(1) 将所有文件夹下的 .txt 文件随机连结成一个大的完整文件，同时保留 .txt 文件的所属类别( 本实验保留了类别的最后 2 位：07,08, … ) 。

(2) 采用中国科学院计算技术研究所数字化室& 软件室发布的中文自然语言处理开放平台汉语词法分析系统ICTCLAS 。

利用ICTCLAS_Win ，将(1) 中的文件进行一级标注的词语切分。

(3) 统计标注好的切分词语的词频。

(4) 按照权重( 词频) 的大小整理切分词语，并保留权重超过一定限定值( 阈值) 的特征项。

( 本实验保留了词频大于100 的词语作为特征项) 同时，根据汉语的特点，在实验中设计了 2 种情况，以分析比较词性对于聚类效果的影响：1) 所有类型的词语都参与聚类；2) 只保留被标注为名词的词语。

(5) 根据(4) 中确定的切分词语构造空间向量的基向量，同时确定空间向量的维数等参数。

(6) 将语料库中的每一份语料文件(.txt 文件) 都表示为一个空间向量。

在实验过程中，采用了如下2 种表示方法：1) 传统的空间向量表示方法：(T 1 ,W 1 ,T2 , W2 ,…, T n ,Wn ) ；2) 稀疏的空间向量表示方法：(D 1 ,W 1 ,D2 , W2 ,…,D p ,Wp ,n) 。

(7) 聚类：聚类过程是实验的重点，也是目标所在。

1) 在开始聚类前，首先对(6) 中已经表示好的文本空间向量做归一化处理。

向量归一化在模式识别中是很重要的一环，其目的是把事件的统计分布概率统一归纳在0-1 灰色聚类的隶属性上，这样，聚类过程对于每一个空间向量的敏感度都是一样的。