一种提高文本聚类算法质量的方法

合集下载

一种适用于短消息文本的聚类算法

一种适用于短消息文本的聚类算法吴勇;徐峰【期刊名称】《计算机与现代化》【年(卷),期】2012(0)2【摘要】针对短消息文本聚类,设计基于频繁词集和Ant-Tree的混合聚类方法.该算法利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇,计算轮廓系数消除重叠文档,在此基础上再通过Ant-Tree算法继续精化,最终得到高质量的结果输出.而且聚类结果保留了描述信息和树状层级结构,提供了更广阔的应用.%As to short message text clustering, this paper designs a hybrid clustering algorithm combining by frequent term-sets and Ant-Tree algorithm. This algorithm takes the advantage of efficiency of processing text data based on the frequent term-sets clustering, produces the initial cluster, then eliminates the overlap text documents by calculating silhouette coefficient. Further refines the cluster by Ant-Tree. Thus gets the high quality clustering results. And the results that retain the description and tree structure can provide wider applications.【总页数】4页(P31-34)【作者】吴勇;徐峰【作者单位】湖南机电职业技术学院信息工程系,湖南长沙 410151;湖南机电职业技术学院信息工程系,湖南长沙 410151【正文语种】中文【中图分类】TP301.6【相关文献】1.一种适用于不规则分布数据的混合聚类算法 [J], 马志民;陈汉武;张军2.一种适用于高维非线性特征数据的聚类算法及应用 [J], 姜洪权;王岗;高建民;高智勇;高瑞琪;郭旗3.DENGENE:一种高精度的基于密度的适用于基因表达数据的聚类算法 [J], 孙亮;赵芳;王永吉4.一种适用于混合型分类数据的聚类算法 [J], 林强;唐加山5.适用于大规模文本处理的动态密度聚类算法 [J], 李霞;蒋盛益;张倩生;朱靖因版权原因，仅展示原文概要，查看原文内容请购买。

聚类算法在文本分类中的应用研究

聚类算法在文本分类中的应用研究随着互联网的发展，信息爆炸的局面愈发明显，海量的文本数据让人们感到头疼。

如何对这些文本进行分类和归纳，已经成为一个亟待解决的问题。

传统的文本分类方法通常是使用人工规则或者机器学习算法来处理。

然而，传统的文本分类方法通常对数据的要求比较高，不仅需要熟悉各种规则，而且还需要对数据本身有很深的了解。

在这种情况下，聚类算法成为了一种比较优秀的文本分类方法。

本文将介绍聚类算法在文本分类中的应用研究，并探讨如何改进聚类算法以提高文本分类的准确性。

一、聚类算法在文本分类中的应用聚类算法是将对象分为若干个类的方法，每个类的对象都有相似的性质。

在文本分类中，聚类算法将文本数据分为几个类别，每个类别包含一些相似的文本。

现在，有很多聚类算法可供选择，如K-means、层次聚类、谱聚类等。

1. K-means算法K-means算法是一种最常用的聚类算法之一。

该算法旨在将数据划分为k个不同的组，使得每个数据点都属于其中之一。

K-means算法的核心思想是根据数据点之间的欧几里得距离将数据点分配到最近的类中心。

该算法具有简单、易理解、易实现的优点。

但是，K-means算法的缺点也比较明显，因为它依赖于数据点之间的误差平方和，但是误差平方和无法“指导”聚类过程，因此导致聚类结果并不总是最优的。

2. 层次聚类算法层次聚类算法是另一种常用的文本分类算法。

该算法将数据点分层次聚类，发送数据点完全相似的层次结构。

在层次聚类中，数据点被处理成一棵树状图，不同的叶子节点代表不同的类别，相似的叶子节点被合并成较大的类别。

层次聚类的优点是可以处理大型数据集。

然而，该算法的缺点是需要进行大量的计算。

3. 谱聚类算法谱聚类算法是一种基于图论的聚类算法。

该算法先将文本数据处理成一个序列图，然后通过对其进行谱分解，得出特征向量，将样本点通过聚类算法分为不同的类别。

谱聚类算法的优点是可以处理小样本；缺点是计算矩阵特征向量和特征值。

一种提高文本聚类算法质量的方法

一种提高文本聚类算法质量的方法
冯少荣
【期刊名称】《同济大学学报（自然科学版）》
【年(卷),期】2008(036)012
【摘要】针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.
【总页数】7页(P1712-1718)
【作者】冯少荣
【作者单位】厦门大学信息科学与技术学院,福建,厦门,361005
【正文语种】中文
【中图分类】TP312
【相关文献】
1.一种基于源网页质量的锚文本相似度计算方法--LAAT [J], 陆一鸣;胡健;马范援
2.一种提高DBSCAN聚类算法质量的新方法 [J], 冯少荣;肖文俊
3.一种提高文本检索准确性的关联方法 [J], 施侃晟;刘海涛;舒平达
4.主题特征格分析:一种用户生成文本质量评估方法 [J], 钟将;张淑芳;郭卫丽;李雪
5.一种结合TF-IDF方法和词向量的短文本聚类算法 [J], 赵晓平;黄祖源;黄世锋;王永和
因版权原因，仅展示原文概要，查看原文内容请购买。

语义增强的文本聚类方法研究

语义增强的文本聚类方法研究一、语义增强的文本聚类方法概述随着信息技术的快速发展，文本数据的爆炸式增长使得文本聚类技术在信息检索、知识管理、数据挖掘等领域变得尤为重要。

文本聚类是一种无监督学习方法，旨在将文本数据自动地划分为若干个具有相似特征的类别。

然而，传统的文本聚类方法往往依赖于词频、位置等表面特征，难以深入挖掘文本的语义信息。

语义增强的文本聚类方法通过引入语义分析技术，能够更准确地捕捉文本的内在含义，从而提高聚类的效果和质量。

1.1 语义增强文本聚类的核心特性语义增强的文本聚类方法的核心特性主要体现在以下几个方面：- 语义一致性：通过语义分析技术，能够确保聚类结果在语义层面上具有一致性，提高聚类的准确性。

- 多维度特征：除了传统的词频特征，还能够利用词义、句法、语义角色等多维度特征，丰富聚类的维度。

- 动态适应性：能够根据文本数据的特点和变化，动态调整聚类策略，提高聚类的适应性和灵活性。

1.2 语义增强文本聚类的应用场景语义增强的文本聚类方法在多个领域都有着广泛的应用，包括但不限于以下几个方面：- 信息检索：通过聚类技术，能够将用户查询的关键词与相关文档进行匹配，提高检索的准确性和效率。

- 知识管理：在知识库中，通过聚类技术可以发现知识之间的关联，优化知识结构，促进知识的传播和应用。

- 数据挖掘：在大规模文本数据中，通过聚类技术可以发现数据的内在模式和规律，为决策提供支持。

二、语义增强文本聚类方法的关键技术语义增强的文本聚类方法涉及多种关键技术，这些技术共同作用，提升聚类的效果和质量。

2.1 语义分析技术语义分析技术是语义增强文本聚类方法的核心。

它通过分析文本中的词汇、句法、语义角色等信息，提取文本的深层含义。

常见的语义分析技术包括：- 词义消歧：通过上下文信息，确定多义词的具体含义，提高语义分析的准确性。

- 句法分析：分析句子的结构，提取主语、谓语、宾语等成分，理解句子的语义关系。

- 语义角色标注：标注句子中各个成分的语义角色，理解句子的深层含义。

NLP技术在文本聚类中的应用方法

NLP技术在文本聚类中的应用方法随着互联网的快速发展，海量的文本数据不断涌现，如何高效地对这些数据进行处理和分析成为了一项重要的任务。

文本聚类作为一种常见的文本挖掘技术，可以将相似的文本归类到同一个簇中，为后续的信息检索和知识发现提供基础。

而自然语言处理（NLP）技术的发展，为文本聚类提供了更加精确和高效的方法。

一、文本预处理在进行文本聚类之前，首先需要对文本数据进行预处理。

这一步骤主要包括分词、去除停用词、词干提取等。

分词是将文本按照一定的规则切分成词语的过程，常用的方法有基于规则的分词和基于统计的分词。

去除停用词是指去除那些在文本中频繁出现但没有实际意义的词语，如“的”、“是”等。

词干提取是将词语还原为其原始形式的过程，例如将“running”还原为“run”。

二、特征表示在文本聚类中，需要将文本数据转化为机器可处理的数值形式。

常用的特征表示方法有词袋模型和词向量模型。

词袋模型将文本表示为一个向量，其中每个维度表示一个词语在文本中的出现频率。

词向量模型则将每个词语表示为一个实数向量，可以捕捉到词语之间的语义关系。

常见的词向量模型有Word2Vec和GloVe。

三、相似度计算文本聚类的核心是通过计算文本之间的相似度来判断它们是否属于同一个簇。

常用的相似度计算方法有余弦相似度和编辑距离。

余弦相似度通过计算两个向量之间的夹角来衡量它们的相似程度，值越接近1表示越相似。

编辑距离则通过计算将一个字符串转换成另一个字符串所需的最少操作次数来衡量它们的相似程度，值越小表示越相似。

四、聚类算法文本聚类的目标是将相似的文本归类到同一个簇中，常用的聚类算法有层次聚类、K均值聚类和密度聚类。

层次聚类是一种自底向上的聚类方法，通过计算两个簇之间的相似度来不断合并簇，直到达到停止条件。

K均值聚类则是一种迭代的聚类方法，通过将数据集划分为K个簇，并不断更新簇的质心来达到最小化簇内误差平方和的目标。

密度聚类则是基于样本之间的密度来划分簇，将密度较高的样本划分为一个簇。

高效处理文本数据的技巧和方法

高效处理文本数据的技巧和方法随着信息时代的到来，文本数据成为了我们生活中不可或缺的一部分。

无论是在工作中，学习中，还是日常生活中，我们都会频繁地接触到大量的文本数据。

而对于这些文本数据的处理，往往需要花费大量的时间和精力。

因此，如何高效地处理文本数据成为了许多人关注的焦点。

本文将探讨一些高效处理文本数据的技巧和方法，希望能够为大家提供一些有用的帮助。

一、数据清洗在处理文本数据之前，首先要进行数据清洗。

数据清洗是指对文本数据进行去噪、去重、去冗余等操作，以保证数据的质量和准确性。

常见的数据清洗方法包括：1.去除停用词停用词是指在文本中频繁出现但无实际意义的词语，如“的”、“了”、“是”等。

在处理文本数据时，去除停用词可以减少数据量，提高处理速度，同时也能够提高数据的质量。

2.去除特殊符号在文本数据中，常常包含各种特殊符号，如标点符号、换行符等。

在处理文本数据时，需要将这些特殊符号去除，以保证数据的整洁和准确性。

3.去重文本数据中可能包含大量重复的内容，需要进行去重操作，以减少数据量，提高处理效率。

4.词干提取词干提取是指将词语的词干提取出来，如将“running”提取为“run”，以减少数据的冗余，提高数据的处理速度和准确性。

二、文本分词在处理文本数据时，常常需要对文本进行分词操作，将文本划分为词语。

文本分词是文本处理的基础操作，对文本数据的处理效率和准确性具有重要影响。

常见的文本分词方法包括：1.基于规则的分词空格、标点符号等划分词语。

这种方法简单易行，但对于复杂的文本数据效果不理想。

2.基于统计的分词基于统计的分词是指通过统计文本中词语的频率和位置等信息来进行分词，如使用TF-IDF算法来提取关键词。

这种方法对文本数据的处理效果较好，适用于处理复杂的文本数据。

3.基于机器学习的分词基于机器学习的分词是指利用机器学习算法来对文本进行分词，如使用神经网络来进行词语的分割。

这种方法适用于处理大规模、复杂的文本数据，具有较高的处理效率和准确性。

一种改进的文本聚类方法

，，
，，，
重参数的设定方法即权重参数由遗传算法确定从而使权重参数的设定更具有科学性和可操作性通过仿真实验验证了算法
关键词粗集；遗传算法；向量空间模型
中图文分类号：T P 3 12
文献标识码：A
性质４：如果一个对象不属于任何一个类的下近似，则它必然属于两个以上的类的上近似。
，，
了基于粗糙集的文本分类方法该算法缺少足够的灵活
，，
性
。
5 和文献【】文献 (6 j 将粗集和遗传算法相结合分别对
，，
研究如何从海量数据中挖掘有用的信息
一
直是学术界研
高速公路和网站访问者进行了聚类其缺点是人工设定
f pa
r a m e
te r s in th e c lu s te r in
g pro g
．
la t io
re s u
lts
a
ls
o
g iv
e n
K
e
y
w o r
ds
：r o u
gh
s e t
；g e
n e r
ic
a
lg
o r i t h m ；v e c t o r
m o
de l
1
引言
面对当今浩如烟海的数据人们往往手足无措所以

无监督贝叶斯算法在文本分类中的应用

无监督贝叶斯算法在文本分类中的应用在当今的信息时代，大量的文本数据被生成并积累，如何高效地利用这些数据成为了一个迫切需要解决的问题。

文本分类作为信息处理的一个重要领域，可用于将大量的无组织、无序的文本数据归类到不同的类别中，是一种十分有效的文本信息处理方法。

然而，由于文本数据的复杂性和多样性，传统的文本分类算法往往受限于数据稀疏性和高维特征问题。

因此，如何改进文本分类算法，提高分类准确率和速度成为了研究的热点。

本文将介绍无监督贝叶斯算法在文本分类中的应用。

一、无监督贝叶斯算法简介无监督学习是指在没有标签或类别信息的情况下对数据进行模式分析。

在文本分类任务中，训练集通常是无标签的，这使无监督学习在文本分类中具有很好的应用前景。

贝叶斯算法是一类常见的分类算法，主要是基于贝叶斯原理来进行决策。

无监督贝叶斯算法主要用于文本聚类和主题模型的构建。

它的基本思想是利用无标签数据的先验信息，通过迭代学习来更新文本类别的后验概率，最终得到文本的分类结果。

二、无监督贝叶斯算法与LDA模型LDA（Latent Dirichlet Allocation）是一种主题模型，它采用了无监督学习和概率推断的方法，将文档表示为主题分布的混合。

在LDA模型中，每个文档被看作是由多个主题混合而成的，每个主题都对应一个词汇分布。

主题模型的基本思想是，文本数据中存在一定数量的潜在主题，并且每个文档以不同的比例涉及这些主题。

无监督贝叶斯算法与LDA模型结合，则是在不知道文档的先验分类信息的情况下，通过LDA模型得到文档主题分布的概率，然后通过无监督贝叶斯算法来更新文档的后验概率，最终得到文本的分类结果。

三、无监督贝叶斯算法在文本分类中的应用无监督贝叶斯算法在文本分类中的应用不仅仅局限于主题模型，还可以应用于其他文本分类算法中。

例如，在传统的朴素贝叶斯算法中，文档按照类别分布，然后通过概率推断来计算每个文档属于每个类别的概率。

而在无监督贝叶斯算法中，通过迭代学习，可以自动识别文档中的一些潜在类别，并分类文档。

一种新的演化文本流聚类算法

关键词聚类，据流，本流数文
ＡｎｇｒｔｍｏｕｔｒｎｇＥｖｖｉｘｔｔｅｍｔＯｕｌｅｓＡｌｏｉｈｆｒＣｌｓｅｉｏｌｎｇＴｅｔＤａａＳｒａｗｉｈｔｉｒ
ＤＥＮＧｅＷｅＰＷｉ－ｉＥＮＧｎＨｏｇ
算法，Ｌｎｍｅｎｉ￣：Ｋ－ａｓ或者ＨＡＣ等传统聚类方法，当前的从
微聚类中生成宏聚类。为了方便用户查询历史上某个时间段的聚类，每隔一定的时间，聚类部分将自己的快照保存到磁微
用了二值型数据的特点，简化了稀疏二值矩阵的计算，提高了性能和聚类质量，但它仍不适合文本这类高维数据；８用投文Ｅ２影的方式研究了高维数据流聚类的问题，但它也只是在高维的稀疏空间里面寻找某些低维空间，使得在这些低维空间能够构成有意义的聚类。文Ｅ２９提出了一种可以对文本和标称型数据流进行聚类方法，它采用和文［］４中类似的方法，没有考虑存在
类查询部分。宏聚类可以看作是我们传统意义上的聚类，而
微聚类是比宏聚类更小的聚类，它的个数一般比宏聚类的个数多很多。当用户查询当前宏聚类的时候，以用某些聚类可
少基于划分的数据流聚类方法ｌ，１但这些方法都只适合处理］
数值型数据，ｒ对二值型数据流聚类方法进行了研究，文Ｅ２它利
上流的速度。
般要在有限的存储空间里维护已经流逝的数据的概要信息
（ｙｏｓ）ｓｎｐｉ或者说浓缩信息（ｏｄｎｅｆｒｔｎ。比如ｓｃｎｅｓｄｉｏｍａｉ）ｎｏ

一种用于文本聚类的改进二分K-均值算法

况下，本聚类也得到越来越多的重视。文Ｋ一值算法是最常用的文本聚类方法，优点是时均其
组词条（。ｔ，，）成的集合，于词条ｔ根据其在ｔ，： … ｔ组对
文档中的重要程度赋予一定的权熏ｗ．这样文档Ｄ就表示为：
ＴｅｈｉｅａｎＭｅｈｄｃｎｑｕｄｔｏ
一
种用于文本聚类的改进二分Ｋ均值算法一
邹海，梅李（徽大学计算机科学与技术学院，徽合肥２０３）安安３０９
摘
要：在已有聚类算法的基础上，提出了一种新的文本聚类新方法— — 合作二分Ｋ一均值算法
ＺＯＵＨａ，ＭｅｉＬＩｉ
（ｓｔｔｏｏｕｅｃｎｅ＆Ｔｃｎｌｙ，ｎｕｎｅｓｙＨｆ３０９，ｈａＩｔｕｅｆＣｍｐｔＳｉｃｎｉｒｅｅｈｏｇＡｈｉＵｉｒｉ，ｅｉ２０３Ｃｉ）ｏｖｔｅｎ
ＡｂｔａｔＢｓｄｏｈｏａｌｓｅｎｌｏｉｅ，ｅｐｏｏｅａｎｗｌｓｅｎａｇｒｈｍｏｐｒｔｅｂｓｃｉｇＫ－ｍｅｎｌｓｒｃ：ａｅｎｔｅｌｃｌｃｕｔｒｇａｇｒｈｍｓｗｒｐｓｅｃｕｔｒｇｌｏｉｅｃｏｅａｉｉｅｔｉｔｉｔｖｎａｓａ－
一
差异尽可能地增大。聚类作为一种无监督的学习方法，能从数据集中发现数据的分布情况，一种强有力的信是

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(8) SumSim : 文档与某类的总相似度值 ,为全局变量. 1. 3 判定文档与类相似的方法
使用 SumSim 值大小来判断文档是否与类相似 ,它的值是文档关键词与类特征词两两最匹配后相似度值之和. SumSim 值越大 ,说明文档与类越相似. 但是不等于文档属于使 SumSim 最大那个类 ,按照 1. 1. 2 节文档相似度计算方法 ,至少有 2 对相关词对 ,文档才能相似 ,所以在找到 SumSim 最大类后还要再判断是否这个类与文档有 2 个相关词对 ,若有 ,文档属于该类 ,否则 ,文档与当前所有类相似度都很低 ,需要新增一类. 通过 SumSim 变量可以找到与文档最相似的类 ,减少一些非主题相关词对的干扰 , 更好判断文档与类的相似性 , 加强类内的紧凑性. 1. 4 文档与类特征词的相似度权重计算方法
(2) 若 W 1有义原与 W 2同或 W 2有义原与 W 1 同 ,且这个相似的义原不是弱义原 , 则 Sim ( W 1 , W 2) = 1 , 即 2 个词同义.
(3) 若存在 W 1只有 1 个基本义原 , W 2有 2 个以上义原 ,则继续判断 W 1基本义原是否和 W 2的其他义原相等且不是弱义原 ,若是 ,则最后 2 个词的相似度为 Sim ( W 1 , W 2) = 0. 8 ,值 0. 8 说明 2 个词是相关的 ; 否则 2 个词相似度为它们的第一义原相似度值.
第 36 卷第 12 期 2008 年 12 月
同济大学学报 (自然科学版) JOURNAL OF TON GJ I UN IV ERSITY(NA TURAL SCIENCE)
Vol. 36 No . 12 Dec. 2008
一种提பைடு நூலகம்文本聚类算法质量的方法
冯少荣
(厦门大学信息科学与技术学院 , 福建厦门 361005)
2 个词 W 1 , W 2的相似度 Sim( W 1 , W 2) 具体计算步骤如下 :
(1) 若 2 个词都只有 1 个义项 ,则根据文献[7 ]中式 (1) 计算 W1 , W2第一义原的相似度 Sim( W 1 , W 2) ; 若有词有 2 个以上的义项 ,按照文献[ 7 ]中式 (2) 判断哪个义项为义原描述符 ,并计算 Sim( W1 , W2) .
1 语义距离计算的基本思想
1. 1 改进的相似度计算方法将文档间语义距离具体转化为词语间语义距
离、义原间语义距离. 达到利用语义距离计算文档间相似度的目的. 计算以《知网》[627 ]作为语义的本体 , 通过对《知网》的数据、结构、知识描述语言以及文献 [ 7 ]的分析、研究 ,提出改进的相似度计算方法. 1. 1. 1 改进的词语相似度计算方法
(4) 若 W 1 , W 2都有 2 个以上义原 ,则两两比较 2 个词其他的义原 ,若有 2 个义原相等且不是弱义原 ,则 2 个词的相似度 Sim ( W 1 , W 2) = 0. 8 ,结束计算 ; 若没有义原对相等或者相等但为弱义原 ,则按照文献[ 7 ]中式 (4) 计算 2 个词的相似度 ,若是弱义原配对 ,赋予较低权重.
关键词 : 文本聚类 ; 语义距离 ; 最近邻聚类 ; 相似度 ; 聚类算法中图分类号 : TP 312 文献标识码 : A
文章编号 : 0253 - 374X(2008) 12 - 1712 - 07
A Method to Improve Text Clustering Algorithm Quality
1 71 4
同济大学学报 (自然科学版)
第 36 卷
描述词 , 这是个矢量二维 ,一维代表类 ,二维为每个类的特征词矢量.
(6) 类特征词相似权重 ( VVSimCenter) : 每个特征词对应的相似权重值.
(7) 待聚类文档矢量 ( Wait Cluster) : 需要重新聚类的文档.
FEN G S haorong
( School of Information Science and Technology , Xiamen University , Xiamen 361005 , China)
Abstract : The main problem wit h t he text clustering algorit hm based on vector space model (VSM) is t hat semantic information between words and t he link between t he various dimensions are overlooked , resulting in inaccuracy in t he text similarity calculation. A met hod based on computing t he text similar2 ity using semantic distance and two2phrase clustering is proposed to improve t he text clustering algo2 rit hm. First , t he text analyzed according to it s semantic ,wit h nearest neighbor algorit hm used for t he first cluster. Some feat ure words are chosen according to t he similarity weight to represent t he cluster wit h t he remaining feat ure words similar to t he main t hemes of t he cluster ,and t hen class combination is carried out . Finally , t he second clustering is carried out to improve t he nearest neighbor clustering which is sensitive to t he input order of t he document . Simulation experiment s indicate t hat t he pro2 posed algorit hm can solve t hese problems and performs better t han t he text clustering algorit hm based on VSM in t he clustering precision and recall rate. Key words :text clustering ; semantic distance ; nearest neighbor clustering ; similarity ; clustering algo2
摘要 :针对基于 VSM (vector space model) 的文本聚类算法存在的主要问题 ,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确 ,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量. 首先 ,从语义上分析文档 ,采用最近邻算法进行第一次聚类 ;其次 ,根据相似度权重 ,对类特征词进行优胜劣汰 ;然后进行类合并 ;最后 ,进行第二次聚类 ,解决最近邻算法对输入次序敏感的问题. 实验结果表明 ,提出的方法在聚类精度和召回率上均有显著的提高 ,较好解决了基于 VSM 的文本聚类算法存在的问题.
(1) 取出文档 1 中的 1 个关键词. (2) 计算与文档 2 中所有未匹配关键词两两之间的相似度 ,选择最大一个记为最匹配相似度 ,对应的词为最匹配词. (3) 若最匹配相似度值大于 0. 8 ,说明 2 个词语相关 ,相关词对数量加 1 ,并置文档 2 对应匹配词已匹配. (4) 重复步骤 (1) ,直到文档 1 所有关键词扫描完毕. (5) 若相关词对数量超过规定值 2 ,则说明 2 篇文档相似 ,属于同类. 步骤 (3) 规定最匹配相似度值大于 0. 8 ,这样能更有效地发现尽量多的相关词对. 因为若 2 个词相似度值太小 ,说明 2 个词毫无关系 ,此时若置词已经匹配 ,则后面的词无法继续和这个词比较 ,但是后面词有可能和这个词是相关的. 若取有 2 对相关词对 ,则 2 篇文档相似 , 但这只能保证大部分文档相似. 有些文档间相关词对有 2 个以上且这 2 词不是主题词 , 可以这样处理 :文档和当前所有类比较 ,找最相似的类 ,这个最相似的类表现在它所有的关键词两两匹配后的相似度加权之和最大 ,而且和这个最相似的类有 2 对以上相关词对才能说明 2 篇文档相似 , 否则不相似. 这样计算文档相似度既用到了所有词的加权相似度 ,又考虑到词的相关词对数量 ,更能准确说明 2 篇文档的相似与否. 1. 2 相关概念 (1) 文档列表 (ArtistList) :主要用于存放文档. (2) 文档关键词数组 (Dword [ rowcount ] [ col2 count ]) :rowcount 为文档维 , colcount 为关键词维. (3) 预类特征词矢量 ( V PreCenter) : 词语两两相似计算后先放入预类特征词矢量中 ,经过筛选后将相似权重较大词放入类特征词矢量中. (4) 预类特征词相似权重 ( V PreSimCenter) :每个预类特征词对应的相似权重值. (5) 类特征词矢量 (VVCenter) :每个类的特征
有许多词汇的第一义原往往是很抽象的义原 , 而且与此相同的第一义原重复很多 ,对获取这些词汇的语义信息帮助不大 , 所以通过比较 2 个词的非弱义原是否相等来判断 2 个词是否相关 ,进而计算 2 个义原距离 ,可以大幅提高计算义原距离的效率. 1. 1. 2 改进的文档相似度计算方法