文本聚类的开题报告
潜在语义分析理论及其在文本检索与聚类中的应用研究的开题报告

潜在语义分析理论及其在文本检索与聚类中的应用研究的开题报告1. 研究背景和意义随着互联网和数字化时代的到来,文本数据呈现爆炸式增长,如何快速、准确地检索和聚类大量文本数据成为亟待解决的问题。
传统的文本检索和聚类方法基于关键词匹配和相似度度量,其存在缺点包括但不限于:(1)关键词匹配只能考虑显式的文本信息,无法处理语义相似但关键词不同的文本;(2)相似度度量忽略了文本的隐式语义信息,导致检索或聚类结果并不准确。
因此,近年来,潜在语义分析(LSA)理论逐渐引起了学者们的关注和研究。
LSA是一种基于数学统计的语义分析方法,能够挖掘出文本数据隐含的语义信息,并将其转化为数值向量的形式进行表示,这种方法在文本检索和聚类等领域有着广泛应用前景,在学术界和工业界都备受关注。
因此,本研究旨在深入探究LSA理论,并将其应用于文本检索和聚类中,如此一来,能够提高大规模文本数据的处理效率和准确性,同时也具有重要的理论价值和实践意义。
2. 研究内容和方法本研究的研究内容主要包括以下两个方面:(1)LSA理论研究。
通过对LSA理论的学习和研究,掌握其主要原理和算法,理解其优缺点及应用场景,探究其在文本分析中的优势和不足之处,对其进行改进和优化。
(2)LSA在文本检索和聚类中的应用探究。
基于LSA理论,探究将其应用于文本检索和聚类的方法和技巧,研究如何将文本数据进行数字化表示,通过相似度度量和聚类算法实现文本分类和聚类,实现高效准确的文本检索和聚类。
研究方法主要包括:调研文献、阅读相关论文和标准、定量分析实验数据、开展实验验证等,通过实验验证和对比分析,评估LSA在文本检索和聚类中的性能和效果。
3. 预期研究成果及意义(1)深入理解LSA理论的原理和算法,掌握其优劣及应用场景。
(2)建立基于LSA算法的文本检索与聚类模型,提高文本处理准确性和效率。
(3)通过实验验证,评估LSA在文本检索和聚类中的性能和效果。
本研究的结论和成果对于提高文本检索和聚类的准确性和效率,为相关研究领域提供新的思路和方法,同时也具有一定的理论价值和实践意义。
基于BTM的短文本聚类的开题报告

基于BTM的短文本聚类的开题报告一、选题背景随着社交网络和其他网络应用的普及,人们在日常生活中会产生大量的短文本。
例如,微博、微信、评论等。
这些文本具有时效性和实时性,很难进行归类和汇总。
如何对这些短文本进行聚类是一个重要的问题。
针对于这个问题,本文提出了一种基于BTM(Biterm Topic Model)的短文本聚类方法。
二、研究意义针对短文本聚类问题,现有的方法主要有基于传统TF-IDF和文本相似度的方法和基于主题模型的方法等。
传统方法的缺点是难以处理短文本中的语义信息,主题模型方法则可以有效地处理语义信息,但是由于是基于词袋模型,容易受到噪声词汇的影响,导致聚类结果不准确。
本文采用BTM模型,可以从字面和主题两个方面对短文本进行建模,从而有效地处理短文本中的语义信息。
三、研究内容本文的主要研究内容如下:1. 建立基于BTM的短文本聚类模型。
2. 开发基于BTM的短文本聚类软件,实现短文本聚类。
3. 对比BTM模型与现有的主题模型方法(如LDA),研究BTM在短文本聚类上的优势。
四、研究方法本文采用以下研究方法:1. 研究相关文献,了解短文本聚类的研究现状及主题模型的基本概念。
2. 设计基于BTM的短文本聚类模型,包括数据预处理、模型建立、参数调优等方面。
3. 实现基于BTM的短文本聚类软件,对比BTM模型与现有的主题模型方法的聚类效果。
五、研究预期结果本文的预期结果如下:1. 设计并实现了基于BTM的短文本聚类模型,能够有效地处理短文本语义信息,提高聚类效果。
2. 实现了基于BTM的短文本聚类软件,能够进行短文本聚类。
3. 通过对比实验,证明了BTM模型在短文本聚类上的优势。
六、研究难点1. BTM模型如何处理短文本中的语义信息?2. BTM模型如何解决噪声词汇的影响?3. 如何评估聚类效果?七、论文结构本文的结构如下:第一章:绪论,介绍选题背景、研究意义和内容,以及研究方法和预期结果。
文本聚类分析效果评价及文本表示研究的开题报告

优秀毕业论文开题报告文本聚类分析效果评价及文本表示研究的开题报告一、研究背景随着信息时代的到来,人们处理和利用大量文本数据的需求日益增长。
文本聚类是一种重要的文本挖掘技术,能够将相似的文本归为一类,为文本分类、信息检索、情感分析等任务提供基础支撑。
在实际应用中,文本聚类的效果评价和文本表示方法的选择对聚类结果的准确性和可解释性有着至关重要的影响。
因此,本研究将从文本聚类分析效果评价和文本表示方法两个方面入手,探究如何提高文本聚类的准确性和可解释性。
二、研究目的本研究的主要目的是探究文本聚类的效果评价和文本表示方法的选择对聚类结果的影响,提出一种可行的文本聚类算法,并在实验中验证其有效性和可行性。
三、研究内容本研究的主要内容包括:1. 文本聚类效果评价方法研究。
通过对比和分析不同的聚类效果评价指标,比如SSE、Silhouette系数、ARI等,探究其适用范围和缺陷,并提出一种综合考虑聚类效果和聚类结构的新的评价指标。
2. 文本表示方法研究。
对比和分析不同的文本表示方法,比如词袋模型、TF-IDF 模型、Word2Vec模型等,探究其适用范围和缺陷,并提出一种结合词频和语义信息的新的文本表示方法。
3. 基于谱聚类的文本聚类算法研究。
在上述基础上,提出一种基于谱聚类的文本聚类算法,并在实验中验证其效果和可行性。
四、研究方法本研究将采用实验研究法和文献研究法相结合的方式开展。
具体来说,将通过对比和分析不同的聚类效果评价指标和文本表示方法,探究其适用范围和缺陷,并提出新的评价指标和文本表示方法。
同时,将基于谱聚类算法开展实验研究,验证其效果和可行性。
五、预期成果本研究的预期成果包括:1. 提出一种综合考虑聚类效果和聚类结构的新的评价指标。
2. 提出一种结合词频和语义信息的新的文本表示方法。
3. 提出一种基于谱聚类的文本聚类算法,并在实验中验证其效果和可行性。
六、研究意义本研究的意义在于:1. 提高文本聚类的准确性和可解释性,为文本分类、信息检索、情感分析等任务提供基础支撑。
基于特征词的文本聚类算法研究的开题报告

基于特征词的文本聚类算法研究的开题报告一、课题背景文本聚类是文本挖掘中的一个重要研究方向,它是指将具有相似主题或语义的文本自动聚合在一起,形成一定数量的子集。
文本聚类被广泛应用于信息检索、推荐系统、广告分类等领域。
目前,基于特征词的文本聚类算法在文本聚类中占据了重要地位。
其主要思想是将文本转换为向量表示,然后采用聚类算法对这些向量进行聚类,从而达到文本聚类的目的。
然而,在实际应用中,基于特征词的文本聚类算法存在一些问题。
一方面,由于对特征词的选取过程具有主观性,因此可能存在一些不必要的噪声特征词,从而降低了聚类效果。
另一方面,文本数量的增加极大地增加了算法的计算复杂度,因此需要寻找高效且准确的聚类算法。
因此,本研究将深入研究基于特征词的文本聚类算法,提出一种新的特征词选取方法,设计高效且准确的聚类算法,以提高文本聚类的效果和效率。
二、研究内容1. 文献综述对基于特征词的文本聚类算法进行全面的综述和分析,总结其优缺点,并提出改进方法。
2. 特征词选取方法的改进研究一种新的特征词选取方法,在保证召回率的同时,进一步提高准确率,尽可能地去除噪声特征,提高聚类质量。
3. 高效且准确的聚类算法设计针对基于特征词的文本聚类算法中可能存在的效率问题,设计高效且准确的聚类算法,提高文本聚类的效率和精度。
4. 算法实现与性能分析在真实的文本数据集上实现算法,并对其效果进行分析和评估,以验证新方法的有效性和可靠性,并与现有算法进行比较。
三、预期成果1. 提出一种准确率和召回率都得到优化的新特征词选取方法,将其用于基于特征词的文本聚类中,提高聚类质量。
2. 设计了基于新特征选取方法的高效且准确的聚类算法,并在真实数据集上进行了测试,验证了其有效性。
3. 将所设计的算法实现为可用的软件或代码,并公开发布,为相关领域的研究者提供实用的文本聚类工具。
四、拟采取的研究方法和技术路线1. 文献综述和问题分析:查找相关文献和资料,对基于特征词的文本聚类算法进行综述和分析,找出其存在的问题和不足。
文档聚类在搜索引擎结果中应用的研究的开题报告

文档聚类在搜索引擎结果中应用的研究的开题报告一、研究背景与意义随着互联网技术的不断发展,网络上的信息呈现爆炸式的增长,人们在信息检索中面临巨大的挑战。
搜索引擎成为人们获取信息的主要途径,但搜索引擎的检索结果数量庞大,人们看不完、找不到自己需要的信息,降低了搜索引擎的实用性和用户满意度。
文档聚类技术为搜索引擎提供了一种有效的协助手段。
通过将包含相关主题的相似文档分成不同的组或类,使得用户能够更方便地选择他们感兴趣的主题和信息。
与传统的搜索引擎相比,文档聚类能够提供更加精准和定制化的搜索服务,提高了搜索引擎的实用性和用户满意度。
因此,研究文档聚类在搜索引擎结果中应用的相关技术和方法,对于提高搜索引擎的检索效率、提升用户满意度具有重要的现实意义。
二、研究内容和方法本研究将以文档聚类在搜索引擎结果中应用为研究对象,探讨如何基于文档聚类提高搜索引擎的检索效率和用户满意度。
研究内容包括以下几个方面:1. 文档聚类技术原理及相关算法研究,包括层次聚类、K-means聚类、高斯混合聚类等方法,并比较不同聚类算法的效果和特点;2. 研究文档聚类在搜索引擎结果中的应用,探讨文档聚类能够在搜索引擎中为用户提供哪些服务和方便;3. 改进和优化文档聚类方法,为搜索引擎提供更为精准的检索结果;4. 研究文档聚类在搜索引擎中的应用对用户满意度的影响,通过实验验证文档聚类技术在搜索引擎中的作用。
研究方法主要包括文献综述、实验研究和数据分析等方法。
首先通过收集和分析相关文献,掌握文档聚类在搜索引擎中应用的基本原理和技术,了解其现有的研究成果和存在的问题。
然后设计实验方案,采集数据,通过对使用文档聚类和不使用文档聚类的两组用户进行实验和调查,收集和分析其使用搜索引擎时的行为和反馈。
最后,通过对实验结果的分析,探究文档聚类对于搜索引擎检索效率和用户满意度的影响。
三、研究预期成果本研究预期可以:1. 掌握文档聚类在搜索引擎中应用的技术原理和方法,比较不同算法的效果和特点;2. 通过实验研究和数据分析,探究文档聚类技术在搜索引擎检索效率和用户满意度中的作用,并优化文档聚类方法;3. 提出文档聚类在搜索引擎中应用的建议和优化方案,为搜索引擎的使用和提供方便和精准的搜索服务。
基于SEAM算法的集成聚类及在文本应用中的研究的开题报告

基于SEAM算法的集成聚类及在文本应用中的研究的开题报告一、研究背景及意义随着大数据时代的到来和互联网的不断发展,文本数据不断增长并且数据量十分庞大,如何有效地对文本信息进行分类和聚类是一项重要的研究内容。
在信息检索、推荐系统、社交网络分析、情感分析等领域,集成聚类被广泛应用。
而基于SEAM算法的集成聚类方法,可以对各类文本进行有效的分类和聚类分析,有利于提高自然语言处理的效率和准确性。
二、研究内容与目标本次研究主要基于SEAM算法,研究集成聚类在文本分类和聚类上的应用,主要内容包括:1. 对SEAM算法进行分析,探究其在文本分类和聚类中的优势和不足。
2. 通过选择适当的预处理方法和特征提取方法,将样本数据转化为数值型特征表示。
3. 实现基于SEAM算法的集成聚类模型,比较其与传统聚类算法的效果。
4. 将模型应用到实际文本数据中,对应用效果进行评估和分析。
三、研究方法与流程本次研究主要采用以下研究方法:1. 文献综述:对相关领域内的文献进行综述,了解集成聚类及SEAM算法在文本处理中的研究现状。
2. 数据预处理与特征提取:对文本数据进行预处理,包括中文分词、停用词过滤、词干化、词向量化等过程,将文本数据转化为数值型特征表示。
3. 模型实现:基于Python平台实现基于SEAM算法的集成聚类模型,比较其与其他聚类算法的效果。
4. 应用评估:将集成聚类模型应用到实际文本数据中,对聚类效果进行评估和分析,以验证其实用性。
四、预期结果通过本次研究,预期能够实现基于SEAM算法的集成聚类模型,并对其在文本分类和聚类中的应用效果进行评估。
预计该模型将具有较高的聚类准确性和稳定性,对文本数据的处理具有较高的效率和实用性。
五、研究难点本次研究中主要的研究难点包括:1. SEAM算法在文本分类和聚类中的应用效果需要得到充分验证和评估。
2. 针对不同类型的文本数据,需要选择适合的预处理方法和特征表示方法。
3. 相对于传统聚类算法,集成聚类方法需要考虑不同子聚类间的关系,增加了模型的复杂度和计算难度。
基于潜在语义索引的文本聚类算法研究的开题报告

基于潜在语义索引的文本聚类算法研究的开题报告一、研究背景随着互联网的快速发展和信息爆炸的时代,人们面对海量的信息,如何从中获取有用的信息成为了一项重要的挑战。
因此,文本聚类成为了一种常用的文本分析方法,它可以对大量的文本数据进行分类和归纳,为用户提供更好的信息服务。
然而,在传统的文本聚类方法中,通常使用词频矩阵或TF-IDF矩阵来表示文本,这种表示方法只能捕捉到文本的表面信息,但不能有效地依据文本的语义特征进行分类。
因此,如何更好地处理文本的语义信息成为了一个重要的研究方向。
二、研究目的及意义本论文旨在探索一种基于潜在语义索引的文本聚类算法,该算法可以有效地处理文本的语义信息,提高文本聚类的准确性和效率。
本研究具有如下重要意义:1.提高文本聚类的准确性和效率利用潜在语义索引进行文本聚类可以有效地挖掘文本的语义信息,相比于传统的文本聚类方法,可以更好地处理文本的复杂性,提高聚类的准确性和效率。
2.推动文本分析技术的发展本研究采用的基于潜在语义索引的文本聚类算法是文本分析技术的一个重要研究领域,通过该算法的研究可以推动文本分析技术的发展,为社会提供更好的信息服务。
三、研究内容本研究计划完成以下内容:1.综述文本聚类算法的研究现状和发展趋势,并探讨文本聚类算法的主要问题。
2.介绍基于潜在语义索引的文本聚类算法原理和基本思路,探讨该算法应用于文本聚类的可行性和优势。
3.分析潜在语义索引的构建方法,包括LSA、PLSA、LDA等,并对这些方法进行比较分析,选择合适的方法用于构建潜在语义索引。
4.设计并实现基于潜在语义索引的文本聚类算法,并进行实验评估,验证算法的有效性和性能。
四、研究方法本研究采用以下方法:1.文献综述法:综述文本聚类算法的研究现状和发展趋势,探讨文本聚类算法的主要问题。
2.理论分析法:分析基于潜在语义索引的文本聚类算法的原理和基本思路,并探讨该算法应用于文本聚类的可行性和优势。
3.实验研究法:利用大量的文本数据进行实验,设计并实现基于潜在语义索引的文本聚类算法,并进行实验评估,验证算法的有效性和性能。
基于语义过滤的文本和文本流聚类研究的开题报告

基于语义过滤的文本和文本流聚类研究的开题报告一、选题背景在大数据的背景下,海量的文本数据给信息的获取和分析带来了极大的挑战,需要使用一些有效的技术进行处理。
聚类算法是文本数据处理的重要手段之一,它可以将文本数据划分成一些簇,使得同一簇内的文本相似度较高,不同簇之间的文本相似度较低。
因此,文本聚类算法在文本分类、信息检索、情感分析等领域得到了广泛的应用。
对于文本聚类算法的研究,有基于文本表示的聚类算法和基于语义的聚类算法两种方法。
传统的基于文本表示的聚类算法常常使用词袋模型表示文本,忽略了单词之间的关系,容易受到噪声词汇的影响,使得聚类结果不够稳定和可靠。
而基于语义的聚类算法则可以更好地考虑单词之间的关系和语义信息,提高聚类的效果和稳定性。
二、研究目标本研究的目标是开发一种基于语义过滤的文本和文本流聚类算法,旨在提高文本聚类的效果和稳定性。
该算法将构建一个语义空间,通过对文本进行语义过滤,对单词之间的关系进行建模,对文本进行聚类。
同时,通过对文本流的处理,实现实时聚类。
三、研究内容1. 构建语义空间。
采用Word2Vec或者GloVe等算法,将单词转换为向量表示,构建语义空间。
2. 语义过滤。
将文本中的无用信息、噪声信息和停用词过滤掉,留下重要信息,减少噪声的影响。
3. 单词关系建模。
考虑单词之间的关系和语义信息,建立单词之间的语义关系模型。
4. 聚类算法。
采用层次聚类、K-means等算法对文本进行聚类,根据聚类结果优化单词关系模型,并对聚类效果进行评估。
5. 实时聚类算法。
对流式文本数据进行处理,实现实时文本聚类。
四、预期成果本研究旨在开发一种基于语义过滤的文本和文本流聚类算法,在聚类效果和稳定性方面进行改进,预期达到以下成果:1. 设计实现一种基于语义过滤的文本聚类算法。
2. 实现文本流的实时聚类处理。
3. 对比本研究算法和传统聚类算法,分析算法的效果和稳定性。
4. 在新闻和社交媒体等领域应用该算法,得出可靠的聚类结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本聚类的开题报告文档聚类能够作为多文档自动文摘等自然语言处理应用的预处理步骤,能够将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。
文本聚类开题报告基于K―Mean文本聚类的研究摘要文本聚类可以把相似性大的文本聚到同一类中。
K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有妨碍,导致聚类别稳定,所以采纳一种基于聚类中心的改进算法分析文本,经过实验,验证算法的有效性。
中国论文/9/view-6244858.htm关键词文本聚类;k-means;相似性;度量准则中图分类号:TP391 文献标识码:B文章编号:1671-489X(20XX)18-0050-03Research for Text Clustering based on K-Mean//ZHANG Yue,LI Baoqing,HU Lingfang,MENG LiAbstract Text clustering can make the text similarity large clustered into the same class,K-Means usually is used in text clustering,because of impacting on the cluster center,which results in the clustering instability. Therefore,this paper uses a text analysis of improved algorithm based on the clustering center,through the experiment,it verifies the effectiveness of the improved algorithm.Key words text clustering; k-means; similarity; measure criterion文本聚类是把别同的文本分别聚在别同的类别中,是文本挖掘的重要技术,它是一种无监督的学习技术,每个类中包含的文本之间具有较大的相似性,别同类间的文本相似性比较小。
文本聚类是数据挖掘的重要分支,它应用神经络、机器学习等技术,可以自动地对别同文本进行分类。
在文本聚类分析中,文本特征表示普通采纳向量空间模型[1],这种模型能更好表现文本。
在对文本聚类的研究中,Steinbach等人研究了基于划分的办法和基于层次的办法在文本聚类中的适用程度[2-3],得出结论:采纳K-Means算法进行聚类,别仅聚类结果较好,而且适用于数据量比较大的聚类场合。
在文章中依照研究者对K-Means的发觉,结合实际研究,采纳一种基于K-Means的改进算法来聚类。
Dhillod等人对文本聚类进行研究发觉,采纳余弦夹角作为相似性度量比采纳欧氏距离度量的结果好不少[4]。
1 文本聚类文本聚类的办法不少,要紧分为基于层次的办法、基于划分的办法、基于密度的办法、基于模型的办法、基于格的办法[5]。
在这些聚类办法中,基于划分的K-Mean是最常用也是不少改进办法的基础,文章中采取的改进办法也是基于K-Mean的。
K-Mean首先由MacQueent[6]提出。
它能在大数据集中广泛被使用,因为算法效率较高、算法执行过程理解容易。
当前进行的不少研究基本上以K-Mean为基础开展进行的,它的计算复杂度低,具有与文档数量成线性关系的特性,计算效率别仅高,而且伸缩性较强,习惯大数据集的能力也很强。
K-Mean以k为初始聚类数,然后把n个文本分到k个聚类中,如此类内的文本具有较高的相似度,别同类间的相似度较小。
K-Mean具体的算法过程如下:1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中;3)重新计算差不多得到的各个类的中心,通常计算中心的准则函数采纳平方误差准则,那个准则可以使生成的结果类尽可能地独立和紧凑;4)迭代执行第二步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。
具体的算法流程如图1所示。
2 改进的聚类算法尽管使用K-Mean算法进行文本聚类时,具有计算复杂度低,计算效率别仅高,而且伸缩性较强,习惯大数据集的能力也很强的优点,但是实验发觉,别仅初始聚类中心的选取对聚类结果有妨碍,孤立点的存在对文本的相似性的推断也有很大的妨碍,这就导致聚类推断别稳定。
基于此,文章采纳一种改进的办法来进行文本聚类,改进关键点在于聚类中心的计算,用与原聚类中心相似的文本数据来计算平均值作为该聚类中心。
改进的K-Means算法描述如下所示:1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中,记作means;3)挑选类中与类中心大于等于(1+a)*means的文本集合{D1,D2,...,Dk},其中a[-0.31,0.31],重新计算新文本集中的类中心;4)迭代执行第2步和第3步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。
3 相似度计算文本聚类中涉及文本的相似性计算,惟独相似性大的文本才干聚到同一类中,所以,相似性的度量对文本的聚类很关键。
在文本聚类中,相似度度量方式普通有曼哈顿距离、Cosine距离、欧式距离,其中Cosine距离更能体现文本的相似性。
本文要紧采纳Cosine距离,当两个文本之间的文本相似度越大,它们之间的相关性越强。
文本集用向量空间模型表示后,文本的相似度采纳向量之间距离表示:(1) 4 评价标准文本聚类的有效性需要进行验证,文章中要紧采纳F度量、平均纯度来对聚类结果进行评价。
1)F度量。
F度量把召回率和评价标准准确率结合在一起。
准确率:P(i,r)=nir/nr (2)召回率:R(i,r)=nir/ni (3)其中nir是类别r中包含类别i中的文本的个数,nr是类别r中实际文本的数目,ni是原本类别i中应有的文本数,F值的计算公式:(4)由公式(4)最后得到评价函数为:(5)其中n为文本的总数。
从公式看出F值越高,聚类效果越好。
2)平均纯度。
除了用F度量来评价聚类,文章中还使用平均纯度来度量文本聚类质量好坏[7]。
设类ci的大小为ni,则该类的纯度为:(6)其中nj表示类ci与第j类的交集大小,则平均纯度公式为:(7)其中k为最终的聚类数目。
普通说来纯度越高聚类效果越好。
5 聚类实验结果分析文章中采纳的实验数据要紧是搜狗语料库。
搜狗语料库要紧包括10种文本类别:军事、聘请、IT、文化、健康、汽车、体育、旅游、财经、教育。
搜狗语料库包含了每一类的文件夹,在文件夹中基本上txt文本。
为了验证改进后的算法比原算法更有效,进行了多次实验,最终选取了其中一次实验结果为例子,对两种算法的F度量和纯度进行比较,分别如表1和表2所示。
从表1能够看出,改进聚类中心的K-Means算法在纯度方面相对有一些提高;从表2能够看到F值提高超显;从两个表中的实验结果能够看到改进的算法是有效的。
6 结论基于文本的聚类分析可以对大量的文本进行聚类,分析中采纳的聚类算法的改进能在很大程度上提高聚类的准确性。
实验证明达到设计的效果,并且也为后期的各种数据挖掘工作打下基础。
参考文献[1]Salton G,Wong A,Yang C S. A vector space model for automatic indexing[J].Comm. ACM,1975,18(11):613-620.[2]Steinbach M,KaryPis G,Kumar V. A comparison of document clustering techniques[C].Proceedings of KDD 2000 Workshop on Text Mining.2000:1-20.[3]Ying Zhao,KaryPis G. Hierarchical Clustering Algorithms for Document Datasets[J].Proceedings of Data Mining and Knowledge Discovery,2005,10(2):141-168.[4]Dhillon I S,Modha D S. Concept decompositions for large sparse text data using clustering[J].Machine Learning,2001,42(1):143-175.[5]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.[6]MacQueen J. Some methods for classification and analysisof multivariate observations[C]//Proceedings of 5th BerkeleySymposium on Mathematics. Statistics and Science.1967:281-296.[7]Hammouda K,Kamel M. Collaborative document clu-stering[C]//2006 SIAM Conference on Data Mining (SDM06).2006:453-463.。