大规模短文本的不完全聚类

合集下载

数据挖掘中的短文本聚类算法原理解析

数据挖掘中的短文本聚类算法原理解析数据挖掘是一门利用统计学、机器学习和人工智能等技术，从大量数据中发现有用信息的过程。

在数据挖掘的过程中，短文本聚类算法起到了重要的作用。

本文将对短文本聚类算法的原理进行解析。

一、短文本聚类算法的概述短文本聚类算法是一种将短文本数据分组的技术。

短文本通常指的是长度较短的文本，例如微博、短信等。

由于短文本的特点是信息量少、语义模糊，传统的文本聚类算法在处理短文本时往往效果不佳。

因此，短文本聚类算法应运而生。

二、短文本聚类算法的常用方法1. 基于词频的方法基于词频的短文本聚类算法是最简单的方法之一。

该方法首先对短文本进行分词，然后统计每个词在文本中出现的频率。

接着，根据词频的相似度进行聚类。

这种方法的优点是简单直观，但是忽略了词的语义信息。

2. 基于词向量的方法基于词向量的短文本聚类算法是目前应用较广泛的方法之一。

该方法利用词向量模型（如Word2Vec）将词转换为向量表示，然后根据向量的相似度进行聚类。

这种方法考虑了词的语义信息，能够更好地处理短文本数据。

3. 基于主题模型的方法基于主题模型的短文本聚类算法是一种将短文本转化为主题表示的方法。

主题模型是一种用于从文本中发现主题的统计模型，例如Latent Dirichlet Allocation （LDA）。

该方法将短文本表示为主题分布，然后根据主题分布的相似度进行聚类。

这种方法能够更好地挖掘短文本的语义信息。

三、短文本聚类算法的应用短文本聚类算法在各个领域都有广泛的应用。

例如，在社交媒体分析中，可以利用短文本聚类算法对大量的微博进行分类，从而了解用户的兴趣和情感。

在新闻推荐系统中，可以利用短文本聚类算法对新闻进行分类，从而为用户提供个性化的推荐。

在舆情分析中，可以利用短文本聚类算法对大量的评论进行聚类，从而了解用户对某一事件的态度和情感。

四、短文本聚类算法的挑战与改进短文本聚类算法面临着一些挑战，例如数据稀疏性、语义模糊性等。

一种适用于短消息文本的聚类算法

一种适用于短消息文本的聚类算法吴勇;徐峰【期刊名称】《计算机与现代化》【年(卷),期】2012(0)2【摘要】针对短消息文本聚类,设计基于频繁词集和Ant-Tree的混合聚类方法.该算法利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇,计算轮廓系数消除重叠文档,在此基础上再通过Ant-Tree算法继续精化,最终得到高质量的结果输出.而且聚类结果保留了描述信息和树状层级结构,提供了更广阔的应用.%As to short message text clustering, this paper designs a hybrid clustering algorithm combining by frequent term-sets and Ant-Tree algorithm. This algorithm takes the advantage of efficiency of processing text data based on the frequent term-sets clustering, produces the initial cluster, then eliminates the overlap text documents by calculating silhouette coefficient. Further refines the cluster by Ant-Tree. Thus gets the high quality clustering results. And the results that retain the description and tree structure can provide wider applications.【总页数】4页(P31-34)【作者】吴勇;徐峰【作者单位】湖南机电职业技术学院信息工程系,湖南长沙 410151;湖南机电职业技术学院信息工程系,湖南长沙 410151【正文语种】中文【中图分类】TP301.6【相关文献】1.一种适用于不规则分布数据的混合聚类算法 [J], 马志民;陈汉武;张军2.一种适用于高维非线性特征数据的聚类算法及应用 [J], 姜洪权;王岗;高建民;高智勇;高瑞琪;郭旗3.DENGENE:一种高精度的基于密度的适用于基因表达数据的聚类算法 [J], 孙亮;赵芳;王永吉4.一种适用于混合型分类数据的聚类算法 [J], 林强;唐加山5.适用于大规模文本处理的动态密度聚类算法 [J], 李霞;蒋盛益;张倩生;朱靖因版权原因，仅展示原文概要，查看原文内容请购买。

基于词性特征的特征权重计算方法

基于词性特征的特征权重计算方法胡雯雯;高俊波;施志伟;刘志远【摘要】Because of the sparse and dynamic crisscross characteristics, the short text makes the weight of traditional weighted method difficult to use effectively. This paper presents a new feature weight calculation algorithm based on part of speech. This algorithm is the quantum particle swarm optimization algorithm introduced into translation decision model which can calculate the probability of a feature with certain part of speech. Then it is tested by the text clustering algorithm. The test results show that the improved feature weight calculation algorithm on the clustering accuracy is better than TF-IDF and QPSO algorithm.%短文本因其具有特征稀疏、动态交错等特点,令传统的权重加权计算方法难以得到有效使用.本文通过引入翻译决策模型,将某种词性出现的概率作为特征,提出一种新的基于词性特征的特征权重计算方法,并用文本聚类算法进行测试.测试结果表明:与TF-IDF、QPSO两种权重计算算法相比,改进的特征权重计算算法取得更好的聚类效果.【期刊名称】《计算机系统应用》【年(卷),期】2018(027)001【总页数】6页(P92-97)【关键词】翻译决策模型;TDQO算法;词性;聚类【作者】胡雯雯;高俊波;施志伟;刘志远【作者单位】上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306【正文语种】中文1 引言面对大规模短文本形式的数据,快速并准确地获取所需的关键信息以及提高聚类的效率、准确率一直都是人们关注的重点.但短文本固有的特点,使得传统的特征权重计算方法无法准确计算.因此,学者们采用不同的方法去解决这一缺陷,总体分为三个方面,一用特征子集评价方法从特征空间上改进,包括信息增益[1]、卡方检验(CHI-sqare,CHI)[2]、期望交叉熵(Expected Cross Entropy,ECE)[3]等,这些评价算法在给定阈值的情况下,通过计算文本集中每个特征项的权重值,选择特征项的权重值大于阈值的特征加入特征子集或选择权重值最大的特征项子集直到满足特征子集大小阈值.例如李凯齐,刁兴春等[4]提出一种改进的特征权重计算方法,通过引入信息论中信息增益的概念,实现对短文本特征分布具体维度的综合考虑,克服传统公式存在的不足.实验结果表明,改进后的特征权重计算算法在计算特征权重时更加有效.二在搜索空间策略上进行改进,包括顺序选择算法、遗传算法、粒子群算法等,这些算法通过搜索叠加的方式在实现特征空间降维的同时提高算法自身的准确率.例如杜坤,刘怀亮等[5]考虑特征项间的语义关联构造复杂网络并进行特征选择,定义类别相关系数并结合特征选择结果,提出一种改进的特征权重计算方法,并进行中文文本分类实验.实验结果表明,改进后的算法较TFIDF算法有更好的分类效果.三从特征属性上进行改进,包括词频[6]、特征在文本中的位置[7]、词共现分析等,以上特征属性作为影响因子加入实验中.例如李欣蓬等[8],提出双维度特征关系和特征位置对类别学习的影响,实验结果反映了词性对于特征权重的积极影响.多种实验表明从特征属性上改进特征权重要优于其他两种方法[9-11].其中于海燕等[12]提出一种基于词性嵌入的特征权重计算方法,从词性对情感分类的贡献度嵌入到 TF-IDF 算法中.Gang Wang,Zhu Zhang 等[13]提出基于词性情绪分类的PSO-RS算法,实验表明POS-RS情绪分类可以作为一个可行的方法,有可能被成功地应用于其他文本分类问题.这些研究表明词性对于特征权重上的改进能够提高后续验证实验的准确率,对于本文的研究有重大意义.本文从词性属性出发,提出一种新的基于词性特征的特征权重计算算法(Translation Decision Model Of Quantum-behaved Particle Swarm Optimization,TDQO).在特征选择阶段中将词性引入到翻译决策模型(Translation Decision Model,TD)中,以改进后的TDQO 算法对聚类的效率与准确性进行改善.2 传统的特征权重计算方法传统的特征权重计算方法有很多,例如TF算法、TF-IDF算法、PageRank算法等等.其中TF算法仅从文本词频的角度考虑,一方面考虑到了高词频所带来的高权重,另一方面却暴露其大量无意义词所产生的高冗余、高复杂度等缺点.另外PageRank算法是根据网页中的超链接链入的网页数来判断某个网页是否重要.本文语料为文本数据,为了使初始化的特征权重有较好的可信度,本文在计算初始权重计算方法上选择TF-IDF算法.2.1 TF-IDF算法TF-IDF算法在计算特征权重时考虑三点:词频(tf)、反文档频率(idf)以及归一化(normalization).其中词频tf表示特征在该文档中出现的频率;反文档频率表示特征在各个文档中的区分能力;归一化(normalization)用来防止偏向长文档.考虑三个条件,TF-IDF公式可以表示如下:其中tf(tk,di)表示特征tk在文档di中出现的频率.N表示为文档总数.m表示文档中的特征数.nk表示包含特征tk的文档数.2.2 TF-IDF算法的缺陷TFIDF认为一个特征出现的文档频率越小,则区分类别文档的能力越大.逆文本频度IDF在一定程度上抑制无意义特征,但在另一方面重要特征的凸显也造成无意义标注.而TFIDF的计算为IDF对于TF的权重调整,IDF本身无法有效区分重要特征及无意义特征分布,使得TFIDF计算特征权重的精度并不是很高.举例说明该算法的不足.假设总文档量为100篇.在 2000 特征词的文档中“亲情”,“友情”,“的”,“魅力”分别出现 30,90,100,5 次,“亲情”出现在 20 篇文档中,“友情”出现在90篇文档中,“的”出现在100篇文档中,“魅力”出现在 5 篇文档中.在其 TF,IDF,TF-IDF 数据如表1.从表1可以分析出“友情”与“的”权重最低,但是却表示两个极端,“的”对于特征来说是无意义的特征,只会增加特征冗余,而“友情”却是每篇文档的主题词,经文本聚类可以将文档归为一类.由此可见TF-IDF算法在特征的重要程度上无法准确判断.表1 特征在 TF,IDF,TF-IDF 上的表现特征 TF IDF TF-IDF亲情 0.015 0.6980.01047友情 0.045 0.0458 0.002061的0.05 0 0魅力 0.0025 1.301 0.003275 3 TDQO 特征权重改进算法TDQO算法在TF-IDF算法的基础上引入词性加权权重(TDF)以及特征词作为某种词性出现概率(PF),由此改进TF-IDF算法.其中TDF加权了词性特征权重,例如在文本中名词相对于动词、形容词更能代表一篇文档的主题特征,对于词性加权有效权衡了词性所带来的权重影响.而PF有效抑制大量某一种词性权重影响.3.1 词性加权权重词性加权公式如下:其中n为特征作为粒子的总群数,xi表示第i个特征粒子,j={1,2,3}表示某种词性.3.2 特征作为某种词性概率特征词为某种词性概率公式如下:其中tj表示特征t出现的词性特征.3.3 TDQO算法大多数的短文本在文本预处理阶段,通过词性筛选,保留下所需要的词性,李英[14]提出基于词性的特征预处理方法,在文本预处理环节过滤掉副词、叹词等贡献度很小的词性,只保留对分类贡献较大的名词、动词、缩略词等,实验证明这一方法有效的降低了文本空间的特征维度.特征权重计算为特征空间中的文本向量的每一维确定合适的数值,以表达对应特征在文本的重要程度.特征ti在文本di中的权重表示为wi,j=w(ti, di),文本 di 的权重向量表示为 wj=w(dj).在特征选择算法之后进行词性筛选,只保留名词、动词、形容词.一方面更好地通过词性将词频中较高的干扰词性过滤掉,另一方面可以通过观察哪些词性的词本身虽不具有特征属性,但对权重产生影响,比如标题中一些权重较高的词.本文在不同词性上进行不同程度的加权,得出一种基于词性的权重计算方法公式如下:其中PF*TDF表示为特征t在改进后的量子粒子群优化算法的最优词性加权总值.3.3.1 TDQO 算法流程TDQO算法在量子粒子群算法的基础上引入TD模型,它的范围搜索能力极大高于一般QPSO算法.以下介绍TDQO算法具体实现过程.(1)初始化粒子速度与位置.图1模块①为TDF的计算通过迭代不断判断局部极值pBest和全局极值gBest[15]来更新自己的速度及位置,最终找到最优解.粒子根据公式(5)(6)来优化自己的速度和位置,公式(7)为词性加权权重,即TDF.其中,i表示第 i个粒子,j为粒子的第 i维,t为进化代数,C1,C2 为加速方向常数,r1,r2 为[0,1]上均匀分布的随机数.(2)以 (0,1)随机函数赋值 Xi,并将其作为初始特征权重,Vi=2.0,初始化每个粒子,使用k-means 聚类算法,计算聚类准确率作为粒子的适应度值.粒子在迭代过程中,当前位置的适应度值大于局部或全局最优解的适应度值,则更新为粒子当前位置,否则继续迭代,最终输出计算的词性加权权重.(3)建立翻译决策模型,将每个特征作为粒子,并标注词性及对应的布尔值.图1模块②中TDQO算法中建立的TD模型是最大熵[16]模型的分支模型,也是PF计算的过程.其中TD模型函数的建立用来计算PF值,即特征作为某种词性出现概率.其公式如下:其中λi初始化为 0,fi(x,y)表示定义的特征函数,x 表示特征,y表示对应词性. (4)计算当前模型分布期望,计算最优估计,最终得到粒子作为词性权重的加权权重. TDQO算法流程图如图1.4 实验与分析使用爬虫工具在豆瓣小说上获取22篇小说书评,共计 24 450 条评论.经预处理剩有17 765 个词,通过TF-IDF计算初始权重,并设置阈值为0.01,过滤大量冗余特征.此时剩有2215个词作为后续对比实验的初始特征集,根据建模需要,需再次对词性进行降维,只保留名词、动词、形容词,最终特征选择的词剩有1816个.为了验证词性对文本的贡献度有助于提高聚类的准确率,本文通过TF-IDF算法、QPSO算法、TDQO算法进行对比实验.其中TF-IDF方法得到特征向量并直接进行聚类输出;QPSO算法中不标记词性,通过粒子迭代得到最优加权权重,其中粒子个数为39 952个,迭代次数为100次,得到未加权词性的特征权重,进而进行聚类输出;TDQO算法实验在QPSO算法实验的基础上,引入TD模型,加权计算特征作为某种词性出现的概率并聚类输出.实验环境为Windows 8 操作系统,2 GB 内存,利用 MATLAB 及 PYTHON 开发.图1 TDQO 算法流程图输入:TF-IDF算法权重数据标记粒子词性,粒子总数输出:改进后的特征权重加权,改进前后的F值(1)使用中国科学院计算技术研究所ICTCLAS2014分词器对原始语料进行分词处理;(2)使用TF-IDF算法对词频进行排序,选取词频在0.01以上的词作为新的特征集;此处是避免大量的非有效特征增加特征冗余;(3)对新的特征集进行词性筛选,只保留名词、动词、形容词;(4)引入TD模型的量子粒子群优化算法.通过TD模型建模函数得到特征作为词性出现的概率加权到粒子迭代中,当前位置的适应度值大于局部或全局最优解的适应度值,则更新为粒子当前位置,否则继续迭代,最终输出计算的词性最优加权权重;(5)将得到的加权后的数据经k-means聚类,通过修改k值,在不同类别中使用三种方法进行实验并得出结论.4.1 实验数据分析为验证提出方法的有效性,将TF-IDF算法、QPSO算法及TDQO算法三种方法进行聚类实验,以检验它们在文本挖掘中的表现.实验采用聚类领域常用的F-measure 作为指标来评价文档聚类方法的效果.F-measure[17]是一种结合了precision和recall的聚类评价指标.F-measure 的取值范围为[0,1].对应的检索粒子分布表如表2.表2 检测粒子分布相关不相关检索到的粒子 A B未检索到的粒子 C D在翻译决策模型建模中,将特征转化成随机粒子.根据文档粒子采用分散规则赋值,转化的粒子共39952个,与之相对应产生39952个初始权重,相同的特征在分散文档中的权重也会有所不同,因而在建模过程中,特征用集中的权重表示,并用TRUE和FALSE 标注.TRUE 的情况以二进制 1 代表,FALSE的情况以二进制0代表,粒子词性特征以三维向量表示,并转化成相应十进制,取值为 rand(2,4,6),同时量子粒子群算法仍然使用分散初始权重生成向量作为输入.初始化粒子速度与位置同步进行,设置位置xi=(0,1),速度 vi=2.0,迭代次数 MAXGEN=100,加速常数 C1,C2均为2.0. 为了验证在引入翻译决策模型的量子粒子群优化算法对聚类的准确度,将三种方法计算出特征权重构造特征向量,并进行聚类上的评价比较.其中聚类类别k=[3,7],实验数据 recall值及 F 值上的比较如表3、表4所示.表3 三种权重计算方法在聚类上 recall比较聚类类别实验方法TF-IDF算法QPSO算法 TDQO算法3 0.4286 0.5 0.6 4 0.5 0.5714 0.6667 5 0.5556 0.625 0.7143 6 0.5455 0.6 0.6667 7 0.5385 0.5833 0.6364表3、表4中的3种实验算法在聚类指标recall值及F-measure值上均表现出无论k取何值,TDQO算法始终要优于前两种算法.根据评价标准F值绘制成折线图如图2所示.表4 三种权重计算方法在聚类上 F-measure 比较实验方法聚类类别 TF-IDF算法QPSO算法 TDQO算法3 0.4615 0.5455 0.6667 4 0.5333 0.6154 0.7273 5 0.5882 0.6667 0.7692 6 0.5714 0.6316 0.7059 7 0.56 0.6087 0.6667图2 三种权重计算方法在F值走势图从图2折线趋势图可以明显看出,使用QPSO算法提高了聚类准确率,而本文提出的TDQO算法更加有效地提高了聚类准确率.当类别越大或越小时,QPSO算法准确率虽然与TF-IDF算法准确率很接近,但是整体准确率有所提高;当聚类类别数为5时,准确率提高最大(7.85%).TDQO算法在各个类别上的准确率均大大高于QPSO算法的准确率,这证明了不同的词性对于文本聚类的贡献度是有影响的.从整体上来看,当聚类类别从3开始,聚类效果呈上升趋势,当类别数超过5 时,普遍的呈下降趋势.所以聚类 k值为 5 时,聚类准确率达到最高.此时,将k设定5作为不变量,测试用三种不同方法在不同特征维度中的聚类效果.具体实验数据如图3-图5所示.图3 TF-IDF 算法在各维度上聚类效果从图3和图4可以看出共同点:在低特征维度上聚类分布改善不明显,在高特征维度上,聚类分布效果较好.区别在于 TF-IDF 算法在[1500,1800]高维度区间上的聚类效果要好于QPSO算法,而QPSO算法在[600,1000]区间上展现了较好的聚类效果. 从图5得出结论:随着特征维数的增大,聚类分布显著.与图3和图4比较来看,TDQO算法在[200,1800]区间的聚类分布依然表现出良好的聚类效果.本文提出的TDQO算法一方面提高聚类准确率,另一方面在不同特征维度也展现了较好的聚类效果,同时具有更广泛的应用范围.图4 QPSO 算法在各维度上聚类效果图5 TDQO 算法在各维度上聚类效果5 结束语目前短文本在特征权重计算的方法上很大程度上仍按照长文本的特征计算方法,然而短文本在特征属性上更具有贡献度,传统的方法会降低其准确率.本文在现有的特征权重计算方法的基础上,提出了TDQO算法[18].该算法引入某种词性作为特征出现时的概率,并将粒子作为特征在迭代中寻找最优权重配比.实验表明该算法在聚类中准确率有所提高,因此也证明了词性权重对于聚类结果是有影响的.另外,对于聚类类别k值的选取也会对实验结果有所影响.对于本文的算法依然还存在改进的地方,可以在实验的不同环节或者算法内部提高效率.参考文献【相关文献】1 Reineking T.Active classification using belief functions and information gain maximization. International Journal of Approximate Reasoning,2016,(72):43 –54.[doi:10.1016/j.ijar.2015.12.005]2 Rempala GA,Wesolowski J.Double asymptotics for the chisquare statistic.Statistics&Probability Letters,2016,(119):317–325.3 Zhong RX,Fu KY,Sumalee A,et al.A cross-entropy method and probabilistic sensitivity analysis framework for calibrating microscopic traffic models. Transportation Research Part C:Emerging Technologies,2016,(63):147 –169.[doi:10.1016/j.trc.2015.12.006]4 李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法.计算机工程,2011,37(1):16–18.5 杜坤,刘怀亮,郭路杰.结合复杂网络的特征权重改进算法研究.现代图书情报技术,2015,31(11):26–32.[doi:10.11925/infotech.1003-3513.2015.11.05]6 lbrahim A,Cowell PE,Varley RA.Word frequency predicts translation asymmetry.Journal of Memory and Language,2017,(95):49–67.[doi:10.1016/j.jml.2017.02.001]7 Kao CY.The effects of stimulus words ’ positions and properties on response words and creativity performance in the tasks of analogical sentence completion.Learning and Individual Differences,2016,(50):114–121.[doi:10.1016/j.lindif.2016.07.015]8 李欣蓬.双维度特征关系和特征位置对类别学习的影响[硕士学位论文].天津:天津师范大学,2009.9 黄文涛,徐凌宇,李严,等.基于柔性区间的多文本融合提取方法.计算机工程,2007,33(24):217–219.[doi:10.3969/j.issn.1000-3428.2007.24.076]10 吴光远,何丕廉,曹桂宏,等.基于向量空间模型的词共现研究及其在文本分类中的应用.计算机应用,2003,23(S1):138–140.11 许建潮,胡明.中文Web文本的特征获取与分类.计算机工程,2005,31(8):24–25,39.12 于海燕,陆慧娟,郑文斌.情感分类中基于词性嵌入的特征权重计算方法.计算机工程与应用,2016,53(22):121–125.13 Wang G,Zhang Z,Sun JS,et al.POS-RS:A random subspace method for sentiment classification based on partof-speech rmation Processing&Management,2015,51(4):458–479.14 李英.基于词性选择的文本预处理方法研究.情报科学,2009,27(5):717–719,738.15 Sun J,Xu WB,Feng B.A global search strategy of quantumbehaved particle swarm optimization.Proceedings of 2004 IEEE Conference on Cybernetics and Intelligent Systems.Singapore,Singapore.2004.111–115.16 Li R,Tao X,Tang L,et ing maximum entropy model for Chinese text categorization. Journal of Computer Research &Development,2005,42(1):578–587.17 常鹏,马辉.高效的短文本主题词抽取方法.计算机工程与应用,2011,47(20):126–128,154.[doi:10.3778/j.issn.1002-8331.2011.20.036]18 奚茂龙,盛歆漪,孙俊.基于多维问题的交叉算子量子粒子群优化算法.计算机应用,2015,35(3):680–684.[doi:10.11772/j.issn.1001-9081.2015.03.680]。

基于中文短信文本聚类的热点事件发现

基于中文短信文本聚类的热点事件发现刘金岭;王新功【摘要】With the rapid development of telecommunication industry, SMS text such as query logs and SMS text messages play an in-creasingly important role in our daily life, and there are hidden hot events in large size class of Chinese SMS text. Most existing clustering methods are hardto be applied in dealing with this kind of information due to the huge scale of data. Using SMS text cohesion in a given time period, the clustering of SMS text is sorted and isolated information and small set SMS text are removed in the clustering process. The experiments show that the clustering efficiency of the large size class for mass SMS text is very high.% 随着通信事业的快速发展，短信文本信息量非常巨大，乃至亿级，同时大类别短信文本中隐含着热点事件。

现有聚类算法对海量短信文本进行聚类分析显得力不从心。

利用短信文本在给定时间段中的内聚性，对待聚类的短信文本进行排序，并在聚类过程中清除孤立信息和小类别短信文本。

实验表明，对于海量短信文本的大类别聚类效率是非常高的。

一种适用于短消息文本的聚类算法

吴勇，徐峰
（南机电职业技术学院信息工程系，南长沙４０５）湖湖１１１
摘要：针对短消息文本聚类，设计基于频繁词集和Ａｔｒｅ的混合聚类方法。该算法利用基于频繁词集聚类算法处理文ｎ．ｅＴ
本数据的效率优势，生成初始聚簇，算轮廓系数消除重叠文档，计在此基础上再通过Ａｔｒｎ— ｅＴｅ算法继续精化，最终得到高
质量的结果输出。而且聚类结果保留了描述信息和树状层级结构，提供了更广阔的应用。
关键词：频繁词集；ｎ—ｒｅ法；Ａｔｅ算Ｔ轮廓系数；短消息；聚类
中图分类号：Ｐ０．Ｔ３１６文献标识码：Ａｄｉ１．９９ｊｉｎ１０ — ７．０２０．０ｏ：０３６／．ｓ．０６２５２１．２０９ｓ４
海量的短消息数据。这些数据蕴含着大量有价值的信息，这些数据的挖掘应用的重要性日趋显著。对
本文结合频繁词集挖掘算法和Ａｔｒｅ聚类算ｎ— ｅＴ法，引进轮廓系数，计适合短文本混合聚类算法设
ｃｕｔｒｇｒｄｃｓｔｅｉｉａｓｒｈｎｅｉｎｔｓｔｅｏｅｐｔｘｏｕｎｓｂａｃｌｔｇｓｈｕｔｏｆｃｅｔＦｒｅｌｓｅｉ，ｐｏｕｅｈｎｔｌｄｕｔ，ｔｅｌｎｉｅｍｉａｅｈｖｄａｅｔｄｃｍｅｔｙｃｕａｉｉｏｅｔｃｅｉｉｎ．ｕｔｒｌｎｌｅｈ

基于“文本对齐”进行短文本过滤算法的研究

｛ｃｈａｒｓｔｒｌ【２５６］，ｓｔｒ２１２５６］；
ｃｏｎｓｔｃｈａｒｒｅｐｌａｃｅｓｔｒ，ｓｅａｒｃｈｓｔｒ；ｃｈａｒｐｌ，ｐ２，ｐ３；
好的提升，本文提出了一种“ 文本对齐 ” 算法思想。编辑距离算法核心是基于字符序列比对的计算方法，算法本身对一些停用词和文本噪声比较敏感。在数据收集阶段，采用了清华同方（知网）公司开发的Ｋｓｐｉｄｅｒ短文本采集系统采集ＢＢＳ帖子数据，并存放到Ｋｂａｓｅ数据库中。这些大批量的数据中不乏一些ｈｔｍｌ页面显示格式控制信息，在存放到数
码描述如下：
ｃｈａｒｐ４１２５６］＝ ” ＼０ ” ：
ｕｎｓｉｇｎｅｄｉｎｔｆｓｌｅｎ，ｉｌ，ｉ２，ｉ３；／／ｆｓｌｅｎ为待查找串的长度；ｓｔｒｃｐｙ（ｓｔｒｌ，ｔｅｘｔ）；／／用ｓｔｒｌ暂时存放要处理的文本；
ｆｏｒ（ｉｎｔｉ＝０；ｉ＜ＮＯＯＦＲＥＣＯＲＤ；ｉ＋＋）；｛ｓｅａｒｃｈｓｔ￣Ｓｙｎｏｎｙｍｙ［ｉ］．ｖａｒｉａｔｉｏｎ；／／先临时保存同义词词
库的第ｉ个词条的两个字段；
２０１３年第９期
（总第１３１期）
信息通信
ＩＮＦ０ＲＭＡＴＩＯＮ＆Ｃ０ＭＭＵＮＩＣＡＴｕｍ．Ｎｏ１３１）

stc算子法的案例

STC算法案例分析1. 背景STC（Short Text Clustering，短文本聚类）算法是一种用于处理短文本聚类问题的算法。

在实际应用中，短文本数据普遍存在，例如电子邮件的标题、社交媒体的评论等。

由于短文本的语义表达较为简洁，常常缺乏足够的信息来支持传统的聚类算法，因此传统的聚类算法在处理短文本数据时效果不佳。

STC算法针对短文本数据的特点，采用了一种基于语义主题的聚类思想，通过挖掘短文本之间的概念相似度实现聚类。

2. 案例2.1 案例背景某电商公司拥有大量的用户评论数据，这些评论都是短文本，该公司希望对这些评论进行聚类，以便进一步分析用户的意见和情感倾向。

由于评论数据的特点，传统的聚类算法无法满足要求，因此该公司决定采用STC算法进行短文本聚类分析。

2.2 过程描述STC算法的过程主要包括以下几个步骤：步骤1：预处理对评论数据进行预处理，包括去除停用词、进行词干化等操作，以减小词袋模型的维度。

步骤2：构建词袋模型将预处理后的评论数据转换为词向量表示，构建词袋模型。

步骤3：计算词语相似度计算词袋模型中每个词语之间的相似度，可使用TF-IDF、Word2Vec等方法计算词语相似度。

步骤4：计算文本相似度根据词语相似度计算文本相似度，考虑文本中词语之间的相似度和共现关系。

步骤5：构建相似度矩阵根据文本相似度计算得到的相似度，构建相似度矩阵。

步骤6：聚类分析使用聚类算法对相似度矩阵进行聚类分析，根据相似度矩阵中的相似度信息将文本分为若干个类别。

2.3 结果展示经过STC算法的处理，最终得到了用户评论的聚类结果。

下面是某个具体类别的评论示例：类别1：商品质量•“这个商品真的太糟糕了，质量不行，不值得购买！”•“非常满意这个商品的质量，做工精细，物美价廉！”•“商品质量一般般，不怎么样，性价比不高。

”通过对用户评论进行聚类，可以发现该类别下的评论主要围绕商品质量展开，用户对商品质量有着不同的评价。

短文本聚类算法研究

１．短文本聚类
１．１文本聚类方法
文本聚类是指将文档集合分组成为由类似的文档组成的多个类（簇）的过程。由聚类产生的簇是文档的集合，同簇中的对象彼此相似，不同簇中的对象彼此相异与分类不同的是．聚类方法要划分的类是未知的，也就是说聚类是一种无指导的学习方法。文本聚类作为文本挖掘的一项基本技术，己经在文本内容分析、信息检索等领域获得了３．基于密度的短文本聚类广泛的应用。由于聚类的重要性，人们对聚类方法进行了广泛的研究，提出了很多算法３．１基本的密度聚类方法聚类方法可以分成五个类别：划分的方法。层次的方法，基于密度基本的密度聚类方法将具有足够高密度的区域划分为簇．能够在的方法。基于网格的方法．基于模型的方法。另外有的方法是上述多个带有噪声的文本数据库中发现任意形状的簇。方法的综合运用。尽管这些方法不是专门为文本聚类设计的，但他们基本的密度聚类方法在以下两个方面存在问题：都可用于文本聚类（１）低相似性问题。在高维、稀疏的样本空间中（如我们所针对的海１．２短文本聚类面临的挑战量短文），大多数样本之间的相似度是很低的。在相似度很低的情况下，短文本聚类是指对短文本文档进行聚类．如用户转发、评论、关注个样本的最临近样本未必就是和它属于相同的簇ｆ２）密度的相对性问题。不同的簇可能有不同的密度特性，距离近等文本的聚类于传统的聚类相比．短文本聚类面临以下挑战：银河系中（１）短文本数据的高维和稀疏问题。通常数据库中会有超过一万的的样本未必就适合划分到相同的簇中一个直观的例子是，常用词，而每个短文中包含的词有很少聚类算法必须能够处理高维的恒星比太阳系中的行星更适合划分到一个簇中，尽管太阳系的行星之间的距离更近和稀疏的文本数据解决上述问题的关键思路是在定义样本之间的相似性时考虑其（２１数据规模问题。例如在我们的应用需求中需要处理上百ＧＢ的数ＳｈａｒｅｄＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ。据。通常的聚类算法在处理这样的海量数据时都变得低效甚至根本无所处的环境．基于这种思路定义共享近邻（ＮＮ）相似度。ＳＮＮ相似度弥补了传统相似度的一些缺陷。在低相似的法运行。海量短文本数据库中的聚类算法必须具备良好的可伸缩性。Ｓ一个点的邻进点可能和它并不属于相同的簇．但如果使（３）簇的表示和理解问题。无论什么聚类方法产生的簇．都需要进样本区域中．ＮＮ相似度．两个结点间通常没有更多的共享邻居．因此它们的相行表示并交给用户去理解文本聚类要求聚类的结果必须对一般的用用ＳＮＮ相似度同样能够克服密度得相对性问题。户是可以理解的［８９１。通常的算法基于文档的相似性进行聚类，但很难似度变得比较低。Ｓ３．２短文本距离计算解释为什么某些文档会在一个簇中在有的应用中聚类以后再进行无论采用什么样的密度聚类方法．文档之间基本的距离计算仍是文本摘要来进行簇的表示我们不采用传统的基于向量空（４）短文本聚类的精确度问题。与文本分类应用相同．短文本中的聚类的关键问题。针对短文本的特点．而是采用基于知网的语义距离计算。关键词出现次数很少．这使得基于向量空间模型和词频统计的方法难间模型的欧式距离，３＿３并行化方法以得到可接受的准确度。使用基于语义的短文距离计算及基于ＳＮＮ的密度聚类方法提高从应用需求上来讲．短文本聚类一般可以有两种目的：一是得到ｋ个最大的类．如获取热门话题或新闻事件：二是获取那些最小的类了聚类的准确度，但同时也增加了聚类算法的计算复杂度。为了使算法能够适应海量数据．本文采取了并行化的方法。或孤立点，这在情报分析中有重要的价值。针对短文本挖掘领域的应用需求和面ｌ｛缶的挑战．本文提出两个聚算法并行化的基本思想是利用数据抽样和ＳＮＮ图的划分。首先类方法。一个是基于频繁词集的短文本聚类算法，另一个是基于密度对全局数据库进行抽样．随机抽取足够的样本并建立其ＳＮＮ相似度的短文本聚类算法图。设并行挖掘结点的数目为ｎ．则把ＳＮＮ相似度图划分成ｎ个子图，２．基于频繁词集的短文本聚类每个子图对应一个挖掘结点。进行数据划分时，根据短文和子图的语２．１基本聚类方法和簇的表示义距离把待聚类的短文划分到对应的挖掘结点。为了提高数据划分的目前已经有一些基于频繁词集的文本聚类算法是在ＦＴＳＤＣ的基效率．实际上并不是直接计算短文和完整的ＳＮＮ子图的语义距离．而础上改进而来ＦＴＳＤＣ的目标是发现无重叠的簇．也就是说每个文档是使用ＳＮＮ子图的概要图（概要图在图划分的时候生成）。这样的数据因为如果有很多新的只能属于一个簇。如果要发现可重叠的簇，对算法稍做修改即可。划分和并行聚类是牺牲了一定的聚类准确度的．ＦＩ＇ＳＤＣ的基本聚类算法分两个步骤：ｆ１）对于每个频繁词集。创建相应样本处于两个ＳＮＮ子图的边界．就会对整个ＳＮＮ图的结构产生影响。只要抽样的样本数量足够大，这个问题基本可以忽的簇，该簇包含了所有包含该频繁词集的文档：（２）对已划分的簇进行但在实际应用中．调整，去除重叠．把重叠的文档划分到最合适的簇中略不计。２．２并行化方法４．结论为了提高可伸缩性以适应海量数据．￣Ｉ＇ＳＤＣ进行了并行化处理，从实验结果来看，尽管两个算法的准确度超过了同类的其它算法，其体系结构包括一个控制结点和ｎ个挖掘结点并行化的方法基逻辑但准确度仍有待提高进一步提高准确度应该考虑更合理地使用语义数据划分思想。假设控制结点和挖掘结点处于一个服务器集群中，数信息和进一步改进算法。 ● 据库对于每个控制结点和挖掘结点都是可访问的。每个挖掘结点处理个逻辑分区．并不需要数据的移动。【参考文献】并行化的ＦｒＳＤＣ有三个步骤。（１）控制结点进行逻辑数据划分并［１］ＪｕｒｅＬｅｓｋｏｖｅｃＪｏｈｎＳｈａｗｅ — Ｔａｙｌｏｒ．ＳｅｍａｎｔｉｃＴｅｘｔＦｅａｔｕｒｅｓｆｒｏｍＳｍａｌｌＷｏｒｌｄ把频繁词集发送到各个挖掘结点。（２海个挖掘结点采用基本的ＦＴＳＤＣＧｒａｐｈｓ．Ｓｕｂｓｐａｃｅ，ＬａｔｅｎｔＳｔｒｕｃｔｕｒｅａｎｄＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎｔｅｃｈｎｉｑｕｅ：Ｓｔａｔｃａｌａｎｄ算法来聚类，处理所属分区上的重叠文档并去除重叠。（３）控制结点把ＯｐｔｉｍｉｚａｔｉｏｎｐｅｒｓｐｅｃｔｉｖｅｓＷｏｒｋｓｈｏｐ，２００５．

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ｔｈｓｐｐｒｒｖａｓ１ｅｌｎａｌｄｓｒｂｕｉｎｏｆｔｉｎｆｉｆｒａｉｉａｅｅｅｌｈｏｇｔｉｉｔｉｔｏｈｓｋｉｄｏｎｏｍｔｏｎ，ａｏｏｅｎｉｃｎｄｐｒｐｓｓａｎｏｍｐｌｔｌｓｅｉｇａｇｏｉｈ．ｅｅｃｕｔｒｎｌｒｔｍ
Ｔｈｅｅｐｅｉｅａｅｕｔｓｗｈａｈｏｐｅｅｈａｌｔｒｔｈｏｔｔｘｔｆｅｔｖｅｙａｆｃｅｔｙｘｒｍｎｔｌｒｓｌｓｈｏｔｔｔｅｐｒｏｓｄｍｔｏｄｃｎｃｕｓｅｈｅｓｒｅｓｅｆｃｉｌｎｄｅｆｉｉｎｌ．
Ｋｅｒｓ：ｓｒｅｔｙｗｏｄｈｏｔｔｘｓ；ｃｕｔｒｎｌｓｅｉｇ；ｉｃｍｐｌｔｌｓｅｉｇｎｏｅｅｃｕｔｒｎ
Ａｂｔａｔｓｒｃ：Ｃｌｓｅｉｇｉｎｕｎｓｐｅｖｓｄｃａｓｆｃｔｏｔｅｎ（ｓｒａｉｓ，ｄａａｉｅｓ，ｏｒｆａｔｒｅｔｓ）ｉｔｕｔｒｎｓａｕｒｉｅｌｓｉｉａｉｎｏｆｐａｔｒｓｏｂｅｖｔｏｎｔｔｍｅｕｅｖｃｏｒｎｏ
息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析，现了这类数据类别发
所具有的“ 长尾现象 ” 并由此提出了不完全聚类思想，以有效地提高这类短文本信息的聚类性能。，可关键词：短文本；类分析；完全聚类聚不
第２５卷第ｌ期
２ｌＯ１年１月
中文信息学报
Ｊ）（ＵＲＮＡＩＯＦＣＨＩＮＥＳＮＦＥＩＯＲＭＡＴ１０ＮＰＲＯＣＥＳＮＧＳＩ
Ｖ０１２５，Ｎｏ１．．
Ｊｎ，２ｌａ．０１
文章编号：１０ — ０７２１）卜０５６０３０７（０００４０１
中图分类号：ＴＰ３１９文献标识码：Ａ
ＩｃｍｐｅｅＣｌｓｅｉｇｆｒＬａｇｃｌｈｒｘｓｎｏｌｔｕｔｒｎｏｒｅＳａｅＳｏｔＴｅｔ
ＰＥＮＧｙｎ，ＹＵａｍｉｇＺｅｉｇＸｉｏｎ，ＸＵｎｂ，ＩＩＣｈｕｙｎＨｏｇｏＵｎａｇ（．Ｉｓｉｕｅｏｍｐｔｎｌｃｎｌｇ，Ｃｈｎｓａｅｆｃｅｃ，Ｂｉｎ０１０，Ｃｈｎ；１ｎｔｔｆｔＣｏｕｉｇ＇ｈｏｏｙｅｉｅｅＡｃｄｍｙｏｉｎｅｅｊｇ１０９Ｓｉｉａ
２．ＮａｉｎｌＣｍｐｔｒＮｅｗｏｋＥｍｅｇｎｙＲｅｐｎｅＴｅｈｉａＴｅｍ／ｏｄｎｔｎ（ｅｔｒｏｉａ，Ｂｉｎ００９ｔａｏｕｅｔｒｏｒｅｃｓｏｓｃｎｃｌａＣｏｒｉａｉ；ｎｅｆＣｈｎｏｅｊｇ１０２，Ｃｈｎ）ｉｉａ
ｇｒｐｓ（ｌｔｒ）Ｓｏｆｒｏｕｃｕｓｅｓ．ａ，ｍａｌｓｅｉｌｏｒｔｓｈｖｅｂｅｎｐｒｐｏｅｎｙｃｕｔｒｎｇａｇｉｈｍａｅｏｓｄ．Ｗｉｈｔａｄｄｖｅｏｔｈｅｒｐｉｅｌｐｍｅｎｅｎｅ，ｎｔｏｆｉｔｒｔｓｏｒｔｔｕｈａｈｔｅｘｓｓｃｓｑｕｅｙｌｓａｄＴｗｉｔｒｍｅｓｇｅａｏｅａｏｅｉｐｔｎｔｒｅｉｒｄａｌｉｅＭｏｔｅｒｏｇｎｔｅｓａｓｐｌｙａｍｒｎｄｍｒｍｏｒａｏｌｎｏｕｉｙｌｆ．ｓｘ— ｉｔｎｇｃｕｔｒｎｅｈｓａｅｈａｄｔｐｐｌｅｎｄａｉｔｈｉｎｄｏｆｉｏｍａｉｎｄｕｅｔｈｅｈｕｃｌｆｄａａｓｉｌｓｅｉｇｍｔｏｄｒｒＯｂｅａｉｄｉｅｌｎｇｗｉｈｔｓｋｉｎｆｒｔｏｏｔｇｅｓａｅｏｔ．
大规模短文本的不完全聚类
彭泽映俞晓明许洪波刘春阳。，，，
（．中国科学院计算技术研究所，京ｌ００；２１北０ｌ９．同家计算机网络应急技术处理协调中心，京１０２）北００９
摘
要：聚类分析是数据挖掘的一个重要手段，们可以通过聚类发现信息中潜在的热点或规律。至今，经有大人已
量聚类算法被研究和提出。随着互联网的日益普及，询日志、ｗｉｅ等短文本信息逐渐在人们生活中起着越来查Ｔｔｒｔ越重要的作用。这类短文本信息数量巨大，常可达到千万乃至亿级，有的聚类算法在对这类大规模短文本信通现