大规模短文本的不完全聚类
数据挖掘中的短文本聚类算法原理解析

数据挖掘中的短文本聚类算法原理解析数据挖掘是一门利用统计学、机器学习和人工智能等技术,从大量数据中发现有用信息的过程。
在数据挖掘的过程中,短文本聚类算法起到了重要的作用。
本文将对短文本聚类算法的原理进行解析。
一、短文本聚类算法的概述短文本聚类算法是一种将短文本数据分组的技术。
短文本通常指的是长度较短的文本,例如微博、短信等。
由于短文本的特点是信息量少、语义模糊,传统的文本聚类算法在处理短文本时往往效果不佳。
因此,短文本聚类算法应运而生。
二、短文本聚类算法的常用方法1. 基于词频的方法基于词频的短文本聚类算法是最简单的方法之一。
该方法首先对短文本进行分词,然后统计每个词在文本中出现的频率。
接着,根据词频的相似度进行聚类。
这种方法的优点是简单直观,但是忽略了词的语义信息。
2. 基于词向量的方法基于词向量的短文本聚类算法是目前应用较广泛的方法之一。
该方法利用词向量模型(如Word2Vec)将词转换为向量表示,然后根据向量的相似度进行聚类。
这种方法考虑了词的语义信息,能够更好地处理短文本数据。
3. 基于主题模型的方法基于主题模型的短文本聚类算法是一种将短文本转化为主题表示的方法。
主题模型是一种用于从文本中发现主题的统计模型,例如Latent Dirichlet Allocation (LDA)。
该方法将短文本表示为主题分布,然后根据主题分布的相似度进行聚类。
这种方法能够更好地挖掘短文本的语义信息。
三、短文本聚类算法的应用短文本聚类算法在各个领域都有广泛的应用。
例如,在社交媒体分析中,可以利用短文本聚类算法对大量的微博进行分类,从而了解用户的兴趣和情感。
在新闻推荐系统中,可以利用短文本聚类算法对新闻进行分类,从而为用户提供个性化的推荐。
在舆情分析中,可以利用短文本聚类算法对大量的评论进行聚类,从而了解用户对某一事件的态度和情感。
四、短文本聚类算法的挑战与改进短文本聚类算法面临着一些挑战,例如数据稀疏性、语义模糊性等。
一种适用于短消息文本的聚类算法

一种适用于短消息文本的聚类算法吴勇;徐峰【期刊名称】《计算机与现代化》【年(卷),期】2012(0)2【摘要】针对短消息文本聚类,设计基于频繁词集和Ant-Tree的混合聚类方法.该算法利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇,计算轮廓系数消除重叠文档,在此基础上再通过Ant-Tree算法继续精化,最终得到高质量的结果输出.而且聚类结果保留了描述信息和树状层级结构,提供了更广阔的应用.%As to short message text clustering, this paper designs a hybrid clustering algorithm combining by frequent term-sets and Ant-Tree algorithm. This algorithm takes the advantage of efficiency of processing text data based on the frequent term-sets clustering, produces the initial cluster, then eliminates the overlap text documents by calculating silhouette coefficient. Further refines the cluster by Ant-Tree. Thus gets the high quality clustering results. And the results that retain the description and tree structure can provide wider applications.【总页数】4页(P31-34)【作者】吴勇;徐峰【作者单位】湖南机电职业技术学院信息工程系,湖南长沙 410151;湖南机电职业技术学院信息工程系,湖南长沙 410151【正文语种】中文【中图分类】TP301.6【相关文献】1.一种适用于不规则分布数据的混合聚类算法 [J], 马志民;陈汉武;张军2.一种适用于高维非线性特征数据的聚类算法及应用 [J], 姜洪权;王岗;高建民;高智勇;高瑞琪;郭旗3.DENGENE:一种高精度的基于密度的适用于基因表达数据的聚类算法 [J], 孙亮;赵芳;王永吉4.一种适用于混合型分类数据的聚类算法 [J], 林强;唐加山5.适用于大规模文本处理的动态密度聚类算法 [J], 李霞;蒋盛益;张倩生;朱靖因版权原因,仅展示原文概要,查看原文内容请购买。
基于词性特征的特征权重计算方法

基于词性特征的特征权重计算方法胡雯雯;高俊波;施志伟;刘志远【摘要】Because of the sparse and dynamic crisscross characteristics, the short text makes the weight of traditional weighted method difficult to use effectively. This paper presents a new feature weight calculation algorithm based on part of speech. This algorithm is the quantum particle swarm optimization algorithm introduced into translation decision model which can calculate the probability of a feature with certain part of speech. Then it is tested by the text clustering algorithm. The test results show that the improved feature weight calculation algorithm on the clustering accuracy is better than TF-IDF and QPSO algorithm.%短文本因其具有特征稀疏、动态交错等特点,令传统的权重加权计算方法难以得到有效使用.本文通过引入翻译决策模型,将某种词性出现的概率作为特征,提出一种新的基于词性特征的特征权重计算方法,并用文本聚类算法进行测试.测试结果表明:与TF-IDF、QPSO两种权重计算算法相比,改进的特征权重计算算法取得更好的聚类效果.【期刊名称】《计算机系统应用》【年(卷),期】2018(027)001【总页数】6页(P92-97)【关键词】翻译决策模型;TDQO算法;词性;聚类【作者】胡雯雯;高俊波;施志伟;刘志远【作者单位】上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306;上海海事大学信息工程学院, 上海 201306【正文语种】中文1 引言面对大规模短文本形式的数据,快速并准确地获取所需的关键信息以及提高聚类的效率、准确率一直都是人们关注的重点.但短文本固有的特点,使得传统的特征权重计算方法无法准确计算.因此,学者们采用不同的方法去解决这一缺陷,总体分为三个方面,一用特征子集评价方法从特征空间上改进,包括信息增益[1]、卡方检验(CHI-sqare,CHI)[2]、期望交叉熵(Expected Cross Entropy,ECE)[3]等,这些评价算法在给定阈值的情况下,通过计算文本集中每个特征项的权重值,选择特征项的权重值大于阈值的特征加入特征子集或选择权重值最大的特征项子集直到满足特征子集大小阈值.例如李凯齐,刁兴春等[4]提出一种改进的特征权重计算方法,通过引入信息论中信息增益的概念,实现对短文本特征分布具体维度的综合考虑,克服传统公式存在的不足.实验结果表明,改进后的特征权重计算算法在计算特征权重时更加有效.二在搜索空间策略上进行改进,包括顺序选择算法、遗传算法、粒子群算法等,这些算法通过搜索叠加的方式在实现特征空间降维的同时提高算法自身的准确率.例如杜坤,刘怀亮等[5]考虑特征项间的语义关联构造复杂网络并进行特征选择,定义类别相关系数并结合特征选择结果,提出一种改进的特征权重计算方法,并进行中文文本分类实验.实验结果表明,改进后的算法较TFIDF算法有更好的分类效果.三从特征属性上进行改进,包括词频[6]、特征在文本中的位置[7]、词共现分析等,以上特征属性作为影响因子加入实验中.例如李欣蓬等[8],提出双维度特征关系和特征位置对类别学习的影响,实验结果反映了词性对于特征权重的积极影响.多种实验表明从特征属性上改进特征权重要优于其他两种方法[9-11].其中于海燕等[12]提出一种基于词性嵌入的特征权重计算方法,从词性对情感分类的贡献度嵌入到 TF-IDF 算法中.Gang Wang,Zhu Zhang 等[13]提出基于词性情绪分类的PSO-RS算法,实验表明POS-RS情绪分类可以作为一个可行的方法,有可能被成功地应用于其他文本分类问题.这些研究表明词性对于特征权重上的改进能够提高后续验证实验的准确率,对于本文的研究有重大意义.本文从词性属性出发,提出一种新的基于词性特征的特征权重计算算法(Translation Decision Model Of Quantum-behaved Particle Swarm Optimization,TDQO).在特征选择阶段中将词性引入到翻译决策模型(Translation Decision Model,TD)中,以改进后的TDQO 算法对聚类的效率与准确性进行改善.2 传统的特征权重计算方法传统的特征权重计算方法有很多,例如TF算法、TF-IDF算法、PageRank算法等等.其中TF算法仅从文本词频的角度考虑,一方面考虑到了高词频所带来的高权重,另一方面却暴露其大量无意义词所产生的高冗余、高复杂度等缺点.另外PageRank算法是根据网页中的超链接链入的网页数来判断某个网页是否重要.本文语料为文本数据,为了使初始化的特征权重有较好的可信度,本文在计算初始权重计算方法上选择TF-IDF算法.2.1 TF-IDF算法TF-IDF算法在计算特征权重时考虑三点:词频(tf)、反文档频率(idf)以及归一化(normalization).其中词频tf表示特征在该文档中出现的频率;反文档频率表示特征在各个文档中的区分能力;归一化(normalization)用来防止偏向长文档.考虑三个条件,TF-IDF公式可以表示如下:其中tf(tk,di)表示特征tk在文档di中出现的频率.N表示为文档总数.m表示文档中的特征数.nk表示包含特征tk的文档数.2.2 TF-IDF算法的缺陷TFIDF认为一个特征出现的文档频率越小,则区分类别文档的能力越大.逆文本频度IDF在一定程度上抑制无意义特征,但在另一方面重要特征的凸显也造成无意义标注.而TFIDF的计算为IDF对于TF的权重调整,IDF本身无法有效区分重要特征及无意义特征分布,使得TFIDF计算特征权重的精度并不是很高.举例说明该算法的不足.假设总文档量为100篇.在 2000 特征词的文档中“亲情”,“友情”,“的”,“魅力”分别出现 30,90,100,5 次,“亲情”出现在 20 篇文档中,“友情”出现在90篇文档中,“的”出现在100篇文档中,“魅力”出现在 5 篇文档中.在其 TF,IDF,TF-IDF 数据如表1.从表1可以分析出“友情”与“的”权重最低,但是却表示两个极端,“的”对于特征来说是无意义的特征,只会增加特征冗余,而“友情”却是每篇文档的主题词,经文本聚类可以将文档归为一类.由此可见TF-IDF算法在特征的重要程度上无法准确判断.表1 特征在 TF,IDF,TF-IDF 上的表现特征 TF IDF TF-IDF亲情 0.015 0.6980.01047友情 0.045 0.0458 0.002061的0.05 0 0魅力 0.0025 1.301 0.003275 3 TDQO 特征权重改进算法TDQO算法在TF-IDF算法的基础上引入词性加权权重(TDF)以及特征词作为某种词性出现概率(PF),由此改进TF-IDF算法.其中TDF加权了词性特征权重,例如在文本中名词相对于动词、形容词更能代表一篇文档的主题特征,对于词性加权有效权衡了词性所带来的权重影响.而PF有效抑制大量某一种词性权重影响.3.1 词性加权权重词性加权公式如下:其中n为特征作为粒子的总群数,xi表示第i个特征粒子,j={1,2,3}表示某种词性.3.2 特征作为某种词性概率特征词为某种词性概率公式如下:其中tj表示特征t出现的词性特征.3.3 TDQO算法大多数的短文本在文本预处理阶段,通过词性筛选,保留下所需要的词性,李英[14]提出基于词性的特征预处理方法,在文本预处理环节过滤掉副词、叹词等贡献度很小的词性,只保留对分类贡献较大的名词、动词、缩略词等,实验证明这一方法有效的降低了文本空间的特征维度.特征权重计算为特征空间中的文本向量的每一维确定合适的数值,以表达对应特征在文本的重要程度.特征ti在文本di中的权重表示为wi,j=w(ti, di),文本 di 的权重向量表示为 wj=w(dj).在特征选择算法之后进行词性筛选,只保留名词、动词、形容词.一方面更好地通过词性将词频中较高的干扰词性过滤掉,另一方面可以通过观察哪些词性的词本身虽不具有特征属性,但对权重产生影响,比如标题中一些权重较高的词.本文在不同词性上进行不同程度的加权,得出一种基于词性的权重计算方法公式如下:其中PF*TDF表示为特征t在改进后的量子粒子群优化算法的最优词性加权总值.3.3.1 TDQO 算法流程TDQO算法在量子粒子群算法的基础上引入TD模型,它的范围搜索能力极大高于一般QPSO算法.以下介绍TDQO算法具体实现过程.(1)初始化粒子速度与位置.图1模块①为TDF的计算通过迭代不断判断局部极值pBest和全局极值gBest[15]来更新自己的速度及位置,最终找到最优解.粒子根据公式(5)(6)来优化自己的速度和位置,公式(7)为词性加权权重,即TDF.其中,i表示第 i个粒子,j为粒子的第 i维,t为进化代数,C1,C2 为加速方向常数,r1,r2 为[0,1]上均匀分布的随机数.(2)以 (0,1)随机函数赋值 Xi,并将其作为初始特征权重,Vi=2.0,初始化每个粒子,使用k-means 聚类算法,计算聚类准确率作为粒子的适应度值.粒子在迭代过程中,当前位置的适应度值大于局部或全局最优解的适应度值,则更新为粒子当前位置,否则继续迭代,最终输出计算的词性加权权重.(3)建立翻译决策模型,将每个特征作为粒子,并标注词性及对应的布尔值.图1模块②中TDQO算法中建立的TD模型是最大熵[16]模型的分支模型,也是PF计算的过程.其中TD模型函数的建立用来计算PF值,即特征作为某种词性出现概率.其公式如下:其中λi初始化为 0,fi(x,y)表示定义的特征函数,x 表示特征,y表示对应词性. (4)计算当前模型分布期望,计算最优估计,最终得到粒子作为词性权重的加权权重. TDQO算法流程图如图1.4 实验与分析使用爬虫工具在豆瓣小说上获取22篇小说书评,共计 24 450 条评论.经预处理剩有17 765 个词,通过TF-IDF计算初始权重,并设置阈值为0.01,过滤大量冗余特征.此时剩有2215个词作为后续对比实验的初始特征集,根据建模需要,需再次对词性进行降维,只保留名词、动词、形容词,最终特征选择的词剩有1816个.为了验证词性对文本的贡献度有助于提高聚类的准确率,本文通过TF-IDF算法、QPSO算法、TDQO算法进行对比实验.其中TF-IDF方法得到特征向量并直接进行聚类输出;QPSO算法中不标记词性,通过粒子迭代得到最优加权权重,其中粒子个数为39 952个,迭代次数为100次,得到未加权词性的特征权重,进而进行聚类输出;TDQO算法实验在QPSO算法实验的基础上,引入TD模型,加权计算特征作为某种词性出现的概率并聚类输出.实验环境为Windows 8 操作系统,2 GB 内存,利用 MATLAB 及 PYTHON 开发.图1 TDQO 算法流程图输入:TF-IDF算法权重数据标记粒子词性,粒子总数输出:改进后的特征权重加权,改进前后的F值(1)使用中国科学院计算技术研究所ICTCLAS2014分词器对原始语料进行分词处理;(2)使用TF-IDF算法对词频进行排序,选取词频在0.01以上的词作为新的特征集;此处是避免大量的非有效特征增加特征冗余;(3)对新的特征集进行词性筛选,只保留名词、动词、形容词;(4)引入TD模型的量子粒子群优化算法.通过TD模型建模函数得到特征作为词性出现的概率加权到粒子迭代中,当前位置的适应度值大于局部或全局最优解的适应度值,则更新为粒子当前位置,否则继续迭代,最终输出计算的词性最优加权权重;(5)将得到的加权后的数据经k-means聚类,通过修改k值,在不同类别中使用三种方法进行实验并得出结论.4.1 实验数据分析为验证提出方法的有效性,将TF-IDF算法、QPSO算法及TDQO算法三种方法进行聚类实验,以检验它们在文本挖掘中的表现.实验采用聚类领域常用的F-measure 作为指标来评价文档聚类方法的效果.F-measure[17]是一种结合了precision和recall的聚类评价指标.F-measure 的取值范围为[0,1].对应的检索粒子分布表如表2.表2 检测粒子分布相关不相关检索到的粒子 A B未检索到的粒子 C D在翻译决策模型建模中,将特征转化成随机粒子.根据文档粒子采用分散规则赋值,转化的粒子共39952个,与之相对应产生39952个初始权重,相同的特征在分散文档中的权重也会有所不同,因而在建模过程中,特征用集中的权重表示,并用TRUE和FALSE 标注.TRUE 的情况以二进制 1 代表,FALSE的情况以二进制0代表,粒子词性特征以三维向量表示,并转化成相应十进制,取值为 rand(2,4,6),同时量子粒子群算法仍然使用分散初始权重生成向量作为输入.初始化粒子速度与位置同步进行,设置位置xi=(0,1),速度 vi=2.0,迭代次数 MAXGEN=100,加速常数 C1,C2均为2.0. 为了验证在引入翻译决策模型的量子粒子群优化算法对聚类的准确度,将三种方法计算出特征权重构造特征向量,并进行聚类上的评价比较.其中聚类类别k=[3,7],实验数据 recall值及 F 值上的比较如表3、表4所示.表3 三种权重计算方法在聚类上 recall比较聚类类别实验方法TF-IDF算法QPSO算法 TDQO算法3 0.4286 0.5 0.6 4 0.5 0.5714 0.6667 5 0.5556 0.625 0.7143 6 0.5455 0.6 0.6667 7 0.5385 0.5833 0.6364表3、表4中的3种实验算法在聚类指标recall值及F-measure值上均表现出无论k取何值,TDQO算法始终要优于前两种算法.根据评价标准F值绘制成折线图如图2所示.表4 三种权重计算方法在聚类上 F-measure 比较实验方法聚类类别 TF-IDF算法QPSO算法 TDQO算法3 0.4615 0.5455 0.6667 4 0.5333 0.6154 0.7273 5 0.5882 0.6667 0.7692 6 0.5714 0.6316 0.7059 7 0.56 0.6087 0.6667图2 三种权重计算方法在F值走势图从图2折线趋势图可以明显看出,使用QPSO算法提高了聚类准确率,而本文提出的TDQO算法更加有效地提高了聚类准确率.当类别越大或越小时,QPSO算法准确率虽然与TF-IDF算法准确率很接近,但是整体准确率有所提高;当聚类类别数为5时,准确率提高最大(7.85%).TDQO算法在各个类别上的准确率均大大高于QPSO算法的准确率,这证明了不同的词性对于文本聚类的贡献度是有影响的.从整体上来看,当聚类类别从3开始,聚类效果呈上升趋势,当类别数超过5 时,普遍的呈下降趋势.所以聚类 k值为 5 时,聚类准确率达到最高.此时,将k设定5作为不变量,测试用三种不同方法在不同特征维度中的聚类效果.具体实验数据如图3-图5所示.图3 TF-IDF 算法在各维度上聚类效果从图3和图4可以看出共同点:在低特征维度上聚类分布改善不明显,在高特征维度上,聚类分布效果较好.区别在于 TF-IDF 算法在[1500,1800]高维度区间上的聚类效果要好于QPSO算法,而QPSO算法在[600,1000]区间上展现了较好的聚类效果. 从图5得出结论:随着特征维数的增大,聚类分布显著.与图3和图4比较来看,TDQO算法在[200,1800]区间的聚类分布依然表现出良好的聚类效果.本文提出的TDQO算法一方面提高聚类准确率,另一方面在不同特征维度也展现了较好的聚类效果,同时具有更广泛的应用范围.图4 QPSO 算法在各维度上聚类效果图5 TDQO 算法在各维度上聚类效果5 结束语目前短文本在特征权重计算的方法上很大程度上仍按照长文本的特征计算方法,然而短文本在特征属性上更具有贡献度,传统的方法会降低其准确率.本文在现有的特征权重计算方法的基础上,提出了TDQO算法[18].该算法引入某种词性作为特征出现时的概率,并将粒子作为特征在迭代中寻找最优权重配比.实验表明该算法在聚类中准确率有所提高,因此也证明了词性权重对于聚类结果是有影响的.另外,对于聚类类别k值的选取也会对实验结果有所影响.对于本文的算法依然还存在改进的地方,可以在实验的不同环节或者算法内部提高效率.参考文献【相关文献】1 Reineking T.Active classification using belief functions and information gain maximization. International Journal of Approximate Reasoning,2016,(72):43 –54.[doi:10.1016/j.ijar.2015.12.005]2 Rempala GA,Wesolowski J.Double asymptotics for the chisquare statistic.Statistics&Probability Letters,2016,(119):317–325.3 Zhong RX,Fu KY,Sumalee A,et al.A cross-entropy method and probabilistic sensitivity analysis framework for calibrating microscopic traffic models. Transportation Research Part C:Emerging Technologies,2016,(63):147 –169.[doi:10.1016/j.trc.2015.12.006]4 李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法.计算机工程,2011,37(1):16–18.5 杜坤,刘怀亮,郭路杰.结合复杂网络的特征权重改进算法研究.现代图书情报技术,2015,31(11):26–32.[doi:10.11925/infotech.1003-3513.2015.11.05]6 lbrahim A,Cowell PE,Varley RA.Word frequency predicts translation asymmetry.Journal of Memory and Language,2017,(95):49–67.[doi:10.1016/j.jml.2017.02.001]7 Kao CY.The effects of stimulus words ’ positions and properties on response words and creativity performance in the tasks of analogical sentence completion.Learning and Individual Differences,2016,(50):114–121.[doi:10.1016/j.lindif.2016.07.015]8 李欣蓬.双维度特征关系和特征位置对类别学习的影响[硕士学位论文].天津:天津师范大学,2009.9 黄文涛,徐凌宇,李严,等.基于柔性区间的多文本融合提取方法.计算机工程,2007,33(24):217–219.[doi:10.3969/j.issn.1000-3428.2007.24.076]10 吴光远,何丕廉,曹桂宏,等.基于向量空间模型的词共现研究及其在文本分类中的应用.计算机应用,2003,23(S1):138–140.11 许建潮,胡明.中文Web文本的特征获取与分类.计算机工程,2005,31(8):24–25,39.12 于海燕,陆慧娟,郑文斌.情感分类中基于词性嵌入的特征权重计算方法.计算机工程与应用,2016,53(22):121–125.13 Wang G,Zhang Z,Sun JS,et al.POS-RS:A random subspace method for sentiment classification based on partof-speech rmation Processing&Management,2015,51(4):458–479.14 李英.基于词性选择的文本预处理方法研究.情报科学,2009,27(5):717–719,738.15 Sun J,Xu WB,Feng B.A global search strategy of quantumbehaved particle swarm optimization.Proceedings of 2004 IEEE Conference on Cybernetics and Intelligent Systems.Singapore,Singapore.2004.111–115.16 Li R,Tao X,Tang L,et ing maximum entropy model for Chinese text categorization. Journal of Computer Research &Development,2005,42(1):578–587.17 常鹏,马辉.高效的短文本主题词抽取方法.计算机工程与应用,2011,47(20):126–128,154.[doi:10.3778/j.issn.1002-8331.2011.20.036]18 奚茂龙,盛歆漪,孙俊.基于多维问题的交叉算子量子粒子群优化算法.计算机应用,2015,35(3):680–684.[doi:10.11772/j.issn.1001-9081.2015.03.680]。
基于中文短信文本聚类的热点事件发现

基于中文短信文本聚类的热点事件发现刘金岭;王新功【摘要】With the rapid development of telecommunication industry, SMS text such as query logs and SMS text messages play an in-creasingly important role in our daily life, and there are hidden hot events in large size class of Chinese SMS text. Most existing clustering methods are hardto be applied in dealing with this kind of information due to the huge scale of data. Using SMS text cohesion in a given time period, the clustering of SMS text is sorted and isolated information and small set SMS text are removed in the clustering process. The experiments show that the clustering efficiency of the large size class for mass SMS text is very high.% 随着通信事业的快速发展,短信文本信息量非常巨大,乃至亿级,同时大类别短信文本中隐含着热点事件。
现有聚类算法对海量短信文本进行聚类分析显得力不从心。
利用短信文本在给定时间段中的内聚性,对待聚类的短信文本进行排序,并在聚类过程中清除孤立信息和小类别短信文本。
实验表明,对于海量短信文本的大类别聚类效率是非常高的。
一种适用于短消息文本的聚类算法

( 南机 电 职 业技 术 学 院 信 息 工 程 系 , 南 长沙 4 05 ) 湖 湖 1 1 1
摘要 : 针对短消息文本聚类 , 设计基 于频繁词集和 A t re的混合聚 类方 法。该算法利用基 于频繁词 集聚类算法处理文 n. e T
本数据 的效 率优 势, 生成初始聚簇 , 算轮廓 系数 消除重叠文档 , 计 在此基础上再通过 A t r n— e T e算法继续精 化, 最终得到 高
质 量 的 结 果 输 出 。 而且 聚 类结 果保 留 了描 述 信 息 和 树 状 层 级 结 构 , 提供 了更 广 阔 的应 用 。
关键词 : 频繁词集 ; n—re 法; At e算 T 轮廓 系数 ; 短消息 ;聚类
中 图 分 类 号 :P 0 . T 3 16 文 献标 识 码 : A d i 1 .9 9 ji n 10 — 7 .0 2 0 .0 o: 0 3 6/.s .0 62 5 2 1 .2 09 s 4
海 量 的短 消息数 据。 这 些数 据 蕴 含 着大 量有 价 值 的 信 息 , 这些 数 据 的挖 掘 应用 的重要性 日趋 显 著 。 对
本 文结合 频繁 词 集 挖 掘算 法 和 A t re聚 类 算 n— e T 法, 引进 轮 廓 系 数 , 计 适 合 短 文 本 混 合 聚 类 算 法 设
c u t r g rd c s te i i a s r h n e i n ts te o e p tx o u n s b a c l t g s h u t o f ce t F r e l se i ,p o u e h n t ldu t ,t e l n i e mia e h v da e td c me t y c u a i i o e t c e iin . u t r l n l e h
基于“文本对齐”进行短文本过滤算法的研究

{ c h a r s t r l 【 2 5 6 ] , s t r 2 1 2 5 6 ] ;
c o ns t c ha r r e pl a c e s t r , s e a r c h s t r ; c ha r pl , p2, p3;
好的提升 , 本文提出了一种“ 文本对齐 ” 算法思想。 编辑距离算法核心是基于字符序 列比对 的计算方法 ,算 法本身对 一些停用词和文本噪声 比较敏感 。 在数据收集阶段 , 采用了清华 同方 ( 知 网) 公司开发的 Ks p i d e r 短文本采集系统 采集 B BS帖子数据, 并存放到 K b a s e数据库 中。这些 大批量 的数据中不乏一些 h t ml 页面显示格式控制信 息, 在存放到数
码描述如下:
c h a r p 4 1 2 5 6 ] = ” \ 0 ” :
u n s i g n e d i n t f s l e n , i l , i 2 , i 3 ; / / f s l e n为待查找串的长度 ; s t r c p y ( s t r l , t e x t ) ;/ / 用s t r l 暂时存放要处理 的文本 ;
f o r ( i n t i = 0 ; i < NO O F R E C O R D; i + + ) ; { s e a r c h s t  ̄S y n o n y m y [ i ] . v a r i a t i o n ; / / 先 临时 保 存 同义 词 词
库的第 i 个词条的两个字段;
2 0 1 3 年 第 9 期
( 总第 1 3 1期 )
信 息 通 信
I NF 0RM ATI ON & C0M M UNI CAT u m .N o 1 3 1 )
stc算子法的案例

STC算法案例分析1. 背景STC(Short Text Clustering,短文本聚类)算法是一种用于处理短文本聚类问题的算法。
在实际应用中,短文本数据普遍存在,例如电子邮件的标题、社交媒体的评论等。
由于短文本的语义表达较为简洁,常常缺乏足够的信息来支持传统的聚类算法,因此传统的聚类算法在处理短文本数据时效果不佳。
STC算法针对短文本数据的特点,采用了一种基于语义主题的聚类思想,通过挖掘短文本之间的概念相似度实现聚类。
2. 案例2.1 案例背景某电商公司拥有大量的用户评论数据,这些评论都是短文本,该公司希望对这些评论进行聚类,以便进一步分析用户的意见和情感倾向。
由于评论数据的特点,传统的聚类算法无法满足要求,因此该公司决定采用STC算法进行短文本聚类分析。
2.2 过程描述STC算法的过程主要包括以下几个步骤:步骤1:预处理对评论数据进行预处理,包括去除停用词、进行词干化等操作,以减小词袋模型的维度。
步骤2:构建词袋模型将预处理后的评论数据转换为词向量表示,构建词袋模型。
步骤3:计算词语相似度计算词袋模型中每个词语之间的相似度,可使用TF-IDF、Word2Vec等方法计算词语相似度。
步骤4:计算文本相似度根据词语相似度计算文本相似度,考虑文本中词语之间的相似度和共现关系。
步骤5:构建相似度矩阵根据文本相似度计算得到的相似度,构建相似度矩阵。
步骤6:聚类分析使用聚类算法对相似度矩阵进行聚类分析,根据相似度矩阵中的相似度信息将文本分为若干个类别。
2.3 结果展示经过STC算法的处理,最终得到了用户评论的聚类结果。
下面是某个具体类别的评论示例:类别1:商品质量•“这个商品真的太糟糕了,质量不行,不值得购买!”•“非常满意这个商品的质量,做工精细,物美价廉!”•“商品质量一般般,不怎么样,性价比不高。
”通过对用户评论进行聚类,可以发现该类别下的评论主要围绕商品质量展开,用户对商品质量有着不同的评价。
短文本聚类算法研究

1 . 短 文本 聚 类
1 . 1文本 聚 类方 法
文本 聚类 是指将文档集合 分组成为 由类似 的文档组 成的多个类 ( 簇) 的过程 。由聚类产生 的簇是文档的集合 , 同簇中的对象彼此相似 , 不 同簇 中的对象彼此相异 与分类不 同的是 . 聚类方法要划分 的类是 未知的 , 也就是说聚类是一种无指导的学习方法 。文本聚类作为文本 挖 掘的一项基本技术 , 己经在文本 内容 分析 、 信息检索 等领域获得 了 3 . 基 于密度的短文本聚类 广泛 的应用 。 由于聚类 的重要性 , 人们对聚类方法进行了广泛的研 究 , 提出了很 多算法 3 . 1 基本的密度聚类 方法 聚类 方法 可以分成 五个类别 : 划分 的方法 。 层次 的方法 , 基 于密度 基本 的密度聚类方法将具有足够高密度的区域划分为簇 . 能够 在 的方法 。 基 于网格 的方法 . 基于模型的方法。 另外有的方法是上述多个 带有噪声的文本数据库 中发现任意形状的簇 。 方法的综合运用 。尽管这些方法不是专门为文本聚类设计 的 , 但 他们 基本 的密度聚类方法在以下两个方面存 在问题 : 都可用 于文本 聚类 ( 1 ) 低相似性 问题 。 在高维 、 稀疏的样本 空间中( 如我们所针对的海 1 . 2短文本聚类 面临的挑 战 量短文) , 大 多数样本之 间的相似度是很低 的。在相似度很低的情况下, 短文本聚类 是指对短文本文档进行聚类 . 如用户转发 、 评论 、 关注 个样本 的最临近样本未必就是和它属于相同的簇 f 2 ) 密度的相对性 问题 。不 同的簇可能有不 同的密度特性 , 距离近 等文本的聚类 于传 统的聚类相 比. 短文本聚类面临 以下挑战 : 银 河系 中 ( 1 ) 短 文本数据 的高维 和稀疏 问题 。 通 常数据库 中会有超过一万 的 的样本 未必就适合划分到相 同的簇 中 一个直观的例子是, 常用词 , 而每个短文中包 含的词有很少 聚类算 法必 须能够处理高维 的恒星 比太阳系中 的行星更适合划 分到一个簇 中, 尽管太 阳系的行星 之间的距 离更 近 和稀疏 的文本数据 解决 上述 问题 的关键思路是在 定义样本之 间的相似性 时考虑其 ( 2 1 数据规模问题。 例如在我们 的应用需求 中需要处理上百 G B的数 S h a r e d N e a r e s t N e i g h b o r 。 据。通常的聚类算法在处理这样 的海量数据 时都变得低效甚 至根本无 所 处的环境 .基于这 种思路定 义共享 近邻 ( N N ) 相似度 。 S N N相似度弥补 了传统相似度 的一些缺 陷。 在低相似 的 法运行 。海量短文本数据库中的聚类算法必须具备 良好的可伸缩性。 S 一个 点的邻进点可 能和它并不属 于相 同的簇 . 但如果使 ( 3 ) 簇 的表示 和理解 问题 。无论什么聚类方法产生的簇 . 都需要进 样本区域中 . N N相似度 . 两个结 点间通常没有更多 的共享 邻居 . 因此它们的相 行表示并交给用户去理解 文本聚类要求 聚类 的结果必须对一般的用 用 S N N相似度同样能够克服密度得相对性问题。 户是可 以理解 的[ 8 9 1 。 通常的算法基于文档的相似性进行 聚类 , 但很难 似度变得 比较低 。S 3 . 2 短 文本距离计算 解释为什么某些文档会在一个簇中 在有 的应用中 聚类 以后再进行 无论采用什么样 的密度 聚类方法 . 文档之 间基本的距离计算仍 是 文本 摘 要 来 进 行 簇 的表 示 我们不采用传统的基 于向量 空 ( 4 ) 短文本聚类的精确度 问题。与文本分类应用相 同. 短文本 中的 聚类的关键问题。针对短文本的特点 . 而是采用基于知网的语义距 离计算 。 关键词 出现次数很少 . 这使得基于 向量空间模 型和词频统计 的方法难 间模型的欧式距 离 , 3 _ 3并行 化方法 以得到可接受 的准确度 。 使用基于语义 的短文距 离计算及基于 S N N的密度聚类方法 提高 从应 用需求上来讲 . 短文本聚类 一般可 以有两种 目的 : 一是得 到 k 个最大 的类 . 如获取热 门话 题或新 闻事件 : 二 是获取那些 最小 的类 了聚类 的准确度 , 但同时也增加了聚类算法的计算复杂度 。为了使 算 法能够适应海量数据 . 本文采取 了并行化的方法。 或孤立 点, 这在情报分析 中有重要的价值。 针对 短文本挖掘领域 的应用需求和面l { 缶 的挑战 . 本文提 出两个 聚 算法并行化 的基本思 想是利用数据抽样和 S N N图的划分 。首先 类方法 。一个 是基 于频繁词集 的短文本聚类算法 , 另一个是基 于密度 对全局数据库进行 抽样 .随机抽取足够 的样本 并建立其 S N N相 似度 的短文本聚类算 法 图。 设并行挖掘结点的数 目为 n . 则把 S N N相似度 图划分成 n 个子图 , 2 . 基于频繁词集的短文本聚 类 每个子 图对应一个挖掘结点 。进行数据划分时 , 根据 短文和子图的语 2 . 1 基本 聚类方法和簇 的表示 义距离把待聚类的短文划分到对应的挖掘结点。 为 了提高数据划分的 目前已经有一些基于频繁词集 的文本 聚类 算法是在 F T S D C的基 效率 . 实 际上并 不是直接计算短文 和完整的 S N N子 图的语 义距离 . 而 础上改进而来 F T S D C的 目 标是发现无重叠的簇 . 也就是说每个文档 是使用 S N N子图的概要 图( 概要图在图划分的时候 生成) 。 这样 的数据 因为如果有很多新 的 只能属 于一个簇 。如果要 发现可 重叠 的簇 ,对算法 稍做 修改 即可 。 划分 和并行 聚类是牺牲 了一定 的聚类准确度 的 . F I ' S D C的基本聚类算法分两 个步 骤: f 1 ) 对 于每个频 繁词集 。 创建相应 样本处 于两个 S N N子图的边界 . 就会对整个 S N N图的结构产生影响 。 只要 抽样 的样本 数量足够大 , 这个 问题基 本可 以忽 的簇 , 该簇包含 了所有包 含该频繁词集 的文档 : ( 2 ) 对 已划分 的簇进行 但在 实际应用 中. 调整 , 去除重叠 . 把重叠的文档划分 到最合适 的簇 中 略不计 。 2 . 2 并行化方法 4 . 结 论 为 了提高可伸缩 性以适应海量 数据 .  ̄ I ' S D C进行 了并 行化处理 , 从实验结果来 看, 尽管 两个算法 的准确度 超过了 同类 的其它算 法, 其体系结构包括一个 控制结 点和 n 个挖掘结点 并行化 的方法基逻辑 但准确 度仍有 待提高 进一步提 高准确 度应该 考虑更合理地使用语 义 数据划分思想 。假设 控制结点和挖 掘结点处 于一个服务器集群 中, 数 信息和进一步改进 算法。 ● 据库对于每个控制结点和挖掘结点都是可访 问的。 每个挖掘结点处 理 个逻辑分 区. 并不需要数据的移动。 【 参考 文献】 并行化 的 F r S D C有三个步骤 。( 1 ) 控制结点进行逻辑数据划 分并 [ 1 ] J u r e L e s k o v e c J o h n S h a w e — T a y l o r . S e m a n t i c T e x t F e a t u r e s f r o m S m a l l Wo r l d 把频繁词集发送到各个挖掘结点 。 ( 2 海 个挖掘结点采用基本 的 F T S D C Gr a p h s . S u b s p a c e , L a t e n t S t r u c t u r e a n d F e a t u r e S e l e c t i o n t e c h n i q u e : S t a t c a l a n d 算法来聚类 , 处理所属分 区上的重叠文档并 去除重叠 。( 3 ) 控制结 点把 Op t i mi z a t i o n p e r s p e c t i v e s Wo r k s h o p, 2 0 0 5 .
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
The e pe i e a e u t s w ha h op e e h a l t r t ho tt xt fe tvey a fce ty x rm nt lr s ls ho t tt e pr os d m t od c n cus e he s r e se f c i l nd efii n l .
Ke r s:s r e ty wo d ho tt x s;c u t rn l s e ig; ic m plt l s e i g no e ec u t rn
Ab ta t s r c :Cl s e i g i n uns pe v s d ca sfc to te n ( s r a i s,da a ie s,orfat r e t s)i t u t rn s a u r ie ls iia in ofpa t r s ob e v ton t t m e u e v cor no
息 进 行 聚 类 分 析 时 往 往 显 得 异 常 无 力 。 该 文 通 过 对 实 际 应 用 中 的 短 文 本 信 息 进 行 实 验 分 析 , 现 了 这 类 数 据 类 别 发
所 具 有 的“ 长尾 现 象 ” 并 由此 提 出 了不 完全 聚 类 思 想 , 以有 效地 提 高这 类 短 文本 信 息 的 聚类 性 能 。 , 可 关 键 词 :短 文 本 ; 类 分 析 ; 完全 聚 类 聚 不
第 2 5卷 第 l期
2l O 1年 1月
中 文 信 息 学 报
J) (URNAI OF CH I NES N F E I ORM AT1 0N PROCE S NG S I
V 01 25,N o 1 . .
J n ,2 l a. 0 1
文 章 编 号 :1 0 — 0 7 2 1 ) 卜0 5 6 0 30 7 ( 0 0 0 40 1
中 图 分 类 号 :TP3 1 9 文 献 标 识 码 :A
I c m p e e Cl s e i g f r La g c l h r x s n o l t u t r n o r e S a e S o tTe t
PENG yn ,Y U a m ig Ze i g Xio n ,XU n b ,II Chu y n Ho g o U n ag ( .I siueo mp tn l c n lg ,Chn s a e f ce c ,B in 0 1 0,Chn ; 1 n t t f t Co u ig ' h oo y e ie eAcd myo in e ej g 1 0 9 S i ia
2 .Nain lC mp trNewo k Emeg n yRe p n eTeh ia Te m/ o dn t n(e tro ia,B in 0 0 9 t a o u e t r o r e c s o s c nc l a Co r iai ;n e fChn o ej g 1 0 2 ,Chn ) i ia
gr ps ( l t r ) So f r ou cus e s . a ,m a l s e i l ort s h vebe n pr po e ny c u t rng a g ihm a e o s d. W ih t a d d veo t he r pi e lpm e n e ne , ntofi t r t s or t t u h a h t ex s s c sque y l s a d Tw it rm e s ge a o ea o ei p t ntr e i rdal ie M o te r og n te s a sply a m r nd m r m ora ol n ou iy lf . s x— itng c u t rn e h s a eha d t pple n d a i t hi nd ofi o m a in duet hehu c l fda a s i l s e i g m t od r r O bea id i e lng wih t ski nf r to o t ges ae o t .
大 规 模 短 文 本 的 不 完 全 聚 类
彭泽 映 俞 晓 明 许 洪 波 刘 春 阳。 , , ,
( .中 国科 学 院 计 算 技 术 研 究 所 , 京 l 0 0;2 1 北 0l 9 .同家 计 算 机 网 络 应 急 技 术 处 理 协 调 中 心 , 京 1 0 2 ) 北 0 0 9
摘
要 :聚 类 分析 是 数 据 挖 掘 的一 个 重要 手 段 , 们 可 以通 过 聚 类发 现 信 息 中 潜在 的 热 点或 规 律 。至 今 , 经有 大 人 已
量 聚类 算 法 被 研 究 和 提 出 。随 着 互联 网 的 日益 普及 , 询 日志 、 wi e 等 短 文 本 信 息 逐 渐 在 人 们 生 活 中起 着 越 来 查 T t r t 越 重要 的作 用 。这 类 短 文 本 信 息 数 量 巨大 , 常 可达 到 千 万 乃 至亿 级 , 有 的 聚 类 算 法在 对 这 类 大 规 模 短 文 本 信 通 现