大规模短文本的不完全聚类

文本分类聚类

文本分类与聚类(text categorization and clustering) 1.概述广义的分类（classification或者categorization）有两种含义：一种含义是有领导的学习（supervised learning）过程，另一种是无领导的学习（unsupervised learning）过程。通常前者称为分类，后者称为聚类（clustering），后文中提到的分类都是指有指点的学习过程。给定分类系统，将文本集中的每个文本分到某个或者某几个类别中，这个过程称为文本分类（text categorization）。将文本聚集分组成多个类或簇，使得在同一个簇中的文本内容具有较高的相似度，而不同簇中的文本内容差异较大，这个过程称为文本聚类（text clustering）。 2. 文本分类 2.1 文本分类的步骤典范的文本分类进程可以分为三个步骤： 1. 文本表现（Text Representation）这一过程的目标是把文本表示成分类器能够处理的情形。最常用的方法是向量空间模型，即把文本集表示成词－文档矩阵，矩阵中每个元素代表了一个词在相应文档中的权重。选取哪些词来代表一个文本，这个过程称为特点选择。常见的特征选择方法有文档频率、信息增益、互信息、期看交叉熵等等。为了减少分类过程中的计算量，经常还需要进行降维处理，比如LSI。 2. 分类器构建（Classifier Construction）这一步骤的目标是选择或设计构建分类器的方法。没有一种通用的方法可以实用所有情形。不同的方法有各自的优缺点和实用条件，要依据问题的特色来选择一个分类器。后面专门讲述常用的方法。选定方法之后，在训练集上为每个种别构建分类器，然后把分类器利用于测试集上，得到分类结果。 3. 后果评估（Classifier Evaluation）在分类过程完成之后，需要对分类后果进行评估。评估过程运用于测试集（而不是训练集）上的文本分类结果，常用的评估尺度由IR范畴继续而来，包括查全率、查准率、F1值等等。对于某一类别i，查全率ri=li/ni，其中ni为所有测试文档中，属于第i类的文档个数；li是经分类系统输出分类结果为第i类且结果准确的文档个数。查准率pi=li/mi，其中mi是经分类体系输出分类结果为第i类的文档个数，li是经分类系统输出分类结果为第i类且结果准确的文档个数。F1值为查全率和查准率的协调均匀数，即：。相对于最简略的练习集－测试集评估办法而言，还有一种称为k-fold cross validation的方式，即把所有标志的数据划分成k个子集，对于每个子集，把这个子集当作训练集，把其余子集作为测试集；这样履行k 次，取各次评估成果的均匀值作为最后的评估结果。 2.2 常见的文本分类方法 1. Rocchio方法每一类断定一个中心点（centroid），计算待分类的文档与各类代表元间的间隔，并作为判定是否属于该类的判据。Rocchio方法最早由[Hull, 1994]引进文本分类范畴，后来又有很多文章进行了改良。Rocchio方法的特点是轻易实现，效力高。缺点是受文本集分布的影响，比如计算出的中心点可能落在相应的类别之外[Sebastiani, 2002]。 2. 朴实贝叶斯（naive bayes）方式将概率论模型利用于文档主动分类，是一种简略有效的分类方法。应用贝叶斯公式，通过先验概率和类别的条件概率来估量文档对某一类别的后验概率，以此实现对此文档所属类别的断定。[Lewis, 1998]介绍了

k-means文本聚类

目录 1 概念及应用背景 (1) 1.1概念 (1) 1.2应用背景................................................................................... 错误！未定义书签。 2 系统设计框架..................................................................................... 错误！未定义书签。 2.1总体框架................................................................................... 错误！未定义书签。 2.2文本聚类的具体过程 (1) 3应用程序具体实现及说明 (3) 3.1获取文档的输入....................................................................... 错误！未定义书签。 3.2提取文档的TF/IDF权重 (3) 3.3 k-means进行数据聚类 (4) 4 实验结果及分析................................................................................. 错误！未定义书签。 4.1实验结果................................................................................... 错误！未定义书签。 4.2结果分析................................................................................... 错误！未定义书签。5结论...................................................................................................... 错误！未定义书签。 5.1实验结论................................................................................... 错误！未定义书签。 5.2个人感受................................................................................... 错误！未定义书签。附录：项目框架和主程序代码............................................................. 错误！未定义书签。

改进特征权重的短文本聚类算法

改进特征权重的短文本聚类算法① 马存1,2, 郭锐锋2, 高岑2, 孙咏2 1(中国科学院大学, 北京 100049) 2(中国科学院沈阳计算技术研究所, 沈阳 110168) 摘要: 短文本的研究一直是自然语言处理领域的热门话题, 由于短文本特征稀疏、用语口语化严重的特点, 它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题. 针对对上述问题的研究, 本文提出了一种改进特征权重的短文本聚类算法. 首先, 定义多因子权重规则, 基于词性和符号情感分析构造综合评估函数, 结合词项和文本内容相关度进行特征词选择; 接着, 使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量; 最后, 利用RWMD算法计算短文本之间的相似度并将其应用K-Means算法中进行聚类.最后在3个测试集上的聚类效果表明, 该算法有效提高了短文本聚类的准确率. 关键词: 特征权重; 情感分析; 词向量; RWMD距离引用格式: 马存,郭锐锋,高岑,孙咏.改进特征权重的短文本聚类算法.计算机系统应用,2018,27(9):210-214. https://www.360docs.net/doc/be6079195.html,/1003-3254/6554.html Short Text Clustering Algorithm with Improved Feature Weight MA Cun1,2, GUO Rui-Feng2, GAO Cen2, SUN Yong2 1(University of Chinese Academy of Sciences, Beijing 100049, China) 2(Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110168, China) Abstract: Short text research has been a hot topic in the field of natural language processing. Due to the sparseness of short texts and serious colloquialisms, its clustering model has the problems of high dimensionality, poor focus of theme, and unclear semantic information. In view of the above problems, this study proposes a short text clustering algorithm with improving the feature weight. Firstly, the rules of multi-factor weight are defined, the comprehensive evaluation function is constructed based on part-of-speech and symbolic sentiment analysis, and the feature words are selected according to the relevancy between the term and the text content. Then, a word skip vector model (continuous skip-gram model) trained in large-scale corpus to obtain a word vector representing the semantic meaning of the feature words. Finally, the RWMD algorithm is used to calculate the similarity between short texts and the K-means algorithm is used to cluster them. The clustering results on the three test sets show that the algorithm effectively improves the accuracy of short text clustering. Key words: feature weight; emotion analysis; word vector; RWMD distance 1 相关工作随着移动终端智能化的发展, 纷繁多样的短文本信息充斥着互联网的各个角落. 由于短文本信息少, 口语化严重, 网络新词多, 使用传统的文档聚类会导致向量空间模型高度稀疏, 缺乏语义信息, 所以需要针对短文本的固有特点寻求一种有效的模型表示和聚类方法. 传统的向量空间模型, 主要通过特征词和权重来表示短文本数据, 它的缺点也很明显, 它忽略了同义词计算机系统应用 ISSN 1003-3254, CODEN CSAOBN E-mail: csa@https://www.360docs.net/doc/be6079195.html, Computer Systems & Applications,2018,27(9):210-214 [doi: 10.15888/https://www.360docs.net/doc/be6079195.html,ki.csa.006554]https://www.360docs.net/doc/be6079195.html, ?中国科学院软件研究所版权所有.Tel: +86-10-62661041 ①收稿时间: 2018-01-27; 修改时间: 2018-03-07; 采用时间: 2018-03-21; csa在线出版时间: 2018-08-16 210软件技术?算法 Software Technique?Algorithm 万方数据

面向新闻评论的短文本增量聚类算法

面向新闻评论的短文本增量聚类算法* 刘晓琳1,2，曹付元1,2，梁吉业1,2+ 1.山西大学计算机与信息技术学院，太原030006 2.山西大学计算智能与中文信息处理教育部重点实验室，太原030006 Incremental Algorithm for Clustering Short Texts on News Comments LIU Xiaolin 1,2,CAO Fuyuan 1,2,LIANG Jiye 1,2+ 1.School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China 2.Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China +Corresponding author:E-mail:ljy@https://www.360docs.net/doc/be6079195.html, LIU Xiaolin,CAO Fuyuan,LIANG Jiye.Incremental algorithm for clustering short texts on news comments.Journal of Frontiers of Computer Science and Technology,2018,12(6)：950-960. Abstract:Incremental clustering algorithms for news comments can effectively discover the views of netizens on the news event,which is of great significance in the field of public opinion analysis.The traditional algorithms for incremental clustering short texts are sensitive to the input sequence,this paper proposes an improved UCSP (uncer-tain cyclic Single-Pass)incremental clustering algorithm.In the process of clustering,the traditional vector space model for short texts is lack of semantic information,and has the disadvantage of sparse https://www.360docs.net/doc/be6079195.html,bined with neural network vector model,this paper constructs a new representation model for short texts based on compositional semantic https://www.360docs.net/doc/be6079195.html,pared with the traditional texts representation models and clustering algorithms on 5Tencent news comments data sets,the results show that the proposed algorithm can more effectively improve the quality of clustering. Key words:public opinion analysis;short texts;incremental clustering algorithm;vector space model;neural network *The National Natural Science Foundation of China under Grant Nos.U1435212,61432011,61573229(国家自然科学基金);the Nat-ural Science Foundation of Shanxi Province under Grant No.2015011048(山西省自然科学基金);the Program of Scholarship Coun-cil of Shanxi Province under Grant No.2016-003(山西省留学基金项目). Received 2017-04,Accepted 2017-06. CNKI 网络出版:2017-06-21,https://www.360docs.net/doc/be6079195.html,/kcms/detail/11.5602.TP.20170621.1105.006.html ISSN 1673-9418CODEN JKYTA8 Journal of Frontiers of Computer Science and Technology 1673-9418/2018/12(06)-0950-11 doi:10.3778/j.issn.1673-9418.1705045E-mail:fcst@https://www.360docs.net/doc/be6079195.html, https://www.360docs.net/doc/be6079195.html, Tel:+86-10-89056056万方数据

K-means文本聚类算法

最大距离法选取初始簇中心的K-means文本聚类算法的研究的评论背景随着计算机技术和网络技术的飞速发展，人们的生活方式产生了极大的改变。计算机从一个有几个房子大小的巨无霸，已经变成了小巧的笔记本。网络设备也已经从PC端走向移动端。越来越丰富的网络设备，让人们能在网络里畅游，网络对于人们来说触手可及，同时也产生了巨大的数据流量。人们如何从海量的数据中找到有用的信息，成为了现在计算机学科的研究热点。聚类是数据挖掘中重要的一支。由于聚类具有无需先验知识的优势，可以根据数据自然分部而获取知识。聚类成为数据挖掘领域一个非常活跃的领域，而且得到了广泛的应用。聚类就是把一个数据集合分成几个簇，在同一个簇里，数据相关性最高，但是在2个不同的簇里，数据相关性最低。K-means聚类算法主要针对处理大数据集时，处理快速简单，并且算法具有高效性和可伸缩性。但是，K-means聚类算法随机的选择初始簇中心会导致以下缺点：（1）得到的聚类结果中容易出现局部最优，而不是全局最优；（2）聚类结果不具有稳定性，很大程度上依赖于初始簇中心；（3）聚类过程中的迭代次数增加使聚类过程中的总耗时增加。传统的k-means聚类算法传统的聚类算法思想：首先从N个数据对象集合中随机选择k个对象，然后计算剩余的N-k个对象与k个对象的距离（相似度），与k个对象中哪个对象的距离最小，就把分给那个对象；然后在计算每个簇中的簇中心，即是每个簇中对象的均值；不断重复这一过程步骤，直到标准测度函数E开始收敛为止。 K-means算法描述如下：输入：迭代终止条件ε，最大的迭代次数为max，簇的总数目是k，样本集有N个数据对象。输出：满足迭代终止条件的k个簇和迭代次数s。随机初始化k个簇中心：对每个数据对象，分别计算该对象与k个簇中心均值的距离，并选择距离最小的簇将该对象加个到该簇里；重新计算k个簇的中心，利用函数E计算出此时的函数值；如果带到最大迭代次数或满足：

文本聚类的现状研究

1 文本聚类研究现状 1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet 的大规模普及和企业信息化程度的提高，各种资源呈爆炸式增长。在中国互联网络信息中心(CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示，70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据，如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来，文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。作为一种无监督的机器学习方法，聚类技术可以将大量文本信息组成少数有意义的簇，并提供导航或浏览机制。文本聚类的主要应用点包括： (1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统Newsblaster[1] 。该系统将新闻进行聚类处理，并对同主题文档进行冗余消除、信息融合、文本生成等处理，从而生成一篇简明扼要的摘要文档。 (2) 对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信息。比较典型的系统有Infonetware Real Term Search 。Infonetware 具有强大的对搜索结果进行主题分类的功能。另外，由Carrot Search 开发的基于Java 的开源Carrot2 搜索结果聚合聚类引擎2.0 版也是这方面的利用，Carrot2 可以自动把自然的搜索结果归类( 聚合聚类) 到相应的语义类别中，提供基于层级的、同义的以及标签过滤的功能。 (3) 改善文本分类的结果，如俄亥俄州立大学的Y.C.Fang 等人的工作[2] 。 (4) 文档集合的自动整理。如Scatter/Gather[3] ，它是一个基于聚类的文档浏览系统。 2 文本聚类过程文本聚类主要依据聚类假设：同类的文档相似度较大，非同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程、以及不需要预先对文档手工标注类别，因此具有较高的灵活性和自动化处理能力，成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如图 1 所示。图 1 文本聚类过程 2.1 文本信息的预处理文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式，即建立文本特

统计自然语言处理--分类与聚类

聚类与分类
IRLAB

聚类

大纲
? 聚类分析简介 ? 层次聚类 – 单连接和全连接聚类 – 组平均聚类 – 应用：改进语言模型 – 自顶向下聚类 ? 非层次聚类 – K-均值 – EM算法

什么是聚类分析?
? 聚类: 数据对象的集合 – 在同一个类中，数据对象是相似的 – 不同类之间的对象是不相似的 ? 聚类分析 – 一个数据集合分组成几个聚类 ? 聚类是一种无监督分类:没有预定义的类 ? 典型应用 – 作为一个独立的工具透视数据分布 – 可以作为其他算法的预处理步骤

聚类在自然语言中的应用
? 探测数据分析（exploratory data analysis）
– 例如词性标注，将相似的词作为同一种词性，对前置词比较有效 – 对this和the 这种语法语义特征不一致的词，不总分在一组的词不适合
? 概化（generalization）
– 等价类，可以使用相同的上下文环境，解决数据稀疏问题 – 同时聚类是学习的一种方法（推理 Friday 的前置词）

聚类算法类型
? 层次聚类与非层次聚类 – 层次聚类的每一个节点是其父节点的一个子类，叶节点对应的是类别中每一个单独的对象，常用算法自底向上与自上向下（凝聚与分裂） – 非层次聚类只是简单的包括了每类的数量，体现不了他们之间的层次关系，常用算法K-均值 ? 软聚类与硬聚类 – 硬聚类将每一个对象分到一个且只能是一个的类别中，例如K-均值 – 软聚类刻画的是将对象归属不同类的程度，模糊聚类（EM算法）

【CN110196907A】一种多层次文本聚类方法和装置【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910297074.9 (22)申请日 2019.04.15 (71)申请人中国石油大学（华东）地址 266580 山东省青岛市黄岛区长江西路66号 (72)发明人席永轲　白婷婷　王宇辰　白振宇　曹帅　张孝苗　孙玉强　刘昕　 (51)Int.Cl. G06F 16/35(2019.01) G06F 17/27(2006.01) (54)发明名称一种多层次文本聚类方法和装置(57)摘要本发明实施例提供了一种多层次文本聚类方法和装置，该方法可以在多个层次对文本数据进行不同粒度的聚类。对所获取的文本数据进行数据预处理操作后根据范化数据的不同特征以及在数据表中所属的不同类别，将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次，然后采用Word2vec进行文本词向量的训练，基于文本词向量训练结果得到一条文本数据的二维坐标作为一个数据节点的坐标，通过计算所有数据节点的相对距离，并根据不同的数据量，动态更新算法截断距离，最终通过计算每个数据节点的局部密度与相对距离确，保存聚类结果并生成数据可视化图聚类中心，并根据各个聚类中心，将不同数据聚为一类。权利要求书1页说明书3页附图2页CN 110196907 A 2019.09.03 C N 110196907 A

权　利　要　求　书1/1页CN 110196907 A 1.一种多层次文本聚类方法和装置，包括以下步骤： A.基于所获取的原始数据进行数据预处理操作，主要包括数据分词、去停用词、数据规范化等操作。 B.根据规范化数据的不同特征以及在数据表中所属的不同类别，使用不同的类别判别方式对数据进行划分，可将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次，并根据不同的类别层次执行不同聚类操作。 C.基于不同层次的文本数据，采用Word2vec进行文本词向量的训练，将文本内容处理为二维并在空间标识。 D.基于词向量训练结果，将每条文本数据的关键词抽取结果与词向量结合，将关键词对应的词向量坐标求和，得到一条文本数据的二维坐标作为一个数据节点的坐标。 E.通过计算所有数据节点的相对距离，并根据不同的数据量，动态更新算法截断距离。然后通过计算每个数据节点的局部密度与相对距离确定各个聚类中心，并根据各个聚类中心，将不同数据聚为一类，保存聚类结果并生成数据可视化图。 2.根据权利要求1所述的一种多层次文本聚类方法和装置，其特征在于，所述的步骤A 中，数据分词是把连续的汉字序列划分成一系列单独的词语，之后将词语作为文本数据的基本单位；去停用词就是把分词结果中的一些虚词和禁用词去除；数据规范化是指将数据已有的类别进行标记，便于后期高效多层次聚类。 3.根据权利要求1所述的一种多层次文本聚类方法和装置，其特征在于，所述的步骤B 中，根据不同的数据形式，使用不同的方式对数据进行划分，共有以下几种形式： i.将所有数据归为一个层次，即将所有数据进行最广义聚类。 ii.根据规范化后数据所属的不同类别，可以根据不同类别层次将数据划分为不同类别，并根据不同类别进行聚类。 iii.若想获取自定义类别数据，首先自定义类别标签关键词，然后对所获取规范化数据进行遍历，并通过类别关键词对每一条数据进行类别相似度赋值权重，最终通过权重大小获取到自定义类别数据。 4.根据权利要求1所述的一种多层次文本聚类方法和装置，其特征在于，所述的步骤C 中，Word2vec利用深度学习的思想，通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，最终通过降维算法将K维向量降为2维，从而可以用向量空间上的距离来表示语义上的相似度。 5.根据权利要求1所述的一种多层次文本聚类方法和装置，其特征在于，所述的步骤E 中,通过计算所有数据节点的平均距离并乘以对应权重，从而根据不同数据集的大小动态更新算法截断距离。局部密度描述了一个数据节点周围数据的聚集程度。相对距离描述了一个数据节点与其它具有较大局部密度的数据节点的距离。若一个节点的局部密度值与相对距离值都较大，说明它本身周围有较多数据节点，且距离另一个周围有较多数据节点的数据节点距离较远，则认为其是一个聚类中心。 2

基于向量空间模型的文本聚类算法

基于向量空间模型的文本聚类算法转自：https://www.360docs.net/doc/be6079195.html,/2009/0910/15270.php 1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet 的大规模普及和企业信息化程度的提高，各种资源呈爆炸式增长。在中国互联网络信息中心(CNNIC)2007 年1 月最新公布的中国互联网络发展状况统计报告中显示，70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据，如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来，文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。作为一种无监督的机器学习方法，聚类技术可以将大量文本信息组成少数有意义的簇，并提供导航或浏览机制。文本聚类的主要应用点包括： (1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统Newsblaster[1] 。该系统将新闻进行聚类处理，并对同主题文档进行冗余消除、信息融合、文本生成等处理，从而生成一篇简明扼要的摘要文档。 (2) 对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信息。比较典型的系统有Infonetware Real Term Search 。Infonetware 具有强大的对搜索结果进行主题分类的功能。另外，由Carrot Search 开发的基于Java 的开源Carrot2 搜索结果聚合聚类引擎2.0 版也是这方面的利用，Carrot2 可以自动把自然的搜索结果归类( 聚合聚类) 到相应的语义类别中，提供基于层级的、同义的以及标签过滤的功能。 (3) 改善文本分类的结果，如俄亥俄州立大学的Y.C.Fang 等人的工作[2] 。 (4) 文档集合的自动整理。如Scatter/Gather[3] ，它是一个基于聚类的文档浏览系统。 2 文本聚类过程文本聚类主要依据聚类假设：同类的文档相似度较大，非同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程、以及不需要预先对文档手工标注类别，因此具有较高的灵活性和自动化处理能力，成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如图 1 所示。图 1 文本聚类过程

利用sklearn做文本分类(特征提取、knnsvm聚类)

利用sklearn做文本分类(特征提取、knnsvm聚类) 数据挖掘入门与实战公众号：datadw 分为以下几个过程：加载数据集提feature 分类 Naive Bayes KNN SVM聚类 20newsgroups官网 https://www.360docs.net/doc/be6079195.html,/~jason/20Newsgroups/ 上给出了3个数据集，这里我们用最原始的 20news-19997.tar.gz https://www.360docs.net/doc/be6079195.html,/~jason/20Newsgroups/20news-19997.ta r.gz 1.加载数据集从20news-19997.tar.gz下载数据集，解压到 scikit_learn_data文件夹下，加载数据，详见code注释。

[python]view plaincopy #first extract the 20 news_group dataset to /scikit_learn_data fromsklearn.datasets importfetch_20newsgroups #all categories #newsgroup_train = fetch_20newsgroups(subset='train') #part categories categories = ['comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x']; newsgroup_train = fetch_20newsgroups(subset = 'train',categories = categories); 可以检验是否load好了： [python]view plaincopy #print category names frompprint importpprint pprint(list(newsgroup_train.target_names))

基于字符串相似性聚类的网络短文本舆情热点发现技术

第36卷第5期 2010年5月北京工业大学学报JOURNAL OF BE I J I N G UN I V ERSI TY OF TECHNOLOGY Vol .36No .5May 2010基于字符串相似性聚类的网络短文本舆情热点发现技术杨　震,段立娟,赖英旭 (北京工业大学计算机学院,北京　100124) 摘　要:将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效. 关键词:舆情分析;短文本处理;层次聚类中图分类号:TP 393文献标志码:A 文章编号:0254-0037(2010)05-0669-05 收稿日期:2009212210. 基金项目:国家“九七三”计划资助项目(2007C B311100);北京市自然科学基金资助项目(4102012,4102013);北京市教育委员会科技发展计划面上资助项目(K M200810005030);北京工业大学青年科学基金资助项目. 作者简介:杨　震(1979—),男,贵州六盘水人,讲师. 互联网络信息爆炸、信息泛滥、信息污染、信息扰民、信息惑众等问题的日益严重极大影响普通用户对互联网信息正常、合理的使用.更为严重的是,一些不法分子开始利用网络传播虚假和非法广告,散布谣言蛊惑人心,扰乱国家经济和社会秩序;敌对势力更是利用网络传播害国言论,制造事端,教唆动乱,严重地威胁着国家的稳定和安全.信息安全重心已转向应用和数据安全,基于内容对互联网信息传播和利用进行监管(即舆情监控)的国家和社会需求越来越强烈,成为学术界和产业界广泛关注的一个热点[1]. 在需求的推动之下,众多研究者利用模式识别、人工智能、知识发现为代表的智能技术对网络信息进行内容分析、语义挖掘,进而实施有效的信息过滤、话题发现以及趋势预测.但需要指出的是,现有的技术实现距离需求期望仍有差距,解决互联网舆情预警问题的关键技术,特别是网络话题的发现技术还亟待提高,互联网内容安全形式不容乐观.一方面,针对普通网络信息(长文本信息)舆情态势分析及舆情预警关键技术的研究已经大规模地展开,并取得了一定的研究成果.总体来说,针对普通网络信息(长文本信息)的内容识别与过滤技术已经迈入实用阶段.在文本表达方面,Salt on 的向量空间模型和基于Markov 过程的n 2gra m 模型提供了有效的文本描述数学模型.在文本特征选择方面,提出了基于词频/倒文档频度(TF /I D F )、信息增益(I G )、CH I 、互信息(M I )等统计量的专门特征选择方法,同时,还将主成分分析、线性鉴别分析和奇异值分解的方法引入文本特征选择,衍生出了潜在语义索引(LSI )的重要概念.在文本聚类/分类方面,贝叶斯分类器、支撑向量机(S VM )、神经网络、自组织映射(S OM )、k 近邻、k 均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用. 然而另一方面,针对以即时消息、在线聊天记录、BBS 标题、手机短消息、微博客、博客评论、新闻评论等为代表的短文本信息舆情态势分析及舆情预警关键技术的研究力度不够,而恰恰是这一部分内容更能反映真实的网络舆情.但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等)[2],使得一些针对长文本的内容处理方法性能劣化,甚至不可用.因此,针对短文本自身特点,研究符合其特性的文本表达和特征选择方法,实现短文本的正确聚类成为了一个迫切的现实要求. 基于此,本文面向网上短文本信息舆情分析需求,基于字符串相似性研究短文本信息的聚类方法,以期解决短文本话题发现、传播及动态演变的特征分析等关键问题.

基于频繁项集的海量短文本聚类与主题抽取

计算机研究与发展ＤＯＩ：１０．７５４４/ｉｓｓｎ１０００‐１２３９．２０１５．２０１４０５３３ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ５２（９）：１９４１１９５３，２０１５　收稿日期：２０１４－０６－１６；修回日期：２０１４－１２－２３　基金项目：国家自然科学基金项目（６１４７２２９１，６１３０３１１５，６１２７２１１０）；２０１３年深圳知识创新计划基础研究项目基于频繁项集的海量短文本聚类与主题抽取彭　敏１，２　黄佳佳１　朱佳晖３　黄济民１　刘纪平１１（武汉大学计算机学院　武汉　４３００７２）２（武汉大学深圳研究院　广东深圳　５１８０５７）３（软件工程国家重点实验室（武汉大学）　武汉　４３００７２）（ｐｅｎｇｍ＠ｗｈｕ．ｅｄｕ．ｃｎ）ＭａｓｓｏｆＳｈｏｒｔＴｅｘｔｓＣｌｕｓｔｅｒｉｎｇａｎｄＴｏｐｉｃＥｘｔｒａｃｔｉｏｎＢａｓｅｄｏｎＦｒｅｑｕｅｎｔＩｔｅｍｓｅｔｓＰｅｎｇＭｉｎ１，２，ＨｕａｎｇＪｉａｊｉａ１，ＺｈｕＪｉａｈｕｉ３，ＨｕａｎｇＪｉｍｉｎ１，ａｎｄＬｉｕＪｉｐｉｎｇ１１（ＣｏｍｐｕｔｅｒＳｃｈｏｏｌ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７２）２（ＳｈｅｎｚｈｅｎＲｅｓｅａｒｃｈ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｓｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８０５７）３（ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ（ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ），Ｗｕｈａｎ４３００７２）Ａｂｓｔｒａｃｔ　Ｓｈｏｒｔｔｅｘｔｓｇｅｎｅｒａｔｅｄｉｎｓｏｃｉａｌｍｅｄｉａｈａｖｅｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｖｏｌｕｍｅ，ｖｅｌｏｃｉｔｙ，ｌｏｗｑｕａｌｉｔｙａｎｄｖａｒｉｅｔｙ，ｔｈｕｓｍａｋｅｔｈｅｖｅｃｔｏｒ‐ｓｐａｃｅ‐ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｓｆａｃｅｔｈｅｃｈａｌｌｅｎｇｅｓｏｆｈｉｇｈ‐ｄｉｍｅｎｓｉｏｎｓ，ｆｅａｔｕｒｅｓｓｐａｒｓｉｔｙａｎｄｎｏｉｓｙｄｉｓｔｕｒｂｉｎｇ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｓｈｏｒｔｔｅｘｔｓｃｌｕｓｔｅｒｉｎｇａｎｄｔｏｐｉｃｅｘｔｒａｃｔｉｏｎ（ＳＴＣ‐ＴＥ）ｆｒａｍｅｗｏｒｋｂａｓｅｄｏｎｔｈｅｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｍｉｎｅｄｆｒｏｍｔｈｅｔｅｘｔｓ．Ｔｈｉｓｆｒａｍｅｗｏｒｋｆｉｒｓｔｌｙｓｔｕｄｉｅｓｔｈｅｉｍｐａｃｔｏｆｍｕｌｔｉ‐ｆｅａｔｕｒｅｓｏｎｔｈｅｓｈｏｒｔｔｅｘｔｓ’ｑｕａｌｉｔｙ．Ｔｈｅｎ，ａｌａｒｇｅａｍｏｕｎｔｏｆｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓａｒｅｄｕｇｏｕｔｆｒｏｍｔｈｅｈｉｇｈｑｕａｌｉｔｙｓｈｏｒｔｔｅｘｔｓｅｔｖｉａｓｅｔｔｉｎｇａｌｏｗｓｕｐｐｏｒｔｌｅｖｅｌ，ａｎｄａｓｉｍｉｌａｒｉｔｅｍｓｅｔｓｆｉｌｔｅｒｉｎｇｓｔｒａｔｅｇｙｉｓｄｅｖｉｓｅｄｔｏｄｉｓｃａｒｄｍｏｓｔｏｆｔｈｅｕｎｉｍｐｏｒｔａｎｔｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｂａｓｅｄｏｎｔｈｅｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｓｉｍｉｌａｒｉｔｙｅｖａｌｕａｔｅｄｂｙｒｅｌｅｖａｎｔｔｅｘｔｓ，ｗｅｐｒｏｐｏｓｅｄａｃｌｕｓｔｅｒｓｅｌｆ‐ａｄａｐｔｉｖｅｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ（ＣＳＡ＿ＳＣ）ａｌｇｏｒｉｔｈｍｔｏｆｏｒｍｔｈｅｉｔｅｍｓｅｔｓｉｎｔｏｄｉｆｆｅｒｅｎｔｔｏｐｉｃｃｌｕｓｔｅｒｓ．Ａｔｌａｓｔ，ｔｈｅｌａｒｇｅ‐ｓｃａｌｅｏｆｓｈｏｒｔｔｅｘｔｓａｒｅｃｌａｓｓｉｆｉｅｄｉｎｔｏａｓｓｏｃｉａｔｅｄｃｌｕｓｔｅｒｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｔｏｐｉｃｗｏｒｄｓｅｘｔｒａｃｔｅｄｆｒｏｍｔｈｅｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｃｌｕｓｔｅｒｓ．ＴｈｅｆｒａｍｅｗｏｒｋｉｓｔｅｓｔｅｄｏｎｏｎｅｍｉｌｌｉｏｎｏｆＳｉｎａＷｅｉｂｏｄａｔａｓｅｔｔｏｅｖａｌｕａｔｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｉｍｐｏｒｔａｎｔｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｅｌｅｃｔｉｏｎａｎｄｃｌｕｓｔｅｒｉｎｇ，ｔｈｅｔｏｐｉｃｗｏｒｄｓｅｘｔｒａｃｔｉｏｎ，ａｎｄｔｈｅｌａｒｇｅｓｃａｌｅｏｆｓｈｏｒｔｔｅｘｔｓｃｌａｓｓｉｆｉｃａｔｉｏｎ．ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅＳＴＣ‐ＴＥｆｒａｍｅｗｏｒｋｃａｎａｃｈｉｅｖｅｔｏｐｉｃｅｘｔｒａｃｔｉｏｎａｎｄｌａｒｇｅ‐ｓｃａｌｅｓｈｏｒｔｔｅｘｔｓｃｌｕｓｔｅｒｉｎｇｗｉｔｈｈｉｇｈａｃｃｕｒａｃｙ．Ｋｅｙｗｏｒｄｓ　ｌａｒｇｅ‐ｓｃａｌｅ；ｓｈｏｒｔｔｅｘｔｓ；ｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓ；ｃｌｕｓｔｅｒｉｎｇ；ｔｏｐｉｃｅｘｔｒａｃｔｉｏｎ摘　要　社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战．对此，提出基于频繁项集的短文本聚类与主题抽取ＳＴＣ‐ＴＥ（ｓｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇ＆ｔｏｐｉｃｅｘｔｒａｃｔｉｏｎ）框架．首先研究短文本的多特征对文本质量的影响，在基于高质量短文本集挖掘出的大量频繁项集基础上，设计基于相似度的频繁项集过滤策略ＳＩＦ（ｓｉｍｉｌａｒｉｔｙ‐ｂａｓｅｄｉｔｅｍｓｅｔｆｉｌｔｅｒｉｎｇ），可过滤掉８５％的非重要频繁项集；然后定义基于相关文本集的频繁项集相似度，并提出聚类个数自适应的频繁项集谱聚类算法ＣＳＡ＿ＳＣ（ｃｌｕｓｔｅｒｓｓｅｌｆ‐ａｄａｐｔｉｖｅｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ），实现频繁项集聚类与主题抽取；最后基于主题词将大规模短文本划分到相应的主题簇中，从而实现短文本聚类．基于１００万条新浪微博文本的实验结果表明，ＳＴＣ‐ＴＥ框架能够全面

基于文本的聚类算法研究本科毕设论文

摘要聚类作为一种知识发现的重要方法，它广泛地与中文信息处理技术相结合，应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘中的有效应用，它根据文本数据的不同特征，按照文本间的相似性，将其分为不同的文本簇。其目的是要使同一类别的文本间的相似度尽可能大，而不同类别的文本间的相似度尽可能的小。整个聚类过程无需指导，事先对数据结构未知，是一种典型的无监督分类。本文首先介绍了文本聚类的相关的技术，包括文本聚类的过程，文本表示模型，相似度计算及常见聚类算法。本文主要研究的聚类主要方法是k-均值和SOM 算法，介绍了两种算法的基本思想和实现步骤，并分析两种算法的聚类效果。同时介绍了两种算法的改进算法。关键词：文本聚类聚类方法K-MEAN SOM

Abstract Clustering as an important knowledge discovery method, which extensively with Chinese information processing technology, used in network information processing to meet the users to quickly access from the Internet, the information resources they need. Text clustering is a clustering problem in the effective application of text mining, which according to the different characteristics of text data, according to the similarity between the text, the text will be divided into different clusters. The aim is to make the same class as large as possible the similarity between the text, and different types of text as small as possible the similarity between. The clustering process without guidance, prior to the data structure is unknown, is a typical unsupervised classification. This paper studies the effect of influencing factors that text clustering, text representation of the model such as the Boolean model, vector space model, probabilistic retrieval model and language model. Also studied the analysis of such text clustering algorithm: hierarchical clustering, agglomerative hierarchical clustering algorithm, hierarchical clustering algorithm to split and so on. Also studied the text clustering algorithm analysis and methods of improvement. Key words：Text clustering clustering method k-mean som