基于微博热点分析的改进聚类算法

合集下载

基于短文本理解和改进聚类的微博热点发现

基于短文本理解和改进聚类的微博热点发现

徐 凤平 : 基 于短文本理解和改进聚类的微博热点发现
・ 3 3・
2 相 关 技 术
2 . 1 向量空 间模型
2 ) D i c e系数 S i m( i , . , ) = 生L—一

2 ∑W 啪w 卅

, 3 ) C o s i n e系数
文本数据 是一种 非结构化数据 ,计算机无法 对其
降维 的方式进 行短文本理解 以及根 据时间窗 口的算 法 改进机 制提升实验 的效率 , 给出实 验过程 , 分析实验结
果并得 出结论 , 提 需要进一步做 的工作 。
1 研 究现状
“ 话题发 现与追踪” 最初是为 了从新 闻报道 中发现 话题并进行后续 的追踪报道 ,研究 的 目标 是进行话题
徐 凤 平
( 南通 师范高等专科 学校 信 息技 术 系, 江 苏 南通 2 2 6 5 0 0 )
摘 要: 微博 短 文 本 具有 内容短 、 特征 稀 疏 、 数 据 量 大等 特 点 , 利 用传 统 方 法对 博 文进 行 热 点话 题发 现 的 效 果都 不理 想 ,
因此提 出 了一种 在 大规 模微 博 数据 集上进 行 热 点发 现 的方 法 。引入 外部知 识 库 来扩展 微 博信 息 , 利 用词 语 的语 义知 识进 行 短 文本 理 解 , 解 决 了由 于微博 文本 内容 短 、 特 征稀 疏产 生 的短 文 本 相似 度 较 难度 量 问题 引入 时问 窗 口机 制 对聚 类 算 法进 行 改进 , 满足 了热 点发 现 的 时效性 . 解决 了微 博 数据 量 大 导致 效 率低 的 问题 。 实验证 明 了方法 的有 效性 关键词 : 关键 词 : 微博 ; 短 文本理 解 ; 聚 类 改进 : 热 点发 现 中图 分 类号 : T P 3 9 1 文 献 标识 码 : A 文章 编 号 : 2 0 9 5 — 7 7 2 6 ( 2 0 1 7 ) 0 6 — 0 0 3 2 — 0 6

基于改进的k-means算法的新闻聚类的研究

基于改进的k-means算法的新闻聚类的研究

基于改进的k-means算法的新闻聚类的研究在信息爆炸时代,人们面对日益增长的新闻数量变得越来越困惑。

为了更好地进行新闻内容的管理和阅读,这就需要对新闻进行分类和聚类。

本文旨在研究一种基于改进的k-means算法的新闻聚类方法。

k-means算法是一种常用的聚类算法,它是一种迭代的、无监督的机器学习算法。

但是传统的k-means算法存在一些问题,例如对于初始聚类中心的选择较为敏感,可能会陷入局部最优解,并且对于数据集中不平衡的情况处理不佳。

为了改进传统的k-means算法,我们可以采用以下策略:1. 初始聚类中心的选择:传统的k-means算法通常随机选择初始聚类中心,这容易导致陷入局部最优解。

我们可以采用一种改进的方法,例如k-means++算法,该算法通过对初始聚类中心的选择引入了一定的随机性,从而避免陷入局部最优解。

2. 聚类中心的更新策略:传统的k-means算法使用平均值作为聚类中心的更新策略,但这种方法在处理不平衡的数据集时效果较差。

我们可以采用一种改进的更新策略,例如加权平均值,根据样本的权重来计算聚类中心的更新值,从而处理不平衡数据集的情况。

3. 距离度量方法的选择:传统的k-means算法通常使用欧氏距离作为距离度量方法,但这种方法对异常值比较敏感。

我们可以选择其他的距离度量方法,例如曼哈顿距离或者余弦相似度,根据具体的应用场景选择更合适的距离度量方法。

通过以上的改进策略,我们可以得到一种改进的k-means算法来进行新闻聚类。

具体的方法可以按照以下步骤进行:1. 选择初始聚类中心。

可以采用k-means++算法来选择初始聚类中心,从而避免陷入局部最优解。

2. 然后,计算每个样本与各个聚类中心的距离,根据距离将样本划分到最近的聚类中心。

3. 根据划分的结果,更新聚类中心。

可以采用加权平均值的方法来计算聚类中心的更新值,从而处理不平衡数据集的情况。

4. 重复步骤2和3,直到聚类中心的变化达到收敛。

微博聚类和分类算法

微博聚类和分类算法

微博聚类与分类算法:步骤如下1、中文分词与预处理2、特征选择3、文本特征向量表示4、文本聚类5、文本分类1-2:如果微博已经提取过关键字则直接进入下一步3、文本特征向量表示:将微博表示成关键字的集合使用向量空间模型。

常用的文本表示模型是向量空间模型(VSM)。

空间向量模型采用了独立性假设,将文本看成是相互独立的词条组(Tl,T2,T3,.…Tn)构成,而(wl,w2,w3,.…wn)为对应每个词条的权值。

PS:如果词条维度太多,还需要考虑降维即特征的选择。

V(d)=(tl,wl(d);t2,w2(d);…;tn,wn(d))其中ti为词条项,wi(d)为毛在d中的权值,n是特征项的维数。

这样每个文本就被映射到多维空间中的一个点。

权值一般采用布尔型或者词频型。

布尔型考察特征词是否在文本中出现,如果出现则权值为1,反之为0。

词频型考察特征词在文本中出现的次数,权值则为特征词出现的次数。

通过文本特征向量表示每条微博现在映射为多维空间中的一个点V1(w1l,w12,w13,.…w1n)V2(w2l,w22,w23,.…w2n)4、文本聚类4.1、计算点的距离。

(即向量V1和V2的相似度计算,主要通过向量运算)Cos cos(90)=04.2 聚类算法4.2.1、最简单的k-means 算法k-means 算法接受输入量k ;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。

聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

k-means 算法的工作过程说明如下:首先从n个微博向量任意选择k 个向量作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。

基于改进CURE算法的微博热点话题发现

基于改进CURE算法的微博热点话题发现
ABS T RACT : As t h e l a r g e a mo u n t o f i n f o r ma t i o n o n mi c r o b l o g p l a t f o m ,f r o r t h e a c c u r a c y o f h o t t o p i c s d e t e c t i o n,a me t h o d b a s e d o n c l a s s i c C U RE c l u s t e i r n g a l g o it r h m o f i mp r o v i n g a l g o i r t h m t o d i s c o v e r mi c r o b l o g Ho t To p i c s w a s p r o — p o s e d i n t h i s p a p e r.We s e l e c t e d 2 0, 3 9 1 C h i n e s e mi c r o — b l o g s a s t h e s a mp l e d a t a s e t .I t g r e a l t y i mp r o v e d t h e a c c u - r a c y a n d s p e e d o f c a l c u l a i t o n w h e n t w e e t s s p a r s e ma t i r x W a S u s e d t o d i me n s i o n r e d u c i t o n wi t h h i g h d i me n s i o n a l d a t a . S t a r t i n g w i t h t y p i c a l p o i n t s s e l e c t e d f r o m t h e C URE h i e r a r c h i c a l c l u s t e i r n g ,c o n v e t r i n g t y p i c a l p o i n t s i n t o t w e e t s s e e d

在线社交网络中基于聚类分析的热点话题挖掘研究

在线社交网络中基于聚类分析的热点话题挖掘研究

在线社交网络中基于聚类分析的热点话题挖掘研究随着网络技术的快速发展,人们越来越注重在线社交网络的使用。

在这个复杂的网络世界中,热点话题是人们关注的焦点。

热点话题具有一定的时间限制,但影响力却广泛,因此对其的挖掘和研究具有重要意义。

为了进行在线社交网络上热点话题的挖掘和研究,可以使用聚类分析算法。

聚类分析是一种数据挖掘技术,它通过将数据分组来识别数据中的相似模式。

在聚类分析中,数据点根据某些相似性指标被分为几个簇。

这些簇可以看作是相互之间有相似特性的一组数据集合。

在热点话题挖掘中,用户发布的内容可以看作是数据点,而聚类分析则将这些数据点分为不同的簇,以找到相似的话题。

在进行热点话题挖掘的过程中,首先需要对数据进行预处理。

这包括数据清洗、数据变换和特征提取等步骤。

数据清洗是指剔除无用信息和噪声。

数据变换是将数据由不同的表达方式转化为统一的表达方式。

在特征提取中,我们需要识别哪些特征可以反映话题的相似性。

例如,在微博中,可以通过文本、标签、时间和位置等特征进行相似性分析。

在对数据进行预处理后,可以使用聚类算法进行热点话题挖掘。

目前常用的聚类算法包括层次聚类、基于密度的聚类和基于划分的聚类等。

层次聚类是一种自底向上的聚类方法,它将数据点不断地合并形成类别。

基于密度的聚类则利用密度来刻画数据点之间的聚类度,而基于划分的聚类将数据点划分为若干个簇。

对于不同类型的数据,可以选择不同的聚类算法进行处理。

除了聚类算法,文本挖掘技术也是进行热点话题挖掘的重要手段。

在热点话题挖掘中,文本挖掘可以用于分析文本的情感倾向、主题分类及内容摘要等方面。

通过文本挖掘技术,可以对话题进行更加深入、准确的分析。

在热点话题挖掘的过程中,还需要其他辅助手段的支持。

例如,在微博中,热门话题标签可以反映用户对话题的关注程度。

通过分析热门话题标签的使用情况,可以更好地把握热点话题的变化。

总之,使用聚类分析算法进行在线社交网络中热点话题挖掘具有较高的准确度和效率。

基于改进的k-means算法的新闻聚类的研究

基于改进的k-means算法的新闻聚类的研究

基于改进的k-means算法的新闻聚类的研究一、改进的k-means算法原理改进的k-means算法是在传统的k-means算法基础上进行改进的,其核心思想是通过改进初始聚类中心的选择和优化迭代过程,来提高算法的聚类效果和运行速度。

具体而言,改进的k-means算法主要包括以下几个方面的改进:1. 初始化聚类中心的选择:传统的k-means算法通常是随机选择初始聚类中心,这样容易导致算法陷入局部最优解,因此改进的k-means算法采用了一种基于距离的初始聚类中心选择方法,即首先选择一个随机样本点作为第一个聚类中心,然后选择离该聚类中心最远的样本点作为第二个聚类中心,以此类推,直到选择出k个初始聚类中心。

2. 优化迭代过程:传统的k-means算法的迭代过程通常是通过不断更新聚类中心来优化聚类效果,但该过程可能会陷入局部最优解,因此改进的k-means算法引入了一种加速因子,即在每次迭代时,通过考虑样本点与其所在聚类中心的距离,来加速收敛过程,从而更快地找到全局最优解。

以上改进使得改进的k-means算法在运行效率和聚类效果上都有了明显的提升,尤其是在新闻聚类这种大规模数据的场景下,其优势更加明显。

二、新闻聚类的研究现状随着互联网的快速发展,新闻信息的数量呈现爆炸式增长,如何高效地对新闻进行聚类成为了一个亟待解决的问题。

目前,对于新闻聚类的研究主要集中在以下几个方面:1. 特征表示方法:新闻的特征表示对于聚类效果起着至关重要的作用,目前常用的特征表示方法包括词袋模型、词向量模型等,研究人员不断探索更加有效的特征表示方法。

2. 聚类算法:除了传统的k-means算法外,还有一些其他的聚类算法被应用于新闻聚类中,如层次聚类、密度聚类等,研究人员在不同算法之间进行对比和优化,以提高新闻的聚类效果。

3. 实际应用:新闻聚类技术已经在新闻推荐、舆情分析等领域得到了广泛的应用,研究人员还在探索更多的实际场景下的应用方式,以提高新闻聚类技术的实际效益。

基于Hadoop的微博热点话题发现的聚类算法

2016年软 件2016, V ol. 37, No. 10作者简介: 彭玉青(1969-),女,教授,CCF 会员,研究方向:智能信息处理与计算机视觉。

基于Hadoop 的微博热点话题发现的聚类算法彭玉青,高红灿,张媛媛,董 良(河北工业大学计算机科学与软件学院,天津 300401)摘 要: 针对海量微博数据无法高速、精准发现热点话题的问题,基于Hadoop 大数据处理技术,提出了一种面向微博热点话题发现的文本聚类算法。

利用大数据处理平台Hadoop 下开源机器学习软件库Mahout ,将文本聚类和热点话题相结合,对基于余弦距离测度的K-means 算法进行改进,通过对不同区间范围的余弦距离进行适当的增大或缩小,提高了微博热点话题聚类结果的簇内聚集度和簇间分离度。

实验结果表明,采用修改余弦距离的改进的K-means 算法,微博热点话题聚类结果的簇内距离减少了2.72%,簇间距离增大了4.12%,召回率和准确率也分别提高了7%和6%,有效的提高了微博热点话题发现的聚类质量。

关键词: 话题发现;K-means 聚类算法;簇内距离;簇间距离;Hadoop ;Mahout 中图分类号: TP301 文献标识码: A DOI :10.3969/j.issn.1003-6970.2016.10.011本文著录格式:彭玉青,高红灿,张媛媛,等. 基于Hadoop 的微博热点话题发现的聚类算法[J]. 软件,2016,37(10):46-50Text Clustering Algorithm for Microblog Hot Topic Detection Based on HadoopPENG Yu-qing, GAO Hong-can, ZHANG Yuan-yuan, DONG Liang(School of Computer Science and Engineering, Hebei University of Technology, Tianjin 300401, China )【Abstract 】: Aiming at the problem that Microblog data can not be found hot topic rapidly and accurately, a new text clustering algorithm for hot topic detection is proposed based on Big Data processing technology. Combining text clus-tering and hot topics, the K-means algorithm with cosine distance measure is modified by using data mining learning library Mahout which is under cloud computing platform Hadoop. By increasing or decreasing the cosine distance of different interval ranges appropriately, the new algorithm improves the intra-cluster aggregation and inter- cluster sepa-ration of microblog hot topic clustering result. The experimental results show that, the advanced K-means algorithm by modified cosine distance measure results in a better result comparing with the traditional K-means algorithm, in-tra-cluster is decreased by 2.72% and inter-cluster distance is increased by 4.12%, recall rate and accuracy are increased by 7% and 6% respectively, which improves the clustering quality of hot topic detection effectively.【Key words 】: Topic detection; K-means clustering algorithm; Intra-cluster distance; Inter-cluster distance; Hadoop; Mahout0 引言在一定的时间与范围内公众最为关心的话题称为热点话题,最早源于DARPA 开展的话题监测与跟踪(Topic detection and tracking ,TDT )[1]项目。

基于改进的k-means算法的新闻聚类的研究

基于改进的k-means算法的新闻聚类的研究我们对k-means算法进行了改进,主要包括两个方面的优化:一是优化初始聚类中心的选择,二是优化簇的划分方式。

在传统的k-means算法中,初始聚类中心的选择通常是随机的,这容易造成算法收敛到局部最优解的情况。

因此本研究采用了一种基于密度的聚类中心初始化方法,通过计算每个样本点与其他样本点的距离,并选取距离其他点较远的点作为初始聚类中心,从而提高了算法的稳定性和准确性。

而在簇的划分方式方面,我们采用了一种自适应的距离阈值来确定簇的划分,以避免传统k-means算法中需要提前设置固定的距离阈值的缺点,从而使得簇的形状可以更加灵活地适应不同的数据集。

针对新闻数据的特点,本研究还提出了一种基于改进的文本相似度计算方法,以更准确地衡量新闻之间的相似度。

在传统的文本相似度计算方法中,通常使用TF-IDF值或者词向量的余弦相似度来计算文本之间的相似度,然而这种方法对于一些主题相近但词汇不同的新闻往往难以准确地判断相似度。

因此本研究提出了一种基于主题特征的文本相似度计算方法,通过对新闻文本进行主题建模,利用主题特征来度量新闻之间的相似度,从而更加准确地进行新闻聚类。

本研究通过大量的实验验证了所提出的基于改进的k-means算法在新闻聚类方面的有效性。

实验结果表明,相比于传统的k-means算法,我们提出的算法在不同的数据集上都取得了更好的聚类效果,能够更加准确地将新闻进行分类,并且具有更好的稳定性和鲁棒性。

所提出的文本相似度计算方法也能够更准确地度量新闻之间的相似度,并且在新闻聚类中取得了更好的效果。

本研究提出了一种基于改进的k-means算法来进行新闻聚类的研究,通过对k-means 算法的优化以及新闻数据的特点进行了针对性的优化,取得了很好的效果。

未来,我们将继续对该算法进行改进,以适应更加复杂的新闻数据,同时将其应用到实际的新闻推荐系统中,为用户提供更加个性化、精准的新闻推荐服务。

一种改进的K均值微博热点话题发现方法

2019.1数据通信Technology Discussion 1/一种改进的K均值微博热点话题发现方法何诺马苗苗(四川大学计算机学院四川成都610065)摘要:本文对于K均值聚类算法应用在大量微博数据集中聚类效率低,正确性不高的问题,提出了一种改进的K均值微博热点话题发现方法。

在对微博特有属性的研究基础上,利用微博转发关系解决微博内容碎片化导致的聚类准确性及效率较低的问题;实验结果表明本文提出的改进的K均值聚类算法比传统的K均值热点话题发现,准确率提升了 11.3%,聚类比较次数提升了 27.5% 〇关键词:微博转发关系;K均值;微博话题;热点发现;WonGvec1引言随着互联网的高速发展,人们已经迈向了一个信 息化的时代,互联网上的信息交流和获取逐渐取代了 传统的电视、报纸、书信等传统媒体。

据中国互联网信 息中心第42次调查显示,到2018年6月,我国网民规 模达80200亿,互联网普及率为57.7%[1]。

作为Web2.0时代的代表产物之一,微博已经成为 人们热点咨询、实时政治获取的重要渠道。

目前较主 流的微博产品:在国内,主要有新浪微博、腾讯微博,国外主要有脸书、推特等。

如何从微博平台产生的巨量 中文短文本中挖掘出热点话题已经成为国内外研究者 关注的一个热点问题。

同时,微博独特的网络体系结 构、多种多样的信息来源、丰富的内容形式及裂变式的 扩财式给热点话题的挖掘增加了很大的难度。

热点话题通常指特定时间和特定范围内的突发性 公共最关心的热门事件,常常极其容易引起公众共鸣 和激烈讨论;目前,微博平台热门话题挖掘的相关研究 按照发现算法的流程主要分为三个部分:前期的热门 话题传播分析、中期的话题检测和后期的热点发现[2'与技术(Topic Detection and Tracking, TDT)的概念最开始是在1996年,美国国防高级研究计 划署提出来的,它的提出的宗旨是为了在信息爆炸的互联网时代能够帮助人们更快、更好、更有效的获取有 用的信息[6];如何快速、有效的在海量数据中发现热点 话题,不仅能獅助个人更准确的了解社会热点资讯, 同时还能辅助国家及时发现网络舆情事件、趋势,在网 络舆情分析、重大网络事件监测防御、信息网络安全等 领及其重要的现实意义。

基于微博热点发现的改进ssdkmeans算法

130 •电子技术与软件工程 Electronic Technology & Software Engineering 计算机技术应用 • the Application of Computer Technology【关键词】SSDKmeans 算法 微博特点 数据抓取在当前的微博平台上,部分人认为该平台上的数据繁多,并且存在大量杂乱无章的内容,通过对其中的关键资料进行整理分析,可以有效提取其中的热点话题数据,保证了信息数据的利用率。

1 对改进SSDKmeans算法的分析1.1 对Kmeans算法的认识Kmeans 算法又被称为K-均值算法,是目前信息数据处理过程中一种最为常见的划分聚类算法,在该方法中,需要给定一个K 值作为基础数据,在随机从数据集中提取K 个点作为算法执行的初始中心后,再计算其他数据点与这个K 初始中心的相似度,并将其归纳到相似度最大的类簇中,并在此计算中心点。

在整个数据处理环节,工作人员通过持续的迭代上述计算过程,最终会获得一个新的聚类中心点,该聚类中心点不会变化。

在这个过程中,Kmeans 算法的计算过程为:(1)输入若干个数据对象,将其定义为K 值。

(2)输出K 个聚类结果;(3)算法的步骤为:①从若干个数据中随机选K 个初始类簇中心点;②对数据的归纳处理;③对每个样例做归纳处理,其计算公式为:④再重新计算每个类的质心,计算公式为: ⑤聚类中心不再变化。

在上述计算公式中,K 代表事先给定的聚基于微博热点发现的改进SSDKmeans 算法文/陈来类数量;c (i)代表与数据点i 之间距离最近的类,取值范围为:1-K ;μj 代表质心,属于类簇的中心。

在整个数据处理过程中,Kmeans 算法获得的聚类结果手初始值的影响,若在数据处理过程中没有选择到理想的初始值,或者初始值的选择与原始聚类之间的分布存在较大的差异,这种情况将会造成算法迭代的次数快速增多,造成算法所能获得的聚类结果存在差异,甚至出现局部最优的情况,无法满足当前海量数据下的数据抓取要求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的速 度 。
关 键词 : 微博 聚 类算 法 ; K Me a n s算法
中图分 类号 : T P 3 1 1 问题 的提 出 文献标 识码 : A


具系统 I C T C L A S 2 0 1 5 对微博 的文本进行分词 , 并
使 用开 源 工 具 L u c e n e建 立 索 引 库 。考 虑 到 本 文 主要 研究 的 是微 博 热点 的 聚类 , 所 以主 要 采 集 的
词条 t 的条 件熵 :
H( I t )= 一∑d i ( P ( I t )×l o g 2 ( P ( d l t ) ) )( 4 ) P ( d I t ) 是特征词 t 出现 之 时 , 文档 d 出现 的条 件 概 率 , P( d ) 表 示 文 档 出 现 的 概 率 。 P ( d ) 的计 算公式 为 : P ( d )=I Wo r d ( d i ) I / ∑ 。 l Wo r d ( d i ) l

定 的不 足 与局 限 : 在算 法 设 计 上 效 率 和 速 率 之
间缺 乏很 好 的平 衡 , 基 于此 本 文 试 图提 出 一 种 改
给定的微博文本而言 , 可 以将每一个特征词都
进 的微博 热点 自动 发现 的聚类算 法 。
二、 数据 采集 与文本 的预处 理
看 作是 一个 类 , 所 以对 于信 息增 益 法 , 进行 了以下
第3 6卷第 9期
2 0 1 6年 9 月
湖 北 科 技 学 院 学 报
J o u r n a l o f Hu b e i Un i v e r s i t y o f S c i e n c e a n d Te c h n o l o g y

其中, 指 的是 在 文 本集 中 出现 过 t 的文 本
总数 目, I G ( t ) 即t 对于聚类对象的信息增益值。
I G( t )=H( D)一H( DI t ) ( 2 )
收 稿 日期 : 2 0 1 6— 0 6— 2 9

湖北 科技 学院学报
的改进 , 如式 ( 1 ) 至( 6 ) 所示 : I G ( ): l o g 2 ( + 0 . O 1 )×I G( ) ( 1 )
1 . 数 据采集
本文中我们选取 了模 拟登 陆的数 据爬取 方 式, 对新浪微博的语料数据进行采集 。在 对语料 进行了清洗和预处理之后 , 使用了中科 院分词工
( 1 ) 信 息增 益
法 的话 题 发现方 法 ; 文献[ 4 ] 提 出一 种 基于 主题词 的 中文微博 热点话 题发 现方 法 ; 文献[ 5 ] 提 出一种 基 于离 散 P S O( D P S O) 的热 点 话 题 发 现 算 法 。可 以看到 的是尽 管在 微博 的热 点发 现 问题 上 已经 具 有 各种 方法 的应 用 , 取得 了一 定 的成果 , 但 也存 在
微 博对信 息 即时 分 享 的特 质 , 使 其 成 为 舆 情 观 察 与 研 判 的最 佳 窗 口, 具有相 当强的时效性 。
同时, 对微博进行 信息分析可以发现社会群体关 注的热点话题是什么以及受众在这些话题上的倾 向和态度 。相 关 的 研 究 工作 已 经有 不 少 , 如 文献
第3 6卷
其中, 文 档集合 D 的信息 熵 为 :
H( D)=一∑d i e d ( p ( d )×l o g 2 ( P ( d ) ) ) ( 3 )

算每个词的信息增益时适当考虑加大其 H( DI t )
的值 , 降低 其 I G 的值 ; 而 多字 词 则是 需 要 增 大其
V0 1 . 3 6. No . 9
S e p. 2 01 6
文章编 号 : 2 0 9 5— 4 6 5 4 ( 2 0 1 6 ) 0 9— 0 0 0 1 — 0 3
基 于 微 博 热 点 分 析 的 改 进 聚 类 算 法
宋 华 明
( 咸 宁市公 安局 公 安科 学技术 信 息规 划建设 部 , 湖北 咸 宁 4 3 7 1 0 0 )
摘 要: 微博 中热点话题 的 自 动发现对于舆情监测与研判具有 重要 的价值和意义, 已有的研究 直在速度与效率之间缺乏有效的平衡 。本文在 K M e a n s 聚类算法的基础上, 提 出了一种改进

的K M e a n s P l U S 算法来试图发现微博的热点话题 。通过 随机选取的 1 0 0 0 0条微博语料对比 实 验 分析 表 明 , 与传 统 的 K Me a n s算 法相 比较 , K Me a n s P l u s 算 法 能够在 很 大程度 上 有 效提 高计 算

微博的文本一般较为短小 , 通常字数被 限定 在汉语字符 1 4 0以内, 这种短字符集 的特征 给文
本 里 面特 征词 的提 取 带 来 了一 定 的 困难 , 因此 我
们选择了通过信息增益的方法来进行特征词的提 取 。与分类 中的信息增益不 同的是 , 聚类 中的信 息增益不会去区分每一个类的具体特征 。对于某
方式 来 爬 取 数 据 ; ( 2) 通过 P y t h o n爬 取 网 页 的
H T ML源 代码 。 2 . 特 征 向量 的提取 与筛 选
播聚类方法; 文献[ 3 ] 结合微博 的语言特征 , 从语 义 的角度对 微博 里面 的热话 题 自动 发 现技 术 进行
了全 面 的研 究 , 提 出一 种 基 于 改进 H —K聚 类 算
[ 1 ] 提 出一 种改 进 的 C U R E算法 来 试 图发 现微 博 中的热点 问题 ; 文献 [ 2 ] 则是 提 出了一 种多标 签传
信息是微博用户发表或转 载的短文本 , 采集的方
式有 两类 : ( 1 ) 通 过 关 键 词 查 询 的 方 式 来 爬 取 语
料, 分别为用户发布微博 内容和 以关键字查找的
相关文档
最新文档