基于层次聚类的微博敏感话题检测算法研究
【原创】层次聚类的微博敏感话题检测算法研究文献阅读汇报PPT

在计算两个分类之间的相似度时,每次都尽可能地从距 离最远的两个元素开始计算,一旦计算到两个元素之间 的距离大于预先设定的阈值,则认为这两个分类的相似 度较低,不满足聚类的条件,直接退出聚类运算。
4
测试
检测精度=
虚警率=
召回率=
漏报率=
检测时间:通过对给定的微博语料信息统计完成该语料信息检测全过程所消耗的时间
检测算法
假设初始待分类的文 本信息有N组,将每 一组文本信息设定为 一个初始的分类
N个待分组的数 据源形成N个初 始的分类结果
对初始分类结果中的不同类两 两进行比较,分别计算任意两 个类之间的相似度值,形成分 类结果的相似矩阵
直到待分类的初始的 文字语料全部进行聚 类计算并得到与预期 要求的分类数目完全 一致的分类结果
B=(s1w1,…,siwi,…,snwn)
其中B表示微博文档,si表示抽取的特征词,wi表 示特征词的权重,n表示微博文档空间向量模型定 义的维数,维数越高则微博文档描述越精细,越 能精确地反映微博中的内容,但随之信息处理的 复杂度也越高。
Step4:
定义文档之间话题的关联度
D(B1,B2)=
3
Step2:
针对已经采集到的微博语料信息,将对微 博的语料进行分词,从原始的微博语料中 提取特征词,以特征词作为衡量微博话题 内容的重要指标。为了提高微博特征词提 取的完整程度,所提取的初始特征词包括 了微博原始语料中的所有词汇。
Step3:
对微博话题的描述采用空间向量的描述模型,即一个微博话题可以表示为多个特征向量值所 组成的空间向量。 对于任意的一个微博文档,抽取其特征词表示该微博文档的内容特征,由于每个特征词对整 个微博文档的影响力各不相同,因此,给每个特征词定义一个权重,此时微博文档的空间向 量模型表示为:
基于聚类定量分析的微博舆情监测与预警

1 3 J 陈 守 湖. I P 出版 与 产业 创 新 [ J J . 中 国 出版 ,2 ( J l 6 ( ( ) 8 )
『 4 ] 余 海燕 网络原创文学网站的赢利模 式分析—— 以起点 中文
网 为例 [ J 1 出版 发 行 研 究 ,2 0 1 5( 0 2 )
5尹鸿,王旭东 ,陈洪伟 ,冯斯亮
化 ,网络作 者 已经成 为其 中不 可忽视 的力量 。建 议推 广 中 乐 、综 艺 等业态 的连接 、创 新与 融合 。
国 作 家协会 举 办网络 文学 作 家培训班 的经验 ,有 汁划 、有 步 骤 的培 训网络 作者 ,引导和 鼓励 网络 文学 作者 坚持 先进
作 者 系北 京 市 新 闻 出版 研 究 中心 主 任
f I 1 刘峰 .出版机 构I P 化经营:媒 体融合 背景下的创新策略探 析
[ J ] 出版 发行 研 究 ,2 ( 3 1 5 ( 0 9 ) .
『 2 1 彭侃
2 ( ) 1 5 f ( 9) .
好 莱坞 电影的 I P 开发与 运营机 制 【 J1 5代 " - 电影 ,
文化 的前进 方 r Ⅱ J ,帮助 了解掌 握 国家改 革开 放 的形势 和文 化 建设 的 状况 ,增强 作 者的社 会责 任 感 , 培 养关 注社 会现 实的 能 力和深 入社 会实 践 的意 识 ,使之 能 够写 出更 / / I J  ̄ , / / 近
时代 、鼓 舞 人心 的优秀 网络 文学 作 品 ;组 织 网络原 创文 学 参考 文献
P 价 值 ,形 成 “ I P + 平 台+ 内 容+ 终端+ 应 向 ;建立 I P 开发 选题 预警 机制 ,提 示 选题 开发 风险 ,调 节 融合 ,充 分发 挥 I
基于SOM聚类的微博话题发现

1?8D9HI9LJ9K?8B>FJF8J?9C H5BF> 9C /U1 8I4BJFD?CL
/9CL0?C55' VFCLp4KFCLH ' 0?4 0?A4C5' O45CLo?CLB9CL5'8
% )IO)"8%*4$&?,&$+;)*-$, .,/-,((+-,/ 5 E8*$;)*-$,' YI.C8")*-$,)%6("#,$%$/45 H(*>$+@0(,*(+' "IX8,,), S+$2-,"-)%P(4L)Y$+)*$+4$& 0$;B8*(+6("#,$%$/4EBB%-")*-$,3' P8,;-,/ 1,-2(+3-*4$&!"-(,"(56("#,$%$/4' P8,;-,/ (,",""' 0#-,)&
!"引言
近年来'随着微博用户的不断增多'微博平台已经广泛渗 入到人们的生活中) 微博'即微博客% :?8D9HI9L& 的简称'是一 个基于用户关系的信息分享(传播及获取平台) 由于微博可以 用来传播实时消息(发布新闻广告等'所以越来越受到人们的 关注*#+ ) 在信息多样化的今天'如何能够从海量信息中获取 有用的信息并进行新的话题发现'是当今学者研究的热点之 一) 如今'微博信息数量以指数级的形式迅速增加'给大众带 来实时消息的同时也增加了信息的冗余和噪声以及微博话题 发现的难度*!+ ) 因此'进行精确而快速的话题发现'不但能够 对微博平台进行及时监管'营造良好的互联网氛围'还能够及 时了解科研趋势并发现有用话题'为科研提供重要信息*&+ )
中文微博的热点话题检测及趋势预测算法研究

摘要微博已成为信息时代优秀的主流自媒体平台,作为网民发布、获取信息的关键桥梁,微博话题与现实社会民情紧密相联。
对微博热点事件的检测与分析是网络舆情监测工作的一项重点,如何在海量微博数据中提取有效的热点信息,以及如何正确跟踪关键热点信息,已经成为微博数据挖掘的研究重点。
支撑一条微博参与到热点话题的关键因素是微博内容,因此以微博内容为出发点研究微博热点话题的抽取与预测工作是有效的。
论文提出一种基于内容的中文微博热点话题检测与趋势预测算法。
通过对微博的文本内容特征和传播特征的研究,针对其文本短、词频低、互动功能使用频繁等特点,结合LDA话题抽取结果设计出基于内容的热点话题检测算法(LDA driven Content-based Hot topic detection Algorithm, LDA-CHA);然后基于所检测的热点话题结果,构造基于话题内容参与状态的隐马尔科夫模型(Content Participation-based Hidden Markov Model, CPHMM),有效预测热点话题的短期热度趋势。
论文主要工作及创新如下:(1)分析研究传统热点检测方法的特点,并结合微博自身影响力特征,论文提出基于内容的热点话题检测算法LDA-CHA,同时从语义和词频两个角度考虑微博的文本特征,综合微博转发、评论、点赞等直接传播特征,考察其线性关系并通过因子分析法改进微博热度计算公式,并结合语义权重和词频权重改进话题热度计算公式,有效地提升热点话题检测的准确率。
(2)热点话题的热度趋势预测。
通过对热点话题的微博内容参与率和话题热度状态的定义与识别,在LDA-CHA热点检测结果的基础之上,论文构造了用于热点话题趋势预测的隐马尔科夫模型CPHMM,通过训练能够学习出模型参数的局部最优解,经过评估训练所得的预测模型相对可靠,其计算复杂度与输入语料的规模亦在可接受范围内,预测结果具有可信性。
(3)论文基于真实微博数据集,实验验证了热点话题检测结果的准确性,评估了热度趋势预测模型的可靠性,对比实验结果充分证明了论文模型的有效性。
微博数据提取及话题检测方法研究

微博数据提取与话题检测方法研究的内容如公式5.2中所示。
在上述定义的公式中召回率和漏检率的和为1。
错检率(B。
)如公式5.4所示:如=FAINT×100%(5.4)其中FA表示的是话题检测系统错误地检测出的属于该话题的文本数量。
Ⅳ7表示的是所有不属于该话题的文本的数量。
耗费函数值(Cm,)如公式5.5所示:(k,=G☆,×艺妇×弓。
g甜+%x毛x只一恤。
(5.5)耗费函数值是通过漏检率和错检率计算出来的,这个数据指标是对实验结果综合的评价。
公式中,£栅和如如上公式5.3和5.4所示,G栅和%是对应的代价系数,分别表示的是漏检和错检一个文本的代价,霉榷。
和圪。
州为频率系数,其中#啦。
表示的是有关某个话题文本出现的几率,e。
表示的是有关某个话题文本不出现的几率,£。
删与只。
一:雌。
和为l。
其中这几项系数Cm泌、C鲥、只。
;群和‰一,。
;。
都是实现设定好的值,~般情况下将这些参数设置如下:G括,--1.0,c■=o.1,只姗。
=0.02,£。
一,。
删=l-Ptarget=o.98。
当%越小时代表该话题检测系统的效果越好。
5.4相似度参数及时问参数的确定从相似度计算公式(4.17)可知,在进一步实验之前需要先确定参数tZ的值和口的值。
a表示了微博在内容相似度上的影响,∥表示时间参数对相似度的影响,如图5.1。
l粤…7蓄o.08\私\壤0.07O.06\0,05,——\0.04\\、—/一~nr,L—————————一————一O.01…一0.60.650.7O,75O.80.850.90.951a取值图1口取值对聚类结果的影响Fig.1TheinfluenceofclusteringresultsbasedOnvalueof口。
基于改进CURE算法的微博热点话题发现

基于层次结构的多策略中文微博情感分析和特征抽取

基于层次结构的多策略中文微博情感分析和特征抽取一、本文概述本文旨在探讨基于层次结构的多策略中文微博情感分析和特征抽取方法。
随着社交媒体的普及,微博已成为人们表达情感、分享观点的重要平台。
然而,微博短文本的特点使得情感分析和特征抽取面临诸多挑战,如文本长度短、信息量大、语义复杂等。
因此,研究有效的情感分析和特征抽取方法对于理解微博用户的情感倾向、挖掘潜在的社会价值具有重要意义。
本文首先介绍了中文微博情感分析和特征抽取的研究背景和意义,阐述了当前研究的挑战和发展趋势。
接着,详细阐述了基于层次结构的多策略情感分析方法,包括文本预处理、特征提取、情感分类等步骤,并重点介绍了层次结构在情感分析中的应用。
在此基础上,本文进一步探讨了特征抽取的方法,包括基于规则的特征抽取、基于统计的特征抽取和基于深度学习的特征抽取等,并对各种方法进行了比较和分析。
本文的创新点在于将层次结构引入中文微博情感分析和特征抽取中,充分利用了微博文本的层次性特点,提高了情感分析的准确性和特征抽取的有效性。
本文还结合多种策略进行情感分析和特征抽取,充分考虑了微博文本的复杂性和多样性。
本文总结了研究成果和贡献,指出了研究中存在的不足之处和未来的研究方向,为中文微博情感分析和特征抽取的研究提供了有益的参考和借鉴。
二、文献综述近年来,随着社交媒体的快速发展,微博等短文本社交平台已经成为公众表达情感、分享观点的重要渠道。
因此,对微博文本进行情感分析和特征抽取成为了自然语言处理领域的研究热点。
情感分析,也称意见挖掘或情感倾向性分析,旨在判断文本的情感倾向,如积极、消极或中立。
特征抽取则是从文本中提取出能够代表其情感倾向的关键信息或词汇。
针对中文微博的情感分析和特征抽取,已有大量研究提出了不同的方法和策略。
基于层次结构的方法在情感分析中逐渐受到关注。
这种方法将文本按照句子、短语或词汇等不同层次进行划分,并在每个层次上进行情感分析。
例如,某些研究首先对整个微博文本进行情感判断,然后进一步对其中的句子或短语进行细粒度分析。
在线社交网络中基于聚类分析的热点话题挖掘研究

在线社交网络中基于聚类分析的热点话题挖掘研究随着网络技术的快速发展,人们越来越注重在线社交网络的使用。
在这个复杂的网络世界中,热点话题是人们关注的焦点。
热点话题具有一定的时间限制,但影响力却广泛,因此对其的挖掘和研究具有重要意义。
为了进行在线社交网络上热点话题的挖掘和研究,可以使用聚类分析算法。
聚类分析是一种数据挖掘技术,它通过将数据分组来识别数据中的相似模式。
在聚类分析中,数据点根据某些相似性指标被分为几个簇。
这些簇可以看作是相互之间有相似特性的一组数据集合。
在热点话题挖掘中,用户发布的内容可以看作是数据点,而聚类分析则将这些数据点分为不同的簇,以找到相似的话题。
在进行热点话题挖掘的过程中,首先需要对数据进行预处理。
这包括数据清洗、数据变换和特征提取等步骤。
数据清洗是指剔除无用信息和噪声。
数据变换是将数据由不同的表达方式转化为统一的表达方式。
在特征提取中,我们需要识别哪些特征可以反映话题的相似性。
例如,在微博中,可以通过文本、标签、时间和位置等特征进行相似性分析。
在对数据进行预处理后,可以使用聚类算法进行热点话题挖掘。
目前常用的聚类算法包括层次聚类、基于密度的聚类和基于划分的聚类等。
层次聚类是一种自底向上的聚类方法,它将数据点不断地合并形成类别。
基于密度的聚类则利用密度来刻画数据点之间的聚类度,而基于划分的聚类将数据点划分为若干个簇。
对于不同类型的数据,可以选择不同的聚类算法进行处理。
除了聚类算法,文本挖掘技术也是进行热点话题挖掘的重要手段。
在热点话题挖掘中,文本挖掘可以用于分析文本的情感倾向、主题分类及内容摘要等方面。
通过文本挖掘技术,可以对话题进行更加深入、准确的分析。
在热点话题挖掘的过程中,还需要其他辅助手段的支持。
例如,在微博中,热门话题标签可以反映用户对话题的关注程度。
通过分析热门话题标签的使用情况,可以更好地把握热点话题的变化。
总之,使用聚类分析算法进行在线社交网络中热点话题挖掘具有较高的准确度和效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 基于层次聚类的话题检测算法
2. 1 层次聚类算法设计原理 层次聚类算法是一种非常经典的聚类算法 . 广泛 应用于文本识别 、 文本 分 类 等 相 关 应 用 领 域 , 并且通 过长时间的应用表明 , 层次聚类算法在文本识别和分
3 1 4 - 类方面具有很好的应用价值 1 . [ ]
[ ] [] []
赵 艳 红, 聂哲提出一种针 .
*
收稿日期 : 2 0 1 2 1 0 1 2. - - ( ) 基金项目 : 广西哲学社会科学课题 “ 基于物联网技术的图书馆服务模式研究 ” 1 1 B TQ 0 0 1 . , 作者简介 : 潘大庆 ( 男, 广西柳州人 , 柳州市委党校副教授 , 工程硕士 , 研究方向 : 计算机网络安全 . 1 9 7 0 -)
关键词 :敏 感 话 题 ; 层次聚类; 检测; 微博; 词频 ; 词性 中图分类号 : T P 1 8 文献标识码 :A ( ) 文章编号 : 1 6 7 3-8 4 6 2 2 0 1 2 0 4-0 0 5 6-0 4
0 引言
随着信息时代的迅猛发展 , 网络舆论对国家和社 会的稳定与发展有着十分重要的影响作用 1-2 . 而近 年来 , 在网络上新出现的微博这种信息发布和传播方 式, 在很短的时间内 受 到 广 大 用 户 的 青 睐 , 并且利用 微博进行信息的发 布 已 经 成 为 当 前 形 成 和 传 播 社 会 为了能够对通过微博发布和传 舆论的一个重要途径 . 播的社会舆论更好地跟踪和识别 , 有必要开展对微博 舆论的监测和识别算法的研究 . 目 前, 针对网络上的娱评分析和研究的相关工 作, 在数年前已经有一系列的研究成果 . 比如 :洪宇 , 张宇等通过介绍话 题 检 测 与 跟 踪 的 研 究 背 景 、 任 务、 定义 、 评 定 方 法 以 及 相 关 技 术, 分析了目前 T D T领 [ 3] 洪宇 , 张宇 , 范 域的研究现状展望未来的发展趋势 . 基礼等提出基于语 义 域 语 言 模 型 的 关 联 性 检 测 方 法 来检测任一新闻报道是否为论述同一话题 , 显著改进 了现 有 检 测 系 统 话题检测算法研究之前 , 需要对微 博话题建立描述模型 , 并通过完善的微博信息适时获 取平台采集 , 微博信息的适时更新状况并通过采集的 微博更新信息应用 微 博 话 题 的 描 述 模 型 进 行 微 博 话 题的归一 化 表 示 由于微博信息的发布方式与 . 普通的网页发布方式有较大的差别 , 微博能够通过用
户之间建立起来的 关 联 关 系 快 速 地 进 行 信 息 的 转 载 因此 , 在网络 上 获 取 微 博 信 息 需 要 首 先 对 微 和传播 . 博用户所建立的连接关系进行提取 , 采集微博用户当 前与其相关联的其 他 微 博 用 户 并 对 用 户 相 关 联 的 所 有微博用户信息更新状态进行了监控 , 一旦发现任何 一个用户扩散的微博信息有更新 , 则立刻对更新的微 博内容进行采集 . 通过这种方式能够及时的发现网络 并及时地对所有 上微博用户的信息发布及更新情况 , 完成微博语料的最初始的 微博更新的信息进行采集 , 提取
层次聚类算法的 设 计 原 理 是 根 据 待 聚 类 的 初 始 文本信息进行划分 , 假设初始待分类的文本信息有 N 组, 则将每一组文本信 息 设 定 为 一 个 初 始 的 分 类 . 因 此, N 个待分组的数据源将形成 N 个初始的分类结 果, 之后对所形成的初始分类结果进行层次化的聚 类. 其聚类的原则是 : 对初始分类结果中的不同类两 两进行比较 , 分别计 算 任 意 两 个 类 之 间 的 相 似 度 值 , 并形成分类结果的相似据证 , 如果相似据证中的某个 元素小于分类预值 , 则将这两个分类结果形成一个新 的聚类集合 . 如此不断 循 环 , 直到待分类的初始的文 字语料全部进行聚 类 计 算 并 得 到 与 预 期 要 求 的 分 类 此时 , 停止聚类算法 , 输出 数目完全一致的分类结果 , 聚类结果 . 传统的这种分层 聚 类 算 法 在 具 体 实 现 过 程 中 主 )当 使 用 文 本 特 征 词 描 述 微 博 话 要面临以下 问 题 : 1 如果一篇微博中含有大量的特征词则将导致描 题时 , 述该微博的特征向量维数特别高 , 当表示微博话题的 向量维数特别高时 , 进行向量间的空间距离计算以及 不利 微博向量的分类结果评价的计算量都非常的高 , )层 次 聚 类 并 没 有 给 于快速实现 层 次 划 分 的 目 的 . 2 出理想的聚类终止条件 , 目前人们设计和实现的层次 聚类算法往往是按照预先设定的聚类目标进行计算 , 一旦形成了与目标 分 类 数 一 致 的 分 类 结 果 则 停 止 聚 类计算 . 这种控制策略不能保证聚类结果在最佳的状 态时停止 . 有的时候可能有些分类之间仍然是非常相 似的 , 但聚类算法已经 停 止 运 算 了 ; 有的时候是分类 但层次聚类算法按照 结果已经不能够再进行合并了 , 算法流程强制将某些分类结果进行合并 , 反而使用户 理解各分类结果时产生内容含义上的混淆 . 为了解决传统的层次聚类算法存在的问题 , 针对 微博数据源的特点 必 须 设 计 一 种 实 现 简 单 易 于 控 制 的层次聚类算法 , 使其能够实时的处理各种新产生的 微博信息 , 并能够智能的根据当前的聚类结果控制聚 类层次的深度 , 避免聚类过程的不足或过头 . 2. 2 层次聚类算法详细实现 为了提高层次聚类算法的实现速度 , 笔者设计的
计 算 机 技 术
提取所有的特征词 会 给 微 博 敏 感 话 题 检 测 增 加 很 大 但可以在后续通过改进和优化处理算法提 的计算量 , 高处理效率 . 由于笔者在处理 微 博 敏 感 话 题 提 取 过 程 中 以 特 征词作为衡量微博 话 题 内 容 的 重 要 指 标 . 因 此, 对微 博话题进行描述时采用空间向量的模型进行描述 , 即 一个微博话题可以 表 示 为 多 个 特 征 向 量 值 所 组 成 的 具体如下 : 空间向量 . 对于任意的一个微博文档 , 抽取其特征词表示该 由于每个特征词对整个微博文 微博文档的内容特征 , 档的影响力各不相 同 , 因 此, 可以给每个特征词定义 一个权重 , 此时微博文档的空间向量模型表示为 : …, …, B= ( s w1 , s wi, s wn ) 1 i n 其中 B 表示微博文档 , n 表示微博文档空间向量 模型定义的维数 , 维数越高则 微博文档描述越精细, 越能精确地反映微博中的内容 , 但随之信息处理的复 , 杂度也越来越高 .向量模型中各特征值s i 相互独立 既无直接联系也无重叠 . 而 且 在 向 量 模 型 中, 各特征 值定义的前后关系与模型表达的含义无关 . 利用微博文档的向量模型 , 可以定义文档之间话
基于层次聚类的微博敏感 话题检测算法研究
*
潘大庆
( ) 柳州市委党校 ,广西 柳州 5 4 5 0 0 6
计 算 机 技 术
摘 要 :针 对 微 博 对 社会 舆 情影响力日 趋 增 大 , 设 计 了 基 于 层 次 聚 类 的 微 博 敏 感 话 题 检 测 算 法, 通过对
5 7
广西民族大学学报 ( 自然科学版 ) 0 1 2年1 2月 第1 8卷 2
层次聚类算法从以下三个方面进行了改进 : 第一 , 在进行层次聚类计算时, 每次只在之前的 聚类基础上将聚类 基 产 生 的 微 博 数 据 与 历 史 形 成 的 结果进行合并 , 即以历 史 聚 类 产 生 的 结 果 为 参 考 , 将 其中一部 新产生的微博数据合并到历史聚类结果中 , 分数据将直接合并到历史聚类数据中的某一类别中 , 有些确确实实的新 产 生 的 话 题 则 重 新 形 成 新 的 分 类 结果 , 通过采用这种增量式的聚类计算结果可以保证 使得层次聚 在算法的运行过程中大幅度减少计算量 , 类算法的聚类结果 能 够 满 足 微 博 信 息 实 时 动 态 增 加 的应用特点 , 第二 , 在进行聚类运算时, 由于一些热点话题其 所对应的话题量会急剧 增 加 , 因 此, 对于这类热点话 题, 其聚类的层次应该变得更为精细 . 因此 , 针对热点 话题进行层次聚类 计 算 时 所 选 取 的 聚 类 相 似 度 应 该 因此需要对设计的层次聚类 与其他衡量词度不一样 , 算法在实现过程中 对 每 个 类 别 中 所 包 含 的 微 博 数 量 进行限制 , 当符合同一话题的微博数量达到预先设置 的预值之后 , 新产生的同一话题的微博与此将不再合 并, 而是作为一个新的 话 题 归 入 一 个 新 的 类 别 中 . 通 过限定每一个话题 微 博 中 的 数 量 可 以 保 证 对 于 一 些 热点敏感话题进行 聚 类 分 析 时 得 到 更 为 精 细 的 分 类 并且可以从分类结果中清晰地看出热点话题随 结果 , 着时间段的推移其话题的主题不断演化的过程 . 第三 , 在进行微博话题层次聚类运算时每次获得 新增加的微博信息 都 需 要 对 历 史 产 生 的 分 类 结 果 和 新增加的分类数据进行两两相似度的判断 , 两个类别 的相似度的分析又以两两元素之间的计算为基础 , 当 判断两个类别的 一个类别中的微博数量比较庞大时 , 相似度运算的复杂度将变得比较大 , 因此随着时间段 的推移 , 聚类算法到 后 来 所 消 耗 的 时 间 将 越 来 越 多 . 因此 , 为了提高运算的 效 率 , 笔者在计算两个分类之 间的相似度时 , 每次都尽可能地从距离最远的两个元 素之间开始计算 , 一旦计算到两个元素之间的距离大 于预先设定的预值 , 则 认 为 这 两 个 分 类 相 似 度 较 低, 不满足聚类的条件 , 直 接 退 出 后 续 的 聚 类 运 算, 以此 提高聚类算法的运算速度 . 2. 3 层次聚类算法实现流程 根据层次聚类算法的设计原理 , 笔者设计了如图 在进 行 微 博 敏 感 话 1 所示的层次聚类算法实现流程 . 题检测之前 , 首先通过微博之间的用户关系建立微博 用户关系数据模型 并 通 过 所 建 立 的 微 博 用 户 关 系 数 据模型引导网络爬 虫 对 相 关 联 的 用 户 微 博 上 的 信 息 以此获得微博话题检测中的原始语料设 进行扒 取 , 计, 之后按照微博话题模型对所获取的数据进行描