基于字符串相似性聚类的网络短文本舆情热点发现技术
我国网络舆情识别的研究脉络、核心主题与发展趋势分析

用的主要思路方法通常为文本聚类和主题模型
两类。
文本聚类作为一种无监督的机器学习方法 ,主
要采用k-means,SVM,贝叶斯网络等算法将文本特
征数据进行聚类,从而对舆情热点主题或观点进行
划分,具有较好的灵活性和自动处理能力「15+。如王
旭仁等*16+提出了基于向量空间模SVM的文本聚类 算法,其按照层次聚类自下而上得到获取初始簇信
情矗感识亂别风叫险 舆情监 知识测 图谱
a 分类
主题识别
耐
主题模型一!社交媒体区块链
风叽 识别
社交网络
社会网络分析
微博
灰色关联分析
大数据 主题模型
可视化
识别特征
情感分析櫻情分析
卷积神经网络
突发事件意见领袖
网络水军
舆情
图3 “舆情识别”CSSCI期刊研究主题的演化
・91・
2网络舆情识别的核心主题与方法
★基金项目:本文系河北省社会科学基金项目“雄安新区发展视域下网络舆情风险评估与治理研究"(HB18TQ005)的研究成 果之一 %
・90・
(单位篇)
40
38 x]
图1 “舆情识别%CSSCI期刊载文趋势(篇) 1.2 研究的所属学科
对所属学科进行统计发现,舆情识别核心研究 成果较多见于新闻传播学、计算机科学、图书情报 与档案管理、社会学、公共管理、控制工程等学科领 域,具体如图2所示。考虑到舆情识别贯穿整个舆 情分析与治理过程,并涉及多学科的核心研究问 题,所属学科的研究者们基于不同视角 、理论、方法 和技术等对舆情识别展开基于实践需求的多维度 探究与规律揭示。
突发舆情的意见领袖。
2. 3 基于观点主题的网络舆情识别
互联网行业网络舆情监控方案

互联网行业网络舆情监控方案第1章项目背景与目标 (2)1.1 项目背景 (2)1.2 项目目标 (2)第2章网络舆情监控体系设计 (3)2.1 监控体系框架 (3)2.2 监控关键指标 (3)2.3 舆情分析模型 (4)3.3 数据采集与处理 (4)3.1 数据源选择 (4)3.2 数据采集技术 (5)3.3 数据处理方法 (5)第四章舆情分析与挖掘 (5)4.1 舆情情感分析 (6)4.2 舆情话题挖掘 (6)4.3 舆情趋势分析 (6)第五章舆情监控平台建设 (7)5.1 平台架构设计 (7)5.2 平台功能模块 (7)5.3 平台安全性与稳定性 (8)第6章舆情预警与应对策略 (8)6.1 舆情预警机制 (8)6.1.1 预警体系构建 (8)6.1.2 预警级别划分 (8)6.2 应对策略制定 (8)6.2.1 基本原则 (9)6.2.2 应对策略内容 (9)6.3 应对策略实施与评估 (9)6.3.1 实施步骤 (9)6.3.2 评估与反馈 (9)第7章舆情监控团队建设与培训 (9)7.1 监控团队组织结构 (9)7.2 监控团队职责与任务 (10)7.3 培训与能力提升 (10)第8章舆情监控项目实施与管理 (11)8.1 项目实施流程 (11)8.1.1 项目启动 (11)8.1.2 需求分析 (11)8.1.3 系统设计 (11)8.1.4 系统开发与测试 (11)8.1.5 系统部署与培训 (11)8.1.6 项目验收 (12)8.2 项目风险管理 (12)8.2.1 风险识别 (12)8.2.2 风险评估 (12)8.2.3 风险应对 (12)8.2.4 风险监控 (12)8.3 项目效果评估 (12)8.3.1 评估指标 (12)8.3.2 评估方法 (12)8.3.3 评估结果应用 (12)第9章舆情监控案例分析与启示 (13)9.1 典型案例介绍 (13)9.2 案例分析与总结 (13)9.2.1 案例一分析 (13)9.2.2 案例二分析 (13)9.3 舆情监控启示 (14)第十章未来发展趋势与展望 (14)10.1 行业发展趋势 (14)10.2 技术创新方向 (14)10.3 舆情监控在社会治理中的应用展望 (15)第1章项目背景与目标1.1 项目背景互联网技术的迅速发展和普及,我国互联网行业呈现出爆炸式增长,网络用户数量持续攀升。
如何发现手机舆情的热点话题?

网 民 “ 小 芫 ” 通 过 手 机 U 浏 览 器 发 播 与 急 剧 演 化 ,另 一 方 面 也 表 明 手 机 袁 C
出 了第一 条微 博 ,事故 信 息 迅 速在 网 上 传 播 ,大量 的转 帖 和 回帖 使 得很 多 温州 群 众 能 及 时参 与 事故 救 援 ,而事 故现 场 的图 片也 是 通 过 微博 发 布 到 网
● 沈超 黄卫东 朱恒民 『 文
自2 0 年 工信部 正式 颁发 3 09 G牌照 以来 ,我 国3 G手机 用 户增长 势如破
( MS)、 电 子 邮 件 、 论 坛 发 帖 与 跟 S
竹 。截 至2 1 年 6 0 1 月底 ,我 国3 G用 户数量达  ̄ s 1 万 ,在移 动用 户中 的渗 帖 、 回复 、即时通 信 、博 客 、维 客 、 r4 1 j 透率达95 . %,3 G用户 网已初具规模 。 同时 ,随着智 能手机 的普及 ,手机具 网 络 新 闻 组 等 形 式 。 备了 电话 、短信 、电视 、网页 、B 、博 客 、播 客等 多种形 式 的信 息服务 BS 功 能 ,成 为个人 信息集成 处理平 台 ,各类信 息通过手机 以 无线 方式进 行传
与传 统 的网 络舆 情 依 托 于 电脑 、
性 、互动性 ,而 且能以相 对可信 的方式发 布个性 化 的多媒体信 息 ,其信 息 互 联 网 以 及 基 于 互 联 网 的 应 用 不 同 ,
手 机 舆 情 产 生 的 媒 介 是 智 能 手 机 、3 G
本文通 过对3 G环境 下手机舆情 的形成机 制及特征进 行分析 ,给 出手机舆情 移动 通信 网络 和3 移 动 通信 相关 的应 G
形 式 进 行 传 播 , 这 对 舆 情 信 息 的 采 集 和 处理 提 出 了更高 的要 求 。 实 时 实 地 的信 息 交 互 方 式 。 3 G网 络 环 境 下 用 户 可 以 使 用 智 能 手 机 随 时 随地 将 事 件信 息 或 个 人 观点 传 播 给受 众 ,能 更 快 地 响 应 突 发 事 件 , 形 成 热
基于大数据的网络舆情分析系统设计与实现

基于大数据的网络舆情分析系统设计与实现袁志远1徐怀超2郭金顺2冯盼3(1.西安交通大学管理学院,陕西西安710049;.西藏党委网信办网络舆情研究中心,西藏拉萨850000;.云南农业大学人文社会科学学院,云南昆明650000)摘要:为加强网络舆情管理,实现对互联网舆情可视化多维度智能分析,智能生成报告。
文章针对网络舆情,构建大数据网络舆情采集和数据挖掘体系,基于境内外海量互联网文本、图片、音视频等数据,运用静态计算和流式计算引擎和文本无关的声纹识别等技术,设计开发基于大数据的网络舆情分析系统,研究网络观点、话题及其发展态势、传播路径。
实现了网络舆情可视化多维度智能分析,智能生成报告,提高了网络舆情预警和分析能力。
关键词:大数据网络舆情云计算科学决策0引言根据中国互联网络信息中心发布的第45次《中国互联网络发展状况统计报告》,截至2020年3月,我国网民规模达9.04亿,手机网民规模达&97亿,使用手机上网的比例达99.3%,网络新闻用户规模达7.31亿,网络视频用户规模达8.5亿,在线政务服务用户规模达6.94亿。
互联网已成为人们生活、工作、学习、娱乐等不可分割的重要组成部分,已经成为各种话题、言论、信息传播的国际舞台,人民群众反映社会舆情的重要渠道,人民群众监督党政机关施政方略成效的考核平台,网络舆情在一定程度上反映着现实生活中人民意愿和诉求,如何利用互联网上海量的数据为政府、企业或社会机构提供决策支持成为互联网舆情研究的重要问题。
如何有效利用互联网海量数据分析舆情、掌握舆情,成为国际专家学者研究的内容,部分学者对此问题进行了研究,如祁泉淞(2020)[I]针对当前网络舆情危机治理中存在的问题,构建了网络舆情预警和分析体系,为政府和社会有效应对网络舆情提供了帮助。
王晰巍等(2020)[2]构建了大数据驱动的社交网络舆情用户情感主题分类模型,为跨语言的社交网络舆情用户情感主题图谱的可视化分析提供了前期的研究框架。
基于复杂网络方法的舆情热点挖掘

AB TRACT: h s p p rf c s d o h n en t u l p no o p t n n a e n te c mp e ewok te r S T i a e u e n t e I tr e b i o i in h ts o i g b s d o h o l x n t r h o y o p c mi a d me h d .I t r e u lco i in a ay i t c n q e a e d vd d it o t n —b s d a a yia t o s a d n t o s n en tp b i p n o n lss e h iu s c n b ii e n o c n e t a e n lt lme h d n c
H UANG i . U e g n M n H Xu — a g
( .S h o o o p tr n f m t n H f nvri f e h o g , fi 3 0 9, hn ; 1 c o l f m ue a d I o ai , ee U iesy o T c n l y He 0 0 C i C n r o i t o e2 a
t e n d s,t e mi i e ut v o e dfe e c h oe h nng rs lsha e s m i r n e.W e c n c mbie t ni e ulso h wo m eh dsa c r n f a o n he mi ngr s t ft e t to c o dig t he fed c r c e itc o g tt e I e n tp lc ( nin h ts o s o t l ha a trsist e h ntr e ubi ) i pi o o p t . K EY W ORD S:ntr e u i p no l e n tp blc o i in;Po ulrtpi n I tr e ; Co p a o c o ne n t mplx n t r e ewo k
网络舆情监测与分析系统设计与实施方案

网络舆情监测与分析系统设计与实施方案第1章项目背景与需求分析 (3)1.1 舆情监测背景 (3)1.2 市场需求分析 (3)1.3 技术可行性分析 (3)第2章系统设计目标与架构 (4)2.1 设计目标 (4)2.2 系统架构设计 (4)2.2.1 整体架构 (4)2.2.2 功能模块划分 (5)2.3 技术选型 (5)第3章数据采集与预处理 (5)3.1 数据来源分析 (5)3.2 数据采集策略 (6)3.3 数据预处理方法 (6)第四章舆情信息提取与处理 (7)4.1 舆情信息提取 (7)4.1.1 舆情信息提取方法 (7)4.1.2 舆情信息提取流程 (7)4.2 文本去噪与分词 (8)4.2.1 文本去噪 (8)4.2.2 分词 (8)4.3 实体识别与关系抽取 (8)4.3.1 实体识别 (8)4.3.2 关系抽取 (9)第5章情感分析算法与应用 (9)5.1 情感分析概述 (9)5.2 情感极性判定 (9)5.3 情感强度分析 (10)第6章舆情热度评估与趋势预测 (10)6.1 舆情热度评估指标 (10)6.1.1 传播速度指标 (10)6.1.2 话题关注指标 (10)6.1.3 情感倾向指标 (10)6.1.4 话题活跃度指标 (10)6.2 舆情趋势预测方法 (11)6.2.1 时间序列分析方法 (11)6.2.2 灰色预测方法 (11)6.2.3 神经网络方法 (11)6.2.4 支持向量机方法 (11)6.3 基于时间序列的舆情分析 (11)6.3.1 数据预处理 (11)6.3.2 构建时间序列模型 (11)6.3.3 参数优化 (11)6.3.4 舆情趋势预测 (11)第7章用户画像与群体分析 (11)7.1 用户画像构建 (12)7.1.1 用户数据收集 (12)7.1.2 数据预处理 (12)7.1.3 特征提取 (12)7.1.4 用户画像建模 (12)7.1.5 用户画像更新 (12)7.2 群体行为分析 (12)7.2.1 群体特征分析 (12)7.2.2 群体兴趣偏好分析 (12)7.2.3 群体行为趋势预测 (12)7.2.4 群体影响力评估 (12)7.3 网络传播路径分析 (12)7.3.1 信息传播模型构建 (12)7.3.2 传播路径挖掘 (13)7.3.3 传播速度与范围分析 (13)7.3.4 传播策略优化 (13)第8章系统安全与隐私保护 (13)8.1 系统安全策略 (13)8.1.1 物理安全 (13)8.1.2 网络安全 (13)8.1.3 系统安全 (13)8.2 数据安全与隐私保护 (13)8.2.1 数据加密 (13)8.2.2 访问控制 (14)8.2.3 数据备份与恢复 (14)8.2.4 用户隐私保护 (14)8.3 法律法规与伦理规范 (14)8.3.1 法律法规 (14)8.3.2 伦理规范 (14)第9章系统实现与测试 (14)9.1 系统开发环境 (14)9.1.1 硬件环境 (14)9.1.2 软件环境 (15)9.2 系统实现与部署 (15)9.2.1 系统架构设计 (15)9.2.2 系统实现 (15)9.2.3 系统部署 (15)9.3 系统测试与优化 (15)9.3.1 系统测试 (15)9.3.2 系统优化 (16)第10章项目总结与展望 (16)10.1 项目总结 (16)10.2 技术展望 (16)10.3 应用前景分析 (17)第1章项目背景与需求分析1.1 舆情监测背景互联网技术的飞速发展和信息传播手段的多样化,网络已成为人们获取和交流信息的主要渠道。
基于手机短信信息流的热点事件识别

基于手机短信信息流的热点事件识别刘金岭;王新功;周泓【摘要】随着手机通信技术的快速发展,短信文本数据流作为载体携带了越来越多的信息资源。
为了挖掘出短信文本信息流中富含的一些舆论焦点、社会热点问题,提出热点事件识别算法。
该算法采用词共现频度定义特征词相关度,综合前导信息集合及信息产生频率给出短信文本相似度,进而设计基于Single-Pass聚类模型的短信文本信息流在线分检算法。
在真实数据集上实验表明,各项性能指标都有不同程度的提高。
%10.3969/j.issn.1000-386x.2012.10.053【期刊名称】《计算机应用与软件》【年(卷),期】2012(000)010【总页数】5页(P200-204)【关键词】短信文本;信息流;热点事件;Single-Pass【作者】刘金岭;王新功;周泓【作者单位】淮阴工学院计算机工程学院江苏淮安223003;沧州师范学院计算机系河北沧州061001;淮阴工学院计算机工程学院江苏淮安223003【正文语种】中文【中图分类】TP3910 引言手机短信在人们的生活中扮演着越来越重要的角色,手机短信传播也被冠以“拇指文化”、“拇指文明”和“第五媒体”等美誉,发展成为一种时代潮流。
根据移动互联网传播领域的“3 -周期传播原理”[1],一条信息只要用手机上网传播给3个人,“3”在移动互联网中是无穷大的意思(∞)。
据12321网络不良与垃圾信息举报受理中心调查报告,2011年下半年中国手机用户平均每周收到短信息39.1条。
手机短信可以说是最贴近民众的一种媒体,具有极大价值的信息资源,富含一些社会热点问题、社会突发事件信息,还可以进行舆情预测等,而这些事件都是由大类别的短信文本反映出来的。
热点事件是指能引起人们极大关注的话题,一方面,它可能被关注持续的时间较长;另一方面,在某个时间段内它的关注程度可能很高。
热点事件识别与跟踪强调对新信息的发现能力,关心涉及特定主题类别的信息,给用户提供详实客观的热点事件信息,并且自动追踪用户关注的新闻事件,提供事件的来龙去脉及发展趋势,从中识别出各种突发事件、新事件以及关于已知事件的新信息,可广泛用于信息安全、舆情分析和预警等领域。
WARNN(网鹰)舆情监测系统简介

网鹰网络舆情监测系统美音网络传播研究中心WARNN(网鹰)舆情监测系统简介 WARNN(网鹰)拥有专业、成熟的产品开发团队和技术服务团队,不断追踪互联网前沿技术,深入研究各种类型用户的不同需求,坚持技术与需求互动、产品与服务并重的经营理念,为广大用户提供优质的专业产品和专业服务。
WARNN(网鹰舆情监测预警系统)基于搜索引擎技术和互联网信息深度挖掘技术,通过对大量互联网网站进行 7*24 小时全天候自动监测,并对提取的舆情信息进行中文分词、主题聚类、情感分析、实时预警、事件追踪、热点舆情发现、网络传播路径分析、舆情信息统计、舆情简报生成等一系列智能化处理,提供多途径舆情报送工作流程,满足政府或企业舆情管理部门对互联网舆情监管的需要,为决策层提供准确的舆情动态分析,为正确引导舆论提供科学依据和技术支持。
舆情管理人员舆情信息操作员……一、网鹰的核心竞争力(1)集群式协同工作模式如何使用普通PC 服务器处理海量的互联网数据?WARNN (网鹰)采用分布式结构设计,利用服务器集群协同工作,突破普通PC 服务器的性能瓶颈,系统性能随服务器数量的增加而增加,满足各种高端用户对海量数据的处理需求。
(2)自动破解各种反采集策略WARNN(网鹰)内置智能化反采集技术破解包,能够自动规避和破解目标网站的反采集策略,不会造成IP地址被目标网站封锁的情况。
(3)复杂网络环境下的自适应能力针对互联网环境具有复杂多变的特点,为最大限度地增强系统对环境的应变能力,尽量减少因环境变化而导致系统工作效能下降的问题,WARNN(网鹰)采用智能化自学习模型,在复杂多变的互联网环境中具有很强的自适应能力。
(4)强大的中文文本分析能力网鹰团队一直走在自然语言处理技术研究的前沿。
WARNN具有强大的中文文本分析和处理能力,可对海量的舆情信息进行中文分词、主题聚类、负面情感识别、热点舆情主动发现、网络传播路径追踪等等一系列处理,将最有价值的信息呈现给用户。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第36卷第5期2010年5月北京工业大学学报JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGYVol.36No.5May2010
基于字符串相似性聚类的网络短文本舆情热点发现技术
杨 震,段立娟,赖英旭(北京工业大学计算机学院,北京 100124)
摘 要:将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.
实验结果表明,本文提出方法有效.
关键词:舆情分析;短文本处理;层次聚类中图分类号:TP393文献标志码:A文章编号:0254-0037(2010)05-0669-05
收稿日期:2009212210.
基金项目:国家“九七三”计划资助项目(2007CB311100);北京市自然科学基金资助项目(4102012,4102013);北京市教育委员会科技发展计划面上资助项目(KM200810005030);北京工业大学青年科学基金资助项目.
作者简介:杨 震(1979—),男,贵州六盘水人,讲师.
互联网络信息爆炸、信息泛滥、信息污染、信息扰民、信息惑众等问题的日益严重极大影响普通用户对互联网信息正常、合理的使用.更为严重的是,一些不法分子开始利用网络传播虚假和非法广告,散布谣言蛊惑人心,扰乱国家经济和社会秩序;敌对势力更是利用网络传播害国言论,制造事端,教唆动乱,严重地威胁着国家的稳定和安全.信息安全重心已转向应用和数据安全,基于内容对互联网信息传播和利用进行监管(即舆情监控)的国家和社会需求越来越强烈,成为学术界和产业界广泛关注的一个热点[1].
在需求的推动之下,众多研究者利用模式识别、人工智能、知识发现为代表的智能技术对网络信息进行内容分析、语义挖掘,进而实施有效的信息过滤、话题发现以及趋势预测.但需要指出的是,现有的技术实现距离需求期望仍有差距,解决互联网舆情预警问题的关键技术,特别是网络话题的发现技术还亟待提高,互联网内容安全形式不容乐观.一方面,针对普通网络信息(长文本信息)舆情态势分析及舆情预警关键技术的研究已经大规模地展开,并取得了一定的研究成果.总体来说,针对普通网络信息(长文本信息)的内容识别与过滤技术已经迈入实用阶段.在文本表达方面,Salton的向量空间模型和基于Markov过程的n2gram模型提供了有效的文本描述数学模型.在文本特征选择方面,提出了基于词频/倒文档频度(TF/IDF)、信息增益(IG)、CHI、互信息(MI)等统计量的专门特征选择方法,同时,还将主成分分析、线性
鉴别分析和奇异值分解的方法引入文本特征选择,衍生出了潜在语义索引(LSI)的重要概念.在文本聚类/分类方面,贝叶斯分类器、支撑向量机(SVM)、神经网络、自组织映射(SOM)、k近邻、k均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用.
然而另一方面,针对以即时消息、在线聊天记录、BBS标题、手机短消息、微博客、博客评论、新闻评论等为代表的短文本信息舆情态势分析及舆情预警关键技术的研究力度不够,而恰恰是这一部分内容更能反映真实的网络舆情.但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等)[2],使得一些针对
长文本的内容处理方法性能劣化,甚至不可用.因此,针对短文本自身特点,研究符合其特性的文本表达和特征选择方法,实现短文本的正确聚类成为了一个迫切的现实要求.
基于此,本文面向网上短文本信息舆情分析需求,基于字符串相似性研究短文本信息的聚类方法,以期解决短文本话题发现、传播及动态演变的特征分析等关键问题.北 京 工 业 大 学 学 报2010年1 网络短文本信息舆情分析系统架构网络短文本信息舆情分析系统架构如图1所示.首先系统对接收到的网络短文本信息进行数据接收和解码,把元数据送入元数据缓存,同时将其输入垃圾信息过滤器处理,将与舆情分析无关的短文本(包括SP定制信息、无意义信息、格式信息及其他无需进行内容监控和舆情预警的信息)判断为垃圾信息放入垃圾信箱,对有用信息内容进行话题发现,并对其传播和演变规律进行分析.系统根据用户反馈,对分类器进行更新和重建,逐渐逼近实际应用的使用需求.
图1 网络短文本信息舆情分析演示系统框图Fig.1 Flowchartofonlinepublicopinionhotspotdetection
在实现有用信息(舆情分析相关信息)和垃圾信息(舆情分析无关信息)分离之后,需要对有用信息的
聚类方法进行研究.短文本作为全新的文本媒体对象,具有其自身特点(稀疏性、实时性、不规范性等),使得传统的聚类分析方法在短文本表示这个层次上遇到了极大的困难.传统的文本表示模型,包括布尔模型、概率模型、向量空间模型都无法良好地表示,总会遇到特征向量稀疏性的问题,最终使得短文本的聚类变为简单层次上“词重现”一级的短文本聚集.
毫无疑问,对短文本间相似性的准确表达及正确度量将会对短文本聚类处理带来很大帮助,而传统的文本表示和特征提取方法会损失许多重要的信息,如特征的顺序、上下文等特征,因而无法准确表达短文本间的相似性,进而使得聚类性能劣化甚至不可用.
因此,如何基于短文本自身的特性确定其相似性成为本文重要的研究内容.本研究把每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性计算其相似性,在此基础上进行短文本聚类,进而发现网络舆情热点.由于这种方法免去了特征提取和文本表示过程,在一定程度上能够避免特征向量稀疏性的问题.
2 基于字符串相似性短文本聚类的热点发现短文本作为全新的文本媒体对象,具有独特的语言特性.为了避免由于特征向量稀释性导致短文本聚类蜕化为简单层次上“词重现”一级的短文本聚集,迫使研究者考虑能否跳过特征提取和文本表示环节,基于短文本的特性计算相似性.通过将每个短文本文档看成一个由文字、数字和标点构成的字符串,
那么可以借助比较2个字符串共同包含的子串个数和连续程度来衡量2个字符串的相似程度.当然共同的子串越多,2个短文本文档就越相似.这样一来,基于字符串相似性聚类的网络短文本舆情热点发现过程即可按照以下步骤处理:
步骤1 预处理步骤.对于采集的短文本M
i,i=1,2,3,…,k进行整理和清洗.
将输入的短文本信息
转换为统一编码,去除乱码等噪声信息.并按采集时间、上下文信息以及正文信息导入数据库.
步骤2 基于字符串相似性计算各个短文本之间的相似程度.假设字符串A,B间的相似性可表示为D(A,B),即以通过比较2个字符串共同包含的子串个数和连续程度来衡量2个字符串的相似程度,
寻找
076 第5期杨 震,等:基于字符串相似性聚类的网络短文本舆情热点发现技术短文本Mi,Mj的最佳匹配.
步骤3 基于短文本Mi,Mj之间的归一化相似度进行层次聚类(hierarchicalclustering)[3]分析.层次聚类法是一种高效的聚类算法,其基本思想是根据所定义的个体间相似度,从相似性最高的个体开始,向初始化空网络中添加新个体.过程终止后,此时该网络的组成就被认为是划分为了若干簇.层次聚类方法可分为凝聚的层次聚类和分裂的层次聚类.
步骤4 利用层次聚类可视化的特点,对话题间的联系进行直观的度量,发现话题,进而对其传播及动态演变的特征进行分析.
其中,字符串相似测度D(.)以及用以确定聚类数目的评价指标是本文接下来需要解决的重要问题.
211 基于编辑距离的字符串相似性计算假设短信Mi,Mj分别由m和n个字符组成,分别由{C
i1,Ci2,Ci3,…,Cim}和{Cj1,Cj2,Cj3,…,Cj
n}表示.
那么短文本Mi,Mj之间的相似度就可由其包含字符串之间的相似度计算而来.利用Hungarian算法去发现Mi,Mj和之间的最大匹配.设Mi在Mj中的最大匹配是{Cjj1,Cjj2,Cjj3,…,Cjjm},jk∈{1,2,3,…,n},k=1,
2,3,…,m.Mj在Mi中的最大匹配是{Cij1,Cij2,Cij3,…,Cijn},j
k
∈{1,2,3,…,m},k=1,2,3,…,n.那么基于
最大匹配,短文本Mi,Mj之间的相似度定义为其间的编辑距离(Levenshtein距离)[425]:
D(A,B)=Levenshtein(Mi,Mj).(1
)
在这样的定义下,D(・)越小,说明字符串越相似.
212 层次化聚类数目选择方法在层次化聚类分析中,如何选择恰当的聚类个数是一个非常复杂而又必须面对的问题.尽管众多研究者进行了广泛的研究,提出了各种聚类有效性指标,包括信息熵、Vwsj指标、Gapstatistic、IGP、Scat/Sep指标等[6],但如何确定数据的聚类个数仍然是一个富有挑战性的问题,一般来说只能通过试错法(trial2and2
error)迭代确定.实际上,一个好的聚类结果应该使得簇内的数据点之间是尽可能“紧凑”的,而簇间的数据点之间是尽可能“分离”的.这样一来,一个可行的聚类个数选择依据可以定义如下:
Q=簇内平均相似度簇间平均相似度.(2)可以对聚类簇的几何拓扑结构预先假定,或者不做任何限制,在此基础上度量平均相似度[627],本文使
用基于简单的点对(pair2wise)相似性的度量方法.假设待处理短文本集为S,假定其可能被划分为k簇,
即S={S
1,S2,…,Sk},其中用|S
k|表示簇中元素的个数,那么
Q=1k∑ki=1∑A,B∈Si1|Si|2D(A,B)1k2∑ki=1∑kj=1∑A∈Si,B∈Sj1|Si|・|Sj|D(A,B)(3)依据前述定义,显然Q值越小说明聚类所选择的数目越合理.
3 实验结果实验采用SMS短信库[8]作为评测语料库,这里我们使用了其中一个标注后的子集(共4486条短信).为了简化问题并且考虑到人工标注的可行性,将其标注为5个类别:日常生活、工作相关、非法和虚假信息、系统群发(非手写短信)和其他短信.使用这样的分类体系是基于以下的考虑:
1)这样的分类简单易行,且概念明确,易于标注实现;2)这样的分类体系虽然比较简单粗略,但其体系结构容易扩展,能为进一步的研究打下坚实的基础;3)这个分类体系也涵盖了一些研究热点所需要关注的短信类别.
176