一种基于词聚类信息熵的新闻提取方法

合集下载

一种融合 K-means 和快速密度峰值搜索算法的聚类方法

一种融合 K-means 和快速密度峰值搜索算法的聚类方法

一种融合 K-means 和快速密度峰值搜索算法的聚类方法盛华;张桂珠【摘要】K-means 算法的初始聚类中心是随机选取的,不同的初始中心输入会得出不同的聚类结果。

针对 K-means 算法存在的问题,提出一种融合 K-means 算法与聚类的快速搜索和发现密度峰算法的聚类算法(K-CBFSAFODP)。

该算法是这样考虑的:类簇中心被具有较低局部密度的邻居点包围,且与具有更高密度的任何点都有相对较大的距离,以此来刻画聚类中心;再运用 K-means算法进行迭代聚类,弥补了 K-means 聚类中心随机选取导致容易陷入局部最优的缺点;并且引入了熵值法用来计算距离,从而实现优化聚类。

在 UCI 数据集和人工模拟数据集上的实验表明,融合算法不仅能得到较好的聚类结果,而且聚类很稳定,同时也有较快的收敛速度,证实了该融合算法的可行性。

%The initial clustering centre of K-means algorithm is selected randomly,different initial centre inputs will get different clustering results.Aiming at this problem of K-means algorithm,we proposed a clustering algorithm which combines K-means algorithm and clustering with the fast density peaks search and finding algorithm (K-CBFSAFODP).This algorithm has the following considerations:the class cluster centre is surrounded by neighbour points with lower local density,and has relatively larger distance to any point with higher density,this is used to depict the cluster centre;then the K-means algorithm is employed for iterative clustering,this makes up the defect that to randomly select K-means clustering centre leads to falling into local optima easily.Moreover,the algorithm introduces entropy method to calculate the distance,thereby realises the optimisation of clustering.It isdemonstrated by the experiments on UCI datasets and artificial simulation dataset that this combination algorithm can get better clustering results,and the clusters is very stable as well;meanwhile it also has fast convergence speed.These confirm the feasibility of the combination algorithm.【期刊名称】《计算机应用与软件》【年(卷),期】2016(033)010【总页数】6页(P260-264,269)【关键词】聚类;K-means算法;CBFSAFODP算法;初始聚类中心;密度;信息熵【作者】盛华;张桂珠【作者单位】江南大学物联网工程学院江苏无锡 214122;江南大学轻工过程先进控制教育部重点实验室江苏无锡 214122【正文语种】中文【中图分类】TP18聚类分析是一种无监督的机器学习方法,是数据挖掘中的重要研究方向之一[1]。

基于信息熵的标称变量聚类算法研究

基于信息熵的标称变量聚类算法研究
Ab ta t h u h a ay i g t e c a a t r t s o o n aa l se n g r h o o n aa b s d o nr p s r c :T r g n l zn h r c e si fn mi a d t ,c u tr g a o tm fn mi a d t a e n e t y o h i c l i l i l o
smi r rsodw sc c ltd drc y b ig d t. T e e p r n a eut so h tt sag rtm sfail n i l i t eh l a a uae i t y u n aa at h y l e l s h x e me t rs s h w ta h lo h i e s e a d i l l i i b
基 于信 息熵 的标 称 变 量聚 类 算 法研 究
王 燕
( 州理 工大 学 计 算机 与通 信 学 院 , 肃 兰 州 70 5 ) 兰 甘 30 0
( a ga @sh .o ) f nyn o u cm w

要: 通过 对标 称数 据 的分 析 , 出 了一种 基 于信 息 熵 和层 次聚 类 思 想 的标称 数 据 聚 类 算 法。 提
e e tv . f ci e
Ke r s n r p ; l s rn ; o n aa y wo d :e t y cu ti g n mi a d t o e l
经典 的聚类分 析方法 如 K m as算法 、 —e n 层次 聚类 算法 等
都是面 向数值属性 的数据集合 。这样的数据在进行 相似性 度 量 的时候 , 通常采用距离度量 的方法 , 当两个对象之 间的距 离 小 于某个 给定的阈值时 , 就认 为这两个 对象 是属 于 同一个 类 别 的。但 是 , 在数据挖掘 的应用 中经 常会遇到标称变量 , 即属 性值不 是数 值 型的 , 而是 用语 言 或离 散值 来 定性 描述 , 性 如 别、 颜色等 。由于标称 变量 的属性值是离散 的, 值与值之间没 有 自然 的序关系 , 因此 很难用 距离来 度量 其两个 对象 之间 的 相 似性 。这使得面 向标称变量的聚类算法 的设 计更加 困难 。 目前 已有的面 向标称 变量 的算法 还 比较 有 限, 主要 包括 K Mo e ,TR , O K 和 C C U [ 。K M d s . ds SIR R C A T S 等 . o e 算

基于信息熵的FCM聚类算法

基于信息熵的FCM聚类算法

基于信息熵的FCM聚类算法
邢婷;邢治国;王凤领
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)023
【摘要】针对模糊聚类存在的数据收缩问题的不足,提出了一种改进现有模糊聚类算法的方法,并进行仿真实验研究.模糊C-均值(FCM)算法主要通过目标函数的迭代优化来实现集合划分,以信息熵作为模糊C-均值算法的约束条件,给出改进算法的推导过程,得出改进后的模糊C-均值算法的隶属度和聚类中心,实现了模糊C-均值的改进算法.实验结果可以表明,改进的模糊C-均值算法是有效的,能够表现出比模糊C-均值算法更好的性能,在实际应用中可以取得较好的聚类效果.
【总页数】4页(P5092-5095)
【作者】邢婷;邢治国;王凤领
【作者单位】哈尔滨德强商务学院计算机与信息工程系,黑龙江,哈尔滨,150025;三锐系统株式会社事业统括部,日本,东京,101-0021;哈尔滨德强商务学院计算机与信息工程系,黑龙江,哈尔滨,150025
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于信息熵原理与FCM算法的市场细分方法 [J], 林盛;吕红艳
2.一种基于信息熵约束的快速FCM聚类水下图像分割算法 [J], 王士龙;徐玉如;万
磊;唐旭东
3.基于信息熵加权的FCM交通状态识别研究 [J], 曹洁;张丽君;侯亮;陈作汉;张红
4.基于PSO-TVAC的中心自适应权的FCM聚类算法 [J], 胡建华;尹慧琳
5.基于FCM聚类算法的多分组和分层的协作缓存策略 [J], 胡昌桂;王翊;欧梦添;许耀华;黄林生
因版权原因,仅展示原文概要,查看原文内容请购买。

基于熵的聚类入侵检测算法研究

基于熵的聚类入侵检测算法研究

其 中p ( ) 表示属于类 的数据项在集合 中的
对 于含 有 多 个 属性 的记 录 : { , X 2 , ……, 置。 }的信息熵 计算 如下 :
记 录 中记 录信 息熵 和相 对熵对 聚类 重新 聚类 来分析 入侵 行 为的异 常性 , 将 信 息 论 中熵 与 聚 类 结 合 建立
如 果记 录 的属性 之 间 互 相 独立 , 则 每 个 属性 概 率 的乘 积正好 等 于属 性 值 的 联合 概 率 , 因此 总 的信 息熵就 等 于每个 属性 的信息熵 的和 :
层( X)=E( )+E( )+… +E( X ) ( 4 )
取值 的不确定性. 就数据集合来说 , 信息熵可以作为
第3 4卷第 6期
2 0 1 3年 1 2月
通 化 师 范 学 院 学 报( 自然科 学 )
J OU RNAL OF T ONG HU A NO RMAL UNI VE RS I T Y
Vo 1 . 3 4 N o 6 De C .2 01 3
基 于熵 的聚 类入 侵 检 测 算 法 研 究
关键词 : 入侵 检 测 系统 ; 聚类 ; 熵; 信 息 论
中图分类号: T P 3 0 9 文献标 志码: A 文章 编号 : 1 0 0 8— 7 9 7 4 ( 2 0 1 3 ) 0 6— 0 0 3 6— 0 3
随着 计算 机 网络 技 术 的飞 速 发 展 , 信 息 产业 得 到 了 巨大 发展 , 同时也 给网络 信息安 全带 来 了威 胁 . 保 障 网络 信息 环境 安全 已经成 为全 社会 各行 各业高 度 重视 的 问题 . 网络入 侵 检 测 技术 是 对 计 算 机 和 网

3 6・

一种基于信息熵的传感器数据异常检测方法

一种基于信息熵的传感器数据异常检测方法

一种基于信息熵的传感器数据异常检测方法田黎明;张冬梅【摘要】传感器数据采集作为系统感知信息和获取数据的重要手段,其数据的真实性和可靠性至关重要,数据异常检测能提升数据的质量,挖掘出数据的潜在信息.基于分类、聚类等的检测方法依赖于数据的空间相关性,且复杂度很高,不适用于智能家居等小型物联网环境.基于数据距离的检测方法适用于此场景,但是存在误报率高的问题.针对这些问题,本文将传感器滑动窗口内的数据值作为离散随机变量,定义了数据流的信息熵,在此基础上提出了一种通过计算滑动窗口内信息熵进而检测数据异常的方法.模拟实验表明,本文提出的方法能高效地检测异常,并且有更高的检测率及更低的误报率,符合预期结果.【期刊名称】《软件》【年(卷),期】2018(039)009【总页数】5页(P69-73)【关键词】信息熵;滑动窗口;异常概率;异常检测;时间相关性;统计特征【作者】田黎明;张冬梅【作者单位】北京邮电大学网络空间安全学院,北京 100876;北京邮电大学网络空间安全学院,北京 100876【正文语种】中文【中图分类】TP393传感器作为系统感知信息和获取数据的重要设备,在生态环境监测、工农业生产监控乃至国防军工等领域都有广泛的应用。

由于传感器部署区域不确定且设备资源有限,其易受到外界因素的干扰和破坏,故广泛存在传感器数据的不可靠性问题,如何保障和提高传感器数据的质量是一个亟需解决的问题。

当前针对传感器数据异常检测的研究集中于无线传感器网络(WSN)环境[1]。

在WSN环境下,为了提高系统整体的可用性,大量的无线传感器被分散部署在能量和带宽均受限的地区,这些传感器节点密集组网、相互协作地提供数据服务。

在该环境下可以利用不同传感器节点数据流的时间与空间相关性进行异常检测[2]。

但是将这些检测方法应用于一些智能家居或智能楼宇等小型物联网环境时,由于环境中部署的同类型传感器节点数量少,数据的空间相关性不足,基于空间相关性进行检测不仅增加方法的复杂度,而且检测效果也不理想。

基于位置信息熵的局部敏感哈希聚类方法

基于位置信息熵的局部敏感哈希聚类方法

基于位置信息熵的局部敏感哈希聚类方法徐彭娜;魏静;林劼;江育娥【期刊名称】《计算机应用与软件》【年(卷),期】2018(035)003【摘要】在分析海量生物序列时,现有的聚类算法存在着时间效率不高、准确率较低,以及聚类结果的生物意义不足等问题.针对这些问题,提出一种基于位置信息熵的局部敏感哈希聚类方法.通过对生物序列使用K词计算其标准熵,将标准熵作为局部敏感哈希函数簇的特征向量,计算特征矩阵并应用于生物序列聚类.实验结果表明,该算法能够有效地提高时间效率和聚类的准确率.随着数据集的增大,也同样取得很好的效果,实验结果更具有生物解释性和实际意义.%In the analysis of massive biological sequences , the existing clustering algorithms have the problems of lowtime efficiency, low accuracy and insufficient biological significance of the clustering results .To solve these problems, alocal sensitive hash clustering method based on location information entropy wasproposed .By using K words to calculatethe standard entropy of a biological sequence , the standard entropy was used as the eigenvector of the local sensitive hashfunction cluster, and the feature matrix was calculated and applied to the biological sequenceclustering .Experimentalresults showed that the proposed algorithm effectively improved the efficiency of time and the accuracy of clustering .Asthe data set increased, the algorithm also achieved goodresults.The experimental results were more biologicallyinterpretative and practical.【总页数】7页(P230-235,252)【作者】徐彭娜;魏静;林劼;江育娥【作者单位】福建师范大学数学与信息学院福建福州350108;福建师范大学数学与信息学院福建福州350108;福建师范大学数学与信息学院福建福州350108;福建师范大学数学与信息学院福建福州350108【正文语种】中文【中图分类】TP3【相关文献】1.河南省高等教育资源配置评价指标体系研究——基于改进的信息熵的蚁群聚类方法 [J], 陈岩2.基于信息熵的高维数据流子空间聚类方法 [J], 张俊3.一种基于信息熵的人工鱼群聚类方法 [J], 刘高峰; 杨洋4.基于信息熵的食品安全事件聚类方法研究 [J], 辜萍萍5.基于信息熵的食品安全事件聚类方法研究 [J], 辜萍萍因版权原因,仅展示原文概要,查看原文内容请购买。

客观多因素权重分配方法及其应用

客观多因素权重分配方法及其应用

客观多因素权重分配方法及其应用吴静;吴晓燕;高忠长【摘要】综合模糊聚类技术和粗糙集理论中的信息熵原理,提出了一种多因素决策中确定各因素权重分配的新方法.利用模糊聚类分析对数据进行聚类,并提取最佳聚类;基于粗糙集中信息熵原理确定各因素的权重分配.算例结果表明:方法合理有效,具一定的可行性.【期刊名称】《上海航天》【年(卷),期】2011(028)003【总页数】4页(P60-63)【关键词】模糊聚类;粗糙集;信息熵;权重分配【作者】吴静;吴晓燕;高忠长【作者单位】空军工程大学导弹学院,陕西,三原,713800;空军工程大学导弹学院,陕西,三原,713800;空军工程大学导弹学院,陕西,三原,713800【正文语种】中文【中图分类】工业技术60 上海航天 AEROSPACESHANGHAI第28 卷 2011 年第 3 期文章编号: 1006 1630(2011)03 0060 04 客观多因素权重分配方法及其应用吴静,吴晓燕,高忠长(空军工程大学导弹学院,陕西三原 713800)摘要:综合模糊聚类技术和粗糙集理论中的信息煽原理,提出了一种多因素决策中确定各因素权宣分配的新方法。

利用模糊聚类分析对数据进行聚类,并提取最佳聚类 s 基于粗糙集中信息煽原理确定各因素的权重分配。

-算例结采表明方法合理有效,具一定的可行性。

关键词:模糊聚类;粗糙集;信息煽;权重分配中图分类号: TP18文献标志码:AObjective Multi-Factor Weight AllocationMethod and Its Application WU Ji吨, WU Xiao-yan,GAO Zhong-chang (The Missile Institute of Air Force EngineeringUniversity,Sanyuan713800Shaanxi,China) Abstract, The accuracyandreliabilityofmulti-factordecision-makingwaspartlydependedonthereasonableattribute weightallocation.Inorder toperformweight allocationreasonably and effectively inmultifactor decisionmaking,amulti-factor weightallocationmethodwasproposedbasedonthefuzzyclusteringanalysisinf uzzysetsandthe entropy theory inrough setsinthispaper.The source datawas clusteredbyfuzzyclustering analysis,andthebest clustering was extracted.The multi-factor weight allocationwas determinedbased on the entropy theory inrough sets.The calculationresult of an example showedthat theproposed approach wasreasonable and feasible.Keywords: Fuzzy clustering;Rough sets;Information entropy;Weight allocation 0引言解决多因素决策问题的重要前提就是需要确定各因素的权重分配,因此设计一个合理、有效的方法确定各因素的权重分配十分重要[1 ]。

一种基于K-means改进聚类的图像增强算法

一种基于K-means改进聚类的图像增强算法

一种基于K-means改进聚类的图像增强算法张霖泽;王晶琦;吴文【摘要】在低光照环境下,CMOS成像器件无法拍摄出清晰的图像.为了提升低照度条件成像器件输出图像的质量,根据低照度图像的特点,提出一种基于K-means 聚类的图像增强算法.通过改进的K-means算法将图像分块,并根据每一块图像的信息量分别进行直方图均衡.该方法与CMOS成像器件进行实验,可以在保留约98.6%图像细节(信息熵)的前提下,将图像的对比度提升至原图像的17倍,平均梯度提升至原图像的4倍.【期刊名称】《应用光学》【年(卷),期】2016(037)004【总页数】6页(P549-554)【关键词】K-means;聚类;图像增强;直方图均衡【作者】张霖泽;王晶琦;吴文【作者单位】南京理工大学电子工程与光电技术学院,江苏南京210094;南京理工大学电子工程与光电技术学院,江苏南京210094;南京理工大学电子工程与光电技术学院,江苏南京210094【正文语种】中文【中图分类】TN911.4在现代信息化社会中,人类所获取的80%信息来自于图像信息。

但人的视觉能力毕竟在所能感受的辐射光谱波段、分辨亮度、色度和细节差别的程度以及所能触及的空间与时间范围等诸多方面存在实际限制;针对这个问题,早在上个世纪,根据夜晚中的光线特性,人类制作出了可以捕获微弱光线的微光夜视仪和可以捕捉红外线的红外夜视仪。

但对于一般的成像器件,在夜晚捕获图像的能力仍较弱,为了使一般成像器件也可以在低照度条件下捕捉相对清晰的图像,使得低照度图像的处理变得十分重要。

在多种图像增强算法当中,直方图均衡算法较为简单,作用范围广泛,增强效果较为显著,所以被用在众多图像处理领域当中[1-5]。

最基础的直方图均衡算法是全局直方图均衡(GHE),这种方法是根据输入图像整体的灰度等级通过其累计概率密度函数(CDF)变换为新的灰度等级的一种算法。

这种方法在面对灰度等级较为集中,对比度不高的图像时有很明显的作用,可以使灰度等级分布得更加均匀;但是它的缺点是一视同仁,不能针对图像的特征进行直方图均衡。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种基于词聚类信息熵的新闻提取方法作者:牛伟农吴林于水源来源:《软件导刊》2020年第01期摘要:互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。

提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。

实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。

若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。

结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。

关键词:新闻提取;新话题;词向量;聚类;信息熵DOI: 10. 11907/rjdk.192209开放科学(资源服务)标识码(OSID):中图分类号:TP301文献标识码:A文章编号:1672-7800( 2020)001-0036-050 引言随着第四媒体的迅速发展,新闻行业迎来了新的发展机遇。

自媒体的出现和新闻发布渠道的多样化,为大众获取信息提供了便利。

但与此同时.大量信息的产生导致虚假新闻的有效控制受到了阻碍。

利用计算机技术在大量新闻数据中提取出新话题新闻,将焦点放在新话题新闻上,可以减少相关工作者需要关注的新闻数量,降低舆情控制难度。

自2013年9月“一带一路”倡议提出后,相关报道不断增加,一时间引起轰动[1]。

政府部门在面向有关“一带一路”的报道时,需在大量新闻中掌握新话题新闻,关注事态走向,令其向正确的方向发展,确保“一带一路”倡议顺利实施。

因此,本文针对“一带一路”相关新闻进行验证分析。

20世纪90年代,随着在日本神户第四届机器翻译高层会议的召开,自然语言处理( Natural Language Processing,NLP)技术由发展期逐渐进入繁荣期[2]。

自然语言处理作为人工智能的一部分,在文本分类[3-4]、问答系统[5]、机器阅读理解[6]和机器翻译[7]等领域有着广泛应用。

近年来,网络媒体的发展使得NLP在新闻行业的应用也取得了一定进展。

目前,部分学者对新闻信息提取进行了研究,包括基于中文命名实体识别和指代消解的新闻事件要素提取[8]、基于篇章主次关系的单文档摘要抽取[9]以及基于PageRank的新闻关键词提取[10]。

当前研究虽然解决了文章关键信息提取的问题,可以帮助读者快速阅读新闻,但并不能很好地处理在多文本中提取新话题新闻的任务。

综上,为减少“一带一路”新闻中相关冗余信息对分析工作带来的干扰,本文提出了一种基于词聚类信息熵的新闻提取方法,用于在多文本中提取新话题新闻。

总体流程如下:①利用分词工具对语料进行分词;②由于实验语料相关性较大,去停止词的同时对背景词进行去除;③生成word2vec词向量;④进行词频统计并筛选出历史高频词;⑤对历史高频词进行聚类,以减少单个词的词频变化以及同近义词对结果的影响;⑥在词聚类的基础上计算新闻的信息熵,将高熵新闻作为新话题新闻。

1 理论方法1.1 Word2vec词向量语言是人类智慧定义的一种高层符号组合而成的数据,这些数据并不是原生态数据。

在自然语言处理领域,需要将其还原成计算机可以理解的形式,即词向量编码,这是进行后续研究的基础。

在进行词编码时,需要保证原始文本信息的同时充分表达文本信息。

传统方法是,构建一个很大的词典,给出特定词的上位词及近义词等[11]。

但是这种做法需要大量的人工干预,而人为判断带有一定的主观性,难以精确计算词之间的相似度。

2013年,Coogle开源了一款用于词向量计算的工具,即Word2vec[12],其包括CBOW ( Continuous Bag-of-WordsModel)模型和Skip-C ram( Continuous Skip-C ram Model)模型。

Word2vec的基础是神经语言模型(Neural NetworkLanguage Model,NNLM[13])。

神经语言模型是用给定的前n一1个词预测第n个词,即输入w1,w2,…,wn-1,预测wn。

NNLM 模型的缺点是复杂度较高,而Word2vec可以降低模型复杂度。

1.1.1 基于CBOW方法的词向量编码CBOW可通过一句话的左右窗口去预测中间的词。

该模型在输入层(INPUT)输入目标词汇左右的词,即周围词的词向量,经过投影层(PROJECTION)后,在输出层( OUTPUT)输出当前词的词向量。

例如,在“‘一带一路’是实现共同繁荣的合作共赢之路”这句话中,将“繁荣”设置为目标词(target),再设置一个滑动窗口长度为2,即目标词汇前后各取2个词,加上目标词本身,一共5个词。

在这5个词中,除目标词外的其余词为背景词( context)。

如图1所示,首先,在输入层输人“实现”、“共同”、“的”、“合作”4個词的词向量;然后,在投影层将输入层的4个词向量求和累加,计算公式为:1.1.2 基于Skip-Gram方法的词向量编码Skip-Gram和CBOW相反,Skip-Gram是通过中间的词预测左右的词。

Skip-G ram模型输入是当前词的词向量,输出是周围词的词向量。

由于没有上下文,Skip-C ram模型在投影层是一个恒等投影[14]。

如图2所示,在输入层输人中间词汇“繁荣”的词向量,经过投影层后,在输出层输出“实现”、“共同”、“的”、“合作”4个词的词向量。

Skip-Gram模型的目标函数如式(2)所示,T为语料中的全部词汇数。

本实验语料基于CBOW方法进行词向量训练。

Word2vec虽是基于大量语料基础上学习而来体现相互之间关系的词向量,也存在一定问题,其在训练词向量时对每一个滑动窗口单独训练,没有利用包含在全局词共现矩阵中的统计信息,并且由于使用唯一的词向量表示词,对多义词无法很好地表示和处理。

1.2 基于K-means的词聚类针对Word2vec词向量无法很好表示和处理多义词的缺点以及语言所具有的灵活性[15],本实验提出基于K-means对词向量进行聚类。

语言的灵活性表现在,文本中存在多个表述同一含义的词汇,例如,“好处”、“利益”、“甜头”等词汇描述的意义相同,这些同义词、近义词的出现对高频词的筛选工作造成了一定干扰。

一方面,表述同一含义的词汇在语料中均大量出现,高频词中可能存在多个表达相同含义的词汇,导致词汇冗余,选定的高频词汇不具有代表性;另一方面,由于表达方式不同,表述同一含义的词汇可能交替出现,新文章中使用了高频词的替代词,导致高频词在新文章中出现次数减少,而替代词出现次数增加,从而引起信息熵的增加,导致计算误差。

为了减少上述干扰,实验采用对历史高频词进行聚类的方式,将相似词及共现词归为一个类别,统计每个类别中的词汇在新文章中出现的概率。

聚类是一种无监督学习算法,将相似对象归类到一个簇中。

聚类与分类算法的最大区别在于聚类的目标类别未知,分类的目标类别已知。

K-means聚类算法,也称k均值聚类算法( K-means Clustering Algorithm),是一种迭代求解的无监督聚类分析算法[16]。

K-means用来发现给定数据集的k个簇,簇的个数k由用户指定,每个簇中心采用簇中所含值的均值计算而成,即由簇中所有点的中心描述。

其核心原理为:①首先随机确定k个点作为质心;②将数据集中的每一个点分配到每一个簇中,为每个点找到距离其最近的质心;③将每个簇的质心更新为该簇中所有数据点的平均值;④重复第②③步,直到每个簇中的数据点和质心都不再发生变化。

1.3 信息熵在NLP中的应用1948年,香农借用热力学中熵的概念,提出了“信息熵”的概念,解决了信息的量化度量问题[17]。

信息熵是消除不确定性所需信息量的度量,也即未知事件可能含有的信息量。

一个系统包含了许多不确定性因素(x1,x2,…,xn),这些因素称为随机变量X。

要消除随机变量的不确定性,就要引入更多信息,这些信息的度量用“信息熵”表示。

需要引入的消除不确定性的信息量越多,信息熵越高,系统越不稳定;反之,信息熵越低,系统越稳定。

在自然语言处理中,信息熵反映内容的不确定性。

信息熵描述的是随机变量的不确定性,对于同一个随机变量,不同观测者从不同粒度上观察,得到的信息熵不一样。

对于文本而言,表达语义的最小粒度是词语,因此,本实验从词语的粒度计算文章信息熵。

经过词聚类后,信息熵计算如式(5)、式(6)所示,其中,p(Xk)为第k类中所有词汇出现的频率,labelk表示第k个类别,count(words)为待计算文章中的总词汇数。

值得注意的是,当作为随机变量的词汇在待计算文章中出现次数为0时,设置该词的概率为1 /count(words)2,相较于设置固定极小概率值更具灵活性。

2 实验过程2.1 数据来源本实验数据通过网络爬虫技术获取。

网络爬虫是指通过一段程序或者脚本,自动获取网络中的信息。

本实验结合Selenium模拟浏览器和Scrapy爬虫框架进行新闻抓取。

Selenium可以模拟真实浏览器,支持对js加载页面的抓取;Scrapy是一个为爬取网站数据而编写的应用框架,可以极大提高爬取速度。

本爬虫框架的核心工作流程是通过谷歌搜索“一带一路”相关新闻,然后通过xpath规则抽取返回的网页新闻列表链接,将获取到的URL存放到相应数据库中,通过读取数据库中的URL进行下一步新闻详情内容抓取。

详情内容抓取主要包括文章标题、日期、来源、正文4个部分。

新闻抓取流程如图3所示。

2.2 数据预处理实验语料根据日期对新闻进行正序排序,并对正文内容进行处理分析。

在对正文进行分析前,需要首先对语料进行一系列的分词、去停用词等预处理操作。

其中,分词使用了Pkuseg工具[18]的新闻领域模型,去停用词采用了停用词典的方式。

此外,在预处理阶段还进行了背景词的去除。

实验语料围绕“一带一路”这一主题展开,具有一定的特殊性。

因此,文本的高频词中存在大量背景词,即在所有文章中都频繁出现,但对文章区分度并不大的词汇[19],这些背景词无法满足利用历史高频词发现新话题文章的需求。

因此,本实验剔除了语料中对于新话题文章提取造成干扰的背景词,将剔除背景词后的历史高频词作为计算信息熵的随机事件。

表1中列出了语料中的部分背景词。

2.3 词频统计对于给定新闻,在计算信息熵前,首先需要确定与信息熵相关的随机变量,即能表达文章信息的词汇。

新闻的高频词在一定程度上表达了文章的主要内容以及一段时间内的新闻话题,因此本实验选取历史高频词作为计算文章信息熵的随机变量。

由于新闻语料的时效性,选取待计算文章前6天内新闻的高频词作为关键词。

相关文档
最新文档