基于文本相似度的微博网络水军发现算法_杨长春_徐小松_叶施仁_等

合集下载

基于字符串相似性聚类的网络短文本舆情热点发现技术

基于字符串相似性聚类的网络短文本舆情热点发现技术

第36卷第5期2010年5月北京工业大学学报JOURNAL OF BE I J I N G UN I V ERSI TY OF TECHNOLOGYVol .36No .5May 2010基于字符串相似性聚类的网络短文本舆情热点发现技术杨 震,段立娟,赖英旭(北京工业大学计算机学院,北京 100124)摘 要:将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效.关键词:舆情分析;短文本处理;层次聚类中图分类号:TP 393文献标志码:A 文章编号:0254-0037(2010)05-0669-05收稿日期:2009212210.基金项目:国家“九七三”计划资助项目(2007C B311100);北京市自然科学基金资助项目(4102012,4102013);北京市教育委员会科技发展计划面上资助项目(K M200810005030);北京工业大学青年科学基金资助项目.作者简介:杨 震(1979—),男,贵州六盘水人,讲师. 互联网络信息爆炸、信息泛滥、信息污染、信息扰民、信息惑众等问题的日益严重极大影响普通用户对互联网信息正常、合理的使用.更为严重的是,一些不法分子开始利用网络传播虚假和非法广告,散布谣言蛊惑人心,扰乱国家经济和社会秩序;敌对势力更是利用网络传播害国言论,制造事端,教唆动乱,严重地威胁着国家的稳定和安全.信息安全重心已转向应用和数据安全,基于内容对互联网信息传播和利用进行监管(即舆情监控)的国家和社会需求越来越强烈,成为学术界和产业界广泛关注的一个热点[1].在需求的推动之下,众多研究者利用模式识别、人工智能、知识发现为代表的智能技术对网络信息进行内容分析、语义挖掘,进而实施有效的信息过滤、话题发现以及趋势预测.但需要指出的是,现有的技术实现距离需求期望仍有差距,解决互联网舆情预警问题的关键技术,特别是网络话题的发现技术还亟待提高,互联网内容安全形式不容乐观.一方面,针对普通网络信息(长文本信息)舆情态势分析及舆情预警关键技术的研究已经大规模地展开,并取得了一定的研究成果.总体来说,针对普通网络信息(长文本信息)的内容识别与过滤技术已经迈入实用阶段.在文本表达方面,Salt on 的向量空间模型和基于Markov 过程的n 2gra m 模型提供了有效的文本描述数学模型.在文本特征选择方面,提出了基于词频/倒文档频度(TF /I D F )、信息增益(I G )、CH I 、互信息(M I )等统计量的专门特征选择方法,同时,还将主成分分析、线性鉴别分析和奇异值分解的方法引入文本特征选择,衍生出了潜在语义索引(LSI )的重要概念.在文本聚类/分类方面,贝叶斯分类器、支撑向量机(S VM )、神经网络、自组织映射(S OM )、k 近邻、k 均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用.然而另一方面,针对以即时消息、在线聊天记录、BBS 标题、手机短消息、微博客、博客评论、新闻评论等为代表的短文本信息舆情态势分析及舆情预警关键技术的研究力度不够,而恰恰是这一部分内容更能反映真实的网络舆情.但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等)[2],使得一些针对长文本的内容处理方法性能劣化,甚至不可用.因此,针对短文本自身特点,研究符合其特性的文本表达和特征选择方法,实现短文本的正确聚类成为了一个迫切的现实要求.基于此,本文面向网上短文本信息舆情分析需求,基于字符串相似性研究短文本信息的聚类方法,以期解决短文本话题发现、传播及动态演变的特征分析等关键问题.北 京 工 业 大 学 学 报2010年1 网络短文本信息舆情分析系统架构网络短文本信息舆情分析系统架构如图1所示.首先系统对接收到的网络短文本信息进行数据接收和解码,把元数据送入元数据缓存,同时将其输入垃圾信息过滤器处理,将与舆情分析无关的短文本(包括SP 定制信息、无意义信息、格式信息及其他无需进行内容监控和舆情预警的信息)判断为垃圾信息放入垃圾信箱,对有用信息内容进行话题发现,并对其传播和演变规律进行分析.系统根据用户反馈,对分类器进行更新和重建,逐渐逼近实际应用的使用需求.图1 网络短文本信息舆情分析演示系统框图Fig .1 Fl owchart of online public op ini on hots pot detecti on在实现有用信息(舆情分析相关信息)和垃圾信息(舆情分析无关信息)分离之后,需要对有用信息的聚类方法进行研究.短文本作为全新的文本媒体对象,具有其自身特点(稀疏性、实时性、不规范性等),使得传统的聚类分析方法在短文本表示这个层次上遇到了极大的困难.传统的文本表示模型,包括布尔模型、概率模型、向量空间模型都无法良好地表示,总会遇到特征向量稀疏性的问题,最终使得短文本的聚类变为简单层次上“词重现”一级的短文本聚集.毫无疑问,对短文本间相似性的准确表达及正确度量将会对短文本聚类处理带来很大帮助,而传统的文本表示和特征提取方法会损失许多重要的信息,如特征的顺序、上下文等特征,因而无法准确表达短文本间的相似性,进而使得聚类性能劣化甚至不可用.因此,如何基于短文本自身的特性确定其相似性成为本文重要的研究内容.本研究把每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性计算其相似性,在此基础上进行短文本聚类,进而发现网络舆情热点.由于这种方法免去了特征提取和文本表示过程,在一定程度上能够避免特征向量稀疏性的问题.2 基于字符串相似性短文本聚类的热点发现短文本作为全新的文本媒体对象,具有独特的语言特性.为了避免由于特征向量稀释性导致短文本聚类蜕化为简单层次上“词重现”一级的短文本聚集,迫使研究者考虑能否跳过特征提取和文本表示环节,基于短文本的特性计算相似性.通过将每个短文本文档看成一个由文字、数字和标点构成的字符串,那么可以借助比较2个字符串共同包含的子串个数和连续程度来衡量2个字符串的相似程度.当然共同的子串越多,2个短文本文档就越相似.这样一来,基于字符串相似性聚类的网络短文本舆情热点发现过程即可按照以下步骤处理:步骤1 预处理步骤.对于采集的短文本M i ,i =1,2,3,…,k 进行整理和清洗.将输入的短文本信息转换为统一编码,去除乱码等噪声信息.并按采集时间、上下文信息以及正文信息导入数据库.步骤2 基于字符串相似性计算各个短文本之间的相似程度.假设字符串A,B 间的相似性可表示为D (A,B ),即以通过比较2个字符串共同包含的子串个数和连续程度来衡量2个字符串的相似程度,寻找076 第5期杨 震,等:基于字符串相似性聚类的网络短文本舆情热点发现技术短文本M i ,M j 的最佳匹配.步骤3 基于短文本M i ,M j 之间的归一化相似度进行层次聚类(hierarchical clustering )[3]分析.层次聚类法是一种高效的聚类算法,其基本思想是根据所定义的个体间相似度,从相似性最高的个体开始,向初始化空网络中添加新个体.过程终止后,此时该网络的组成就被认为是划分为了若干簇.层次聚类方法可分为凝聚的层次聚类和分裂的层次聚类.步骤4 利用层次聚类可视化的特点,对话题间的联系进行直观的度量,发现话题,进而对其传播及动态演变的特征进行分析.其中,字符串相似测度D (.)以及用以确定聚类数目的评价指标是本文接下来需要解决的重要问题.211 基于编辑距离的字符串相似性计算假设短信M i ,M j 分别由m 和n 个字符组成,分别由{C i 1,C i 2,C i 3,…,C i m }和{C j 1,C j 2,C j 3,…,C j n }表示.那么短文本M i ,M j 之间的相似度就可由其包含字符串之间的相似度计算而来.利用Hungarian 算法去发现M i ,M j 和之间的最大匹配.设M i 在M j 中的最大匹配是{C j j 1,C j j 2,C j j 3,…,C j j m },j k ∈{1,2,3,…,n },k =1,2,3,…,m .M j 在M i 中的最大匹配是{C i j 1,C i j 2,C i j 3,…,C i j n },j k ∈{1,2,3,…,m },k =1,2,3,…,n .那么基于最大匹配,短文本M i ,M j 之间的相似度定义为其间的编辑距离(Levenshtein 距离)[425]:D (A,B )=Levenshtein (M i ,M j ).(1)在这样的定义下,D (・)越小,说明字符串越相似.212 层次化聚类数目选择方法在层次化聚类分析中,如何选择恰当的聚类个数是一个非常复杂而又必须面对的问题.尽管众多研究者进行了广泛的研究,提出了各种聚类有效性指标,包括信息熵、V w sj 指标、Gap statistic 、I GP 、Scat/Sep 指标等[6],但如何确定数据的聚类个数仍然是一个富有挑战性的问题,一般来说只能通过试错法(trial 2and 2err or )迭代确定.实际上,一个好的聚类结果应该使得簇内的数据点之间是尽可能“紧凑”的,而簇间的数据点之间是尽可能“分离”的.这样一来,一个可行的聚类个数选择依据可以定义如下:Q =簇内平均相似度簇间平均相似度.(2)可以对聚类簇的几何拓扑结构预先假定,或者不做任何限制,在此基础上度量平均相似度[627],本文使用基于简单的点对(pair 2wise )相似性的度量方法.假设待处理短文本集为S ,假定其可能被划分为k 簇,即S ={S 1,S 2,…,S k },其中用|S k |表示簇中元素的个数,那么Q =1k ∑k i =1∑A,B ∈S i1|S i |2D (A,B )1k 2∑k i =1∑k j =1∑A ∈S i ,B ∈S j1|S i |・|S j |D (A,B )(3)依据前述定义,显然Q 值越小说明聚类所选择的数目越合理.3 实验结果实验采用S MS 短信库[8]作为评测语料库,这里我们使用了其中一个标注后的子集(共4486条短信).为了简化问题并且考虑到人工标注的可行性,将其标注为5个类别:日常生活、工作相关、非法和虚假信息、系统群发(非手写短信)和其他短信.使用这样的分类体系是基于以下的考虑:1)这样的分类简单易行,且概念明确,易于标注实现;2)这样的分类体系虽然比较简单粗略,但其体系结构容易扩展,能为进一步的研究打下坚实的基础;3)这个分类体系也涵盖了一些研究热点所需要关注的短信类别.176北 京 工 业 大 学 学 报2010年图2 层次聚类簇数目和Q 值间关系图Fig .2 The Q yielded by different number of clusters在这里主要考察和网络异常发现相关的第3类(非法和虚假信息)和第4类(系统群发/非手写)短信.图2给出了层次聚类数目和Q 值之间的关系.从图中可知,如果设定Q =011为阈值,那么当聚类数目为14和10时,第3类和第4类短信聚类性能开始稳定下来,聚类结果趋于合理.从聚类结果来看,首先,形式上相似的短信被聚为一类,如下所示(出于隐私保护的目的,我们去除了短信中的敏感信息):短信簇1短信1:哗哗哗!铜蛋被砸开了,金花四溅!!定睛一看,你得到了27分,目前你的总分为27短信2:哗哗哗!铜蛋被砸开了,金花四溅!!定睛一看,你得到了29分,目前你的总分为55短信3:哗哗哗!银蛋被砸开了,金花四溅!!定睛一看,你得到了26分,目前你的总分为53其次,被聚为一类的短信在内容上体现出一致性,如下所示(出于隐私保护的目的,我们去除了短信中的敏感信息):短信簇2短信1:不了解那你还把你电话给我短信2:你不接我电话那我也不接你电话了短信3:打电话怎么不接我给你往家里打电话的了短信4:你话费还剩多少了?晚上给我打电话不?这样就比较容易从同一个聚类簇中得到其共同主题,进而可以发现短信中舆情热点.实验结果说明了本文提出方法的有效性.由于篇幅所限,其他类似实验结果不再赘述.4 结束语以短信息为代表的网络舆情分析相关研究已经引起了人们的重视.但由于短文本独特的语言特性,使得一些针对长文本的内容表示和聚类分析方法性能劣化,甚至不可用.对短文本间相似性的准确表达及正确度量将会对短文本聚类处理带来很大的帮助,本文通过把每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.但是字符串相似性的计算方法无一例外均具有较高的计算复杂性,而且这样的相似性也仅局限在衡量某种程度的形式相似性上.如何从更高的层次,即语义的角度来衡量其相似性成为下一步研究的重要方向.参考文献:[1]中国信息产业商会信息安全产业分会.中国信息安全产业发展白皮书(2005—2010)[E B /OL ].[2005203211].htt p:∥www .itsec .gov .cn /webportal/docu ment/bai p ishu .doc .[2]龚才春.短本语言计算的关键技术研究[D ].北京:中国科学院研究生院计算技术研究所,2008.G ONG Cai 2Chun .Research on short text language computing [D ].Beijing:I nstitute of Computing Technol ogy,Chinese Acade my of Sciences,2008.(in Chinese )[3]SCOTT J.Social net w ork analysis:a handbook[M ].2nd Editi on .London:Sage,2000:1232145.[4]车万翔,刘挺,秦兵,等.基于改进编辑距离的中文相似句子检索[J ].高技术通讯,2004,14(7):15220.CHE W an 2xiang,L I U Ting,Q I N B ing,et al .Si m ilar Chinese sentence retrieval based on i m p r oved edit 2distance [J ].H igh Technol ogy Letters,2004,14(7):15220.(in Chinese )[5]杨震,范科峰,雷建军,等.基于语义的文本流形研究[J ].电子学报,2009,37(3):5572561.Y ANG Zhen,F AN Ke 2feng,LE I J ian 2jun,et al .Text manifold based on se mantic analysis [J ].Acta Electr onica Sinica,276 第5期杨 震,等:基于字符串相似性聚类的网络短文本舆情热点发现技术376 2009,37(3):5572561.(in Chinese)[6]陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法[J].软件学报,2008,19(1):62272.CHE N L i2fei,J I A NG Q ing2shan,WANG Sheng2rui.A hierarchicalmethod for deter m ining the nu mber of clusters[J].Journal of Soft w are,2008,19(1):62272.(in Chinese)[7]BOUG UESS A M,WANG S,S UN H.An objective app r oach t o cluster validati on[J].Pattern Recogniti on Letters,2006,27(13):141921430.[8]马旭,徐蔚然,郭军,等.S M S-2008标注中文短信息库[J].中文信息学报,2009,23(4):22226.MA Xu,XU W ei2ran,G UO Jun,et al.S M S-2008:an annotated Chinese short messages cor pus[J].Journal of ChineseI nfor mati on Pr ocessing,2009,23(4):22226.(in Chinese)Online Public Opin ion Hotspot Detecti on and AnalysisBased on Short Text Cluster ing Usi n g Str ing D ist anceY ANG Zhen,DUAN L i2juan,LA I Ying2xu(College of Computer Science,Beijing University of Technol ogy,Beijing100124,China)Abstract:The unique language characteristic of short texts has made the perf or mance of traditi onal natural language p r ocessing methods degradati on,or even unavailable.Exact rep resentati on and calculati on of the si m ilarity bet w een short texts are great hel pful t o content based clustering.That this paper treated each short text as a compositi on of characters,numbers and punctuati on,and a si m ilarity measure based on string si m ilarity was p r oposed.Then a public op ini on hots pot detecti on and analysis syste m based on short text hierarchical clustering was built.This method calculated the si m ilarity directly which ski pped the feature extracti on and rep resentati on p r ocessing of short text,t o a certain extent,and avoided using the s parse feature vect ors.Experi m ental results show the effectiveness of the p r oposed method.Key words:public op ini on analysis;short text p r ocessing;hierarchical clustering(责任编辑 张 蕾)。

一种基于《知网》的文本语义相似度的计算方法

一种基于《知网》的文本语义相似度的计算方法
究, 取得 了不少 成 果 , 但 是 文 本 聚 类 也 面 临 着各 方
造成 了文本 向量 的表 示 空 间难 以有 效 地 降维 。2 ) 由于不 同的文 本 可 能采 用 不 同 的词 汇 来 表 示 相 同
概念 , “ 一对 一” 的匹 配方法 在处 理 时就 显得 无 能 为 力 了¨ 6 ] 。特别 是 同义词 和 近义 词不 能 识别 , 造 成 了 聚类 的误 差 。例 如 : 文本 1 : 土 豆 盛 产 于 中 国 。文
总第 2 9 2期 2 0 1 4年第 2期
计算 机与数字工程
Co mp u t e r&. Di g i t a l En g i n e e r i n g
Vo 1 . 4 2 No . 2
1 87
一ห้องสมุดไป่ตู้
种 基 于 知 网 的 文本 语 义 相 似 度 的计 算 方 法
孙 滨 刘 林
4 5 1 1 0 0 ) ( 郑州华信学 院信息工程 系 郑州


论文提 出一个基于语义 的文本 问的相似度算法 , 以文本 的特征词 相似度为基础 , 来计算文本 间的相似度 , 利用
聚类算法对文本簇进行 聚类 。实验结果证 明基于知 网的文本语义相似度方法在对文本相似度计算 以及文本 聚类方面 , 能有 效提 高聚类 的效果 。 关键 词 文本 聚类 ; 义原相似度 ; 语义相似度
Ab s t r a c t A s i mi l a r i t y a l g o r i t h m b a s e d o n s e ma n t i c s i mi l a r i t y i s p r o p o s e d ,wh i c h c a l c u l a t e s t h e s i mi l a r i t y o f t e x t s a c — c o r d i n g t O f e a t u r e wo r d s o f t h e t e x t a n d ma k e s t e x t c l u s t e r s b y e mp l o y i n g c l u s t e r i n g a l g o r i t h m. Th e e x p e r i me n t a l r e s u l t s p r o v e t h a t t h e me t h o d o f t e x t s e ma n t i c s i mi l a r i t y b a s e d o n CNKI i S v e r y e f f i c i e n t i n t e x t s i mi l a r i t y c a l c u l a t i o n a n d t e x t c l u s t e — r i n g ,wh i c h c a n e f f e c t i v e l y i mp r o v e t h e e f f e c t o f c l u s t e r i n g . K e y Wo r d s t e x t c l u s t e r i n g ,p r i mi t i v e s i mi l a r i t y,s e ma n t i c s i mi l a r i t y Cl a s s Nu mb e r TP 3 9 】

新浪微博搜索排序方法研究

新浪微博搜索排序方法研究

新浪微博搜索排序方法研究
叶施仁;严水歌;杨长春
【期刊名称】《常州大学学报:自然科学版》
【年(卷),期】2013(000)003
【摘要】深入讨论了基于向量空间模型以及基于潜在语义分析的微博搜索排序算法,以新浪微博为例,通过建立实验系统,利用新浪微博公共开放平台提供的API获取实验数据,通过一个实验样例阐述向量空间模型和潜在语义分析的处理过程。

新浪微博现有排序方法通常不能提供按照相关性排序的满意结果。

利用向量空间模型以及潜在语义分析方法,构建"索引词-博文"矩阵,对博文进行分词和向量化。

衡量博文和查询的相关度转化成计算博文向量和查询向量之间的相似度。

把对博文和查询的处理简化为向量空间中向量的运算。

由实验得知基于潜在语义分析的微博搜索排序算法有效地提高了博文的检索效率。

【总页数】5页(P71-75)
【作者】叶施仁;严水歌;杨长春
【作者单位】常州大学信息科学与工程学院
【正文语种】中文
【中图分类】N
【相关文献】
1.新浪微博搜索排序方法研究
2.搜索引擎中结果网页排序方法研究
3.Nutch搜索引擎的页面排序修改方法研究
4.一种基于BP神经网络的新浪微博实时搜索排序算法
5.云存储环境中多关键词加密排序搜索方法研究
因版权原因,仅展示原文概要,查看原文内容请购买。

基于文本相似度的微博网络水军发现算法

基于文本相似度的微博网络水军发现算法

基于文本相似度的微博网络水军发现算法
杨长春;徐小松;叶施仁;周猛
【期刊名称】《微电子学与计算机》
【年(卷),期】2014(31)3
【摘要】微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户.
【总页数】4页(P82-85)
【关键词】特征码;索引;文本相似度;最长子序列
【作者】杨长春;徐小松;叶施仁;周猛
【作者单位】常州大学信息科学与工程学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于贝叶斯模型的微博网络水军识别算法研究 [J], 张艳梅;黄莹莹;甘世杰;丁熠;马志龙
2.基于网络关系的微博水军集团发现方法 [J], 叶施仁;叶仁明;朱明峰
3.基于关系图特征的微博水军发现方法 [J], 程晓涛;刘彩霞;刘树新
4.基于逻辑回归算法的微博水军识别 [J], 谢忠红;张颖;张琳
5.基于半监督协同训练算法的微博水军识别 [J], 韩晴晴; 张艳梅; 牛娃
因版权原因,仅展示原文概要,查看原文内容请购买。

基于改进CURE算法的微博热点话题发现

基于改进CURE算法的微博热点话题发现

基于改进CURE算法的微博热点话题发现杨长春;周猛;叶施仁;徐小松【期刊名称】《计算机仿真》【年(卷),期】2013(030)011【摘要】由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题.本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度.从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的”头部”,能够更加直观的发现微博热点话题.【总页数】5页(P383-387)【作者】杨长春;周猛;叶施仁;徐小松【作者单位】常州大学信息科学与工程学院,江苏常州213164;常州大学信息科学与工程学院,江苏常州213164;常州大学信息科学与工程学院,江苏常州213164;常州大学信息科学与工程学院,江苏常州213164【正文语种】中文【中图分类】TP391【相关文献】1.基于离散粒子群优化的微博热点话题发现算法 [J], 马慧芳;吉余岗;李晓红;周汝南2.基于Hadoop的微博热点话题发现的聚类算法 [J], 彭玉青;高红灿;张媛媛;董良3.基于SSDKmeans算法的微博热点话题发现研究 [J], 李海明4.基于SSDKmeans算法的微博热点话题发现研究 [J], 李海明[1]5.基于两层聚类的微博热点话题发现算法研究 [J], 李勇因版权原因,仅展示原文概要,查看原文内容请购买。

基于文本相似度的微博网络水军发现算法_杨长春_徐小松_叶施仁_等

基于文本相似度的微博网络水军发现算法_杨长春_徐小松_叶施仁_等
图 1 水 军 传 播 信 息 模 式
图 2 水 军 存 在 形 式
图1 中 数 字 表 示 水 军 们 所 发 的 评 论 内 容,从 以 上两图中我们可以看到水军发表评论是随意地往四
处传播,但是他们有 一 个 特 点 即 他 们 所 发 的 评 论 内 容是具有重复性的,因 此 通 过 找 出 这 些 重 复 或 者 相 似的评论内容,再对 这 些 评 论 内 容 进 行 分 析 便 可 以 很轻松地找出水军用户.
3 求 相 似 评 论 内 容 的 方 法
对于 大 规 模 的 评 论 内 容 而 言,为 了 能 够 快 速 有 效地得到所有的相 似 的 评 论 内 容,其 方 法 步 骤 如 图 3所示.
图 3 步 骤 结 构 图
3.1 特 征 码 的 提 取
水军发的帖子有很明显的特征即它们都是基本
相同的,当然现今也 有 些 水 贴 可 能 会 添 加 或 者 是 删
31 卷 第 3 期 2014年3月
微电子学与计算机 MICROELECTRONICS & COMPUTER
Vol.31 No.3 March 2014
基于文本相似度的微博网络水军发现算法
杨 长 春 ,徐 小 松 ,叶 施 仁 ,周 猛
(常州大学 信息科学与工程学院,江苏 常州 213164)
得出此IP 地址是水军的概率.此方法只能从表面确 定 是 否 为 水 军 ,错 误 率 是 其 不 能 解 决 的 一 大 难 题 .文 献 [3]中 采 用 情 感 分 析 的 方 法 ,通 过 采 用 机 器 学 习 方 法对正文信息进行 情 感 分 类,首 先 判 断 其 为 正 面 信 息或为负面信息,经 过 统 计 后,在 特 定 时 间 内,当 某 人发表的正面或者负面信息比重超过阈值时则认为 其 为 网 络 推 手 .此 方 法 得 到 的 水 军 更 为 模 糊 ,情 感 分 析本来就是一个很 难 捉 摸 的 难 题,情 感 分 析 的 有 效 性、正确性 还 有 待 改 进,因 此 该 方 法 的 效 果 并 不 理 想.文献[4-5]主 要 基 于 特 征 码 技 术 找 出 相 同 网 页, 特征码再通过 B-Tree索 引 可 以 高 效 的 找 出 相 同 的 网页.

一种网络水军的自动识别方法及系统[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201710463010.2(22)申请日 2017.06.19(71)申请人 中国科学院信息工程研究所地址 100093 北京市海淀区闵庄路甲89号(72)发明人 梁棋 沙灜 李锐 邱泳钦 王斌 (74)专利代理机构 北京君尚知识产权代理事务所(普通合伙) 11200代理人 邵可声(51)Int.Cl.G06F 16/35(2019.01)G06F 16/9536(2019.01)G06Q 50/00(2012.01)H04L 29/08(2006.01)(54)发明名称一种网络水军的自动识别方法及系统(57)摘要本发明提供一种网络水军的自动识别方法及系统,该方法步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。

该方法及系统不仅免去了人工标注工作及模型训练,而且能够快速有效的识别社交网络中的网络水军,即当一个账号的评论信息的历史被删评论数满足预设条件,则判定该账号为网络水军。

同时该方法及系统适用于多个社交网络,并且能够跨平台运行。

权利要求书1页 说明书4页 附图2页CN 109213858 A 2019.01.15C N 109213858A1.一种网络水军的自动识别方法,其步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。

2.如权利要求1所述的方法,其特征在于,步骤1)包括以下步骤:1-1)社交网络用户模拟登录;1-2)获取社交网络中认证账号列表,并采集每个认证账号的消息信息;1-3)获取消息列表,并采集每条消息下的评论信息。

基于《知网》的文本相似度研究

基于《知网》的文本相似度研究
袁晓峰
【期刊名称】《成都大学学报(自然科学版)》
【年(卷),期】2014(033)003
【摘要】计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/ IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.
【总页数】3页(P251-253)
【作者】袁晓峰
【作者单位】盐城师范学院信息科学与技术学院,江苏盐城224002
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于《知网》义原空间的文本相似度计算 [J], 肖志军;冯广丽
2.基于加权语义网的文本相似度计算方法研究 [J], 张弛;周艳玲;张贯虹
3.基于主题模型和文本相似度计算的专利推荐研究 [J], 艾楚涵; 姜迪; 吴建德
4.基于文本相似度计算的我国人工智能政策比较研究 [J], 张涛;马海群
5.基于关联图和文本相似度的实体消歧技术研究 [J], 王章辉;吕亚茹;张涵婷
因版权原因,仅展示原文概要,查看原文内容请购买。

基于相似度的微博社交网络的社区发现方法

基于相似度的微博社交网络的社区发现方法
孙怡帆;李赛
【期刊名称】《计算机研究与发展》
【年(卷),期】2014(51)12
【摘要】作为一种新兴的社交媒体,微博由于其信息的简短性、实时性和公开性,在短短4年内已积累数以亿计的用户并且数量还在迅速增长,由此带来的社会影响日益广泛.对微博用户关系网络进行社区发现具有重要的理论和实际意义.根据微博网络的有向性及建立关注关系的随意性等特点,提出一种基于共同关注和共同粉丝的微博用户相似度,定义此相似度的模块化函数,依据贪心算法思想设计出基于此模块化函数最大化的社区发现方法,并在此基础上将该方法推广到具有标签信息的微博网络中.应用该方法处理了3个真实的微博用户关系网络数据,结果表明该方法可以有效地发掘微博用户关系网络中的社区结构.
【总页数】11页(P2797-2807)
【作者】孙怡帆;李赛
【作者单位】中国人民大学应用统计科学研究中心北京100872;中国人民大学统计学院北京 100872
【正文语种】中文
【中图分类】TP393;TP301.6
【相关文献】
1.一种基于用户交互行为和相似度的社交网络社区发现方法研究 [J], 许为;林柏钢;林思娟;杨旸
2.基于行为相似度的微博社区发现研究 [J], 蔡波斯;陈翔
3.基于共邻节点相似度的加权网络社区发现方法 [J], 刘苗苗;郭景峰;马晓阳;陈晶
4.微博社交网络社区发现方法研究 [J], 范超然;黄曙光;李永成
5.内容相似度微博社区发现方法研究 [J], 王高飞;张月琴;陈健
因版权原因,仅展示原文概要,查看原文内容请购买。

基于文本属性的微博用户相似度研究


O 引 言
微博模仿 了人类 社会 的结 构 ,将 用户组 织成 完整 的社会 网络 ,实现 了用户 的个性化 信息发布 、社会性传 播和一些私人或公 开 的社交 的需求 。在 自媒体 时代 , 用户不再仅仅是信息 的接受者 ,也 是信 息的发布者 ,信 息在用 户 的社 交 行 为 中发 生 了 由 点 到 面 的爆 炸 式 传播 …o
中 圈分类 号 :TP301
文 献标 识码 :A
文章编 号 :1673—629X(2018)05—0017—06
doi:10.3969/j.issn.1673—629X.2018.0 5 .005
Research on M icro-blog User Similarity Based on Text Similarity

摘 要 :传 统 的相 似度计 算方 法忽 略 了用 户主观 输 出的微 博文本 信息 ,而 这正是 体 现用 户 兴趣 点 的重 要元 素 ,只 有结 合 了
用户 自身 信息 及其 在社 交平 台上 的互 动 内容 ,才 能相 对全 面描述 一个 用户 ,由此 提 出基 于 文本 属性 的相似 用 户计 算 方法 。
fle ts USe4"’Sinter est point.In ordertO fully describe the user’sinformation,the user’s background information andtheirinteractive COIl— tent on t he socia l plat for m should be considered.Therefore ,we present a calculatingmethod of M icm -blog use r simi larity,whichis bound up with text similarity.The Us er s imilarit y is mainly divided b the ba c kground similarit y and inter est similarity which is mainly det er— m i ne d by the teXt simi larit y.T h e cosine similarit y should b e ca lculated after the word s egmentat ion and TF-IDF.User s im i larity is also described by us e r’s locat ion,the device they USe ,the time tIley se nd W eibo ,the text they re -post an d the relationship be tween them.Fi— nally,themethod USe SAHP tO de terminethewejghtof each attribute and build allintegrated similarity calculation mod e1.Throughthe ex— periment,systematically compared wit h t he calculating met ho d ofus er sim i lar it y combine d with t ext s im i larily and t he one before impm· ving,the results show that the former increase the Fl metric by 34.3% ,which shows its superiority. Key words:Micro-blog;social network;user fimi larity;text simi lar it y;cosine sim i lar ity;ana lytic hierarchy process
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

杨 长 春 ,等 :基 于 文 本 相 似 度 的 微 博 网 络 水 军 发 现 算 法
83
本文 在 借 鉴 已 有 的 成 果 的 基 础 上,根 据 水 军 自 身的特点主要从以下三个方面进行研究:
(1)网 络 水 军 的 基 本 特 点 及 描 述 ; (2)求 相 似 评 论 内 容 的 方 法 ; (3)水 军 发 现 .
水 军 发 的 帖 子 相 似 度 较 高 ,可 能 在 原 帖 上 添 加 、 删除或者修 改 一 两 个 字 、词,例 如:“我 们 都 知 道 这 其 实是一场阴谋”和“你们都知道这其实是一场阴谋”这 两 个 特 征 码 其 实 是 一 样 的 ,但 是 要 按 特 征 码 完 全 相 同 才算是相同的评论内容的话,这两个特征码就是不一 样的,因此我们提出采用最长子序列的比较方法.
得出此IP 地址是水军的概率.此方法只能从表面确 定 是 否 为 水 军 ,错 误 率 是 其 不 能 解 决 的 一 大 难 题 .文 献 [3]中 采 用 情 感 分 析 的 方 法 ,通 过 采 用 机 器 学 习 方 法对正文信息进行 情 感 分 类,首 先 判 断 其 为 正 面 信 息或为负面信息,经 过 统 计 后,在 特 定 时 间 内,当 某 人发表的正面或者负面信息比重超过阈值时则认为 其 为 网 络 推 手 .此 方 法 得 到 的 水 军 更 为 模 糊 ,情 感 分 析本来就是一个很 难 捉 摸 的 难 题,情 感 分 析 的 有 效 性、正确性 还 有 待 改 进,因 此 该 方 法 的 效 果 并 不 理 想.文献[4-5]主 要 基 于 特 征 码 技 术 找 出 相 同 网 页, 特征码再通过 B-Tree索 引 可 以 高 效 的 找 出 相 同 的 网页.
会 给 存 储 、计 算 带 来 较 大 的 开 销 ,而 如 果 特 征 码 太 短
其区分能力便会 降 低.因 为 评 论 内 容 不 超 过 140 个
字,因 此 本 文 取 评 论 内 容 自 身 作 为 特 征 码,长 度 L
为140,对于评 论 内 容 少 于 140 个 字 的 可 以 以 特 定
2 网 络 水 军 的 基 本 特 点 及 描 述
网络水军[6],是指被网络推手召集,以在网 络 上 发 帖 、回 帖 等 方 式 执 行 传 播 命 令 ,并 获 得 相 应 报 酬 的 人员群体.网络和社 会 上 那 些 引 起 轰 动 的 事 件 大 多 数都是由于网络水 军 在 网 络 上 发 帖、回 帖 造 势 所 引 起的.而本文主要从 新 浪 微 博 中 评 论 内 容 这 一 块 寻 找 水 军 .经 过 大 量 的 观 察 与 研 究 发 现 ,新 浪 微 博 中 水 军在评论内容这一 块 主 要 运 作 流 程 如 下:水 军 用 户 们 得 到 命 令 ,每 个 水 军 都 会 得 到 所 需 发 出 的 评 论 ,这 些评论可以随处 发 送,就 当 作 宣 传.当 然,少 数 水 军 可能会给评论内容 改 一 两 个 字,但 是 不 会 大 幅 度 的 修 改 ,修 改 过 多 会 改 变 原 来 的 意 思 ,达 不 到 雇 主 的 要 求,而且专业的水军 用 户 每 天 都 会 接 到 数 百 例 这 样 的 任 务 ,没 有 时 间 去 作 大 的 修 改 .本 文 找 相 似 的 评 论 内容要求比较高,相似度一般 达 到 95% 时 才 会 归 类 为 一 条 评 论 .水 军 的 传 播 信 息 模 式 如 图 1 所 示 ,存 在 形式如图2所示.
进制数,也就是把一 个 评 论 内 容 映 射 到 一 些 由 二 进
84
微电子学与计算机
2014 年
制数字构成的大小为(6 763)140空 间 里,在 这 么 大 的 空间里,不同评论内 容 是 不 可 能 出 现 相 同 的 特 征 码 的.通过这种映射就 把 一 个 复 杂 的 计 算 评 论 内 容 相 似度来判断评论内容是否相同的问题变为利用二进 制数的比较来判别评论内容是否相同的问题. 3.2 确 定 评 论 内 容 相 似
A Method to Find Water Armies in Weibo Based on Text Similarity
YANG Chang-chun,XU Xiao-song,YE Shi-ren,ZHOU Meng
(School of Information Science & Engineering,Changzhou University,Changzhou 213164,China)
Abstract:The comments issued by the Water Army were repeatability and similarity.A method to find Water armies in weibo based on Text similarity was proposed.Comments are represented by signatures .By indexing the signatures on efficient B-Tree ,the whole system had extreme processing efficiency.According to the repeatability and similarity characteristics of the comments issued by the Water Armies,the users which defined as Water Armies had a high number of occurrences when analyzed on the same or similar comments.And then analyzed the comments published by those users,found that those comments were almost similar.Experiments showed that this method could find the Water Armies accurately and effectively. Key words:signature;index;text similarity;longest subsequence
的 字 符 补 位 ,按 照 多 元 文 法 (N-Gram)的 定 义 这 个 特 征码相当于一个140阶 的 文 法 (140-Gram),如 果 有
6 763个 汉 字 那 么 这 个 特 征 码 的 重 复 概 率 大 概 为
1 (6 763)1












不可能重复的.如果把 长 为 L 的 特 征 码 看 成 一 个 二
31 卷 第 3 期 2014年3月
微电子学与计算机 MICROELECTRONICS & COMPUTER
Vol.31 No.3 March 2014
基于文本相似度的微博网络水军发现算法
杨 长 春 ,徐 小 松 ,叶 施 仁 ,周 猛
(常州大学 信息科学与工程学院,江苏 常州 213164)
收 稿 日 期 :2013-04-17;修 回 日 期 :2013-06-03 基 金 项 目 :国 家 自 然 科 学 基 金 项 目 (61272367);江 苏 省 科 技 厅 项 目 (BZ2010021);江 苏 省 研 究 生 培 养 创 新 工 程 项 目 (20120515)
第3期
图 1 水 军 传 播 信 息 模 式
图 2 水 军 存 在 形 式
图1 中 数 字 表 示 水 军 们 所 发 的 评 论 内 容,从 以 上两图中我们可以看到水军发表评论是随意地往四
处传播,但是他们有 一 个 特 点 即 他 们 所 发 的 评 论 内 容是具有重复性的,因 此 通 过 找 出 这 些 重 复 或 者 相 似的评论内容,再对 这 些 评 论 内 容 进 行 分 析 便 可 以 很轻松地找出水军用户.
1 引 言
微 博 具 有 公 开 性 、及 时 性 等 特 征 ,但 其 存 在 一 些 负 面 影 响 .因 此 ,怎 样 辨 识 这 些 网 络 水 军 是 本 文 所 要 研究的内容.
当 今 ,网 络 水 军 的 水 贴 越 来 越 多 ,对 网 络 环 境 的 真实性产生了严重 的 影 响,然 而 对 这 些 行 为 目 前 还 没 有 一 个 有 效 的 方 法 进 行 辨 识 与 制 止 .文 献 [1]中 提 出了对发帖 进 行 分 析、处 理,生 成 Hash 值,通 过 各 个发帖 Hash值之间的比较,确定该贴 是 否 为 水 贴. 该方法主要采用矩 阵 形 式,对 大 规 模 数 据 量 的 处 理 则不太现实.文献[2]中通过相同IP 与ID 的统计来
把所有的特征码检索起来便可以作为一个完整的检
索 系 统 .根 据 网 页 去 重 技 术 的 启 发 ,我 们 也 可 以 给 每
条评论内容一个特 征 码,把 所 有 评 论 内 容 的 特 征 码
检索起来也可以建 立 一 个 完 整 的 检 索 系 统.而 在 特
征码的定义与提取中参 数 L 非 常 重 要,特 征 码 太 长
是重复网页 . [7]
网页去重技 术 其 实 也 采 用 了 检 索 系 统 这 [8-9] 一
思想,文献[4]中就 引 用 了 特 征 码 这 一 概 念,每 一 个
网页可以找出一个特征可以跟其他不同的网页区分
开,这种特征也即为网 页 的 特 征 码.文 献 [4]中 提 取
网 页 的 特 征 码 主 要 是 取 了 长 度 为 10 的 字 符 串 .这 样
两个序列X = {x1,x2,…,xn},Y = {y1,y2,…, ym },其中 X,Y 相当于两个 特 征 码,xn、ym 相 当 于 两 个句子中的字,最长 子 序 列 就 是 给 定 的 两 个 序 列 共 有 的 子 序 列 中 最 长 的 一 个 .最 长 子 序 列 有 一 个 阈 值 , 一般为 L-1或 L-2,当其大于这个阈值时就认为 这两个特征码是相同 的.具 体 阈 值 的 大 小 可 以 根 据 评论内容的字数的多 少 而 定,为 了 能 够 精 确 地 得 到 水军,设立了这样 的 一 个 区 间(count为 评 论 内 容 的 字 数 ):
相关文档
最新文档