EDM高效的微博事件检测算法

合集下载

预答辩-个人微博中公共事件检测算法的研究-文档资料

其中分子表示两条微博的分词交集，即重叠数量，分母表
PPT模板下载：1ppt/moban/
课题解决方案与设计
流行相似度：若两条微博的流行度值均很大，说明相似度
越高；在二者之和相等的情况下，乘积越大，则相似度越高。计算公式如下。
s i m p o p ( i d i ,) i d j p o p ( i d i ) p o p ( i d j )
N t f i d f ( 1 t f ( w , x ) ) l g ( 1 ) ) w , x w n
直接应用个人微博数据存在的问题： 1.没有结合微博文本特征以及分词的自身特点。
（公式8）
2.相同的关键字在不同的短文本中会出现特征值离散现象。 3.会出现IDF值高，TF值低的分词被当作主题词提取。
（公式5）
通过分析每个权重因子的含义及实验，设定a、b和c的值分别为0.65、0.3和0.05，且a+b+c=1。
PPT模板下载：1ppt/moban/
课题解决方案与设计聚类主题词
步骤1：从分词i词性考虑，具体的词性权重；
0.8若i为缩略词 posi 0.6若i为名词 0.4若i为动词
ID 源数据获取 1 2 …… n 微博信息 …… …… …… …… 转帖数 …… …… …… …… 评论数 …… …… …… …… 赞数 …… …… …… …… URL链接 …… …… …… ……
相似度计算
c1,1 … c1, n … … … cm,1 … cm, n
据集，以提取主题词为目的，展开从文本预处理到相似性度量，再到特征值计算等一系列研究，为今后个人微博事件检测、自动摘要生成提供依据。

北京航空航天大学科技成果——基于语义扩展的微博突发事件检测技术

北京航空航天大学科技成果——基于语义扩展的微博突发事件检测技术项目简介微博的社会化特性及其可以被迅速、及时的传播，吸引了大量对信息实时性有高需求的网民。

尤其是在突发事件的信息传播上，微博更是超越了传统媒体，成为了信息快速传播的渠道。

微博上的信息不仅发布及时，而且也是现实社会生活的缩影，挖掘微博上的信息有利于从不同角度分析现实世界的情况。

因此，从海量的微博数据检测事件具有十分重要的意义。

现有技术中的微博事件检测的方法可以分为两类，一类是针对特定事件的微博事件检测方法，一类是通用的微博事件检测方法。

对于特定事件的微博事件检测方法，通常需要对事件一定的先验知识，比如针对地震事件，通过地震相关的关键词找出相关微博，对这部分微博进行分析，但是对于突发事件很难具有先验的信息，因此，该种微博事件检测方法具有很强的局限性。

对于通用的微博事件检测方法不需要事件的先验知识，主要包括基于突发特征检测、主题模型、聚类或者图的方法，但是这些方法普遍需要离线检测，不能处理流式数据。

本成果提供一种基于语义扩展的微博突发事件检测技术，以解决上述问题。

技术描述本成果提供的基于语义扩展的微博突发事件检测技术包括：获取与待检测的微博突发事件对应的第一关键词；根据第一关键词和第一关键词关联的词向量文件，得到微博突发事件；其中，第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的，词向量文件包括第一关键词与其它训练词语之间的语义相似度。

本技术的基于语义扩展的微博突发事件检测方法及装置，通过考虑文本的语义信息来扩展事件的关键词，并通过扩展后的关键词进行微博突发事件的检测，可以准确的检测微博突发事件，避免了将同一事件分成两个微博事件，并可以进行在线检测。

知识产权已获国家发明专利。

意向合作方式技术转让、技术许可、作价投资。

新浪微博舆情监测与分析系统设计与实现

新浪微博舆情监测与分析系统设计与实现提要：本文旨在介绍一个基于新浪微博平台的舆情监测与分析系统，阐述其设计思路及实现方法。

文章主要包括三个部分：系统分析、数据采集和处理、数据分析与可视化。

系统分析部分主要解释了为什么选择新浪微博平台，以及该系统需要具备哪些功能和特性；数据采集与处理部分说明如何获取、筛选、转换和存储数据；数据分析与可视化部分则介绍了如何对数据进行分类、聚类、情感分析和可视化分析。

总的来说，该系统的设计与实现旨在为用户提供一种快捷、科学、客观、直观的舆情监测与分析方法，并且借助大数据和机器学习等技术来不断优化和提升系统的性能和精度。

正文：1.系统分析随着互联网的发展和社交媒体的兴起，越来越多的用户开始通过微博、微信、论坛等平台进行信息交流和传播。

这些平台不仅为用户提供了便捷的沟通工具，同时也为舆情监测和分析提供了丰富的数据来源。

因此，建立一套舆情监测与分析系统，不仅可以快速反应公众对某一事件或问题的态度和看法，还可以为政府、企事业单位等提供决策参考和危机应对。

在选择监测平台时，我们考虑到新浪微博是目前国内用户数最多、活跃度最高的社交媒体之一，且其开放的API提供了丰富的数据接口和权限。

因此，我们选择在新浪微博平台上实现舆情监测与分析系统。

该系统需要具备如下功能和特性：1.1 数据实时性随着用户数量的快速增加，微博上内容并不是止于固定的话题和事件。

因此，系统需要实现实时采集、处理和存储微博数据，能够迅速响应和更新当前的舆情状态。

1.2 数据可靠性由于用户从不同的社会群体和不同的心理状态发表微博，微博数据可能受到噪声、假信息等干扰。

因此，系统需要对数据进行初步筛选、清洗、去重等操作，确保数据的可靠性。

1.3 数据多样性微博数据具有多样性，包括文本、图片、视频等形式。

系统需要支持多种数据类型的识别和分析，在保证传统文本情感分析精度的同时，提升对多媒体数据的分析和可视化。

1.4 数据交互性为了让用户有效利用系统提供的信息和分析结果，系统需要提供方便的数据交互和共享功能，例如可视化图表的导出、数据集的发布和分享等。

微博用户行为预测与群体发现方法研究

微博用户行为预测与群体发现方法研究随着社交媒体的快速发展和智能手机的普及，微博已经成为了人们进行社交互动、信息分享与传播的主要平台之一。

每天有数以亿计的用户在微博上发布动态、关注别人的动态以及进行互动。

这些用户行为的预测和群体发现对于个性化推荐、舆情分析和社交网络研究都具有重要意义。

本文将介绍微博用户行为预测与群体发现方法的研究现状，并探讨相关的应用领域和数据挖掘技术。

微博用户行为预测是指基于已有数据和模型，通过分析用户在微博平台上的历史行为，预测用户未来的行为。

这个问题可以被形式化为一个二分类问题，即将用户的下一个行为分为两类：感兴趣（如转发、评论、点赞等）和不感兴趣。

常用的预测方法包括逻辑回归、支持向量机、朴素贝叶斯等机器学习算法。

此外，也可以利用深度学习技术，如循环神经网络（RNN）和长短期记忆网络（LSTM），来建模用户的历史行为序列，从而更好地预测用户未来的行为。

微博用户群体发现是指根据用户在微博上的行为和兴趣，将用户划分为不同的群体或社区。

常用的方法包括基于社交网络的方法和基于内容的方法。

基于社交网络的方法主要利用用户之间的关注关系和互动行为进行群体发现，通过社交网络分析算法如Louvain算法、谱聚类等来划分用户群体。

基于内容的方法则主要利用用户在微博上发布的文本内容和图片视频等多媒体信息进行特征提取和相似度计算，从而将具有相似兴趣和行为的用户聚类在一起。

微博用户行为预测和群体发现方法在个性化推荐领域具有广泛的应用。

通过预测用户未来的行为，可以为用户推荐个性化的微博内容，提高用户的阅读体验和用户满意度。

而通过群体发现，可以将用户划分为不同的兴趣群体或社区，从而更好地进行个性化推荐和广告投放。

此外，微博用户行为预测和群体发现方法也在舆情分析领域有着重要的应用。

通过分析微博用户的行为和表达，可以及时发现和掌握舆情动态，预测社会事件的发展趋势，为决策者提供参考和支持。

通过群体发现，可以发现具有一定影响力的意见领袖，了解用户的意见和情感倾向，从而更好地进行舆情监测和管理。

微博实时热点事件监测与分析方法研究

微博实时热点事件监测与分析方法研究微博是一种热门的社交媒体平台，拥有庞大的用户群体。

每天都会有大量的信息在微博上发布和分享，其中一些话题和事件会迅速引发广泛关注和讨论。

对这些微博实时热点事件进行监测和分析，能够帮助人们了解公众对某一特定事件的看法和态度，也可以为舆情研究者、社会科学家、政府机关等提供有价值的参考信息。

在微博实时热点事件监测与分析方法的研究中，主要有以下几个方面的内容：数据采集与处理、热点事件识别、情感分析和热点话题演化分析。

首先，要进行微博实时热点事件的监测与分析，首先需要采集相关的数据。

微博提供了API接口，允许第三方应用访问和获取微博内容。

对于研究者来说，可以通过API接口获取用户发布的微博，包括文本、图片、视频等多种形式的内容。

获取到的数据需要进行清洗和处理，去除重复、垃圾和无效的信息，确保数据的质量和可用性。

其次，热点事件的识别是微博实时热点事件监测与分析的重要环节。

热点事件是指在一段时间内引发广泛关注和讨论的话题或事件。

通过对大量微博数据进行文本挖掘和分析，可以发现一些持续被讨论和转发的话题，并识别出其中的热点事件。

常用的方法包括词频统计、关键词提取、社交网络分析等。

这些方法可以帮助我们找到受关注程度较高的话题和事件，进一步进行深入分析。

情感分析是微博实时热点事件监测与分析中的另一个重要任务。

通过对微博文本的情感分析，可以了解公众对某一事件的情感倾向和态度。

情感分析通常采用机器学习和自然语言处理的方法，对微博文本进行情感极性的判断，判断其是正面、负面还是中性的情感倾向。

情感分析的结果可以帮助我们更好地了解公众对热点事件的情感态度，为舆情分析和舆情处理提供参考依据。

最后，热点话题的演化分析是对微博实时热点事件的长期跟踪和分析。

热点话题随着时间的推移会发生变化，不同的事件和话题会在不同的阶段引起不同的关注度和讨论热度。

通过对微博数据的时序分析，可以观察热点话题的演化过程，包括话题的兴起、高峰和衰退。

社交网络中的事件检测与推荐

社交网络中的事件检测与推荐随着人口红利的消失和知识经济的兴起,社交网络已经成为了人们重要的交流、沟通、学习、娱乐的场所。

社交网络的发展带来了巨大的机遇和挑战,其中最大的机遇之一就是社交网络数据的挖掘和分析,特别是社交网络中事件检测和推荐的技术,这是现代社会信息化进程中的必要内容,对提高用户的信息获取效率、丰富用户的信息资源、促进用户信息交流、推动社会进步和发展都有着重要的意义。

一、社交网络中的事件检测社交网络广泛的信息传播和交流机制,让人们获取和共享信息的渠道受到了极大的扩展,而事件检测则为人们快速了解和获取信息事件提供了有效的途径。

事件检测是指对当前网络中正在发生的事件进行实时的监控、跟踪和定位,并通过分析和处理网络中广泛的信息资源,及时地发现、报道、传播和分析网络中的各类事件。

社交网络中事件检测的方法与传统事件检测的方法有很大的不同,需要针对其特殊的数据结构、广泛的内容形态、高速的信息传播等方面进行深入的分析和研究。

社交网络的事件可以分为两类:有组织事件和无组织事件。

有组织事件是指由一个或一群特定的组织或机构在网络中组织并宣传的事件,例如政府部门、公司组织的集会、庆祝、展览、捐赠等形式,这种事件在网络中比较容易被发现和跟踪。

无组织事件是指由网络上的个体和群体,在网络中自发组织进行的各种事件,包括社会活动、突发事件、娱乐活动等,这种事件更难被发现和跟踪。

所以,社交网络中的事件检测,需要结合事件的特征、事件的来源、事件的规模等多个因素进行综合分析和处理。

目前,社交网络上的事件检测技术主要采用两种方法:基于统计学方法和基于自然语言处理(NLP)方法。

基于统计学的方法主要是采用一些特定的指标和模型来进行事件的分析和判断。

例如,在微博的事件检测应用中,可以采用基于话题检测的方法,通过分析微博用户的动态话题,利用TF-IDF、主题模型等技术来发现和跟踪热门事件。

此外,还可以采用基于网络拓扑结构的方法,通过分析网络中节点的度和中心性,发现与某一主题相关的节点,通过对其进行综合判断,确定事件的规模和来源等。

微博热点话题检测系统的设计与实现

ｈａｖｅｏｃｃｕｒｒｅｄ．Ｔｈｅｓｙｓｔｅｍｕｓｅｓａｃｏｍｂｉｎａｔｉｏｎｏｆｃａｌｌｉｎｇｍｉｃｒｏ－ｂｌｏｇＡＰＩｉｎｔｅｒｆａｃｅａｎｄｉｍｐｒｏｖｉｎｇｃｒａｗｌｅｒｐｒｏｇｒａｍｔｏｇｅｔＷｅｂｄａｔａ．Ｄｕｅｔｏｔｈｅｈｕｇｅａ — ｍｏｕｎｔｏｆｎｅｔｗｏｒｋｄａｔａ，ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｅｆｉｃｆｉｅｎｃｙ，ｔｈｅｓｙｓｔｅｍｕｓｅｓＷｅｂｃｌｅｎｉａｎｇｔｅｃｈｎｏｌｏｇｙ．Ｆｏｃｕｓｉｎｇｏｎｔｈｅｍｅｔｈｏｄｏｆｔｈｅｔｏｐｉｃａｃｔｉｖｉｔｙｍｏｄｅｌ，ｔｈｅｓｙｓｔｅｍｃａｎｑｕｉｃｋｌｙｉｆｎｄｔｈｅｈｏｔｔｏｐｉｃｂｙｔｈｅｔｉｍｅｃｏｏｒｄｉｎａｔｅ，ａｎｄｉｍｐｒｏｖｅｅｉｃｆｉｅｎｃｙｏｆｔｈｅｈｏｔｔｏｐｉｃｓｄｅｔｅｃｔｉｏｎａｎｄｇｒｅａｔｌｙｒｅｄｕｃｅｔｈｅｔｉｍｅｃｏｍｐｌｅｘｉｔｙｏｆｔｈｅｈｏｔｔｏｐｉｃｓｄｅｔｅｃｔｉｏｎ．
ＤｅｓｉｇｎａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＭｉｃｒｏ－ｂｌｏｇＨｏｔＴｏｐｉｃｓＤｅｔｅｃｉｏｔｎＳｙｓｔｅｍＺＨＡＯＱｉａｎｄｏｎｇ．ＹＥＭｅｎｇ￣

基于突发词H指数的微博突发事件检测算法研究

基于突发词H指数的微博突发事件检测算法研究张晓霞;王名扬;贾冲冲;董煦【摘要】从微博中准确而高效地检测突发事件是近年来的研究热点。

在综合考虑词的突发性和其对文档覆盖度的基础上，提出突发词H指数的概念，用于抽取有效表征突发事件的突发特征。

构造突发词-文档矩阵，结合凝聚式层次聚类算法对突发微博文本进行聚类，并借助微博原文对事件进行描述。

在新浪微博数据集上的实验表明，该方法可以有效地检测出微博突发事件。

%Mining emergencies accurately and efficiently from micro-blogs is one of the hottest issues in recent years. Based on the emer-gency of words and their coverage degree on documents, the concept of H-index of burst words was proposed to extract burst characters that could effectively represent the emergencies. By constructing the BurstWords-Document matrix, the Hierarchical Clustering Algorithm was used to cluster the burst documents. Based on the original micro-blog in each cluster, the emergencies were determined. Experiments on Sina Micro-blog showed that the approach proposed in this paper could effectively identify micro-blog emergencies.【期刊名称】《情报杂志》【年(卷),期】2015(000)002【总页数】5页(P37-41)【关键词】微博;突发事件;突发词H指数;聚类【作者】张晓霞;王名扬;贾冲冲;董煦【作者单位】东北林业大学信息与计算机工程学院哈尔滨 150040;东北林业大学信息与计算机工程学院哈尔滨 150040;东北林业大学信息与计算机工程学院哈尔滨 150040;东北林业大学信息与计算机工程学院哈尔滨 150040【正文语种】中文【中图分类】TP311DOI 10.3969/j.issn.1002-1965.2015.02.006随着计算机网络技术的飞速发展，互联网已经成为人们获取信息的主要渠道。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

EDM ：高效的微博事件检测算法*童薇+，陈威，孟小峰中国人民大学信息学院，北京100872EDM:An Efficient Algorithm for Event Detection in MicroblogsTONG Wei +,CHEN Wei,MENG XiaofengSchool of Information,Renmin University of China,Beijing 100872,China +Corresponding author:E-mail:twei0817@TONG Wei,CHEN Wei,MENG Xiaofeng.EDM:an efficient algorithm for event detection in microblogs.Journal of Frontiers of Computer Science and Technology,2012,6(12)：1076-1086.Abstract:Microblog data have the characteristics of real-time dynamics,so we can monitor the microblog data to detect events in real life.However,the characteristics of the microblog data,such as the big data,short texts,rich social information and so on,also bring challenges.This paper proposes a novel event-detection algorithm based on microblog data —EDM algorithm,according to the textual characteristics of microblog data (retweeting,commenting,shorten url,hashtag and named entities),semantic features,time features and social information.Besides,this paper extracts keywords,named entities,the publishing time of posts and sentiment analysis for event pared with LDA (latent Dirichlet allocation)model,the experimental results demonstrate that the proposed EDM algorithm works better in event detection and offers an intuitive event summary.Key words:event detection;event summarization;feature selection;microblog 摘要：微博数据具有实时动态特性，人们通过分析微博数据可以检测现实生活中的事件。

同时，微博数据的海量、短文本和丰富的社交关系等特性也为事件检测带来了新的挑战。

综合考虑了微博数据的文本特征（转帖、评论、内嵌链接、用户标签hashtag 、命名实体等）、语义特征、时序特性和社交关系特性，提出了一种有效的基于微博数据的事件检测算法（event detection in microblogs ，EDM ）。

还提出了一种通过提取事件关键要素，即关键词、命名实体、发帖时间和用户情感倾向性，构成事件摘要的方法。

与基于LDA （latent Dirichlet alloca-ISSN 1673-9418CODEN JKYTA8Journal of Frontiers of Computer Science and Technology 1673-9418/2012/06(12)-1076-11DOI:10.3778/j.issn.1673-9418.2012.12.002E-mail:fcst@ Tel:+86-10-51616056*The National Natural Science Foundation of China under Grant Nos.91024032,61070055(国家自然科学基金);the National Sci-ence and Technology Major Special Project of China under Grant No.2010ZX01042-002-003(国家科技重大专项“核高基”项目);the Research Funds of Renmin University of China under Grant No.10XNI018(中国人民大学科学研究基金).Received 2012-07,Accepted 2012-09.11日18日25日5月2日1086420用户关注度2011-04-07至2011-05-07药家鑫7日Fig.1Baidu:Users ’attention trend of “Yao Jiaxin ”event 图1百度：“药家鑫”事件用户关注趋势图×1051引言微博作为一个新兴的社交媒体服务，是目前最流行的社交应用之一。

它允许用户随时随地使用移动设备发布不超过140字符的信息，以更新自己的状态。

新浪微博是国内最流行的微博网站，用户注册人数已超过3亿。

微博数据包括以下五个特性：（1）数据海量。

以新浪微博为例，目前微博用户平均每天都要发送超过1亿条帖子，平均每秒发送的帖子数高达1000条/s ，这使得微博数据量非常巨大。

（2）短文本性。

根据微博网站规定，每条微博帖子的长度不能超过140个字符，因此微博帖子较短小精干。

（3）文本缺失性。

受发帖字数限制，用户只能用精简的语言发表微博，文本规范性和完整性较差。

为了更好地阐述自己的观点，用户在发帖时嵌入超文本，如图片、视频和网页链接等。

（4）实时性。

移动客户端的迅猛增长，使得人们在日常生活中可以随时随地发帖，从而微博数据具有实时性。

（5）丰富的社交信息。

微博用户间通过“关注”关系形成了一个庞大而复杂的社交网络，并且通过转发、评论等操作引入更丰富的社交关系，这使得微博数据具有丰富的社交信息。

微博的实时性反映了现实生活方方面面的动态，现实世界发生的事件在微博中都有相应的体现。

以2011年4月发生的“药家鑫事件”为例，本文对相关用户发帖量随时间的变化曲线与百度的用户关注度指数曲线进行了比较（如图1和图2所示），发现微博用户的发帖量曲线与该事件的发生时间、发展趋势基本保持了一致。

因此，本文认为通过分析微博用户发布的信息随时间变化的趋势，可以检测事件的发生并监控其演化过程，从而实现对突发事件的实时检测和应急管理。

本文将事件定义为发生在特定时间和地点的事情，采用4W1H 表示一个事件，即what 、when 、where 、who 和how 。

事件检测在学术界是备受关注的研究热点，传统的事件检测方法是通过构造词汇-文本特征矩阵来分析事件，而微博数据的短文本性和文本缺失性会导致特征矩阵高度稀疏，从而使检测结果的准确率难以令人满意。

另一方面，微博数据中丰富的社交信息、超文本数据和特有的转发、评论数据为事件检测提供了更丰富的数据基础，而传统的方法并不能tion ）模型的事件检测算法进行实验对比，结果表明，EDM 算法能够取得更好的事件检测效果，并且能够提供更直观可读的事件摘要。

关键词：事件检测；事件摘要；特征选取；微博文献标识码：A中图分类号：TP391Fig.2Sina Microblog:Users ’posts trend of “Yao Jiaxin ”event图2新浪微博：“药家鑫”事件用户发帖趋势图454035302520151050发帖数目×1032011/3/232011/3/302011/4/62011/4/132011/4/202011/4/27童薇等：EDM ：高效的微博事件检测算法1077Journal of Frontiers of Computer Science and Technology计算机科学与探索2012,6(12)很好地将上述数据综合考虑进去。

针对微博数据的特性和传统事件检测方法的缺陷，本文提出了一种新的基于微博数据的事件检测算法（event detection in microblogs，EDM）。

该算法综合考虑微博数据特有的文本特征（转帖、评论、用户标签hashtag、内嵌链接URL、命名实体等）、语义特征、社交网络特征和时序特征进行事件检测。

本文的主要贡献包括以下三点：（1）分析微博数据的文本特征时，综合考虑转发、评论、内嵌外部链接（URL）、用户提供的标签（hashtag）、命名实体等，并提出了相应的加权方案，构造了更能反映微博文本特征的词汇-文本特征矩阵。

（2）对微博数据进行事件检测时，综合考虑了微博的语义相似性、社交关系相似性和时序相关性，实验结果表明本文方法提高了事件检测的准确性。

（3）通过提取既能与该事件主题最相关，又能达到内容覆盖最大的关键词、命名实体、发帖时间和用户情感倾向性，分析总结出事件的4W1H要素，给出了更直观可读的事件摘要。

2相关工作随着微博应用的推广和移动客户端的迅猛增长，人们往往第一时间在微博上发帖“报道”生活中的某一事件，基于微博数据进行事件检测成为国内外的一个热点研究话题，但相关研究工作较少。

绝大多数已有的事件检测研究工作[1-3]都是针对文本新闻和网页新闻进行分析的。

另外，与事件检测最相关的工作是TDT[4]（topic detection and tracking），绝大多数已有工作[5]也是基于文本新闻和网页新闻的。

LSA（latent semantic analysis）[6]、pLSA（probabi-listic latent semantic analysis）[7]和LDA（latent Dirich-let allocation）[8]是其中效果显著且具有代表性的主题模型。

LSA和pLSA都是采用“降维”的思想，将词汇和文档的语义关系映射到低维的潜在语义空间中。

LSA是通过对高维的词汇-文本矩阵（TF-IDF）进行奇异值分解，而pLSA使用了概率模型，引入了一个潜在语义层，达到“降维”的目的。

LDA是一种层次贝叶斯模型，它通过在文档到主题这一层加入Dirichlet先验分布，将pLSA扩展成一个更加通用的模型。