中文微博情感分析模型SR-CBOW

小型微型计算机系统Journal of Chinese Computer Systems

2018年8月第8期Vol.39No.82018

收稿日期:2017-08-08 收修改稿日期:2017-09-20 基金项目:国家自然科学基金项目(U 1636111)资助. 作者简介:刘秋慧,女,1990年生,硕士,研究方向自然语言处理;柴玉梅,女,1964年生,硕士,教授,研究方向机器学习二数据挖掘和自然语言处理;刘 箴,男,1965年生,博

士,研究员,研究方向虚拟现实二情感计算.

中文微博情感分析模型SR-CBOW

刘秋慧1,柴玉梅1,刘 箴2

1(郑州大学信息工程学院,郑州450001)

2

(宁波大学信息科学与工程学院,浙江宁波315211)

E-mail :liuqhano @https://www.360docs.net/doc/7f2096083.html,

摘 要:中文微博情感分析旨在挖掘文本中用户所要表达的观点及情感倾向,被应用于政治二商业等诸多领域.考虑到微博数据的口语化和不规范性等特点以及中文标注数据相对匮乏的现状,对词向量训练模型CBOW 进行拓展,提出情感分析模型SR-CBOW.首先利用基于语义相似度的数据平衡方法来均衡数据集;然后采用否定扩散的手段,协助模型对包含否定词的微博进行情感转移;最后模型利用大量无标注的微博语料进行无监督的词向量训练;同时对构建的微博的向量表示进行情感分类.在细粒度的情绪识别和粗粒度的情感倾向性分析中,都取得了较好的结果,较于NLP&CC 2013情绪识别评测任务中最好的结果,其微平均F 值提高了14.9%.

关键词:情感分析;SR-CBOW 模型;数据平衡;否定扩散

中图分类号:TP 391 文献标识码:A 文章编号:1000-1220(2018)08-1693-07

SR-CBOW Model for Sentiment Analysis of Chinese Micro-blogs

LIU Qiu-hui 1,CHAI Yu-mei 1,LIU Zhen 2

1(School of Information Engineering ,Zhengzhou University ,Zhengzhou 450001,China )2

(School of Information Science and Technology ,Ningbo University ,Ningbo 315211,China )

Abstract :Sentiment analysis of Chinese micro-blog aims at mining the views and emotions of users in the text ,and is applied in politic and business fields.Considering the colloquial and nonstandard characteristics of micro-blog data and the status of lack of tagging data for sentiment analysis ,this paper further extends the word vector training model CBOW and presents sentiment analysis model SR-CBOW.Initially ,the data balancing method based on semantic similarity is used to balance the corpus.Secondly ,this paper deploys negative spreading method to transmit the contrary emotion through the whole micro-blog.Finally ,SR-CBOW model trains word vector with a great quantity of unlabeled micro-blog corpus ,and generates sentiment class of micro-blog based on the representation.SR-CBOW model gets better results in fine-grained emotion recognition and coarse-grained sentiment orientation https://www.360docs.net/doc/7f2096083.html,pared with the best result in NLP&CC 2013emotion recognition evaluation task ,F-measure of micro averaging of SR-CBOW is improved by 14.9%.Key words :sentiment analysis ;SR-CBOW model ;data balancing ;negative spreading

1 引 言

微博作为一种开放的二发展迅速的社交媒体,越来越多的

用户将其作为分享和交流的平台,人们不仅喜欢在微博上与朋友进行交流二互动,更愿意对即时播出的影视剧和热销的产品及热点事件发表自己的观点和看法.庞大的微博用户群,通过文本二声音二图片和视频等方式,来发表自己对产品二事件和服务等实体对象的观点和态度,产生的海量数据信息,隐藏着巨大的社会价值和商业价值,引发了很多学者积极参与到微博信息挖掘的研究工作中.

自2002年Bo Pang [1]提出情感分析以来,引起了国内外学者的广泛关注,随着社交媒体的迅速发展,微博情感分析成为当前研究的热点.从微博数据中分析和监测到的用户的信息,已经被应用到诸多领域中,例如商业部门通过分析微博数据中所包含的用户对于某产品发表的观点信息,预测产品的销售状况,帮助

自动推荐系统更加准确的判断是否向用户推送广告;政府部门则通过监测到的微博信息,来实时掌握民情二民意.

微博具有便捷性和原创性,内容短小精悍一般限制在

140字左右,融合了情感词二网络用语和表情符号等情感特征.构建网络用语词典二情感词表二表情符号向量空问和词向量,是学习微博情感特征的有效方法之一.本文提出了半监督的情感分析模型SR-CBOW (Softmax Regression-Continuous Bag-of-Words ),利用词向量学习微博短语的情感特征,可以同时进行词向量的训练和微博情感分析.本文的章节安排为:第2节介绍相关工作,第3节介绍本文提出的情感分析模型SR-CBOW ,第4介绍实验,第5节介绍工作总结与展望.

2 相关工作

微博情感分析方法归纳起来可以分为两类,有监督的学

万方数据

相关文档
最新文档