博客评论的情感倾向性分析

合集下载

中国网络舆情的现状及引导对策研究

中国网络舆情的现状及引导对策研究

中国网络舆情的现状及引导对策研究一、概述随着互联网的迅猛发展,网络已成为公众表达意见、交流思想的重要平台。

网络舆情作为社会舆论的重要组成部分,其影响力日益增强,对政治、经济、文化等多个领域产生深远影响。

中国作为拥有庞大网民群体的国家,网络舆情的现状和发展趋势具有鲜明的中国特色和时代特征。

中国网络舆情呈现出多元化、复杂化、快速化的特点。

网络舆论场日益活跃,各类社交媒体、新闻网站、论坛博客等成为公众发声的重要渠道另一方面,网络舆论的议题日益广泛,涉及政治、经济、文化、社会等多个领域,既有对公共事务的关注和讨论,也有对个人权益的维护和诉求。

网络舆情的复杂性也带来了一系列挑战。

网络信息的真实性、客观性难以保证,虚假信息、谣言等在网络空间中泛滥网络舆论的情绪化、极端化倾向明显,容易引发社会矛盾和冲突网络舆论的监管难度加大,对政府部门和媒体机构提出了更高的要求。

加强网络舆情的引导和管理显得尤为重要。

通过对网络舆情的深入分析,了解公众的需求和关切,制定有针对性的引导策略,有助于维护社会稳定、促进和谐发展。

加强网络法治建设,完善网络监管机制,也是保障网络空间健康有序发展的重要举措。

1. 背景介绍:网络舆情在现代社会的重要性及其对中国社会的影响。

随着互联网的普及和信息技术的飞速发展,网络舆情已经成为现代社会中不可忽视的重要力量。

网络舆情不仅反映了民众对于各类事件、政策、社会现象的观点和态度,更是影响政府决策、社会舆论乃至国家形象的关键因素。

网络舆情的地位和作用尤为突出,其对中国社会的影响日益显著。

网络舆情在现代社会中的重要性体现在多个方面。

网络舆情是民众意见表达的重要渠道。

在互联网时代,人们可以通过社交媒体、论坛、博客等平台自由发表自己的观点和看法,这使得网络舆情成为反映民意的重要窗口。

网络舆情对政策制定和执行具有重要影响。

政府可以通过分析网络舆情了解民众需求,优化政策制定网络舆情的传播和反馈也能够推动政策的执行和改进。

文本情感分析综述

文本情感分析综述

文本情感分析综述∗赵妍妍+, 秦兵, 刘挺(哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001)A Survey of Sentiment Analysis *ZHAO Yan-Yan+, QIN Bing, LIU Ting(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research.Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization;evaluation; corpus摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益.关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设中图法分类号: TP391文献标识码: A随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信∗Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)赵妍妍等:情感倾向性分析纵览息的收集和处理.因此,迫切需要计算机帮助用户快速获取和整理这些相关评价信息,情感分析(Sentiment Analysis)技术应运而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析,又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析[1],如“美好”是带有褒义色彩的词语,而“丑陋”是带有贬义色彩的词语.随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究.基于此,按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次[2].按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件“台湾归属问题”的立场;后者处理的主要是网络在线的产品评论文本,如“Polo的外观很时尚”,表明了对评价对象“Polo的外观”的评价“时尚”是褒义的.由于基于产品评论的情感分析可以帮助用户了解某一产品在大众心目中的口碑,因此受到很多消费者和商业网站的青睐.而基于新闻评论的情感分析多用于舆情监控和信息预测中,是国内外评测中重要的评测任务.情感分析涉及多项非常有挑战性的研究任务.本文综合已有的研究成果,将情感分析归纳为三项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,如图1所示.Fig.1 The framework of sentiment analysis图1 情感分析的研究框架其中,情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务.如将情感句“我觉得Canon的相片质量不错”转化为如图1所示的结构化文本形式.情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒贬两类或者其他更细致的情感类别(如:喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务.这些分类任务在情感分析初期吸引了大量的研究者.最高层的情感信息的检索与归纳可以看作与用户直接交互的接口,着重强调“检索”和“归纳”两项应用.该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上,进行进一步的加工处理.情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值[3-5].鉴于此,该研究课题受到国内外越来越多的研究机构的重视.本文在接下来的部分首先分别详细阐述情感分析的三个主要研究任务,重点针对各任务的主流方法和前沿进展进行对比分析;接着介绍国内外主流的评测会议以及现有的资源建设情况;然后,本文介绍情感分析几个重要的应用点;最后,展望情感分析技术的发展趋势.1 情感信息抽取情感信息抽取旨在抽取情感文本中的有价值的情感信息.它可以看作情感分析的基础任务,一直以来,学术界对它兴趣不减.纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如“优秀”,“好用”)、评价对象(如“GPS”, “屏幕分辨率”)、观点持有者(如“国家政府”, “台湾当局”) 等.在对大量的情感文本进行分析之后,不少研究者发现某些组合搭配对于情感分析的上层任务如:情感信息分类以及情感信息的检索与归纳有更直接的帮助,如“评价搭配”(评价对象和评价词语的搭配,如“屏幕分辨率-高”)、“评价短语”(程度副词及其修饰的评价词语的搭配,如“不怎么-好”)等.下面本文将一一介绍目前情感信息抽取的具体任务及其主要实现技术.1.1 评价词语的抽取和判别评价词语又称极性词、情感词,特指带有情感倾向性的词语.很显然,评价词语在情感文本中处于举足轻重的地位,评价词语的识别和极性判断在情感分析领域创建伊始就引起了人们极大的兴致.基于前人大量的研究工作,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法[10].基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性.早期的一些学者发现,由连词(如and或but)连接的两个形容词的极性往往存在一定的关联性,如“and”连接的形容词(如“lovely and beautiful”)极性相同,然而“but”连接的形容词(如:“lovely but unnatural”)极性相反.基于这种现象, Hatzivassiloglou和McKeown[1]从大语料库华尔街日报(Wall Street Journal)中发掘出大量的形容词性的评价词语. Wiebe等人[11]沿袭了较为相似的工作,他们使用了一种相似度分布的词聚类方法在大语料库上完成了形容词性的评价词语的获取.然而,以上的两种方法仅将评价词语的词性局限于形容词词性,忽略了其他词性的评价词语.为了避免评价词语词性的限制, Riloff等人[12]手工制定一些模板并选取种子评价词语,使用迭代的方法获取了名词词性的评价词语.随后,Turney和Littman[13]提出了点互信息(Point Mutual Information)的方法判别某个词语是否是评价词语.这种方法适用于各种词性的评价词语的识别,但是较为依赖种子褒/贬词语集合.鉴于此,基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳.基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语.这里的词典一般是指使用WordNet或HowNet等.很自然的,有学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词语[14-16].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[17-20].此外,一些学者[21]沿用了Turney等人的点互信息的方法[13],通过计算WordNet中的所有形容词与种子褒义词代表“good”和贬义词“bad”之间的关联度值来识别出评价词语.然而,并非所有的语种的情感资源都像英文一样丰富,对于某些词典资源非常稀缺的语种,有学者将词典资源丰富的语种的情感词典翻译到资源较少的语种中[22],如将英文的情感词典翻译成中文,供中文情感分析应用.但是实验显示,不少评价词语在经过翻译之后极性发生了改变.这也印证了Wiebe在文献[23]中所指出的“词语的词义和其极性有一定的关系,但是相同的词义并不一定有相同的极性”.鉴于此,基于词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词,如词语“好”在大多数情况下表现为“优秀”的意思,但在某些情况下扮演修饰成分(如“他跑的好快啊!”).此外,还有一部分学者采用基于图的方法来识别评价词语的极性[10,24].具体的,该方法将要分类的词语作为图上的点,利用词语之间的联系形成边来构建图,继而采用各种基于图的迭代算法(Propagation Algorithm)来完成词语的分类.如,有学者考察图中两个词语的注释信息而构建图[24],继而使用Spin模型对图中的点迭代的进行概率计算,得出每个词语的极性.还有一些学者尝试使用多种图模型[10],如:最小切分模型(Mincuts)、随机最小切分模型(Randomized Mincuts)及标签迭代模型(Label Propagation)等完成评价词语的褒贬分类.实验证实了基于图的方法的有效性.基于图的方法是一种新颖的方法,它可以灵活的将词语间的各种联系作为特征融入图中,继而进行迭代计算.然而,寻找更有效的词语间特征以及如何选取图算法是值得深入研究的问题.1.2 评价对象的抽取评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象,如新闻评论中的某个事件/话题或者产品评论中某种产品的属性(如“屏幕”)等.现有的研究大部分集中于产品领域的评价对象的抽取,他们大多将评价对象限定在名词或名词短语(候选评价对象)的范畴内,进而对它们进行进一步的识别.赵妍妍等:情感倾向性分析纵览一部分学者使用基于规则/模板的方法抽取评价对象.规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注,命名实体识别和句法分析等.相应地,制定的规则也包括词序列规则,词性规则以及句法规则等形式.Yi[25]使用三条限制等级逐渐递进的词性规则从候选评价对象中抽取出真正的评价对象.还有学者[26-27]使用关联规则挖掘的方法或是基于句法分析的结果[28]找出频繁出现的候选评价对象,继而使用两种剪枝方法去除错误样例.然而,这些方法仅能找出频繁的评价对象.为了发掘出非频繁的评价对象,有学者尝试使用含有评价词语和评价对象槽(slot)的词序列模板[26].此类方法最主要的优点在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板.而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高.有学者[29]从另一个角度诠释了评价对象的抽取.他们将评价对象看作产品属性的一种表现形式(如对数码相机领域而言,“相机的大小”是数码相机的一个属性,而“相机滑盖” 是数码相机的一个组成部分),继而考察候选评价对象与领域指示词(如“整体-部分”关系指示词:“scanner has”)之间的关联度来获取真正的评价对象.实验证明这种方法取得了较好的实验效果,超过了基于规则/模板的方法.但难点在于领域指示词的获取.近年来,随着话题模型(Topic Model)[30-31]的逐渐兴起,很多学者将其应用到情感分析领域.由于评价对象是蕴涵于情感文本中的某些话题,因此可以使用话题模型用于评价对象的识别.有学者[32]采用多粒度的话题模型挖掘产品领域情感文本中的评价对象,并将相似的评价对象进行聚类.这种方法理论上能够提高评价对象抽取的召回率,但是遗憾的是,还没有实验将这种方法和上述传统的基于名词短语的方法进行对比.此外,还有一部分学者从事新闻评论文本中的话题评价对象的抽取[33-34].如:对于情感句“所有人都认为政府应该加强改善医疗卫生条件”,抽取话题评价对象“政府应该加强改善医疗卫生条件”.1.3 观点持有者抽取观点持有者的抽取在基于新闻评论的情感分析中显得尤为重要,它是观点/评论的隶属者,如新闻评论句“我国政府坚定不移的认为台湾是中国领土不可分割的一部分”中的“我国政府”.很自然的,人们会想到评论中的观点持有者一般是由命名实体(如:人名或机构名)组成,因此可以借助于命名实体识别技术来获取观点持有者[35].此外,还有学者曾尝试借助语义角色标注来完成观点持有者的抽取[33].但是这些方法较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性.还有人将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取.如Choi将其看作一个序列标注问题[36],并使用CRF (Conditional Random Fields)模型融合各种特征来完成观点持有者的抽取.相似的,Kim[15]将所有名词短语都视为候选观点持有者,使用ME (Maximum Entropy)模型来进行计算.以上的方法将观点持有者的抽取当作一个独立的任务.通过观察,许多研究者发现,观点持有者一般是和观点同时出现的,所以可以将观点和观点持有者的识别作为一个任务同时解决.Bethard[37]在抽取出情感句中的观点单元(多是由一些短语组成)之后,分析句中观点和动词的句法关系,即可同步获取观点持有者.由于产品评论中一般默认观点持有者是用户本身,因此鲜有研究者在产品评论领域研究这一任务.1.4 组合评价单元的抽取评价词语在情感分析中的作用是不言而喻的.然而在某些情况下,单独的评价词语存在一定的歧义性,如评价词语“高”在以下三个句子中的使用.¾Sen1: 凯越的油耗真高.¾Sen2: 捷达的性价比相当的高.¾Sen3: 这辆车有1m多高.Sen1和Sen2是情感句,但是评价词语“高”在修饰不同的评价对象时表现出不同的极性.如在Sen1中“高”表示贬义,而在Sen2中则表示褒义.此外,评价词语往往也会出现在非情感句中,如Sen3.因此仅考虑单独的评价词语在情感分析中的应用是远远不够的.研究者们发现有些包含评价词语的“组合评价单元”(如:组合“油耗-高”,“相当-高”)对于处理情感分析的上层任务更有帮助.下面将具体的介绍各种形式的组合评价单元.1.4.1 主观表达式的抽取主观表达式(Subjective Clues)是指表示情感文本单元主观性的词语或词组. 1.1节的评价词语是主观表达式的一部分.此外,某些词语的组合(如:“village idiot”或“get out of here”)也能很明显的标识文本的主观性,虽然它们中的任何一个词语单独可能都并非评价词语.如何获取这些有意义的词组是主观表达式抽取的重点.Wiebe和Wilson是这项任务的引领者[38].近几年来,他们挖掘大量的主观表达式形成主观表达式库,并基于此完成文本的主客观分类和褒贬分类.具体的,他们首先从语料中抽取出所有的n元词语/词组(1≤n≤4)作为候选主观表达式;继而通过对比训练语料中的标准的主观表达式,为每个候选主观表达式计算出可能成为主观表达式的概率;最后通过对概率值的分析,获得这些主观表达式.Wiebe和Wilson[39]在随后的工作中又引入了“主观表达式密度”协助判断主观表达式.2004年,Wiebe和Wilson将他们前期的工作进行了总结[40],从不同的语料中扩充了大量的主观表达式,主要包括手工收集的一部分主观表达式以及自动从标注/未标注语料中学习而来的一部分主观表达式.此外,他们首次利用句法分析的结果发掘了句法主观表达式[41].随后,Wiebe和Wilson采用多种特征及机器学习方法对他们获取的大量的主观表达式的情感程度(strong或weak)进行了识别.1.4.2 评价短语的抽取评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如:“very good”等.因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分.这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元.有学者采用基于一些情感词典的方法识别这种评价短语.如Whitelaw[42]结合WordNet使用半自动的方法构建了形容词性的评价词词典以及修饰词词典.对于一个含有评价词语的情感文本,该方法首先查看评价词前面的词语,如果属于修饰词词典,获取这个词组作为评价短语.根据两个词典中的属性值计算出情感极性.这种方法由于基于较为细致的词典,因此准确率较高.然而,由于词典中词语有限而限制了召回率.还有学者使用依存句法结构(如ADV、ATT以及DE结构),在句法树上获取评价短语[27].这种方法巧妙的利用了评价短语中所含词语之间的句法修饰关系,但是较为依赖句法分析的结果.评价短语考察的是连续出现的词组,然而,有些表示修饰关系的词语并非总是和评价词语连续出现. 如在情感句“[I did [not]- have any [doubt]- about it.]+”中,修饰词“not”和评价词“doubt”并非连续出现,但它们共同决定了情感句的最终极性. Moilanen等人[43]和Choi等人[44]将其定义为“组合语义单元”(Compositional Semantics),具体表现为一组非连续的词语,通过相互作用来表达出某种情感极性.“组合语义单元”可以看作一种更复杂的评价短语,多使用人工总结或半自动生成的模板来识别.1.4.3 评价搭配的抽取评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对<评价对象,评价词语>,如情感句“凯越的油耗很高”中的“油耗-高”.前面所介绍的“主观表达式”和“评价短语”主要是考察含有情感极性的一些词和短语,然而情感句中出现的某些“主观表达式”和“评价短语”并非真正的表现出情感极性.如情感句s1“车跑的好快啊”中的词语“好”并不存在情感极性,需要过滤掉.此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定.“评价搭配”则可以很好的解决上述两点问题.针对评价搭配的抽取任务,大部分学者采用了基于模板的获取方法. Kobayashi等人[45]考察评价对象和评价词语之间的修饰关系,并用8个共现模板来描述.然而,由于模板太过简单且修饰关系仅仅停留在词表面,该方法产生了大量的噪声.为了深入挖掘评价对象和评价词语之间的修饰关系,一部分学者尝试使用句法关系模板. Bloom等人[46]利用Stanford Parser手工构建了31条句法规则.此外, Popescu等人[29]利用MINIPAR Parser手工构建了10条依存句法抽取模板来获取评价搭配.同时,国内的姚天昉等人[47]基于依存句法分析总结出“上行路径”和“下行路径”的匹配规则;后续总结出SBV极性传递规则,用于评价搭配的识别.可以看出,他们的工作融入了更多对评价对象和评价词语之间深层关系的挖掘.然而,由于匹配规则或模板的制定参与了过多的人工,覆盖率较低.因此,在未来工作中我们应该侧重于研究自动生成评价对象和评价词语之间的匹配规则的策略.2 情感信息分类情感信息的分类任务可大致分为两种,一种是主、客观信息的二元分类;另一种是主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类[48].赵妍妍等:情感倾向性分析纵览2.1 主客观信息分类在对情感文本进行情感分析时,往往由于情感文本中夹杂着少量的客观信息而影响了情感分析的质量[49],因此将情感文本中的主观信息和客观信息进行分离变得非常必要.由于情感文本单元表现格式比较自由,且区分主、客观文本单元的特征并不明显,在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度.一部分学者通过考察文本内部是否含有情感知识(具体表现为第1部分情感信息抽取的结果)来完成主客观信息分类[14,50].然而,我们发现许多客观句中也可能会包含评价词语,如客观句“这位英雄名叫张三丰”同样含有评价词语“英雄”.为了更大程度上消除歧义性,很多学者挖掘并使用情感文本中的组合评价单元,如 1.4节中提到的“主观表达式”, “评价短语”和“评价搭配”等组合信息.此外,还有学者[12]构建情感模板识别情感文本的主客观性(如贬义模板:“<x> drives <y> up the wall”).以上这些基于情感知识的主客观分类方法的工作重心在于情感文本中情感知识的挖掘,以及各种情感知识融合的方法研究.还有一部分学者将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性.这种方法的关键在于分类器和分类特征的选取.具体的,Hatzivassiloglou[51]使用了词语作为特征,并采用了NB (Naïve Bayes)分类器完成篇章级情感文本的主客观分类.Yao[52]着重从一些特殊的特征角度考察了主客观文本,如:标点符号角度,人称代词角度,数字角度等等.Pang[53]则采用基于图的分类算法完成句子级的主客观分类.基于特征分类的方法目前还是主客观信息分类的主流方法,这种方法定义明确,根本的问题在于特征的选取.因此,尝试使用更深层,更复杂的分类特征也许是这类方法的突破方向之所在.2.2 主观信息情感分类主观信息情感任务按不同的文本粒度可分为词语级、短语级、句子级和篇章级等.其中第1部分已经对词语级和短语级的情感分类方法进行了总结,因此本节将着重介绍句子级和篇章级的主观信息情感分类方法.一般而言,研究者将主观本文的极性分为褒义和贬义两类(Thumbs up? Thumbs down?).纵观目前的研究工作,和主客观信息分类类似,可分为两种研究思路:基于情感知识的方法以及基于特征分类的方法.相似的,前者主要是依靠一些已有的情感词典或领域词典,以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性.后者主要是使用机器学习的方法,选取大量的有意义的特征来完成分类任务.这两种研究思路有很多代表性的研究工作.文献[14,51,54-55]首先分析句子/篇章中的评价词语或组合评价单元的极性,然后进行极性加权求和.这种方法的重点一般都放在评价词语或组合评价单元的抽取和极性判断方法的研究上.在基于特征分类的方法中,Pang[56]首次将机器学习的方法应用于篇章级的情感分类任务中.他们尝试使用了n-gram 词语特征和词性特征,并对比了NB、ME和SVM(Support Vector Machine)三种分类模型,发现unigram特征效果最好.然而, Cui[57]通过实验证明,当训练语料较少的时候,unigram的效果较优,但随着训练语料的增多,n-gram(n>3)发挥了越来越重要的作用. Kim[58]除了考察传统的n-gram模型外,还引入了位置特征和评价词特征来完成句子级的褒贬分类.Zhao[59]则将句子级情感分类任务提炼为一个三层分类任务,利用各层之间类别标签的相互作用,并考虑上下句之间情感的互相影响,使用CRF模型将这些特征进行融合..类似于主客观信息分类任务,基于特征的方法的研究重点在于有效特征的发现,以及特征选择和特征融合等问题的研究.除了对主观文本信息的褒贬二元分类之外,还有一些研究工作进行更细致的情感分类任务.Pang[60]将褒贬等级分为三类,并使用了one-vs-all多元分类算法和回归分类算法完成情感分类.Goldberg[61]则使用了一种基于图的半指导的分类算法,完成评论的褒贬包括四个等级的分类.2.3 观点分类与挖掘情感分类还可以体现在对某些事件的观点分类上面.Lin[8]主要使用三种分类模型识别有关“巴以冲突”主题的评论文本所表达的观点,即是“支持巴方”还是“支持以方”.而Kim[9]主要对美国大选时涌现出来的大量的评论文章进行分类汇总,来推断大部分选民是支持“共和党”还是“民主党”.该文献同样也是使用分类器和分类特征相结合的算法,其中作者对分类特征进行了泛化,取得了较好的效果.和主观信息情感分类不同的是, “观点分类与挖掘”任务除了需要使用情感知识之外,还需要发掘一部分和“观点”相关的知识.。

基于深度学习的自然语言处理技术在情感分析中的应用研究

基于深度学习的自然语言处理技术在情感分析中的应用研究

基于深度学习的自然语言处理技术在情感分析中的应用研究摘要:本文综合探讨了深度学习在自然语言处理(NLP)领域中的应用,特别是在情感分析方面的发展和应用。

论文首先介绍了自然语言处理的基本概念及其与深度学习结合的背景。

随后,详细分析了深度学习技术在情感分析中的具体应用,包括但不限于卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)。

通过实例研究和现有文献的综合分析,本文展示了深度学习技术在提高情感分析准确性和效率方面的潜力。

最后,对当前的挑战和未来的发展方向进行了展望。

关键词:自然语言处理、深度学习、情感分析、卷积神经网络、循环神经网络、长短期记忆网络在信息时代,数据的海量增长带来了前所未有的挑战和机遇。

特别是文本数据,作为信息传递的主要媒介,蕴含着丰富的情感和意图。

自然语言处理(NLP),作为计算机科学和人工智能的一个重要分支,旨在使计算机能够理解、解释和操作人类语言。

随着深度学习技术的兴起,NLP领域经历了革命性的变化,尤其是在情感分析这一子领域。

本文旨在全面分析深度学习技术在情感分析中的应用,并评估其效果。

我们将重点关注几种主要的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM),并探讨它们如何在不同的情感分析场景中被应用和优化。

1.自然语言处理和深度学习概述自然语言处理是一门跨学科领域,它结合了计算机科学、人工智能和语言学,目的是让计算机能够理解、解释和生成人类语言。

NLP的应用广泛,包括机器翻译、情感分析、语音识别、文本挖掘等。

它涉及一系列复杂的任务,如语法分析、语义理解和语境解释。

传统上,这些任务依赖于规则和统计方法,但这些方法在处理复杂和非结构化的语言数据时常常受限。

深度学习是机器学习的一个分支,它通过模仿人脑中神经网络的结构和功能来处理数据。

深度习模型由多层(或“深度”)的神经网络组成,能够从大量数据中学习复杂的模式和特征。

情感分析网络舆情研究综述

情感分析网络舆情研究综述

互联网的快速发展改变了人们的交流习惯。

随着即时通讯工具兴起以及自媒体的不断涌现,网民信息交互的渠道增多,网民通过多种方式表达自己对热点事件的态度,从而促进了网络舆情的传播与演化。

一旦处理失当,网民的负面情绪会对社会造成严重的负面影响。

而情感分析方法是对网民观点与情绪分析的有效方法之一,得到该领域研究者的重示并取得了一定的研究成果。

对我国基于情感分析研究网络舆情的文献进行统计分析和回顾整理。

意在发现情感分析方法研究网络舆情中的热点、趋势和未来的发展方向,最后分析总结其存在的不足,为后续的深入研究提供参考与借鉴。

一、情感分析网络舆情研究现状情感分析又称倾向性分析、情感分类、意见抽取、评论挖掘、情感挖掘或主观分析,是用户对商品、服务等评论内容的分析、处理、归纳和推理,对评论中表达的观点和情感进行分类,同时也被广泛运用在网络舆情的研究中,成为当前网络舆情研究中的主流方法之一。

(一)发文量趋势。

通过CNKI期刊网数据库搜集相关文章,采用关键字“情感分析舆情”进行搜索,检索时间截至2019年12月,共检索到420篇,在此基础上清洗得到381篇有效文献,其中硕博士论文237篇,期刊140篇,会议论文4篇,如图1所示,图中横轴为年份,纵轴为文献发表篇数。

(图1)从图1可以看出,相关研究起步较晚,发文量由缓慢增长到快速增长。

受当时理论发展水平、技术条件以及受重视程度的限制,在2007~2012年发展较为缓慢,6年内发表31篇。

随着大数据新兴技术的迅速崛起,增加了网络热点传播速度和网民发表言论渠道,政府对网络舆情越来越重视,促使相关研究不断深入,从2013年发表数量快速上升,到2019年共发表350篇。

情感分析网络舆情研究的增长不仅得益于政府对舆论的高度重视,还有早期研究为其奠定理论和技术上的基础。

这表明了我国情感分析网络舆情研究逐步走向成熟。

(二)重要期刊分布。

进一步运用上述检索的140篇期刊,从中选取重要期刊,排在前十名的期刊共有43篇相关文章。

后真相时代热点舆情的特点、成因及对策

后真相时代热点舆情的特点、成因及对策

后真相时代热点舆情的特点、成因及对策一、后真相时代的概念与特点随着互联网的普及和社交媒体的兴起,信息传播的速度和范围都得到了前所未有的提升。

在这个过程中,人们对于真实性的认知和判断能力受到了很大的挑战,导致了一个被称为“后真相时代”的新现象。

后真相时代是指在信息爆炸的时代背景下,人们在面对大量信息时,往往难以分辨真实与虚假,从而使得事实真相变得模糊不清。

这种现象在很大程度上反映了当今社会中,公众对于信息的认知能力和判断力的整体下降。

信息传播速度快:在互联网和社交媒体的影响下,信息传播的速度远远超过了以往任何时期。

这使得人们在面对大量信息时,很难有足够的时间去深入了解和分析,从而导致了对真实性的误判。

信息来源多样:在后真相时代,人们可以通过各种渠道获取信息,包括社交媒体、网络论坛、新闻报道等。

这使得人们在面对信息时,很难辨别哪些是真实的,哪些是虚假的。

公众情绪化:在后真相时代,由于信息的真实性难以判断,人们往往会受到情感因素的影响,从而容易产生情绪化的判断。

这使得舆论很容易被操控,导致社会舆论的极化。

权威主义减弱:在后真相时代,传统的权威主义观念逐渐削弱,人们对于权威的信任度降低。

这使得人们在面对信息时,更加倾向于相信那些与自己观点相符的信息,而忽视其他可能真实的观点。

媒体角色转变:在后真相时代,媒体的角色也发生了变化。

媒体作为信息的传播者和解释者,具有较高的公信力。

在后真相时代,媒体面临着巨大的舆论压力,很难再保持过去的高度公信力。

这使得媒体在传播信息时,更容易受到政治、商业等因素的影响,导致信息的失真。

后真相时代是一个信息传播速度快、信息来源多样、公众情绪化、权威主义减弱和媒体角色转变的时代。

在这个时代背景下,我们需要提高自己的信息素养,学会辨别真实与虚假,以应对后真相时代的挑战。

1. 后真相时代的定义随着互联网和社交媒体的普及,信息传播的速度和范围不断扩大,人们获取信息的途径也越来越多样化。

新媒体写作中的五大常见写作风格及特点

新媒体写作中的五大常见写作风格及特点

新媒体写作中的五大常见写作风格及特点在当今信息爆炸的时代,新媒体写作成为了我们获取和传递信息的主要渠道之一。

随着新媒体的迅猛发展,写作风格也愈发多样化,旨在吸引读者的眼球、传递信息和影响观点。

本文将介绍新媒体写作中的五大常见风格,并分析其特点。

一、新闻报道风格新闻报道风格是新媒体中最为常见的一种写作风格。

它追求简洁明了、客观公正的特点,主要通过对事件的事实描述和客观解析来传达信息。

新闻报道风格注重准确性和及时性,力求第一时间为读者呈现最新的新闻资讯。

同时,新闻报道风格也注意语言简练、层次清晰,让读者可以快速获取所需信息。

二、评论分析风格评论分析风格常见于新闻资讯类网站,它不仅仅是简单地事实叙述,而是在新闻的基础上,加入作者自身的观点和分析。

评论分析风格重点突出作者的观点和评论,通过对事件的深入分析和解读,引发读者思考和讨论。

这种风格通常采用较为形象生动的语言,以吸引读者的兴趣并增加阅读的趣味性。

三、故事叙述风格故事叙述风格常用于影视、文学和娱乐领域的新媒体写作。

它以故事的形式来呈现信息,通过情节的设计和人物的刻画,使读者可以沉浸于故事当中,产生情感共鸣。

故事叙述风格追求情感化和渲染性,通过悬念、冲突和高潮等手法来吸引读者的关注。

同时,它也可以用于教育、营销等领域,通过故事的吸引力来传递信息和观点。

四、个人观点风格个人观点风格是一种个人化的写作方式,强调作者个人的独特观点和主张。

这种风格常见于个人博客、微博等新媒体平台,通过个人的思考和表达来分享观点、经验和见解。

个人观点风格注重情感表达和言辞犀利,以个人独特的视角引发读者共鸣和反思。

然而,由于个人观点的主观性和局限性,读者需要辨别观点的客观性和可靠性。

五、品牌推广风格品牌推广风格常见于商业类新媒体写作,主要用于宣传和推广产品或服务。

这种风格注重营销手法和刺激消费者的购买欲望。

品牌推广风格采用宣传的措辞和方式,突出产品的特点和优势,并通过各种营销手段来促使读者采取购买行动。

文本情感分析_赵妍妍

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software, Vol.21, No.8, August 2010, pp.1834−1848 doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563© by Institute of Software, the Chinese Academy of Sciences. All rights reserved.∗文本情感分析赵妍妍+, 秦兵, 刘挺(哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨 150001)Sentiment AnalysisZHAO Yan-Yan+, QIN Bing, LIU Ting(Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author: E-mail: yyzhao@Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834−1848. /1000-9825/3832.htmAbstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentimentanalysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentimentretrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, theapplications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstreammethods and recent progress in this field, making detailed comparison and analysis.Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval andsummarization; evaluation; corpus摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设中图法分类号: TP391文献标识码: A随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如博客和论坛)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息.情感分析(sentiment analysis)技术应∗Supported by the National Natural Science Foundation of China under Grant Nos.60803093, 60975055 (国家自然科学基金); theNational High-Tech Research and Development Plan of China under Grant No.2008AA01Z144 (国家高技术研究发展计划(863))Received 2009-08-14; Revised 2009-12-25; Accepted 2010-03-11赵妍妍等:文本情感分析1835运而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析[1],如,“美好”是带有褒义色彩的词语,而“丑陋”是带有贬义色彩的词语.随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究.基于此,按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次[2].按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件“台湾归属问题”的立场;后者处理的主要是网络在线的产品评论文本,如“Polo的外观很时尚”,表明了对评价对象“Polo的外观”的评价“时尚”是褒义的.由于基于产品评论的情感分析可以帮助用户了解某一产品在大众心目中的口碑,因此受到很多消费者和商业网站的青睐.而基于新闻评论的情感分析多用于舆情监控和信息预测中,是国内外评测中重要的评测任务.情感分析涉及多项非常有挑战性的研究任务.本文综合已有的研究成果,将情感分析归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,如图1所示.Fig.1 Research framework of sentiment analysis图1 情感分析的研究框架情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务.如将情感句“我觉得Canon的相片质量不错”转化为如图1所示的结构化文本形式.情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬两类或者其他更细致的情感类别(如喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务.这些分类任务在情感分析初期吸引了大量的研究者.最高层的情感信息的检索与归纳可以看作与用户直接交互的接口,着重强调检索和归纳两项应用.该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上进行进一步的加工处理.情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值[3−5].鉴于此,该研究课题受到国内外越来越多的研究机构的重视.本文在接下来的部分首先分别详细阐述情感分析的3个主要研究任务,重点针对各任务的主流方法和前沿进展进行对比分析;接着介绍国内外主流的评测会议以及现有的资源建设情况;然后介绍情感分析的几个重要应用点;最后,展望情感分析技术的发展趋势.1 情感信息抽取情感信息抽取旨在抽取情感文本中有价值的情感信息,它可以看作情感分析的基础任务.一直以来,学术界对它兴趣不减.纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如优秀、好用)、评价对象(如GPS、1836 Journal of Software软件学报 V ol.21, No.8, August 2010屏幕分辨率)、观点持有者(如国家政府、台湾当局)等.在对大量的情感文本进行分析之后,不少研究者发现,某些组合搭配对于情感分析的上层任务如情感信息分类以及情感信息的检索与归纳有更直接的帮助,如评价搭配(评价对象和评价词语的搭配,如屏幕分辨率-高)、评价短语(程度副词及其修饰的评价词语的搭配,如不怎么-好)等.下面本文将一一介绍目前情感信息抽取的具体任务及其主要实现技术.1.1 评价词语的抽取和判别评价词语又称极性词、情感词,特指带有情感倾向性的词语.显然,评价词语在情感文本中处于举足轻重的地位,评价词语的识别和极性判断在情感分析领域创建伊始就引起了人们极大的兴致.基于前人大量的研究工作,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法[6].基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性.早期的一些学者发现,由连词(如and或but)连接的两个形容词的极性往往存在一定的关联性,如and连接的形容词(如lovely and beautiful)极性相同,然而but连接的形容词(如lovely but unnatural)极性相反.基于这种现象,Hatzivassiloglou和McKeown[1]从大语料库华尔街日报(Wall Street Journal)中发掘出大量的形容词性的评价词语.Wiebe等人[7]沿袭了较为相似的工作,他们使用了一种相似度分布的词聚类方法在大语料库上完成了形容词性的评价词语的获取.然而,以上的两种方法仅将评价词语的词性局限于形容词词性,却忽略了其他词性的评价词语.为了避免评价词语词性的限制,Riloff等人[8]手工制定一些模板并选取种子评价词语,使用迭代的方法获取了名词词性的评价词语.随后,Turney和Littman[9]提出了点互信息(point mutual information)的方法判别某个词语是否是评价词语.这种方法适用于各种词性的评价词语的识别,但是较为依赖种子褒/贬词语集合.鉴于此,基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳.基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语.这里的词典一般是指使用WordNet或HowNet等.很自然地,有学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词语[10−12].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[13−16].此外,一些学者[17]沿用了Turney等人的点互信息的方法[9],通过计算WordNet中的所有形容词与种子褒义词代表good和贬义词bad之间的关联度值来识别出评价词语.然而,并非所有语种的情感资源都像英文一样丰富,对于某些词典资源非常稀缺的语种,有学者将词典资源丰富的语种的情感词典翻译到资源较少的语种中[18],如将英文的情感词典翻译成中文,供中文情感分析应用.但是实验显示,不少评价词语在经过翻译之后极性发生了改变.这也印证了Wiebe在文献[19]中所指出的“词语的词义和其极性有一定的关系,但是相同的词义并不一定有相同的极性”.鉴于此,基于词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词,如词语“好”在大多数情况下表现为“优秀”的意思,但在某些情况下扮演修饰成分(如“他跑得好快啊!”).此外,还有一部分学者采用基于图的方法来识别评价词语的极性[6,20].具体来说,该方法将要分类的词语作为图上的点,利用词语之间的联系形成边来构建图,继而采用各种基于图的迭代算法(propagation algorithm)来完成词语的分类.如,有学者考察图中两个词语的注释信息而构建图[20],继而使用Spin模型对图中的点迭代地进行概率计算,得出每个词语的极性.还有一些学者尝试使用多种图模型[6],如最小切分模型(mincuts)、随机最小切分模型(randomized mincuts)、标签迭代模型(label propagation)等完成评价词语的褒贬分类.实验证实了基于图的方法的有效性.基于图的方法是一种新颖的方法,它可以灵活地将词语间的各种联系作为特征融入图中,继而进行迭代计算.然而,寻找更为有效的词语间特征以及如何选取图算法是值得深入研究的问题.1.2 评价对象的抽取评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象,如新闻评论中的某个事件/话题或者产品评论中某种产品的属性(如“屏幕”)等.现有的研究大部分集中于产品领域的评价对象赵妍妍等:文本情感分析1837的抽取,他们大多将评价对象限定在名词或名词短语(候选评价对象)的范畴内,进而对它们进行进一步的识别.一部分学者使用基于规则/模板的方法抽取评价对象.规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、命名实体识别、句法分析等.相应地,制定的规则也包括词序列规则、词性规则以及句法规则等形式.Yi[21]使用3条限制等级逐渐递进的词性规则从候选评价对象中抽取出真正的评价对象.还有的学者[22,23]使用关联规则挖掘的方法或是基于句法分析的结果[24]找出频繁出现的候选评价对象,继而使用两种剪枝方法去除错误样例.然而,这些方法仅能找出频繁的评价对象.为了发掘出非频繁的评价对象,有学者尝试使用含有评价词语和评价对象槽(slot)的词序列模板[22].此类方法最主要的优点在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板;而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高.有学者[25]从另一个角度诠释了评价对象的抽取.他们将评价对象看作产品属性的一种表现形式(如对数码相机领域而言,“相机的大小”是数码相机的一个属性,而“相机滑盖”是数码相机的一个组成部分),继而考察候选评价对象与领域指示词(如“整体-部分”关系指示词“scanner has”)之间的关联度来获取真正的评价对象.实验结果表明,这种方法取得了较好的实验效果,超过了基于规则/模板的方法,但难点在于领域指示词的获取.近年来,随着话题模型(topic model)[26,27]的逐渐兴起,很多学者将其应用到情感分析领域.由于评价对象是蕴涵于情感文本中的某些话题,因此可以使用话题模型来评价对象的识别.有学者[28]采用多粒度的话题模型挖掘产品领域情感文本中的评价对象,并将相似的评价对象进行聚类.这种方法理论上能够提高评价对象抽取的召回率.但遗憾的是,还没有实验将这种方法与上述传统的基于名词短语的方法进行对比.此外,还有一部分学者从事新闻评论文本中的话题评价对象的抽取[29,30].如,对于情感句“所有人都认为政府应该加强改善医疗卫生条件”,抽取话题评价对象“政府应该加强改善医疗卫生条件”.1.3 观点持有者抽取观点持有者的抽取在基于新闻评论的情感分析中显得尤为重要,它是观点/评论的隶属者,如新闻评论句“我国政府坚定不移的认为台湾是中国领土不可分割的一部分”中的“我国政府”.很自然地,人们会想到评论中的观点持有者一般是由命名实体(如人名或机构名)组成,因此可以借助于命名实体识别技术来获取观点持有者[31].此外,还有学者曾尝试借助语义角色标注来完成观点持有者的抽取[29].但是这些方法较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性.还有人将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取.如Choi将其看作一个序列标注问题[32],并使用CRF(conditional random field)模型融合各种特征来完成观点持有者的抽取.相似地,Kim[11]将所有名词短语都视为候选观点持有者,使用ME(maximum entropy)模型来进行计算.以上的方法将观点持有者的抽取当作一个独立的任务.通过观察许多研究者发现,观点持有者一般是与观点同时出现的,所以可以将观点和观点持有者的识别作为一个任务同时解决.Bethard[33]在抽取出情感句中的观点单元(多是由一些短语组成)之后,分析句中观点和动词的句法关系,即可同步获取观点持有者.由于产品评论中一般默认观点持有者是用户本身,因此鲜有研究者在产品评论领域研究这一任务.1.4 组合评价单元的抽取评价词语在情感分析中的作用是不言而喻的.然而在某些情况下,单独的评价词语存在一定的歧义性,如评价词语“高”在以下3个句子中的使用:• Sen 1:凯越的油耗真高.• Sen 2:捷达的性价比相当高.• Sen 3:这辆车有1米多高.Sen 1和Sen 2是情感句,但是评价词语“高”在修饰不同的评价对象时表现出不同的极性.如,“高”在Sen 1中表示贬义,而在Sen 2中则表示褒义.此外,评价词语往往也会出现在非情感句中,如Sen 3.因此,仅考虑单独的评价词语在情感分析中的应用是远远不够的.研究者们发现,有些包含评价词语的“组合评价单元”(如组合“油1838 Journal of Software软件学报 V ol.21, No.8, August 2010耗-高”、“相当-高”)对于处理情感分析的上层任务更有帮助.下面将具体来介绍各种形式的组合评价单元.1.4.1 主观表达式的抽取主观表达式(subjective clues)是指表示情感文本单元主观性的词语或词组.第1.1节的评价词语是主观表达式的一部分.此外,某些词语的组合(如village idiot或get out of here)也能很明显地标识文本的主观性,虽然它们中的任何一个词语单独可能都并非评价词语.如何获取这些有意义的词组是主观表达式抽取的重点.Wiebe和Wilson是这项任务的引领者[34].近几年来,他们挖掘大量的主观表达式形成主观表达式库,并基于此完成文本的主客观分类和褒贬分类.具体来说,他们首先从语料中抽取出所有的n元词语/词组(1≤n≤4)作为候选主观表达式;继而通过对比训练语料中的标准的主观表达式,为每个候选主观表达式计算出可能成为主观表达式的概率;最后通过对概率值的分析,获得这些主观表达式.Wiebe和Wilson[35]在随后的工作中又引入了“主观表达式密度”协助判断主观表达式.2004年,Wiebe和Wilson将他们前期的工作进行了总结[36],从不同的语料中扩充了大量的主观表达式,主要包括手工收集的一部分主观表达式以及自动从标注/未标注语料中学习而来的一部分主观表达式.此外,他们首次利用句法分析的结果发掘了句法主观表达式[37].随后,Wiebe和Wilson采用多种特征及机器学习方法对他们获取的大量的主观表达式的情感程度(strong或weak)进行了识别.1.4.2 评价短语的抽取评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如“very good”等.因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分.这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元.有学者采用基于一些情感词典的方法识别这种评价短语.如Whitelaw[38]结合WordNet使用半自动的方法构建了形容词性的评价词词典以及修饰词词典.对于一个含有评价词语的情感文本,该方法首先查看评价词前面的词语,如果属于修饰词词典,获取这个词组作为评价短语.根据两个词典中的属性值计算出情感极性.这种方法由于基于较为细致的词典,因此准确率较高,然而,由于词典中词语有限而限制了召回率.还有学者使用依存句法结构(如ADV,ATT以及DE结构),在句法树上获取评价短语[23].这种方法巧妙地利用了评价短语中所含词语之间的句法修饰关系,但是较为依赖句法分析的结果.评价短语考察的是连续出现的词组,然而有些表示修饰关系的词语并非总是和评价词语连续出现.如在情感句“[I did [not]− have any [doubt]− about it.]+”中,修饰词not和评价词doubt并非连续出现,但它们共同决定了情感句的最终极性.Moilanen等人[39]和Choi等人[40]将其定义为“组合语义单元(compositional semantics)”,具体表现为一组非连续的词语,通过相互作用来表达出某种情感极性.组合语义单元可以看作一种更为复杂的评价短语,大多使用人工总结或半自动生成的模板来识别.1.4.3 评价搭配的抽取评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对〈评价对象,评价词语〉,如情感句“凯越的油耗很高”中的“油耗-高”.前面所介绍的“主观表达式”和“评价短语”主要是考察含有情感极性的一些词和短语,然而情感句中出现的某些“主观表达式”和“评价短语”并非真正地表现出情感极性.如情感句s1“车跑得好快啊”中的词语“好”并不存在情感极性,需要过滤掉.此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定.“评价搭配”则可以很好地解决上述两点问题.针对评价搭配的抽取任务,大部分学者采用了基于模板的获取方法.Kobayashi等人[41]考察评价对象和评价词语之间的修饰关系,并用8个共现模板来描述.然而,由于模板过于简单且修饰关系仅仅停留在词表面,该方法产生了大量的噪声.为了深入挖掘评价对象和评价词语之间的修饰关系,一部分学者尝试使用句法关系模板. Bloom等人[42]利用Stanford Parser手工构建了31条句法规则.此外,Popescu等人[25]利用MINIPAR Parser手工构建了10条依存句法抽取模板来获取评价搭配.姚天昉等人[43]基于依存句法分析总结出“上行路径”和“下行路径”的匹配规则;后续总结出SBV(subjective-verb)极性传递规则,用于评价搭配的识别.可以看出,他们的工作融入了更多对评价对象和评价词语之间深层关系的挖掘.然而,由于匹配规则或模板的制定存在过多的人工参与,覆盖率较低.因此在未来的工作中,我们应该侧重于研究自动生成评价对象和评价词语之间的匹配规则的策略.赵妍妍等:文本情感分析18392 情感信息分类情感信息的分类任务可大致分为两种:一种是主、客观信息的二元分类;另一种是主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类[44].2.1 主客观信息分类在对情感文本进行情感分析时,往往由于情感文本中夹杂着少量的客观信息而影响了情感分析的质量[45],因此将情感文本中的主观信息和客观信息进行分离变得非常必要.由于情感文本单元表现格式比较自由,且区分主、客观文本单元的特征并不明显,在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度.一部分学者通过考察文本内部是否含有情感知识(具体表现为第1节情感信息抽取的结果)来完成主客观信息分类[10,46].然而我们发现,许多客观句中也可能会包含评价词语,如客观句“这位英雄名叫张三丰”同样含有评价词语“英雄”.为了在更大程度上消除歧义性,很多学者挖掘并使用情感文本中的组合评价单元,如第 1.4节中提到的“主观表达式”、“评价短语”和“评价搭配”等组合信息.此外,还有学者[8]构建情感模板识别情感文本的主客观性(如贬义模板“〈x〉 drives 〈y〉 up the wall”).以上这些基于情感知识的主客观分类方法的工作重心在于情感文本中情感知识的挖掘以及各种情感知识融合的方法研究.还有一部分学者将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性.这种方法的关键在于分类器和分类特征的选取.具体来说,Hatzivassiloglou[47]使用了词语作为特征,并采用了NB(Naïve Bayes)分类器完成篇章级情感文本的主客观分类.Yao[48]着重从一些特殊的特征角度考察了主客观文本,如标点符号角度、人称代词角度、数字角度等.Pang[49]则采用基于图的分类算法完成句子级的主客观分类.基于特征分类的方法目前还是主客观信息分类的主流方法.这种方法定义明确,其根本问题在于特征的选取.因此,尝试使用更深层、更复杂的分类特征也许是这类方法的突破方向之所在. 2.2 主观信息情感分类主观信息情感任务按不同的文本粒度可分为词语级、短语级、句子级和篇章级等.其中,第1节已经对词语级和短语级的情感分类方法进行了总结,因此本节将着重介绍句子级和篇章级的主观信息情感分类方法.一般而言,研究者将主观本文的极性分为褒义和贬义两类(thumbs up? thumbs down?).纵观目前的研究工作,与主客观信息分类类似,可分为两种研究思路:基于情感知识的方法以及基于特征分类的方法.相似地,前者主要是依靠一些已有的情感词典或领域词典以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性.后者主要是使用机器学习的方法,选取大量有意义的特征来完成分类任务.这两种研究思路有很多代表性的研究工作.文献[10,47,50,51]首先分析句子/篇章中的评价词语或组合评价单元的极性,然后进行极性加权求和.这种方法的重点一般都放在评价词语或组合评价单元的抽取和极性判断方法的研究上.在基于特征分类的方法中,Pang[52]首次将机器学习的方法应用于篇章级的情感分类任务中.他们尝试使用了n-gram词语特征和词性特征,并对比了NB,ME和SVM(support vector machine)这3种分类模型,发现unigram特征效果最好.然而,Cui[53]通过实验证明,当训练语料较少时,unigram的效果较优;但随着训练语料的增多,n-gram (n>3)发挥了越来越重要的作用.Kim[54]除了考察传统的n-gram模型之外,还引入了位置特征和评价词特征来完成句子级的褒贬分类.Zhao[55]则将句子级情感分类任务提炼为一个三层分类任务,利用各层之间类别标签的相互作用,并考虑上下句之间情感的互相影响,使用CRF模型将这些特征进行融合.类似于主客观信息分类任务,基于特征的方法的研究重点在于有效特征的发现以及特征选择和特征融合等问题的研究.除了对主观文本信息的褒贬二元分类之外,还有一些研究工作进行更细致的情感分类任务.Pang[56]将褒贬等级分为3类,并使用了one-vs-all多元分类算法和回归分类算法完成情感分类.Goldberg[57]则使用了一种基于图的半指导的分类算法,完成评论的褒贬包括4个等级的分类.2.3 观点分类与挖掘情感分类还可以体现在对某些事件的观点分类上.Lin等人[58]主要使用3种分类模型识别有关“巴以冲突”。

新闻评论的采集方法

新闻评论的采集方法新闻评论是指对新闻报道内容的分析和评价。

采集新闻评论需要从各个角度、不同视角获取信息,包括新闻报道内容、评论者身份、情感倾向、评论内容等方面。

下面从四个方面介绍新闻评论的采集方法。

一、新闻报道内容获取新闻报道的信息是进行新闻评论的基础。

可以通过以下方式获取信息:1.通过网络、报纸、电视等媒体获取新闻报道,了解事件的起因、经过、结果等内容。

2.查阅相关的文献、材料,包括统计数据、历史文献、官方文件等。

3.访问相关当事人、专家学者等,获取他们对事件的看法,分析他们的观点和观念,为自己的评论提供更丰富的信息源。

二、评论者身份获取评论者的身份是了解评论者背景和立场的重要途径,可以从以下方面入手:1.查看评论者的社交媒体信息,包括微博、博客、论坛等,了解他们的职业、教育和文化背景。

2.查看评论者的个人信息,包括姓名、年龄、性别、地区等,了解他们的人生经历和价值观念。

3.通过网络调查、访谈等方式,了解评论者的立场、态度以及价值观念。

三、情感倾向情感倾向是评价内容中一个重要方面,可以通过以下方式获取:1.通过语言表达方式分析评论者的情感倾向,包括语气、词汇、语态等。

2.通过评论者在社交媒体上的发言和评论来分析他们的情感倾向。

四、评论内容评论内容是进行新闻评论的核心,在获取信息的同时需要注意以下方面:1.关注评论内容的主题和标题,了解评论者对事件的关注度和内容深度。

2.通过文本分析工具对评论内容进行数据挖掘和情感分析,获取对事件的不同观点和立场。

3.对评论内容进行主题分类和关键字提取,统计出评论者对不同事件的关注程度和认知偏差。

综上所述,进行新闻评论需要从多个方面获取信息,只有全面了解新闻事件和评论者的信息,才能准确客观地进行评论。

新闻评论的采集方法需要根据不同的评论主题和目的,灵活运用各种信息获取工具和分析手段,从中发现规律和趋势,为下一步的评论提供依据和参考。

网络信息价值判断的五个标准

权威来源的信息更新及时, 能够反映最新情况,而过 时信息可能导致误判。
02
内容完整性与准确性
信息要素齐全程度
完整性
信息应包含所有必要的元素,以 便读者能够全面理解主题或事件。 例如,新闻报道应包括时间、地 点、人物、事件、原因等要素。
细节丰富度
除了基本要素外,信息还应提供 足够的细节,以帮助读者更深入
通过比较不同新闻机构或社交媒体平台对同一事件的报道,观察信息的一致性和差异性。
信息来源的多样性
注意信息来源的多样性,避免只依赖单一来源,从而减少信息偏见和误导。
验证信息的真实性和准确性
通过查找多个独立的信息源,验证信息的真实性和准确性,确保所获取的信息是可靠的。
多角度呈现问题全貌
同一事件的不同视角
多元信息源的利用
积极寻找和利用多元的信息源,包括官方机构、专业机构、学术研 究和公众舆论等。
批判性思维的应用
运用批判性思维对信息进行深入分析和评估,不盲目接受单一来源的 观点和结论。
THANKS
感谢观看
地了解主题或事件。
背景信息
对于涉及复杂背景或历史的信息, 应提供必要的背景信息,以便读
者能够更好地理解当前情况。
事实描述准确性
客观性
01
信息应基于客观事实进行描述,避免主观偏见或误导性言论。
准确性
02
信息中的事实和数据应经过核实和确认,以确保其准确性。对
于未经核实的信息,应注明其来源和可信度。
一致性
点赞或踩数量对比
点赞数量
用户对信息内容示赞同或喜欢的次数,反映信息的受欢迎程度 和认可度。
踩数量
用户对信息内容表示反对或不满的次数,体现信息存在的争议和 负面评价。

舆情分析方法

舆情分析方法舆情分析是指对社会公众舆论进行系统性的监测、搜集、整理、分析和研判,以揭示舆论动态、舆情走向、舆情特征和规律,为政府、企业和个人的决策提供科学依据和参考。

舆情分析方法主要包括以下几种:一、媒体监测分析法。

媒体监测分析法是通过对各类媒体的报道进行监测和分析,包括传统媒体和新媒体。

通过对媒体报道的关键词、主题、情感等进行分析,可以了解舆论的热点、焦点和倾向,为舆情的监测和预警提供数据支持。

二、网络舆情监测分析法。

网络舆情监测分析法是通过对网络上各类平台的信息进行抓取、整理和分析,包括微博、微信、论坛、博客等。

通过网络舆情监测分析,可以了解公众对某一事件、话题或产品的态度和看法,及时发现和回应负面舆情,维护个人或企业的声誉。

三、社会调查分析法。

社会调查分析法是通过问卷调查、访谈等方式,收集公众的意见和看法,进行数据分析和研究。

通过社会调查分析,可以深入了解公众的需求和诉求,为政府和企业提供决策支持和改进建议。

四、情报分析法。

情报分析法是通过搜集和整理各种情报信息,进行综合分析和研判。

情报分析法可以从多个角度、多个维度对舆情进行全面深入的分析,为决策者提供多方面的参考和建议。

五、大数据分析法。

大数据分析法是通过对海量数据进行挖掘和分析,发现数据之间的关联和规律。

通过大数据分析,可以发现潜在的舆情风险和机遇,为决策者提供更加准确的预测和建议。

综上所述,舆情分析方法是多种多样的,可以根据具体情况选择合适的方法进行分析。

舆情分析的目的是为了及时了解和掌握公众舆论动向,为决策者提供科学依据和参考,及时回应和处理舆情事件,维护个人或企业的声誉和形象。

舆情分析方法的选择和运用需要结合具体的情况和需求,灵活运用,以达到最佳的分析效果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

・ 个价 、 f ¨
息, 与每列信息相 对应的每一行 代表 ・ 个 j , : , ( i , i ) 是在信息 x . 上宁浏 t . 频繁项 集 , 下面足 ・ 个1 1 维
I l l 维 字 词 的 宁 词一 信 息 矩 阵 .如 表 1 :
袁 1
胡冀
较 j 、 的 坏 的 蚶 的
种 厅式 随 着博 客蚪 】 户 的俱 增 , 越 来越 多 的川 广 1 对 的 交流 , 而是通 过博 客来进 行广 泛 的交流
据挖 掘技 术的 主要廊川 t 领域 , 尤 是 , 从利 : 会 网络 、 微博 、 博 客或专业 网络 等社
向量机 和朴素 贝叶斯 。


件下 的条件概率估计 以及在训练样本 中的出现频率来
训练生成分类器 , 并将这些结果记录下来 。
类别 的集合定 义为 T : f f 1 . t , …… t } , 并计算 P ( t . I x ) , P
( t z l x ) , …, P ( t m I x ) 。
博 客 评 论 的情 感 倾 向性 分 析
宋芷 萱
( 沈 阳师范大学教育技 术学 院汁算 机应 技 术系 , 沈刚 1 1 0 0 3 4 )
摘要:
观『 』 【 l 今, 随着 网络的快速发展 , 博 客逐渐成 为一种流行趋势 , 人们通过博客来进 行交流 , 那 如何来 对 锌 i i f J 2i ; 1i ' ? l i
交媒体 服 务 f 1 提 取数据 … 。参与 者利用这 些服 务米 分
『 1 的观点 、 I j 亲友联 系 、 保持 自己的专业素 养或 者
追踪卡 H 父新 以 及热 门 话 题 . . 义 本情 感 分 析 I 称 为
词T = , …… t } 为例 , 在这 个矩阵 中, 每 一列代
我 们 人类经 过 系统 的学 习 , 可 以通 过 自己的理 解 来 辨 别出一 句话 、 一段话 , 是 褒 义还 是 贬 义的 , 那 如何 能 让计算机 自主 的进行 文本情感分析 呢?本文 采用的 是把 文本信 息转 变成计 算机 能够识 别 的向量 , 和使 月 = i 两种对 文本 内容进 行情感 分 析较 为准确 的方 法 : 支 持
意 挖 拙 . 是 以包 含主观情感 和 作者观点 的 义本作 为 f i J F t ; u, t 象, 通 过识 刖这 文本的主观性 句子或 涧湃 , 来 刈 ‘ 这些 义术进行倾 向性分忻 的问题 =
信志 1 信怠2
f l l i I r ¨ h

信息 n
感倾 向性 分析就成为 首要解决 的问题 。博 客评沦的内容简短而 E L 有一定 的格式 , 然 不能川传统 的分 疗法进行 分
类, 此, 以对候 选人 A的个人博客为 例 , 选择 川支持 向 机 和朴 素 贝Ⅱ 1 斯分类器米进 行义本分类 , } { f 遵循 息愉索 的 准牟 、 盎伞牢和精确度这些指标来评估 义术分类 和情感分析 。
J , 包 含许 多 网络用语 、 错 别字 、 超链接 等 . 这 都会 影响 客 、 卜 论 分析 的准确性 。 因此 , 进 行情感 倾 向性
学习方法一句信息的 向量表示法来执行 .
@ 现 代计 算机 2 0 1 7 . 1 1 中
研 究 与 开 发
2 博 客 评 论 文 本 情 感 倾 向性 分 析 方 法
人信 息 的 一 种 形式 、从 个人角度 来 说 , 博 客址一 种表
达 个人思 想 , 以 及 他人 分享有 价值 的资 源秆 I


预料 的学 习 , 能够找 …该类 义本的特 , J i 通过这 特 来进 行倾向性 的判断 , 最终, 将该待 分 类的M 分成 褒 义和贬 义两类 在进 行预处理 的 H 、 f 候, ‘ 停止 涧 、 数字 、 符号 、 格 以及英文字 f 1 上 大 小0 J O , ' J 处 B a e z a — Y a t e s 和 R i b e i r o — N e t o 提出 , 信 息 1 1 r J 通过 字 词一 信息矩 阵体现 出来 , C = { x _ , …, x . 1 千 ¨ … 维 j : 沦 也
I I
水 史对博 客 评论 的情感 倾 向性作 了 系统 的研 究 .
啊 讨沦博客评论 的分析算法 。
1 1 f
1 文本 预 处 理
I 1 1 ¨
从 贝上 收 集 刮 的 内容较 比传 统 的文 本 人缺 的 足: 肜式 不规 范 , 杂 乱死章 . 义本 长度较 短 ; l 大 】 容密 集 , } } 1 于字 词 T序列 符合宁 词同典 , [ 太 l 此, 我f 『 J 能够把 每一 列看作 R 与相对丁的 I I 1 维信息 . 1 , f 以使川 i的
、 \
研究与开发
文章编号 : 1 0 0 7 — 1 1 2 3 ( 2 0 1 7 ) 3 2 — 0 0 5 2 0 3
D OI : 1 0 . 3 9 6 9 / j . i S S F I . 1 0 0 7 — 1 4 2 3 . 2 0 1 7 . 3 2 . 0 1 2
关键 词 :
沦 ;艾本情感 分析 ; 支持 向量机 ; 朴索 叶断
O 引 言
客, 也被称 为网络 口志 , 是一种在 网络 t发 个
分析之前 , 需要经过一 系列 的义 预处 对博客评 沦进 行情感 倾向性分 忻 , 允, ‘ i ! i l
过 一 系 列 训 练 得 到 一 个 分类 器 . 这 个 分 嗵过 d l l > ' 1 ,
相关文档
最新文档