文本情感分类研究综述

合集下载

基于深度学习的文本情感分析方法研究

基于深度学习的文本情感分析方法研究

基于深度学习的文本情感分析方法研究随着社交媒体的兴起以及用户生成内容的爆炸增长,对大规模文本数据进行情感分析的需求与日俱增。

文本情感分析是一种将自然语言处理和机器学习相结合的技术,旨在自动识别和理解文本中的情感倾向。

近年来,深度学习模型在文本情感分析领域取得了显著的进展,并且成为了研究和应用的热点之一。

本文将就基于深度学习的文本情感分析方法进行综述,并对其研究现状和未来发展进行讨论。

一、基础知识介绍1.1 文本情感分析概述文本情感分析,又称为情感倾向分析,是指通过计算机技术对文本进行情感判断和分类的过程。

其目标是将文本分类为积极、消极或中性等情感类型。

情感分析可应用于情感监测、品牌舆情分析、用户评论情感分析等领域,对于企业决策和社会舆情分析起着重要作用。

1.2 深度学习简介深度学习是一种基于神经网络模型的机器学习方法,通过多层神经网络的构建和训练来解决复杂的模式识别和数据分析问题。

与传统机器学习方法相比,深度学习模型以其强大的非线性拟合能力和自动特征学习能力在文本情感分析任务中表现出色。

二、基于深度学习的文本情感分析方法2.1 卷积神经网络(CNN)卷积神经网络是一种常用的深度学习模型,具有一定的自然语言处理能力。

在文本情感分析领域,卷积神经网络通过卷积操作来捕捉文本中的局部特征,进而通过全连接层进行分类。

该方法在文本分类任务中取得了很好的效果。

2.2 循环神经网络(RNN)循环神经网络是一类具有记忆能力的神经网络,对于处理序列数据的任务特别有效。

在文本情感分析中,循环神经网络通过序列建模,能够较好地捕捉上下文信息,对于理解文本中的情感趋势非常有帮助。

然而,长时依赖问题限制了RNN模型的准确性。

2.3 长短期记忆网络(LSTM)为了解决长时依赖问题,研究者提出了长短期记忆网络。

LSTM模型通过引入记忆单元和门控机制,能够有效地记忆长期依赖关系,并且在文本情感分析中取得了较好的效果。

LSTM模型在多层结构的基础上,能够更好地处理文本中的复杂情感信息。

文本情感分析综述

文本情感分析综述

文本情感分析综述∗赵妍妍+, 秦兵, 刘挺(哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001)A Survey of Sentiment Analysis *ZHAO Yan-Yan+, QIN Bing, LIU Ting(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research.Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization;evaluation; corpus摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益.关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设中图法分类号: TP391文献标识码: A随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信∗Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)赵妍妍等:情感倾向性分析纵览息的收集和处理.因此,迫切需要计算机帮助用户快速获取和整理这些相关评价信息,情感分析(Sentiment Analysis)技术应运而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析,又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析[1],如“美好”是带有褒义色彩的词语,而“丑陋”是带有贬义色彩的词语.随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究.基于此,按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次[2].按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件“台湾归属问题”的立场;后者处理的主要是网络在线的产品评论文本,如“Polo的外观很时尚”,表明了对评价对象“Polo的外观”的评价“时尚”是褒义的.由于基于产品评论的情感分析可以帮助用户了解某一产品在大众心目中的口碑,因此受到很多消费者和商业网站的青睐.而基于新闻评论的情感分析多用于舆情监控和信息预测中,是国内外评测中重要的评测任务.情感分析涉及多项非常有挑战性的研究任务.本文综合已有的研究成果,将情感分析归纳为三项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,如图1所示.Fig.1 The framework of sentiment analysis图1 情感分析的研究框架其中,情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务.如将情感句“我觉得Canon的相片质量不错”转化为如图1所示的结构化文本形式.情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒贬两类或者其他更细致的情感类别(如:喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务.这些分类任务在情感分析初期吸引了大量的研究者.最高层的情感信息的检索与归纳可以看作与用户直接交互的接口,着重强调“检索”和“归纳”两项应用.该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上,进行进一步的加工处理.情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值[3-5].鉴于此,该研究课题受到国内外越来越多的研究机构的重视.本文在接下来的部分首先分别详细阐述情感分析的三个主要研究任务,重点针对各任务的主流方法和前沿进展进行对比分析;接着介绍国内外主流的评测会议以及现有的资源建设情况;然后,本文介绍情感分析几个重要的应用点;最后,展望情感分析技术的发展趋势.1 情感信息抽取情感信息抽取旨在抽取情感文本中的有价值的情感信息.它可以看作情感分析的基础任务,一直以来,学术界对它兴趣不减.纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如“优秀”,“好用”)、评价对象(如“GPS”, “屏幕分辨率”)、观点持有者(如“国家政府”, “台湾当局”) 等.在对大量的情感文本进行分析之后,不少研究者发现某些组合搭配对于情感分析的上层任务如:情感信息分类以及情感信息的检索与归纳有更直接的帮助,如“评价搭配”(评价对象和评价词语的搭配,如“屏幕分辨率-高”)、“评价短语”(程度副词及其修饰的评价词语的搭配,如“不怎么-好”)等.下面本文将一一介绍目前情感信息抽取的具体任务及其主要实现技术.1.1 评价词语的抽取和判别评价词语又称极性词、情感词,特指带有情感倾向性的词语.很显然,评价词语在情感文本中处于举足轻重的地位,评价词语的识别和极性判断在情感分析领域创建伊始就引起了人们极大的兴致.基于前人大量的研究工作,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法[10].基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性.早期的一些学者发现,由连词(如and或but)连接的两个形容词的极性往往存在一定的关联性,如“and”连接的形容词(如“lovely and beautiful”)极性相同,然而“but”连接的形容词(如:“lovely but unnatural”)极性相反.基于这种现象, Hatzivassiloglou和McKeown[1]从大语料库华尔街日报(Wall Street Journal)中发掘出大量的形容词性的评价词语. Wiebe等人[11]沿袭了较为相似的工作,他们使用了一种相似度分布的词聚类方法在大语料库上完成了形容词性的评价词语的获取.然而,以上的两种方法仅将评价词语的词性局限于形容词词性,忽略了其他词性的评价词语.为了避免评价词语词性的限制, Riloff等人[12]手工制定一些模板并选取种子评价词语,使用迭代的方法获取了名词词性的评价词语.随后,Turney和Littman[13]提出了点互信息(Point Mutual Information)的方法判别某个词语是否是评价词语.这种方法适用于各种词性的评价词语的识别,但是较为依赖种子褒/贬词语集合.鉴于此,基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳.基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语.这里的词典一般是指使用WordNet或HowNet等.很自然的,有学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词语[14-16].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[17-20].此外,一些学者[21]沿用了Turney等人的点互信息的方法[13],通过计算WordNet中的所有形容词与种子褒义词代表“good”和贬义词“bad”之间的关联度值来识别出评价词语.然而,并非所有的语种的情感资源都像英文一样丰富,对于某些词典资源非常稀缺的语种,有学者将词典资源丰富的语种的情感词典翻译到资源较少的语种中[22],如将英文的情感词典翻译成中文,供中文情感分析应用.但是实验显示,不少评价词语在经过翻译之后极性发生了改变.这也印证了Wiebe在文献[23]中所指出的“词语的词义和其极性有一定的关系,但是相同的词义并不一定有相同的极性”.鉴于此,基于词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词,如词语“好”在大多数情况下表现为“优秀”的意思,但在某些情况下扮演修饰成分(如“他跑的好快啊!”).此外,还有一部分学者采用基于图的方法来识别评价词语的极性[10,24].具体的,该方法将要分类的词语作为图上的点,利用词语之间的联系形成边来构建图,继而采用各种基于图的迭代算法(Propagation Algorithm)来完成词语的分类.如,有学者考察图中两个词语的注释信息而构建图[24],继而使用Spin模型对图中的点迭代的进行概率计算,得出每个词语的极性.还有一些学者尝试使用多种图模型[10],如:最小切分模型(Mincuts)、随机最小切分模型(Randomized Mincuts)及标签迭代模型(Label Propagation)等完成评价词语的褒贬分类.实验证实了基于图的方法的有效性.基于图的方法是一种新颖的方法,它可以灵活的将词语间的各种联系作为特征融入图中,继而进行迭代计算.然而,寻找更有效的词语间特征以及如何选取图算法是值得深入研究的问题.1.2 评价对象的抽取评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象,如新闻评论中的某个事件/话题或者产品评论中某种产品的属性(如“屏幕”)等.现有的研究大部分集中于产品领域的评价对象的抽取,他们大多将评价对象限定在名词或名词短语(候选评价对象)的范畴内,进而对它们进行进一步的识别.赵妍妍等:情感倾向性分析纵览一部分学者使用基于规则/模板的方法抽取评价对象.规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注,命名实体识别和句法分析等.相应地,制定的规则也包括词序列规则,词性规则以及句法规则等形式.Yi[25]使用三条限制等级逐渐递进的词性规则从候选评价对象中抽取出真正的评价对象.还有学者[26-27]使用关联规则挖掘的方法或是基于句法分析的结果[28]找出频繁出现的候选评价对象,继而使用两种剪枝方法去除错误样例.然而,这些方法仅能找出频繁的评价对象.为了发掘出非频繁的评价对象,有学者尝试使用含有评价词语和评价对象槽(slot)的词序列模板[26].此类方法最主要的优点在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板.而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高.有学者[29]从另一个角度诠释了评价对象的抽取.他们将评价对象看作产品属性的一种表现形式(如对数码相机领域而言,“相机的大小”是数码相机的一个属性,而“相机滑盖” 是数码相机的一个组成部分),继而考察候选评价对象与领域指示词(如“整体-部分”关系指示词:“scanner has”)之间的关联度来获取真正的评价对象.实验证明这种方法取得了较好的实验效果,超过了基于规则/模板的方法.但难点在于领域指示词的获取.近年来,随着话题模型(Topic Model)[30-31]的逐渐兴起,很多学者将其应用到情感分析领域.由于评价对象是蕴涵于情感文本中的某些话题,因此可以使用话题模型用于评价对象的识别.有学者[32]采用多粒度的话题模型挖掘产品领域情感文本中的评价对象,并将相似的评价对象进行聚类.这种方法理论上能够提高评价对象抽取的召回率,但是遗憾的是,还没有实验将这种方法和上述传统的基于名词短语的方法进行对比.此外,还有一部分学者从事新闻评论文本中的话题评价对象的抽取[33-34].如:对于情感句“所有人都认为政府应该加强改善医疗卫生条件”,抽取话题评价对象“政府应该加强改善医疗卫生条件”.1.3 观点持有者抽取观点持有者的抽取在基于新闻评论的情感分析中显得尤为重要,它是观点/评论的隶属者,如新闻评论句“我国政府坚定不移的认为台湾是中国领土不可分割的一部分”中的“我国政府”.很自然的,人们会想到评论中的观点持有者一般是由命名实体(如:人名或机构名)组成,因此可以借助于命名实体识别技术来获取观点持有者[35].此外,还有学者曾尝试借助语义角色标注来完成观点持有者的抽取[33].但是这些方法较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性.还有人将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取.如Choi将其看作一个序列标注问题[36],并使用CRF (Conditional Random Fields)模型融合各种特征来完成观点持有者的抽取.相似的,Kim[15]将所有名词短语都视为候选观点持有者,使用ME (Maximum Entropy)模型来进行计算.以上的方法将观点持有者的抽取当作一个独立的任务.通过观察,许多研究者发现,观点持有者一般是和观点同时出现的,所以可以将观点和观点持有者的识别作为一个任务同时解决.Bethard[37]在抽取出情感句中的观点单元(多是由一些短语组成)之后,分析句中观点和动词的句法关系,即可同步获取观点持有者.由于产品评论中一般默认观点持有者是用户本身,因此鲜有研究者在产品评论领域研究这一任务.1.4 组合评价单元的抽取评价词语在情感分析中的作用是不言而喻的.然而在某些情况下,单独的评价词语存在一定的歧义性,如评价词语“高”在以下三个句子中的使用.¾Sen1: 凯越的油耗真高.¾Sen2: 捷达的性价比相当的高.¾Sen3: 这辆车有1m多高.Sen1和Sen2是情感句,但是评价词语“高”在修饰不同的评价对象时表现出不同的极性.如在Sen1中“高”表示贬义,而在Sen2中则表示褒义.此外,评价词语往往也会出现在非情感句中,如Sen3.因此仅考虑单独的评价词语在情感分析中的应用是远远不够的.研究者们发现有些包含评价词语的“组合评价单元”(如:组合“油耗-高”,“相当-高”)对于处理情感分析的上层任务更有帮助.下面将具体的介绍各种形式的组合评价单元.1.4.1 主观表达式的抽取主观表达式(Subjective Clues)是指表示情感文本单元主观性的词语或词组. 1.1节的评价词语是主观表达式的一部分.此外,某些词语的组合(如:“village idiot”或“get out of here”)也能很明显的标识文本的主观性,虽然它们中的任何一个词语单独可能都并非评价词语.如何获取这些有意义的词组是主观表达式抽取的重点.Wiebe和Wilson是这项任务的引领者[38].近几年来,他们挖掘大量的主观表达式形成主观表达式库,并基于此完成文本的主客观分类和褒贬分类.具体的,他们首先从语料中抽取出所有的n元词语/词组(1≤n≤4)作为候选主观表达式;继而通过对比训练语料中的标准的主观表达式,为每个候选主观表达式计算出可能成为主观表达式的概率;最后通过对概率值的分析,获得这些主观表达式.Wiebe和Wilson[39]在随后的工作中又引入了“主观表达式密度”协助判断主观表达式.2004年,Wiebe和Wilson将他们前期的工作进行了总结[40],从不同的语料中扩充了大量的主观表达式,主要包括手工收集的一部分主观表达式以及自动从标注/未标注语料中学习而来的一部分主观表达式.此外,他们首次利用句法分析的结果发掘了句法主观表达式[41].随后,Wiebe和Wilson采用多种特征及机器学习方法对他们获取的大量的主观表达式的情感程度(strong或weak)进行了识别.1.4.2 评价短语的抽取评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如:“very good”等.因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分.这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元.有学者采用基于一些情感词典的方法识别这种评价短语.如Whitelaw[42]结合WordNet使用半自动的方法构建了形容词性的评价词词典以及修饰词词典.对于一个含有评价词语的情感文本,该方法首先查看评价词前面的词语,如果属于修饰词词典,获取这个词组作为评价短语.根据两个词典中的属性值计算出情感极性.这种方法由于基于较为细致的词典,因此准确率较高.然而,由于词典中词语有限而限制了召回率.还有学者使用依存句法结构(如ADV、ATT以及DE结构),在句法树上获取评价短语[27].这种方法巧妙的利用了评价短语中所含词语之间的句法修饰关系,但是较为依赖句法分析的结果.评价短语考察的是连续出现的词组,然而,有些表示修饰关系的词语并非总是和评价词语连续出现. 如在情感句“[I did [not]- have any [doubt]- about it.]+”中,修饰词“not”和评价词“doubt”并非连续出现,但它们共同决定了情感句的最终极性. Moilanen等人[43]和Choi等人[44]将其定义为“组合语义单元”(Compositional Semantics),具体表现为一组非连续的词语,通过相互作用来表达出某种情感极性.“组合语义单元”可以看作一种更复杂的评价短语,多使用人工总结或半自动生成的模板来识别.1.4.3 评价搭配的抽取评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对<评价对象,评价词语>,如情感句“凯越的油耗很高”中的“油耗-高”.前面所介绍的“主观表达式”和“评价短语”主要是考察含有情感极性的一些词和短语,然而情感句中出现的某些“主观表达式”和“评价短语”并非真正的表现出情感极性.如情感句s1“车跑的好快啊”中的词语“好”并不存在情感极性,需要过滤掉.此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定.“评价搭配”则可以很好的解决上述两点问题.针对评价搭配的抽取任务,大部分学者采用了基于模板的获取方法. Kobayashi等人[45]考察评价对象和评价词语之间的修饰关系,并用8个共现模板来描述.然而,由于模板太过简单且修饰关系仅仅停留在词表面,该方法产生了大量的噪声.为了深入挖掘评价对象和评价词语之间的修饰关系,一部分学者尝试使用句法关系模板. Bloom等人[46]利用Stanford Parser手工构建了31条句法规则.此外, Popescu等人[29]利用MINIPAR Parser手工构建了10条依存句法抽取模板来获取评价搭配.同时,国内的姚天昉等人[47]基于依存句法分析总结出“上行路径”和“下行路径”的匹配规则;后续总结出SBV极性传递规则,用于评价搭配的识别.可以看出,他们的工作融入了更多对评价对象和评价词语之间深层关系的挖掘.然而,由于匹配规则或模板的制定参与了过多的人工,覆盖率较低.因此,在未来工作中我们应该侧重于研究自动生成评价对象和评价词语之间的匹配规则的策略.2 情感信息分类情感信息的分类任务可大致分为两种,一种是主、客观信息的二元分类;另一种是主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类[48].赵妍妍等:情感倾向性分析纵览2.1 主客观信息分类在对情感文本进行情感分析时,往往由于情感文本中夹杂着少量的客观信息而影响了情感分析的质量[49],因此将情感文本中的主观信息和客观信息进行分离变得非常必要.由于情感文本单元表现格式比较自由,且区分主、客观文本单元的特征并不明显,在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度.一部分学者通过考察文本内部是否含有情感知识(具体表现为第1部分情感信息抽取的结果)来完成主客观信息分类[14,50].然而,我们发现许多客观句中也可能会包含评价词语,如客观句“这位英雄名叫张三丰”同样含有评价词语“英雄”.为了更大程度上消除歧义性,很多学者挖掘并使用情感文本中的组合评价单元,如 1.4节中提到的“主观表达式”, “评价短语”和“评价搭配”等组合信息.此外,还有学者[12]构建情感模板识别情感文本的主客观性(如贬义模板:“<x> drives <y> up the wall”).以上这些基于情感知识的主客观分类方法的工作重心在于情感文本中情感知识的挖掘,以及各种情感知识融合的方法研究.还有一部分学者将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性.这种方法的关键在于分类器和分类特征的选取.具体的,Hatzivassiloglou[51]使用了词语作为特征,并采用了NB (Naïve Bayes)分类器完成篇章级情感文本的主客观分类.Yao[52]着重从一些特殊的特征角度考察了主客观文本,如:标点符号角度,人称代词角度,数字角度等等.Pang[53]则采用基于图的分类算法完成句子级的主客观分类.基于特征分类的方法目前还是主客观信息分类的主流方法,这种方法定义明确,根本的问题在于特征的选取.因此,尝试使用更深层,更复杂的分类特征也许是这类方法的突破方向之所在.2.2 主观信息情感分类主观信息情感任务按不同的文本粒度可分为词语级、短语级、句子级和篇章级等.其中第1部分已经对词语级和短语级的情感分类方法进行了总结,因此本节将着重介绍句子级和篇章级的主观信息情感分类方法.一般而言,研究者将主观本文的极性分为褒义和贬义两类(Thumbs up? Thumbs down?).纵观目前的研究工作,和主客观信息分类类似,可分为两种研究思路:基于情感知识的方法以及基于特征分类的方法.相似的,前者主要是依靠一些已有的情感词典或领域词典,以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性.后者主要是使用机器学习的方法,选取大量的有意义的特征来完成分类任务.这两种研究思路有很多代表性的研究工作.文献[14,51,54-55]首先分析句子/篇章中的评价词语或组合评价单元的极性,然后进行极性加权求和.这种方法的重点一般都放在评价词语或组合评价单元的抽取和极性判断方法的研究上.在基于特征分类的方法中,Pang[56]首次将机器学习的方法应用于篇章级的情感分类任务中.他们尝试使用了n-gram 词语特征和词性特征,并对比了NB、ME和SVM(Support Vector Machine)三种分类模型,发现unigram特征效果最好.然而, Cui[57]通过实验证明,当训练语料较少的时候,unigram的效果较优,但随着训练语料的增多,n-gram(n>3)发挥了越来越重要的作用. Kim[58]除了考察传统的n-gram模型外,还引入了位置特征和评价词特征来完成句子级的褒贬分类.Zhao[59]则将句子级情感分类任务提炼为一个三层分类任务,利用各层之间类别标签的相互作用,并考虑上下句之间情感的互相影响,使用CRF模型将这些特征进行融合..类似于主客观信息分类任务,基于特征的方法的研究重点在于有效特征的发现,以及特征选择和特征融合等问题的研究.除了对主观文本信息的褒贬二元分类之外,还有一些研究工作进行更细致的情感分类任务.Pang[60]将褒贬等级分为三类,并使用了one-vs-all多元分类算法和回归分类算法完成情感分类.Goldberg[61]则使用了一种基于图的半指导的分类算法,完成评论的褒贬包括四个等级的分类.2.3 观点分类与挖掘情感分类还可以体现在对某些事件的观点分类上面.Lin[8]主要使用三种分类模型识别有关“巴以冲突”主题的评论文本所表达的观点,即是“支持巴方”还是“支持以方”.而Kim[9]主要对美国大选时涌现出来的大量的评论文章进行分类汇总,来推断大部分选民是支持“共和党”还是“民主党”.该文献同样也是使用分类器和分类特征相结合的算法,其中作者对分类特征进行了泛化,取得了较好的效果.和主观信息情感分类不同的是, “观点分类与挖掘”任务除了需要使用情感知识之外,还需要发掘一部分和“观点”相关的知识.。

文本分类 文献综述

文本分类 文献综述

文本分类文献综述文本分类是指将一段文本分配到不同的预定义类别中的任务。

它在文本数据处理中有着重要的地位,广泛应用于信息检索、情感分析、垃圾邮件过滤和自然语言处理等领域。

本文将围绕文本分类技术展开一个简要的综述。

一、文本分类的方法文本分类方法主要有基于特征、基于模型和基于深度学习等三种。

其中基于特征的方法是指将文本表示为一组特征向量,使用机器学习算法进行分类,包括词袋模型、TF-IDF模型、n-gram模型等。

基于模型的方法是指将分类视为一个优化问题,通过建立数学模型,使用统计或最优化算法求得最优解,包括朴素贝叶斯、支持向量机、决策树等。

基于深度学习的方法是指使用深度神经网络对文本进行特征学习和分类,包括卷积神经网络、循环神经网络、注意力机制等。

二、文本分类的技术瓶颈文本分类中存在一些技术瓶颈,如特征表示、数据不平衡、多语言处理等。

在特征表示方面,传统的特征表示方法很难涵盖文本中的所有信息,导致分类效果不佳,因此需提高特征表示的能力。

在数据不平衡方面,不同类别的数据量可能不均衡,导致分类器偏向于样本量较大的类别。

因此需采取数据增强、重采样等方法来增加少数类别的样本数量。

在多语言处理方面,不同语言的文本特点各异,需要对不同语言的文本进行特征表示、分类器设计等。

三、文本分类的应用文本分类在现实生活中具有广泛的应用价值。

在信息检索方面,能够帮助用户快速准确地获取所需信息。

在情感分析方面,能够在社交媒体等互联网平台上进行舆情分析,提供决策支持。

在垃圾邮件过滤方面,能够自动过滤垃圾邮件,提高邮件处理效率。

在自然语言处理方面,能够进行命名实体识别、关系抽取等任务,支持智能问答、人机对话等应用。

综上所述,文本分类技术应用广泛,存在一定的技术瓶颈,但能够通过不断优化特征表示、模型训练等方面来提高分类效果,为实现智能化应用提供技术支持。

文本情感分析综述

文本情感分析综述

文本情感分析综述文本情感分析是指对文本内容进行分析,以确定其中所包含情感的方法。

情感分析在自然语言处理领域具有广泛的应用,包括社交媒体监测、品牌管理、市场调研等。

本文将综述目前文本情感分析的技术和方法,并探讨其应用领域和存在的挑战。

一、情感分析技术和方法:1. 基于词典的方法:该方法使用预定义的情感词典,对文本中的词进行情感打分,然后通过加权求和或者分类算法来确定整个文本的情感极性。

常用的词典有SentiWordNet、AFINN等。

2.机器学习方法:该方法通过训练一个分类器,将文本分为积极、消极或中性,常用的算法有朴素贝叶斯、支持向量机、随机森林等。

3.深度学习方法:近年来,深度学习方法在情感分析中取得了显著的进展。

深度学习模型如循环神经网络(RNN)和卷积神经网络(CNN)能够对文本进行端到端的建模,包括长期依赖和局部特征提取。

二、情感分析的应用领域:1.社交媒体监测:情感分析可用于监测社交媒体上用户对特定事件、产品或品牌的态度和情感倾向,帮助公司及时了解用户的反馈和需求。

2.市场调研:情感分析可以帮助企业了解产品的市场反应和用户的需求,进而优化产品设计和营销策略。

3.品牌管理:情感分析可以帮助企业评估品牌形象和声誉,并及时发现并解决潜在的危机和问题。

4.情感分析还可应用于舆情监测、情感化以及个性化推荐等领域。

三、情感分析的挑战:1.多样性和主观性:情感分析受到文本多样性和主观性的影响,不同文化和背景下,不同人对同一词汇或句子的情感倾向可能会有差异。

2.语义理解:情感分析需要深入理解文本的上下文和语义,包括语言的隐喻、讽刺等。

这对于机器来说是一大挑战。

3.数据标注:情感分析的训练需要大量标注好情感的数据,然而标注数据是一项复杂且耗时的任务,为情感分析提供高质量的训练数据仍然是一个问题。

综上所述,文本情感分析是一项具有挑战性但应用广泛的任务。

随着技术的不断发展,我们可以期待情感分析在各个领域的更深入应用,并希望能够解决当前面临的挑战,提升情感分析的准确性和效果。

文本情感分析综述

文本情感分析综述

d o c u me n t l e v e l s e n t i me n t a n a l y s i s ,a n d t e x t s e n t i me n t na a ly s i s a p p l i c a t i o n s .I t p o i n t e d o u t t h a t t h e c u r r e n t s e n t i me n t na a ly s i s
文本 情 感 分 析 综 述
杨 立 公 , 朱 俭 , 汤世 平
( 1 . 北 京理工大学 计算机学院, 北京 1 0 0 0 8 1 ; 2 . 中国青年政治学 院 计算 机教学及应用 中心, 北京 1 0 0 0 8 9 ) (}通信作者 电子 邮箱  ̄l l g g @g ma i l . C O B)
文章编号 : 1 0 0 1 —9 0 8 1 ( 2 0 1 3 ) o 6—0 1 5 7 4— 0 5
C OD EN J YI I DU
h t t p : / / w w w. j o c a . c a
d o i : 1 0 . 3 7 2 4 / S P . J . 1 0 8 7 . 2 0 1 3 . 0 1 5 7 4
s y s t e m c a n n o t g a i n h i g l l p r e c i s i o n .F u r t h e r r e s e a r c h s h o u l d f o c u s o n : w i d e l y a n d a p p r o p r i a t e l y a p p l y i n g s t u d y a c h i e v e m e n t o f

《基于大数据的评论文本情感分析方法研究》范文

《基于大数据的评论文本情感分析方法研究》范文

《基于大数据的评论文本情感分析方法研究》篇一一、引言随着互联网技术的迅猛发展,海量的评论文本在社交媒体、电商平台、新闻资讯等网络平台上产生并传播。

对这些评论文本进行情感分析,可以了解公众对于各种话题、产品、服务等的态度和观点,从而为企业决策提供重要依据。

本文旨在研究基于大数据的评论文本情感分析方法,为相关领域的研究和应用提供参考。

二、评论文本情感分析的重要性评论文本情感分析是一种自然语言处理技术,通过对文本中的情感倾向进行识别和分类,来了解文本所表达的情感。

这种技术在市场营销、舆情监测、品牌管理等领域具有广泛应用。

通过对评论文本进行情感分析,企业可以了解消费者对产品的满意度、对服务的评价等,从而及时调整策略,提高产品和服务的质量。

三、基于大数据的评论文本情感分析方法1. 数据收集与预处理在大数据环境下,首先需要从各种网络平台上收集评论文本数据。

收集到的数据往往包含大量的噪声和无关信息,因此需要进行预处理,包括去除停用词、词干提取等步骤,以提高后续分析的准确性。

2. 文本表示文本表示是将文本数据转化为计算机可以处理的数值形式的过程。

常用的文本表示方法包括词袋模型、TF-IDF等。

这些方法可以将文本转化为向量形式,方便进行后续的机器学习和深度学习操作。

3. 特征提取与选择在文本表示的基础上,需要提取和选择有意义的特征,以供后续的情感分析使用。

常用的特征包括词频、词性、情感词等。

这些特征可以通过各种算法进行提取和选择,如TF-IDF算法、基于规则的方法等。

4. 情感分析模型构建根据提取的特征,可以构建情感分析模型。

常用的模型包括基于规则的方法、机器学习方法、深度学习方法等。

其中,机器学习和深度学习方法是近年来研究的热点。

这些方法可以通过训练大量数据来自动学习和提取文本中的情感特征,从而实现高精度的情感分析。

四、常见情感分析方法及优缺点1. 基于规则的方法:该方法通过制定一系列规则来识别文本中的情感词和短语,从而判断文本的情感倾向。

文本情感分析方法研究综述

文本情感分析方法研究综述

内容摘要
结论:文本情感分析作为一种强大的文本数据分析方法,可以帮助我们更好 地理解和识别文本中所表达的情感信息。然而,该方法也存在一些挑战和限制。 例如,对于不同领域和场景的情感分析,需要定制化的解决方案;数据清洗和预 处理对结果影响较大;模型训练和调优过程较为复杂等。未来,需要进一步研究 和改进文本情感分析方法,以适应更多场景和应用需求。
3、研究成果与不足
然而,文本情感分析仍存在一些不足。首先,情感词典的构建和维护需要大 量的人力和物力,成为制约文本情感分析发展的重要因素。其次,虽然深度学习 在文本情感分析中取得了显著成果,但大多数模型仍依赖于手工设计的特征,如 何自动地学习有效的特征是亟待解决的问题。此外,如何处理非情绪性文本和非 规范语言表达方式,以及如何处理不同语言和文化的情感分析问题,也是需要进 一步探讨的问题。
内容摘要
引言:随着社交媒体和在线平台的快速发展,人们产生和分享文本数据的数 量大幅增加。这些文本数据中蕴含着人们的观点、情感和态度,对于理解和引导 消费趋势、改善客户服务、预测市场变化具有重要的商业价值。文本情感分析作 为一种有效的文本数据分析方法,旨在挖掘这些文本数据中的情感信息,对于企 业决策、产品优化等方面具有广泛的应用。
内容摘要
目前,研究人员在情感分析方面已经取得了显著的成果。例如,利用机器学 习和深度学习算法,研究人员可以实现对文本的高效情感分类。此外,研究人员 还开发了多种情感词典和工具,如褒义词典、贬义词典和情感极性词典等,以帮 助更好地进行情感分析。
内容摘要
然而,尽管前人研究取得了不少成果,但仍存在一些不足之处。首先,情感 分析的准确性仍需进一步提高。尽管现有的机器学习和深度学习算法在许多情况 下能够取得较好的效果,但在处理某些复杂情感时仍存在一定的局限性。其次, 现有的情感词典和工具大多基于英语语言,对于其他语言尤其是小语种的情感分 析支持不够。因此,针对不同语言的特点开发相应的情感词典和工具是未来的研 究方向之一。

文本情感分析综述

文本情感分析综述

文本情感分析综述作者:刘爽赵景秀杨红亚徐冠华来源:《软件导刊》2018年第06期摘要:近年来,随着互联网和社交网络的发展,网络上文本信息迅速增长,对文本情感进行分析成为研究热点。

根据文本情感分析方法的不同,总结了近年来文本情感分析的研究进展。

将文本情感分析分为基于词典的方法和基于机器学习的方法两大类:基于词典的文本情感分析方法分为人工构建和自动构建两种;基于机器学习的文本情感分析方法分为基于贝叶斯算法、基于最大熵算法和基于SVM的文本情感分析3种。

通过梳理国内外研究现状,对两类情感分析方法进行了深入分析,对文本情感分析进行了总结和展望。

关键词:文本情感分析;词典构建;机器学习;贝叶斯算法;最大熵算法;SVMDOI:10.11907/rjdk.172640中图分类号:TP3-0文献标识码:A 文章编号:1672-7800(2018)006-0001-04Abstract:In recent years, with the development of the internet and social networks, text information on the Internet has been increased rapidly, and sentiment analysis has become a research hotspot. According to the different methods of sentiment analysis, the research progress of sentiment analysis in recent years is summarized.Sentiment analysis is divided into dictionary-based methods and machine learning-based methods. The dictionary-based sentiment analysis methods are divided into two kinds: artificial construction and automatic construction. Machine learning-based sentiment analysis methods are divided into three kinds based on Bayesian algorithm, based on maximum entropy algorithm and sentiment analysis based on SVM. Through the research status at home and abroad, two kinds of sentiment analysis methods are deeply analyzed, and the sentiment analysis is summarized and forecasted.Key Words:sentiment analysis; dictionary construction; machine learning; Bayesian algorithm; maximum entropy algorithm; SVM0 引言近年来,随着互联网和移动互联网的飞速发展,文本情感分析已经广泛应用于多个领域。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web文本情感分类研究综述王洪伟/刘勰/尹裴/廖雅国2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sen time nt Classificati on on Web Text【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwa ng@t on .c n 。

同济大学经济与管理学院,上海200092;刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。

同济大学经济与管理学院,上海200092;尹裴,女,1986年生,硕士研究生,研究方向:商务智能。

同济大学经济与管理学院,上海200092;廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。

香港理工大学电子计算学系,香港【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。

为此,本文对Web文本情感分类的研究进行综述。

将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。

其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。

分析了情感分类中的语料库选择和研究难点。

最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Webcan help us to identify users' implicitsen time nts and find the evoluti on laws of their emoti on. To this end, this paper is a survey about the sen time nt classificati on on the Web text. We divided the process of classificati on into three categories:subjective and objective classification,polarity iden tificati on and in ten sity ide ntificati on and respectively summarize the rese nt research achieveme nts in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural Ianguage processing. What is more, the choice of corpus and pote ntial research problems are discussed. At last, this paper summarized the status quo of applicatio n and poin ted out the direct ion of future research.【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classificati on/Survey/Subjective text随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。

特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。

这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。

如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。

所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。

其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。

因此,情感分析的一个重要问题就是情感倾向性的判断,即判断作者的观点是褒义的、积极的,还是贬义的、消极的。

这类问题也被称为情感分类(sentiment classification) 。

在已有的研究中,情感分类也被称为意见挖掘(opi nion mi nin g)[1,2] 。

为了表述一致,本文统称为情感分类。

情感分类涉及多个领域,如自然语言处理、人工智能、自动文本分类、文本挖掘、心理学等。

它不同于传统的基于主题自动文本分类,后者分类的依据是文本的主题,如属于军事类还是体育类,而情感分类主要用来判别自然语言文字中表达的观点、喜好以及与感受和态度等相关的信息[3]。

由于Web文本是以非结构化形式存在的,因此对文本进行情感分类是一个复杂的过程,包括:主客观文本分类、情感极性判别、情感强度判别。

前者是情感分类的预处理工作,后两者才是真正意义上的情感分类。

为了避免混淆,我们将后两者统称为情感识别(见图1)。

图1描述了从原素材到得出情感结果的整个情感分类过程。

其中,原素材中的文本可以是句子或者是整篇文章,它们所对应的分类任务分别为句子情感分类和文档情感分类。

为了减少干扰,提高情感分类的精度,首先要对文本进行主观性识别,即主客观文本分类。

只有带有主观色彩的文本才会蕴含着作者的情感,所以情感识别的对象是主观文本。

情感识别分为极性判别和强度判别两个任务。

极性分类是识别主观文本的情感是正面的赞赏和肯定还是负面的批评与否定。

而强度判别则是判定主观文本情感倾向性强度,比如强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。

在整个情感分类过程中,还涉及分类前的预处理技术,包括分词、词性标注、平滑、停用词和缩词的处理等语言处理技术,这些技术相对成熟,不再赘述。

下面从主客观文本分类和情感识别两个方面来总结情感分类的研究现状。

所谓“主观性”是指在自然语言中用来表达意见和评价的语言特性[4]。

主观性文本表达的是说话者对某人、某物或某事的态度和看法,包含个人的主观情感色彩。

与之相对应的客观性文本则描述客观存在的事实,说话者往往持有中立和客观的情感。

在表述上,主客观文本也有明显的差异,客观性文本通常采用比较正式的陈述句,而主观性文本因为强调自我表达,表述上比较自由,偏口语化,比如“这款手机酷毙啦!”。

主客观文本分类研究已经展开,并应用在信息检索和信息抽取等领域[5]。

主客观文本分类与其他文本分类类似,可以从篇章、句子和词语三个层面展开,用到的方法主要是机器学习算法。

Wiebe等很早就对主客观文本分类问题进行了研究[4〜11]。

Wiebe和Bruce 将某些词类(代词、形容词、基数词、情态动词和副词)、标点和句子的位置作为特征值,设计了针对句子级别的NB分类器⑹。

在此基础上,Wiebe[5]又将某些词性和基于词典的语义词作为特征项,显著提高了分类器的分类效果。

Wiebe 和Wilson还针对基于篇章层面的分类方法进行了研究[7]。

通过计算每篇文档中出现的主观性词语数量,用KNN分类器来判断篇章的主客观性,取得了较好效果。

图1情感分类的主要过程Yu等利用三种统计方法进行主客观句的识别研究,包括相似性方法、NB分类和多重NB分类。

其中NB分类器在原有研究的基础上采用词、2-gram、3-gram 和词类、具有情感倾向的词序列、主语和其直接修饰成分等作为特征项,对主观句识别的查准率和查全率达到了80%- 90%[12]。

Pang和Li将句子间的情感联系作为分类的一个重要因素,用最小图割(Minimum cuts)的方法来寻找上下文语句的关系以提高分类精度。

它的划分原理是使成本公式最小:L + 工indi (x ) + 2 assoc (x v x^)r其中%句子,G是类别冷羁(切指单根据瓠的特征将其划分为/类的偏好得分(x h x k)指斷和埶属于同一类的得分旧。

中文语境下主客观文本分类具有一定的复杂性,而且对中文主观性文本的判别起步较晚,大多数情感分析研究都是人为抽取主观性文本。

林斌将影视内容介绍和影视评论分别视为客观文本和主观文本,采用互信息量(Ml, Mutual Information)计算影视评论中每个词语的互信息量,并由大到小排序,取最靠前的275个词语,并将它们两两组合,再计算每对组合在影视评论中的互信息量,最后得到“我想”“我应该”等具有主观倾向的75个词语组合,并将其用于句子主客观性的判断,总体的准确率达到了78.42%[14]。

叶强和张紫琼等提出一种根据连续双词词类组合模式(2-POS)自动判别句子主客观性程度的方法。

首先在N-POS语言模型的基础上,利用CHI统计方法提取中文主观文本词类组合模式,利用这些组合模式给每个句子赋以主观性得分,将得分高于设定阈值的句子判定为主观性文本。

实验表明,当阈值为0.12时,主观文本的分类查准率和查全率能达到76%[15]。

需要指出,由于中英文语言结构及中西方文化的差异,使得中文的情感流露方式具有特殊性和复杂性,这给中文文本的情感分析带来挑战。

与英文文本多都应用机器学习不同,中文文本的主客观分类主要采取语义方法,而且分类效果也不够理想,相比于英文能达到90%左右的精度,中文的研究分类精度还不够高。

这主要由于影响中文文本主客观判断的因素远远比英文多而复杂,除了词义、词性之外,词语的用法也会影响到文本的主客观性质。

因此在今后中文文本主观性判别研究中,除了引入机器学习算法外,还要注意考虑中文词法和句法的特殊功能。

另外,一些研究将主客观分类和褒贬情感分类同时看作三分类问题,将文本分成为“褒义”、“贬义”、“客观”。

前两类归为主观文本,后者视为客观文本。

王根和赵军指出这种观点忽略了两个任务所用特征的不同,即将主客观和褒贬极性的特征夹杂在一起,影响了分类效果[16]。

本文认为,主客观分类中的“客影耗资两亿,将于明天在上海万达影城上演首映”;“这部电影整体上还算四平八稳,跟我的预期有点差距,但也不算失望”。

前一句是陈述客观事件,是客观文本。

而后一句显然是作者的主观评价,却不带有明显的褒或贬。

因此对它的分类过程是:首先将其归为主观性文本,然后通过情感分析再归为情感类别中的“客观”(或“中立”)类。

所以,非褒非贬并不是作者没情感,而是情感倾向并不明显,持中立态度。

如果将双分类任务看成一个多分类问题的话,会错误地把带有主观性但情感倾向不明显的文本分类为客观性文本,影响情感分类的科学性。

相关文档
最新文档