文本情感分析综述

文本情感分析综述
文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。

文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。

情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。

1 基于统计机器学习法

随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

档,并采用Support Vector Machine进行分类,来区分带有正面和负面评论的文档。Feizhongchao[3]等利用句子短语模式对文本的情感倾向进行分类,主要通过构造文本中的每个句子短语模式计算情感倾向得分。Ni等利用CHI和信息增益进行特征选择,并采用NB、SVM和Rocchio’s算法对情感分类[8]。Cui等利用PA(Passive Aggressive)、LM(Language Modeling)和Winnow分类器,并比较了她们的性能[9]。

在英文评论领域,研究者已经初步取得一些成果,而针对中文网络用户评论的研究仍还处于起步阶段。随着中国电子商务在世界领域内的崛起,亟需对于中文评论中有用信息的自动提取技术。

对于利用机器学习的方法进行中文的情感分析,由于机器学习方法的通用性,面向英文的很多方法都可以借鉴。近几年国内研究人员在此方面也取得一些成果,唐慧丰等人[10]还特别针对各种情感分类技术包括面向中文文本的方法进行了总结和比较。

2005年,叶强[4,5]等人从文本中抽取主观性的信息,并赋予相应的权值,根据权重构造倾向分类器。蔡健平等人[6]提出的基于机器学习的词语和句子极性分析,该方法通过构建极性词典来分析领域极性词,同时采用基于词的方法和Bayes方法对网上手机评论文章包含的主观意见进行褒贬挖掘,取得了一定的成果。李艺红,蒋秀凤在文献[12]中采用SentWordNet构建中文倾向性词表,通过剔除停用词等降低句子向量的维数,以此来提高句子向量化速度,然后利用支持向量机分类器进行句子倾向性判断,最后提出两种新的置信度计量方法对倾向性句子进行排序。实验结果表明,构建的识别系统在一定程度上能有效识别倾向性句子。白鸽,左万利等在文献[13]中针对汉语评论的多种特征使用机器学习方法(如贝叶斯、最大熵和支持向量机),解决了汉语评论的情感分类问题。实验结果表明,机器学习方法对汉语评论的分类效果较好,支持向量机的表现最好。句子级别和评论级别的准确率分别达到88.26%和91.79%。随着研究进展的深入,逐渐出现一些研究者结合不同分类方法进行情感计算。郭明等在针对新闻报道情感分析中将机器学习中的经典分类方法与规则方法相结合,通过支持向量机分类器来研究特征选择方法及特征权重计算方法的组合进行实验以分析新闻语音文本的情感倾向,并判断其强弱[14]。

并且,近年来有关自然语言处理、人工智能、信息检索、数据挖掘以及Web应用等领域的多个国际顶级会议(AAAI、ACL、SIGIR等)都收录了文本情感倾向分析的相关论文。

机器学习的方法虽然在目前来讲分类的准确程度比较高,但是它针对每一种产品使用前,训练样本集的建立都需要采用人工方法对大量的评论文章逐一阅读甄别,并进行手工标志,这与利用自动情感分类降低人的阅读负担这一初衷还有着一定的差距。因此,近来许多研究者将情感分析研究的重点集中在对训练样本的需求量较低的语义方法上。

2、基于语义的方法

最初学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词

[10-12].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[13-16].此外,一些学者[17]沿用了Turney等人的点互信息的方法[9],通过计算WordNet中的所有形容词与种子褒义词代表good和贬义词bad之间的关联度值来识别出评价词语情感倾向。

2002年,Turney在其论文[15]中介绍了基于语义倾向的非监督文本分类方法。根据褒贬含义的倾向信息对评论性文章进行分类,其分类结果更符合人们对评论性文章分类的实际需求。Pang提出了对语义倾向分类结果进行后续处理,进一步将分类结果按照语义倾向强度

进行细分的方法,并通过一系列的实验证明了其方法的可行性[16]。

2004 年,Hu [17]等人首先提出应用关联规则分类方法提取英文评论中的产品特征,利用该非监督型方法对于包括手机、数码相机等产品评论进行挖掘,平均查全率达到80%,平均查准率达到72%,并在此基础上进行了后续的研究[18],判断了用户对这些特征的情感导向。Popescu 等人[19]利用研发的KonwItAll 系统进行贝叶斯分类,从而提取产品特征,提高Hu 的准确率,但是查准率却有所下降。刘健等人[21]提出与产品特征挖掘并考虑产品特征的情感倾向这两个功能类似的意见实例抽取(opinion instance extraction) 需要建立相关的

领域知识;Kobayashi 等人[20]采用了一个半自动化的循环方法提取产品特征和用户观点,但是需要大量的人工参与。

以上研究都是针对于词语的情感分类,利用已有的电子词典或词语知识库扩展生成情感倾向。英文词语情感倾向信息的获取主要是在General Inquirer和WordNet的基础上进行的研究;Peter[23]最早提出将点互信息( pointwise mutual information) 与信息检索方法( information retrieval) 相结合,借助搜索引擎的后台数据库获得语义倾向信息,得到汽车评论的准确率是84%,电影评论的准确率是66% 。其可靠性已经在英文客户情感分类的研究中得到了初步的验证。而中文词语情感倾向信息的获取依据主要有HowNet,但是还是处于研究阶段。2006年,复旦大学朱嫣岚等基于HowNet[24],提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,这两种方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。党蕾,张蕾在文献[25]中提出采用否定模式匹配与依存句法分析相结合的方法。研究分析了修饰词极性以及否定共享模式,确定修饰词以及扩展极性的定量和否定共享范围,提出依存语法距离的影响因素来计算情感倾向,并且在否定模式匹配后改进句子极性算法。实验结果表明该方法取得了良好的效果。

因此,对于文档的情感倾向分析研究逐渐成为研究者新的起点。Ye 等人[29]探索了中文环境下对于文档的情感分析理论与方法,在PMI-IR 方法的基础上,初步建立了中文语义倾向情感分析方法,获得了接近英文同类研究的分析结果,显示出该方法在中文情感分析上的应用前景。熊徳兰等人[28]提出了基于知网的语义距离和语法距离相结合的句子褒贬倾向性计算方法,利用夹角余弦法对语义倾向进行了改进。何婷婷等[30]基于HowNet的语义相似度计算的基础上,提出了一种改进的基于语义理解的文本情感分类方法来判定文本的情感倾向性。文中引入了情感义原的概念,同时考虑文本中否定副词和程度副词对词语的影响强度值,最后综合统计判定文本的情感倾向性。实验选取435篇关于照相机、笔记本和手机三个领域的评论文档进行研究,得出当知网义原和情感义原的权重分别是0.7和0.3时,平均准确率可以达到0.8393,文本的情感分类准确率可以达到比较理想的结果。

除此之外,也陆续出现了一些利用语义倾向分析技术开发的商业智能系统,如NEC公司Kusha等人开发的的Reviewseer,通过对评价性文章的语义倾向分析,为商品的受欢迎程度进行打分评价,该评价结果是极具价值的商业信息[26]。Bing Liu在其论文[27]中介绍了商用产品信息反馈系统Opinion Observer,利用网络上丰富的顾客评论资源,进行商品的市场反馈分析,为生产商和消费者提供针对商品各个特性的网络评价报告。

3、情感分析的资源建设

3.1 情感分析的语料

随着互联网上带有情感色彩的主观性文本的增多,情感分析越来越受到学者和研究机构的关注。近年来,为了推动情感分析技术的发展,国内外一些机构和个人构建了一些一定规模的语料库,供研究者使用。

(1)康奈尔(Cornell)大学提供的影评数据集[31]:由电影评论组成,其中持肯定和否定态度

的各l 000篇;另外,还有标注了褒贬极性的句子各5331句,标注了主客观标签的句子各5 000句。目前,影评库被广泛应用于各种粒度如词语、句子和篇章级的情感分析研究中。

(2)

参考文献

1. PANG B O,LEE L,V AITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]/ / Proc of Conference on Empirical Methods in Natural Language Processing.Morristown,NJ: Assuciation for Computational Linguistics,2002: 79-86.

2.赵妍妍,秦兵等.文本情感分析[J].软件学报,2010,21(8)

3. Fei Z C, Liu J, Wu G F. Sentiment classification using phrase patterns[C] // Proceeding of the Fourth International Conference on Computer and Information Technology. 2004: 1 147-1 157.

4.Ye Q, ShiW, LiY J. Sentiment classification for reviews: comparison between SVM and semantic approaches[C] // The Fourth International Conference onMachine and Cybernetics. Guangzhou: [s. n. ], 2005: 2 341-2 346.

5.YeQ, ShiW, LiY J. Sentimentclassification formovie reviews in Chinese by improved semantic oriented approach[C] //Proceedings of the 39thHawaii InternationalConference on System Sciences, 2006: 53-60.

6.蔡健平,王琳琳,林世平.基于机器学习的词语和句子极性分析[c]t/中国人工智能学会第12届全国学术年会论文集:上集.北京:北京邮电大学出版社,2007.

7.Pang B ,Lee L. A sentimental education Sentiment analysis using subjectivity summarization based onminimum cuts[C]∥Proc. of the 42th Meeting of the Association for Computational Languages .Barcelona ,Spain ,2004:271-278

8.Ni X ,Xue G,Ling X ,et al. Exploring in the Weblog space by detecting informative and affective articles[C]∥Proc .of the16th Int’l.Conf .on World Wide Web,2007:281-290.

9.Cui H ,Mittal V ,Datar M .Comparative experiments on sentiment classification for online product reviews [C]//Proc .of the 21th National Conf .on Artificial Intelligence (AAAI-06), Boston,USA,2006

10.唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21( 6) :55-94.

11.Casey Whitelaw,Navendu Garg and Shlomo Argamon.Using appraisal groups for sentiment analysis[A].In:Proceedings of CIKM-05,14th ACM International Conference on Information and Knowledge Management[C].Bremen,DE.625-631.

12. 李艺红,蒋秀凤《中文句子倾向性分析》

13. 白鸽,左万利等.使用机器学习对汉语评论进行情感分类[J].吉林大学学报,2009,47(6)

14. 郭明,柴玉梅等.新闻报道文本的情感倾向性研究[J].计算机工程,2010,36(15)

15. Tumey Peter.Thumbs Up Or Thumbs Down?Semantic Orientation Applied to Unsupervised Classification of Reviews[A].In:proceeding of the 40th Annual Meeang of the Association for Computational Linguistics[C].2002:417—424.

16. Bo Pang,Lillian Lee.Seeing Stars..Exploiting Class Relationships for Sentiment Categorization with respect to Rating Scales[A].ACL2005,115—124.

17. HU Ming-qing,LIU Bing.Mining and summarizing customer reviews[C]/ /Proc of the 10th ACM SIGKDD International Conference on

18.Knowledge Discovery and Data Mining.New York: ACM Press,2004: 168-177.

LIU Bing,HU Ming-qing,CHENG Jun-sheng.Opinion observer: analyzing and comparing opinions on the Web[C]/ / Proc of the 14th International Conference on World Wide Web.New York: ACM Press,2005: 342-351.

19. POPESCU A M,ETZIONI Q. Extracting product features and opinions from reviews[C]//Proc of HLT-EMNLP.Morristown,NJ: Association for Compatational Linguistics,2005: 339-346.20.KOBAYASHI N,INUI K,MATSUMOTO Y,et al.Collecting evaluative expressions for opinion extraction[C]/ / Proc of the 1st International Joint Conference on Natural Language Processing. Berlin:Springer,2005: 596-605.

21. LIU Jian,WU Geng-feng,Y AO Jian-xin.Opinion searching in multiproduct reviews[C]/ / Proc of the 6th IEEE International Conference on Computer and Information Technology.Washington DC: IEEE Computer Society,2006: 25-30.

22. SHI Bin,CHANG Kui-yu.Mining Chinese reviews[C]/ /Proc of the

6th IEEE International Conference on Data Mining.Washington DC:IEEE Computer Society,2006: 585-589.

23. Turney P D, LittmanM L. Measuring praise and criticism inference of semantic orientation from association[J]. ACM Transactions on Information Systems, 2003, 21(4): 315-346.

24.朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中文信息学报, 2006, 20(1): 14-20.

25.党蕾,张蕾.一种基于知网的中文句子情感倾向判别方法[J].计算机应用研究,2010,27(4)

26. K Dave,S Lawrence,DM Pennock.,Mining the peanut gallery:opinion extraction and semantic classification of product review[A].WWW2003,519-528.

27.Bing Liu,Minqing Hu,Junsheng Cheng.Opinion observer.anayzing and comparing opinions on the Web[A].WWW2005,324—351.’

28熊德兰,王爽,张泊平.基于HowNet的句子褒贬倾向性计算[c]//中国人工智能学会第12届全国学术年会论文集:上集.北京:北京邮电大学出版社,2007.

29YE Qiang,SHI Wen,LI Yi-jun.Sentiment classification for movie reviews in Chinese by proved semantic oriented approach[C]// Proc of the 39th Annual Hawaii International Conference on System Sciencesi,2006.Washington DC: IEEE Computer Society,2006: 1-5.

31 http://https://www.360docs.net/doc/e34342718.html,/people/pabo/movie-review-data/[DB/OL]

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.360docs.net/doc/e34342718.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

情感分析简述

情感分析简述 分类:NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处 (https://www.360docs.net/doc/e34342718.html,/s/blog_48f3f8b10100irhl.html)。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(https://www.360docs.net/doc/e34342718.html,/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(https://www.360docs.net/doc/e34342718.html,/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则/无监督学习

文本情感分析论文总结

文本情感分析 赵妍妍,秦兵,刘挺- 软件学报, 2010 - https://www.360docs.net/doc/e34342718.html, 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。 情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。 一、情感信息抽取(评价词语、评价对象、观点持有者) 1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。 2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评 价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。 3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做 序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。 4.组合评价单元的抽取: 主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。 二、情感信息分类 1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于 分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图); 2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语 特征和词性特征、位置特征、评价词特征)。 三、情感信息的检索与归纳 1.情感信息检索 2.情感信息归纳 基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。 基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。 基于新闻评论的文摘 四、情感分析的评测与资源 1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析), 国内的COAE。 2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料, Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。 3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英 文),HowNet评价词词典(简体中文、英文) 问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP 算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。

图1 情感分析五要素 举例如下图: 图2 情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

文本情感分析

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/e34342718.html, Journal of Software, V ol.21, No.8, August 2010, pp.1834?1848 https://www.360docs.net/doc/e34342718.html, doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563 ? by Institute of Software,the Chinese Academy of Sciences. All rights reserved. 文本情感分析 ? 赵妍妍+ , 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨150001) Sentiment Analysis ZHAO Yan-Yan + , QIN Bing, LIU Ting (Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: E-mail: yyzhao@https://www.360docs.net/doc/e34342718.html, Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834?1848.https://www.360docs.net/doc/e34342718.html,/ 1000-9825/3832.htm Abstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field,making detailed comparison and analysis. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信 息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分 析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前 沿进展进行概括、比较和分析. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391 文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯 的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sen time nt Classificati on on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwa ng@t on https://www.360docs.net/doc/e34342718.html,.c n 。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 Analyzing the users' reviews on the Webcan help us to identify users' implicit

sen time nts and find the evoluti on laws of their emoti on. To this end, this paper is a survey about the sen time nt classificati on on the Web text. We divided the process of classificati on into three categories:subjective and objective classification,polarity iden tificati on and in ten sity ide ntificati on and respectively summarize the rese nt research achieveme nts in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural Ianguage processing. What is more, the choice of corpus and pote ntial research problems are discussed. At last, this paper summarized the status quo of applicatio n and poin ted out the direct ion of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classificati on/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分析的一个重要问题就是情感倾向性的判断,即判断作者的观点是褒义的、积极的,还是贬义的、消极的。这类问题也被称为情感分类(sentiment classification) 。

文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。 情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。 1 基于统计机器学习法 随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

开题报告(文献综述)-在线评论分析系统的情感分析

开题报告(文献综述)-在线评论分析系统的情感分析本科毕业设计(论文)开题报告 论文题目在线评论分析系统的情感分析开题报告内容: 一、选题的背景及意义 近年来,在“大数据”(Big Data)时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息,尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。 然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行 收集、处理和分析。因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。 文本情感分析,也称为意见挖掘(Opinion Mining),是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域,在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。进入21 世纪以后,情感分析这个领域变得活跃起来,吸引越来越多的学者投入其中。目前

语音情感识别研究进展综述_韩文静

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/e34342718.html, Journal of Software,2014,25(1):37?50 [doi: 10.13328/https://www.360docs.net/doc/e34342718.html,ki.jos.004497] https://www.360docs.net/doc/e34342718.html, +86-10-62562563 ?中国科学院软件研究所版权所有. Tel/Fax: ? 语音情感识别研究进展综述 韩文静1, 李海峰1, 阮华斌2, 马琳1 1(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001) 2(清华大学计算机科学与技术系,北京 100084) 通讯作者: 韩文静, E-mail: hanwenjing07@https://www.360docs.net/doc/e34342718.html, 摘要: 对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识 别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究 人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋 势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析. 关键词: 人机交互;情感计算;情感描述模型;情感语音库;情感声学特征;语音情感识别 中图法分类号: TP391文献标识码: A 中文引用格式: 韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述.软件学报,2014,25(1):37?50.https://www.360docs.net/doc/e34342718.html,/ 1000-9825/4497.htm 英文引用格式: Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software, 2014,25(1):37?50 (in Chinese).https://www.360docs.net/doc/e34342718.html,/1000-9825/4497.htm Review on Speech Emotion Recognition HAN Wen-Jing1, LI Hai-Feng1, RUAN Hua-Bin2, MA Lin1 1(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) 2(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Corresponding author: HAN Wen-Jing, E-mail: hanwenjing07@https://www.360docs.net/doc/e34342718.html, Abstract: This paper surveys the state of the art of speech emotion recognition (SER), and presents an outlook on the trend of future SER technology. First, the survey summarizes and analyzes SER in detail from five perspectives, including emotion representation models, representative emotional speech corpora, emotion-related acoustic features extraction, SER methods and applications. Then, based on the survey, the challenges faced by current SER research are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, and presents detailed comparison and analysis between these methods. Key words: human-computer interaction; affective computing; emotion representation model; emotional speech corpora; emotion-related acoustic feature; speech emotion recognition 人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能 够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力.自动语音情感识别则是计算机对人类 上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些 声学特征与人类情感的映射关系.计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然 ?基金项目: 国家自然科学基金(61171186, 61271345); 语言语音教育部微软重点实验室开放基金(HIT.KLOF.2011XXX); 中央 高校基本科研业务费专项资金(HIT.NSRIF.2012047) 收稿时间:2013-05-08; 定稿时间: 2013-09-02; jos在线出版时间: 2013-11-01 CNKI网络优先出版: 2013-11-01 13:49, https://www.360docs.net/doc/e34342718.html,/kcms/detail/11.2560.TP.20131101.1349.001.html

面向理解的文本情感分析研究

面向理解的文本情感分析研究 伴随着互联网的飞速发展,用户使用网络的方式悄然转变。用户 正在从单纯的信息获取者成为信息的发布者。这种转变使得大量带有个人情感的信息在网络中传播、发酵、聚集,并作用于真实社会。如 何对网络中的情感信息进行分析和理解是自然语言处理研究的重要 课题,同时,相关技术也具有广泛的应用。目前情感分析的相关研究取得了很大进展,但是依然存在一些问题:第一、在数据层面,对于面向 具体语言或领域的标注数据不足,往往影响了情感分析系统的性能。 针对这一问题,基于迁移学习的情感分析方法取得了一定的进展,但 是相关研究对于数据迁移过程中的错误累积以及由此引起的负面迁 移现象缺乏深入的研究,导致基于迁移学习的情感分析性能受到制约。第二、在语义层面,目前主流的基于表示学习的情感分析方法往往将 情感文本和情感要素作为多个孤立的研究对象,缺乏统一的计算体系 对这些对象之间的潜在语义关系进行分析和理解,影响细粒度情感分 析性能的同时,也阻碍了对文本情感理解的深入。第三、在认知层面,目前的文本情感分析研究大多数集中在对文本情感表达的分析,但对 于如何发现文本中所蕴含的情感产生原因缺乏系统地研究,阻碍了面 向理解的情感分析研究的深入。针对上述三个层面的问题,本文主要 进行了以下的研究工作:在数据层面,针对样例迁移过程中的负面迁 移问题,本文提出了一种基于高斯分布负面迁移检测的情感分析方法。该方法一方面通过基于高斯分布的类噪声估计结果对迁移过程中可 能误选的错误样本进行检测和筛选,另一方面利用类噪声估计的结果

对当前分类器进行基于近似可学习理论的性能估计,从而预估当前迁移周期之后分类器的性能变化趋势,以避免负面迁移的产生。在跨语言和跨领域情感分析数据集上的实验结果显示,基于高斯分布负面迁移检测的方法可以有效地迁移来自其他语言和领域的标注数据,有效提高了目标语言和目标领域情感分析的性能。分析显示,基于高斯分布负面迁移检测方法性能优于其他典型样例迁移方法,同时该方法可以保证分类器性能的总体上升趋势。对基于高斯分布负面迁移检测方法的理论分析显示,该方法受到稠密的数据分布以及数据先验知识要求的制约。为此,本文提出了一种基于拉德马赫和分布的类噪声估计算法。这一算法利用最大熵对噪声的先验分布进行约减,并使用拉德马赫和分布替代高斯分布进行类噪声的估计,从而规避了对稠密数据分布以及数据先验知识的要求。在此基础上,提出了一种基于类噪声估计结果的损失函数修正算法,通过理论分析证明了在训练数据足够多的前提下该算法的收敛性。在面向跨语言和跨领域的情感分析数据集上的实验结果显示,基于拉德马赫和分布的负面迁移检测方法比目前主流方法性能更为可靠,进一步提高了跨语言和跨领域情感分析的准确性与通用性。这一结果也显示在数据层面上进行迁移学习对提高文本情感分析性能的有效性。在语义层面,针对现有基于表示学习的情感分析方法往往将词语语义表示、情感持有者语义表示、情感对象语义表示作为孤立表示任务的不足,本文提出了一种面向多源异质信息的统一语义表示方法。通过构建基于共现统计信息的多源异质网络,对情感词语、情感持有者、情感对象之间的潜在关系进行基于网络结

相关文档
最新文档