Web文本情感分类研究综述

Web文本情感分类研究综述
Web文本情感分类研究综述

情报学报 

ISSN1000-0135

第29卷第5期931-938,2010年10月

JOURNALOFTHECHINASOCIETYFORSCIENTIFIC

ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010

收稿日期:2009年6月29日

作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。

1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。

doi:10.3772桙j.issn.1000-0135.2010.05.023

Web文本情感分类研究综述

1)

王洪伟1

 刘 勰1

 尹 裴1

 廖雅国

(1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港)

摘要 对用户发表在Web上的评论进行分析,

能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

关键词 Web文本 情感分类 综述 主观性文本

LiteratureReviewofSentimentClassificationonWebText

WangHongwei1

,LiuXie1

,YinPei1

andLiuN.K.James

(1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong)

Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution

lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity

identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof

naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper

summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch.

Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信

息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如

对某部大片的影评,对某款手机的用户体验等,其中

蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的

139—

匿举料

千摹瑚摹章溥藁千猫、晖覃章,隍瀑躺溯浔篥碍凿

\J\O\。J\一5

|Dl_√

态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分析的一个重要问题就是情感倾向性的判断,即判断作者的观点是褒义的、积极的,还是贬义的、消极的。这类问题也被称为情感分类(sentimentclassification)。

1 文本情感分类概述

在已有的研究中,情感分类也被称为意见挖掘(opinionmining)[1,2]

。为了表述一致,本文统称为情感分类。情感分类涉及多个领域,如自然语言处理、人工智能、自动文本分类、文本挖掘、心理学等。它不同于传统的基于主题自动文本分类,后者分类的依据是文本的主题,如属于军事类还是体育类,而情感分类主要用来判别自然语言文字中表达的观点、喜好以及与感受和态度等相关的信息

[3]

。由于Web

文本是以非结构化形式存在的,因此对文本进行情

感分类是一个复杂的过程,包括:主客观文本分类、情感极性判别、情感强度判别。前者是情感分类的预处理工作,后两者才是真正意义上的情感分类。为了避免混淆,我们将后两者统称为情感识别(见图1)。

图1 情感分类的主要过程

图1描述了从原素材到得出情感结果的整个情感分类过程。其中,原素材中的文本可以是句子或者是整篇文章,它们所对应的分类任务分别为句子情感分类和文档情感分类。为了减少干扰,提高情感分类的精度,首先要对文本进行主观性识别,即主客观文本分类。只有带有主观色彩的文本才会蕴含着作者的情感,所以情感识别的对象是主观文本。情感识别分为极性判别和强度判别两个任务。极性分类是识别主观文本的情感是正面的赞赏和肯定还是负面的批评与否定。而强度判别则是判定主观文本情感倾向性强度,比如强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。

在整个情感分类过程中,还涉及分类前的预处

理技术,包括分词、词性标注、平滑、停用词和缩词的处理等语言处理技术,这些技术相对成熟,不再赘述。下面从主客观文本分类和情感识别两个方面来总结情感分类的研究现状。

2 主客观文本分类现状

所谓“主观性”是指在自然语言中用来表达意见

和评价的语言特性

[4]

。主观性文本表达的是说话者

对某人、某物或某事的态度和看法,包含个人的主观情感色彩。与之相对应的客观性文本则描述客观存

在的事实,说话者往往持有中立和客观的情感。在表述上,主客观文本也有明显的差异,客观性文本通常采用比较正式的陈述句,而主观性文本因为强调自我表达,表述上比较自由,偏口语化,比如“这款手机酷毙啦!”。

主客观文本分类研究已经展开,并应用在信息检索和信息抽取等领域[5]

。主客观文本分类与其他

文本分类类似,可以从篇章、句子和词语三个层面展开,用到的方法主要是机器学习算法。Wiebe等很早就对主客观文本分类问题进行了

研究

[4~11]

。Wiebe和Bruce将某些词类(代词、形容

词、基数词、情态动词和副词)、标点和句子的位置作为特征值,设计了针对句子级别的NB分类器

[6]

在此基础上,Wiebe[5]

又将某些词性和基于词典的语义词作为特征项,显著提高了分类器的分类效果。

Wiebe和Wilson还针对基于篇章层面的分类方法进

行了研究[7]

。通过计算每篇文档中出现的主观性词语数量,用KNN分类器来判断篇章的主客观性,取得了较好效果。

Yu等利用三种统计方法进行主客观句的识别研究,包括相似性方法、NB分类和多重NB分类。其中NB分类器在原有研究的基础上采用词、2-gram、3-gram和词类、具有情感倾向的词序列、主语

239—

情报学报 第29卷 第5期 2010年10月

和其直接修饰成分等作为特征项,对主观句识别的查准率和查全率达到了80%~90%

[12]

Pang和Li将句子间的情感联系作为分类的一个重要因素,用最小图割(Minimumcuts)的方法来寻找上下文语句的关系以提高分类精度。它的划分原理是是使成本公式最小:∑

x∈C

ind2(x)+

x∈C

ind1(x)

xi

∈C1

,xk

∈C

assoc(xi,xk),其中x句子,Ci是类别,

indj(xi)指单根据xi的特征将其划分为j类的偏好得分,assoc(xi,xk)指xi和xk属于同一类的得分

[13]

中文语境下主客观文本分类具有一定的复杂性,而且对中文主观性文本的判别起步较晚,大多数情感分析研究都是人为抽取主观性文本。

林斌将影视内容介绍和影视评论分别视为客观文本和主观文本,采用互信息量(MI,mutualinformation)计算影视评论中每个词语的互信息量,

并由大到小排序,取最靠前的275个词语,并将它们两两组合,再计算每对组合在影视评论中的互信息量,最后得到“我想”“我应该”等具有主观倾向的75个词语组合,并将其用于句子主客观性的判断,总体的准确率达到了78畅42%

[14]

叶强和张紫琼等提出一种根据连续双词词类组合模式(2-POS)自动判别句子主客观性程度的方法。首先在N-POS语言模型的基础上,利用CHI统计方法提取中文主观文本词类组合模式,利用这些组合模式给每个句子赋以主观性得分,将得分高于设定阈值的句子判定为主观性文本。实验表明,当阈值为0畅12时,主观文本的分类查准率和查全率能达到76%

[15]

需要指出,由于中英文语言结构及中西方文化的差异,使得中文的情感流露方式具有特殊性和复杂性,这给中文文本的情感分析带来挑战。与英文文本多都应用机器学习不同,中文文本的主客观分类主要采取语义方法,而且分类效果也不够理想,相比于英文能达到90%左右的精度,中文的研究分类精度还不够高。这主要由于影响中文文本主客观判断的因素远远比英文多而复杂,除了词义、词性之外,词语的用法也会影响到文本的主客观性质。因此在今后中文文本主观性判别研究中,除了引入机器学习算法外,还要注意考虑中文词法和句法的特殊功能。

另外,一些研究将主客观分类和褒贬情感分类

同时看作三分类问题,将文本分成为“褒义”、“贬

义”、“客观”。前两类归为主观文本,后者视为客观文本。王根和赵军指出这种观点忽略了两个任务所用特征的不同,即将主客观和褒贬极性的特征夹杂在一起,影响了分类效果

[16]

。本文认为,主客观分

类中的“客观”类和情感分析中的“客观”类是两个不同概念。比较下面两句话:“这部电影耗资两亿,将于明天在上海万达影城上演首映”;“这部电影整体上还算四平八稳,跟我的预期有点差距,但也不算失望”。前一句是陈述客观事件,是客观文本。而后一句显然是作者的主观评价,却不带有明显的褒或贬。因此对它的分类过程是:首先将其归为主观性文本,然后通过情感分析再归为情感类别中的“客观”(或“中立”)类。所以,非褒非贬并不是作者没情感,而是情感倾向并不明显,持中立态度。如果将双分类任务看成一个多分类问题的话,会错误地把带有主观性但情感倾向不明显的文本分类为客观性文本,影响情感分类的科学性。为了避免混淆,在后面的表述中,本文将情感分类结果中的非褒非贬统称为“中立”类。

3 情感识别现状

3畅1 文本情感极性研究

3畅1畅1 基于情感词汇语义特性的识别 基于情感词汇语义特性的识别是指利用词语的感情色彩来判断文本的情感极性,主要有两种研究方法:计算词语情感得分

[17,18]

和构造情感词

[19~21]

(1)计算词语情感得分的方法

Turney提出基于情感词组的SO-PMI语义分类

方法

[17]

。该方法提取出符合一定模式的形容词或

副词双词词组作为情感词组。并定义逐点互信息量(PMI,PointwiseMutualInformation)来计算词w1和w2之间的语义相关性:PMI=log2

p(w1,w2)

p(w1)p(w2)

。p

(w1,w2)表示w1和w2同时出现的概率。计算抽取出的词组与情感词“excellent”和“poor”的PMI,并用

SO(semanticopinionorientation)来计算该词组的语义倾向性:SO(w)=PMI(w,“excellent”)-PMI(w,“poor”),这样就确定了每个情感词组的情感倾向。最后通过计算评论中所有提取出的情感词组的平均SO值来区分情感极性。如果该值大于零,表示好评,推荐该评论描述的对象,如果小于零则不推荐。

339—

Web文本情感分类研究综述

Dave和Lawrence等对语料中的每个词打分:

score(ti)=[P(ti|C)-P(ti|C′)

P(ti|C)+P(ti|C′)],ti是一个词,C是一个情感类型。然后计算文档中所有词的得分总和,根据下式来识别新文档的类别:

class(dj)=Ceval(dj)>0

C′

otherwise,其中文档dj=

t1…tn,eval(dj)=∑

score(ti)[18]。

(2)构造情感词的方法

还有一些工作尝试建立情感词典来匹配文档的情感。Tong手工建立了一本针对影评分类的情感词典[19]。首先人工抽取出影评相关的情感词汇(比如“greatacting”,“wonderfulvisuals”,“unevenediting”)。同时对每一个情感词汇按其所代表的情感倾向(“positive”或“negative”)进行人工标记,并加到专门的情感词典,最后利用这个词典去判断影评的情感态度。但是该方法建立的情感词典往往是面向特定领域的,每一个分析对象都需要构建一本词典。而Hu和Liu在手工建立的已知positive和negative的种子形容词词汇表的基础上,利用WorldNet中词间的同义和近义关系来判断新情感词的语义倾向,并以此判断观点的情感极性[20]。

建立情感词来判别文本情感的方法存在两个问题:①基于词典的识别方法以分析词汇情感为基础,但忽略了句子中否定词对情感的影响,造成句子级别和文档级别的分类精确度下降。②所选的情感词往往是情感特征比较强烈的词语(主要是形容词和副词),而还有一些词汇往往隐含着说话人正面或负面的情绪。比如“爆炸”、“车祸”隐含了较多负面情感,而“舞会”、“打折”往往表达了正面情感。

为了克服单一靠人工建立的词汇在情感解释力上的缺乏性,Liu等使用OpenMindCommonSense对人类通用情感进行学习和解释[21]。OpenMindCommonSense是一个常识知识库,可以用来对客观世界中的事件、行为、对象进行通用的情感推理。首先从知识库中选出典型的六类情感词汇(高兴、悲伤、愤怒、恐惧、厌恶和惊奇),然后根据知识库中的概念关系对其他概念进行情感赋值。比如,知识库有这么两句话:“发霉的面包很恶心”,“新鲜的面包很美味”。那么,在“恶心”和“美味”分别被归类为厌恶和高兴的基础上,修饰语言模型(ModifierUnigramModel)可以分别将发霉和新鲜这两个修饰语也判断为表示厌恶和高兴的概念。

(3)中文文本研究现状

在中文文本识别方面,用情感词汇来判断文本情感的方法相对较少。金聪等将Turney的PMI-SO方法应用到对中文语料的情感判断上,同时用典型文档的语义倾向值的平均值作为阈值来代替零值作为两级情感的分类界限,改善了分类效果[22]。

李钝从语言学角度出发,分析词典中词对语义的特点,采用“情感倾向定义”权重优先的方法计算短语中各词的语义倾向度,然后分析短语中各词组合方式的特点,提出中心词概念来对各词的倾向性进行计算,以识别短语的倾向性和倾向强度。实验表明,该方法对短语的倾向分类识别效果较好,可为更大粒度的文本倾向识别打好基础[23]。

3畅1畅2 基于统计自然语言处理的识别方法

基于统计自然语言处理的方法,是指利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本进行识别。

一些研究将基于主题的机器分类算法用于情感极性识别。Pang和Li等采用不同的特征选择方法,应用了NB、ME(MaximumEntropy)、SVM对电影评论进行分类[24]。在他们的另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器[13]。Ni等利用CHI和信息增益进行特征选择,并采用NB、SVM和Rocchio’s算法对情感分类[25]。Mullen等和

Whitelaw等都用到SVM算法,只是他们在特征的选择和处理上不同[26,27]。Cui等利用PA(Passive-Aggressive)、LM(LanguageModeling)和Winnow分类器,并比较了它们的性能[28]。下面从特征选择和算法性能两个方面对基于机器学习算法的情感识别进行小结:

(1)特征选择

Pang等在实验中分别使用以词频作为权重的Unigrams、以布尔值作为权重的Unigrams、Bigrams、Unigrams+Bigrams、Unigrams+词性、最前面2633的Unigrams、形容词、Unigrams+词语的位置作为其语言特征[24]。实验结果发现,使用布尔值Unigram作为特征的分类效果最好,使用Bigram、词性、形容词和词语的位置作为特征并不能达到预期的分类精度。而Cui等指出Pang的研究语料较小,无法体现出n-grams(n≥3)的优势[28]。他们对比了n分别等于1、2、3、4、5、6时的实验结果,发现当n=6时,分类效果最好,特别是识别负面(negative)文本的分类器的

439

情报学报 第29卷 第5期 2010年10月

准确度有明显改善,达到70畅03%。Mullen等将按Turney的情感词五种组合模式提取出来的词组称为价值词组(valuephrases),然后利用WorldNet计算出所有形容词的EVA、POT和ACT值,并将这三个值和价值词组的SO值一起作为特征,最后再用SVM分类器进行分类,实验结果表明该方法的分类效果也是好于以前的方法[17,26]。另外,Pang等的实验结果还表明使用布尔值作为特征值权重的比使用词频为权重的实验精度要高[24]。

(2)分类性能比较

Cui等的实验对比表明,平均表现最好的是PA分类器,Winnow次之,LM最差[28]。Pang等的研究表明,基于机器学习的分类器要比手工分类效果好很多,而在三类分类器中,SVM分类器的表现比ME和NB都好,但是实验结果同时还表明,对文本的情感分类效果还是远差于对文本主题的分类[24]。

国内方面,徐军等用朴素贝叶斯和最大熵模型分别对新闻及评论语料进行了情感分类研究,发现选择具有语义倾向的词汇(特别是形容词和名词)对情感分类效果具有决定性作用,采用二值作为特征项权重相比采用词频作为权重的方法更能提高分类的准确率。并且最大熵模型比NB的分类效果明显好[29]。

唐慧丰等对部分基于监督学习的中文情感分类技术做了比较研究,在文本特征方面,采用N-Gram以及名词、动词、形容词、副词作为不同的文本表示特征;以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法;以中心向量法、KNN、Winnow、NB和SVM作为不同的文本分类方法;并在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验[30]。实验结果表明:采用Bigram特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。

3畅2 文本情感强度研究

对于某些应用,单纯的褒贬分类是不够的,还需要区别褒贬情感的强弱。这种任务称为情感强度分类,它是一种特殊的分类问题,因为强弱分类的类别是离散且有等级的。文本情感强度分析主要有三类方法:多分类方法,回归方法,序列标注方法。

(1)多分类方法

多分类方法即将文本的每个强度等级当作一个类别,构造分类器对其分类。最常见的处理是将文本强度分成强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。Lin等在研究语料的观点问题时,采用LSPM(LatentSentencePerspectiveModel)对未经标注的语句的观点及其五类强度进行判断[31]。但是此类方法得到的结果往往忽略了情感渐变过程,造成训练模型不够准确,影响了分类精度[16]。

(2)回归方法

回归方法即用回归算法来对文本的强度进行拟合。Pang和Li就用了SVM回归方法对文本情感强度进行了回归评分[32]。此外,他们还根据相似度越高标记越相近的原理,提出一种基于度量标记(metriclabeling)的元算法(meta-algorithm)对文本进行评分,实验表明此方法的效果比多分类方法和

SVM回归方法都好。

(3)序列标注方法

近年来,条件随机场(ConditionRadomFields,CRFs)模型大量地应用于序列标注任务,比如Chunking,NER,Parsing等。同时,CRFs模型也逐步应用于文本倾向性分析任务,并以此产生出针对特定问题的基于CRFs模型的其他图模型方法[33]。Mao和McDonald等把句子的褒贬标记看作一个情感流问题,并利用序列CRFs回归模型来给篇章中的每个句子进行打分[34,35]。为了减轻褒贬度分析中信息冗余对强度分类的影响,刘康等在CRFs的框架下,考虑句子褒贬度与褒贬强度之间的层级关系,充分利用上下文的信息以及特征的层级特性,提出了基于层叠CRFs模型的句子褒贬度分析模型[33]。

总体而言,对文本进行情感强度的研究还不多,但是在电子商务网站中,情感强度的识别对于个性化客户服务来说可能更有意义。

4 其他相关问题

4畅1 语料库的选择

不管是基于语义的方法还是机器算法都需要大规模的情感语料支撑,目前常用的语料库有以下几类:

(1)评论类语料

评论类语料库是目前最常用的语料数据,包括影评[17,24]、产品评论[13,28]、音乐评论[26]等。众多研究选择评论类语料是因为:一是评论类语料数量众多,方便获得。随着电子商务、网络社区的发展,到处都是关于电影、产品的评论,这些数据为文本分类研究提供了充足的素材;二是可近似地将评论类语

539

Web文本情感分类研究综述

料视作主观性文本,无需主客观文本分类即可直接用来情感识别。

(2)词汇知识库

WorldNet是一个按语义关系网络组织的英文词库,多种词汇关系和语义关系被用来表示词汇知识的组织方式。有许多研究就直接利用WorldNet中词汇间的距离来揭示情感倾向的关系[36,37]。Liu等使用的OpenMindCommonSense是常识知识库,它描述了世界上最基本的概念和相关的关系,以此来扩展描述情感的“概念”[21]。作为最大的中文词汇知识库,HowNet为国内研究者提供了进行中文情感研究的渠道[38,39],主要有基于语义相似度的方法和基于语义相关场的方法。

(3)其他语料库

徐琳宏等综合现有的各种情感词汇资源构造情感词汇本体,他们采用手工分类和自动的方法来获取本体的知识,包括词汇的情感类别、强度和极性[40]。在此基础上,对基于本体的情感分类方法进行了研究。路斌等利用中文同义词词林来计算词汇褒贬,该方法利用同义词词林中的同义词词群,将种子词汇扩展得到更大的褒贬义词集合[41]。

4畅2 研究难点

由于Web文本的表述形式多样,没有统一的规范,给文本挖掘和情感分类带来了许多困难。另外,随着研究的细化,Web文本挖掘和情感分析的任务也不仅仅限于判定情感的倾向和强度。本文将情感分析中的其中几个难点罗列如下:

(1)网络用词

主观性文本往往口语化,甚至会频繁出现时髦的网络用语,比如“做人不能太CNN!”,在这里,“CNN”无疑是识别这句话情感倾向的关键。不断涌现的网络用语给情感分类提出了更高的时效性要求。又如“太BS这部手机的性价比了。”BS是贬义词“鄙视”的缩写,这句话表达的是负面情感。可以看出,缩词的使用也给情感分析的准确度带来了很大影响。

(2)表达方式

除了情感词汇之外,句子的表达方式也会对句子的褒贬情感产生巨大影响。比较下面两句话:“这瓶洗发水,适合头发很干的人用。”“用了这瓶洗发水,头发会变得很干。”这两个句子的用词差不多,“洗发水”,“头发”,“很干”。但是第一句是褒义,第二句则很可能是贬义。还有一类和表达方式有关的问题是“反话”。很多褒义词受论坛文化的影响,有往贬义发展的趋势,比如“您太有才了”等。让机器理解这些表达方式也是情感分析面临的一个挑战。

(3)关系抽取

识别情感和特定主题的关系是情感分析的又一任务。比如这样一条评论:“Sony笔记本的外观蛮好看,就是价格太贵了”。在面向电子商务的情感分析中,就需要识别顾客对Sony外观和价格所持有的不同情感。另外同样的词语由于描述的对象不同,表达的情感也会不同,比如在产品评论中,同样是“少”,在描述“价格少”时是一种褒义、积极的情感,而“种类少”却是是一种贬义、消极的情感。这些问题就涉及识别情感所描述的对象问题,即关系抽取。

5 研究展望

情感分类过程主要有上下承接的两个任务:主客观文本分来和情感识别。总体上,随着自然语言处理技术的发展,国内外的研究已经取得了不小的成果,在评论分析、个性化推荐和舆论监控等方面也得到了应用,如Dave研发的ReviewSeer是世界上第一个情感分析工具,也是第一个针对产品评论区别其褒贬性的系统[42]。Gamon等开发的Pulse系统可自动挖掘网上用户对汽车评价中的贬褒信息和强弱程度[43]。Liu等开发的OpinionObserver系统可以处理网上顾客对产品的评价,对涉及产品各种特征的优缺点进行统计,并采用可视化方式对产品特征的综合质量进行比较[44]。但这些应用仍不尽如人意,今后还需在以下几方面展开深入研究:

1)相比于面向主题的文本分类,情感分类的精度还比较低,主要由用词习惯、表达方式等问题造成的。如何提高情感分类的准确率和召回率,是今后的研究重点。

2)利用文本的更多特征来提高情感分类效果。如标点符号对文本的情感表达有特殊作用,“!”号和“?”的情感强度明显强于其他标点,但目前的研究中还鲜有考虑。

3)将情感分析分成主客观文本分类和情感分类两个步骤,甚至在此基础上还要进行强度分类,这会造成冗余问题:前一步骤的误差同时会影响到后面步骤的准确度。考虑冗余问题的情感分析建模也是今后的研究方向之一。

4)除单纯地识别情感态度和强度,文本情感分类还需与其他文本挖掘技术结合,实现情感和情感

639

情报学报 第29卷 第5期 2010年10月

对象的关系抽取,挖掘出比单独的褒或贬的情感倾向更有价值的信息,以提高情感分类的应用价值。

参考文献

[1] PekarV,OuS.Discoveryofsubjectiveevaluationsofproductfeaturesinhotelreviews[J].JournalofVacation

Marketing,2008,14(2):145-155.

[2] 姚天,程希文,徐飞玉,等.文本意见挖掘综述[J].中文信息学报,2008,22(5):71-80.

[3] 陈博.Web文本情感分类中关键问题的研究[D].北京:北京邮电大学博士论文,2008.

[4] WiebeJ.Trackingpointofviewinnarrative[J].ComputationalLinguistics,1994,20(2):233-287.[5] WiebeJ.Learningsubjectiveadjectivesfromcorpora[C]∥Proc.ofthe17thNationalConf.onArtificialIntelligence

(AAAI-2000).Texas,USA,2000.

[6] WiebeJ,BruceR,O’HaraT.Developmentanduseofagoldstandarddatasetforsubjectivityclassifications[C]∥

Proc.ofthe37thAnnualMeetingoftheAssociationfor

ComputationalLinguistics(ACL-99),Seattle,USA,1999:

246-253.

[7] WiebeJ,WilsonT,BruceR,etal.Learningsubjectivelanguage[R].TechnicalReportTR-02-100,Pennsylvania,

USA,2002.

[8] BruceR,WiebeJ.Recognizingsubjectivity:Acasestudyinmanualtagging[J].NaturalLanguageEngineering,

1999,5(2):187-205.

[9] WilsonT,WiebeJ,HoffmannP.Recognizingcontextualpolarityinphraselevelsentimentanalysis[C]∥Proc.of

HumanLanguageTechnologiesConference桙Conferenceon

EmpiricalMethodsinNaturalLanguageProcessing(HLT桙

EMNLP2005).Vancouver,Canada,2005:347-354.[10] HatzivassiloglouV,WiebeJ.Effectsofadjectiveorientationandgradabilityonsentencesubjectivity[C]∥Proc.of18th

Int’lConf.onComputationalLinguistics(COLING-2000).

NJ,USA,2000.

[11] WiebeJ,WilsonT,BellM.Identifyingcollocationsforrecognizingopinions[C]∥Proc.oftheACL-01Workshop

onCollocation.Toulouse,France,2001.

[12] YuH,HatzivassiloglouV.Towardsansweringopinionquestions:separatingfactsfromopinionsandidentifyingthe

polarityofopinionsentences[C]∥Proc.ofthe2003Conf.

onEmpiricalMethodsinNaturalLanguageProcessing.

Sapporo,Japan,2003:129-136.

[13] PangB,LeeL.Asentimentaleducation:Sentimentanalysisusingsubjectivitysummarizationbasedonminimum

cuts[C]∥Proc.ofthe42ndMeetingoftheAssociationfor

ComputationalLanguages.Barcelona,Spain,2004:271-

278.

[14] 林斌.基于语义技术的中文信息情感分析方法研究[D].哈尔滨:哈尔滨工业大学硕士论文,2007.

[15] 叶强,张紫琼,罗振雄.面向互联网评论情感分析的中文主观性自动判别方法[J].信息系统学报,2007,

1(1):79-91.

[16] 王根,赵军.基于多重冗余标记CRFs的句子情感分析研究[J].中文信息学报,2007,21(5):51-55.[17] TurneyP.ThumbsUporThumbsdown?Semanticorientationappliedtounsupervisedclassificationofreviews

[C]∥Proc.ofthe40thAnnualMeetingoftheAssociation

forComputationalLinguistics.NJ,USA,2002:417-412.[18] DaveK,LawrenceS,PennockD.Miningthepeanutgallery:Opinionextractionandsemanticclassificationof

productreviews[C]∥Proc.ofthe12thInt’lWorldWide

WebConf.:ACMPress.Budapest,Hungary,2003:519-

528.

[19] TongRM.Anoperationalsystemfordetectingandtrackingopinionsinon-linediscussion[C]∥SIGIRWorkshopon

OperationalTextClassification.NY,USA,2001:1-6.[20] HuM,LiuB.Miningandsummarizingcustomerreviews[C]∥Proc.ofKnowledgeDiscoveryandDataMining,

NY,USA,2004:168-177.

[21] LiuH,LiebermanH,SelkerT.Amodeloftextualaffectsensingusingreal-worldknowledge[C]∥Proc.ofthe11th

Int’l.Conf.onIntelligentUserInterface,2003:125-132.[21] 金聪,金平.网络环境下中文情感倾向的分类方法[J].语言文字应用,2008,5(2):139-144.

[23] 李钝.基于短语模式的文本情感分类研究[J].计算机科学,2008,135(14):231-233.

[24] PangB,LeeL,VaithyanathanS.Thumbsup?sentimentclassificationusingmachinelearningtechniques[C]∥Proc.

oftheConf.onEmpiricalMethodsinNaturalLanguage

Processing.Philadelphia,US,2002:79-86.

[25] NiX,XueG,LingX,etal.ExploringintheWeblogspacebydetectinginformativeandaffectivearticles[C]∥

Proc.ofthe16thInt’l.Conf.onWorldWideWeb,2007:

281-290.

[26] MullenT,CollierN.Sentimentanalysisusingsupportvectormachineswithdiverseinformationsources[C]∥Proc.of

EMNLP-2004,Barcelona,Spain,2004:412-418.

[27] WhitelawC,GargN,ArgamonS.Usingappraisalgroupsforsentimentanalysis[C]∥Proc.Ofthe14thACMInt’l.

Conf.onInformationandKnowledgeManagement,2005:

625-631.

[28] CuiH,MittalV,DatarM.Comparativeexperimentsonsentimentclassificationforonlineproductreviews[C]∥

Proc.ofthe21stNationalConf.onArtificialIntelligence

739

Web文本情感分类研究综述

(AAAI-06),Boston,USA,2006.

[29] 徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):

95-100.

[30] 唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):

88-94.

[31] LinWH,WilsonT,WiebeJ,etal.Whichsideareyouon?Identifyingperspectivesatthedocumentandsentence

levels[C]∥Proc.ofthe10thConf.onComputational

NaturalLanguageLearning(CoNLL-X),NY,USA,2006:

109-116.

[32] PangB,LeeL.Seeingstars:Exploitingclassrelationshipsforsentimentcategorizationwithrespecttoratingscales[C]

∥Proc.ofthe43rdAnnualMeetingoftheAssociationfor

ComputerLinguistics.Morristown,NJ,USA,2005:115-

124.

[33] 刘康,刘军.基于层叠CRFs模型的句子褒贬度分析研究[J].中文信息学报,2008,22(1):123-128.[34] MaoY,LebanonG.IsotonicConditionalRandomFieldsandLocalSentimentFlow[C]∥Proc.oftheNeuralInformation

ProcessingSystems,2007.

[35] McDonaldR,HannanK,NeylonT,etal.Structuredmodelsforfine-to-coarsesentimentanalysis[C]∥Proc.of

ACL,2007:432-439.

[36] KampsJ,MarxM,MokkenRJ,etal.WordswithAttitude[C]∥Proc.ofthe1stInt’lConf.onGlobalWordNet.

Mysore,India,2002.

[38] 朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20.[39] 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-

100.

[40] 徐琳宏,林鸿飞,潘宇,等.情感词汇本体的构造[J].中文信息学报,2008,22(2):180-185.

[41] 路斌,万小军,杨建武,等.基于同义词词林的词汇褒贬计算[C]桙桙第七届中文信息处理国际会议,武汉,

中国,2007:17-23.

[42] DaveK,LawrenceS,PennockDM.MiningthePeanutGallery:OpinionExtractionandSemanticClassificationof

ProductReviews[C]桙桙Proc.ofthe12thInt’l.WWWConf.

Budapest,Hungary,2003.

[43] GamonM,AueA.AutomaticIdentificationofSentimentVocabulary:ExploitingLowAssociationwithKnown

SentimentTerms[C]桙桙Proc.oftheACL-2005Workshopon

FeatureEngineeringforMachineLearninginNLP.

Michigan,USA,2005:57-64.

[44] LiuB,HuM,ChenJ.OpinionObserver:AnalyzingandComparingOpinionontheWeb[C]桙桙Proc.ofthe14thInt’l.

Conf.onWorldWideWeb.Chiba,Japan,2005:343-

351.

(责任编辑 芮国章)

839

情报学报 第29卷 第5期 2010年10月

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.360docs.net/doc/7e13110613.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

文本情感分析论文总结

文本情感分析 赵妍妍,秦兵,刘挺- 软件学报, 2010 - https://www.360docs.net/doc/7e13110613.html, 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。 情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。 一、情感信息抽取(评价词语、评价对象、观点持有者) 1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。 2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评 价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。 3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做 序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。 4.组合评价单元的抽取: 主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。 二、情感信息分类 1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于 分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图); 2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语 特征和词性特征、位置特征、评价词特征)。 三、情感信息的检索与归纳 1.情感信息检索 2.情感信息归纳 基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。 基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。 基于新闻评论的文摘 四、情感分析的评测与资源 1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析), 国内的COAE。 2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料, Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。 3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英 文),HowNet评价词词典(简体中文、英文) 问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;

文本分类综述1

文本分类综述 1. 引言 1.1 文本分类的定义 文本分类用电脑对文本集按照一定的分类体系或标准进行自动分类标记,与文本分类相近的概念是文本聚类。文本聚类是指,由机器将相似的文档归在一起。与文本分类的区别在于,文本分类是监督学习,类别是事先规定好的,文本聚类是无监督学习,由计算机把类似文本归在一起,事先并不划定好类别。 基于统计的文本分类算法进行文本分类就是由计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。 文本分类的基本步骤是:文本表示->特征降维->分类器训练>文本分类 1.2 文本分类的基本思路 文本分类基本方法可以归结为根据待分类数据的某些特征来进行匹配,选择最优的匹配结果,从而实现分类。 计算机并不认识文档,因此首先就要设法如何转化一篇文档为计算机所接受,转化方法要与文本有对应关系。对于计算机文本分类而言,这是最重要的步骤。 其次要制定出一定的评判标准,根据文档表示结果对文本进行分类 1.3 文本分类目前的研究热点 2. 文本表示 利用计算机来解决问题,首先就是要找到一种使计算机能够理解方法来表述问题,对文本分类问题来说,就是要建立一个文档表示模型。 一般来说,利用文档中的语义信息来表示文档比较困难,因此直接采用词频来表示文档,不过也出现了许多利用语义的文档表示方法。 2.1 向量空间模型(VSM) VSM模型是目前所用的较多的文本表示模型,这种模型把文本看作是一个特征项的集合。特征项可以是词,也可以是人为所构造的合理的特征。

2.2 词袋模型 词袋模型是VSM 模型在文本分类问题中的一个最简单的应用。对于一篇文档,最直观的方法就是使用词和短语作为表示文本的特征。对于英文文章来说,各个单词之间己经用空格分开,可以直接获取特征词,不过由于英语中存在词形的变化,如:名词的单复数、动词的时态变化、词的前缀和后缀变化等,所以会需要一个抽取词干的过程。对于中文来说,因为词和词之间没有停顿,所以需要借助于词典来统计特征词。对于文本分类来说,常用的方法为TF 即词频法。 具体操作为: 对文本,北京理工大学计算机专业创建于1958年,是中国最早设立的计算机专业的大学之一。对于该文档,词袋为{北京、理工、大学、计算机、专业、创建、1958、中国、最早、设立}相应的向量为{1,1,2,2,2,1,1,1,1},这种统计特征词词频当作文档特征的方法也称为TF 法,为了防止这种方法统计出的特征使得文本长度影响到分类结果,要把它做归一化处理,最容易想到的归一化做法是除以文本长度。 另外还有另一个指标IDF 指标,衡量词的重要性,一个词在一篇文本中出现的频率越高,同时在总的训练文本中出现的频率越低,那么这个词的IDF 值越高。 操作: 总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,公式表示为 ,idf 衡量了一个词的重要程度,因此tf ×idf 可以更好的来表示文本。 2.3 其他模型 3. 特征降维 文本所形成的不加处理的特征向量维数很高,以词袋模型为例,一方面,很多文章只有几千词,而一个分词词典所包含的词有数万个,如果不加处理,把所有词都表示出来,是极大的浪费,另一方面,若依照分词词典建立向量,事实上是无法使用的,因此需要对文档特征进行降维处理。把不用的特征去掉,保留区分度高的词语。特侦降维可以有两种思路,特征选择和特征提取,其中,特征选择是指在原有特征的基础上,选择一部分特征来表示文本,特征性质不变,例如||log()|:| i j D idf j t d =∈

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwang@https://www.360docs.net/doc/7e13110613.html,。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

情感计算综述

情感计算综述 控制工程1102班李晓宇 2111103172 摘要:情感计算是人工智能的一个分支。情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高的、全面的智能。本文分别从情感计算的研究历史、应用前景、研究内容和理论框架来阐述情感计算,以便使更多的人了解情感计算。 关键字: 情感计算;情感识别;情感理论框架 Summary of Affective Computing Abstract:Affective computing is a branch of artificial intelligence. The aim of affective computing is to give computers to recognize, understand, adapt to people's emotional expression and the ability to establish harmonious human environment, and to have higher computer, full of intelligence.This paper explain affective computing through the study of history of affective computing ,applications in the future, research content and theoretical framework, so that more people understand the affective computing. Key word: Affective computing; emotion recognition; the theoretical framework of emotional 1、引言 情感计算的概念是在1997年由MIT媒体实验室Picard教授提出,她指出情感计算是与情感相关,来源于情感或能够对情感施加影响的计算。中国科学院自动化研究所的胡包刚等人也通过自己的研究,提出了对情感计算的定义:“情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高的、全面的智能”。 在较长一段时期内,情感一直位于认知科学研究者的视线以外。直到20世纪末期,情感作为认知过程重要组成部分的身份才得到了学术界的普遍认同。当代的认知科学家们把情感与知觉、学习、记忆、言语等经典认知过程相提并论,关于情感本身及情感与其他认知过程间相互作用的研究成为当代认知科学的研究热点,情感计算( affective computing )也成为一个新兴研究领域。 众所周知,人随时随地都会有喜怒哀乐等情感的起伏变化。那么在人与计算机交互过程中,计算机是否能够体会人的喜怒哀乐,并见机行事呢?情感计算研究就是试图创建一种能感知、识别和理解人的情感,并能针对人的情感做出智能、灵敏、友好反应的计算系统,即赋予计算机像人一样的观察、理解和生成各种情感特征的能力。 2、研究现状 让计算机具有情感能力首先是由美国MIT大学Minsky教授(人工智能创始人之一)提出的。他在1985年的专著《The Society of Mind》中指出,问题不在于智能机器能否有任何情感,而在于机器实现智能时怎么能够没有情感。从此,赋予计算机情感能力并让计算机能够理解和表达情感的研究、探讨引起了计算机界许多人士的兴趣。这方面的工作首推美国MIT 媒体实验室Picard教授领导研究小组的工作。情感计算一词也首先由Picard教授于1997年出版的专著《Affective Computing》中提出并给出了定义,即情感计算是关于情感、情感产生以

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

开题报告(文献综述)-在线评论分析系统的情感分析

开题报告(文献综述)-在线评论分析系统的情感分析本科毕业设计(论文)开题报告 论文题目在线评论分析系统的情感分析开题报告内容: 一、选题的背景及意义 近年来,在“大数据”(Big Data)时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息,尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。 然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行 收集、处理和分析。因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。 文本情感分析,也称为意见挖掘(Opinion Mining),是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域,在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。进入21 世纪以后,情感分析这个领域变得活跃起来,吸引越来越多的学者投入其中。目前

基于贝叶斯的文本分类

南京理工大学经济管理学院 课程作业 课程名称:本文信息处理 作业题目:基于朴素贝叶斯实现文本分类姓名:赵华 学号: 114107000778 成绩:

基于朴素贝叶斯实现文本分类 摘要贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。 关键词社区发现标签传播算法社会网络分析社区结构 1引言 数据挖掘在上个世纪末在数据的智能分析技术上得到了广泛的应用。分类作为数据挖掘中一项非常重要的任务,目前在商业上应用很多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该分类器可以将数据集合中的数据项映射到给定类别中的某一个,从而可以用于后续数据的预测和状态决策。目前,分类方法的研究成果较多,判别方法的好坏可以从三个方面进行:1)预测准确度,对非样本数据的判别准确度;2)计算复杂度,方法实现时对时间和空间的复杂度;3)模式的简洁度,在同样效果情况下,希望决策树小或规则少。 分类是数据分析和机器学习领域的基本问题。没有一个分类方法在对所有数据集上进行分类学习均是最优的。从数据中学习高精度的分类器近年来一直是研究的热点。各种不同的方法都可以用来学习分类器。例如,人工神经元网络[1]、决策树[2]、非参数学习算法[3]等等。与其他精心设计的分类器相比,朴素贝叶斯分类器[4]是学习效率和分类效果较好的分类器之一。 朴素贝叶斯方法,是目前公认的一种简单有效的分类方法,它是一种基于概率的分类方法,被广泛地应用于模式识别、自然语言处理、机器人导航、规划、机器学习以及利用贝叶斯网络技术构建和分析软件系统。 2贝叶斯分类 2.1分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。 从数学角度来说,分类问题可做如下定义: 已知集合:和,确定映射规则,使得任意有且仅有一个使得成立。(不考虑模 糊数学里的模糊集情况) 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。

引文文本分类与实现方法研究综述

引文文本分类与实现方法研究综述 引文文本一般是指引文脚注所在的句子或与上下文句子的集合[1],能提供施引文献与被引文献之间关系的重要信息,具有重要的研究价值和意义。目前围绕引文文本的研究主要有引文文本分类、引用动机调查、引文主题抽取3个方向[2-5]。相对而言,引文动机调查和主题抽取的理论和方法比较成熟,而关于引文文本分类的研究文献数量众多,分类标准和实现方法各有不同,没有统一的模式[6]。近几年来,国内关于引文文本的研究文献逐渐增多,如文献[6]对引文文本分析方法的主要步骤和相关研究进展进行了综述;文献[7]概述了引文文本类型识别的步骤和实践进展;文献[8]尝试从概念、研究范畴、步骤和功能系统地构建引用内容(文本)分析的理论。然而这些文献中较少对不同的引文文本分类标准的特点进行归纳,对不同的分类方法的优缺点也没有系统梳理和对比。因此,本文拟在前人研究的基础上对中英文相关文献进行研读、梳理,系统总结归纳现有引文文本的各种分类标准及特点,对比分析引文文本分类实现方法的优缺点,理清引文文本分类的主要应用领域,剖析当前存在的问题,并对未来的研究重点进行展望。 1 引文文本的分类标准

引文文本的分类标准,主要是指科学家对引文文本进行内容分类分析时采取的角度或维度。在对引文文本分类的相关研究中,1993年,M.X.Liu[2]将相关研究的分析目的归纳为3个方面:提高检索效率,研究引用功能,研究引用质量。2004年,H.D.White[9]从情报学和语言学的不同学科角度,探讨了不同学科对引文文本分类方法的不同研究角度。2013年,祝清松等[7]在对引文类型标注方法进行综述的基础上将分类标注定为引用功能和观点倾向两类。笔者通过对主要综述性文献的比较和其他相关文献的广泛研读,认为引文文本的分类方式主要可分为以下5种类型。 1.1 基于引用功能的分类 引用功能是指被引文献在施引文献中起到的作用和产生的意义,早期对引用功能的研究以描述性讨论为主,功能定义比较单一,主要观点认为引文是对前人研究工作价值的肯定,是对知识产权的维护[10-14]。其中,具有代表性的是M.J.Moravicsik 与P.Murugesan[15]从4个不同维度对引文文本进行分类,特别是第一个维度——将引文文本分为概念性引用、操作性引用和其他功能的引用,超过一半的引用(53%)为概念的引用,仅有7%的引用属于其他功能的引用。其对引用功能的划分比较粗略,没

文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。 情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。 1 基于统计机器学习法 随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

相关文档
最新文档