文本情感分类研究综述

合集下载

基于深度学习的文本情感分析方法研究

基于深度学习的文本情感分析方法研究

基于深度学习的文本情感分析方法研究随着社交媒体的兴起以及用户生成内容的爆炸增长,对大规模文本数据进行情感分析的需求与日俱增。

文本情感分析是一种将自然语言处理和机器学习相结合的技术,旨在自动识别和理解文本中的情感倾向。

近年来,深度学习模型在文本情感分析领域取得了显著的进展,并且成为了研究和应用的热点之一。

本文将就基于深度学习的文本情感分析方法进行综述,并对其研究现状和未来发展进行讨论。

一、基础知识介绍1.1 文本情感分析概述文本情感分析,又称为情感倾向分析,是指通过计算机技术对文本进行情感判断和分类的过程。

其目标是将文本分类为积极、消极或中性等情感类型。

情感分析可应用于情感监测、品牌舆情分析、用户评论情感分析等领域,对于企业决策和社会舆情分析起着重要作用。

1.2 深度学习简介深度学习是一种基于神经网络模型的机器学习方法,通过多层神经网络的构建和训练来解决复杂的模式识别和数据分析问题。

与传统机器学习方法相比,深度学习模型以其强大的非线性拟合能力和自动特征学习能力在文本情感分析任务中表现出色。

二、基于深度学习的文本情感分析方法2.1 卷积神经网络(CNN)卷积神经网络是一种常用的深度学习模型,具有一定的自然语言处理能力。

在文本情感分析领域,卷积神经网络通过卷积操作来捕捉文本中的局部特征,进而通过全连接层进行分类。

该方法在文本分类任务中取得了很好的效果。

2.2 循环神经网络(RNN)循环神经网络是一类具有记忆能力的神经网络,对于处理序列数据的任务特别有效。

在文本情感分析中,循环神经网络通过序列建模,能够较好地捕捉上下文信息,对于理解文本中的情感趋势非常有帮助。

然而,长时依赖问题限制了RNN模型的准确性。

2.3 长短期记忆网络(LSTM)为了解决长时依赖问题,研究者提出了长短期记忆网络。

LSTM模型通过引入记忆单元和门控机制,能够有效地记忆长期依赖关系,并且在文本情感分析中取得了较好的效果。

LSTM模型在多层结构的基础上,能够更好地处理文本中的复杂情感信息。

文本分类 文献综述

文本分类 文献综述

文本分类文献综述文本分类是指将一段文本分配到不同的预定义类别中的任务。

它在文本数据处理中有着重要的地位,广泛应用于信息检索、情感分析、垃圾邮件过滤和自然语言处理等领域。

本文将围绕文本分类技术展开一个简要的综述。

一、文本分类的方法文本分类方法主要有基于特征、基于模型和基于深度学习等三种。

其中基于特征的方法是指将文本表示为一组特征向量,使用机器学习算法进行分类,包括词袋模型、TF-IDF模型、n-gram模型等。

基于模型的方法是指将分类视为一个优化问题,通过建立数学模型,使用统计或最优化算法求得最优解,包括朴素贝叶斯、支持向量机、决策树等。

基于深度学习的方法是指使用深度神经网络对文本进行特征学习和分类,包括卷积神经网络、循环神经网络、注意力机制等。

二、文本分类的技术瓶颈文本分类中存在一些技术瓶颈,如特征表示、数据不平衡、多语言处理等。

在特征表示方面,传统的特征表示方法很难涵盖文本中的所有信息,导致分类效果不佳,因此需提高特征表示的能力。

在数据不平衡方面,不同类别的数据量可能不均衡,导致分类器偏向于样本量较大的类别。

因此需采取数据增强、重采样等方法来增加少数类别的样本数量。

在多语言处理方面,不同语言的文本特点各异,需要对不同语言的文本进行特征表示、分类器设计等。

三、文本分类的应用文本分类在现实生活中具有广泛的应用价值。

在信息检索方面,能够帮助用户快速准确地获取所需信息。

在情感分析方面,能够在社交媒体等互联网平台上进行舆情分析,提供决策支持。

在垃圾邮件过滤方面,能够自动过滤垃圾邮件,提高邮件处理效率。

在自然语言处理方面,能够进行命名实体识别、关系抽取等任务,支持智能问答、人机对话等应用。

综上所述,文本分类技术应用广泛,存在一定的技术瓶颈,但能够通过不断优化特征表示、模型训练等方面来提高分类效果,为实现智能化应用提供技术支持。

文本情感分析综述

文本情感分析综述

文本情感分析综述文本情感分析是指对文本内容进行分析,以确定其中所包含情感的方法。

情感分析在自然语言处理领域具有广泛的应用,包括社交媒体监测、品牌管理、市场调研等。

本文将综述目前文本情感分析的技术和方法,并探讨其应用领域和存在的挑战。

一、情感分析技术和方法:1. 基于词典的方法:该方法使用预定义的情感词典,对文本中的词进行情感打分,然后通过加权求和或者分类算法来确定整个文本的情感极性。

常用的词典有SentiWordNet、AFINN等。

2.机器学习方法:该方法通过训练一个分类器,将文本分为积极、消极或中性,常用的算法有朴素贝叶斯、支持向量机、随机森林等。

3.深度学习方法:近年来,深度学习方法在情感分析中取得了显著的进展。

深度学习模型如循环神经网络(RNN)和卷积神经网络(CNN)能够对文本进行端到端的建模,包括长期依赖和局部特征提取。

二、情感分析的应用领域:1.社交媒体监测:情感分析可用于监测社交媒体上用户对特定事件、产品或品牌的态度和情感倾向,帮助公司及时了解用户的反馈和需求。

2.市场调研:情感分析可以帮助企业了解产品的市场反应和用户的需求,进而优化产品设计和营销策略。

3.品牌管理:情感分析可以帮助企业评估品牌形象和声誉,并及时发现并解决潜在的危机和问题。

4.情感分析还可应用于舆情监测、情感化以及个性化推荐等领域。

三、情感分析的挑战:1.多样性和主观性:情感分析受到文本多样性和主观性的影响,不同文化和背景下,不同人对同一词汇或句子的情感倾向可能会有差异。

2.语义理解:情感分析需要深入理解文本的上下文和语义,包括语言的隐喻、讽刺等。

这对于机器来说是一大挑战。

3.数据标注:情感分析的训练需要大量标注好情感的数据,然而标注数据是一项复杂且耗时的任务,为情感分析提供高质量的训练数据仍然是一个问题。

综上所述,文本情感分析是一项具有挑战性但应用广泛的任务。

随着技术的不断发展,我们可以期待情感分析在各个领域的更深入应用,并希望能够解决当前面临的挑战,提升情感分析的准确性和效果。

文本情感分析综述

文本情感分析综述

d o c u me n t l e v e l s e n t i me n t a n a l y s i s ,a n d t e x t s e n t i me n t na a ly s i s a p p l i c a t i o n s .I t p o i n t e d o u t t h a t t h e c u r r e n t s e n t i me n t na a ly s i s
文本 情 感 分 析 综 述
杨 立 公 , 朱 俭 , 汤世 平
( 1 . 北 京理工大学 计算机学院, 北京 1 0 0 0 8 1 ; 2 . 中国青年政治学 院 计算 机教学及应用 中心, 北京 1 0 0 0 8 9 ) (}通信作者 电子 邮箱  ̄l l g g @g ma i l . C O B)
文章编号 : 1 0 0 1 —9 0 8 1 ( 2 0 1 3 ) o 6—0 1 5 7 4— 0 5
C OD EN J YI I DU
h t t p : / / w w w. j o c a . c a
d o i : 1 0 . 3 7 2 4 / S P . J . 1 0 8 7 . 2 0 1 3 . 0 1 5 7 4
s y s t e m c a n n o t g a i n h i g l l p r e c i s i o n .F u r t h e r r e s e a r c h s h o u l d f o c u s o n : w i d e l y a n d a p p r o p r i a t e l y a p p l y i n g s t u d y a c h i e v e m e n t o f

数据分析中的文本分类技术综述

数据分析中的文本分类技术综述

数据分析中的文本分类技术综述随着大数据时代的到来,文本数据的增长迅速,人们越来越关注如何从文本中提取有价值的信息。

文本分类技术作为一种重要的文本数据处理方法,被广泛应用于社交媒体分析、舆情监测、情感分析等领域。

本文将对数据分析中的文本分类技术进行综述,介绍其基本概念、常见方法和应用场景。

一、文本分类技术的基本概念文本分类技术是指将一篇给定的文本分配到预定义的类别中。

在文本分类任务中,我们通常根据文本的内容、语义、情感等特征,将文本划分为不同的类别。

文本分类技术的目标是通过计算机自动分析文本的内容,实现对大量文本数据的分类和归类。

二、常见的文本分类方法1. 朴素贝叶斯分类器(Naive Bayes Classifier)朴素贝叶斯分类器是文本分类中常用的统计学方法之一。

它基于贝叶斯定理和特征条件独立假设,在训练过程中学习文本特征的概率分布,并通过计算后验概率来进行分类。

2. 支持向量机(Support Vector Machine, SVM)支持向量机是一种广泛应用于文本分类的机器学习算法。

它通过寻找一个超平面,将不同类别的文本样本尽可能地分开。

支持向量机优秀的分类性能和对高维空间的适应能力使其成为文本分类中的一种重要方法。

3. 深度学习方法深度学习是近年来在文本分类领域取得显著成果的方法之一。

基于神经网络的深度学习模型,如卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN),能够通过多层次的处理来学习文本的表示和特征,提高分类性能。

三、文本分类的应用场景1. 社交媒体分析社交媒体平台如微博、Twitter等每天都产生大量的文本数据,而这些数据中蕴含着用户的态度、情感以及对不同事件的反应。

通过文本分类技术,可以对这些数据进行分析,了解用户的偏好、情感倾向以及社会趋势。

2. 舆情监测政府、企业等对于公众的关注度和评判意见非常重视。

文本方面级情感分类方法综述

文本方面级情感分类方法综述

第41卷第6期2020年12月河北科技大学学报Journal of Hebei University of Science and'TechnologyVol.l,No.Dec.2020文章编号:1008-1542(2020)06-0518-10文本方面级情感分类方法综述李胜旺,杨艺,许云峰,张妍(河北科技大学信息科学与工程学院,河北石家庄050018)摘要:随着深度学习的发展,方面级情感分类已经在单领域和单一语言中取得了大量的研究成果,但是在多领域的研究还有提升的空间。

通过对近年来文本方面级情感分类方法进行归纳总结,介绍了情感分类的具体应用场景,整理了方面级情感分类常用的数据集,并对方面级情感分类的发展进行了总结与展望,提出未来可在以下领域开展深入研究:1)探索基于图神经网络的方法,弥补深度学习方法存在的局限性;2)学习融合多模态数据,丰富单一文本的情感信息;3)开展更多针对多语言文本和低资源语言的研究。

关键词:自然语言处理;情感分类;方面级别;文本分类;深度学习;图神经网络;图卷积网络中图分类号:TP311.3文献标识码:A doi:10.7535/hbkd.2020yx()6()()6A survey of text aspect-based sentiment classificationLI Shengwang,YANG Yi,XU Yunfeng,ZHANG Yan(School of Information Science and Engineering,Hebei University of Science and'Technology,Shijiazhuang,Hebei050018, China.)Abstract:With the development of deep learning,aspect-based sentiment classification has achieved a lot of results in a single field and a single language,but there is room for improvement in multi-ficlds.By summarizing up the methods of text aspect­based sentiment classification in recent years,the specific application scenarios of sentiment classification were introduced,and the commonly used data sets of aspect-based sentiment classification were categorized.The development of aspect-based sentiment classification were summarized and prospected,and further research can be carried out in the following areas: exploring methods based on graph neural networks to make up for the limitations of deep learning methods;learning to fuse multi-modal data to enrich the emotional information of a single text;developing more targeted research work on multilingual texts and low-resource languages.Keywords:natural language processing;sentiment classification;aspect-based;text classification;deep learning;graph neural network;graph convolutional network收稿日期:2020-10-02;修回日期:20201106;责任编辑:王淑霞基金项目:中国留学基金委地方合作项目(201808130283);中国教育部人工智能协同育人项目(201801003011);河北科技大学校立课题(82/1182108)第一作者简介:李胜旺(1963—)男,可北邯郸人,教授,硕士,主要从事计算机控制技术方面的研究。

文本情绪分析综述

文本情绪分析综述

文本情绪分析综述随着社交媒体和在线交流的普及,人们产生和接触到的文本信息越来越丰富。

这些文本信息中蕴含着大量的情感信息,对于理解人们的需求、意见和态度具有重要意义。

文本情绪分析正是一种用于提取和处理这些情感信息的技术。

本文将综述文本情绪分析的基本概念、现状、趋势以及未来研究方向。

一、引言文本情绪分析是一种自然语言处理技术,通过计算机算法自动识别和分析文本中的情感倾向。

这种技术可以应用于诸多领域,如智能客服、广告效果评估、新闻报道分析等。

准确、高效的文本情绪分析技术对于企业、政府和社会各界具有重要意义。

二、情感分析文本情绪分析的核心是情感词典和机器学习算法。

情感词典是一种包含情感词汇及其权重的词典,用于表示文本中的情感倾向。

机器学习算法则是通过训练大量样本学习文本情感倾向的模型,并对新文本进行情感预测。

在情感分析过程中,特征选择和模型训练是两个关键环节。

特征选择涉及到从文本中提取有意义的信息,如词频、词性、句法等,用于判断文本的情感倾向。

模型训练则是通过机器学习算法,将提取的特征输入到模型中进行训练,以得到更准确的情感预测结果。

三、应用领域文本情绪分析在各个领域都有广泛的应用。

例如,在智能客服领域,文本情绪分析可以帮助企业快速了解客户需求和意见,提高客户满意度;在广告文案领域,文本情绪分析可以评估广告效果,为广告制作提供参考;在新闻报道领域,文本情绪分析可以分析作者的情感倾向,帮助读者更好地理解报道内容。

然而,文本情绪分析在实际应用中仍面临一些挑战,如情感词典的不完善、不同文化背景下的情感差异等。

因此,提高文本情绪分析的准确性和普适性仍是未来的重要研究方向。

四、未来展望随着深度学习和自然语言处理技术的不断发展,文本情绪分析的准确性和应用范围也将得到进一步提升。

未来,文本情绪分析有望实现以下发展:1、算法优化:结合深度学习和传统机器学习算法的优点,提高情感分析的准确性。

例如,使用预训练的深度学习模型进行情感预测,以及结合多种特征进行模型训练等。

文本分类研究综述

文本分类研究综述

文本分类研究综述文本分类是自然语言处理领域的重要任务,旨在自动地将文本分配到一组预定义的类别中。

它在信息检索、情感分析、垃圾邮件过滤、媒体监测等领域有着广泛的应用。

文本分类的研究可以追溯到20世纪60年代,但随着机器学习的发展,尤其是深度学习的兴起,文本分类取得了显著的进展。

传统的文本分类方法通常基于特征工程,包括词袋模型、TF-IDF权重等。

这些方法需要手动选择和提取特征,对于大规模的数据集来说效率低下,并且难以捕捉到复杂的语义和上下文信息。

深度学习方法在文本分类中取得了显著的突破。

其中,卷积神经网络(CNN)和循环神经网络(RNN)是最常用的模型。

CNN在处理文本的局部特征方面表现良好,适用于短文本分类。

RNN则可以处理序列信息,对于长文本分类有一定的优势。

值得一提的是,由于文本数据的稀疏性和维度高,Embedding层用于将文本转化为稠密的向量表示,为后续的分类任务提供更好的输入。

近年来,文本分类研究的一个重要方向是结合知识图谱和外部语料库等背景知识来增强分类器的性能。

这些知识可以帮助模型理解文本中的实体、关系等信息,提供更加准确和丰富的分类结果。

此外,文本分类的评价指标也是研究的重点之一、除了准确率、召回率和F1值等传统指标外,还有一些针对不平衡数据集和多类别分类的评价指标,如AUC、宏平均和微平均等。

总的来说,文本分类是一个具有挑战性的任务,在深度学习和知识图谱等技术的支持下,取得了很大的进展。

未来的研究方向包括多模态文本分类、跨语言文本分类等。

同时,还需要进一步改进评价指标,提高模型的鲁棒性和可解释性,以适应更加复杂的应用场景。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web文本情感分类研究综述王洪伟/刘勰/尹裴/廖雅国2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:*****************.cn。

同济大学经济与管理学院,上海200092;刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。

同济大学经济与管理学院,上海200092;尹裴,女,1986年生,硕士研究生,研究方向:商务智能。

同济大学经济与管理学院,上海200092;廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。

香港理工大学电子计算学系,香港【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。

为此,本文对Web文本情感分类的研究进行综述。

将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。

其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。

分析了情感分类中的语料库选择和研究难点。

最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research.【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。

特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。

这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。

如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。

所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。

其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。

因此,情感分析的一个重要问题就是情感倾向性的判断,即判断作者的观点是褒义的、积极的,还是贬义的、消极的。

这类问题也被称为情感分类(sentiment classification)。

1、文本情感分类概述在已有的研究中,情感分类也被称为意见挖掘(opinion mining)[1,2]。

为了表述一致,本文统称为情感分类。

情感分类涉及多个领域,如自然语言处理、人工智能、自动文本分类、文本挖掘、心理学等。

它不同于传统的基于主题自动文本分类,后者分类的依据是文本的主题,如属于军事类还是体育类,而情感分类主要用来判别自然语言文字中表达的观点、喜好以及与感受和态度等相关的信息[3]。

由于Web文本是以非结构化形式存在的,因此对文本进行情感分类是一个复杂的过程,包括:主客观文本分类、情感极性判别、情感强度判别。

前者是情感分类的预处理工作,后两者才是真正意义上的情感分类。

为了避免混淆,我们将后两者统称为情感识别(见图1)。

图1描述了从原素材到得出情感结果的整个情感分类过程。

其中,原素材中的文本可以是句子或者是整篇文章,它们所对应的分类任务分别为句子情感分类和文档情感分类。

为了减少干扰,提高情感分类的精度,首先要对文本进行主观性识别,即主客观文本分类。

只有带有主观色彩的文本才会蕴含着作者的情感,所以情感识别的对象是主观文本。

情感识别分为极性判别和强度判别两个任务。

极性分类是识别主观文本的情感是正面的赞赏和肯定还是负面的批评与否定。

而强度判别则是判定主观文本情感倾向性强度,比如强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。

在整个情感分类过程中,还涉及分类前的预处理技术,包括分词、词性标注、平滑、停用词和缩词的处理等语言处理技术,这些技术相对成熟,不再赘述。

下面从主客观文本分类和情感识别两个方面来总结情感分类的研究现状。

2、主客观文本分类现状所谓“主观性”是指在自然语言中用来表达意见和评价的语言特性[4]。

主观性文本表达的是说话者对某人、某物或某事的态度和看法,包含个人的主观情感色彩。

与之相对应的客观性文本则描述客观存在的事实,说话者往往持有中立和客观的情感。

在表述上,主客观文本也有明显的差异,客观性文本通常采用比较正式的陈述句,而主观性文本因为强调自我表达,表述上比较自由,偏口语化,比如“这款手机酷毙啦!”。

主客观文本分类研究已经展开,并应用在信息检索和信息抽取等领域[5]。

主客观文本分类与其他文本分类类似,可以从篇章、句子和词语三个层面展开,用到的方法主要是机器学习算法。

Wiebe等很早就对主客观文本分类问题进行了研究[4~11]。

Wiebe和Bruce 将某些词类(代词、形容词、基数词、情态动词和副词)、标点和句子的位置作为特征值,设计了针对句子级别的NB分类器[6]。

在此基础上,Wiebe[5]又将某些词性和基于词典的语义词作为特征项,显著提高了分类器的分类效果。

Wiebe 和Wilson还针对基于篇章层面的分类方法进行了研究[7]。

通过计算每篇文档中出现的主观性词语数量,用KNN分类器来判断篇章的主客观性,取得了较好效果。

图1情感分类的主要过程Yu等利用三种统计方法进行主客观句的识别研究,包括相似性方法、NB分类和多重NB分类。

其中NB分类器在原有研究的基础上采用词、2-gram、3-gram 和词类、具有情感倾向的词序列、主语和其直接修饰成分等作为特征项,对主观句识别的查准率和查全率达到了80%~90%[12]。

Pang和Li将句子间的情感联系作为分类的一个重要因素,用最小图割(Minimum cuts)的方法来寻找上下文语句的关系以提高分类精度。

它的划分原理是使成本公式最小:中文语境下主客观文本分类具有一定的复杂性,而且对中文主观性文本的判别起步较晚,大多数情感分析研究都是人为抽取主观性文本。

林斌将影视内容介绍和影视评论分别视为客观文本和主观文本,采用互信息量(MI, Mutual Information)计算影视评论中每个词语的互信息量,并由大到小排序,取最靠前的275个词语,并将它们两两组合,再计算每对组合在影视评论中的互信息量,最后得到“我想”“我应该”等具有主观倾向的75个词语组合,并将其用于句子主客观性的判断,总体的准确率达到了78.42%[14]。

叶强和张紫琼等提出一种根据连续双词词类组合模式(2-POS)自动判别句子主客观性程度的方法。

首先在N-POS语言模型的基础上,利用CHI统计方法提取中文主观文本词类组合模式,利用这些组合模式给每个句子赋以主观性得分,将得分高于设定阈值的句子判定为主观性文本。

实验表明,当阈值为0.12时,主观文本的分类查准率和查全率能达到76%[15]。

需要指出,由于中英文语言结构及中西方文化的差异,使得中文的情感流露方式具有特殊性和复杂性,这给中文文本的情感分析带来挑战。

与英文文本多都应用机器学习不同,中文文本的主客观分类主要采取语义方法,而且分类效果也不够理想,相比于英文能达到90%左右的精度,中文的研究分类精度还不够高。

这主要由于影响中文文本主客观判断的因素远远比英文多而复杂,除了词义、词性之外,词语的用法也会影响到文本的主客观性质。

因此在今后中文文本主观性判别研究中,除了引入机器学习算法外,还要注意考虑中文词法和句法的特殊功能。

另外,一些研究将主客观分类和褒贬情感分类同时看作三分类问题,将文本分成为“褒义”、“贬义”、“客观”。

前两类归为主观文本,后者视为客观文本。

王根和赵军指出这种观点忽略了两个任务所用特征的不同,即将主客观和褒贬极性的特征夹杂在一起,影响了分类效果[16]。

本文认为,主客观分类中的“客观”类和情感分析中的“客观”类是两个不同概念。

比较下面两句话:“这部电影耗资两亿,将于明天在上海万达影城上演首映”;“这部电影整体上还算四平八稳,跟我的预期有点差距,但也不算失望”。

前一句是陈述客观事件,是客观文本。

而后一句显然是作者的主观评价,却不带有明显的褒或贬。

因此对它的分类过程是:首先将其归为主观性文本,然后通过情感分析再归为情感类别中的“客观”(或“中立”)类。

所以,非褒非贬并不是作者没情感,而是情感倾向并不明显,持中立态度。

如果将双分类任务看成一个多分类问题的话,会错误地把带有主观性但情感倾向不明显的文本分类为客观性文本,影响情感分类的科学性。

为了避免混淆,在后面的表述中,本文将情感分类结果中的非褒非贬统称为“中立”类。

相关文档
最新文档