文本情感分析综述

合集下载

基于深度学习的文本情感分析方法研究

基于深度学习的文本情感分析方法研究

基于深度学习的文本情感分析方法研究随着社交媒体的兴起以及用户生成内容的爆炸增长,对大规模文本数据进行情感分析的需求与日俱增。

文本情感分析是一种将自然语言处理和机器学习相结合的技术,旨在自动识别和理解文本中的情感倾向。

近年来,深度学习模型在文本情感分析领域取得了显著的进展,并且成为了研究和应用的热点之一。

本文将就基于深度学习的文本情感分析方法进行综述,并对其研究现状和未来发展进行讨论。

一、基础知识介绍1.1 文本情感分析概述文本情感分析,又称为情感倾向分析,是指通过计算机技术对文本进行情感判断和分类的过程。

其目标是将文本分类为积极、消极或中性等情感类型。

情感分析可应用于情感监测、品牌舆情分析、用户评论情感分析等领域,对于企业决策和社会舆情分析起着重要作用。

1.2 深度学习简介深度学习是一种基于神经网络模型的机器学习方法,通过多层神经网络的构建和训练来解决复杂的模式识别和数据分析问题。

与传统机器学习方法相比,深度学习模型以其强大的非线性拟合能力和自动特征学习能力在文本情感分析任务中表现出色。

二、基于深度学习的文本情感分析方法2.1 卷积神经网络(CNN)卷积神经网络是一种常用的深度学习模型,具有一定的自然语言处理能力。

在文本情感分析领域,卷积神经网络通过卷积操作来捕捉文本中的局部特征,进而通过全连接层进行分类。

该方法在文本分类任务中取得了很好的效果。

2.2 循环神经网络(RNN)循环神经网络是一类具有记忆能力的神经网络,对于处理序列数据的任务特别有效。

在文本情感分析中,循环神经网络通过序列建模,能够较好地捕捉上下文信息,对于理解文本中的情感趋势非常有帮助。

然而,长时依赖问题限制了RNN模型的准确性。

2.3 长短期记忆网络(LSTM)为了解决长时依赖问题,研究者提出了长短期记忆网络。

LSTM模型通过引入记忆单元和门控机制,能够有效地记忆长期依赖关系,并且在文本情感分析中取得了较好的效果。

LSTM模型在多层结构的基础上,能够更好地处理文本中的复杂情感信息。

自然语言处理中的情感分析算法综述

自然语言处理中的情感分析算法综述

自然语言处理中的情感分析算法综述 自然语言处理(NLP)是指通过计算机技术对人类语言进行处理和分析的过程。情感分析是NLP中一个重要的领域。它是指通过对文本中的语言的分析,来确定其情感色彩的方法。情感分析的应用很广泛,可以在社交媒体、舆情监测、客户服务等方面扮演重要的角色。

近年来,随着机器学习和深度学习技术的应用,情感分析算法也越发成熟。本篇文章将介绍自然语言处理中的情感分析算法的综述。

一、情感分析的基本任务 情感分析通常是根据对文本内容的情感态度、情感取向和情感倾向性进行分析的过程。情感分析通常具有以下几个基本任务。

1.情感极性分析:分析给定的文本中所表现的情感是正向的、中性的还是负向的。

2.情感倾向性分析:分析文本中的情感趋势,并确定它们可能会对后续行动产生何种影响。

3.情感目标提取:确定文本中所提及的对象或事件,以便根据情感对它们进行分类。

二、情感分析算法 情感分析算法通常基于词语级别和句子级别两种分析方法。下面我们将详细介绍这两种方法。

1.词语级别 词语级别情感分析是通过对单个单词进行标记,来对文本情感进行分析。这种方法假设一个给定的单词可以被单独地分类为正向、中性和负向三种情感。例如“happy”\(快乐的)、“sad”(悲伤)和“dislike”(厌恶)等单词可以被分为正向、负向和中性。

在这种情况下,情感分析通过研究大量的文本并对单词进行标记,来构建词典。这个词典将用来缩小不同文本中的单词,从而计算他们的情感得分并针对情感分类。

2.句子级别 句子级别的情感分析是通过对大量的、语言流畅的文章中的情感信息进行分析来推断出文本的情感方向。像词语级别的情感分析一样,这种方法不能考虑文本中的语法和语义信息。然而,句子级别的分析考虑了整个文章的上下文信息。

此算法通常分成以下几个步骤: (1)预处理:将原始文本清理并分词,去除停用词并提取关键词。 (2)特征提取:从文本中提取有用信息,比如情感特征和其他相关信息,比如语义、主题和情境等。

情感分析简述范文

情感分析简述范文

情感分析简述范文情感分析是一项使用自然语言处理技术对文本中的情感进行识别、分类和分析的任务。

它可以帮助我们理解文本背后的情感状态,帮助企业进行市场调研、舆情监测、产品改进等决策,并且也可以扩展到其他领域,如社交媒体分析、文本推荐等。

情感分析的核心任务是将文本中的情感分类为积极、消极或中性。

这个任务的复杂性在于情感的主观性和多样性。

情感本身具有很强的主观性,不同的人可能对同一段文字有着完全不同的情感感受。

此外,情感还可以表达为多种方式,如喜欢、厌恶、愤怒、悲伤等。

因此,情感分析需要识别并理解文本中的情感表达方式,从而进行分类。

情感分析可以分为两个主要的子任务,情感极性分类和情感强度分析。

情感极性分类是将文本分类为积极、消极或中性,它是情感分析最基本的任务。

而情感强度分析则是对情感的强弱程度进行分析,它可以帮助我们进一步了解文本中的情感状态。

情感分析的方法可以分为基于词典的方法和基于机器学习的方法。

基于词典的方法通过建立情感词典,将文本中的词语与情感进行匹配,从而判断文本的情感极性。

这种方法的优点是简单快速,但是由于无法考虑词语的上下文信息,容易受到词语歧义和文本语境等因素的影响。

基于机器学习的方法则通过训练一个分类器来进行情感分析。

这种方法通常需要大量标记好情感的训练数据,并且利用特征提取和特征选择等技术来提取文本中的情感特征。

这种方法的优点是可以考虑上下文信息和语义信息,从而提高情感分析的准确性和泛化能力。

但是它也存在着对训练数据的依赖性,需要大量的标注数据和特征工程的工作。

近年来,随着深度学习的发展,基于神经网络的方法在情感分析中取得了显著的效果。

例如,使用卷积神经网络(CNN)或长短时记忆网络(LSTM)可以对文本进行情感分类。

这些模型可以自动学习文本中的特征并进行分类,提高了情感分析的准确性。

然而,情感分析仍然存在一些挑战。

首先,情感的主观性使得情感分析任务具有一定的难度。

文本中的情感可能受到文化、个人经历等多种因素的影响,因此情感识别的准确率可能会有一定的误差。

自然语言处理中的情感分析技术综述

自然语言处理中的情感分析技术综述

自然语言处理中的情感分析技术综述导言自然语言处理是人工智能领域中重要的研究方向之一,而情感分析作为自然语言处理的一个重要任务,在社交媒体、产品评论、舆论分析等领域发挥着重要作用。

本文将对自然语言处理中的情感分析技术进行综述,包括情感分类、情感词典、情感识别等方面的研究进展和方法。

一、情感分析概述情感分析,又称情绪分析,是指通过对文本进行分析和理解,从中提取出文本的情感倾向。

情感分析可以分为情感分类和情感识别两个主要任务。

情感分类是将文本分为积极情感、消极情感和中性情感等类别;情感识别是对文本中的具体情感进行识别和分析,如愤怒、快乐、悲伤等。

二、情感分类方法1. 传统机器学习方法:传统的机器学习方法在情感分类中经常被使用。

常用的特征提取方法包括词袋模型、TF-IDF模型和n-gram模型。

然后使用支持向量机(SVM)、朴素贝叶斯(Naive Bayes)等分类算法进行情感分类。

2. 深度学习方法:随着深度学习的发展,深度学习方法在情感分类中取得了显著的成果。

深度学习方法可以使用词向量模型(如Word2Vec、GloVe等)对文本进行表示,然后使用卷积神经网络(CNN)、长短期记忆网络(LSTM)等深度学习模型进行分类。

三、情感词典构建情感词典是用于情感分析的重要资源,它包含了各种词语与情感之间的关系和情感强度。

构建情感词典的方法主要有以下几种:1. 人工标注方法:人工标注是构建情感词典的一种常用方法。

研究人员通过阅读文本,将词语与情感进行匹配和标注,构建起词语与情感之间的关系。

2. 语料库方法:利用大规模语料库进行情感词典构建也是一种常见的方法。

通过分析语料库中的词语和情感的共现关系,可以推断出词语与情感之间的关系。

3. 半监督学习方法:半监督学习结合了人工标注和无监督学习的方法,通过在少量标注数据上进行情感标注,然后利用无监督学习方法从未标注数据中学习情感词典。

四、情感识别方法情感识别是情感分析中的一个重要任务,通过识别文本中的具体情感,可以更细粒度地进行情感分析。

面向评论的方面级情感分析综述

面向评论的方面级情感分析综述

面向评论的方面级情感分析综述随着互联网的快速发展,人们对于商品、服务等方面的评论越来越多。

这些评论中蕴含着丰富的情感信息,对于企业和研究者来说,如何有效地分析和理解这些情感信息具有重要意义。

本文将综述面向评论的方面级情感分析的研究现状、不足以及未来研究方向。

方面级情感分析是一种将文本情感分析细化到特定方面的技术,如产品特性、服务质量等方面。

通过对面包、酒店等特定方面的情感分析,可以为消费者提供更加详细、客观的参考信息。

在方面级情感分析中,情感分类和情感极性分析是两个基本的问题。

情感分类是将评论分为正面、负面或中立三类,而情感极性分析则是进一步确定评论的积极或消极程度。

情感词句的提取和特征选择是解决问题的关键。

面向评论的情感分析需要运用自然语言处理、机器学习等技术,根据评论内容提取情感信息。

常用的方法包括基于文本的监督学习和非监督学习。

监督学习需要标注大量的训练数据,通过学习模型进行情感分类和极性分析。

非监督学习则不需要标注数据,通过聚类、关联规则等方法发现情感模式和规则。

在实际应用中,需要根据具体场景选择合适的方法。

评估情感分析效果的方法包括传统评估方法和基于深度学习的评估方法。

传统评估方法主要通过准确率、召回率和F1分数等指标来衡量模型的性能。

基于深度学习的评估方法则可以利用神经网络模型,如卷积神经网络(CNN)、循环神经网络(RNN)等,对情感分析结果进行自动评估。

虽然面向评论的方面级情感分析已经取得了很大进展,但仍存在一些问题和挑战。

未来的研究方向包括:1)集成多种方法和数据,提高情感分析的准确性和可靠性;2)深入研究情感极性细粒度划分,以适应更加复杂的情感分析需求;3)考虑上下文信息对情感分析的影响,提高模型的情境理解能力;4)结合多模态数据,如图像、音频等,丰富情感分析的视角和维度;5)研究无监督学习方法,减少对大量标注数据的依赖;6)探索情感分析和对话系统的结合,为实际应用提供更多可能性。

细粒度情感分析研究综述

细粒度情感分析研究综述

细粒度情感分析研究综述一、本文概述随着自然语言处理(NLP)技术的快速发展,情感分析已成为一个备受关注的研究领域。

细粒度情感分析作为情感分析的一个重要分支,旨在识别文本中更具体、更细致的情感倾向,如针对某个实体、事件或属性的情感。

这种分析方法能够提供更深入、更精确的情感洞察,对于理解用户需求、优化产品设计、改进服务等方面具有重要意义。

本文将对细粒度情感分析的研究进行全面的综述。

我们将介绍细粒度情感分析的定义、任务类型和研究意义,以明确本文的研究范围和目的。

我们将回顾细粒度情感分析的发展历程和研究现状,包括主要的研究方法、技术挑战和取得的进展。

在此基础上,我们将分析细粒度情感分析面临的主要问题和挑战,并探讨未来的研究方向和发展趋势。

我们将总结细粒度情感分析在实际应用中的价值,并展望其未来的应用前景。

通过本文的综述,我们希望能够为细粒度情感分析的研究者和实践者提供一个全面、系统的参考,推动细粒度情感分析技术的进一步发展和应用。

二、细粒度情感分析的研究现状细粒度情感分析,作为自然语言处理领域的一个重要分支,近年来受到了广泛的关注和研究。

随着大数据时代的到来,人们不再满足于简单的二元情感分类(如积极/消极),而是希望从文本中获取更细致、更深入的情感信息。

细粒度情感分析旨在识别文本中更具体的情感类别,如愤怒、喜悦、悲伤、惊讶等,甚至进一步区分同一情感类别下的不同强度或维度。

数据资源建设:为了推动细粒度情感分析的研究,研究者们构建了多个标注了细粒度情感标签的数据集。

这些数据集覆盖了不同领域和语种的文本,如电影评论、社交媒体帖子、产品评价等,为细粒度情感分析的研究提供了坚实的基础。

特征提取方法:在细粒度情感分析中,特征提取是关键的一步。

研究者们提出了多种特征提取方法,包括基于词袋模型的特征、基于词嵌入的特征、基于深度学习的特征等。

这些特征提取方法各有优劣,在实际应用中需要根据具体情况选择合适的方法。

情感分类算法:随着机器学习技术的发展,研究者们提出了多种用于细粒度情感分析的分类算法,如支持向量机、朴素贝叶斯、决策树、随机森林等。

中文文本情感分析

中文文本情感分析中文文本情感分析是一种通过计算机处理中文文本来判断其情感倾向的方法。

情感分析可以帮助我们了解人们对于特定主题或事件的态度和情绪,对于舆情分析、市场调研以及社交媒体监测等领域有着广泛的应用。

本文将从情感分析的定义、算法原理、应用案例等方面进行探讨,以帮助读者更好地理解中文文本情感分析的方法和应用。

首先,我们来看一下情感分析的定义。

情感分析,又称为情感检测或情绪分析,是一种通过计算机自动地分析文本、音频或视频等媒体中的情感意义的技术。

它的目标是识别和提取文本中的情感倾向,例如积极、消极或中性。

通常情感分析可以分为两个主要的任务,情感极性分类和情感强度判断。

情感极性分类是将文本划分为积极、消极或中性三类,而情感强度判断则是判断文本中表达的情感强烈程度。

情感分析的算法原理有多种,下面介绍几种常见的方法。

传统的方法包括基于词典的情感分析和基于机器学习的情感分析。

基于词典的方法通过查找文本中出现的情感词和修饰词来判断文本的情感倾向。

该方法的优点是简单易实现,但是受限于词典的规模和质量,对于新词、多义词以及上下文的处理较为困难。

而基于机器学习的方法则是通过训练模型来自动地学习文本与情感之间的关系。

该方法的优点是可以自动学习特征和模式,对于上下文和语境的处理更为准确,但是需要大量的标记数据进行训练。

近年来,随着深度学习的兴起,基于神经网络的情感分析方法也得到了广泛的应用。

这些方法通常使用循环神经网络(Recurrent Neural Network,RNN)或者卷积神经网络(Convolutional Neural Network,CNN)来处理序列化的文本数据。

RNN适用于处理长序列的文本数据,通过引入记忆单元(LSTM、GRU等)来捕捉上下文信息。

而CNN则使用卷积操作来提取局部特征,适用于短文本的处理。

这些方法的优势在于可以自动提取文本中的语义和语境信息,对于上下文和语境的处理更为准确。

中文文本情感分析的应用非常广泛。

自然语言处理中的情感分析综述

自然语言处理中的情感分析综述情感分析是自然语言处理中的一项重要技术,它通过分析文本中的情感态度、情感极性、情感强度等因素,来判断文本的情感倾向和情感意义。

在大数据时代,情感分析已经成为了企业、政府、媒体等各个领域中非常重要的应用技术。

下面,我将对自然语言处理中的情感分析做一个综述。

一、情感分析的应用领域情感分析的应用领域非常广泛,包括但不限于社交媒体、电商、新闻舆情监测、用户体验分析等。

在社交媒体中,情感分析可以用于分析用户对话题或事件的情感倾向,帮助企业或政府机构了解公众的态度和意见,从而更好地做出决策。

在电商领域,情感分析可以用于分析商品评论的情感极性和强度,帮助消费者更好地选择购买商品。

在新闻舆情监测方面,情感分析可以用于分析新闻报道中的情感态度和情感倾向,帮助媒体更好地了解公众的反应和态度。

在用户体验分析方面,情感分析可以用于分析用户反馈的情感态度和情感倾向,帮助企业更好地了解用户需求和偏好。

二、情感分析的技术实现情感分析的技术实现主要分为基于规则的方法和基于机器学习的方法两种。

基于规则的方法主要是通过制定一些规则来识别文本中的情感态度和情感极性。

这种方法优点是易于理解和调整,缺点是需要大量的人工制定规则,且规则的适用性有限。

基于机器学习的方法主要是通过训练一些算法模型来自动识别文本中的情感态度和情感极性。

这种方法优点是能够自动学习和适应新的情感语料库,缺点是需要大量的训练数据和算法调试,且对算法模型的解释性较差。

三、情感分析的算法模型情感分析的算法模型主要包括朴素贝叶斯、支持向量机、决策树、深度学习等。

朴素贝叶斯算法是情感分析中经典的算法模型之一,它通过统计文本中情感词汇的频率和文本中的情感类别概率来计算文本所属的情感类别。

支持向量机算法是一种流行的情感分析算法模型,它通过将每个文本映射到高维空间来进行分类,可以有效地解决高维特征无法线性分割的问题。

决策树算法是一种可解释性较好的情感分析算法模型,它通过将文本分类成一系列决策路径来进行分类,可以清晰地展示算法的决策过程。

基于机器学习的文本情感分析与综合评价

基于机器学习的文本情感分析与综合评价文本情感分析是指通过机器学习算法对给定文本进行情感判定的过程。

该技术可以帮助人们快速准确地了解一段文字的情感倾向,从而用于社交媒体监测、舆情分析、产品评论分析等领域。

在本文中,我们将探讨基于机器学习的文本情感分析与综合评价的方法和应用。

首先,我们会简要介绍文本情感分析的背景和意义。

随着社交媒体的普及和互联网信息的爆炸式增长,人们需要更快捷有效地获取文本信息中的情感色彩,以便做出决策、判断品牌声誉或了解公众观点。

传统的基于规则的方法存在局限性,无法处理大规模数据并面对多样化的文本。

接下来,我们将深入探讨基于机器学习的文本情感分析方法。

机器学习是一种通过模式识别和数据分析来让计算机从数据中学习的技术。

在文本情感分析中,我们可以利用机器学习算法,通过对大量有标签的文本数据进行训练,建立情感分类的模型。

一种常用的机器学习方法是支持向量机(Support Vector Machines, SVM)。

SVM可以将文本数据投影到高维空间,通过寻找一个最优的超平面来进行分类。

在情感分析中,我们可以将情感倾向(如正面、负面、中性)作为分类标签,将文本特征(如词频、词性、情感词)作为输入特征,通过训练模型来进行情感分类。

除了支持向量机,深度学习模型也被广泛应用于文本情感分析中。

深度学习模型,如循环神经网络(Recurrent Neural Networks, RNN)和长短时记忆网络(Long Short-Term Memory, LSTM),可以捕捉文本数据的时序关系和上下文信息,提高情感分类的准确性。

在进行情感分析之前,我们还需要进行文本预处理。

文本预处理是为了去除噪音和规范文本,以提高情感分类的效果。

常见的文本预处理步骤包括去除停用词、词干提取和词向量化等。

除了对文本进行情感分类,我们还可以进行文本综合评价。

文本综合评价是指从文本中提取和整合各种信息,综合评价文本的质量、可信程度、观点、态度等。

文本数据的情感分析及应用研究

文本数据的情感分析及应用研究随着网络和社交媒体的普及,人们每天都会产生大量的文本数据,这些文本数据中充满了情感、态度、喜好等信息。

如何通过对这些数据进行分析,获取有价值的信息,已经成为了一个热门话题。

而文本数据的情感分析技术,旨在找出文本数据中的情感倾向,是解决这个问题的一种重要手段。

一、什么是文本数据情感分析?文本数据的情感分析,是一种自然语言处理技术,可以通过计算机程序分析文本数据中所含的情感信息。

情感分析通常采用机器学习方法来训练算法,以便识别和分类文本中的情感信息。

其目的是了解文本的情感倾向,判断内容的褒贬好坏,以及确定针对某个话题或产品的用户意见。

通过情感分析,我们可以了解到人们对某个话题的态度、喜好和偏好。

例如,社交媒体上的用户评论或反馈,可以通过情感分析技术,快速获得用户对某个产品、品牌或服务的看法,并分析这些看法的趋势和优劣。

同时,情感分析技术也可以被广泛应用于网站评论、新闻媒体、营销研究等领域。

二、文本数据情感分析的方法文本数据情感分析的方法,可以根据不同的目的和实际应用场景,采用不同的技术和算法。

文本数据情感分析的主要方法包括以下三种。

1.词典法词典法是情感分析技术中最简单也是最常用的一种方法。

其基本思想是,通过建立情感词典(positive、negative和neutral),并扫描文本中包含的关键词,来判断文本数据的情感状态。

这种方法的缺点在于,不能准确判断没有列入词典中的词汇,因此需要预处理和整理,以充分利用这种技术的潜力。

2.机器学习方法机器学习方法是目前情感分析技术最常用的高级技术。

该方法基于语料库或训练集中的数据,通过算法构建出分类模型,然后使用这个模型对文本数据进行情感分析。

机器学习方法包括支持向量机、朴素贝叶斯、决策树等算法。

3.深度学习方法深度学习方法最近受到了较多的关注,它可以更有效地抽取文本数据的特征,并提高情感分析模型的准确性。

它主要应用于自然语言处理和图像识别领域,并能将这两种技术结合在一起,做出更快、更准确和更高效的分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。

非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。

如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。

尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。

这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。

基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。

因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。

情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。

文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。

因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。

研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。

文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。

情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。

情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。

情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。

情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。

目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。

本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。

1 基于统计机器学习法随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。

多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。

机器学习的本质是基于数据的学习(Learning from Data)。

利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。

2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。

该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。

他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。

[7]。

Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文档,并采用Support Vector Machine进行分类,来区分带有正面和负面评论的文档。

Feizhongchao[3]等利用句子短语模式对文本的情感倾向进行分类,主要通过构造文本中的每个句子短语模式计算情感倾向得分。

Ni等利用CHI和信息增益进行特征选择,并采用NB、SVM和Rocchio’s算法对情感分类[8]。

Cui等利用PA(Passive Aggressive)、LM(Language Modeling)和Winnow分类器,并比较了她们的性能[9]。

在英文评论领域,研究者已经初步取得一些成果,而针对中文网络用户评论的研究仍还处于起步阶段。

随着中国电子商务在世界领域内的崛起,亟需对于中文评论中有用信息的自动提取技术。

对于利用机器学习的方法进行中文的情感分析,由于机器学习方法的通用性,面向英文的很多方法都可以借鉴。

近几年国内研究人员在此方面也取得一些成果,唐慧丰等人[10]还特别针对各种情感分类技术包括面向中文文本的方法进行了总结和比较。

2005年,叶强[4,5]等人从文本中抽取主观性的信息,并赋予相应的权值,根据权重构造倾向分类器。

蔡健平等人[6]提出的基于机器学习的词语和句子极性分析,该方法通过构建极性词典来分析领域极性词,同时采用基于词的方法和Bayes方法对网上手机评论文章包含的主观意见进行褒贬挖掘,取得了一定的成果。

李艺红,蒋秀凤在文献[12]中采用SentWordNet构建中文倾向性词表,通过剔除停用词等降低句子向量的维数,以此来提高句子向量化速度,然后利用支持向量机分类器进行句子倾向性判断,最后提出两种新的置信度计量方法对倾向性句子进行排序。

实验结果表明,构建的识别系统在一定程度上能有效识别倾向性句子。

白鸽,左万利等在文献[13]中针对汉语评论的多种特征使用机器学习方法(如贝叶斯、最大熵和支持向量机),解决了汉语评论的情感分类问题。

实验结果表明,机器学习方法对汉语评论的分类效果较好,支持向量机的表现最好。

句子级别和评论级别的准确率分别达到88.26%和91.79%。

随着研究进展的深入,逐渐出现一些研究者结合不同分类方法进行情感计算。

郭明等在针对新闻报道情感分析中将机器学习中的经典分类方法与规则方法相结合,通过支持向量机分类器来研究特征选择方法及特征权重计算方法的组合进行实验以分析新闻语音文本的情感倾向,并判断其强弱[14]。

并且,近年来有关自然语言处理、人工智能、信息检索、数据挖掘以及Web应用等领域的多个国际顶级会议(AAAI、ACL、SIGIR等)都收录了文本情感倾向分析的相关论文。

机器学习的方法虽然在目前来讲分类的准确程度比较高,但是它针对每一种产品使用前,训练样本集的建立都需要采用人工方法对大量的评论文章逐一阅读甄别,并进行手工标志,这与利用自动情感分类降低人的阅读负担这一初衷还有着一定的差距。

因此,近来许多研究者将情感分析研究的重点集中在对训练样本的需求量较低的语义方法上。

2、基于语义的方法最初学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词[10-12].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[13-16].此外,一些学者[17]沿用了Turney等人的点互信息的方法[9],通过计算WordNet中的所有形容词与种子褒义词代表good和贬义词bad之间的关联度值来识别出评价词语情感倾向。

2002年,Turney在其论文[15]中介绍了基于语义倾向的非监督文本分类方法。

根据褒贬含义的倾向信息对评论性文章进行分类,其分类结果更符合人们对评论性文章分类的实际需求。

Pang提出了对语义倾向分类结果进行后续处理,进一步将分类结果按照语义倾向强度进行细分的方法,并通过一系列的实验证明了其方法的可行性[16]。

2004 年,Hu [17]等人首先提出应用关联规则分类方法提取英文评论中的产品特征,利用该非监督型方法对于包括手机、数码相机等产品评论进行挖掘,平均查全率达到80%,平均查准率达到72%,并在此基础上进行了后续的研究[18],判断了用户对这些特征的情感导向。

Popescu 等人[19]利用研发的KonwItAll 系统进行贝叶斯分类,从而提取产品特征,提高Hu 的准确率,但是查准率却有所下降。

刘健等人[21]提出与产品特征挖掘并考虑产品特征的情感倾向这两个功能类似的意见实例抽取(opinion instance extraction) 需要建立相关的领域知识;Kobayashi 等人[20]采用了一个半自动化的循环方法提取产品特征和用户观点,但是需要大量的人工参与。

以上研究都是针对于词语的情感分类,利用已有的电子词典或词语知识库扩展生成情感倾向。

英文词语情感倾向信息的获取主要是在General Inquirer和WordNet的基础上进行的研究;Peter[23]最早提出将点互信息( pointwise mutual information) 与信息检索方法( information retrieval) 相结合,借助搜索引擎的后台数据库获得语义倾向信息,得到汽车评论的准确率是84%,电影评论的准确率是66% 。

其可靠性已经在英文客户情感分类的研究中得到了初步的验证。

而中文词语情感倾向信息的获取依据主要有HowNet,但是还是处于研究阶段。

2006年,复旦大学朱嫣岚等基于HowNet[24],提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。

实验表明,这两种方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。

党蕾,张蕾在文献[25]中提出采用否定模式匹配与依存句法分析相结合的方法。

研究分析了修饰词极性以及否定共享模式,确定修饰词以及扩展极性的定量和否定共享范围,提出依存语法距离的影响因素来计算情感倾向,并且在否定模式匹配后改进句子极性算法。

实验结果表明该方法取得了良好的效果。

因此,对于文档的情感倾向分析研究逐渐成为研究者新的起点。

Ye 等人[29]探索了中文环境下对于文档的情感分析理论与方法,在PMI-IR 方法的基础上,初步建立了中文语义倾向情感分析方法,获得了接近英文同类研究的分析结果,显示出该方法在中文情感分析上的应用前景。

熊徳兰等人[28]提出了基于知网的语义距离和语法距离相结合的句子褒贬倾向性计算方法,利用夹角余弦法对语义倾向进行了改进。

何婷婷等[30]基于HowNet的语义相似度计算的基础上,提出了一种改进的基于语义理解的文本情感分类方法来判定文本的情感倾向性。

相关文档
最新文档