中文文本情感倾向性分析

合集下载

文本情感分析综述

文本情感分析综述

文本情感分析综述文本情感分析是指对文本内容进行分析,以确定其中所包含情感的方法。

情感分析在自然语言处理领域具有广泛的应用,包括社交媒体监测、品牌管理、市场调研等。

本文将综述目前文本情感分析的技术和方法,并探讨其应用领域和存在的挑战。

一、情感分析技术和方法:1. 基于词典的方法:该方法使用预定义的情感词典,对文本中的词进行情感打分,然后通过加权求和或者分类算法来确定整个文本的情感极性。

常用的词典有SentiWordNet、AFINN等。

2.机器学习方法:该方法通过训练一个分类器,将文本分为积极、消极或中性,常用的算法有朴素贝叶斯、支持向量机、随机森林等。

3.深度学习方法:近年来,深度学习方法在情感分析中取得了显著的进展。

深度学习模型如循环神经网络(RNN)和卷积神经网络(CNN)能够对文本进行端到端的建模,包括长期依赖和局部特征提取。

二、情感分析的应用领域:1.社交媒体监测:情感分析可用于监测社交媒体上用户对特定事件、产品或品牌的态度和情感倾向,帮助公司及时了解用户的反馈和需求。

2.市场调研:情感分析可以帮助企业了解产品的市场反应和用户的需求,进而优化产品设计和营销策略。

3.品牌管理:情感分析可以帮助企业评估品牌形象和声誉,并及时发现并解决潜在的危机和问题。

4.情感分析还可应用于舆情监测、情感化以及个性化推荐等领域。

三、情感分析的挑战:1.多样性和主观性:情感分析受到文本多样性和主观性的影响,不同文化和背景下,不同人对同一词汇或句子的情感倾向可能会有差异。

2.语义理解:情感分析需要深入理解文本的上下文和语义,包括语言的隐喻、讽刺等。

这对于机器来说是一大挑战。

3.数据标注:情感分析的训练需要大量标注好情感的数据,然而标注数据是一项复杂且耗时的任务,为情感分析提供高质量的训练数据仍然是一个问题。

综上所述,文本情感分析是一项具有挑战性但应用广泛的任务。

随着技术的不断发展,我们可以期待情感分析在各个领域的更深入应用,并希望能够解决当前面临的挑战,提升情感分析的准确性和效果。

基于词典的中文情感倾向文本分析工具

基于词典的中文情感倾向文本分析工具

基于词典的中文情感倾向文本分析工具以下是一些基于词典的中文情感倾向文本分析工具:
1.哈工大情感词典:哈尔滨工业大学开发的情感词典,包含了积极、消极和中性的词汇。

可以使用该词典进行情感倾向的判断。

2.百度情感分析API:百度提供的自然语言处理工具之一,可以对中文文本进行情感分析,返回积极、消极和中性的概率值。

3.哥伦比亚大学中文情感词典:由哥伦比亚大学研究团队创建的中文情感词典,包含了积极、消极和中性的词汇以及其情感强度。

可以用于中文情感分析。

4.中山大学中文情感词汇本体库:中山大学开发的情感词汇本体库,包含了积极、消极、中性和其他情感倾向的词汇。

可以用于中文文本情感分析的研究和应用。

这些工具通常是基于词典匹配的方式进行情感分析,通过匹配文本中的词汇与情感词典中的词汇进行情感倾向的判断。

然而,这种方法可能无法处理多义词、语境相关性等问题,所以结果可能不准确。

一些工具还结合了机器学习和统计方法进行情感分析,以提高准确性。

文本情感分析准确率评估说明

文本情感分析准确率评估说明

文本情感分析准确率评估说明文本情感分析是指通过对文本进行分析和处理,从中提取出文本的情感倾向以及情感强度等信息的技术。

该技术广泛应用于社交媒体舆情监测、产品评论分析、舆情预测等领域。

对于文本情感分析而言,准确率是一个重要的评估指标,用来评估模型在情感分析任务上的表现。

要进行文本情感分析准确率的评估,需要先确定评价指标和数据集。

常用的评价指标包括准确率、精确率、召回率、F1值等。

其中,准确率是指模型预测正确的样本数占总样本数的比例;精确率是指模型预测为正的样本中真正为正的比例;召回率是指真正为正的样本中被模型预测为正的比例;F1值是精确率和召回率的调和平均数。

数据集的选择对准确率的评估结果也有重要影响。

选取代表性的、经过标注的数据集,可以更客观地评估模型的性能。

一般可以选择包含正向和负向情感标签的数据集,用于二分类情感分析准确率的评估。

还可以选择包含多个情感类别标签的数据集,用于多分类情感分析准确率的评估。

进行文本情感分析准确率的评估时,需要将数据集分为训练集和测试集,通过训练模型在训练集上学习特征和规律,再在测试集上进行预测和评估。

常用的情感分析模型包括基于规则的方法、机器学习方法和深度学习方法。

根据不同的方法选择相应的模型,并在训练集上进行训练和调优。

在进行模型评估时,可以使用K折交叉验证的方法来提高评估结果的可靠性。

K折交叉验证将数据集分为K个子集,每次使用其中K-1个子集进行训练,用剩余的一个子集进行测试,重复K次后取平均值作为最终评估结果。

评估结果的解读要结合实际应用需求来进行。

例如,在产品评论分析任务中,对于情感分析的准确率要求一般较高,因为需要精确把握用户的情感倾向;而在舆情监测任务中,对于情感分析的准确率要求相对较低,因为更注重对整体舆情的把握。

最后,还可以通过与其他模型进行比较来进一步评估模型的准确率。

选择一些具有代表性的、公开可用的模型进行比较,根据各个模型在相同数据集上的评估结果进行对比分析,从而得出模型的优劣势。

文本情感分析范文

文本情感分析范文

文本情感分析范文文本情感分析是指对一段文本进行评估和判断,以确定文本所表达的情感情绪是积极的、消极的还是中性的。

在自然语言处理领域,文本情感分析是一项重要的任务,它可以在许多应用中发挥关键作用,例如舆情监测、情感推荐和市场调研等。

情感分类是文本情感分析中的基本任务之一、情感分类的目标是根据文本的内容和上下文分析出文本所表示的情感类别。

常见的情感类别包括积极、消极和中性。

情感分类通常借助于机器学习算法,如支持向量机、朴素贝叶斯和深度学习模型等。

这些算法需要在训练阶段使用标注好的数据进行模型的训练,然后通过对新的文本进行分类来确定文本的情感类别。

情感分类可以被应用于许多领域,如舆情分析、评论分析和产品评价等。

另一个常见的任务是情感极性判断。

情感极性判断是指在情感分类的基础上,进一步判断出文本所表达情感的正负方向。

情感极性判断通常采用二分类的方法,将情感分为正向和负向两个极性。

情感极性判断可以帮助我们更好地理解文本的情感倾向性和态度。

这在舆情分析和情感推荐等领域中非常有用。

文本情感分析的关键挑战之一是语义的理解和表示。

由于自然语言的多样性和复杂性,对文本情感的准确理解是一项具有挑战性的任务。

为了解决这个问题,研究人员开发了各种各样的方法和技术,例如基于词典的方法、基于机器学习的方法和基于深度学习的方法等。

这些方法充分利用了大规模的训练数据和强大的计算能力,取得了显著的成果。

除了挑战,文本情感分析还面临着一些潜在的问题,例如主观性和目标性的混淆、文本长度的限制以及情感表达的多样性等。

这些问题需要进一步的研究和改进,以提高文本情感分析的性能和效果。

总结起来,文本情感分析是一项重要的任务,它可以用于许多应用中,从舆情分析到情感推荐等。

情感分类和情感极性判断是文本情感分析的两个主要任务。

虽然文本情感分析面临着挑战和问题,但通过不断的研究和改进,我们可以进一步提高其性能和效果,提供更好的情感分析服务。

文本情绪分析综述

文本情绪分析综述

文本情绪分析综述随着社交媒体和在线交流的普及,人们产生和接触到的文本信息越来越丰富。

这些文本信息中蕴含着大量的情感信息,对于理解人们的需求、意见和态度具有重要意义。

文本情绪分析正是一种用于提取和处理这些情感信息的技术。

本文将综述文本情绪分析的基本概念、现状、趋势以及未来研究方向。

一、引言文本情绪分析是一种自然语言处理技术,通过计算机算法自动识别和分析文本中的情感倾向。

这种技术可以应用于诸多领域,如智能客服、广告效果评估、新闻报道分析等。

准确、高效的文本情绪分析技术对于企业、政府和社会各界具有重要意义。

二、情感分析文本情绪分析的核心是情感词典和机器学习算法。

情感词典是一种包含情感词汇及其权重的词典,用于表示文本中的情感倾向。

机器学习算法则是通过训练大量样本学习文本情感倾向的模型,并对新文本进行情感预测。

在情感分析过程中,特征选择和模型训练是两个关键环节。

特征选择涉及到从文本中提取有意义的信息,如词频、词性、句法等,用于判断文本的情感倾向。

模型训练则是通过机器学习算法,将提取的特征输入到模型中进行训练,以得到更准确的情感预测结果。

三、应用领域文本情绪分析在各个领域都有广泛的应用。

例如,在智能客服领域,文本情绪分析可以帮助企业快速了解客户需求和意见,提高客户满意度;在广告文案领域,文本情绪分析可以评估广告效果,为广告制作提供参考;在新闻报道领域,文本情绪分析可以分析作者的情感倾向,帮助读者更好地理解报道内容。

然而,文本情绪分析在实际应用中仍面临一些挑战,如情感词典的不完善、不同文化背景下的情感差异等。

因此,提高文本情绪分析的准确性和普适性仍是未来的重要研究方向。

四、未来展望随着深度学习和自然语言处理技术的不断发展,文本情绪分析的准确性和应用范围也将得到进一步提升。

未来,文本情绪分析有望实现以下发展:1、算法优化:结合深度学习和传统机器学习算法的优点,提高情感分析的准确性。

例如,使用预训练的深度学习模型进行情感预测,以及结合多种特征进行模型训练等。

基于情感词典的文本情感分析

基于情感词典的文本情感分析

基于情感词典的文本情感分析
情感词典是一种包含了大量情感词汇及其对应情感极性的词典。

基于
情感词典的文本情感分析方法是通过对文本中出现的情感词进行统计和计算,来推测文本的情感倾向。

具体步骤如下:
1.构建情感词典:收集大量带有情感倾向的文本数据,通过人工标注
或自动化方法,将其中的词汇与情感极性进行配对,形成一个情感词典。

2.分词处理:将待分析的文本进行分词处理,将其切分成一个个独立
的词汇。

3.情感词匹配:将分词后的词汇与情感词典中的词汇进行匹配,检查
是否存在情感词。

4.情感极性计算:对找到的情感词,根据其在情感词典中的情感极性,进行累加计算。

一般情感词典会给出一个词语的情感极性值,如+1代表
积极情感,-1代表消极情感。

5.构建情感得分:通过计算情感词的累加值来得到文本的情感得分。

如果累加值为正,则表示文本倾向于积极情感,如果累加值为负,则表示
文本倾向于消极情感。

6.结果分析:根据情感得分,对文本进行情感倾向的判断。

一般可以
设定一个阈值,如果情感得分大于阈值,则判断为积极情感,如果小于阈值,则判断为消极情感。

基于情感词典的文本情感分析方法简单有效,但也存在一定的局限性,例如在处理含有感情词双关语、否定词、程度副词等复杂情况时效果不佳。

因此,在实际应用中,可以结合其他机器学习或深度学习的方法,以提高情感分析的准确性和泛化能力。

情感分析和文本分类从文本中提取情感信息

情感分析和文本分类从文本中提取情感信息

上下文信息
利用上下文信息,理解词 在特定语境下的含义。
局限性
难以捕捉复杂的语义关系 ,且对语料库的依赖较大 。
03
文本分类技术
基于规则的方法
词法分析
基于规则的方法首先对文本进行 词法分析,包括分词、词性标注 和命名实体识别等,以提取文本
中的关键信息。
情感词典
利用情感词典,基于规则的方法可 以计算文本中每个单词或短语的极 性和情感倾向,从而得出整个文本 的情感倾向。
情感分析和文本 分类从文本中提 取情感信息
汇报人:XXX
2023-11-22
目录
• 情感分析概述 • 情感分析技术 • 文本分类技术 • 情感分析和文本分类的应用场景 • 情感分析和文本分类的挑战与未
来发展
01
情感分析概述
情感分析的定义
01
情感分析是指通过自然语言处理 技术,对文本中的情感信息进行 分析、理解和提取的过程。
提高客户服务质量和效率
详细描述
通过对客户服务热线的通话记录进行分析,企业可以了解客户的需求、问题和意见,从而优化客户服务流程,提 高客户满意度。
新闻报道分析
总结词
快速了解新闻事件的发展趋势
详细描述
通过对新闻报道进行分析,可以快速了解新闻事件的发展趋势、公众对新闻的反应和态度,为决策者 提供参考。
05
局限性
基于规则的方法往往需要手动制定 规则和情感词典,因此时间和人力 成本较高,且规则和词典的覆盖范 围有限。
基于机器学习的方法
特征提取
基于机器学习的方法通常需要 从文本中提取特征,如词频、
n-gram、TF-IDF等。
模型训练
使用已标记的文本数据集进行 模型训练,学习文本特征与情 感类别之间的关系。

自然语言处理中的文本情感分析

自然语言处理中的文本情感分析

自然语言处理中的文本情感分析近年来,自然语言处理技术在各个领域快速发展,其中文本情感分析是其中的一大热点。

文本情感分析,也称为情感分析、观点分析,是指通过分析一段文本所包含的情感信息,来判断该文本的情感倾向、情感强度以及相关情感的主题方向。

文本情感分析是自然语言处理技术的一个重要应用方向,其涉及的领域也非常广泛,如社交网络舆情分析、商品评论分析、新闻报道情感分析等。

一、文本情感分析的基本原理文本情感分析的基本原理是通过计算文本中情感词汇的情感极性,量化出文本情感的倾向性和强度。

情感词汇是指能够表达文本情感色彩的词汇,如开心、伤心、愤怒等。

每个情感词汇都有其对应的情感极性,如开心为正向情感,伤心为负向情感,中立情感则无情感倾向。

文本情感分析在分析文本情感时,一般采用情感词典与文本相匹配的方式进行情感分类,将文本中的情感词汇与情感词典中的情感词汇进行对比,匹配出正向情感词汇和负向情感词汇的个数,进而计算出文本情感的倾向性和强度。

二、文本情感分析的挑战在实际应用中,文本情感分析面临的挑战非常复杂,主要包括以下方面:1. 模糊性和歧义性:同一词汇在不同的语境下可能具有不同的情感极性,例如,“好”这个词可以表示正向情感,也可以表示中立情感,还可以表示负向情感;2. 段落内关系处理:文本的情感表达不仅仅局限于单个词汇的情感极性,还与整个段落的上下文关系息息相关,需要充分考虑语境的影响;3. 情感分类的主观性:情感分类的结果不仅仅受情感词汇的数量和类别影响,还受到运用算法者的主观认识和意愿的影响;4. 数据稀疏性:情感分类所需的数据量巨大,要求大量的标注数据和足够的训练数据。

三、文本情感分析的应用文本情感分析得到了广泛的应用,主要涉及以下方面:1. 社交媒体舆情分析:社交媒体平台成为用户表达情感的主要渠道,文本情感分析可支持舆情监测、热点跟踪、用户画像等功能;2. 产品推广分析:在受众面前展示情感积极向上的一面可以满足消费者购买欲望,文本情感分析可以通过分析用户对产品的态度或情感,改善产品推广策略;3. 新闻媒体情感分析:以新闻报道等文本形式呈现的信息,可以通过分析新闻报道界面所涉及的情感,进而了解到人们对于某项议题的真实情感和观点,支持政策制定和舆情监测;4. 历史事件情感分析:文本情感分析可以针对不同历史事件进行情感词典训练,发现时间序列中数据之间的联系和规律,发现有价值的信息和洞察力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
②无监督机器学习的方法:这种方法与 第①种方法类似,也是假设已经有一些已知 极性的词语作为种子词,对于一个新词,根 据它和种子词的紧密程度对其情感倾向性 进行推断。不同的是,第①种方法的词语紧 密程度度量是以词典信息为依据判断,而这 种方法是根据词语在语料库中的同现情况 判断其联系紧密程度。根据[Turney, 2002& 2003]的经典方法,假设以“真”、“善”、“美” 作为褒义种子词,“假”、“恶”、“丑”作为 贬义种子词。则任意其它词语的语义倾向 SO 定义为与各褒义种子词 PMI(点态互信息 量)之和,减去与各贬义种子词 PMI 之和。 SO 的正负号就可以表示词语的极性,而绝 对值就代表了强度。词语 A 和 B 的 PMI 定 义为它们在语料库中的共现概率与 A、B 概 率之积的比值。这个值越高,就意味着相关 性越大。有趣的是,PMI 计算可通过搜索引 擎进行,计算 A 的概率,可以把 A 当作查 询送给搜索引擎,那么返回的 Hits 值(含有
这则报道之所以引起了舆论的广泛关 注,是因为它介绍的是一个非常新颖而又很 有价值的研究方向。所谓文本情感倾向性分 析,就是对说话人的态度(或称观点、情感) 进行分析,也就是对文本中的主观性信息进 行分析。由于立场、出发点、个人状况和偏 好的不同,民众对生活中各种对象和事件所 表达出的信念、态度、意见和情绪的倾向性 必然存在很大的差异。这种差异尤其体现在 论坛、博客等反映草根观点的网络媒体上。
对中文的研究也主要集中在句子情感 倾向性论述的某个侧面。例如,[王波 2007] 的主要工作是在情感倾向性论述定位评价 对象。考察两个例句: (a) 功能很全面,价格也很便宜。 (b) 我买电脑时最关心的是功能和价格。
功能和价格在例句 a 中是评价对象,但 在例句 b 中并不是。他主要考察在只有规模 很小的标注语料可用时,如何采用半监督自 学习方法对评价对象进行迭代学习。
3 WordNet
A 的页面数)和总的索引页面数的比值,就 可以认为是 A 的概率。要计算 A 和 B 的共 现概率,只要把 A 和 B 同时送给搜索引擎 就可以了。这种方法同样存在着对种子集的 依赖性比较强的问题,而且噪声比较大。
③基于人工标注语料库的学习方法:首 先对情感倾向分析语料库进行手工标注。标 注的级别包括文档集的标注(即只判断文档 的情感倾向性)、短语级标注和分句级标注。 在这些语料的基础上,利用词语的共现关 系、搭配关系或者语义关系,以判断词语的 情感倾向性。这种方法需要大量的人工标注 语料库,典型的工作如 Wiebe 利用词语的搭 配模式发现在主观性文本中的倾向性词语 及其搭配关系[Wiebe,2001]。
绝不是一款能放心开下公路的 SUV。当然, 在公路上它的表现令人满意”,我们可以得 到以下两条情感倾向性论述:
论述 1 2
持有者 作者 作者
对象 XXX XXX
极性 贬 褒
强度 强 弱
重要性 强 弱

如果说句子是点,那么由句子构成的篇 章是线,而由多篇文章组成的语料库就是 面。在句子情感倾向分析的基础上,可以很 方便地进行篇章的情感倾向分析,甚至可以 得到海量信息的整体倾向性态势。
长期以来,要了解关于某个问题的报道 是正面的还是反面的,是消极的还是中立 的,往往需要求助于调查公司。这些公司的 员工仔细阅读有关某个机构、个人、事件或 问题的所有文字,然后就这些评论的态度做 出反馈。这不仅耗费大量人力和财力,而且
1
/products/sentiment.a spx
过程相当缓慢。由此可见,这一过程的自动 化,具有很好的商业应用前景。
文本情感倾向性分析属于计算语言学 的范畴。在计算语言学以及相关领域,研究 人员以前普遍关注的是客观性信息的分析 和提取,对主观性信息分析与提取的研究尚 处于起步阶段,存在很多问题需要进行全面 的探索。这项研究涉及到计算语言学、人工 智能、机器学习、信息检索、数据挖掘等多 方面研究基础,因此文本情感倾向性分析也 具有重要的学术研究价值。
中文文本情感倾向性分析
黄萱菁 赵 军
引言
大约在两年半前,《新华网》、《环球时 报》等大众媒体纷纷转载了英国《新科学家》 杂志的一则报道,英国 Corpora 软件公司开 发了一套名叫“感情色彩(Sentiment)”的软 件1,它能判断报纸刊登的文章对一个政党 的政策是持肯定态度还是否定态度、或者网 上评论文章是称赞还是贬低一种产品,以帮 助政府和一些大公司全面了解公众舆论对 他们的看法。
也是一个非常新颖的研究方向,一开始并没 有一个文本情感倾向性分析的评测规范对 该领域的研究任务进行清晰的定义。同时也 没有一个被普遍接受的文本情感倾向性分 析的标准语料库支撑关键技术的研究、评测 和应用系统的开发。这个问题使得一段时间 内该领域的研究显得比较混乱,不能进行客 观的比较测试,严重地影响了该领域的研究 水平和技术发展。
长期以来,客观性信息提取都是计算语 言学的研究热点,但尚未研究透彻。近年来 ACE( 自 动 内 容 提 取 会 议 ) 的 评 测 结 果 也 表 明,命名实体识别和指代消解的性能尚可, 但实体间关系的提取则显得很困难4,主观 性信息的提取更是如此。这方面的研究即使 在英文上也是少数,且集中在对句子情感倾 向 性 的 判 断 上 [Kim,2004] [Wiebe & Riloff,2005]。在此基础上,[Kim,2005]尝试 识别情感倾向性论述的持有者。而关于系统 地提取句子的情感倾向性信息的多个要素 方面的研究,目前还少有报道。
日本富士通公司则开发出了从中文博 客和论坛中提取对企业及其产品的评价信 息的技术,根据从 web 上抓取的大量用户评 论得到产品的整体信誉度,以图表的形式展 现不同时间里企业和品牌的正面或负面等 评价信息。例如,下图显示了某产品在 3 个 月内用户评价的情况,其中绿、红两种颜色 分别表示某一天持肯定、否定态度的评论 数,而蓝线则表示评论总数。
①由已有的电子词典或词语知识库扩 展生成情感倾向词典:英文词语情感倾向信 息 的 获 取 主 要 是 在 WordNet 3 和 General Inquirer 的 基 础 上 进 行 的 [Hatzivassiloglou,1997] [Wilson2005];而中 文词语情感倾向信息的获取依据的主要有 HowNet[朱嫣岚 2006]。这种方法的主要思 想是:给定一组已知极性的词语集合作为种 子,对于一个情感倾向未知的新词,在电子 词典中找到与该词语义相近、并且在种子集 合中出现的若干个词,根据这几个种子词的 极性,对未知词的情感倾向进行推断。这种 方法对种子词数量的依赖比较明显。
将篇章作为一个整体,笼统地进行主观 性分析存在很大局限性,其本质缺陷在于假 设整个文本是针对同一个对象进行评论。而 真实文本往往由包含多个对象,不同的对象 所涉及到的观点、态度等主观性信息是有差 异的。从另一方面看,篇章内的对象总数仍 是有限的,不足以支撑对于整体倾向性的挖 掘。因此,这两年根据情感倾向对篇章进行 褒贬态度分类的研究有减少的趋势;更多的 研究集中在篇章内进行情感倾向性论述的 分析,以及在大规模数据集上进行整体倾向 性分析。
不可不提的是香港城市大学语言资讯 科学中心在 LIVAC 共时语料库上进行的名 人信誉分析研究。他们选择泛华语地区有代 表性的中文 媒体,对相应 的新闻报道 进行深层次 的人工标注, 对并在该语 料库上开展 中文文章正 负两极性自动分类的研究,通过人物褒贬指 数的计算,发布京港台双周名人榜,并用- 10 到 10 之间的数表示名人在三地报章的信 誉度[T'sou et al. 2005],例如某段时间内, 陈水扁在中港台三地的信誉度分别是-10、 -6.2 和-4.6。
4 /speech/ tests/ace/index.htm
的关联除了句法上的直接关联,也包括语义 上的间接关联。目标对象被细分为直接评价 对象和间接评价对象两种。如在例句“品牌 A 的造型很美观”中,评价词是“美观”,“造 型”是“美观”直接评价的对象,而“品牌 A”是间接评价对象。他们把在同一句子中 共现的评价词与评价对象作为候选集合,应 用最大熵模型进行关系抽取。
海量数据的整体倾向性预测
所谓整体倾向性预测,是针对海量数据 而言的,其主要任务是:对从不同信息源抽 取出的、针对某个话题的情感倾向性信息进 行集成和分析,进而挖掘出态度的特点和走 势。
Durant 提出利用 Web log 来帮助对 blog
情感倾向的分类[Durant et al. 2006]。UIC 的 Liu 和 Hu 等人讨论了从评论中挖掘产品特 性的方法,从而得到用户对于产品或者产品 某 个 特 性 的 整 体 倾 向 性 [Hu & Liu, 2004][Liu et al. 2005]。例如,他们根据用户 评论来比较两个款式的数码相机,并用如下 图所示的可视化文摘来显示分析结果,每列 代表相机的一个属性,水平线表示中立态 度,彩条则反映了用户的褒贬度的主要取值 范围。
[王根 2007]则关注于句子情感倾向性 的判断。他提出了一个分级模型,可以将句 子的主客观性判别、褒贬分类和褒贬分级统 一在一起:首先将句子分为主观句和客观 句,对于主观句,分成赞扬和贬斥两类,每 类再分成强烈和微弱两种强度;并提出了一 种基于多重标记 CRF 的方法来加以解决。
[章剑峰 2007]所针对的具体任务是抽 取评价词和目标对象之间的关联关系。这里
篇章情感倾向性研究
篇章级情感倾向性分析,就是要从整体 上判断某个文本的情感倾向性,即褒贬态 度。有代表性的工作包括[Turney, 2002]和 [Pang, 2002]对电影评论的分类。Turney 的 方法是将文档中词和短语的倾向性进行平 均,来判断文档的倾向性。这种方法基于情 感倾向性词典,不需要人工标注了文本情感 倾向性的训练语料;Pang 的任务是对电影评 论的数据按照倾向性分成两类,他利用人工 标注了文本倾向性的训练语料,基于 unigram 和 bigram 等特征,学习分类器。
2 例如,General Inquirer [Stone,1966],知网: heep://
相关文档
最新文档