文本情感分析论文总结

合集下载

微博短文本细粒度情感分析毕业设计论文

微博短文本细粒度情感分析毕业设计论文

摘要题目:微博短文本细粒度情感分析摘要微博作为是移动互联网起步最早也发展最快的业务之一,在经历了最初几年的高速增长和热捧之后,一度有些沉寂。

但是,伴随着4G网络、WiFi网络大规模覆盖,移动终端智能设备的极速增长,越来越多的人频繁地使用微博。

移动端用户的增长,让微博有了日活跃用户超过1亿的基础。

基于该庞大的用户群体,利用微博文本对用户进行情感分析,不仅有利于新生代商业模式探索、社会舆情监控与分析,而且对人工智能发展的积极意义也不容小觑。

文本情感分析为人工智能在人类情感领域的探索做出了积极的贡献。

微博具有典型的网络语言特点,语法规范性差、口语化、新词汇层出不穷、大量的表情符号和文本噪声等。

基于传统规范书面语言词典的微博情感分析效果差强人意。

为了解决这个问题,本文一方面通过对传统情感词典进行网络语言的扩充,构建了新的适用于微博文本分析的词典,并通过实验验证了词典的有效性;另一方面,使用对特殊情感词汇依赖性小的RAE网络模型,性能得到了提高。

含有否定词的文本情感判别较为复杂,否定词的加入可能使原文本情感极性发生转变,也可能极性保持不变,程度有所削弱。

传统本文传统的情感分析方法通常对文本模型进行简化,假设一个词语仅和其前一个词语有关,对含有否定词的文本的积极/消极判别较差。

RNTN模型没有进行类似简化,保持了词向量之间的强相关性。

本文通过对RNTN模型的训练,使其在含有否定词中文文本情感极性判别上有良好的表现。

RNTN模型对词语或短语级细粒度情感分析上表现出色,而且不需要大量的人工标注;RAE模型作为较为成熟的深度学习模型,抛弃了传统的词袋模型,利用层次结构和成分语义来进行情感分类;SVM作为传统机器学习方法,通用性强,适用范围广。

结合以上方法的特点以及情感分类的任务目标,本文设计了微博短文本的双极性、细粒度情感分类方案,首先使用SVM对微博篇章进行主客观分类,RAE和RNTN对判定为主观情感的文本的每一个句子进行正负极性判断,并选出极性最强的句子,该句子的情感极性即为整个微博的情感极性。

文本情感分析

文本情感分析

赵妍妍等:文本情感分析1835运而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的丰观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析【l】,如,“美好”是带有褒义色彩的词语,而“丑陋”是带有贬义色彩的词语.随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究.基于此,按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次【2】.按照处理文本的类别不同。

可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件“台湾归属问题”的立场:后者处理的主要是网络在线的产品评论文本,如“Polo的外观很时尚”。

表明了对评价对象“Polo的外观”的评价“时尚”是褒义的.由于基于产品评论的情感分析可以帮助用户了解某一产品在大众心目中的口碑,因此受到很多消费者和商业网站的青睐.而基于新闻评论的情感分析多用于舆情监控和信息预测中,是国内外评测中重要的评测任务.情感分析涉及多项非常有挑战性的研究任务.本文综合已有的研究成果,将情感分析归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,如图1所示.Fig.1Researchframeworkofsentimentanalysis图l情感分析的研究框架情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务.如将情感句“我觉得Canon的相片质量不错”转化为如图l所示的结构化文本形式.情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬两类或者其他更细致的情感类别(如喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务.这些分类任务在情感分析初期吸引了大量的研究者.最高层的情感信息的枪索与归纳可以看作与用户直接交互的接口,着重强调检索和!f1纳两项应用.该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上进行进一步的加工处理.情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值【3-5】.鉴于此,该研究课题受到国内外越来越多的研究机构的重视.本文在接下来的部分首先分别详细阐述情感分析的3个主要研究任务,重点针对各任务的主流方法和前沿进展进行对比分析;接着介绍国内外主流的评测会议以及现有的资源建设情况:然后介绍情感分析的几个重要应用点;最后,展望情感分析技术的发展趋势.1情感信息抽取情感信息抽取旨在抽取情感文本中有价值的情感信息,它可以看作情感分析的基础任务.一直以来,学术界对它兴趣小减.纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如优秀、好用)、评价对象(如GPS、1848【68】【69】【70】【7l】【72]【73】【74】【75]【76】【78]JournalofSoftware软件学报vol_2l,No.8,August2010TitovI,McDonaldR.Ajointmodeloftextandaspectratingsforsentimentsummarization.In:McKeownKed.Proc.oftheACL2008.MordstOWll:ACL.2008.308—316.BranavanS,ChenH,EisensteinJ.Learningdocument—level8em锄ticpropertiesfromfree-textannotations.In:McKeownKed.proc.oftheACL08:HLT.Morristown:ACL.2008.263-271.KuLW,LiangYT,ChenHH.Opinionextraction,summarizationandtrackinginnewsandBlogcorpora.In:GilY,MooneylU,eds.Proc.oftheAAAI2006SpringSymp.onComputationalApproachestoAnalyzingWeblogs.MenloPark:AAAIPress.2006.OunisI。

学术研究中的文本分析策略

学术研究中的文本分析策略

学术研究中的文本分析策略摘要:本文旨在探讨学术研究中的文本分析策略,包括文本挖掘、文本分类、情感分析等工具和方法。

通过对这些工具和方法的介绍,旨在帮助研究人员更好地理解和分析文本数据,提高研究的质量和影响力。

一、引言随着信息技术的发展,文本数据已成为学术研究中不可或缺的一部分。

大量的文献、报告、社交媒体、博客等都包含着丰富的文本信息,这些信息对于学术研究具有重要的价值。

因此,如何有效地分析和处理这些文本数据已成为学术研究的重要课题。

二、文本分析工具和方法1.文本挖掘文本挖掘是一种从大量文本数据中提取有用信息和知识的过程。

它通常包括文本预处理、特征提取、模型构建和结果分析等步骤。

通过文本挖掘,可以发现隐藏在大量文本数据中的模式和趋势,为研究提供新的视角和思路。

2.文本分类文本分类是一种将文本数据归类到预先设定的类别中的方法。

它通常基于机器学习算法,如支持向量机、决策树、神经网络等。

通过文本分类,可以对文本数据进行自动分类和聚类,方便研究人员对数据进行管理和分析。

3.情感分析情感分析是一种通过自然语言处理技术,对文本数据进行情感倾向分析和评估的方法。

它可以帮助研究人员识别文本中的情感色彩,分析文本数据的情绪表达,为研究提供更有针对性的见解。

三、应用案例以下是一个应用案例,介绍如何使用文本分析工具和方法进行学术研究。

案例:学术论文评价研究研究问题:如何客观地评价一篇学术论文的质量?研究方法:采用文本挖掘和情感分析方法。

步骤:1.收集大量学术论文的文本数据;2.进行文本预处理和特征提取;3.使用文本挖掘方法发现论文质量的潜在影响因素;4.使用情感分析方法评估论文的情感倾向;5.结合以上两个步骤的结果,建立论文质量评价模型。

结果:通过以上步骤,可以发现影响论文质量的潜在因素,如研究方法、数据来源、结论可信度等。

同时,可以评估论文的情感倾向,如正面、负面或中立等。

结合这些信息,可以建立一个客观的论文质量评价模型,为研究人员提供更有针对性的建议和指导。

论文写作中的文本分析方法

论文写作中的文本分析方法

论文写作中的文本分析方法在论文写作过程中,文本分析是一种常用的研究方法,它可以帮助学者深入理解、解释和分析各种文本类型的数据。

本文将介绍几种常见的文本分析方法,包括内容分析、语义分析和情感分析。

通过运用这些方法,研究者可以更好地理解和解释论文中的文本数据。

一、内容分析内容分析是指通过定性或定量方法对文本进行系统的分析和解读。

它可以用来分析和揭示文本中的主题、观点、论证和结构等方面的信息。

在论文写作中,内容分析可以帮助学者收集和整理论文中的关键信息,并对这些信息进行整体和细致的分析和解读。

在进行内容分析时,学者可以使用编码系统来标记和分类文本中的不同元素。

这些元素可以是文本的主题、关键词、论点、证据等。

通过对文本中的元素进行编码和分类,研究者可以对文本进行定量或者定性的分析。

定量分析可以使用统计方法来分析文本中的频率、分布和关系等信息;而定性分析则可以通过解读和描述文本中的主题、观点和结构等方面的信息。

内容分析方法可以应用于各种类型的文本数据,包括书籍、文章、采访记录等。

在论文写作中,内容分析可以帮助学者从大量的文献和数据中提取关键信息,并进行概括和综合。

二、语义分析语义分析是一种基于语言学和计算机科学的研究方法,它可以帮助学者理解和解释文本中的语义结构和意义。

在论文写作中,语义分析可以用来分析和解读论文中的关键概念、术语和论述。

语义分析可以通过语义标注和词向量模型来实现。

语义标注是通过给文本中的词语和短语赋予语义标签,来表示它们的语义信息和语义关系。

词向量模型是一种运用向量表示来表示词语和短语的语义信息的方法。

这些方法可以帮助学者理解和描述文本中的语法结构和语义关系,进而对论文中的概念和观点进行深入分析和解读。

语义分析方法在自然语言处理和文本挖掘领域有着广泛的应用。

通过运用这些方法,研究者可以对论文中的概念、术语和论述进行建模和分析,从而提高论文的质量和深度。

三、情感分析情感分析是一种研究方法,旨在分析和评估文本中的情感和情绪表达。

大学毕业论文中的文本分析与内容解读

大学毕业论文中的文本分析与内容解读

大学毕业论文中的文本分析与内容解读在大学毕业论文中,文本分析与内容解读是非常重要的一部分。

通过对文本的深入研究和解读,可以揭示出文本背后的意义和主题,并进一步分析其影响和价值。

本文将对大学毕业论文中的文本分析方法和内容解读进行探讨,以及如何进行整洁美观的排版。

一、文本分析方法文本分析是指对文本内容进行系统性研究与分析的过程。

在论文中,可以采用以下方法进行文本分析:1. 内容分析法:通过对文本中的内容进行分类、计数和比较等操作,从而发现其中的模式和主题。

内容分析法可以定量或定性地分析文本内容,为后续的内容解读提供数据支持。

2. 语义分析法:通过对文本中的词语、句子和段落进行分析,揭示出其中的语义和意义。

语义分析法可以通过对词汇、语法和语境的研究,解读文本作者的意图和观点。

3. 规范分析法:通过对文本中的规范、规章制度等进行分析,揭示其中的法律或道德约束。

规范分析法可以帮助理解文本中的约束力和影响,从而对其内容进行解读。

二、内容解读内容解读是在文本分析的基础上,深入理解文本中的内涵、主题和观点的过程。

在大学毕业论文中,内容解读是展示个人思考和分析能力的重要环节。

以下是一些建议的内容解读方法:1. 文本主题分析:确定文本的主题,即核心思想或中心议题。

通过对文本的重复出现、关键词的提取和上下文的分析,可以揭示文本的主题。

2. 文本情感分析:揭示文本作者的情感态度和倾向。

通过对文本中的情感词语、修辞手法和语气的分析,可以了解文本中所表达的情感色彩。

3. 文本观点分析:理解文本作者的观点和立场。

通过对文本中的论证、案例和逻辑结构进行分析,可以判断文本作者的观点是否合理及其论证的依据。

三、整洁美观的排版在大学毕业论文中,整洁美观的排版是提高论文质量的重要方面。

以下是一些排版建议:1. 使用合适的字体和字号,确保文本清晰可读。

一般情况下,正文字体可选择宋体或仿宋,字号可选择小四(12号)或五号(10.5号)。

2. 采用合适的行距和段落间距,使得文本排版整齐利落。

学术研究中的情感分析

学术研究中的情感分析

标题:学术研究中的情感分析摘要:本文旨在探讨学术研究中的情感分析的重要性、应用范围和方法。

情感分析是一种自然语言处理技术,用于识别和量化文本中的情感倾向。

本文将讨论情感分析在学术研究中的应用,包括期刊论文、评论、社交媒体和学术论文审稿中的应用,并介绍一些关键方法和技术。

一、引言随着互联网和社交媒体的普及,学术研究中的文本数据量不断增加。

这些文本数据不仅包括研究论文,还包括评论、讨论、社交媒体帖子等。

因此,情感分析在学术研究中变得越来越重要。

情感分析能够识别和分析这些文本中的情感倾向,为学术研究提供更深入、更准确的信息。

二、情感分析的应用1.期刊论文:在学术期刊论文中,情感分析可以用于评估论文的质量、影响力、创新性和贡献等。

通过分析期刊论文的引用、下载量和讨论情况,情感分析可以确定论文的情感倾向和影响力。

此外,情感分析还可以用于识别潜在的错误和争议点,帮助研究人员改进论文质量。

2.评论和社交媒体:情感分析在评论和社交媒体中的应用更为广泛。

通过分析评论的情感倾向,情感分析可以帮助研究人员了解公众对某个主题或研究的看法。

此外,情感分析还可以用于识别积极或消极的社交媒体帖子,为研究人员提供有关某个话题的反馈和趋势信息。

3.学术论文审稿:情感分析还可以用于学术论文审稿过程。

审稿人可以使用情感分析工具对投稿论文进行初步评估,以便更快地确定是否需要进一步审查或拒绝。

情感分析还可以帮助审稿人识别潜在的研究漏洞和不足之处,提供改进意见和建议。

三、关键方法和技术情感分析的关键方法和技术包括自然语言处理、机器学习和深度学习技术。

这些技术可以帮助研究人员自动识别和量化文本中的情感倾向。

例如,基于机器学习的情感分析方法可以使用分类器来识别文本中的积极或消极情感。

深度学习方法则可以通过训练神经网络模型来自动预测文本的情感倾向。

此外,一些研究还使用基于语料库的方法来构建情感词汇表和情感词典,以便更准确地识别情感倾向。

四、结论情感分析在学术研究中具有广泛的应用价值。

论文中的文本分析与解释

论文中的文本分析与解释

论文中的文本分析与解释在各类学术研究中,文本分析与解释是一项重要任务。

通过对文本进行深入分析和解释,研究者能够挖掘出其中蕴含的信息和意义,从而为学术界和社会提供有价值的见解和观点。

本文将探讨文本分析与解释在论文中的应用,并介绍其步骤和方法。

一、文本分析的基本步骤1. 收集文本素材:在进行文本分析前,研究者需要先收集所需的文本素材。

这可以是书籍、文章、新闻报道、采访记录等各类书面材料,也可以是音频、视频等非书面形式的媒体。

2. 确定研究目的:在进行文本分析时,研究者需要明确自己的研究目的。

例如,是为了探究某个特定主题的发展趋势,还是为了理解某个事件的影响因素等。

确立研究目的有助于指导文本分析的方向和深度。

3. 制定分析框架:为了对文本进行系统的分析,研究者需要制定一个分析框架。

这可以包括词频分析、主题分析、语义分析、情感分析等等。

根据研究目的和文本类型的不同,选择合适的分析方法和工具。

4. 进行文本分析:根据分析框架,研究者开始对文本进行分析。

这包括对文本进行整体把握,提取关键信息和数据,发现隐藏在文本背后的规律和脉络,以及分析文本的语言风格和表达方式等。

二、文本解释的方法和实践1. 文本背景分析:在进行文本解释之前,研究者需要对文本背景进行分析。

这包括了解作者的背景和意图,文本所属的时代和社会背景,以及文本与其他文献或事件之间的联系等。

通过对文本背景的分析,研究者能更好地理解文本的含义和目的。

2. 文本内涵解读:在理解文本内涵时,研究者需要对文本进行详尽的解读。

这包括分析文本的语言、词汇、句法结构等,挖掘出其中的隐喻、象征、符号和暗示等元素。

同时,研究者还需考虑文本可能存在的多重解释和歧义,以避免主观片面的理解。

3. 建立理论框架:为了更好地解释文本,研究者需要建立一个理论框架。

这可以是基于已有学说、理论和研究成果的理论分析,也可以是研究者自创的理论模型。

通过理论框架,研究者能够对文本进行更深入、全面的解释。

论文写作中的定性研究与文本分析

论文写作中的定性研究与文本分析

论文写作中的定性研究与文本分析定性研究与文本分析在论文写作中的应用论文写作是学术研究的重要环节,而研究方法的选择则直接关系到论文的质量和可信度。

定性研究和文本分析是两种常用的研究方法,在论文中发挥着重要的作用。

本文将探讨定性研究和文本分析在论文写作中的应用,重点分析二者的区别及各自适用的场景。

一、定性研究定性研究侧重于对研究现象进行深入描述和理解,通过从参与者的角度收集主观经验和观点来揭示背后的意义和解释。

定性研究常用的方法包括深度访谈、参与观察等。

在论文写作中,定性研究通常用于社会科学领域和人文学科等主观性较强的研究中。

定性研究在论文写作中的应用主要表现在以下几个方面:1. 理论框架:定性研究提供了理论框架的选择和构建的可能性。

通过深入了解研究现象,研究者可以根据实际情况选择适合的理论来解读和分析研究结果。

2. 数据收集:定性研究通过深度访谈、观察等方法,收集并记录参与者的主观经验和观点。

这些数据可以为研究者提供丰富的素材,帮助他们更好地理解和描述研究现象。

3. 数据分析:定性研究并非通过统计方法进行分析,而是通过对收集的数据进行归纳、整理和解释。

研究者通常通过归纳法、内容分析等方法,将数据进行分类、编码和总结,形成具有描述性和解释性的研究结果。

二、文本分析文本分析是一种广泛应用的研究方法,通过对书面或口头文本进行系统性分析,揭示出其中的模式、主题、结构以及隐藏的含义。

文本分析可以应用于各个学科领域,尤其在语言学、文学研究和社会科学等领域表现突出。

在论文写作中,文本分析可以用于以下方面:1. 主题分析:通过对文本中的关键词、短语和句子进行提取和分析,文本分析可以揭示出文本的主题和议题。

这对研究者进行综述和概念分析时非常有帮助。

2. 内容分析:文本分析可以通过对文本中的细节和描述进行分类和统计,揭示出其中的共性和差异。

例如,在社会科学研究中,研究者可以通过对新闻报道的文本进行分析,了解不同报道中的偏见和趋势。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文本情感分析赵妍妍,秦兵,刘挺- 软件学报, 2010 - 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。

情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。

一、情感信息抽取(评价词语、评价对象、观点持有者)1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。

2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。

3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。

4.组合评价单元的抽取:主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。

评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。

二、情感信息分类1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图);2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语特征和词性特征、位置特征、评价词特征)。

三、情感信息的检索与归纳1.情感信息检索2.情感信息归纳基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。

基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。

基于新闻评论的文摘四、情感分析的评测与资源1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析),国内的COAE。

2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料,Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。

3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英文),HowNet评价词词典(简体中文、英文)问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;基于层次结构的多策略中文微博情感分析和特征抽取谢丽星,周明,孙茂松- 中文信息学报, 2012 - 三种情感分析方法的研究:表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法。

主题无关的情感分析:不关心情感极性所描述的对象,有基于词典的方法、有监督的机器学习和无监督的方法。

主题相关的情感分析:基于规则的方法;基于特征(属性)的方法。

主客观分类特征、极性分类特征:链接、表情、情感词典、情感短语、上下文微博消息句子构成特征:首句、尾句情感极性,正负中情感句数主题相关的句子筛选:包含主题词的句子、零指代情感、主题词相邻的一定范围内。

本文中主题无关的最佳组合方法:单句用一步三分类,特征为表情+词典+短语+上下文,整体为句子组成SVM,特征为首句尾句极性+三种情感极性句子数。

主题相关的特征(本文提供主题词来获取数据):测试三种主题相关句子筛选方法。

本文后续工作:构建网络用语词典;深入研究主题相关的特征;构建图模型。

Cross-Lingual Mixture Model for Sentiment Classification X Meng, F Wei, X Liu, M Zhou, G Xu… - Proceedings of the 50th …, 2012 - 问题:英语的标记数据比其他语言多,很多现存的方法都是直接用机器翻译将源语言翻译为目标语言,以获取标记数据,但是翻译后的词典覆盖率有限,且翻译本身的准确性限制。

解决:提出跨语言混合模型,利用平行语料库,可以提高词典覆盖率,通过在飞标注的平行语料中学习情感词,同时在源语言与目标语言间传递极性标签信息。

思路:把平行语料库中的未标注数据的极性当做隐变量,而语料库中的可观察的词语当做是基于隐变量的词语生成分布来生成的。

给定一个平行语料库,通过最大化生成这个语料库的似然值来fit CLMM模型,通过最大化似然值,CLMM可以估计没在标记数据中出现但是在平行语料中出现的词语的产生概率,进而扩展词典。

另外,CLMM还能利用源语言和目标语言中的词语来判断平行语料中句子的极性。

Cross-Domain Co-Extraction of Sentiment and Topic LexiconsF Li, SJ Pan, O Jin, Q Yang, X Zhu - … of the 50th Annual Meeting of the …, 2012 - 问题:之前的工作表明监督方法的有效性,但是却需要人工标注训练数据。

解决:本文提出一个domain自适应的方法来得到情感和主题词典,不需要任何标注数据,但是需要另外一个相关领域的标注数据。

首先,在目标域中生成一些有高置信度的情感和主题词种子,然后提出一个新的Relational Adaptive bootstraPping算法根据源域中标注数据的情感词和主题词的关系来在目标域中扩展种子,进而得到目标域的情感主题词典。

1.情感词种子生成:源域中的情感词作为候选,用公式(1)得到得分最高的top r 个词汇作为情感词种子2.主题词种子生成:在源域中抽取出情感词与主题词的所有pattern及主题词作为候选,根据公式(2)得到pattern的得分,Acc(Rj)是在源域中pattern Rj的准确率,Freq(Rj)是在目标域中的出现频率。

选取得分最高的top r个pattern作为种子,然后根据公式(3)选取得分最高的top r 个词作为主题词种子。

B是情感词种子集合,A是满足wi,wk的模式集合。

3.种子扩展:Twitter Sentiment Classification using Distant SupervisionA Go, R Bhayani, L Huang - CS224N Project Report, Stanford, 2009 - Tweets出现在新闻标题中或者维基百科中,则认为其为中性。

Tweets的特性:长度,可用数据多,语言模型(数据格式杂乱,错误常出),没有特定领域。

方法:分类器用了NB,最大熵,SVM,特征用了unigrams,bigrams,两个的结合,unigrams 结合POS(词性标注) tags。

训练数据:用twitter API检索:)和:(下载包含emotion(分为正负极性两种表情符号)的tweets 数据,对数据进行预处理(去掉emotions,删去有两种极性emotion的tweet,删去重复数据等等),最终得到1600000个tweets。

训练数据中要把emotion去掉,引发的问题是由于训练数据没有用emotion特征,因而测试数据中有emotion特征时,对其分类无影响,这是一个需要解决的问题。

测试数据:用不同的领域的query term检索tweets,对其标注形成测试数据。

实验后发现,单独的unigrams比bigrams效果好,因为bigram数据稀疏,两种结合的特征,NB和最大熵正确率提高,但是SVM降低。

而POS特征对分类无明显影响。

以后需要解决的问题:语义问题,特殊领域的情感分类,中性tweets的处理,其他语言的情感分类,测试数据中emotion特征的应用。

Target-dependent Twitter Sentiment ClassificationL Jiang, M Yu, M Zhou, X Liu, T Zhao - ACL, 2011 - 问题:以往的工作大多是target无关的情感分析,即只分析情感,而没有考虑情感对应的对象;由于tweets的特殊性(短小且多歧义,一个tweets中可能涉及多个target,或者同一个tweet中有很多与target无关的说明),情感分析时会造成内容不够,数据稀疏。

所以有必要进行target相关的情感分析,同时扩展相关的tweets,综合分析得到结果。

方法:采用三步进行分析:主客观分类,极性分类,基于图的优化。

前两步采用相同的特征,SVM分类器。

1.数据预处理:tweets标准化,词性标注,词干,句法分析2.target无关的特征:词、标点、表情符号、hashtag、情感词典特征(即句子中有多少正负极性词语)3.Target扩展:首先,包含target的名词短语作为扩展目标;然后,与target有co-reference的也作为扩展目标;用点互信息求出与target最相关的K个名词和名词短语,抽取出所有扩展目标的中心名词,如果其与target的点互信息大于阈值,则也作为扩展目标。

Target有关的特征:依靠句法分析树,得到多种特征,比如,I love iPhone得到love_arg2,Flower is beautiful得到Flower_arg1,等等。

4.基于图的情感优化:相关tweets的获取:retweets(转发的),同一人发的包含target的tweets,对该tweet 的回复。

对于不同扩展,将其用不同的连线与原本的tweet连接,形成图。

进而:对于图中的每个tweet,计算出p(c|t,G),输出其中p最大的一个。

5.实验:实验的训练和测试数据用不同的query term(Obama,Google,iPad,Lakers,Lady Gaga)从twitter上获取,人工标注其极性,得到459个+,268个-,1212个中性tweets。

Future work:探索target与扩展target的关系,哪些情感有相关,哪些不会。

相关文档
最新文档