情感倾向性分析调研

合集下载

细粒度情感分析研究

细粒度情感分析研究

细粒度情感分析研究细粒度情感分析:情感计算领域的重要研究方向随着技术的快速发展,情感计算成为了一个备受的研究领域。

情感计算旨在让计算机具备理解和表达情感的能力,从而改善人机交互的体验。

在情感计算领域中,细粒度情感分析是一种重要的研究方向,它对于提高情感计算的准确性和应用范围具有重要意义。

细粒度情感分析旨在从文本中提取出更加细致的情感信息,区分出不同的情感类别。

例如,传统情感分析通常将评论情感分为正面或负面,而细粒度情感分析可以进一步区分出高兴、悲伤、愤怒、恐惧等情感类别。

细粒度情感分析在许多领域中都具有广泛的应用价值,如产品评论、社交媒体分析、智能客服等。

细粒度情感分析的研究方法主要包括情感数据的收集、处理和分类三个阶段。

在数据收集阶段,研究者需要从各类资源中获取大量的情感数据,这些数据可以是文本、音频、图像等形式。

在数据处理阶段,研究者需要对数据进行预处理,如去除无关信息、进行词干提取、分词等操作。

在分类阶段,研究者需要利用机器学习、深度学习等算法对处理后的数据进行分类,得到每个数据点的情感类别。

近年来,细粒度情感分析的实验结果取得了显著进展。

在分类效果方面,深度学习方法表现出了优越的性能,如卷积神经网络(CNN)和递归神经网络(RNN)等。

在比较不同方法时,研究者发现,基于深度学习的细粒度情感分析方法通常比传统机器学习方法具有更高的准确性和更好的性能。

实验结果的分析表明,深度学习方法能够更好地捕捉文本中的细微情感差别,从而得到更细致的情感分类结果。

同时,研究者还发现,不同的数据预处理方法和特征提取技术也会对细粒度情感分析的效果产生重要影响。

因此,未来研究可以进一步探索适合于细粒度情感分析的数据处理方法和特征提取技术,以提高分类的性能和准确性。

此外,研究者还可以考虑将细粒度情感分析与其他技术相结合,如自然语言处理(NLP)、语音识别、图像识别等。

例如,在产品评论的情感分析中,可以将文本评论与图像识别技术相结合,从而更全面地分析用户对于产品外观、功能等方面的情感反馈。

新闻报道文本的情感倾向性研究

新闻报道文本的情感倾向性研究

2 Istto C mp tt n l ig i isP kn iesy B in 0 8 1 .ntue f o ua oa Ln us c, eigUnv ri , e ig10 7 ) i i t t j
[ src]T i pp r ssmahn erigtcnq e o ie t erlsoslesni n lsict no e x, n eerh s Ab ta t hs ae e c ielann h iu scmbn dwi t e ov et t asf ai f wst tadrsace u e hh u t me c i o n e
rls e p rme tl eul i i r v d n o d rt etu ie sl yo ec mbn d meh d mo ee p rme t a e n KNN n y scasf r ue , x ei na s t s mp o e I re o ts nv rai ft o ie t o , r x e i n sb s do r t h a dBa e ls ie i

通 过观 察语料发现 ,赞扬类正确率低的主 要原 因是 赞扬
类 的一 些规 则覆 盖 了喜 悦 类 语 料 。这 种 错 误 不 存在 极 性 的差
绝对词频(F :特征项在文本 中出现的次数 。 T)
倒排文档频度( F : I ) D
l・ bN

别 ,仅是程 度的区别 ,是可以接受的。
32 统计 方法 .
321 特 征 选 择 . .
其 中,F是训练集中 出现特征 项 f的文档数 ;N 为训练集全 /
部 的文 档 数 。
TF.D F: I ×l b

大数据下的情感分析研究

大数据下的情感分析研究

大数据下的情感分析研究随着互联网技术的快速发展,人们在网络空间中留下的数据量不断增加,而这些数据中蕴含着各种信息,其中也包含着人们的情感信息。

因此,情感分析作为数据挖掘和自然语言处理的一个分支,在大数据时代得到了越来越广泛的应用。

本文将从情感分析的定义、方法、应用等角度进行探讨,并介绍大数据下的情感分析研究现状和未来发展趋势。

一、情感分析的定义情感分析是指对文本、语音、图像、视频等数据进行分析,以识别出其中所包含的情感状态和情感倾向性。

在文本分析领域中,情感分析是一种自然语言处理技术,旨在自动识别文本中包含的情感信息。

情感信息包括正面情感、负面情感和中立情感,它们可以通过分析词汇、语法和语义等方面来确定。

二、情感分析的方法情感分析的方法可以分为基于规则的方法、基于机器学习的方法和深度学习方法三类。

1. 基于规则的方法基于规则的方法是一种最早被采用的情感分析方法,它利用人工制定的规则和规则库,对文本进行情感分析。

例如,将积极情感词汇和消极情感词汇制定规则,用语法规则确定词汇的函数关系,并为规则中的词汇分配权重,以计算文本中的情感倾向。

2. 基于机器学习的方法基于机器学习的方法是一种基于人工制定训练数据集和模型的方法。

首先,需要建立一个有标注的数据集,即将文本数据标注为正面情感、负面情感或中立情感。

然后,通过训练这些数据,以建立一个情感分类模型。

最后,通过该模型对文本进行分类判断。

3. 深度学习方法深度学习方法是一种最新的情感分析方法,采用神经网络模型和大量数据,利用多层次结构分析文本情感信息。

例如,采用卷积神经网络、循环神经网络等模型结构,利用词向量表示法和上下文信息等方法进行情感分析。

三、情感分析的应用情感分析在社交媒体、在线评论、广告推广、市场营销等领域得到广泛应用。

1. 社交媒体社交媒体的用户对事件和产品的评价往往是直接且及时的,而这些评价可用于承认和反应民情。

情感分析在社交媒体上的应用,可以很好地解读人们在网络空间中的情感状态和情感倾向,为政策制定和舆情分析提供参考依据。

情感倾向性分析调研

情感倾向性分析调研

意见挖掘研究的目的目前,互联网上的信息与日剧增,蕴藏着巨大的信息量。

但是,要想在很短的时间内获得人们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。

例如,对产品的各种评价出现在各大论坛、电子公告板以及门户网站上,厂商需要了解顾客使用其产品的反馈意见,潜在的购买者也需要作出是否购买某个产品的决定。

如果采用人工方式对这浩如烟海的信息进行查询、统计,显然是低效和不切合实际的。

面对这样的现实问题,意见挖掘技术应运而生。

一方面,它基于数据挖掘(Data Mining) 和文本挖掘( Text Mining) 技术,另一方面,它又具有相当的文本理解( Text U nderstanding) 的能力。

所以,它是比文本挖掘技术更接近人工智能目标的一种新技术。

它与以往的信息抽取( Information Extrac2tion) 、文本分类( Text Classification) 和文本摘要( Text Summarization) 技术不同。

虽然信息抽取和意见挖掘都需要深层的语义理解,但信息抽取主要是获取具体的语言表达结构,如命名实体、命名实体关系、事件等,这些成分一般为显式表达结构;而意见挖掘是挖掘意见的元素和它们之间的关系,即主题、意见持有者、陈述、情感和它们之间的关系,这些成分表达形式多样,而且常常不是显式地、独立地表达。

文本分类是在预定的用户需求下把文本进行分类,并没有涉及到深层次的语义理解。

文本摘要是用简练的语言表达长篇文本的中心思想,但文本中对事物的具体看法和评价则没有被清晰地提取出来。

实际上,意见挖掘技术弥补了上述这些技术的不足,是更具有应用价值的一种新技术。

意见挖掘涉及各个语言分析层面,不但涉及到词汇层(如分词和词性标注) 、句法层(如命名实体识别和语法分析) 和语义层(如语义分析) ,还涉及到篇章层(如跨句的指代消解) 。

意见挖掘与一些语言技术有关,例如,信息检索、文本分类、信息抽取、自动摘要、数据融合、问答系统、自然语言生成、对话系统、机器翻译等。

性取向测试题男生版

性取向测试题男生版

性取向测试题男生版在网络时代,人们对性取向的关注度越来越高。

了解自己的性取向不仅有助于个人认同和心理健康,也有助于亲密关系的发展。

本文将介绍一个针对男生的性取向测试题,并根据题目类型进行分析和讨论。

一、题目类型1:个人倾向1.你对男性的外貌吸引力如何?2.你对女性的外貌吸引力如何?3.你在晚上梦见的对象一般是男性还是女性?4.你是否对男性和女性的身体特征和性器官有兴趣?5.你在生活中更愿意选择与男性还是女性为伴?根据这些题目可以初步了解个体对于男性和女性的感官偏好和兴趣。

题目1和题目2可以了解个体对于外貌吸引力的倾向,如果对男性的外貌吸引力更高,则可能倾向于同性恋或双性恋;反之,如果对女性的外貌吸引力更高,则可能倾向于异性恋。

题目3可以了解个体的潜意识,对于梦境中对象的选择也能间接反映个体的性取向。

题目4可以了解个体对身体特征和性器官的兴趣,如果对男性和女性的身体特征和性器官都有兴趣,则可能倾向于双性恋。

题目5可以了解个体在生活中的伴侣倾向,如果更愿意与男性为伴,则可能倾向于同性恋。

二、题目类型2:亲密接触和情感倾向1.你偏爱和男性还是女性进行亲密接触?2.你更容易与男性还是女性建立情感联系?3.你在性幻想中更常出现男性还是女性?4.你对于男性和女性的情感需求有何不同?5.你在性行为中更容易与男性还是女性达到满足?这些题目将个体的亲密接触和情感倾向进行了综合考察。

题目1和题目2可以了解个体与男性和女性之间的亲密接触和情感联系的偏好。

题目3可以了解个体在性幻想中出现的对象偏好,间接反映个体的性取向。

题目4可以了解个体对于男性和女性的情感需求的不同程度,如果对男性的情感需求更高,则可能倾向于同性恋。

题目5可以了解个体在性行为中对于男性和女性的满足程度,也能间接反映个体的性取向。

三、题目类型3:性行为和性身份认同1.你更希望成为顶部还是底部?2.你在性行为中更偏向于扮演男性还是女性的角色?3.你在性行为中更渴望与男性还是女性进行性交?4.你是否对性转换手术或跨性别人士感兴趣?5.你对于自己的性身份认同感到满意吗?这些题目主要考察个体在性行为和性身份认同方面的倾向。

电商在线评论的文本情感 倾向性分析

电商在线评论的文本情感 倾向性分析

电商在线评论的文本情感倾向性分析作为数百万日常生活中的消费者,许多人都习惯于在购物之前,查看有关他们将购买的产品的评论。

这些评论的数量和特征对于电子商务来说非常重要。

对于卖家和买家,这些评论是相当有用的宝藏。

这篇文章将通过使用自然语言处理和情感倾向性分析来解释电商在线评论的应用,并为未来的电商行业做出贡献。

一、背景和介绍互联网的普及以及在线市场的兴起使得电子商务成为了当今最受青睐的交易方式。

在线市场的成功关键是向消费者提供安全、可靠、方便的购物体验。

而在线评论正是帮助消费者评估产品质量和服务的最普及的方式。

评论既可以来自消费者,也可以来自专家或博主等其他有影响力的人士。

二、分析方法情感分析是一种自然语言处理技术,它可以自动处理和分析文本数据中的情感信息,并将其转化为一个或多个情感倾向。

在这次分析中,我们将使用情感分析来评估在线评论的情感倾向性。

情感分析技术将帮助我们了解消费者如何感受他们的购买体验,并进一步提供未来的指导性建议。

三、分析结果在评论分析中,我们收集了一些大型电子商务公司在2019年度的评论数据,并将其用于分析。

我们使用一些软件工具,如Python和SAS,来处理数据,并将数据元素编程为可分析的格式。

然后,我们对原始评论数据进行了情感分析,并计算了情感极性。

情感极性是一个用于量化的变量,它可以分类许多评论并量化自治体整体的情感偏向。

我们使用正面和负面情感字典,将每个评论与情感词库进行匹配。

如果一个单词是情感词,我们将对其情感极性进行评估。

而如果一个单词不是情感词,则无法进行评估。

在这种情况下,我们为每个评论生成了一个情感得分,该情感得分是基于测量情感极性的度量。

得分范围是-1到1,其中-1表示完全消极的评论,1表示完全积极的评论。

根据我们的分析,我们发现大部分评论都是正面的,占比为73.4%。

而负面评论则占比26.6%。

此外,我们还将数据进一步分析,以了解某些特定因素对情感倾向的影响。

细粒度情感分析研究综述

细粒度情感分析研究综述

细粒度情感分析研究综述一、本文概述随着自然语言处理(NLP)技术的快速发展,情感分析已成为一个备受关注的研究领域。

细粒度情感分析作为情感分析的一个重要分支,旨在识别文本中更具体、更细致的情感倾向,如针对某个实体、事件或属性的情感。

这种分析方法能够提供更深入、更精确的情感洞察,对于理解用户需求、优化产品设计、改进服务等方面具有重要意义。

本文将对细粒度情感分析的研究进行全面的综述。

我们将介绍细粒度情感分析的定义、任务类型和研究意义,以明确本文的研究范围和目的。

我们将回顾细粒度情感分析的发展历程和研究现状,包括主要的研究方法、技术挑战和取得的进展。

在此基础上,我们将分析细粒度情感分析面临的主要问题和挑战,并探讨未来的研究方向和发展趋势。

我们将总结细粒度情感分析在实际应用中的价值,并展望其未来的应用前景。

通过本文的综述,我们希望能够为细粒度情感分析的研究者和实践者提供一个全面、系统的参考,推动细粒度情感分析技术的进一步发展和应用。

二、细粒度情感分析的研究现状细粒度情感分析,作为自然语言处理领域的一个重要分支,近年来受到了广泛的关注和研究。

随着大数据时代的到来,人们不再满足于简单的二元情感分类(如积极/消极),而是希望从文本中获取更细致、更深入的情感信息。

细粒度情感分析旨在识别文本中更具体的情感类别,如愤怒、喜悦、悲伤、惊讶等,甚至进一步区分同一情感类别下的不同强度或维度。

数据资源建设:为了推动细粒度情感分析的研究,研究者们构建了多个标注了细粒度情感标签的数据集。

这些数据集覆盖了不同领域和语种的文本,如电影评论、社交媒体帖子、产品评价等,为细粒度情感分析的研究提供了坚实的基础。

特征提取方法:在细粒度情感分析中,特征提取是关键的一步。

研究者们提出了多种特征提取方法,包括基于词袋模型的特征、基于词嵌入的特征、基于深度学习的特征等。

这些特征提取方法各有优劣,在实际应用中需要根据具体情况选择合适的方法。

情感分类算法:随着机器学习技术的发展,研究者们提出了多种用于细粒度情感分析的分类算法,如支持向量机、朴素贝叶斯、决策树、随机森林等。

基于深度学习的社交媒体情感分析研究

基于深度学习的社交媒体情感分析研究

基于深度学习的社交媒体情感分析研究社交媒体在现代社会中扮演着重要的角色。

人们通过社交媒体平台分享他们的日常生活、意见和情感。

随着社交媒体的快速发展和大规模的用户参与,对社交媒体内容的情感分析变得越来越重要。

基于深度学习的社交媒体情感分析研究成为当前热门的科研方向之一。

本文将探讨基于深度学习的社交媒体情感分析研究的背景、方法和应用前景。

首先,让我们了解一下社交媒体情感分析的背景。

社交媒体平台大量积累了用户的文本信息,这些文本信息往往包含丰富的情感内容。

情感分析的目标是根据文本的情感倾向性判断文本是否具有正面、负面或中性情感,并进一步了解具体情感类别。

传统的情感分析方法主要依赖于手工设计特征和机器学习模型来进行情感分类,但这些方法受限于特征的选择和模型的泛化能力。

而基于深度学习的情感分析方法可以通过自动学习特征并能够更好地处理海量的社交媒体数据。

然后,我们将介绍一些基于深度学习的社交媒体情感分析方法。

在深度学习领域,循环神经网络(RNN)和卷积神经网络(CNN)是常用的模型架构。

对于社交媒体情感分析,可以使用RNN或者CNN对文本进行建模。

RNN能够捕捉到文本的时序信息,对于长文本的情感分析效果较好;而CNN则适用于捕捉短文本中的局部特征。

此外,还有一些基于Transformer架构的模型,例如BERT和GPT,它们通过自注意力机制和预训练来提高情感分类的性能。

在具体实施情感分析任务时,首先需要进行数据预处理和特征提取。

对于社交媒体数据,可能会存在文本噪声、拼写错误和特殊符号等问题,需要进行文本清洗和规范化。

然后,利用词嵌入技术将文本转化为向量表示,例如Word2Vec和GloVe。

接下来,选择合适的深度学习模型进行训练和优化。

训练数据通常需要标注情感类别,可以利用众包等方法进行标注。

最后,让我们来讨论一下基于深度学习的社交媒体情感分析的应用前景。

社交媒体情感分析可以应用于广告推荐、舆情监测、市场调研等领域。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

意见挖掘研究的目的目前,互联网上的信息与日剧增,蕴藏着巨大的信息量。

但是,要想在很短的时间内获得人们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。

例如,对产品的各种评价出现在各大论坛、电子公告板以及门户网站上,厂商需要了解顾客使用其产品的反馈意见,潜在的购买者也需要作出是否购买某个产品的决定。

如果采用人工方式对这浩如烟海的信息进行查询、统计,显然是低效和不切合实际的。

面对这样的现实问题,意见挖掘技术应运而生。

一方面,它基于数据挖掘(Data Mining) 和文本挖掘( Text Mining) 技术,另一方面,它又具有相当的文本理解( Text U nderstanding) 的能力。

所以,它是比文本挖掘技术更接近人工智能目标的一种新技术。

它与以往的信息抽取( Information Extrac2tion) 、文本分类( Text Classification) 和文本摘要( Text Summarization) 技术不同。

虽然信息抽取和意见挖掘都需要深层的语义理解,但信息抽取主要是获取具体的语言表达结构,如命名实体、命名实体关系、事件等,这些成分一般为显式表达结构;而意见挖掘是挖掘意见的元素和它们之间的关系,即主题、意见持有者、陈述、情感和它们之间的关系,这些成分表达形式多样,而且常常不是显式地、独立地表达。

文本分类是在预定的用户需求下把文本进行分类,并没有涉及到深层次的语义理解。

文本摘要是用简练的语言表达长篇文本的中心思想,但文本中对事物的具体看法和评价则没有被清晰地提取出来。

实际上,意见挖掘技术弥补了上述这些技术的不足,是更具有应用价值的一种新技术。

意见挖掘涉及各个语言分析层面,不但涉及到词汇层(如分词和词性标注) 、句法层(如命名实体识别和语法分析) 和语义层(如语义分析) ,还涉及到篇章层(如跨句的指代消解) 。

意见挖掘与一些语言技术有关,例如,信息检索、文本分类、信息抽取、自动摘要、数据融合、问答系统、自然语言生成、对话系统、机器翻译等。

意见挖掘技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。

例如,采用意见挖掘系统从来自网上的产品(如笔记本电脑) 评价意见中快速地获得意见分类统计结果,可以提供给厂商以进一步改进产品的质量,可以提供给潜在的顾客作为选择购买什么型号产品的参考,也可以提供给代销商作为进货品种和数量的依据。

(文本意见挖掘综述姚天 1 ,程希文2 ,徐飞玉2 ,汉思·乌思克尔特2 ,3 ,王睿3 中文信息学报第22 卷第3 期)根据主题的本体概念和语义倾向使用启发式规则选择陈述。

在此基础上,使用统一的表示集成具有情感知识的语言特征,然后采用朴素贝叶斯分类器分类情感极性。

此后, Tsou 等人在上述研究工作基础上对中国四地(北京、香港、上海、台北) 报刊上有关四位政治人物(克里、布什、小泉纯一郎、陈水扁) 褒贬性的新闻报道进行了分类研究[33 ] 。

在研究中,首先通过标记语料库获得文本中的极性元素( Polar Element s) ,然后主要采用了三个衡量指标,即极性元素的散布(Spread) 、极性元素的密度(Density) 和极性元素的语义强度( Intensity) 来对每个文本进行统计,得出文本贬褒分类和强度大小的结果。

其中对确定极性元素之间的关系虽有所提及,但没有深入研究。

在BBS 文本研究方面,邱立坤等人提出了一种在BBS 环境下进行热门话题挖掘的算法[34 ] 。

这种算法在一般文本聚类算法基础上,应用BBS 所特有的点击数、回复数进行热度排序,然后采用基于特征词提取的话题归并,从而挖掘出最受BBS 用户关注的热门话题。

【1】文本情感分析归纳为 3 项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法[6] 基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性. ,基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳. 基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语.这里的词典一般是指使用WordNet 或HowNet 等. 词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词,如词语“好”在大多数情况下表现为“优秀”的意思,但在某些情况下扮演修饰成分(如“他跑得好快啊!”). 此外,还有一部分学者采用基于图的方法来识别评价词语的极性[6,20].具体来说,该方法将要分类的词语作为图上的点,利用词语之间的联系形成边来构建图,继而采用各种基于图的迭代算法(propagation algorithm)来完成词语的分类.基于图的方法是一种新颖的方法,它可以灵活地将词语间的各种联系作为特征融入图中,继而进行迭代计算.然而,寻找更为有效的词语间特征以及如何选取图算法是值得深入研究的问题.文本情感分析的作用:随着互联网上评论文本的爆炸式增长,迫切需要计算机帮助用户加工整理这些情感信息,这使得情感分析研究具有重要的应用.下面,本文就情感分析的应用现状以及应用前景进行概括介绍.•用户评论分析与决策•舆情监控•信息预测参考文献【1】文本情感分析赵妍妍秦兵, 刘挺. Journal of Software, V ol.21, No.8, August 2010, pp.1834−1848[6] Rao D, Ravichandran D. Semi-Supervised polarity lexicon induction. In: Lascarides A, ed. Proc. of the EACL 2009. Morristown:ACL, 2009. 675−682.词语情感倾向性识别* 闻彬, 咸宁学院学报第30卷第6期本文将第一节主要探讨词语倾向性识别的的研究现状1国内外研究现状词汇倾向性判别是文本倾向性分析的基础.情感词识的准确性直接影响到要素级,篇章级的倾向性研究.目前国内外词汇倾向性研究主要分为两类———统计方和语义方法.统计方法主要是基于机器学习,利用文档集中词汇间共现关系来计算词汇的倾向性.2003年,PeterD.TurnMichaelL.Littman[1]使用的点互信息(PMI-IR)方法利了搜索引擎提供的“NEAR”操作,来估计词汇与具有强烈向意义的种子词集合的关联程度,以此作为计算该词倾性的依据.同年,Yu和Hatzivassiloglou[2]挑选出若干极性强的形容词(情感词)构建一个种子词集合,通过计算新和种子集合中的词的共现概率来判断新词的语义倾向.语义方法主要是基于一个现存的本体知识库,如英文WordNet和中文的HowNet,通过计算待估词与选定的基词的语义距离,进而判断待估词的倾向性.2002年,Kps等[3]正是利用WordNet的同义结构图计算待估词与所选基准词的语义距离来得到其倾向性,在中文方面,复旦大学学的朱嫣岚等[4]在2006年提出的基于HowNet的词汇语义倾向计算方法,利用词语间的相似度来计算词的褒贬程度.2007年北京大学的路彬等[5]采用中文的《同义词词林》来计算词汇褒贬,这种方法前两层扩展的准确率非常高.随着W eb2.0时代的到来,网络成了反映社会舆情的重要载体之一,越来越多的人们通过博客、论坛以及网站留言板发表自己对热点事件的观点和看法.对于某个热点事件,如果将其有关的网络舆情信息加以汇总并且进行分析,就可以反应出对于这个事件民众所持有的态度和观点的倾向性.这种汇总的网络舆情,可以有效地帮助相关政府职能部门了解民意,进而做出及时的反馈.本文应用观点挖掘技术通过对新闻网页的评论进行收集并进行分析,将网民的评论汇总成肯定、否定和中性三类,取得了良好的效果.分析评论中文本的情感倾向性是观点挖掘的主要任务之一,目前倾向性的分析主要针对词汇、句子和篇章三个层面进行分析.词汇的情感分析目前主要有三种方法,一种是基于WordNet[5]和HowNet[6]这样的知识库,首先选择两组具有明显正向和负向极性的词语作为种子词,对于一个情感倾向未知的词,计算这个词与两组种子词的相似度,与正向种子词组相似度高的则判定为正面倾向,反之则判定为负面倾向.词汇倾向性分析的另一种方法是无监督学习方法[7],这种方法同样需要先确定两组等量具有明显倾向性的种子词,一组是褒义种子词,一组是贬义种子词.对于一个新词,根据它和两组种子词的紧密程度对其倾向性进行推断,紧密程度的判断是根据词语在语料库中的共现频率,称为点态互信息量,将词语与褒义种子词的点态互信息量之和减去与各贬义种子词的互信息量之和,结果的正负即表示词语的倾向性,而且结果的大小还表示了倾向性的强度.这个方法的点态互信息量也可以通过使用搜索引擎来计算,其概率可以通过搜索引擎返回的Hits值占搜索引擎总的索引页面数的比例来计算,因此无需语料库.在英文的应用系统的研究上, Bing Liu等学者研究并开发了OpinionObserver[8],主要针对商品评论做了更深入的分析,突破了仅仅给出篇章总体倾向性的研究,研究了从同一类商品的多个评论中抽取子主题的算法,对子主题倾向性分析,综合多个语篇的分析得出总结性的结果,具有比较实际的商用价值.这也是商品评论比较特别之处,同一类商品的子主题比较容易确定,比如数码相机的评论一般包含多个主要部件或属性的评论,尺寸大小、照片质量、电池寿命、相机重量等.在汉语的应用系统的研究上,姚天?等学者研究并开发了一个用于汉语汽车评论的观点挖掘系统[4],该系统在电子公告板、门户网站的各大论坛上挖掘并概括顾客们对各种汽车品牌的各种不同性能指标或重要部件的评论和意见,并且判断这些意见的褒贬性以及强度,最后总结并得出可视化的结果.。

相关文档
最新文档