关于新闻和微博的大规模情感分析
热点新闻事件的情感分析与预测

热点新闻事件的情感分析与预测近年来,随着社会发展的不断加快,各种新闻事件频繁出现,更是让人们对各种事件的情感和反应变得丝毫不逊于事件本身的重要性。
因此,对于这些热点新闻事件的情感分析和预测,也成为了我们需要关注和研究的重要问题。
一、情感分析的意义情感分析是一种对文本、图像等信息进行识别和分析的技术,其目的是从数据中发现人们对事件的情感态度,从而深入了解人们的需求、要求和态度等。
在新闻事件中,情感分析可以有效地帮助我们了解社会群体对事件的态度和反应,从而帮助我们更好地应对各种不同的事件和问题。
此外,情感分析也可以帮助企业更好地了解市场需求和产品反馈情况,更好地为顾客服务。
二、情感分析技术的应用情感分析技术在各种领域已经得到广泛应用。
在新闻事件中,情感分析技术可以帮助我们实现以下目标:1. 情感分析可以帮助我们了解事件的微博和评论,进而分析市场反应和民意变化。
在事件发生之后,我们可以通过收集社交媒体上的评论和微博等信息,对民众的情感和反应进行情感分析,并结合其他数据统计,制定合理的应对策略。
2. 情感分析可以帮助我们了解事件后对企业的影响情况。
在一些特定情况下,企业内部可能出现一些不利于企业的言论和评论。
此时,我们可以通过情感分析的方式,了解民众对这些言论的态度和反应,进而舒适出切实可行的应对策略。
3. 情感分析可以帮助我们发现问题。
在新闻事件中,如果某些言论或动作受到了大量负面评论,我们就可以得出一些结论和推断,发现问题并制定解决方案。
三、情感分析的发展趋势随着人工智能技术的不断发展和普及,情感分析技术的应用也变得越来越广泛。
相信在不久的将来,我们将会看到以下这些趋势:1. 更加成熟的情感分析技术。
随着人工智能技术的不断提高,我们可以预见,情感分析技术也将不断成熟和完善。
未来的情感分析技术,可能会利用更加复杂和高级的算法,进一步提高情感分析精度和准确率。
同时,这些情感分析技术将会应用到更多的领域和行业中。
微博的发展现状分析

微博的发展现状分析随着互联网的普及,微博逐渐成为人们分享生活、表达观点的重要平台之一。
微博发展的现状可以从以下几个方面进行分析:1. 平台用户规模逐渐增长:微博平台的用户数量不断增加,用户基础不断扩大。
据统计,截至2021年3月,微博月活跃用户达到5.14亿。
这意味着微博已经成为了一个庞大而活跃的社交平台。
2. 多元化的内容形式:微博上的内容呈现多样化趋势。
除了传统的文字微博外,图片、视频和直播等形式也被广泛采用。
用户可以通过多种方式表达自己的观点和情感,丰富了微博平台的内容。
3. 社交、娱乐、资讯三位一体:微博不仅成为人们社交交流的平台,也汇集了大量的娱乐和资讯内容。
明星、名人、电视节目等热门话题经常成为微博用户们热烈讨论的对象,同时,用户也可以通过关注公众号等方式获取丰富的资讯。
4. 广告和商业变现模式的改变:微博平台通过广告等方式实现商业变现。
近年来,微博进行了广告形式和投放机制的调整,引入更多的创意和个性化内容,试图提高广告效果以吸引广告商和品牌主的投放。
与此同时,微博也积极推动内容创作者的变现,通过提供赞赏、付费问答等功能支持他们实现经济收入。
5. 社会责任的担当:微博平台也开始承担起社会责任。
面对网络谣言、不良信息的传播,微博加强了对用户发布内容的审核和监管,积极打击违规行为。
微博还积极参与公益行动,通过和公益组织合作等方式,为社会做出一定的贡献。
综上所述,微博作为一个社交平台,在不断发展壮大的同时,也面临着各种挑战和机遇。
今后,微博在用户数量、内容多样性、商业变现和社会责任等方面仍有进一步发展的空间,将持续为用户提供丰富而有价值的体验。
微博用户情感分析与影响力评估

微博用户情感分析与影响力评估随着社交媒体的不断普及和使用,微博已经成为了一种流行的社交平台。
作为国内最具影响力的社交媒体之一,微博拥有数亿的用户,其中不乏许多具有一定影响力的大V。
然而,仅仅拥有大量的关注者并不足以证明一个用户的影响力,因为每个人都有自己的情感和价值观,而用户发表的每一条微博均会直接或间接地影响到他的粉丝,对于微博用户的情感分析和影响力评估,因此具有十分重要的意义。
一、微博情感分析微博用户发表的微博中包含丰富的情感信息,它们可以是喜悦、愤怒、悲伤、惊讶等等。
情感分析就是一种通过计算机技术对这些情感信息进行识别和分类的方法。
情感分类的目的就是将微博分成积极、中性和消极三大类,这样就可以更好地理解网民的态度和观点。
情感分析技术通常采用机器学习和自然语言处理等技术,首先需要对大量的微博数据进行训练,建立情感识别模型。
训练集的建立需要耗费大量的人力和物力,在训练集具备一定的规模和代表性之后,利用这些数据训练模型,根据模型给出的概率或权重,对新的微博进行分类。
微博情感分析除了能够帮助用户了解网络上的观点和态度外,还可以应用到企业的品牌管理和公共舆情监测中。
二、微博影响力评估对于大V或是其他影响力人士而言,影响力评估同样具有重要的意义。
影响力评估其实是通过对用户的微博进行分析,整合用户在微博上的各种数据,并对其深入挖掘,最终判断该用户在微博中的影响力大小。
影响力评估一般可以包括以下几个方面:1. 粉丝数粉丝数是判断一个用户影响力大小的最简单和最直接的指标之一。
但是,单纯的粉丝数量并不能反映出用户在微博中的价值和影响力。
2. 微博转发量转发量是最能反映一个微博的传播效果的指标之一。
对于大V来说,越多的转发意味着更广泛的传播和更高的影响力。
3. 微博原创量原创微博是用户表达个性、个人认知和态度最直接的途径。
发表多量且质量高的原创微博,可以增加自身在粉丝中的影响力。
4. 微博互动量在微博上与粉丝之间的互动可以增强粉丝的忠诚度和归属感,帮助用户提高自己的影响力。
微博情感分析及其应用研究

微博情感分析及其应用研究随着互联网与社交媒体的兴起,微博已经成为现代人们生活中重要的一部分。
人们不仅在微博上商业营销产品,也在微博上展示自我。
微博不仅是人们传播信息的平台,还是情感表达的集散地。
因此,对微博情感的分析和研究已成为计算机科学、心理学等领域的重要课题。
一、什么是微博情感分析?微博情感分析(Sentiment Analysis)是利用计算机技术,通过对用户发布的微博文本进行处理,判断微博发布者的情感倾向。
其核心目标是通过处理文本,将微博文本对应的情感值分为正面、负面或中性。
微博情感分析是从数据分析与语言分析多个角度出发,从海量数据中提取有意义的情感信息,对微博用户及社会公众的心理和情感状态进行把握并为决策提供参考。
二、微博情感分析的技术方法微博情感分析技术主要包括文本挖掘、机器学习和自然语言处理技术。
1、文本挖掘技术文本挖掘技术是指对自然语言文本进行处理、分类、聚类、分析和挖掘的技术。
通过对微博文本进行分析和处理,主要是对其中的关键词进行提取和分类,找到表情符号的意义,以及识别出语句中所表达的情感,并归类为正面、负面或中性。
2、机器学习技术机器学习技术指通过对大量数据的学习和分析,从中发现规律和模式,并对新数据进行预测的一种方法。
微博情感分析中常用的机器学习技术包括朴素贝叶斯算法、支持向量机、逻辑回归等。
3、自然语言处理技术自然语言处理技术是指对人类自然语言进行分析、处理、理解和生成的技术。
在微博情感分析中,自然语言处理技术主要包括分词、词性标注、依存句法分析等。
三、微博情感分析的应用研究微博情感分析的应用研究主要有以下几个方面。
1、企业品牌形象管理企业可以根据微博情感分析结果,对自己的品牌形象进行调整,从而提升品牌吸引力和竞争力。
如某手机品牌在上市时,发现用户的情感倾向都是负面的,便可以通过修改手机设计和功能等方面提升用户的情感体验。
2、舆情监测通过微博情感分析技术,政府、企业和公众都可以对社会舆情进行监测。
大数据环境下的微博情感分析技术研究

大数据环境下的微博情感分析技术研究随着互联网的飞速发展,社交媒体已成为人们最重要的信息获取和交流平台之一。
其中,微博是一个非常成功的社交媒体,已成为许多人获取信息,表达观点以及建立社交关系的主要渠道。
然而,由于微博发帖数量庞大,每秒钟都有成千上万的微博被发布,使微博情感分析成为一个热门的研究领域。
本文将会探讨在大数据环境下的微博情感分析技术研究。
一、微博情绪分析的基本概念微博情绪分析是一种将情感标签分配给微博的自然语言处理技术。
情感标签通常包括正面、负面和中性情感。
其目的是为了帮助人们更好的理解在社交媒体中的用户对某个话题所持的情感态度。
微博情绪分析可以提供大量的数据和信息,这对于商家、学者和政治家等行业领域的人们非常有价值。
因此,微博情绪分析技术已经成为了一种非常热门的互联网技术应用。
二、微博情感分析技术的发展历程微博情感分析技术研究早在2002年就已经开始,但直到随着互联网和社交媒体的发展,情感分析技术才受到更广泛的重视。
现今,微博情感分析技术已成为自然语言处理中的一个非常重要的研究方向,并且已广泛应用于商业和学术领域。
三、微博情感分析技术的实现方式在微博情感分析技术中,主要有两种实现方式,分别是基于词典和基于机器学习的方法。
基于词典的方法是通过在情感词典中收集一系列的情感词汇,然后将微博中的各个词语与情感词典中的对应词语进行匹配,从而快速判断每个微博的情感极性。
基于词典的方法的优点在于速度快且易于实现,但是它的缺点在于情感词典的构建和更新需要大量的人力成本,同时,它也不能处理词汇的语义信息。
基于机器学习的方法,则是将微博情绪分类视为一种监督学习问题,通过训练一个情感分析模型,该模型可以从数据中学习微博的情感特征,从而进行情感分析。
机器学习方法的优点在于能够利用大量的数据进行训练来提高情感分析的准确性和鲁棒性,但是它需要大量的训练数据和计算资源才能进行,同时还需要高质量的特征工程。
四、微博情感分析实践应用微博情感分析技术已经成为了许多商业和学术领域人们的重要研究方向,如市场和品牌调查,舆情分析和政治选举等。
微博情感分析评测总结

情感要素抽取
宽松评价
微平均
Precision
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.000 0.000
0.050
0.100
0.150
0.200 0.250 Recall
0.300
0.350
0.400
情感要素抽取
宽松评价
微平均
25.0% 20.0% 百 15.0% 分 比 10.0%
”#官二代求爱不成将少女毁容# 这种畜生是怎么被教育出来的啊!!!!” -> “官二代”
人称代词需要尽可能在当前微博内进行指代消解:
“小明就读于北京大学,他是名优秀的学生。”->”小明“
抽取出句子中每个情感片段所对应的情感对象:
“你根本已经不是个人了,你比蛇还冷血,你比畜生还畜生。” -> “你” “你” “你”
情感倾向性判断
宏平均
Precision
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.000 0.000
0.100
0.200
0.300
0.400 0.500 Recall
0.600
0.700
0.800
0.900
情感倾向性判断
宏平均
16.0% 14.0% 12.0% 10.0% 百 分 8.0% 比 6.0%
5.0% 0.0%
F-measure
0.00-0.05 0.05-0.10 0.10-0.15 0.15-0.20 0.20-0.25 0.25-0.30 0.30-0.35 0.35-0.40 0.40-0.45 0.45-0.50 0.50-0.55 0.55-0.60 0.60-0.65 0.65-0.70 0.70-0.75 0.75-0.80 0.80-0.85 0.85-0.90 0.90-0.95 0.95-1.00
微博热点话题的情感分析研究

微博热点话题的情感分析研究随着社交媒体的普及,人们越来越频繁地在微博上发表自己的情感。
微博上的热点话题也往往能够反映社会热点和人们的情感动态。
因此,对微博热点话题进行情感分析研究具有重要意义。
一、什么是情感分析情感分析,又叫情感识别、情感判别,是指通过对人类语言的处理和分析,对其中蕴含的情感进行识别的一项技术。
常见的情感分析包括正向情感、负向情感和中性情感。
二、微博热点话题的情感分析应用1.情感分析对于评估社会状况具有重要意义。
随着社交媒体的兴起,越来越多的人们会在微博上表达自己的情感和观点。
通过对微博热点话题进行情感分析可以得出人们对社会热点和事件的态度,从而评估社会状况。
2.情感分析对于品牌营销具有重要意义。
微博是一个品牌宣传和营销的重要平台,通过对微博上的话题和用户情感的分析,可以帮助企业更好地了解消费者需求,制定更加符合市场需求的营销策略。
3.情感分析对于舆情监测具有重要意义。
微博上的热点话题往往能够反映社会舆情,通过对微博热点话题的情感分析可以帮助政府和企业了解社会热点和民意动态,制定相应的政策和营销策略。
三、微博热点话题的情感分析方法1.通过情感词典进行情感分析。
情感词典是一个包含正向情感词、负向情感词和中性情感词的词库。
通过对微博文本中出现的情感词汇进行统计和分析,得出微博话题的情感极性。
2.通过机器学习进行情感分析。
机器学习是一种无监督学习的方法,通过对大量的微博文本进行学习和模拟,训练机器语言模型,得出微博话题的情感极性。
四、微博热点话题的情感分析研究现状目前,国内外已经有不少学者对微博热点话题进行了情感分析研究。
其中,一些研究结果表明,不同领域的微博话题的情感极性存在一定的区别,不同性别和年龄段的微博用户的情感表现也存在差异。
此外,随着深度学习和人工智能技术的发展,微博热点话题的情感分析研究也越来越精准和准确。
总之,微博热点话题的情感分析研究对于社会状况评估、品牌营销和舆情监测具有重要意义。
微博话题的情感分析方法研究

微博话题的情感分析方法研究随着社交媒体的发展,微博已经成为了人们交流和获取信息的重要平台。
大量的用户在微博上发布各种话题,这些话题不仅反映了人们的兴趣和关注点,也涵盖了各种情感和态度。
情感分析是一种重要的技术,可以帮助我们准确地了解微博用户的情感和态度。
本文将从数据来源、情感分类和分析方法三个方面介绍微博话题的情感分析方法研究。
一、数据来源微博是一个大规模的社交媒体平台,每天都有数以亿计的用户在其中互动交流。
对于情感分析来说,数据来源是一个至关重要的问题。
目前,微博情感分析的数据来源主要有两种方式。
第一种是手动标注,这种方式需要大量的人力和时间成本。
实现手动标注需要选取一些语料样本,对每个样本进行情感标注。
然后通过人工阅读微博内容,对数据样本进行情感标注。
虽然这种方式可以确保情感分类的准确性,但时间成本和标注人员的标注一致性等问题限制了手动标注的普及和应用。
第二种是使用自动标注技术。
自动标注技术可以大量减少标注成本。
常见的自动标注技术包括基于情感词典的方法、基于词向量的方法等。
其中,情感词典是一种包含了各种情感词汇和其情感极性的词典。
基于情感词典的方法主要是将文本中的每个词汇与情感词典进行匹配,然后统计每个词汇的情感分数,最终通过加权和的方式将文本情感得分计算出来。
基于词向量的方法则采用机器学习算法对训练数据进行学习,然后对测试文本分词并生成词向量表示,再使用分类器进行情感分类。
二、情感分类情感分类是微博情感分析的核心部分。
情感分类主要是将文本分为积极、消极和中性三类。
其中,积极和消极类别是情感分类的两个重要方面。
情感分类的实现需要采用一些自然语言处理技术。
常见的情感分类技术包括基于词典的方法、机器学习算法和深度学习算法等。
基于词典的方法是应用最为广泛的情感分类技术。
该方法主要是将情感词典中的情感词汇与待分类文本进行词汇匹配,并计算每个词汇的情感极性得分,最后根据得分总和判断文本情感极性。
机器学习算法是一种基于数据驱动的情感分类技术。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于新闻和微博的大规模情感分析摘要报纸和微博用来表达对最近报道的新鲜实体(任务、地点、事情)的观点。
我们创造一个以打分的形式存在的系统,此系统用来指示文本语料库中的对每一个有区别的实体的积极和消极的观点。
我们的系统包括一个与每一个相关实体的观点相联系的情感识别阶段和一个对同一类中每一个其他相关实体打分的情感聚集和评分阶段。
最后,我们评估这种基于新闻和微博大规模语料库的这种打分技术的意义。
1.简介新闻有好坏之分,但却很少有中立的情况。
尽管在机器的操控下对于自然语言文本的充分理解发展得很好,但是对简单情感核心的相关性的数据分析可以提供一些令人惊奇的、有意义的的理解,这些理解都是关于最近的新闻消息如何影响重要的实体的。
在这篇论文中,我们将论述基于Lydia文本分析系统[1、2、3、4、5]顶部的对于新闻和微博实体大规模情感分析的发展。
我们决定成千上万的所追踪的实体的公共情感和这种情感如何随着时间变化。
我们鼓励读者学习我们在/sentimen上对于所喜欢的新闻实体的历史情感分析,同时对在/sentiment发布的日常情感分析提出意见和建议。
在第六部分,我们将在系统的证明论文中给出几个我们分析的例子。
在这篇论文中,我们将讨论关于情感分析系统的几个部分,包括:*情感字典的算法结构——我们的情感索引精密地依赖于对有积极和消极含义的形容词的参考频率的追踪。
我们找到一种方法,将有积极和消极意义词的候选列表扩展为在词汇网络中建立的基于情感分析的同义词和反义词的全面的情感词典。
我们用情感的交替次数来决定候选词的受欢迎程度和消除含义模糊的词。
我们将呈现精密的算法和执行结果。
*情感索引规划——构造能够反映并列情感词意义的数据索引是很重要和微妙的。
我们提出了一种用情感词和实体的并列以及以频率权重来衡量的用幸福水平来给实体情感打分的插入的技术。
*意义的评估——我们提供了情感评估合理性的证据,此情感评估与现实世界的几个级别的时间相联系,这些事件包括(1)专业篮球和篮球比赛的结果,(2)股票市场目录的表现,和(3)季节的影响。
乐观统计表明我们的分析者能够准确地测量出公共情感。
我们还提出轶事一样的证据用来证明我们的分析。
最后,我们讨论可能的应用和我们工作的意义。
2.相关工作自然语言的情感分析是一个正在成长的大规模领域。
特别是关于我们任务先前的相关工作自然分配给我们这两个小组。
第一个小组是关于自动收集情感字典的技术。
第二个是关于整个文档进行情感分析(总体上或者部分的)的系统的技术。
2.1 具有决定性的语义方向的词Hatzivassilogou和McKeown假设词性相同的形容词可以用“和”来区分,而词性相反的用“但是”来区分。
从小的种子列表开始,这种信息过去常常用来将形容词分为两个集合,比如最大的约束条件是满意的。
Wiebe像评价渐变的等级一样来评估形容词的词性。
数据模型将形容词根据其语气和语义方向将其分成几个集合。
这种渐变的形容词的使用对主观性的决定起着重要的作用。
数据模型用来预测形容词的渐变性。
Kim和Hovy评价观点持有者(实体),此观点持有者通过扩展种子列表在词汇网络中产生积极和消极词的列表。
他们假设一个词的同义词(反义词)有相同的(相反的)词性。
一个词的同义词所占的比例属于用于测量其词性强弱的词性列表,而另一些则被认为是中立的或者词义不清的入口。
当主题附近包括的词在这个句子中时就会产生最好的结果。
2.2情感分析系统已经建立起来的几个系统用于在产品的综述中对观点进行量化。
Pang、Lee和Vaithyanathan执行对电影综述中的情感分析。
他们的结果表明机器学习技术比简单技术方法效果更好。
对于词性级别的正确性他们大概能达到83%。
在第[11]部分,他们确定了在一篇综述中哪些句子具有用于提高情感分析的主观因素。
在这个系统中我们不做区别,因为我们认为事实和观点都对关于新闻实体的公共情感有影响。
自人们都不同意整体文档情感以后,Nasukawa和Yi[12]认为局部情感比整体文档情感更加据有说服力。
他们集中于辨别这些情感表达的方向和决定这些情感的目标。
浅显的语法分析辨别目标和情感表达;后者用目标来评估并与目标相联系。
我们的系统也进行局部情感分析,但是是为了加快和变形:在相同的句子中,我们将情感归于所有并列的实体而不是某一特殊的目标。
在[13]部分里,他们用特征词追踪器来进行追随。
在给定的项目中,特征追踪器辨认局部或者是项目的属性。
比如电池和摄像头是照相机的特征。
3.情感词典的产生情感分析取决于在语料库和方向上我们对一个情感词的辨别能力。
我们为七个情感规模(常规、健康、犯罪、运动、商业、政治、媒体)依次进行定义。
我们选择这些规模是基于我们用对意见和情感的区别标准来区别新闻规模的辨认度。
扩大情感词典的数量可以使更多的精力放在分析特殊目标的现象上,但是在人类屏幕上潜在着大量的消耗。
为了避免这个,我们发明了一种将小规模的种子情感词扩展为充分的词典的算法。
3.1贯穿于路径分析的词典算法在第二部分详细介绍过的先前的系统通过电脑词典-词汇网络[14]对同义词的递归查询的办法已经将种子列表扩展为词典.。
这种方法的缺陷在于同义词会随着距离而一直减弱。
第一组数据将会显示通过词汇网络同义词的链接四种方法如何从好变成坏的。
为了抵消这些问题,情感词的产生算法扩展了一系列以同义词和反义词查询的种子词,如下:*我们将一个词性(积极或者消极)与每个词和查询的同义词和反义词两方面同时联系在一起,就像同义词[15,16]从它父母那里继承词性,反之反义词继承相反的词性。
*一条路径的意义随着它在种子词中深度和广度的作用而减弱,就像[9,17,18]所描述的。
词W的意义在深度d上以指数(W)=1/cd(c是常数,c>1)形式减少,最后每个词的分数是整天所接收路径上所有分数的综合。
表1:每个形容词的情感词典的构成*在积极和消极词之间转换的路径像是伪造的。
因此我们的算法运行两次迭代。
第一次计算每个词的先前分数,就像上面所描述的那样对每个先前的词进行评估。
当计算明显的情感交替和跳跃时,第二次迭代重新列举路径。
跳跃越少,这条路径越值得信任。
最后的分数只考虑哪些跳跃值在我们预设的关口之内的路径。
*词汇网络用含义对同义词/反义词进行排序,先采用在列表中更加普通的含义。
既然这些指定的分数服从正态分布,他们自然转换为z-分数。
大多数的词位于中间模糊的分配地带,这意味着他们不能被以积极和消极的范围连续的分开。
一些词义模糊的词被丢弃,只取既不极端也不词义扭曲的词的前X%。
表1展示了算法产生和形容词每个阶级的情感词典的构成3.2性能评估我们通过两种不同的方式评估了我们的情感词库的生成。
第一种方法我们称为un-测试。
前缀“un-”和“im-”通常是负面情感的术语。
因此形式为X和unX 的术语应当出现在情感频谱上不同的两端,就像“能胜任的”和“不能胜任的”。
表格2记录了部分拥有同极性的配对(正面术语和负面术语)。
因此这个比率越低越好。
我们的结果显示,以查全率为代价的精确度提高需要我们:(1)限制通道情绪交替的数量,和(2)删除少数对义性词语正在增长的部分。
表格2:为使词库扩展,对精确度和查全率的权衡作为拉动阈值(阈值:一个领域或一个系统的界限称为阈,其数值称为阈值)和算法的少数对义性词语的一部分。
表格3:算法生成和人为收录的词库的比较。
我们还比较了我们的情感词典和那些由Wiebe[19]获得的词汇,就像表格3的报告。
我们算法生成的词库和手动收录的词库高度一致。
进一步的,我们发现我们算法生成的极性经常是健全的,即使它们来源不同[19]。
比如,负面情感词库PolMauto包含像“bullish(看涨的)”,“agile(敏捷的)”和“compassionate (富于同情心的)”等明确的积极性词汇,而正面情感词库PolPman包含像是“strenuous(紧张的)”,“uneventful(平凡的)”和“adamant(固执的)”等词汇。
4.对情感数据的解释和评分我们使用我们的情感词库来标记所有的情感词汇和我们语料库(语料库:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源)中的相关存在。
每当情感词汇前面有一个否定修饰时,我们扭转该词的极性。
当一个词前有修饰语时,我们增加/减少了它的极性强度。
因此,不好=-1;好=+1;非常好=+2。
我们的情感分析其忽略了那些当被检测到是另一篇的复制品时的文章[1]。
这可以防止在多家报刊上同时发表的新闻文章比其他的文章在情感上有更大的影响力。
因为我们的系统每天都处理大量的文本,所以速度考量阻止了我们去进行仔细的剖析。
取而代之的是,我们使用实体的同现,在同一个句子里的情感词汇意味着情感与实体相关联。
这并不总是准确的,特别是在复杂的句子里。
尽管如此,我们处理的文本的量还是能够使我们生成精确的情感评分。
我们需要几个步骤来聚合不同名字的实体引用。
通过使用代词分辨技术,与其说我们能够确定更多的实体/情感同现,不如说能够确定其在原始新闻文本里的存在。
进一步的,Lydia的共同参考集识别系统[4]将交替参考资料联系起来,比如George W.Bush和George Bush都是在以George W.Bush为眉头词的单个同义词组内。
这巩固了属于一个单一实体的情感。
4.1极性评分(极性:现代心理学认为情感具有二极性,冯特"情感三维度说"就说明情感有愉快与不愉快,兴奋与压抑,紧张与松弛三对不同性质)表格4:维数关联使用月度数据。
我们使用未加工的情感评分来追踪两个随时间的过去而变化的趋势: ·极性:与情感相关联的实体是积极的还是消极的?·主观性:实体获得了多少(任何极性的)情感?主观性表明情感出现频率的比例,而极性则表明积极的情感参照占所有的情感参照的百分比。
我们首先关注极性。
我们使用全部时间区间内的所有实体的情感数据来评估世界极性:我们只使用那一天的情感数据来评估实体极性:表格4表明了各种情感指数之间的相关系数。
一般来说,成对指数正相关,但相关性不是很强烈。
这是一件好事,因为这显示了每个分指数测量不同的东西。
总体指数是所有指数的集合,因此体指数都呈正相关。
4.2主观性评分主观性的时间序列反映了与一个实体相关联的情感数量,无论是积极还是消极的情绪。
一段时间内阅读所有的新闻文本以及计算其中的情感给了我们一个世界平均主观性水平的分量。
我们使用所有时间区间内的所有实体的情感数据来评估世界主观性:我们只用当天的情感数据来评估实体主观性:5.新闻VS.博客关于博客和报纸的争论以及被讨论的人群都相当的不同[2]。