网络社交媒体的情感认知与计算

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本讲座选自清华大学电子工程系信息认知与系统智能研究所副所长黄永峰于2015年12月23日在清华RONGv2.0系列论坛之“社会关系网络与大数据技术”专场上所做的题为《网络社交媒体的情感认知与计算》的演讲。

黄永峰:各位老师、同学们,上午好!很荣幸有这个机会跟大家交流,我的题目是网络社交媒体的情感认知与计算。

下面我将从这三个方面为大家逐一介绍。

情感计算的历史是1997年由MIT的Picard教授提出的,她指出情感计算是与情感相关,来源于情感或能够对情感施加影响的计算。情感分为四类:情感识别、情感表示、情感建模、情感交互。今天我讲的更像是情感识别方面的研究。情感计算分为四个过程:情感信息采集、情感识别分析、情感理解认知、情感信息表达,这四个方面我们做得更多的是识别分析,理解认知是我们下一步想做的。

Picard提出这个计算的时候,最开始的想法是从一些图像的表情、语音的语调、姿态中采集数据,通过特征信息的抽取和分析,最后识别情感而今天我所做的情感是利用互联网这样一个平台来采集大量语言的信息或者语言数据来分析个体的情感。我们为什么要采集情感?首先情感的采集比别的更丰富,语言是人类思维的直接现实,是思想的传播载体,也是情感表达的媒介,通过采集语言数据分析情感是完全可能的。但是有没有难度?有个统计数据指出一个语言的情感信息10%来自于语言本身的内容,20%来自于语言的语调、语气,70%来自于表情。传统语言的语调、语气信号用于分析情感相对更容易,而我们基于语言内容来分析情感难度会大很多。

什么叫情感?首先要对情感的模型有一个理解。Plutchik提出了一个最典型的情绪模型,他把人的情感分为八个类别、四个种类,分别用锥形模型和展开后的模型描述。从这两个模型我们能够看出情感的描述有很多方法,目前用得最普遍的是三维模型,把情感用强度划分为三个等级,这八个类别相对的是不同极性情感,相邻的情感区域的情感是很相似的,即情感的第3维,相似性。我们后面展开的情感研究主要是对这24类情感研究的一个简单的量化,情感很复杂,我们的研究从两个方面进行量化,第一个是强度,第二个是把相似性和极性合到一起研究。

以往我们网络媒体情感的研究主要是对网络媒体情感的倾向性进行计算,基本方法是利用自然语言处理、文本分析、计算语言学的方法,从文本中挖掘人们的观点、情感、评价、态度和情绪,也称之为观点挖掘。基本部署是通过一些知识库,再加上统计学的一些基本原理,构建系统,对网络的文本进行分类,能够得出它的极性以及极性的强度。

第二个问题是社交媒体。我们今天强调的是社交网络。我们理解的社交媒体是由Web2.0产生的长度比较短的文本都叫网络文本,我们的网络情感计算就是从这些网络媒体中生产的数据来挖掘情绪强度,我们的网络媒体是一个典型的大数据。

首先数据量大,腾讯每日同时在线QQ用户是1.6亿,每天的存储容量是300G。新浪每天访问量是10亿,高峰期每秒要有100万的响应。

第二数据更新快,新浪微博每秒发帖量2500条以上,Twitter 每秒发帖量在14300条,这些都有动态特征和时间演化特征。

第三多样性,这个和大数据的多样性的理解不太一样,我们认为的多样性是网络媒体的数字来自于不同的用户,不同用户的诚信度不一样,可信度也不一样。表达语言有多样性,表达方式有表情符号、中文、英文等。还有一个很大的特点,网络是非正式语言,有很多网络新词,而网络新词代表语义,而且拼写错误很多,这也是造成多样性的一个方面。

四,不确定性,做过语言的人都知道,语言最大的难度是语义,我们分析的时候主要是词的情感有不确定性以及噪声也有不确定性。比如说工资上涨及物价上涨,同样是上涨的词,工资上涨很高兴,物价上涨肯定是不高兴的。同时对一个句子来说,比如说国足太差了,后面另外一个网络用户说我同意,单从我同意这三个字很难理解他的网络极性,联合上下文理解,这是作为句子的不确定性。

为什么要对网络媒体内容的情感进行分析?从这个PPT中可以看出,现在不管是社交网络还是即时通讯的短文本,都包含了大量的情感信息。这些情感信息反映了对某个事件、某个公众人物、某个产品、某个企业的态度,通过对这些文本情感极性的分析,我们能够了解这个商店是好还是坏。

网络媒体情感计算的应用,这里就不详细介绍了。

这是几个典型的应用案例。

我们对网络媒体情感计算的学术意义做了分析。该领域从2006年开始成为研究热点,根据论文发表数目和被引用数目,其热度还处于线性上升的阶段。

微软发表文章指出情感计算是人工智能的重要发展方向。前不久有一个数据问答机器,下一步的目标是研究具有表情、情绪的机器人实现在舞台上的表演。如果说智能回答是人工智能的进步,有情感将是人工智能更高的境界。在2009年发表的社会计算学的文章中指出情感计算是社会计算的一个重要研究方向,在认知物理学的报告里指出认知物理学发展到较高层面也是情感计算。

我们实验室在网络媒体情感计算领域做了哪些事呢?首先我们分析了网络媒体在情感计算方面存在的挑战,跟传统文本相比网络媒体存在四方面的特点,也带来了相应的挑战。

一,网络媒体中表示情感的符号更丰富,除了一些语义词、情感词之外还有一些符号,大家经常发微信可以发一些符号,是一个图文并茂的结构。

二,网络媒体一般来说都很小,在200字以内,所以存在很多词汇特征的稀疏性问题,但是情感信息很丰富。

三,网络是非正式的语言,以前写错别字或者语句不通,大家会感觉很不好。但是在网络上能够表达意思就可以了,根本不关心表达方式,这样的文本载体对我们分析情感带来很大的挑战。

四,网络新词很多,每天都会出现很多不同的新词,新词出现以后语义也发生了变化。

我们要解决的最关键问题是情感语义的不确定性,具体表现为两方面:情感词极性的歧义性、情感词强度的模糊性。在情感词极性的歧义性方面主要有两个问题,第一个是依赖文本语境信息,在不同的文本语境下极性不一样。第二个是依赖用户的语境信息。

在文本的语境信息里,情感词极性上下文依赖,像刚才说的性价比高和价格高,两个都是高,但是表现的情感极性是不一样的。然后是情感词极性的领域依赖。第三个是用户个性化依赖,可能同样的事件,一个说不错,一个说良好,两个词都是表示正面情感,强度是否相同?第四个是跟上下文的社交依赖,我们说这个画面很漂亮和美得令人窒息,这两个都是表达情感的,他们使用不同的词,情感是否相同?

这是我们做情感计算要解决的关键问题,如何对情感的极性和强度的不确定性进行分析。目前采用的方法归类为三种,另外一种是统计和规则方法。

相关文档
最新文档