中文微博情感分析汇总
微博短文本细粒度情感分析毕业设计论文

摘要题目:微博短文本细粒度情感分析摘要微博作为是移动互联网起步最早也发展最快的业务之一,在经历了最初几年的高速增长和热捧之后,一度有些沉寂。
但是,伴随着4G网络、WiFi网络大规模覆盖,移动终端智能设备的极速增长,越来越多的人频繁地使用微博。
移动端用户的增长,让微博有了日活跃用户超过1亿的基础。
基于该庞大的用户群体,利用微博文本对用户进行情感分析,不仅有利于新生代商业模式探索、社会舆情监控与分析,而且对人工智能发展的积极意义也不容小觑。
文本情感分析为人工智能在人类情感领域的探索做出了积极的贡献。
微博具有典型的网络语言特点,语法规范性差、口语化、新词汇层出不穷、大量的表情符号和文本噪声等。
基于传统规范书面语言词典的微博情感分析效果差强人意。
为了解决这个问题,本文一方面通过对传统情感词典进行网络语言的扩充,构建了新的适用于微博文本分析的词典,并通过实验验证了词典的有效性;另一方面,使用对特殊情感词汇依赖性小的RAE网络模型,性能得到了提高。
含有否定词的文本情感判别较为复杂,否定词的加入可能使原文本情感极性发生转变,也可能极性保持不变,程度有所削弱。
传统本文传统的情感分析方法通常对文本模型进行简化,假设一个词语仅和其前一个词语有关,对含有否定词的文本的积极/消极判别较差。
RNTN模型没有进行类似简化,保持了词向量之间的强相关性。
本文通过对RNTN模型的训练,使其在含有否定词中文文本情感极性判别上有良好的表现。
RNTN模型对词语或短语级细粒度情感分析上表现出色,而且不需要大量的人工标注;RAE模型作为较为成熟的深度学习模型,抛弃了传统的词袋模型,利用层次结构和成分语义来进行情感分类;SVM作为传统机器学习方法,通用性强,适用范围广。
结合以上方法的特点以及情感分类的任务目标,本文设计了微博短文本的双极性、细粒度情感分类方案,首先使用SVM对微博篇章进行主客观分类,RAE和RNTN对判定为主观情感的文本的每一个句子进行正负极性判断,并选出极性最强的句子,该句子的情感极性即为整个微博的情感极性。
中文-情感分析

7 4
中 文 信 息 学 报
2 0 1 2年
到2 用户数超过了 1. 0 1 1 年 4 月底 , 4 亿 。 微博正在 包括大量的信 从各个方面渗透并 影 响 人 们 的 生 活 , 息传播 、 更快的信息发现 、 与世界的连接等 。 微博消息数量大 , 更新快 , 吸引了一大批学者对 其进行研究 。 针对微博的自然语言处理研究已成为 而情感分析就 当前一个新的研究 热 点 和 前 沿 课 题 , 是其中一个热点 话 题 。 情 感 分 析 , 也被称为观点挖 掘、 观点分析 、 主客观分析等 。 情感分析的目的是从 文本中挖掘用户表达的观点以及情感极性 。 挖掘用 既能吸引潜在用户 , 帮助用户做决 户观点意义重大 , 策
情、 表达观点等 。 微博自问世以来 , 迅速吸引了大众 的眼光 , 蓬勃发展 。 以国内的新浪微博 ① 为例 ,截止
: / / / v a i l a b l e a t h t t w e i b o . c o m ① A p
, , 作者简介 :谢丽星 ( 女, 硕士 , 主要研究方向为缩略语识别 、 输入法和中文微博的情 感 分 析 ; 孙茂松( 男, 1 9 8 7—) 1 9 6 2—) , 博士 , 清华大学计算机 系 教 授 , 博士生导师, 主要研究方向为自然语言处理、 信息检索和社会计算; 周明( 男, 博士, 微 1 9 6 4—) 软亚洲研究院主任研究员 , 博士生导师 , 主要研究方向为自然语言处理 、 机器翻译 、 搜索引擎和社会关系网络 。
1 2 1 X I E L i x i n Z HOU M i n S UN M a o s o n g, g g ,
( , 1. S t a t e K e L a b o r a t o r o f I n t e l l i e n t T e c h n o l o a n d S s t e m s T s i n h u a N a t i o n a l L a b o r a t o r f o r y y g g y y g y , , S c i e n c e a n d T e c h n o l o D e a r t m e n t o f C o m u t e r S c i e n c e a n d T e c h n o l o I n f o r m a t i o n g y p p g y , ; , ) T s i n h u a U n i v e r s i t B e i i n 1 0 0 0 8 4, C h i n a 2.M i c r o s o f t R e s e a r c h A s i a B e i i n 1 0 0 0 8 4, C h i n a g y j g j g :W A b s t r a c t i t h t h e d e v e l o m e n t o f W e b 2. 0,m i c r o b l o h a s d r a w n s u b s t a n t i a l a t t e n t i o n f r o m b o t h a c a d e m i a a n d p g a e r i n d u s t r c o mm u n i t i e s . T h i s u t i l i z e s m i c r o b l o A P I f r o m S i n a a n d c a r r i e s o u t s e n t i m e n t a n a l s i s o n C h i n e s e p p y g y , , e r f o r m a n c e s b l o .W e c o m a r e o f t h r e e m e t h o d b a s e d o n t h e e m o t i c o n t h e s e n t i m e n t l e x i c o n a n d t h e h b r i d m i c r o p g p y ,w a r o a c h o v e r h i e r a r c h i c a l s t r u c t u r e u s i n S VM, r e s e c t i v e l .T h r o u h t h e e x e r i m e n t s e f i n d t h a t S VM b a s e d p p g p y g p , a r o a c h a c h i e v e s t h e b e s t w e a n a l z e t h e c o n t r i b u t i o n o f v a r i o u s f e a t u r e s i n t h i s h b r i d e r f o r m a n c e . F u r t h e r m o r e p p y y p , i n c l u d i n t a r e t i n d e e n d e n t f e a t u r e s a n d t a r e t d e e n d e n t f e a t u r e s .E x e r i m e n t a l r e s u l t s s h o w t h a t S VM m o d e l - - g g p g p p , b a s e d m e t h o d c a n a i n a n a c c u r a c o f 6 6. 4 6 7% w i t h t a r e t i n d e e n d e n t f e a t u r e s a n d a n i m r o v e d a c c u r a c o f - g y g p p y 6 7. 2 8 3% w i t h t h e a d d i t i o n o f t a r e t d e e n d e n t f e a t u r e s . - g p : ; ; K e w o r d s s i n a m i c r o b l o s e n t i m e n t a n a l s i s S VM g y y
基于极性词典的中文微博客情感分类

Ab s t r a c t Mi c r o b l o g g i n g i s t h e f o c u s i n r e s e a r c h i f e l d o f n a t u r a l l a n g u a g e p r o c e s s i n g r e c e n t l y .Ou r s t u d y i n t h i s p a p e r i s ma i n l y i n r e g a r d
2 %。实验结果表 明, 提 出的方法可以对 中文微 博进 行较好的情感分类 , 有 一定 的应用价值 。 关键 词
中图分 类号ຫໍສະໝຸດ 微博客情感分类 词典
语言学特征
A D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 0 — 3 8 6 x . 2 0 1 4 . O 1 . 0 1 0
感词 , 同时考虑 了情感 词的极 性情感 强弱, 构建 四个词典 , 分别 是基 础情感词典 、 表情符号词典 、 否定 词词典和双重否定 词词典 ; 在情 感词典 的基础上 , 融合汉语语 言学特征 和微 博情 感表达特 征 , 提 出一种 新 的基 于极 性词典 的情感 分 类方法。 实验准确 率达 到 8 2 .
t h e s e n t i me n t e x p r e s s i o n f e a t u r e s i n mi c r o b l o g g i n g, w e p r o p o s e a n e w s e n t i me n t c l a s s i i f c a t i o n me t h o d b a s e d o n ol p a r i t y l e x i c o n s .Th e p r e c i s i o n i n t h e e x p e r i me n t s r e a c h e s 8 2 .2 %.E x p e ime r n t a l r e s u l t i n d i c a t e s t h a t t h e me t h o d p r o p o s e d i n t h e p a p e r c a n c o n d u c t t h e s e n t i me n t c l a s s i i f c a t i o n o n Ch i n e s e mi c r o b l o g w e 1 1 ,a n d h a s c e r t a i n a p p l i e d v a l u e . Ke y wo r d s Mi c r o b l o g g i n g S e n t i me n t c l a s s i i f c a t i o n L e x i c o n s L i n g u i s t i c s f e a t u r e s
微博用户情感分析与影响力评估

微博用户情感分析与影响力评估随着社交媒体的不断普及和使用,微博已经成为了一种流行的社交平台。
作为国内最具影响力的社交媒体之一,微博拥有数亿的用户,其中不乏许多具有一定影响力的大V。
然而,仅仅拥有大量的关注者并不足以证明一个用户的影响力,因为每个人都有自己的情感和价值观,而用户发表的每一条微博均会直接或间接地影响到他的粉丝,对于微博用户的情感分析和影响力评估,因此具有十分重要的意义。
一、微博情感分析微博用户发表的微博中包含丰富的情感信息,它们可以是喜悦、愤怒、悲伤、惊讶等等。
情感分析就是一种通过计算机技术对这些情感信息进行识别和分类的方法。
情感分类的目的就是将微博分成积极、中性和消极三大类,这样就可以更好地理解网民的态度和观点。
情感分析技术通常采用机器学习和自然语言处理等技术,首先需要对大量的微博数据进行训练,建立情感识别模型。
训练集的建立需要耗费大量的人力和物力,在训练集具备一定的规模和代表性之后,利用这些数据训练模型,根据模型给出的概率或权重,对新的微博进行分类。
微博情感分析除了能够帮助用户了解网络上的观点和态度外,还可以应用到企业的品牌管理和公共舆情监测中。
二、微博影响力评估对于大V或是其他影响力人士而言,影响力评估同样具有重要的意义。
影响力评估其实是通过对用户的微博进行分析,整合用户在微博上的各种数据,并对其深入挖掘,最终判断该用户在微博中的影响力大小。
影响力评估一般可以包括以下几个方面:1. 粉丝数粉丝数是判断一个用户影响力大小的最简单和最直接的指标之一。
但是,单纯的粉丝数量并不能反映出用户在微博中的价值和影响力。
2. 微博转发量转发量是最能反映一个微博的传播效果的指标之一。
对于大V来说,越多的转发意味着更广泛的传播和更高的影响力。
3. 微博原创量原创微博是用户表达个性、个人认知和态度最直接的途径。
发表多量且质量高的原创微博,可以增加自身在粉丝中的影响力。
4. 微博互动量在微博上与粉丝之间的互动可以增强粉丝的忠诚度和归属感,帮助用户提高自己的影响力。
基于词典的中文微博情绪识别

基于词典的中文微博情绪识别基于词典的中文情绪识别是通过建立情感词典库,将待分类的文本与词典中的词汇进行匹配,从而确定文本的情感极性。
情感词典库通常由正面和负面情感的词汇组成,这些词汇被分配相应的权重,以表示其对情感极性的贡献程度。
当文本与词典中的词汇匹配时,计算其与所有词汇的相似度,并根据权重得出文本的情感极性。
基于词典的中文情绪识别的实现方法主要包括以下步骤:数据预处理:对中文进行分词、去停用词等预处理操作,以消除其对情感分析的影响。
建立情感词典库:收集正面和负面情感的词汇,并分配相应的权重。
文本与词典匹配:将待分类的文本与情感词典库中的词汇进行匹配,计算其与所有词汇的相似度。
情感极性分类:根据计算出的相似度和权重,确定文本的情感极性。
基于词典的中文情绪识别可以应用于以下场景:产品评价:企业和政府机构可以通过该技术了解公众对其产品和政策的情绪反应,从而做出相应的决策。
市场调查:商家可以利用该技术进行市场调查,了解消费者对其产品和竞争对手产品的态度和看法。
舆情监控:政府机构可以利用该技术进行舆情监控,及时掌握公众对其政策和行为的反应。
基于词典的中文情绪识别的优点主要包括以下几点:算法简单:基于词典的中文情绪识别算法相对简单,易于实现和理解。
高效快速:该算法的计算复杂度较低,可以快速对大量文本进行情感分类。
准确性较高:由于情感词典库中的词汇都是经过精心挑选和实验验证的,因此该算法的准确性较高。
扩展性不足:情感词典库中的词汇数量有限,无法涵盖所有的情感表达方式,因此该算法的扩展性不足。
忽略上下文信息:该算法仅对文本中的单个词汇进行匹配,忽略了上下文信息,因此可能会出现误判的情况。
对新词无法识别:由于情感词典库中的词汇都是经过人工挑选和实验验证的,因此该算法对新出现的词汇无法进行识别和分类。
基于词典的中文情绪识别是一种重要的情感分析技术,可以应用于多个场景。
然而,该算法也存在一些缺点需要改进和完善。
未来可以通过引入深度学习等技术来提高算法的准确性和扩展性。
微博情感分析及其应用研究

微博情感分析及其应用研究随着互联网与社交媒体的兴起,微博已经成为现代人们生活中重要的一部分。
人们不仅在微博上商业营销产品,也在微博上展示自我。
微博不仅是人们传播信息的平台,还是情感表达的集散地。
因此,对微博情感的分析和研究已成为计算机科学、心理学等领域的重要课题。
一、什么是微博情感分析?微博情感分析(Sentiment Analysis)是利用计算机技术,通过对用户发布的微博文本进行处理,判断微博发布者的情感倾向。
其核心目标是通过处理文本,将微博文本对应的情感值分为正面、负面或中性。
微博情感分析是从数据分析与语言分析多个角度出发,从海量数据中提取有意义的情感信息,对微博用户及社会公众的心理和情感状态进行把握并为决策提供参考。
二、微博情感分析的技术方法微博情感分析技术主要包括文本挖掘、机器学习和自然语言处理技术。
1、文本挖掘技术文本挖掘技术是指对自然语言文本进行处理、分类、聚类、分析和挖掘的技术。
通过对微博文本进行分析和处理,主要是对其中的关键词进行提取和分类,找到表情符号的意义,以及识别出语句中所表达的情感,并归类为正面、负面或中性。
2、机器学习技术机器学习技术指通过对大量数据的学习和分析,从中发现规律和模式,并对新数据进行预测的一种方法。
微博情感分析中常用的机器学习技术包括朴素贝叶斯算法、支持向量机、逻辑回归等。
3、自然语言处理技术自然语言处理技术是指对人类自然语言进行分析、处理、理解和生成的技术。
在微博情感分析中,自然语言处理技术主要包括分词、词性标注、依存句法分析等。
三、微博情感分析的应用研究微博情感分析的应用研究主要有以下几个方面。
1、企业品牌形象管理企业可以根据微博情感分析结果,对自己的品牌形象进行调整,从而提升品牌吸引力和竞争力。
如某手机品牌在上市时,发现用户的情感倾向都是负面的,便可以通过修改手机设计和功能等方面提升用户的情感体验。
2、舆情监测通过微博情感分析技术,政府、企业和公众都可以对社会舆情进行监测。
微博热点话题的情感分析研究

微博热点话题的情感分析研究随着社交媒体的普及,人们越来越频繁地在微博上发表自己的情感。
微博上的热点话题也往往能够反映社会热点和人们的情感动态。
因此,对微博热点话题进行情感分析研究具有重要意义。
一、什么是情感分析情感分析,又叫情感识别、情感判别,是指通过对人类语言的处理和分析,对其中蕴含的情感进行识别的一项技术。
常见的情感分析包括正向情感、负向情感和中性情感。
二、微博热点话题的情感分析应用1.情感分析对于评估社会状况具有重要意义。
随着社交媒体的兴起,越来越多的人们会在微博上表达自己的情感和观点。
通过对微博热点话题进行情感分析可以得出人们对社会热点和事件的态度,从而评估社会状况。
2.情感分析对于品牌营销具有重要意义。
微博是一个品牌宣传和营销的重要平台,通过对微博上的话题和用户情感的分析,可以帮助企业更好地了解消费者需求,制定更加符合市场需求的营销策略。
3.情感分析对于舆情监测具有重要意义。
微博上的热点话题往往能够反映社会舆情,通过对微博热点话题的情感分析可以帮助政府和企业了解社会热点和民意动态,制定相应的政策和营销策略。
三、微博热点话题的情感分析方法1.通过情感词典进行情感分析。
情感词典是一个包含正向情感词、负向情感词和中性情感词的词库。
通过对微博文本中出现的情感词汇进行统计和分析,得出微博话题的情感极性。
2.通过机器学习进行情感分析。
机器学习是一种无监督学习的方法,通过对大量的微博文本进行学习和模拟,训练机器语言模型,得出微博话题的情感极性。
四、微博热点话题的情感分析研究现状目前,国内外已经有不少学者对微博热点话题进行了情感分析研究。
其中,一些研究结果表明,不同领域的微博话题的情感极性存在一定的区别,不同性别和年龄段的微博用户的情感表现也存在差异。
此外,随着深度学习和人工智能技术的发展,微博热点话题的情感分析研究也越来越精准和准确。
总之,微博热点话题的情感分析研究对于社会状况评估、品牌营销和舆情监测具有重要意义。
微博话题的情感分析方法研究

微博话题的情感分析方法研究随着社交媒体的发展,微博已经成为了人们交流和获取信息的重要平台。
大量的用户在微博上发布各种话题,这些话题不仅反映了人们的兴趣和关注点,也涵盖了各种情感和态度。
情感分析是一种重要的技术,可以帮助我们准确地了解微博用户的情感和态度。
本文将从数据来源、情感分类和分析方法三个方面介绍微博话题的情感分析方法研究。
一、数据来源微博是一个大规模的社交媒体平台,每天都有数以亿计的用户在其中互动交流。
对于情感分析来说,数据来源是一个至关重要的问题。
目前,微博情感分析的数据来源主要有两种方式。
第一种是手动标注,这种方式需要大量的人力和时间成本。
实现手动标注需要选取一些语料样本,对每个样本进行情感标注。
然后通过人工阅读微博内容,对数据样本进行情感标注。
虽然这种方式可以确保情感分类的准确性,但时间成本和标注人员的标注一致性等问题限制了手动标注的普及和应用。
第二种是使用自动标注技术。
自动标注技术可以大量减少标注成本。
常见的自动标注技术包括基于情感词典的方法、基于词向量的方法等。
其中,情感词典是一种包含了各种情感词汇和其情感极性的词典。
基于情感词典的方法主要是将文本中的每个词汇与情感词典进行匹配,然后统计每个词汇的情感分数,最终通过加权和的方式将文本情感得分计算出来。
基于词向量的方法则采用机器学习算法对训练数据进行学习,然后对测试文本分词并生成词向量表示,再使用分类器进行情感分类。
二、情感分类情感分类是微博情感分析的核心部分。
情感分类主要是将文本分为积极、消极和中性三类。
其中,积极和消极类别是情感分类的两个重要方面。
情感分类的实现需要采用一些自然语言处理技术。
常见的情感分类技术包括基于词典的方法、机器学习算法和深度学习算法等。
基于词典的方法是应用最为广泛的情感分类技术。
该方法主要是将情感词典中的情感词汇与待分类文本进行词汇匹配,并计算每个词汇的情感极性得分,最后根据得分总和判断文本情感极性。
机器学习算法是一种基于数据驱动的情感分类技术。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
导师:何婷婷 华中师范大学 NLP实验室
内容提要
情感分析的研究背景 情感分析的研究现状 微博情感分析的相关概述和理论 微博情感分析的研究内容和方法 微博情感倾向分析具体实践
1.情感分析的研究背景
在Web2.0 时代,最具有影响力的产品无疑是微博,它实现了把信息发布与 社会网络紧密结合在一起。自2006 年问世至今,微博作为一个新兴的科技信息 产物,目前在全球已成为一个能高度互动的信息转播平台。 在国内,短短几年时间里,微博从互联网的新秀跃升为互联网的基础应用之 一,以微变革的力量,打开了一个大时代之门。 庞大的微博信息流揽括了众多话题,也许这些信息看似琐碎,而且非常不 规则,可事实上蕴藏着巨大的潜在价值。微博平台上的各种互动,往往与用户的 心理有关,用户一旦在微博中发言,便有了立场和倾向,这就可以对其做情感分 析。
微博情感词典组成图
4.2 微博领域情感词典
4.2.1 领域情感词典构建重要性
3.3.5 微博的特征选择方法
传统的文本分类大多是把测试数据集中的文档归入预先设定好的文档类别中去,比 如:“体育、艺术、军事、经济、政治、文学等”,这可通过文本的主题、属性及内容 来划分。文本的情感分类则是特殊的文本分类,需要从语义级别上做考虑,根据文本内 容所能体现出的观点、态度、立场等相关情感信息做倾向性分类。微博消息的文本内容 虽然限制为140 个字符,但是包含的信息却是丰富多彩的,有文字、链接、表情、标签 符号等,如何从短文本信息中获取情感信息是非常关键的。比如:从文本内容获取具有 情感倾向的词语与短语、或从自然语言处理领域做基于语义的文本理解、抑或通过微博 文本中的表情符号获取情感倾向性等。
3.3.3 信息增益 信息增益(Information Gain, IG)是指某个特征在文档中出现或不出现对 判断文本隶属类别所能提供的信息量大小。信息增益借助了信息论中熵的概念, 定义为信息熵的有效减少量,即不考虑任何特征时与考虑该特征时两文档的熵值 之差。其计算公式如下所示:
Gain(ti ) Entropy ( S ) Entropy ( Si ) |c | |c | P(cj ) log P(cj ) P(cj ti ) log P(cj ti ) j 1 j 1 |c | P(ti ) P(cj ti ) log P(cj ti ) j 1
国外有用机器学习的方法对电影评论进行情感极性分类的实验,分为正向情 感和负向情感,分别采用了朴素贝叶斯、最大熵、支持向量机三种分类方法做实 验,并将之与手工分类结果做比较,发现支持向量机方法在这种机器学习方法中 效果最好,分类精确度达到80%。由此,可见机器学习方法在情感分析中展示出 了一定的优势。
3.表情符号。 很多微博用户喜欢使用表情符号来表达自己当时的心情。例如:表情符号 取后转变为了[哈哈],表情符号在本文情感倾向分析中起着重要作用。
经抓
3.1.3 微博情感分析研究的困难
1.微博文本的特点
中文微博的文本内容都限制为140个字,,用户可以发布更有深度的内容(评论、新闻 、分析等),微博用语多为非书面语言,口语化严重,大多不规范、语句结构杂乱,这在 自然语言理解上给情感分析带来难度。
2.情感分析的研究现状
通过目前收集到的国内外刊物及会议论文来看,关于文本情感分析方法的文 献大致分为两类:
(1)使用情感词典及与其关联信息分析文本情感
(2)使用机器学习方法分析文本情感
2.1使用情感词典及与其关联信息分在词语特征级,句子级,粒 度细,分析精准。但受到自然语言处理技术及相关抽取技术的限制,该方法容易丢失数据 集中隐藏着的重要模式,使得未来研究工作中还有很大的提高空间。
3.微博情感分析的相关概述和理论
•微博的相关概述
•文本预处理技术
•特征选择算法
3.1 微博的相关概述
3.1.1 微博的定义和发展 微博是微型博客的简称,英文名称为MicroBlog。它是一个基于用户关系的 信息传播、分享以及获取的平台,用户可以通过多种渠道(如WEB,WAP 以及各 种客户端组件,即时通讯等)即时更新信息,每次更新内容将限制在一定数目内 (中文微博通常为140 字左右),它具有便捷性、原创性、互动性、传播速度快 及内容碎片化等特点。 2009 年8 月,新浪率先推出了“新浪微博”内测版,随后国内几大综合门 户网站网易、搜狐、腾讯等相继推出。一时间微博呈现出井喷式发展,中国也真 正进入了微博时代。
2.情感词典的构建 汉语表达比较灵活,同样的词语,短语存在多义性,甚至同一个词语既有褒义又有贬 义,根据所处的语境不同所表达的感情倾向往往不相同,给感情色彩的判别带来了偏差。 微博中大量网络用语的出现表现尤为明显,这对判断情感倾向同样造成了困难,构建一个 适用于微博的情感词典是一个难点。
3.中文微博的数据获取
公式中,
P(ti cj ) P(ti, cj ) log P(ti ) P(cj ) Pti
P(ti|cj)为特征ti在类别cj中出现的概率,P(ti)为特征ti出现的概率。当
MI(ti|cj)=0时,表明特征ti与类别cj不相关,两者之间是相互独立的。如果词频 法(WF)的特征值越高,其两者时间的关联性越大。
闻彬,何婷婷等提出一种基于语义理解的文本情感分类方法,通过在情感词识别中引入 情感义原,赋予概念情感语义,对概念的情感相似度重新定义,得到词语情感语义值。
2.2使用机器学习方法分析文本情感
这类方法常用的机器学习模型有:中心向量分类法,朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy),K最近邻分类和支持向量机(SVM)。
目前,还没有一个公共地、统一地、可供用作测试的微博语料集。研究人员还得依赖 于微博平台官方提供的API接口获取数据,而当前大多数微博都只开放部分API接口,并对 用户的访问权限进行了一定的限制。
3.2 文本预处理技术
3.2.1 中文分词 中文微博的情感倾向分析首要解决的就是对文本内容进行分词。中文是以字 为基本书写单位,单个字往往不足以表达一个意思,通常认为词是表达语义的最 小元素。在汉语中,一句话的意思通过一段连续的字符串来表达,字符串之间并 没有明显的标志将其分开,计算机如何正确识别词语是非常重要的步骤。 一个例子: 输入例句:S =“高等人工智能课程非常有意思” 词表: dict = {…高等,人工智能,课程,非常,意思…} 最后分词结果应该为:高等/人工智能/课程/非常/有/意思
徐琳宏、林鸿飞等从句子的词汇和结构作考虑,提取影响语句情感的9个语义特征,采 用手工与自动获取相结合的方法,构建情感词汇本体库,对情感分析研究做了初步的尝 试。
李钝、曹付元等从语言学的角度出发,采纳“情感倾向定义”权重优先的计算方式得到 短语中词语语义倾向度,并分析词语的组合方式特点,提出中心词概念对词语的倾向性 做计算,从而识别出短语的倾向性及其强度。
3.3.4
互信息法
互信息(Mutual Information, MI)在统计语言模型中被广泛运用。它是用 来度量两个随机变量之间的关联性。在分类系统中体现的是特征项与类别之间的 依赖程度。若相互之间依赖程度越大,其特征项就越重要。
特征ti与类别cj之间的互信息公式如下所示:
MI (ti, cj ) log
DF t i
N ti N all
公式中, Nti为出现特征项ti的文档数,Nall为整个数据集中的总文档数。该方法通过对每个特征项在 数据集出现的频率进行统计,然后根据预先给定的特征向量维数或者设定的阀值,去除掉 那些DF 值小于某个阀值或大于某个阀值的特征项。其思想在于这两种状态代表两种极端情 况,若DF值过小,表明包含某特征的文档数目过少,该特征项没有代表性。反过来,若DF 值过大,这表明包含某特征项的文档数目过多,该特征项没有区分度。
3.2.2 去除停用词
停用词也被称为功能词,与其它词相比通常是没有实际含义的。微博文本中 不仅包含针对传统文本信息的停用词处理,还包含其它一些对情感无关符号处理 。例如微博消息中常见的“@、V、#、http://”等。这些字符在微博文本中起辅 助作用,但在情感分析研究中没有实际意义。 若计算机对其处理不但是没有价值的工作,还会增加运算复杂度,通常文本 的停用词处理中可采用基于词频的方法将其除去。
2. 微博情感倾向的判别 基于中文微博表达多元化的特点,先对微博消息文本进行了相应的预处理,并采用微 博消息文本中的情感词作为特征选择方法,分别从微博消息文本中包含情感词和不包含情 感词两个方面展开分析,实现了一个面向中文微博的情感倾向分类系统。
4.1 微博情感词典的构建
4.1.1 微博情感词典的组成 目前,文本情感分析研究领域还没有一部完整且通用的情感词典。若构建一 个面向中文微博的情感词典,一方面须对当前的已有相关资源进行总结与整理, 另一方面需要构建一个基于微博的领域情感词典。 情感词的收集是一个不断积累的过程,采用手工标注需要阅读大量的文本, 非常费时费力。目前,通用方法都是对大规模语料集进行统计分析,预先对有代 表性的词语采用人工标注方法选为基准词,然后对候选词作语义相似度计算来获 取新情感词,从而扩展情感词典的覆盖面。
4.微博情感分析的研究内容和方法
微博情感分析关键是如何判别微博消息的情感倾向性,首要条件是构建一个合适的情感词 典,依靠情感词语、微博表情符号及语气句子等作为特征提取方法,对不同情况下微博消 息做相应处理,最后进行加权计算,由最终的权重结果判别出微博消息的情感极性。主要 研究内容有以下几点:
1. 微博情感词典的构建 研究情感词获取方法,尽可能构建一个足够大、覆盖面广的情感词典应用于微博消息 文本的特征提取中。一方面对当前已有情感词汇资源进行总结和整理,另一方面采用扩展 的情感倾向点互信息算法(Semantic Orientation Pointwise MutualInformation, SOPMI),从微博语料集中自动获取领域情感词,构建了微博情感词典。