基于流形学习和多视图的情感分类徐戈(08级博士生)xuge@

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

emotion分类体系的探索



动机 – COAE2009中:喜(高兴、喜欢) – 读者情感的划分很多相关的。比如(难过、同 情、感动),(炒作、无聊) – 构建一些资源作为将来工作的基础。 Emotion schema – 大连理工(林鸿飞) – Wiki( Plutchik 等) – 等等 采用的方法(略) – 流形学习和多视图 – 人工的标注(先定emotion schema)
Fei Wang Changshui Zhang, Label Propagation Through Linear Neighborhoods(先用LLE,然后 再用LP) See more in Semi-Supervised Learning Literature Survey by Xiaojin Zhu
Anticipation + Joy Joy + Trust Trust + Fear
•反义关系成立吗?

Advanced emotion
Disappointment Surprise + Sadness Remorse Contempt Sadness + Disgust Disgust + Anger Anger + Anticipation
实验尝试

贾玉祥提供中新网语料

Writer emotion vs. Reader emotion
– 无法找到一个很好的idea,不能做成纯数据分析
Ranking Reader Emotions
– 要预测的是一个分布,而非单个标记,或者多标记(标记 集合)。目前的做法是每个情感单独做回归然后归一化。 – Manifold learning预测reader emotion。文档之间的相似度 定义比较困难,使用的是VSM+idf – 考虑各个读者情感之间的关系。比如,高兴和难过负相关, 同情和难过正相关等等。 – 实验效果都不理想
一般来说,特征的集合可以看成是一个视 图。比如Co-training中文本的内容和链接信 息分别作为描述一个页面的视图。即两个 特征向量。 有时,给定一个对象我们可能不容易用特 征向量来描述(比如单词,句法树等), 但可以知道两个对象的相似度。这种对象 间的相似度量可以看成是一个视图。 (相当 于kernel方法中必然对应某个特征映射,但 此时不关心特征映射具体是什么)。
基于流形学习和多视图的 情感分类
徐戈(08级博士生) xuge@ 导师:王厚峰 教授
报告内容
使用流形学习和多视图结合的方
法进行情感分类
– 流形学习和多视图方法的介绍 – 在情感分析上的使用(主要是词汇级)
有关读者情感的实验尝试 emotion分类体系的探索
注:此处的分类包含classification和Ranking;区别 sentiment(情感)和emotion,前者包含后者,此外还 包括观点等

对象之间关系是依赖特定领域的,我们可以尽 可能地在此使用语言学方面的知识。
实验

实验一
– Coae2009
»Task1 单词情感ranking »Task2 句子情感ranking
– 方法:manifold learning+multiple views

实验二
– 数据:GI(General Inquiry) – 任务:Polarity induction – 方法:manifold learning+multiple views
读者情感(Reader Emotion)

什么是读者情感?
– 人们看到文章后表现出来的情感。 – 和作者情感(writer emotion)区别。 – 和主题,人物,事件紧密相关。
任志强再发雷人言论:中国人太有钱 房子太便宜(中新网)
经销商清仓 上海大众斯柯达晶锐跌破7.4万元(来自新浪)
李宇春续约几率小 有意自组团队自控经纪约(来自新浪)
实验一结果(coae task1)
实验一结果( coae task2 )
实验二结果
实验二结果(续)
需要深入的问题(Large-scale)

Sindhwani,Large Scale Semisupervised Linear SVMs(2006)
– 将对每个样本点的y预测,变成一个线性模型,减少了需要预测
Schema
笑眯眯是情绪的 表现而非情绪本 身。 相信,怀疑似乎 应该单独成组。 烦闷是情绪,但 被放在了恶(态 度)中。 从大类来看不包 括“观点”,而 赞扬和斥责中都 是观点词。
Robert Plutchik ‘s schema

Basic emotion
– – – –
Joy喜 vs. Sadness哀 •蔑视(anger?) Trust好 vs. Disgust恶 ? Fear惧 vs. Anger怒 ? Surprise惊 vs. Anticipation欲
– 参加COAE2009
»在词汇级和句子级对文本对象进行ranking
选择这种方法的原因

(基本)满足流形假设
– 语义相同的单词呈现相似的情感 – 共现的单词呈现相似的情感 – ……

大量的可用资源
– 语义的相似性存在大量的相似度计算方法,主要是 基于语义词典(如wordnet,现代汉语词典) – 单词的共现等信息则可以从大量的语料中获得。 – ……
Manifold learning的最优化问题
1. 前两项有监督学习的内容。第三项是在整个样本空间上(包 含有标也包含无标数据)的计算,保证f的变化率在高密度 区域尽可能地小,从而满足流形假设。
2. 相对于通常的机器学习方法, 流行学习的最大特点就是考 虑了任意样本(有标记和无标记)之间的关系来协助学习过 程。
句子级的视图(实验一)
1. 两个句子的情感相似度等于情感词最强词上下文的相似度。 2. 用到了程度词表、否定词表等。
词汇级的视图(实验二)




1. Synonym: If two words appear in the same synset(synonym set) then the weight of the link connecting two words is 1, otherwise 0. 2. Hypernym: If any pair of synsets that two words belong to respectively have the same hypernym then the weight of the link connecting two words is 1, otherwise 0. 3. Jiang similarity: Computing semantic relatedness of words according to the method described by Jiang and Conrath. 4. Lin similarity: Similar with Jiang similarity.
态度:支持,我顶
观点:好文章,枪稿,标题党,搞笑,炒作,无聊,无语,养眼(对图片)
情绪:感动,雷人,愤怒,悲伤
读者情感的相关实验
已有的工作:
– Writer Meets Reader: Emotion Analysis of Social Media from both the Writer's and Reader's Perspectives – Ranking Reader Emotions Using Pairwise Loss Minimization and Emotional Distribution Regression – 贾玉祥NLP-KE
流形学习的例子
流形学习简介
流形(manifold)的定义
– 流形是高位空间中的内在几何结构,其上 或者靠近它的点能够有低维的表示。 – 呈现高密度的特点。
流形假设(Manifold
assumption)
– 们的条件分布P(y|x1)和P(y|x2) 也应该是相似的。
的变量。

Tsang, I., & Kwok, J., Large-scale sparsified manifold regularization. (2006)
– The intuition is that most pairwise differences f(xi) − f(xj) are very small. By tolerating differences smaller than ǫ, the solution becomes sparse.

多视图的融合
对于用特征向量表示的视图,最简单的
融合方式就是把多个向量合成一个更大 的向量。 对于通过用相似关系(通常是矩阵)表 示的视图
– 线性的:若干个矩阵做凸组合。 – 顺序的:每次使用一个矩阵来进行流形学 习,然后其结果作为下一个矩阵的输入再 进行流形学习。 – ……
目前来看,这种融合是简单的,很多时
– 见实验二结果 – 似乎还没有文章
主要参考文献
1. Xiaojun Wan et al., Graph-Based Multi-Modality Learning for Topic-Focused Multi-Document Summarization 2. Dengyong Zhou et al., Ranking on data manifolds 3. Xiaojin Zhu et al., Learning from labeled and unlabeled data with label propagation 4. Hanghang Tong et al., Graph based multimodality learning 5. Mikhail Belkin et al., Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples 6. Rao Delip et al., Semi-supervised polarity lexicon induction
如何表示流形?
我们可以认为P(x)中蕴含着流形结构,
然而通常 P(x) 是未知的。 通常借助加权的邻接矩阵来逼近,并假 定这个矩阵中蕴含着流形结构。 假设有N个样本点(有标和无标),那 么使用一个N*N的矩阵就可以表示任意 两个样本点之间的相似度。从而近似地 表达这个流形结构。
什么是视图?
候都是靠经验或试验。
使用流形学习和多视图结合 的方法进行情感分类
动机
– 万小军,Graph-Based Multi-Modality Learning for Topic-Focused Multi-Document Summarization. IJCAI 2009
»在句子级提出了文档间和文档内两种相似度

需要深入的问题(续)

相反信息的使用
– Andrew Goldberg, Xiaojin Zhu, and Stephen Wright. Dissimilarity in graph-based semisupervised classification – 举例:高兴和难过

消除view之间的相关性
所选择的流形学习方法
1. 来自Ranking on data manifolds( Dengyong Zhou et al.) 2. 可以得到解析解,但是要求逆阵,还是用迭代算法来做。 3. 与Label Propagation很相似
词汇级的视图(实验一)
对于单词而言,我们可以将单词在一句话中的 共现看成是一种相似信息,出现在同义词词林的同 一行也是一种相似信息。基于此,人民日报,同义 词词林,现代汉语词典提供3个相似度矩阵。除了 此外,我们还可以计算两个单词之间字的重合个数, 作为一种相似度量。比如:“高兴”和“高高兴兴” 有两个字的重复。 基于对各个相似性重要性的判断,在最终的相 似度矩阵中,同义词词林和基于重合字个数的相似 度矩阵的权重各占1/3,而人民日报和现代汉语词典 的相似度矩阵权重为1/6。
相关文档
最新文档