基于自然语言处理的图片情感语义检索研究精品PPT课件
合集下载
自然语言处理汇报ppt课件

例如 “你好啊”与“你好”的编辑距离为1-1/3=0.667。
问句相似度常见计算方法--语义相似度
设两个问句 A 和 B,A 包含的词为 w11 , w12 ,…, w1n, B 包含 的词为 w21 ,w22 ,…,w2m,则词语 w1i( 1≤i≤n) 和 w2j ( 1≤j≤m) 之间的相似度表示为 sim( w1i, w2j ) 。问句 A 和 B 之间的语义 相似度可以根据下面公式计算:
未来的方向--Syntaxnet
SyntaxNet 是一个框架,他是许多NLU系统中的关键组件。在这个系统中输入 一个句子,他会自动给句子中的每一个单词 打上POS(part-of-Speech)标 签,用来描述这些词的句法功能,并在依存句法树中呈现。这些句法关系直 接涉及句子的潜在含义。
在这个结构中,Alice和Bob被编码为名词,Saw是动词。动词saw 是句子的根, Alice是saw的主语,Bob是直接宾语(dobj)。
特定领域问答系统问句相似度计算方法
汇报人:
问句相似度常见计算方法--词形相似度
词形相似度反映两个问句中词语在形态上的相似程度,用两个问句中含有的 共同词的个数来衡量。用wordSim(A,B)表示问句A和B的词形相似度
其中:same(A,B)表示A和B中共同词的个数,当一个单词在A、B中出现的次数不 同时,以出现次数少的计数;len(A)和len(B)分别表示A和B中词的个数似度
句长相似度反映两个问句在长度形态上的相似程度。用LenSim( A,B) 表示 问句 A 和 B 的句长相似度,计算式如下:
其中,abs 表示绝对值
问句相似度常见计算方法--编辑距离相似度
编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所 需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符, 插入一个字符,删除一个字符。
问句相似度常见计算方法--语义相似度
设两个问句 A 和 B,A 包含的词为 w11 , w12 ,…, w1n, B 包含 的词为 w21 ,w22 ,…,w2m,则词语 w1i( 1≤i≤n) 和 w2j ( 1≤j≤m) 之间的相似度表示为 sim( w1i, w2j ) 。问句 A 和 B 之间的语义 相似度可以根据下面公式计算:
未来的方向--Syntaxnet
SyntaxNet 是一个框架,他是许多NLU系统中的关键组件。在这个系统中输入 一个句子,他会自动给句子中的每一个单词 打上POS(part-of-Speech)标 签,用来描述这些词的句法功能,并在依存句法树中呈现。这些句法关系直 接涉及句子的潜在含义。
在这个结构中,Alice和Bob被编码为名词,Saw是动词。动词saw 是句子的根, Alice是saw的主语,Bob是直接宾语(dobj)。
特定领域问答系统问句相似度计算方法
汇报人:
问句相似度常见计算方法--词形相似度
词形相似度反映两个问句中词语在形态上的相似程度,用两个问句中含有的 共同词的个数来衡量。用wordSim(A,B)表示问句A和B的词形相似度
其中:same(A,B)表示A和B中共同词的个数,当一个单词在A、B中出现的次数不 同时,以出现次数少的计数;len(A)和len(B)分别表示A和B中词的个数似度
句长相似度反映两个问句在长度形态上的相似程度。用LenSim( A,B) 表示 问句 A 和 B 的句长相似度,计算式如下:
其中,abs 表示绝对值
问句相似度常见计算方法--编辑距离相似度
编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所 需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符, 插入一个字符,删除一个字符。
自然语言处理ppt课件

K-Means主要有两个最重大的缺陷——都和初始值有关:
(1)K是事先给定的,这个K值的选定是非常难以估 计的。很多时候,事先并不知道给定的数据集应该分 成多少个类别才最合适。(ISODATA算法通过类的自动 合并和分裂,得到较为合理的类型数目K) (2)K-Means算法需要用初始随机种子点,这个随机 种子点太重要,不同的随机种子点可能会得到完全不 同的结果。(K-Means++算法可以用来解决这个问题, 它可以有效地选择初始点)
3
爬虫的数据处理: 新闻类的网页一般放在Doc下,获取新闻的标 题,正文,时间来源,正文,责任编辑,评 论数。
4
5
6
K-Means算法
在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,主要用来计算数据的聚集问 题,方法是不断地取离种子点最近的均值。
问题引入:在下图的左边有一些点,我们用 肉眼可以看出来有四个点群,但是我们怎么 通过计算机程序找出这几个点群来呢?于是 就有了K-Means算法。
11
4)然后重复第2)和第3)步,直到种子点没 有移动(我们可以看到图中的第四步上面的 种子点聚合了A,B,C,下面的种子点聚合了 D,E)。
12
求点群中心的算法
一般来说,求点群中心点的算法最简单的是使 用各个点的 X 或 Y 坐标的平均值。其实还有另 外三个求中心点的的公式:
1)Minkowski Distance公式——λ可以随意取值, 可以是负数,也可以是正数,或是无穷大。
13
2)Euclidean Distance公式——也就是第一个 公式λ=2的情况
3)CityBlock Distance公式——也就是第一个 公式λ=1的情况
(1)K是事先给定的,这个K值的选定是非常难以估 计的。很多时候,事先并不知道给定的数据集应该分 成多少个类别才最合适。(ISODATA算法通过类的自动 合并和分裂,得到较为合理的类型数目K) (2)K-Means算法需要用初始随机种子点,这个随机 种子点太重要,不同的随机种子点可能会得到完全不 同的结果。(K-Means++算法可以用来解决这个问题, 它可以有效地选择初始点)
3
爬虫的数据处理: 新闻类的网页一般放在Doc下,获取新闻的标 题,正文,时间来源,正文,责任编辑,评 论数。
4
5
6
K-Means算法
在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,主要用来计算数据的聚集问 题,方法是不断地取离种子点最近的均值。
问题引入:在下图的左边有一些点,我们用 肉眼可以看出来有四个点群,但是我们怎么 通过计算机程序找出这几个点群来呢?于是 就有了K-Means算法。
11
4)然后重复第2)和第3)步,直到种子点没 有移动(我们可以看到图中的第四步上面的 种子点聚合了A,B,C,下面的种子点聚合了 D,E)。
12
求点群中心的算法
一般来说,求点群中心点的算法最简单的是使 用各个点的 X 或 Y 坐标的平均值。其实还有另 外三个求中心点的的公式:
1)Minkowski Distance公式——λ可以随意取值, 可以是负数,也可以是正数,或是无穷大。
13
2)Euclidean Distance公式——也就是第一个 公式λ=2的情况
3)CityBlock Distance公式——也就是第一个 公式λ=1的情况
NLP培训课件(共165张)

对话系统设计方法
包括基于规则的方法、基于统计的方法和基于深度学习的方法等 。
对话系统实现技术
涉及自然语言处理、机器学习、深度学习等领域的技术,如词法 分析、句法分析、语义理解、对话管理等。
典型案例分析:智能问答机器人设计与实现
1 2
智能问答机器人定义
一种能够自动回答用户问题的计算机系统,具有 自然语言理解、信息检索和对话生成等功能。
NLP培训课件(共165张)
目录
• 自然语言处理基础 • 词法分析与词性标注 • 句法分析与依存关系解析 • 语义理解与情感分析 • 信息抽取与知识图谱构建 • 机器翻译与对话系统设计 • 总结与展望
01
自然语言处理基础
自然语言处理定义与意义
自然语言处理(NLP)定义
研究计算机如何理解和生成人类自然语言的一门科学。
典型案例分析
案例背景
解决方案
实施效果
某大型集团公司需要了解其旗下子公 司之间的关联关系,以便更好地进行 业务整合和资源配置。
首先通过信息抽取技术从公司年报、 新闻等文本中识别出子公司名称、业 务范围等关键信息;然后利用知识图 谱构建技术将这些信息整合成一个企 业关系网络;最后通过可视化技术将 这个网络展示出来,便于公司高层直 观了解子公司之间的关联情况。
并生成依存关系树。
典型案例分析
案例一
案例二
案例三
案例四
简单句的句法分析与依 存关系解析。
并列句的句法分析与依 存关系解析。
复合句的句法分析与依 存关系解析。
特殊句式的句法分析与 依存关系解析。
04
语义理解与情感分析
语义理解基本概念及原理
01
语义理解定义
指通过自然语言处理技术,将文本转换为机器可理解的表示形式,进而
包括基于规则的方法、基于统计的方法和基于深度学习的方法等 。
对话系统实现技术
涉及自然语言处理、机器学习、深度学习等领域的技术,如词法 分析、句法分析、语义理解、对话管理等。
典型案例分析:智能问答机器人设计与实现
1 2
智能问答机器人定义
一种能够自动回答用户问题的计算机系统,具有 自然语言理解、信息检索和对话生成等功能。
NLP培训课件(共165张)
目录
• 自然语言处理基础 • 词法分析与词性标注 • 句法分析与依存关系解析 • 语义理解与情感分析 • 信息抽取与知识图谱构建 • 机器翻译与对话系统设计 • 总结与展望
01
自然语言处理基础
自然语言处理定义与意义
自然语言处理(NLP)定义
研究计算机如何理解和生成人类自然语言的一门科学。
典型案例分析
案例背景
解决方案
实施效果
某大型集团公司需要了解其旗下子公 司之间的关联关系,以便更好地进行 业务整合和资源配置。
首先通过信息抽取技术从公司年报、 新闻等文本中识别出子公司名称、业 务范围等关键信息;然后利用知识图 谱构建技术将这些信息整合成一个企 业关系网络;最后通过可视化技术将 这个网络展示出来,便于公司高层直 观了解子公司之间的关联情况。
并生成依存关系树。
典型案例分析
案例一
案例二
案例三
案例四
简单句的句法分析与依 存关系解析。
并列句的句法分析与依 存关系解析。
复合句的句法分析与依 存关系解析。
特殊句式的句法分析与 依存关系解析。
04
语义理解与情感分析
语义理解基本概念及原理
01
语义理解定义
指通过自然语言处理技术,将文本转换为机器可理解的表示形式,进而
自然语言理解精品PPT课件

7
自然语言理解的一般问题(6)
• 语言学的研究-理解的层次 – 语音分析:找出最小可独立的声音单元----音素 – 词法分析:找出词汇的各个词素(词根),从中获得语 言学信息 例:我们研究所有东西;把手放在桌上 我们--研究所--有--东西 (交叉歧义) 我们--研究--所有--东西 把--手--放在--桌上 (组合歧义) 把手--放在--桌上
10
自然语言理解的一般问题(9)
• 研究目标
– 建立一个足够精确的语言数学模型使计算机通过编程来 完成自然语言的相关任务。如:听、读、写、说,释义 ,翻译,回答问题等。通过语言索取信息,由此能力则 说明该系统对语言已理解了 。
11
自然语言理解的一般问题(10)
自然语言的层次划分及对应技术
理论 模板匹配、基于规则
9
自然语言理解的一般问题(8)
• 语言学的研究-理解的层次
– 语义分析:通过分析找出词义,结构意义及其结合意义,从而确定 语言所表达的真正(实际)含义或概念。在语言自动理解中,语义 越来越成为一个重要的研究内容。(尤其是对话系统)
你打我 我打你
– 语用分析:研究语言所在的外界环境对语言使用所产生的影响。描 述语言的环境知识、语言与语言使用者在某个给定语言环境中的关 系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块 )
14
自然语言理解的一般问题(13)
• 自然语言理解的研究大体上经历了三个 时期
– 萌芽时期 – 发展时期
• 早期: 60年代以关键词匹配为主流 • 中期: 70年代以句法-语义分析为主流 • 近期: 80年代以来开始走向实用化和工程化
6
自然语言理解的一般问题(5)
• 语言学的研究
自然语言理解的一般问题(6)
• 语言学的研究-理解的层次 – 语音分析:找出最小可独立的声音单元----音素 – 词法分析:找出词汇的各个词素(词根),从中获得语 言学信息 例:我们研究所有东西;把手放在桌上 我们--研究所--有--东西 (交叉歧义) 我们--研究--所有--东西 把--手--放在--桌上 (组合歧义) 把手--放在--桌上
10
自然语言理解的一般问题(9)
• 研究目标
– 建立一个足够精确的语言数学模型使计算机通过编程来 完成自然语言的相关任务。如:听、读、写、说,释义 ,翻译,回答问题等。通过语言索取信息,由此能力则 说明该系统对语言已理解了 。
11
自然语言理解的一般问题(10)
自然语言的层次划分及对应技术
理论 模板匹配、基于规则
9
自然语言理解的一般问题(8)
• 语言学的研究-理解的层次
– 语义分析:通过分析找出词义,结构意义及其结合意义,从而确定 语言所表达的真正(实际)含义或概念。在语言自动理解中,语义 越来越成为一个重要的研究内容。(尤其是对话系统)
你打我 我打你
– 语用分析:研究语言所在的外界环境对语言使用所产生的影响。描 述语言的环境知识、语言与语言使用者在某个给定语言环境中的关 系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块 )
14
自然语言理解的一般问题(13)
• 自然语言理解的研究大体上经历了三个 时期
– 萌芽时期 – 发展时期
• 早期: 60年代以关键词匹配为主流 • 中期: 70年代以句法-语义分析为主流 • 近期: 80年代以来开始走向实用化和工程化
6
自然语言理解的一般问题(5)
• 语言学的研究
自然语言理解PPT课件

依存关系
词语之间的依赖关系,包括主谓关系、 动宾关系等。
语义分析
语义分析
理解句子所表达的实际意义,涉 及词义消歧、句义理解等方面。
词义消歧
确定多义词在具体语境中的意义。
句义理解
理解整个句子的意义,涉及句子的 主旨、意图等。
语境理解
语境理解
结合上下文信息,理解当前词语 或句子的意义。
上下文信息
当前词语或句子之前的文本信息, 用于推断当前词语或句子的意义。
自然语言理解的重要性
提高人机交互的效率和体验
自然语言理解技术使得人机交互更加自然、便捷,提高了用户体 验。
推动人工智能技术的进步
自然语言理解技术的发展对于人工智能技术的进步具有重要意义, 是人工智能技术发展的重要方向之一。
促进跨语言交流
自然语言理解技术可以帮助不同语言和文化背景的人们进行交流, 促进跨文化交流和理解。
语境效应
上下文信息对当前词语或句子意 义的改变效果。
04 自然语言理解的技术挑战 与解决方案
数据稀疏性问题
总结词
数据稀疏性是指训练数据不足或数据分布不均匀,导致模型难以学习到有用的特征和模式 。
详细描述
在自然语言处理任务中,数据稀疏性是一个常见问题。由于语言本身的复杂性和多样性, 很难收集到足够丰富和多样的训练数据。此外,不同领域和场景的数据分布也可能存在很 大差异,导致模型在某些情况下表现不佳。
语境理解问题
总结词
语境理解问题是指模型需要理解句子或段落之间的逻辑关系和语义联系,以推断出正确的意义。
详细描述
在自然语言处理中,语境理解是非常重要的。一个词或句子的含义往往需要结合上下文才能确定。例如,“他是一名 医生”这句话在不同的语境下可能有不同的含义,可能是指他是医生这个职业,也可能是指他正在扮演医生的角色。
第一章 自然语言处理概论ppt课件

– “目前一些试用过的用户表示,改进后的 翻译服务在质量方面令人惊讶。对于那些 从未使用机器翻译的用户来说,他们完全 可以通过翻译后的文本理解原文的意思, 一些细微的错误并不会引起太大的麻烦。 ”
--Franz Josef Och
哈尔滨工业大学计算机学院语言技 术研究中心
几个时间段(续)
• 还需要多少年才能实现计算机与人类无障 碍地沟通?
• 语法分析歧义
– 咬死了猎人的狗
• 那只狼咬死了猎人的狗 • 咬死了猎人的狗失踪了
自然语言处理中的歧义问题(续 )
• 语义分析歧义
– At last, a computer that understands you like your mother.
– 1985 McDonnell-Douglas ad
– 含义1:计算机会象你的母亲那样很好地理解 你(的语言)
– 含义2:计算机理解你喜欢你的母亲 – 含义3:计算机会象很好地理解你的母亲那样
理解你
自然语言处理中的歧义问题(续 )
• 语用分析歧义
– “你真坏”至少有如下三种理解:
• 当人们对干了坏事的成年人说时,是一种严厉的斥 责
• 当妈妈对淘气的儿子说时,实际表达的是对儿子的 一种疼爱
几点感性认识
• 有点繁琐枯燥
– “从繁体词库到简体词库” – 要求同学们一丝不苟的认真精神
• 充满乐趣
– “机器翻译及其应用激起了人们极其浓厚 的兴趣”
– 要求同学们有愚公移山,坚持到底的精神
几点感性认识(续)
• 团队合作
– “128个字节的偏移量” – 要求同学们善于协作,有团队精神
• 独创精神
哈尔滨工业大学计算机学院语言技 术研究中心
--Franz Josef Och
哈尔滨工业大学计算机学院语言技 术研究中心
几个时间段(续)
• 还需要多少年才能实现计算机与人类无障 碍地沟通?
• 语法分析歧义
– 咬死了猎人的狗
• 那只狼咬死了猎人的狗 • 咬死了猎人的狗失踪了
自然语言处理中的歧义问题(续 )
• 语义分析歧义
– At last, a computer that understands you like your mother.
– 1985 McDonnell-Douglas ad
– 含义1:计算机会象你的母亲那样很好地理解 你(的语言)
– 含义2:计算机理解你喜欢你的母亲 – 含义3:计算机会象很好地理解你的母亲那样
理解你
自然语言处理中的歧义问题(续 )
• 语用分析歧义
– “你真坏”至少有如下三种理解:
• 当人们对干了坏事的成年人说时,是一种严厉的斥 责
• 当妈妈对淘气的儿子说时,实际表达的是对儿子的 一种疼爱
几点感性认识
• 有点繁琐枯燥
– “从繁体词库到简体词库” – 要求同学们一丝不苟的认真精神
• 充满乐趣
– “机器翻译及其应用激起了人们极其浓厚 的兴趣”
– 要求同学们有愚公移山,坚持到底的精神
几点感性认识(续)
• 团队合作
– “128个字节的偏移量” – 要求同学们善于协作,有团队精神
• 独创精神
哈尔滨工业大学计算机学院语言技 术研究中心
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 2) 问句分析模块。接收已经分词的问句,根据词表、语义 块规则等进行浅层语义分析,生成问句向量。举例: 接收 “请问/v ,/w 关于/p 高兴/a 的/u 图片/n 有/v些/q 什么/r ? /w”,则生成问句向量“QV = ( Con = 高兴,Pic = ?) ”。
3情感词语映射PAD 模块。接收问句向量,将问句向 量中的情感词语同PAD 空间相映射生成( 一组或多 组) PAD 值。
感词语; ( 2) 以“哈工大同义词词林”编码前三级相同( 经反
复尝试,发现编码前三级相同进行扩展较为合理) 作为规则,中文OCC 情感词进行同义词扩展; ( 3) 在扩展的同义词中,删除冗余部分以及非情感词 部分,并对重复出现的情感词进行合并; ( 4) 加入中文情感词与24 个OCC 情感词映射的相关 信息,形成最终的中文情感词词表。
果输出给用户。
举例: 接收三组PAD 值“0. 4 0.2 0.2; 0.4 0.2 0.1; 0.40 0.16 - 0.24”,最终输出与“高兴”相关性由 大到小排列的一系列情感图像。
中文情感词词表的建立
构建中文情感词词表的过程如下: ( 1) 将24 个OCC 英文情感词语翻译为对应的中文情
基于自然语言处理的图片情感语义检索研究
总体思想:
运用自然语言处理对问句进行浅层 语义分析,并建立一个情感映射模 型,实现常用情感词与该模型以及 该模型与情感图像之间的映射。另 外对检索结果进行排序并输出。
先介绍几个概念: 1)图像所蕴含的信息通过图像特征进行描 述;
对于图像特征,由下至上可分为三个层次 : 特征层、对象层和语义概念层。语义概念 层由低到高又可分为: 场景语义、行为语义 和情感语义,其中,情感语义是最能体现 观察者对图像的认知和感知,也最能反映 用户对检索图像的需求。
问句分析模根据语义分析部分输出的情感词对情感图像 库进行查询,最终返回用户希望查询的情感图像。该部分 分为情感词语映射PAD 模块和查找情感图像模块。
• 1)情感词语映射PAD模块。
查找情感图像模块
• 查找情感图像模块首先计算所有情感图像与待查 情感词的相关程度,再按照相关性由大到小排列 图像并输出给用户,作为最终查询答案。根据“ 欧氏空间距离越近就越相似”的原理系统进行计 算,认为情感图像与待查情感词在PAD 空间的欧 氏距 离越近就越能够代表该情感词,因此呈现给用户 的情感图像是按照欧氏空间距离由小到大排列的 。公式为:
系统研发
• 本系统一myecplise作为开发平台,tomcat作 为服务器开发,使用SQLServer数据库。其 界面为:
例子:高兴
检索结果分析 方式:问卷调查
为更好满足学习和使用需求,课件在下载 后自由编辑,请根据实际情况进行调整
Thank you for watching and listening. I hope you can make great progress
语义分析
1)语义分析部分主要对输入的自然语言问句进行分 词、浅层语义分析,最终输出一个可以代表用户希 望查询情感的情感词。该部分由问句分词模块和问 句分析模块组成。
2)语料库的建设:采取由实验人员对情感图像提问 的方法,以此进行问句的采集工作。(问卷调查) 。
3)该文对情感图像领域中问句相关的语义块及其识 别规则等进行了定义,再利用这些已经定义的组块 和规则进行问句的浅层语义分析,并按照形式化的 描述方式进行输出,最终得到问句向量
• 2):在利用OCC与PAD模型之间的映射关系 ,建立情感模型。
• 3)将常用情感词和以PAD为情感标识的情 感图像分别于该模型进行映射。
系统设计与实现
• 1)问句处理部分:将输入的情感图像相关 问句进行分词,并分析出用户希望查找的 感情词。问句分词模块主要采用ICTCLAS 作 为分词接口,且采用计算所一级标注集对 分词进行词性标注。
如图:
各个子模块的功能如下
• 1) 问句分词模块。输入问句,利用ICTCLAS( 中国科学院计 算技术研究所汉语词法分析系统) 分词接口,对问句进行 分词,输出已经分词的问句。 举例: 输入自然问句“请问,关于高兴的图片有些什么?” ,则分词后的结果为“请问/v ,/w 关于/p 高兴/a 的/u 图 片/n有/v 些/q 什么/r ? /w”。
OCC模型和PAD模型
OCC模型:认知情感模型,将情感分为24种情 感状态。
PAD模型:该模型 认为情感 具有愉悦度、激 活度和优势度3个维度,所以将所以的情感 映射到三维空间中。从而将其量化。
总体框架:
情感模型映射机制
机制介绍:
• 1):自然语言处理对用户输入问句进行分 析,得到用户待查找的情感词。
2)查询情感图片部分:将常用情感词通过同 义词关系与24个OCC情感词进行映射,分成 了24类,利用Patrick Gebhard的“Mapping of OCC emotions into PAD space”将其映射到PAD 空间。利用欧式距离计算每张图片与待查 情
感相关性,并排序。例如:
系统总体结构与流程
举例: 接收情感词语“高兴”,生成三组PAD 值 “0.4 0.2 0.2; 0.4 0.2 0.1; 0.40 0.16 - 0.24”。
4)查找情感图像模块。接收( 一组或多组) PAD 值,根 据PAD 值计算情感图像库中所有情感图像与待查 询情感词的相关性,并按照相关性由大到小的顺序 排列情感图像,作为最终结
3情感词语映射PAD 模块。接收问句向量,将问句向 量中的情感词语同PAD 空间相映射生成( 一组或多 组) PAD 值。
感词语; ( 2) 以“哈工大同义词词林”编码前三级相同( 经反
复尝试,发现编码前三级相同进行扩展较为合理) 作为规则,中文OCC 情感词进行同义词扩展; ( 3) 在扩展的同义词中,删除冗余部分以及非情感词 部分,并对重复出现的情感词进行合并; ( 4) 加入中文情感词与24 个OCC 情感词映射的相关 信息,形成最终的中文情感词词表。
果输出给用户。
举例: 接收三组PAD 值“0. 4 0.2 0.2; 0.4 0.2 0.1; 0.40 0.16 - 0.24”,最终输出与“高兴”相关性由 大到小排列的一系列情感图像。
中文情感词词表的建立
构建中文情感词词表的过程如下: ( 1) 将24 个OCC 英文情感词语翻译为对应的中文情
基于自然语言处理的图片情感语义检索研究
总体思想:
运用自然语言处理对问句进行浅层 语义分析,并建立一个情感映射模 型,实现常用情感词与该模型以及 该模型与情感图像之间的映射。另 外对检索结果进行排序并输出。
先介绍几个概念: 1)图像所蕴含的信息通过图像特征进行描 述;
对于图像特征,由下至上可分为三个层次 : 特征层、对象层和语义概念层。语义概念 层由低到高又可分为: 场景语义、行为语义 和情感语义,其中,情感语义是最能体现 观察者对图像的认知和感知,也最能反映 用户对检索图像的需求。
问句分析模根据语义分析部分输出的情感词对情感图像 库进行查询,最终返回用户希望查询的情感图像。该部分 分为情感词语映射PAD 模块和查找情感图像模块。
• 1)情感词语映射PAD模块。
查找情感图像模块
• 查找情感图像模块首先计算所有情感图像与待查 情感词的相关程度,再按照相关性由大到小排列 图像并输出给用户,作为最终查询答案。根据“ 欧氏空间距离越近就越相似”的原理系统进行计 算,认为情感图像与待查情感词在PAD 空间的欧 氏距 离越近就越能够代表该情感词,因此呈现给用户 的情感图像是按照欧氏空间距离由小到大排列的 。公式为:
系统研发
• 本系统一myecplise作为开发平台,tomcat作 为服务器开发,使用SQLServer数据库。其 界面为:
例子:高兴
检索结果分析 方式:问卷调查
为更好满足学习和使用需求,课件在下载 后自由编辑,请根据实际情况进行调整
Thank you for watching and listening. I hope you can make great progress
语义分析
1)语义分析部分主要对输入的自然语言问句进行分 词、浅层语义分析,最终输出一个可以代表用户希 望查询情感的情感词。该部分由问句分词模块和问 句分析模块组成。
2)语料库的建设:采取由实验人员对情感图像提问 的方法,以此进行问句的采集工作。(问卷调查) 。
3)该文对情感图像领域中问句相关的语义块及其识 别规则等进行了定义,再利用这些已经定义的组块 和规则进行问句的浅层语义分析,并按照形式化的 描述方式进行输出,最终得到问句向量
• 2):在利用OCC与PAD模型之间的映射关系 ,建立情感模型。
• 3)将常用情感词和以PAD为情感标识的情 感图像分别于该模型进行映射。
系统设计与实现
• 1)问句处理部分:将输入的情感图像相关 问句进行分词,并分析出用户希望查找的 感情词。问句分词模块主要采用ICTCLAS 作 为分词接口,且采用计算所一级标注集对 分词进行词性标注。
如图:
各个子模块的功能如下
• 1) 问句分词模块。输入问句,利用ICTCLAS( 中国科学院计 算技术研究所汉语词法分析系统) 分词接口,对问句进行 分词,输出已经分词的问句。 举例: 输入自然问句“请问,关于高兴的图片有些什么?” ,则分词后的结果为“请问/v ,/w 关于/p 高兴/a 的/u 图 片/n有/v 些/q 什么/r ? /w”。
OCC模型和PAD模型
OCC模型:认知情感模型,将情感分为24种情 感状态。
PAD模型:该模型 认为情感 具有愉悦度、激 活度和优势度3个维度,所以将所以的情感 映射到三维空间中。从而将其量化。
总体框架:
情感模型映射机制
机制介绍:
• 1):自然语言处理对用户输入问句进行分 析,得到用户待查找的情感词。
2)查询情感图片部分:将常用情感词通过同 义词关系与24个OCC情感词进行映射,分成 了24类,利用Patrick Gebhard的“Mapping of OCC emotions into PAD space”将其映射到PAD 空间。利用欧式距离计算每张图片与待查 情
感相关性,并排序。例如:
系统总体结构与流程
举例: 接收情感词语“高兴”,生成三组PAD 值 “0.4 0.2 0.2; 0.4 0.2 0.1; 0.40 0.16 - 0.24”。
4)查找情感图像模块。接收( 一组或多组) PAD 值,根 据PAD 值计算情感图像库中所有情感图像与待查 询情感词的相关性,并按照相关性由大到小的顺序 排列情感图像,作为最终结