第13章++知识图谱与知识推理

第13章知识图谱与知识推理

王泉

中国科学院大学网络空间安全学院

2016年11月

?13.1概述

?13.2知识图谱构建

?13.3 知识图谱中的知识推理–13.3.1 表示学习技术

–13.3.2 张量分解技术

–13.3.3 路经排序算法?13.4 本章小结

?13.1概述

?13.2知识图谱构建

?13.3 知识图谱中的知识推理–13.3.1 表示学习技术

–13.3.2 张量分解技术

–13.3.3 路经排序算法?13.4 本章小结

实体和关系

?实体 (entity):现实世界中可区分、可识别的事物或概念–客观对象:人物、地点、机构

–抽象事件:电影、奖项、赛事

?关系 (relation):实体和实体之间的语义关联

–BornInCity, IsParentOf, AthletePlaysForTeam

?知识图谱 (knowledge graph):实体和关系所构成的异质、有向图,是表征实体间语义关联的语义网络

?节点代表实体

?边代表不同类型的关系 (异质) ?两个节点之间有边相连表明它们之间存在相应关系 ?边是有向的表明关系是非对称的

?三元组 (triple/triplet):也称事实 (fact),是最基本的知识存储方式,表现为(主语, 谓词, 宾语)形式

(Tom, BornInCity, Paris)

(Tom, LivedInCity, Lyon)

(Tom, Nationality, France) (Tom, ClassMates, Bob)

(Paris, CityLocatedInCountry, France) (Lyon, CityLocatedInCountry, France) (Bob, BornInCity, Paris)

?三元组 (triple/triplet):也称事实 (fact),是最基本的知识存储方式,表现为(主语, 谓词, 宾语)形式

BornInCity(Tom,Paris) LivedInCity(Tom,Lyon) Nationality(Tom,France) ClassMates(Tom,Bob) CityLocatedInCountry(Paris,France) CityLocatedInCountry(Lyon,France) BornInCity(Bob,Paris)

谓词逻辑/一阶逻辑表达式

?模式 (schema):除三元组以外的高级知识形式–实体语义类别间的从属关系

?(Athlete, SubclassOf, Person)

?(City, SubclassOf, Location)

?(Country, SubclassOf, Location)

–关系的定义域(domain)和值域(range)

?(AthletePlaysForTeam, Domain, Athlete)

?(AthletePlaysForTeam, Range, SportTeam)

?(CityLocatedInCountry, Domain, City)

?(CityLocatedInCountry, Range, Country)

?知识图谱的作用

–知识图谱能够提供海量、有组织的知识体系,使机器语言认知、概念认知成为可能,进而为自然语言处理和理解相关任务提供技术支撑

–知识图谱为海量无结构数据提供了结构化的存储方式,方便计算机储存和管理信息

–知识图谱还能借助其图结构和海量知识,帮助学习和发现事物之间的关联规律,理解事物全貌

?研究现状及应用前景

国际Read the Web

Research Project at Carnegie Mellon University

中国教育合作项目

Representing and Reasoning Knowledge

目录

?13.1概述

?13.2知识图谱构建

?13.3 知识图谱中的知识推理–13.3.1 表示学习技术

–13.3.2 张量分解技术

–13.3.3 路经排序算法?13.4 本章小结

知识图谱构建

?几种主流构建方式

NELL

专家人工创建

?典型代表:WordNet [Miller, 1995]

?方法优点

–知识的准确性高

–知识的完备性高,较少出现知识缺失问题?方法缺点

–人力和时间成本极高

–知识的覆盖面有限,知识图谱的规模有限

–知识的实时更新较难,滞后性严重

大众协作编辑创建

?典型代表:Freebase [Bollacker et al., 2008], Wikidata ?方法优点

–知识的准确性较高

–知识的覆盖面广,知识图谱的规模大

?方法缺点

–人力和时间成本较高

–知识的完备性较差,知识缺失现象较为普遍

–知识的实时更新较难,滞后性严重

基于信息抽取自动创建

?典型代表:NELL [Carlson et al., 2010], YAGO [Suchanek et al., 2007] –指定关系类型,通过人工标注的种子知识,自动实现关系抽取?方法优点

–人力和时间成本较低

–知识的覆盖面广,知识图谱的规模大

–知识的实时更新较为容易

?方法缺点

–依赖众多NLP任务,错误累积问题严重,知识准确性较低

–知识的完备性较差,知识缺失现象较为普遍

目录

?13.1概述

?13.2知识图谱构建

?13.3 知识图谱中的知识推理–13.3.1 表示学习技术

–13.3.2 张量分解技术

–13.3.3 路经排序算法?13.4 本章小结

?知识推理 (knowledge inference):根据知识图谱中已有的知识,推断出新的、未知的知识

(Tom, BornInCity, Paris)

(Tom, LivedInCity, Lyon)

(Tom, Nationality, France) (Tom, ClassMates, Bob)

(Paris, CityLocatedInCountry, France) (Lyon, CityLocatedInCountry, France) (Bob, BornInCity, Paris)

(Bob, Nationality, France)

?知识推理 (knowledge inference):根据知识图谱中已有的知识,推断出新的、未知的知识

(Tom, BornInCity, Paris)

(Tom, LivedInCity, Lyon)

(Tom, Nationality, France)

(Tom, ClassMates, Bob)

(Paris, CityLocatedInCountry, France)

(Lyon, CityLocatedInCountry, France)

(Bob, BornInCity, Paris)

(Bob, Nationality, France)

提高知识的完备性,扩大知识的覆盖面

知识推理方法

?表示学习技术

–TransE [Bordes et al., 2013], TransH [Wang et al., 2014], TransR [Lin et al., 2015]

?张量分解技术

–RESCAL [Nickel et al., 2011], TRESCAL [Chang et al., 2014] ?路径排序算法

–PRA [Lao and Cohen, 2010], CPRA [Wang et al., 2016]

目录

?13.1概述

?13.2知识图谱构建

?13.3 知识图谱中的知识推理–13.3.1 表示学习技术

–13.3.2 张量分解技术

–13.3.3 路经排序算法?13.4 本章小结

6个方面分析知识图谱的价值和应用

6个方面分析知识图谱的价值和应用 知识对于人工智能的价值就在于,让机器具备认知能力和理解能力。构建知识图谱这个过程的本质,就是让机器形成认知能力,理解这个世界。一、知识图谱无处不在说到人工智能技术,人们首先会联想到深度学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等等,各行各业都在研发底层技术和寻求AI场景,却忽视了当下最时髦也很重要的AI技术:知识图谱。当我们进行搜索时,搜索结果右侧的联想,来自于知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自于知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景,都越来越依赖知识图谱。二、知识图谱与人工智能的关系知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模。通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。形成知识图谱的过程本质是在建立认知、理解世界、理解应用的行业或者说领域。每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱。正是因为有获取和形成知识的能力,人类才可以不断进步。知识图谱对于

人工智能的重要价值在于,知识是人工智能的基石。机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如:狗的嗅觉。而“认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。”知识对于人工智能的价值就在于,让机器具备认知能力。而构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。 三、图数据库知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,图论中图的基本元素是节点和边,在图数据库中对应的就是节点和关系。用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。目前市面上较为流行的图数据库有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库,一修改便容易“牵一发而动全身”图数据库可实现数据间的“互联互通”,与传统的关系型数据库相比,图数据库更擅长建立复杂的关系网络。图数据库将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。四、知识图谱的价值知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各种

知识图谱概述及应用

导读:知识图谱(Knowledge Graph) 是当前的研究热点。自从2012年Google 推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业- 互联网金融,知识图谱可以有哪方面的应用呢 目录: 1. 什么是知识图谱 2. 知识图谱的表示 3. 知识图谱的存储 4. 应用 5. 挑战 6. 结语 1.什么是知识图谱 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里

输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。 另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“,Google 能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。 上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的(Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。 2.知识图谱的表示 假设我们用知识图谱来描述一个事实(Fact)- “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作

第13章++知识图谱与知识推理

第13章知识图谱与知识推理 王泉 中国科学院大学网络空间安全学院 2016年11月

?13.1概述 ?13.2知识图谱构建 ?13.3 知识图谱中的知识推理–13.3.1 表示学习技术 –13.3.2 张量分解技术 –13.3.3 路经排序算法?13.4 本章小结

?13.1概述 ?13.2知识图谱构建 ?13.3 知识图谱中的知识推理–13.3.1 表示学习技术 –13.3.2 张量分解技术 –13.3.3 路经排序算法?13.4 本章小结

实体和关系 ?实体 (entity):现实世界中可区分、可识别的事物或概念–客观对象:人物、地点、机构 –抽象事件:电影、奖项、赛事 ?关系 (relation):实体和实体之间的语义关联 –BornInCity, IsParentOf, AthletePlaysForTeam

?知识图谱 (knowledge graph):实体和关系所构成的异质、有向图,是表征实体间语义关联的语义网络 ?节点代表实体 ?边代表不同类型的关系 (异质) ?两个节点之间有边相连表明它们之间存在相应关系 ?边是有向的表明关系是非对称的

?三元组 (triple/triplet):也称事实 (fact),是最基本的知识存储方式,表现为(主语, 谓词, 宾语)形式 (Tom, BornInCity, Paris) (Tom, LivedInCity, Lyon) (Tom, Nationality, France) (Tom, ClassMates, Bob) (Paris, CityLocatedInCountry, France) (Lyon, CityLocatedInCountry, France) (Bob, BornInCity, Paris)

态势感知-知识图谱

一、态势感知(SA) 定义 SA的正式定义是“对一定时间和空间环境中的元素的感知,对它们的含义的理解,并对他们稍后状态的投影,态势感知这个词最早来自于军队飞行员的领域。 对SA的正式定义分解为三个独立的层次: Level 1 - 对环境中的元素的感知 Level 2 - 对当前形势的理解(知识图谱的主要应用领域) Level 3 - 未来状况的投影 一级:环境中元素的感知 实现SA的第一步是感知环境中的相关元素的状态,属性和动态。对于每个域和作业类型,所需的要完全不同的。飞行员需要感知的要素,如其他飞机,地形,系统状态和警告灯,以及他们的相关特性。在驾驶舱里,持续监控所有相关的系统和飞行数据,其他飞机,和导航数据的任务相当繁重。一个军官需要探测敌人,平民和友军的位置和行动,地形特征,障碍和天气。一个空通管制或汽车司机有一套不同的态势感知。 二级SA:现状的理解 实现良好SA的第二步是理解数据和线索对目标和目的意味着什么。理解(第2级SA)基于不相交的1级元素的综合,以及该信息与个人目标的对照(图2.3)。它涉及集成许多数据以形成信息,并且优先考虑组合信息与实现当前目标相关的重要性和意义。2级SA类似于具有高水平的阅读理解,而不是仅仅阅读单词。 军事指挥官的2级SA可能涉及理解在给定地点的行动报告,这意味着敌军正在附近集结。或者它可能意味着看到沿着道路的车辆轨道,并从那里确定什么类型的部队和单位在

军官自己的部队之前。 通过理解数据块的重要性,具有2级SA的个体将特定目标相关的含义和意义与手头的信息相关联。 三级SA:对未来状态的映射 一旦人们知道这些元素是什么以及它们对于当前目标意味着什么,预测这些元素在(至少在短期)将做什么的能力构成了3级SA。一个人只能通过了解情况(2级SA)以及他们正在使用的系统的功能和动态,达到3级SA。 陆军指挥官可以映射到敌方部队接近的方向和他们自己的行动的可能影响,基于他们已经生成的2级SA。飞行员和空通管制员积极工作,预测其他飞机的运动并提前预见问题。 使用当前情境理解来形成预测需要对领域(高度发展的心理模型)有非常好的理解,并且在心理上可能是相当苛刻的。许多领域的专家花费大量时间来形成3级SA,利用空余时间来生成这些预测。通过不断地前向映射,他们能够制定一套现成的战略和对事件的反应。这让他们掌握主动,避免许多不期望的情况,并且当各种事件发生时也非常快速地响应。 二、知识图谱 1.知识图谱的概念 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。 实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物有具体事物组成,此指实体。如图1的“中国”、“美国”、“日本”等。,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。 语义类(概念):具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。 容: 通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。 属性(值): 从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。如图1所示的“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。 关系: 形式化为一个函数,它把kk个点映射到一个布尔值。在知识图谱上,关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。 基于三元组是知识图谱的一种通用表示方式,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的在特性,而关系可用来连接两个实体,刻画它们之间的关联。 2.知识图谱的架构 知识图谱的架构包括自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构。 2.1知识图谱的逻辑结构 知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j、Twitter的

个方面分析知识图谱的价值和应用

6个方面分析知识图谱的价值和应用知识对于人工智能的价值就在于,让机器具备认知能力和理解能力。构建知识图谱这个过程的本质,就是让机器形成认知能力,理解这个世界。一、知识图谱无处不在说到人工智能技术,人们首先会联想到深度学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等等,各行各业都在研发底层技术和寻求AI场景,却忽视了当下最时髦也很重要的AI技术:知识图谱。当我们进行搜索时,搜索结果右侧的联想,来自于知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自于知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景,都越来越依赖知识图谱。二、知识图谱与人工智能的关系知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模。通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。形成知识图谱的过程本质是在建立认知、理解世界、理解应用的行业或者说领域。每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱。正是因为有获取和形成知识的能力,人类才可以不断进步。知识图谱对于人工智能的重要价值在于,知识是人工智能的基石。机器可

以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如:狗的嗅觉。而“认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。”知识对于人工智能的价值就在于,让机器具备认知能力。而构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。 三、图数据库知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,图论中图的基本元素是节点和边,在图数据库中对应的就是节点和关系。用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。目前市面上较为流行的图数据库有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库,一修改便容易“牵一发而动全身”图数据库可实现数据间的“互联互通”,与传统的关系型数据库相比,图数据库更擅长建立复杂的关系网络。图数据库将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。四、知识图谱的价值知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各种关系,并且非常直观、自然、直接和高效,不需要中间过程

相关文档
最新文档