领域应用--知识图谱的技术与应用新选.
(完整版)领域应用知识图谱的技术和应用

领域应用 | 知识图谱的技术与应用本文转载自公众号:贪心科技。
领域应用 | 知识图谱的技术与应用李文哲开放知识图谱 1周前本文转载自公众号:贪心科技。
作者 | 李文哲,人工智能、知识图谱领域专家导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。
它在技术领域的热度也在逐年上升。
本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。
对于读者,我们不要求有任何AI相关的背景知识。
目录:1.概论2.什么是知识图谱3.知识图谱的表示4.知识抽取5.知识图谱的存储6.金融知识图谱的搭建1.定义具体的业务问题2.数据收集 & 预处理3.知识图谱的设计4.把数据存入知识图谱5.上层应用的开发7.知识图谱在其他行业中的应用8.实践上的几点建议9.结语1. 概论随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。
如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。
在一项任务中,只要有关系分析的需求,知识图谱就“有可能”派的上用场。
2. 什么是知识图谱?知识图谱是由Google公司在2012年提出来的一个新的概念。
从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。
但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。
那什么叫多关系图呢?学过数据结构的都应该知道什么是图(Graph)。
图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。
知识图谱技术在教育等领域的应用研究

知识图谱技术在教育等领域的应用研究一、简介随着人工智能技术的快速发展,知识图谱技术成为人工智能领域研究的热门方向之一。
知识图谱是一种以知识为中心的图形化表示方式,它可以将不同领域的知识形成一个完整的知识库,并通过深度学习算法进行自我学习和优化,实现知识的智能化管理。
在教育等领域,知识图谱技术可以帮助教育机构和学校建设智能化教育管理系统,提高教育质量和教学效果。
二、知识图谱技术在教育管理中的应用1.教学资源管理知识图谱技术可以将教学资源进行分类、整合和管理,实现数据化管理。
通过建立教学资源知识图谱,教师可以根据学科和主题进行资源检索和筛选,提高了教学资源的利用率。
同时,知识图谱技术还可以对学生的学习情况进行分析和评估,实现个性化教学。
2.学生行为管理知识图谱技术可以通过分析学生的学习习惯、兴趣爱好等行为特征,为学生提供更加个性化的学习体验。
例如,提供适合学生学习的课程和学习资源,为学生量身定制个性化培养计划。
同时,还可以通过知识图谱技术进行学生行为识别和风险管理,以保证学校和教师的教学质量。
3.教师培训管理知识图谱技术可以对教师进行教学能力评估,并针对教师的不足之处进行培训和提高,实现了教师教学能力的提升。
通过知识图谱技术的智能化辅助,教师可以更加系统和高效地进行学习和培训。
三、知识图谱技术在在线教育中的应用1.教学内容推荐知识图谱技术可以根据学生的学习需求和兴趣爱好,为学生提供适合的教育内容。
通过知识图谱技术进行推荐,可以更好地匹配学生的学习需求,提高学生的学习效果。
2.在线课程设计知识图谱技术可以根据学生的学习需求和个性化特征,为学生量身定制教育课程设计。
通过知识图谱技术进行在线课程设计,可以更好地照顾到学生的个性化需求,提高学生的学习效果。
3.错题分析与反馈知识图谱技术可以对学生的做题情况进行分析和评估,并能够及时反馈学习情况,让学生更好地了解自己的学习情况。
同时,通过知识图谱技术还可以提供错题分析和辅导,为学生提供更好的帮助。
知识图谱技术在金融领域的应用

知识图谱技术在金融领域的应用随着人工智能技术的不断发展,知识图谱技术逐渐成为金融领域中的热门应用。
所谓知识图谱,指的是将各种实体和概念之间的关系抽象出来,形成具有结构化的知识图谱。
利用知识图谱技术,可以更加高效地理解和利用金融数据,提升金融业务的效率和精确度。
一、知识图谱技术的基本概念知识图谱是一种以实体为中心的关系网络,它将各种实体之间的关系以及实体的属性、类型等信息进行抽象,形成高度结构化的图谱。
知识图谱的组成要素包括:实体、属性、类型和关系等。
其中,实体是指现实世界中的对象,如人物、公司、产品等;属性是实体的某些特征,如人物的性别、公司的地理位置等;类型是对实体进行分类的方式,利用类型可以将一类实体进行归类;关系是实体之间的连接,描述实体之间的语义关系,包括同义、上下位、属于等等。
二、知识图谱技术在金融领域的应用1.金融风险管理金融风险管理是金融业中一项重要的工作。
知识图谱技术可以通过大量的数据进行模型分析,快速地进行风险评估,并建立风险管理模型。
利用知识图谱技术,可以将不同实体之间的关联性进行分析,识别出潜在的风险因素,从而制定出相应的风险管理策略。
2.金融产品推荐金融机构可以通过利用知识图谱技术,建立个性化的金融产品推荐系统。
该系统可以利用用户的属性、历史交易信息、社交网络信息以及其他相关信息,建立用户画像,从而向用户推荐符合其需求的金融产品。
3.金融市场预测金融市场中的数据量庞大,使用传统的分析方法难以满足日益增长的数据需求。
而知识图谱技术可以挖掘金融数据之间的潜在联系,通过对金融机构、公司、行业等信息进行分析,预测市场趋势,识别潜在投资机会,提升金融机构的决策能力。
4.金融反欺诈金融诈骗一直是金融领域中的一大难题。
利用知识图谱技术,可以将相关标签与金融数据进行关联,并建立反欺诈模型。
利用这个模型,可以识别和预防金融欺诈行为,保障金融机构和客户的安全。
三、知识图谱技术的优势知识图谱技术相较于传统的数据分析方法具有以下优势:1.结构化数据传统的数据挖掘算法是基于无结构性的数据挖掘,而知识图谱技术可以将大量的数据进行结构化存储和分析,更好的了解金融领域的实体和关系。
知识图谱构建与应用技术的发展趋势与创新思路

知识图谱构建与应用技术的发展趋势与创新思路随着人工智能技术的迅猛发展,知识图谱作为知识表示与推理的重要工具,在各个领域中发挥着越来越重要的作用。
知识图谱的构建与应用技术不断创新,为人们在信息获取、语义理解和智能决策等方面提供了新的思路和方法。
本文将从知识图谱构建的新技术、知识图谱应用的新领域以及知识图谱的未来发展趋势与创新思路等方面进行探讨。
一、知识图谱构建的新技术1. 自动化知识抽取技术:传统的知识图谱构建需要大量的人工劳动,而自动化知识抽取技术可以从海量的文本中自动地抽取出结构化的知识,并将其构建成知识图谱。
这种技术通过机器学习和自然语言处理等方法,能够高效地提取实体、关系和属性等信息,为知识图谱的构建提供了更快速、更准确的方式。
2. 开放知识图谱构建方法:传统的知识图谱构建主要依赖于专家知识和人工标注,但是这种方法存在着知识更新慢、领域专业度差的问题。
而开放知识图谱构建方法则通过利用互联网上大量的公开知识,结合自动化知识抽取技术,构建起丰富而准确的知识图谱。
这种方法的优势在于能够快速构建和更新知识图谱,并且可以适应不同领域的知识需求。
3. 迁移学习在知识图谱构建中的应用:迁移学习是一种利用源领域的知识来提升目标领域学习性能的方法。
在知识图谱构建中,迁移学习可以从已有的知识图谱中迁移相关的实体和关系等信息,加速构建新的知识图谱。
这种方法可以大大减少新知识图谱构建的工作量,并且提高构建的效果。
二、知识图谱应用的新领域1. 金融领域的应用:知识图谱在金融领域的应用可以帮助金融机构更好地理解和分析客户需求,降低风险,并提供个性化的服务。
通过建立金融知识图谱,可以将大量的结构化和非结构化数据整合起来,识别出潜在的关联和趋势,为金融业务的决策提供支持。
2. 医疗领域的应用:知识图谱在医疗领域的应用可以提供医疗知识的整合和共享,辅助医生进行疾病诊断和治疗方案制定。
通过将医学文献、临床实验室数据和患者健康记录等信息整合到知识图谱中,可以提供更准确和个性化的医疗建议,提高医疗决策的效果。
知识图谱的关键技术与应用

知识图谱的关键技术与应用随着人工智能技术的不断发展,知识图谱逐渐成为人工智能领域中的重要技术之一。
知识图谱不仅可以帮助机器理解语言,还可以通过知识链接和推理等功能实现类人的思维能力。
本文将介绍知识图谱的关键技术和应用。
一、知识图谱的定义知识图谱是一种人工智能技术,是一种用于描述事物之间关系的图形化表示方法。
它是一种基于实体、属性和关系的知识组织结构,可以将各种信息进行结构化、标准化和统一化处理,从而达到知识互通的目的。
二、知识图谱的关键技术1. 知识获取知识图谱的基础是知识获取,该过程涉及到信息抽取、实体识别、关系提取、实体链接等技术。
在知识获取过程中,对于不同的数据源,需要设计不同的算法模型和规则库,并通过自然语言处理、机器学习等技术在大规模语料库中自动化地提取实体和关系,并将其转化为结构化和标准化的知识形式。
2. 知识表示知识表示是指将从不同数据源中获取的知识进行统一标准的表示和存储,以实现知识的互通和可推理。
在知识表示过程中,需要考虑知识表示的粒度、表示形式和知识本体等方面。
当前最常用的知识表示技术包括RDF、OWL、RDFS等。
3. 知识推理知识推理是实现知识智能处理的核心技术之一。
知识推理通过基于本体、规则和语义等方式,进行知识关联、归纳、演绎等推理,并通过推理产生新的知识。
知识推理涉及到推理引擎、推理规则、查询语言等技术。
4. 知识查询知识查询是指在知识图谱中进行复杂的查询操作,以实现知识检索、推理以及问题解答。
知识查询技术包括SPARQL、SQL、RQL等。
三、知识图谱的应用1. 搜索引擎知识图谱可以帮助搜索引擎提供更准确的搜索结果。
例如,谷歌通过使用知识图谱,可以为用户提供更多的相关搜索结果,提高搜索精度。
2. 智能客服知识图谱可以帮助智能客服更准确地理解用户意图和问题,并给出更准确的回答。
例如,使用知识图谱可以建立机器人对话模型,实现智能对话,并提供更加便捷的客户服务。
3. 金融领域知识图谱在金融领域中也有广泛的应用。
知识图谱技术在教育领域中的应用研究

知识图谱技术在教育领域中的应用研究近年来,随着人工智能技术的快速发展,知识图谱作为其中的一项重要技术,成为了教育领域内广受关注的热门话题。
知识图谱是一种基于语义网络的数据结构,通过对多个知识点之间的关系进行关联和整合,从而形成一个完整的知识体系。
在教育领域,知识图谱技术可以帮助学生更好地理解知识,提高学习效率,同时也可以帮助教师更好地管理和组织教学内容,提高教学质量。
一、知识图谱技术对学生学习的影响1.提高学习效率知识图谱技术可以将多个知识点之间的关系进行关联和整合,形成一个完整的知识结构。
在学生学习过程中,通过知识图谱技术,他们可以更好地理解各个知识点之间的关系,找到其中的规律和联系,从而提高学习效率。
2.帮助学生自主学习在传统的教学模式下,学生通常需要依赖教师的讲解,才能够理解和掌握知识。
而采用知识图谱技术后,学生可以通过自主学习,按照自己的兴趣和需求,选择不同的知识点进行学习,提高了学生的学习积极性和自主性。
3.促进跨学科学习知识图谱技术可以将不同学科之间的知识点进行关联和整合,形成一个跨学科的知识结构。
通过学习这样的知识结构,学生可以更好地理解不同学科之间的联系和互相依赖关系,从而促进跨学科学习。
二、知识图谱技术对教师教学的影响1.提高教学效率在传统的教学模式下,教师需要花费大量的时间和精力,组织和备课。
而采用知识图谱技术后,教师可以通过整合和关联不同的知识点,更好地组织和管理教学内容,从而提高教学效率。
2.帮助教师个性化教学在知识图谱中,每个知识点都可以与其他知识点建立关联,形成一个复杂的网络结构。
通过这样的网络结构,教师可以更好地进行个性化的教学,根据学生的不同需求和水平,选择不同的知识点进行教学,提高教学效果。
3.促进教师专业化发展采用知识图谱技术,教师需要不断更新和整合知识结构,从而将不同的知识点进行关联和整合。
这样的过程需要教师具备一定的专业知识和技能,从而促进了教师的专业化发展。
知识图谱技术的研究与应用前景

知识图谱技术的研究与应用前景随着人工智能技术的不断发展,知识图谱技术也逐渐走入大众的视野。
知识图谱作为人工智能的重要组成部分,可以为企业、政府等机构提供精准的数据分析和决策支持。
本文将从知识图谱技术的基本概念、研究现状、应用场景和未来发展等几个方面,探讨知识图谱技术的研究与应用前景。
一、知识图谱技术的基本概念知识图谱是一种以图谱(Graph)方式呈现的知识表示形式。
它用一组实体、概念和关系来描述现实世界中的事物及它们之间的关系,包括人、地点、事件、产品等较大范围的实体。
在知识图谱中,实体作为图像节点,定义相应的属性和关系作为边(Edge)链接节点。
实体、属性和关系分别使用URI和命名空间表示。
通过对实体之间的关系进行抽象和组织,可以搭建出一个庞大、复杂的知识图谱体系,这种体系可以用来推断和发现新的关联,弥补知识的局限性。
二、知识图谱技术的研究现状目前,国内外都有很多机构和企业在知识图谱技术的研究与应用方面取得了显著的成果。
国外最具代表性的是Google的知识图谱(Google Knowledge Graph),这是一个拥有数十亿实体、数百亿关系的庞大知识库。
Google Knowledge Graph不仅与搜索引擎技术深度融合,还广泛应用于语音识别、智能机器人、自然语言处理和人工智能等领域。
国内,百度知识图谱则是目前最系统和完整的知识图谱体系之一,它包括了包括人物、电影、图书、地点、自然界、品牌、公司等众多领域的信息。
此外,国内外很多高校和科研机构也在开展知识图谱技术的研究,其中不乏国内的清华大学、上海交通大学等知名高校。
三、知识图谱技术的应用场景1. 搜寻引擎:百度、谷歌等搜寻引擎公司已经使用知识图谱来改进搜索引擎功能,提高搜索结果的准确性和交互性。
2. 医疗领域:知识图谱也可用于医疗领域和生物医学研究中,帮助医生和研究人员在众多疾病和药物之间的关系中找出相关性。
3. 零售和物流:企业可以使用知识图谱来优化供应链和物流管理,提高产品的准确性、交付时间和效率。
知识图谱技术的发展与应用场景

知识图谱技术的发展与应用场景近年来,随着人工智能技术的快速发展,知识图谱技术也受到越来越多人的关注。
知识图谱技术可以将大量的数据以结构化的方式存储并提供智能化分析,将人类知识与现实世界联系起来,为各种领域的应用提供了强大的支持。
本文将阐述知识图谱技术的发展过程及其应用场景。
一、知识图谱技术的发展知识图谱起源于语义网理论,是一种以图的形式组织和表达人类知识的方式。
它的目标是将各种数据资源以统一和可共享的方式进行组织和表达,建立一种从简单事物到复杂事物的自动推理和逻辑推断。
知识图谱技术的发展经过了三个阶段。
第一阶段是人工构建知识库,通过人工整理和抽取数据,将其存储在知识库中,再根据具体应用场景,将数据进行分类和组织。
这种方法的优点是可控性强、质量可靠,但是成本较高,且数据容易过时。
第二阶段是基于文本挖掘的知识图谱构建,以自然语言处理技术为核心建立知识图谱。
它从海量文本数据中自动生成识别特定领域的关键词和实体,并对实体之间的关系进行自动化判断和分类。
这种方法的优点是可自动化、快速生成,并且可应用于大规模数据的处理和分析。
但是该方法存在着实体、关系提取的准确率不高等问题。
第三阶段是利用深度学习技术进行知识图谱构建,它主要基于图神经网络的理论,能够根据图结构和语义信息自动发现模式,提取实体、关系等知识。
该方法相比前两种方法具有更高的精度、更强的普适性和更强的可解释性。
二、知识图谱技术的应用场景知识图谱技术已经被广泛应用于各个领域,以下列举部分。
1、医疗健康领域在医疗健康领域,知识图谱技术被用于构建医疗知识图谱,将医学领域的知识和实体进行结构化存储和表达,通过自然语言处理技术挖掘医学文献和病历,进一步提取文字、图片等多种信息,推动医疗信息共享和交流。
例如,知识图谱技术在疾病诊断上的应用,可以通过自然语言处理技术在医疗文献中查找症状和疾病的关系,提高疾病的诊断准确率。
此外,知识图谱技术还可以应用于医学图像诊断,将不同的医学图像与结构化的医学知识相结合,进行自动诊断和分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
领域应用| 知识图谱的技术与应用本文转载自公众号:贪心科技。
领域应用| 知识图谱的技术与应用李文哲开放知识图谱1周前本文转载自公众号:贪心科技。
作者| 李文哲,人工智能、知识图谱领域专家导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。
它在技术领域的热度也在逐年上升。
本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。
对于读者,我们不要求有任何AI相关的背景知识。
目录:1. 概论2. 什么是知识图谱3. 知识图谱的表示4. 知识抽取5. 知识图谱的存储6. 金融知识图谱的搭建1. 定义具体的业务问题2. 数据收集& 预处理3. 知识图谱的设计4. 把数据存入知识图谱5. 上层应用的开发7. 知识图谱在其他行业中的应用8. 实践上的几点建议9. 结语1. 概论随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。
如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。
在一项任务中,只要有关系分析的需求,知识图谱就“有可能”派的上用场。
2. 什么是知识图谱?知识图谱是由Google公司在2012年提出来的一个新的概念。
从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。
但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。
那什么叫多关系图呢?学过数据结构的都应该知道什么是图(Graph)。
图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。
但相反,多关系图一般包含多种类型的节点和多种类型的边。
比如左下图表示一个经典的图结构,右边的图则表示多关系图,因为图里包含了多种类型的节点和边。
这些类型由不同的颜色来标记。
在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。
实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。
现实世界中的很多场景非常适合用知识图谱来表达。
比如一个社交网络图谱里,我们既可以有“人”的实体,也可以包含“公司”实体。
人和人之间的关系可以是“朋友”,也可以是“同事”关系。
人和公司之间的关系可以是“现任职”或者“曾任职”的关系。
类似的,一个风控知识图谱可以包含“电话”、“公司”的实体,电话和电话之间的关系可以是“通话”关系,而且每个公司它也会有固定的电话。
3. 知识图谱的表示知识图谱应用的前提是已经构建好了知识图谱,也可以把它认为是一个知识库。
这也是为什么它可以用来回答一些搜索相关问题的原因,比如在Google搜索引擎里输入“Who is the wife of Bill Gates?”,我们直接可以得到答案-“Melinda Gates”。
这是因为我们在系统层面上已经创建好了一个包含“Bill Gates”和“Melinda Gates”的实体以及他俩之间关系的知识库。
所以,当我们执行搜索的时候,就可以通过关键词提取(”Bill Gates”, “Melinda Gates”, “wife”)以及知识库上的匹配可以直接获得最终的答案。
这种搜索方式跟传统的搜索引擎是不一样的,一个传统的搜索引擎它返回的是网页、而不是最终的答案,所以就多了一层用户自己筛选并过滤信息的过程。
在现实世界中,实体和关系也会拥有各自的属性,比如人可以有“姓名”和“年龄”。
当一个知识图谱拥有属性时,我们可以用属性图(Property Graph)来表示。
下面的图表示一个简单的属性图。
李明和李飞是父子关系,并且李明拥有一个138开头的电话号,这个电话号开通时间是2018年,其中2018年就可以作为关系的属性。
类似的,李明本人也带有一些属性值比如年龄为25岁、职位是总经理等。
这种属性图的表达很贴近现实生活中的场景,也可以很好地描述业务中所包含的逻辑。
除了属性图,知识图谱也可以用RDF来表示,它是由很多的三元组(Triples)来组成。
RDF在设计上的主要特点是易于发布和分享数据,但不支持实体或关系拥有属性,如果非要加上属性,则在设计上需要做一些修改。
目前来看,RDF 主要还是用于学术的场景,在工业界我们更多的还是采用图数据库(比如用来存储属性图)的方式。
感兴趣的读者可以参考RDF的相关文献,在文本里不多做解释。
4. 知识抽取知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。
对于垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:一种是业务本身的数据,这部分数据通常包含在公司内的数据库表并以结构化的方式存储;另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在所以是非结构化的数据。
前者一般只需要简单预处理即可以作为后续AI系统的输入,但后者一般需要借助于自然语言处理等技术来提取出结构化信息。
比如在上面的搜索例子里,Bill Gates和Malinda Gate的关系就可以从非结构化数据中提炼出来,比如维基百科等数据源。
信息抽取的难点在于处理非结构化数据。
在下面的图中,我们给出了一个实例。
左边是一段非结构化的英文文本,右边是从这些文本中抽取出来的实体和关系。
在构建类似的图谱过程当中,主要涉及以下几个方面的自然语言处理技术:a. 实体命名识别(Name Entity Recognition)b. 关系抽取(Relation Extraction)c. 实体统一(Entity Resolution)d. 指代消解(Coreference Resolution)下面针对每一项技术解决的问题做简单的描述,以至于这些是具体怎么实现的,不在这里一一展开,感兴趣的读者可以查阅相关资料,或者学习我的课程。
首先是实体命名识别,就是从文本里提取出实体并对每个实体做分类/打标签:比如从上述文本里,我们可以提取出实体-“NYC”,并标记实体类型为“Location”;我们也可以从中提取出“Virgil’s BBQ”,并标记实体类型为“Restarant”。
这种过程称之为实体命名识别,这是一项相对比较成熟的技术,有一些现成的工具可以用来做这件事情。
其次,我们可以通过关系抽取技术,把实体间的关系从文本中提取出来,比如实体“hotel”和“Hilton property”之间的关系为“in”;“hotel”和“Time Square”的关系为“near”等等。
另外,在实体命名识别和关系抽取过程中,有两个比较棘手的问题:一个是实体统一,也就是说有些实体写法上不一样,但其实是指向同一个实体。
比如“NYC”和“New York”表面上是不同的字符串,但其实指的都是纽约这个城市,需要合并。
实体统一不仅可以减少实体的种类,也可以降低图谱的稀疏性(Sparsity);另一个问题是指代消解,也是文本中出现的“it”, “he”, “she”这些词到底指向哪个实体,比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。
实体统一和指代消解问题相对于前两个问题更具有挑战性。
5. 知识图谱的存储知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。
它们之间的区别如下图所示。
RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。
其次,RDF 以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。
根据最新的统计(2018年上半年),图数据库仍然是增长最快的存储系统。
相反,关系型数据库的增长基本保持在一个稳定的水平。
同时,我们也列出了常用的图数据库系统以及他们最新使用情况的排名。
其中Neo4j系统目前仍是使用率最高的图数据库,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式。
相反,OrientDB和JanusGraph(原Titan)支持分布式,但这些系统相对较新,社区不如Neo4j活跃,这也就意味着使用过程当中不可避免地会遇到一些刺手的问题。
如果选择使用RDF的存储系统,Jena或许一个比较不错的选择。
6. 金融知识图谱的搭建接下来我们看一个实际的具体案例,讲解怎么一步步搭建可落地的金融风控领域的知识图谱系统。
首先需要说明的一点是,有可能不少人认为搭建一个知识图谱系统的重点在于算法和开发。
但事实并不是想象中的那样,其实最重要的核心在于对业务的理解以及对知识图谱本身的设计,这就类似于对于一个业务系统,数据库表的设计尤其关键,而且这种设计绝对离不开对业务的深入理解以及对未来业务场景变化的预估。
当然,在这里我们先不讨论数据的重要性。
一个完整的知识图谱的构建包含以下几个步骤:1. 定义具体的业务问题 2. 数据的收集& 预处理 3. 知识图谱的设计 4. 把数据存入知识图谱 5. 上层应用的开发,以及系统的评估。
下面我们就按照这个流程来讲一下每个步骤所需要做的事情以及需要思考的问题。
6.1 定义具体的业务问题在P2P网贷环境下,最核心的问题是风控,也就是怎么去评估一个借款人的风险。
在线上的环境下,欺诈风险尤其为严重,而且很多这种风险隐藏在复杂的关系网络之中,而且知识图谱正好是为这类问题所设计的,所以我们“有可能”期待它能在欺诈,这个问题上带来一些价值。
在进入下一个话题的讨论之前,要明确的一点是,对于自身的业务问题到底需不需要知识图谱系统的支持。
因为在很多的实际场景,即使对关系的分析有一定的需求,实际上也可以利用传统数据库来完成分析的。
所以为了避免使用知识图谱而选择知识图谱,以及更好的技术选型,以下给出了几点总结,供参考。
6.2 数据收集& 预处理下一步就是要确定数据源以及做必要的数据预处理。
针对于数据源,我们需要考虑以下几点:1. 我们已经有哪些数据? 2. 虽然现在没有,但有可能拿到哪些数据?3. 其中哪部分数据可以用来降低风险? 4. 哪部分数据可以用来构建知识图谱?在这里需要说明的一点是,并不是所有跟反欺诈相关的数据都必须要进入知识图谱,对于这部分的一些决策原则在接下来的部分会有比较详细的介绍。