知识图谱构建方法设计研究

知识图谱构建方法设计研究
知识图谱构建方法设计研究

基于多数据源的知识图谱构建方法研究

摘要:针对多数据源的融合应用,构建了基于多数据源的知识图谱。首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果。

0 引言

在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图谱(Knowledge Graph)[1]作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[2]。

随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究已经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱[3];金贵阳等[4]利用知识图谱和语义网技术,提出构建企业知识图谱的方法,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐[5]在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等[6]构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等[7]提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案,并开发面向用户的中文知识图谱系统。

现有的行业领域知识图谱通常采用手工构建方式,缺乏统一的构建方法,且这类知识库目标是特定行业领域,因此,其描述范围极为有限。针对这些问题,提出了将不同领域知识库进行融合成一个知识图谱,旨在构建语义一致、结构一致的多数据融合知识图谱,实现对不同领域内的知识进行查询和展示,从而提高了数据查询效率。

本文提出一个多数据源融合的知识图谱构建流程,并对关键技术进行研究,包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据,构建了多数据融合的知识图谱。

1 知识图谱构建过程

知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系信息,使其能够被迅速的访问和操作[8]。知识图谱构建过程通常可以分成两步:知识图谱本体层构建和实体层的学习[5]。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习;实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。

知识图谱的构建方法通常有自顶向下和自底向上两种[2]。所谓自顶向下的方法是指先构建知识图谱的本体,即从行业领域、百科类网站及其它等高质量的数据源中,提取本体和模式信息,添加到知识库中;而自底向上的方法是指从实体层开始,借助于一定的技术手段,对实体进行归纳组织、实体对齐和实体链接等,并提取出具有较高置信度的新模式,经人工审核后,加入到知识图谱中。然而,在实际的构建过程中,并不是两种方法孤立单独进行着,而是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的结合,首先采用自顶向下的方式来构建本体库,然后采用自底向上的方式进行提取知识来扩展知识图谱。

图1 多数据融合的知识图谱构建过程

Fig.1 Knowledge graph based data fusion model

本文基于多种数据源的融合技术,构建相应的知识图谱,具体过程如图1所示。图1中是从多种不同的数据源,如各个领域中的结构化、半结构化和非结构化数据,构建相应的领域本体库,然后将它们映射为全局本体库,接着对这些领域知识图谱通过知识获取和数据融合构造知识图谱,最后通过搭建相应的应用平台,方便对知识图谱进行查询与更新。

2 多数据源融合的知识图谱构建

为了能充分利用不同领域内的知识,实现不同领域内数据快速查询,本文在融合多种数据源的情况下,构建了多数据源的知识图谱。首先对不同领域内构建不同领域的本体库,然后将不同领域的本体经过映射成全局本体库,接着对各个领域的知识库进行实体对齐和实体链接,丰富和拓展所构造多数据融合的知识图谱。

2.1数据源

用于构建知识图谱的本体库数据源可以来源于结构化数据、半结构化数据和非结构化数据,以及现有的一些通用知识图谱库等。本文用于构建本体库的数据源如表1所示。

1)结构化数据。其主要是指关系数据库中的表、excel表以及其它具有结构的数据。

2)半结构化数据。其主要指介于结构化数据和无结构化数据之间,通常的XML、HTML等相关网页属于半结构化数据。半结构化数据主要来源于维基百科、百度百科等。

3)无结构化数据。其主要指纯文本资料、图像和声音等数据。

2.2本体库构建

本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确的定义[2]。本体定义了知识图谱中的数据模式,因而,本体构建研究的成果能在很大程度上辅助知识图谱的构建[5]。针对不同的应用领域和不同的需求,本体构建的方法也有所不同。本文利用OWL(Web Ontology Language)从多种数据源中构建相应的领域本体库,然后通过映射成全局本体库。

1)领域本体库构建

本文领域本体库构建其主要数据源是来自于环境监测数据库、空气污染检测数据库和医疗健保数据库。除此之外,也利用相关领域的网站数据等。下面重点介绍从关系数据库中获取领域本体库的过程,如图2所示。

首先,领域内的关系数据库是针对特定领域而创建的,该数据库包含了领域内的表达方法和具体应用的详细信息,因此,可以从领域的关系数据库中抽取出关系模式,分析关系数据库中表的信息和字段信息,建立相应的概念模型。

其次,由于关系模式包括表与字段之间的关系,以及表与表之间的联系,而本体库则是包括概念与概念之间的关系、概念与属性间的联系。因此,要利用一定的规则将关系模式映射为本体模型。本文设计了

一系列转换规则,如:将关系模式中的表名转换为本体中的概念名;表与表间的关系转换为本体中的概念与概念的关系;将关系模式中的字段名转换为本体的属性名等。通过上述的转换规则,可以获得领域本体模型。

最后,对领域本体模型进行评估和校验。该部分重点是对所构造的领域本体模型进行检验,查看是否满足本体库的构建原则,本体模型中的术语是否正确,本体模型中的概念及其关系是否完整等。通过对本体模型评估后,可以建立领域内的本体库。

关系数据库可具有完整的数据模式,包含完整的表结构和完整性约束条件。因此可以将数据库中的关系名转换为本体中的概念,部分字段名转换为本体中的属性,示例如下:

2)全局本体库构建

为了能便于构建多数据融合的知识图谱,需要将多个领域内的本体库进行融合,构建全局本体库。其过程如图3所示。在上述构建的领域本体库基础上,通过相似性检测和冲突解决等规则,将多个领域的本体库融合在一起组成了全局本体库。其步骤如下:

首先,由于不同领域内的本体库进行知识融合,对存在着一些相同或相似的概念和属性等,采用了相

似性检测规则对这些不同领域内的本体进行检测。如:语义相似性检测、概念相似性检测、属性相似性检

测、数据格式相似性检测等。通过这些相似性检测后,能将不同领域内的相同或相似本体进行统一,但并

不能解决它们之间的冲突。

其次,采用冲突解决规则对上面存在着相似概念或属性等进行解决。通过冲突解决规则可以消除概念

的歧义,剔除冗余和错误概念,从而保证全局本体库的质量。主要是对上述中存在着相近或相似的概念或

属性进行消除,使其达到统一,并合并为全局本体。

最后,将剩余的领域本体经过冲突解决和实体消岐等处理,映射到全局本体库,与上面经过处理后各

个领域本体库相结合,从而实现全局本体的构建。

2.3实体对齐

实体对齐(entity alignment)[9]也称为实体匹配或实体解析,是判断相同或不同数据集中的2个实体是否指向真实世界同一对象的过程。实体对齐目的是:发现在不同知识库中具有不同实体名称,但却代表着现实世界中同一事物的实体,将这些实体进行合并,且用具有唯一标识对该实体进行标识,最后将该实体添加到相应的知识图谱中。针对不同知识库的实体对齐过程如图4所示[9]。即在给定不同的知识库,通过先验对齐数据以及调整参数和相关外部资料的作用下,进行实体匹配的算法计算,最终得到实体间的对齐结果。

虽然在构建全局本体库时,针对不同领域内本体库的实体做了实体消岐处理,然而,这里的实体对齐是为了丰富和拓展知识图谱,从现有的通用知识图谱及其相关的资料中,利用实体对齐方法,提取实体及实体间的关系来填充知识图谱。现阶段有关实体对齐的算法较多[9, 10],常用的有:基于传统概率模型的实体对齐方法、基于机器学习的实体对齐方法、基于相似性传播实体对齐方法、基于LDA模型的实体对齐方法、基于CRF模型的实体对齐方法、基于Markov逻辑网的实体对齐方法等。

图4 不同知识库实体对齐过程

Fig.4 Process of entity alignment of different knowledge bases

本文采用基于相似性传播实体对齐方法[9-11],该算法将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模,属于二元分类问题,可通过贪婪优化算法求得其近似解[10]。基本过程如下:(1)对于开放链接数据及行业领域的百科数据中实体,进行提取得到了实体的同义名称集合;(2)通过实体对齐的方法,将这些实体与上述构建的知识图谱中的实体进行匹配,把结果作为实体合并的候选实体集;(3)将这些候选实体集中的实体,通过比对它们的上层概念,如果具有相同的上层概念,则将它们合并为一个实体。

2.4实体链接

实体链接(entity linking)[12, 13]是指对于从文本中抽取得到的实体对象,将其链接到知识图谱中对应的正确实体对象的操作[14]。而实体链接预测是指在给定的知识图谱中,预测出缺失的实体间的关系,从而丰富和拓展知识图谱。其基本思想是首先根据给定三元组的头(尾)实体和关系,从知识图谱中或其它相关文本数据,选出一组候选实体对象,然后通过实体链接预测算法,计算出正确的尾(头)实体,并将得到的三元组添加到相应的知识图谱中。现阶段有关知识图谱实体链接预测算法较多[8, 15-17]。常用的有:基于向量嵌入转换算法、基于张量分解算法、基于路径推理算法、结合文本推理算法等。

在前期工作研究基础上[8],提出了基于约束向量嵌入转换算法,获得较好的实体链接预测结果,算法流程图如图5所示。其基本思想是:将知识图谱中的实体和关系,通过嵌入(embedding)方式投影到低维向量空间,并在向量空间中通过向量平移转换操作,计算头、尾实体及关系在向量空间中的损失函数值,实现头尾实体的关系链接。而基于约束嵌入转换算法,是在原有向量嵌入转换算法的基础上[18],增加了关系语义约束条件,使得所预测出实体间的关系要满足关系的语义类型。如:对于关系“出生于”,其头实体通常是人或动物,而尾实体通常是时间或地点。

4结论

本文提出一种基于多数据融合的知识图谱构建过程,并对整个过程中所涉及的方法加以描述,旨在构建语义一致、结构一致的多数据融合知识图谱。

首先通过构建不同领域内的本体库,将不同领域的本体库,通过数据融合和映射技术构建全局本体库,实现各种数据源语义关系一致的知识图谱。在实体对齐方面,提出了基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,基于前期研究工作基础上,提出了基于约束嵌入转换的预测推理方法。

参考文献:

[1] Pujara J, Miao H, Getoor L, et al. Knowledge Graph Identification[C]. International Semantic Web Conference. Springer Berlin Heidelberg, 2013: 542-557.

[2] 刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600.

[3] 肖仰华, 张可尊, 汪卫. 一种面向图书的阅读领域知识图谱构建方法: 中国, CN103488724A [P]. 2014.01.01.

[4] 金贵阳, 吕福在, 项占琴. 基于知识图谱和语义网技术的企业信息集成方法[J]. 东南大学学报(自然科学版), 2014, 44(2): 250-255.

[5] 胡芳槐. 基于多种数据源的中文知识图谱构建方法研究[D]. 上海: 华东理工大学, 2015.

[6] 王巍巍, 王志刚, 潘亮铭, 等. 双语影视知识图谱的构建研究[J]. 北京大学学报(自然科学版), 2016, 52(1): 25-34.

[7] 鄂世嘉, 林培裕, 向阳. 自动化构建的中文知识图谱系统[J]. 计算机应用, 2016, 36(4): 992-996.

[8] 吴运兵, 杨帆, 赖国华, 等. 知识图谱学习和推理研究进展[J]. 小型微型计算机系统, 2016, 37(9): 2007-2013.

[9] 庄严,李国良,冯建华. 知识库实体对齐技术综述[J]. 计算机研究与发展, 2016, 53(1): 165-192.

[10] 徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4): 589-606.

[11] Lacoste-Julien S, Palla K, Davies A, et al. SIGMa: simple greedy matching for aligning large knowledge bases[C]. Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. New York. ACM, 2013: 572-580.

[12] 刘峤, 钟云, 李杨, 等. 基于图的中文集成实体链接算法[J]. 计算机研究与发展, 2016, 53(2): 270-283.

[13] Shen W, Wang J, Han J. Entity linking with a knowledge base: Issues, techniques, and solutions[J]. Knowledge and Data Engineering&IEEE Transactions on, 2015, 27(2): 443-460.

[14] Li Y, Wang C, Han F, et al. Mining evidences for named entity disambiguation[C]. Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining, New York. ACM, 2013: 1070-1078.

[15] Nickel M, Murphy K, Tresp V, et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE, 2016, 104(1): 11-33.

[16] 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进展[J]. 计算机研究与发展, 2016, 53(2): 247-261.

图5 基于约束向量嵌入转换算法流程图

Fig.5 The figure of embedding translation based on constraint

[17] 刘康, 张元哲, 纪国良, 等. 基于表示学习的知识库问答研究进展与展望[J]. 自动化学报, 2016, 42(6): 807-818.

[18] Bordes A, Usunier N, Garcia-Duran A, et al. Translating Embeddings for Modeling Multi-relational Data[C].Advances in Neural Information Processing Systems, Lake Tahoe, Nevada, USA. 2013: 2787-2795.

知识图谱构建方法研究

基于多数据源的知识图谱构建方法研究 摘要:针对多数据源的融合应用,构建了基于多数据源的知识图谱。首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果。 0 引言 在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图谱(Knowledge Graph)[1]作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[2]。 随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究已经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱[3];金贵阳等[4]利用知识图谱和语义网技术,提出构建企业知识图谱的方法,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐[5]在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等[6]构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等[7]提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案,并开发面向用户的中文知识图谱系统。 现有的行业领域知识图谱通常采用手工构建方式,缺乏统一的构建方法,且这类知识库目标是特定行业领域,因此,其描述范围极为有限。针对这些问题,提出了将不同领域知识库进行融合成一个知识图谱,旨在构建语义一致、结构一致的多数据融合知识图谱,实现对不同领域内的知识进行查询和展示,从而提高了数据查询效率。 本文提出一个多数据源融合的知识图谱构建流程,并对关键技术进行研究,包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据,构建了多数据融合的知识图谱。 1 知识图谱构建过程 知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系信息,使其能够被迅速的访问和操作[8]。知识图谱构建过程通常可以分成两步:知识图谱本体层构建和实体层的学习[5]。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习;实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。 知识图谱的构建方法通常有自顶向下和自底向上两种[2]。所谓自顶向下的方法是指先构建知识图谱的本体,即从行业领域、百科类网站及其它等高质量的数据源中,提取本体和模式信息,添加到知识库中;而自底向上的方法是指从实体层开始,借助于一定的技术手段,对实体进行归纳组织、实体对齐和实体链接等,并提取出具有较高置信度的新模式,经人工审核后,加入到知识图谱中。然而,在实际的构建过程中,并不是两种方法孤立单独进行着,而是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的结合,首先采用自顶向下的方式来构建本体库,然后采用自底向上的方式进行提取知识来扩展知识图谱。

知识图谱研究方法心得

体育政策研究现状、前沿热点与演化分析 ——基于科学知识图谱的可视化分析心得 一、主要内容 作者基于科学知识图谱可视化分析,通过Web of Science TM 文献资料数据库检索体育政策研究论文,以“体育政策”的标题、摘要、关键词和收录全文为研究对象,运用引文分析、共被引分析、聚类分析、词频分析、社会网络分析等基本方法,对体育政策研究的现状、前沿热点和演化路径进行分析,采用Cite SpaceⅢ可视化软件绘制科学知识图谱,将数据以图像形式呈现出来。 通过运用Cite SpaceⅢ可视化软件,一是通过选择“country”(国家)和“institution”(机构),时区分割设置为2(Time Slice Length=2),绘制了体育政策发文高产国家分布图;二是通过选择参数“Author”(作者),绘制了体育政策发文高产作者知识图谱;三是通过选择参数“Category”(学科),绘制了体育政策研究领域的学科贡献网络图谱;四是通过导入文献,在主题词资源(Term Source)中选择标题(Title)、摘要(Abstract),节点类型(Node Types)选择关键词(Keyword),绘制出了体育政策研究领域的学科贡献网络图谱。

分别对以上四个图谱进行分析得到以下结论:1.美国是体育政策研究的中心,无论从发文量还是文章的中心性都高居第一,高校是体育政策研究发文量的高产机构;2.体育政策领域研究者形成一小部分核心作者群,但数量较少,研究作者总体成离散性分布;3.体育政策研究需要多学科的支持,社会科学学科和公共科学学科是体育政策发文量的高产学科,形成以这两个学科为主流的研究领域;4.体育政策的关注点在不断的发展和变化,正在由对儿童的关注过渡到整体的公共健康,由体育活动过渡到发挥体育的教育功能,由对体育行为的控制过渡到形成终身体育的锻炼意识。 二、当前体育领域知识图谱研究方法应用现状 在中国知网通过以体育、知识图谱为主题和关键词进行搜索,根据关联度选取了104篇期刊、论文,进行分类发现当前体育领域应用知识图谱研究方法主要呈现在以下内容:一、单项运动。主要包括英文期刊中马拉松研究、、我国龙舟科研成果、国内外体育舞蹈研究、国外滑雪运动风险研究、太极拳运动研究、舞龙舞狮研究、攀岩运动研究、我国速度滑冰研究、国外篮球运动研究、国内外排球领域研究、羽毛球运动研究、我国乒乓球研究、我国体育舞蹈、国内外健美操、国内外啦啦操、网球研究、电子竞技现状、竞技游泳、国际有氧运动科学研究等项目的研究分析;二、学校体育教育。主要包括我国冰雪教学研究、我国体育教师教育研究

探究知识图谱

探究知识图谱 我思故我在。人的思维活动主要有感觉、认知、记忆、学习、联想、计算、推理、判断、决策、抽象、概括等10大类。没有了这些思维活动,人自然就是死人了。模仿人的思维活动,用计算机解决现实问题,就是人工智能的目标。 人工智能其实就是对现实问题的求解,其方法主要是应用逻辑推理,而面向现实的逻辑推理能否实现的关键,在于知识表示方法。确实,知识是很难用逻辑和数学表示清楚的。人们为此探索出了各种各样的知识表示方法。 现在比较常用的知识表示方法主要有:状态空间法、问题规约法、谓词逻辑法、产生式法、语义网络法、框架法、脚本法等。没错,在浏览器中经常看到的脚本一词,就是一种知识表示方法。但是目前看来,语义网络法风头强劲。 知识,究其本质,就是信息的联接。在网络空间,通过链接很容易实现知识的联接。互联网搜索领域的老大,谷歌公司使用了一种能够提供智能搜索服务的技术,这个技术就是知识图谱。 知识图谱其实就是一个知识库,这个知识库从从语义角度组织网络数据。计算机领域的库这个概念,借用了现实生活中仓库这个概念。计算机的库,首先是描述信息,组织信息,存储信息,有点象是图书馆给书分类,贴标签,按标签上架。这些工作的目的,是为了方便检索,查找。知识库,

就是把知识贴上标签,放在一个计算机的库里。那么,问题来了,知识在这个库里,怎么表示呢? 显然,这个问题已经超越了计算机应用,进入了哲学领域,需要回答什么知识?或者说知识的本质是什么?好在哲学上有一关于本体论的研究,给我们解决这个问题带来了曙光。 本体论探究的是客观事物的本质及其组成,本体就是事物的本质和它的组织。本体论主要探究两个问题,一个问题是“事物的本质是什么?”,另一个问题是“事物的一般特征是什么?”。由这些探究逐步可以构建一个分类体系,比如植物学,其实就是一个门、纲、目、科、属、种的分类体系。由一个一般特征,可以再往下找到几个一般特征予以分类。分类是很不容易的,可以说,迄今为止,人类的知识体系,就是一个分类体系。归根到底,知识就是分类加关联。 有了对知识本质的理解,就有了知识表示的方法。其中的一种方法就是语义网络。语义网络其实就是一种网络图,先有一个节点,让后通过节点的关系,指向另一个节点。比如,老王是个节点,然后通过儿子关系指向小王,小王通过儿子关系指向小小王等,老王通过媳妇关系指向麻子,麻子通过儿子关系指向小王等。这样老王家就构成了一个网络图,这个网络图还可以成为老王家这样一个大节点,老王家通过同事关系指向老李家,老王家、老李家通过邻居关系指向小

知识图谱构建方法研究

知识图谱构建方法研究 Company number:【0089WT-8898YT-W8CCB-BUUT-202108】

基于多数据源的知识图谱构建方法研究摘要:针对多数据源的融合应用,构建了基于多数据源的知识图谱。首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果。 0 引言 在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图谱(Knowledge Graph)作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。 随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究已经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱;金贵阳等利用知识图谱和语义网技术,提出构建企业知识图谱的方法,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等

科学知识图谱研究综述

?新技术应用? 科学知识图谱研究综述 梁秀娟 (湘潭大学公共管理学院 湖南湘潭411105) 文 摘 随着可视化技术的发展,将其与引文分析技术相结合,可以直观、形象地向人们揭示学科以及学科之间的联系。本文结合国内外在引文分析和可视化方面的最新研究,从起源、概念、绘制方法、应用及研究展望等方面对科学知识图谱进行了较为详细的分析。 关键词 引文分析 可视化 科学知识图谱 Rev i ew of M app i n g Knowledge D o ma i n s L i a ng X i ujuan (Public Manage ment School of Xiang Tan University,XiangTan HuNan,411105) Abstract:W ith the devel opment of visual technol ogy which co mbined with citati on analysis technol2 ogy,it can reveal the link bet w een subjects intuitively and vividly.I n this paper,combined with the latest research on citati on analysis and visualizati on,we make a detailed intr oducti on in the areas of mapp ing knowledge domains fr om the origin,concep ts,techniques,app licati ons and the latest p r o2 gress. Key words:Citati on analysis,V isualizati on,Mapp ing knowledge domains 随着信息技术、可视化技术和科学计量学、文献计量学理论的发展,以图形的方式来揭示学科间的联系已不再是一件难事。而近年来科学计量学、文献计量学研究领域兴起的热点之一,就是如何在准确、翔实地传达知识的基础上以可视化的图像直观、形象地向人们揭示学科以及学科之间的联系。科学知识图谱(Mapp ing Knowledge Domains)正是在这一研究领域中出现的一个新的热点。 1 科学知识图谱的起源 科学知识图谱是引文分析与数据、信息可视化相结合的产物。引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[1]。正式的引文分析始于上个世纪50年代初,1964年美国的尤金?加菲尔德(Eugene Garfield)创立引文数据库S C I(Science Citati on I ndex,科学引文索引),为学者们利用引文分析法分析学科领域知识结构提供了强有力的工具。S C I不仅为引文分析奠定了数据平台,而且使得规范化、高质量的引文分析成为可能。60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究,他们在《应用引文数据撰写科学历史》(The use of citati on data in writing the hist ory of science)中绘制了DNA研究领域的历史发展图谱;不久之后,普赖斯用相同的数据在其一系列经典著作———《巴比伦以来的科学》《小科学,大科学》《科学文献的网络》中,进行了知识图谱绘制的开创性工作。尽管当时并没有使用“知识图谱”这一概念,但是,实际上以引文分析为基础的“知识图谱”理论与方法己经应运而生了[2]。国内自上个世纪80年代引入S C I,很快引起了广大学者的极大兴趣,被越来越多的科学研究者所认同和使用,主要用于揭示科学结构、研究科学史的发展规律、评价科研绩效、预测研究领域热点等方面。 与此同时,计算机技术的快速发展及其在科学计算领域的应用,为数据和信息处理提供了有力的

知识图谱的发展与构建

第41卷第1期 2017年2月 南京理工大学学报 Journal of Nanjing University of Science a n d T echnology Vol.41 No.1 Feb.2017知识图谱的发展与构建 李涛i2,王次臣^2,李华康 (南京邮电大学1.计算机学院;2.江苏省大数据安全与智能处理实验室,江苏南京210003) 摘要:知识图谱作为一种智能、高效的知识组织方式,能够帮助用户迅速、准确地查询到自己 需要的信息。本文通过回顾学者及科研机构或公司对知识图谱的研究内容,对知识图谱的发展 和构建方法作了全面的介绍,包括知识图谱概念的起源、发展以及最终形成;构建知识图谱的数 据来源;构建过程中涉及的方法,包括本体和实体的抽取,图谱的构建、更新、维护,以及面向知 识图谱的内部结构挖掘和外部扩展应用。最后,对知识图谱的未来发展方向和面临的挑战作了 展望。虽然现在已经有很多知识图谱被应用到各类系统中,但是其基础理论和应用技术,仍需 展开进一步的研究。 关键词:知识图谱;构建方法;实体;知识挖掘;扩展应用 中图分类号:TP39 文章编号:1005-9830(2017)01-0022-13 D O I:10.14177/https://www.360docs.net/doc/ec4666795.html,ki.32-1397n.2017.41.01.004 Development and construction of knowledge graph Li Tao1,2,Wang Cichen1,2,Li Huakang1,2 (1. School of Computer Science;2.Jiangsu Province Key Lab of Big Data Sec Processing,Nanjing University of Posts and Telecommunications,Nanjing210003,China) A b s tra c t:Knowledge graph,as an intelligent and efficient way for knowledge organization,enables users to quickly and accurately query the information they need.In this paper,we provide a comprehensive survey on the development and construction of knowledge graph by reviewing and summarizing recent advances i n the research and practice of knowledge graph systems in the relevant literature.In particular,our introduction includes the concept origin,development,and eventual formation of t he knowledge graph,various data sources for the knowledge graph,the ontology construction and the entity extraction,and the process of knowledge mining,updating,and maintenance.Finally,we discuss the technical challenges,development trends,and future research 收稿日期:2016-07-25修回日期:2016-12-18 基金项目:国家自然科学基金(61502247,11501302,61502243,91646116);中国博士后科学基金(2016心600434); 江苏省科技支撑计划(社会发展)项目(B E2016776);江苏省“六大人才高峰”项目(X Y D X X J S-C X T D- 006);江苏省博士后科研基金(1601128B)资助 作者简介:李涛(1975-),男,博士,教授,主要研究方向:数据挖掘,E-mail:toweiiee@njupt. edu. c n。 引文格式:李涛,王次臣,李华康.知识图谱的发展与构建[J].南京理工大学学报,2017,41(1):22-34. 投稿网址:http://zrxuebao. njust. edu. cn

基于Web的领域知识图谱构建平台的研究与实现

基于Web的领域知识图谱构建平台的研究与实现领域知识图谱通常是从特定领域资源中抽取实体和实体之间的 语义关系而构建的语义网络,它包含的知识体系具有很强的领域针对 性和专业性。领域知识图谱构建平台则是为领域专家提供的,基于海 量数据构建领域针对性强、准确度高的知识体系的简单易用的半自动化工具,应具备如下三个特点:构建流程定义完备;能够涵盖领域知识 图谱构建过程中数据获取、信息抽取、知识融合、构建图谱、知识更新等各个流程;引入大数据处理能力;海量数据处理加工成为知识的 过程离不开大数据平台的支持,因此平台需要具备大数据处理能力; 简单易用,可操作性强;由于领域知识图谱具有很强的领域针对性和 专业性,使用门槛过高不利于领域专家在构建过程中进行监督与干预。但是在当前大多公开的领域知识图谱构建平台中,还存在知识图谱构 建流程定义不完善、缺乏大数据相关技术的支持和对于领域专家来说可操作性差的问题与挑战:当前大多公开的领域知识图谱构建平台对 于知识图谱构建流程定义不完善,孤立地强调了知识图谱构建环节的 某几个方面,诸如知识图谱中的数据采集、知识表示、图谱可视化等,不足以支撑全生命周期知识图谱构建工作;当前大多公开的领域知识 图谱构建平台鲜少提及知识图谱构建过程中对应需要大数据相关技 术的支持,缺乏对知识图谱实际构建过程的指导价值。在基于平台构 建领域知识图谱的过程中,为保证精确度,往往需要领域专家的监督 与干预,但是自然语言处理技术和大数据处理流程对于领域专家来说 理解难度大,技术实现门槛高,可操作性差,对领域知识图谱的普及和

应用产生了一定的限制。针对以上问题与挑战,本文重点围绕领域知识图谱的构建技术和流程进行研究与分析,完成了基于Web的领域知识图谱构建平台的设计与实现,主要研究内容有以下三项:1)设计并实现了基于Web的领域知识图谱构建平台,为领域专家提供构建流程定义完备、具备大数据处理能力且简单易用的知识图谱构建服务。在开发过程中为实现知识图谱构建流程的自定义编排,提出并实现了一种可视化Web服务组合编排技术。此外,还提出并实现了 DSACC(Dynamics Scheduling Algorithm for Concurrent Connections)算法,解决了知识图谱可视化过程中大数据量渲染的前端性能优化问题。2)提出并实现了一种基于大数据驱动的领域知识图谱构建方法,在完成第一项研究内容后,本文对知识图谱构建流程进一步总结,旨在研究在知识图谱构建过程中对应需要大数据相关技术的支持,为知识图谱的实际构建过程提供一定的参考价值。3)以基于Web的领域知识图谱构建平台为工具,以一种基于大数据驱动的领域知识图谱构建方法为指导,完成人工智能产业知识图谱的构建。图谱涵盖3458家人工智能企业,1087个人工智能领域技术标签,16324条专利数据,69866条相关新闻,全面展示人工智能产业发展现状,进一步证明平台与方法的有效性和完整性。

中文知识图谱构建的关键技术

Intelligent Search Engine and Recommender Systems based on Knowledge Graph 阳德青 复旦大学知识工场实验室 yangdeqing@https://www.360docs.net/doc/ec4666795.html, 2017-07-13

Background ?Knowledge Graph exhibits its excellent performance through the intelligent applications built on it ?As typical AI systems,Search engine and recommender system are very popular and promising in the era of large data ?Many previous literatures and systems have proved KG’s merits on such AI’s applications

KG-based Search Engine

?The keyword of high click frequency are ranked higher ?The pages containing the keywords of more weights are ranked higher ?The pages having more important in-links are ranked higher ?1st:category-based ?Yahoo,hao123 ?2nd:IR-based ?Keyword-based,vector space,Boolean model ?3rd:link-based ?PageRank (Google) However,how to handle it if users want to search something new or the ones of long tail? result in

科学知识图谱研究综述

#新技术应用# 科学知识图谱研究综述 梁秀娟 (湘潭大学公共管理学院湖南湘潭411105) 文摘随着可视化技术的发展,将其与引文分析技术相结合,可以直观、形象地向人们揭示学科以及学科之间的联系。本文结合国内外在引文分析和可视化方面的最新研究,从起源、概念、绘制方法、应用及研究展望等方面对科学知识图谱进行了较为详细的分析。 关键词引文分析可视化科学知识图谱 R evie w of M apping Know ledge Dom ains L iang X i u j uan (Pub lic M anage m en t School of X iang Tan Un iversity,X iangTan H uN an,411105) Abst ract:W it h the develop m ent o f v isual techno logy w hich co mb i n ed w ith citation analysi s techno-l ogy,it can reveal the link bet w een subjects int u iti v e l y and v ividly.I n t h is paper,co mb i n ed w it h the latest research on citation ana l y sis and v isua lizati o n,w e m ake a de tailed introducti o n i n t h e areas o f m apping kno w ledge do m a i n s fro m the or i g i n,concepts,techniques,applications and the latest pr o-gress. K ey w ords:C itati o n analysis,V isualization,M app i n g kno w ledge do m ains 随着信息技术、可视化技术和科学计量学、文献计量学理论的发展,以图形的方式来揭示学科间的联系已不再是一件难事。而近年来科学计量学、文献计量学研究领域兴起的热点之一,就是如何在准确、翔实地传达知识的基础上以可视化的图像直观、形象地向人们揭示学科以及学科之间的联系。科学知识图谱(M app i ng K now l edge Dom ains)正是在这一研究领域中出现的一个新的热点。 1科学知识图谱的起源 科学知识图谱是引文分析与数据、信息可视化相结合的产物。引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[1]。正式的引文分析始于上个世纪50年代初,1964年美国的尤金#加菲尔德(Eugene G arfield)创立引文数据库SCI(Science C itati on Index,科学引文索引),为学者们利用引文分析法分析学科领域知识结构提供了强有力的工具。SCI不仅为引文分析奠定了数据平台,而且使得规范化、高质量的引文分析成为可能。60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究,他们在5应用引文数据撰写科学历史6(T he use of c itati on data i n w riti ng the hist o ry o f sc i ence)中绘制了DNA研究领域的历史发展图谱;不久之后,普赖斯用相同的数据在其一系列经典著作)))5巴比伦以来的科学65小科学,大科学65科学文献的网络6中,进行了知识图谱绘制的开创性工作。尽管当时并没有使用/知识图谱0这一概念,但是,实际上以引文分析为基础的/知识图谱0理论与方法己经应运而生了[2]。国内自上个世纪80年代引入SCI,很快引起了广大学者的极大兴趣,被越来越多的科学研究者所认同和使用,主要用于揭示科学结构、研究科学史的发展规律、评价科研绩效、预测研究领域热点等方面。 与此同时,计算机技术的快速发展及其在科学计算领域的应用,为数据和信息处理提供了有力的

6个方面分析报告知识图谱地价值和应用

6个方面分析知识图谱的价值和应用 知识对于人工智能的价值就在于,让机器具备认知能力和理解能力。构建知识图谱这个过程的本质,就是让机器形成认知能力,理解这个世界。一、知识图谱无处不在说到人工智能技术,人们首先会联想到深度学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等等,各行各业都在研发底层技术和寻求AI场景,却忽视了当下最时髦也很重要的AI技术:知识图谱。当我们进行搜索时,搜索结果右侧的联想,来自于知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自于知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景,都越来越依赖知识图谱。二、知识图谱与人工智能的关系知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模。通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。形成知识图谱的过程本质是在建立认知、理解世界、理解应用的行业或者说领域。每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱。正是因为有获取和形成知识的能力,人类才可以不断进步。知识图谱对于

人工智能的重要价值在于,知识是人工智能的基石。机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如:狗的嗅觉。而“认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。”知识对于人工智能的价值就在于,让机器具备认知能力。而构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。 三、图数据库知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,图论中图的基本元素是节点和边,在图数据库中对应的就是节点和关系。用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂 关系分析。目前市面上较为流行的图数据库有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库,一修改便容易“牵一发而动全身”图数据库可实现数据间的“互联互通”,与传统的关系型数据库相比,图数据库更擅长建立复杂的关系网络。图数据库将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。四、知识图谱的价值知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这

各种知识图谱精化方法,为国内同行介绍本领域的最新研究成果

各种知识图谱精化方法,为国内同行介绍本领域的最新研究成果摘要: 知识图谱是一种在移动互联网大时代下产生的新型知识表示方法,而精化是知识图谱应用研究的主要内容之一,其主要任务是知识图谱补全和错误检测等,在信息检索、机器人、智能问答等领域有着重要的应用前景。因此,对知识图谱精化进行研究具有十分重要的意义。对当前知识图谱精化方法进行了较为全面、深入的总结,并对知识图谱未来的主要研究方向进行了展望。 ? 0 引言 随着链接开放数据源(如DBpedia)的出现以及谷歌在2012年提出知识图谱的概念,全球掀起了研究知识图谱的热潮,涌现出了大量的知识图谱构建技术[1-5],并构建了各种知识图谱,这些知识图谱要么是开放的,要么是公司私有的,如Freebase[2]、维基数据(Wikidata)[3]、DBpedia[4]、YAGO[5]等,但无论采用哪种技术,构造出来的知识图谱都不完美[6]。随着研究的深入,越来越多的研究者开始关注知识图谱的覆盖率和正确率。而提高知识图谱的覆盖率和正确率是知识图谱精化的主要目的,对知识图谱进行精化具有十分重要的意义。 近年来,该领域的研究进展非常迅速,涌现出了一大批研究成果,已经研发出了多种知识图谱精化方法,这些方法主要集中在讨论知识图谱补全[7-28]和知识图谱错误探测[29-34]两个方面,这也是本文从这两个方面进行综述的原因。 本文的贡献是:(1)讨论各种知识图谱精化方法;(2)为国内同行介绍本领域的最新研究成果,了解该领域的研究进展,从而推动我国在该领域的发展。 1 知识图谱精化相关概念 1.1 知识图谱的概念 “知识图谱”是一种描述真实世界客观存在的实体、概念及它们之间关联关系的语义网络。可以利用知识图谱开发语义检索和自动问答等应用[1]。知识图谱的结构如图1所示。可见,

企业知识图谱构建

日常生活中,我们经常遇到以下两种信息展现方式: 二者展示的信息量是差不多的,但右边这种看起来更加直观。而且,随着文本篇幅的增长,这种优势会体现得更加明显。 和人一样,机器也更加擅长利用右图所示的数据。但矛盾之处在于,互联网等数据平台存储的大多是左图所示的数据。要把左图转换成右图,机器需要经历一个「阅读理解」的过程。 这个过程如何完成?这就要提到我们今天的主题——知识图谱。 知识图谱可以做什么? 知识图谱的概念于2012 年由Google 提出,当时主要被用来提高其搜索引擎质量,改善用户搜索体验。随着大数据时代的到来和人工智能技术的进步,知识图谱的应用边界被逐渐拓宽,越来越多的企业开始将知识图谱技术融入其已经成型的数据分析业务,有的甚至使用知识图谱作为其数据的基础组织与存储形式,成为其数据中台的核心基建。

与谷歌类似,微软将知识图谱技术用于旗下必应(Bing)搜索引擎,优化搜索结果质量和交互式搜索体验;LinkedIn 与Facebook 利用知识图谱挖掘其平台上人、事、资讯等之间的相互关系,使得用户更容易发现感兴趣的内容、找到志同道合的朋友;eBay、亚马逊等电商平台使用知识图谱为用户和产品建立联系,执行更精准的产品推荐;IBM 则专注于企业服务,其IBM Watson Discovery 产品能够帮助用户根据自身的特殊需求快速构建自己的知识图谱框架。 虽然知识图谱的概念2012 年才被提出,但其背后的思想本质上是上个世纪的语义网络(Semantic Network)知识表达形式,即一个由节点(Point)和边(Edge)组成的有向图结构知识库。其中,图的节点代表现实世界中存在的“实体”,图的边则代表实体之间的“关系”。 图1:传统知识库与知识图谱示意图[1] 与传统的数据存储和计算方式相比,知识图谱技术更加侧重于对非结构化异构数据的收集和处理,更擅长对于关系的表达和计算,可以处理复杂多样的关联分析、挖掘到更多隐藏

知识图谱技术原理介绍

知识图谱技术原理介绍 近两年来,随着Linking Open Data1等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。下面我将从以下几个方面来介绍知识图谱:知识图谱的表示和在搜索中的展现形式,知识图谱的构建和知识图谱在搜索中的应用等,从而让大家有机会了解其内部的技术实现和各种挑战。 知识图谱的表示和在搜索中的展现形式 正如Google的辛格博士在介绍知识图谱时提到的:“The world is not made of strings , but is made of things.”,知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-value pair,又称A VP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。上述图模型可用W3C提出的资源描述框架RDF2或属性图(property graph)3来表示。知识图谱率先由Google提出,以提高其搜索的质量。 为了更好地理解知识图谱,我们先来看一下其在搜索中的展现形式,即知识卡片(又称Knowledge Card)。知识卡片旨在为用户提供更多与搜索内容相关的信息。更具体地说,知识卡片为用户查询中所包含的实体或返回的答案提供详细的结构化摘要。从某种意义来说,它是特定于查询(query specific)的知识图谱。例如,当在搜索引擎中输入“姚明”作为关键词时,我们发现搜索结果页面的右侧原先用于置放广告的地方被知识卡片所取代。广告被移至左上角,而广告下面则显示的是传统的搜索结果,即匹配关键词的文档列表。这个布局上的微调也预示着各大搜索引擎在提高用户体验和直接返回答案方面的决心。图1从左到右依次是Google、百度和搜狗在搜索结果首页中所展现的与姚明相关的知识卡片。1https://www.360docs.net/doc/ec4666795.html,/ 2https://www.360docs.net/doc/ec4666795.html,/TR/rdf-concepts/ 3https://https://www.360docs.net/doc/ec4666795.html,/tinkerpop/blueprints/wiki/Property-Graph-Model

科学知识图谱

科学知识图谱应用研究概述 廖胜姣肖仙桃 知识图谱是可视化显示知识资源及其关联的一种图形,可以绘制、挖掘、分析和显示知识间的相互关系,在组织内创造知识共享的环境,从而最终达到促进知识交流和研究深入的目的。从20世纪50年代至今,科学知识图谱的研究已经有几十年的历史。科学知识图谱出现之前,科学计量学家们一直努力在寻找一种同传统方法相比,具有更大的客观性、科学性、数据的有效性和高效率的新方法来研究科学学科的结构与进展。科学知识图谱出现之后,其相关的理论与应用研究不断涌现。本文试图从应用的角度对科学知识图谱的研究与发展状况进行一个系统的梳理,具体从应用领域、研究机构与网站以及绘图软件方面着手。 1应用研究现状 从20世纪50年代开始兴起的各种文献计量方法为科学知识图谱的出现奠定了坚实的理论基础,是科学知识图谱理论与方法的“根”。如今,知识图谱已经成为计量学领域的一个新兴分支,活跃在各个领域的研究中。笔者将从应用领域、研究机构和软件方面阐述科学知识图谱的应用研究状况。

1.1应用领域方面 科学知识图谱的应用领域很广,从科研到教学到社会问题的解决等,无不渗透。 1.1.1应用于科研领域 笔者认为,知识图谱最早是在科研领域活跃起来的。在知识图谱中,学科前沿之间的交互关系是以空间的形式展现出来的。研究发现,科学引文与被引文之间往往有着学科内容上的联系。通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体,分析推测学科间的交叉、渗透和衍生趋势,还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。这里仅列举近些年知识图谱的一些应用研究情况。White,McCain,Garfield,Boyack,Huang等对知识图谱的用途进行了不断的扩充,得出知识图谱的主要应用有:文献、专利的结构分析;学科动态、社会网络、领域发展分析等;Shiffrin等认为,涉及到展开的学科间科学区域的知识图谱旨在绘制图形、挖掘、分析、分类、导航以及显现知识等等。 将知识图谱方法应用于构建学科知识图谱的研究人员

基于知识图谱的知识导航服务研究

- 123 - 第3期 2019年2月No.3February,2019 在这信息爆炸却大多无用的世界里,清晰的见解就成了一种力量。知识导航的方式因知识管理技术的发展而改进,传统的信息检索技术主要有关键字匹配、目录分类和概念搜索,都是以“字符串”匹配的方式去检索信息,以提供最接近的结果列表[1]。Google 于2012年5月推出了知识图谱(Knowledge Graph ,KG )技术,增强其搜索引擎的搜索结果,标志着大规模知识成功应用于互联网信息的语义搜索。知识图谱中表示互联网信息的形式更接近人类的认知形式,增强了人们对海量的互联网信息的组织、管理和理解能力。知识图谱给互联网信息的语义搜索带来了活力,同时也为提升知识导航服务的质量和效率提供新的可能。1 知识导航服务的内涵 知识导航起源于知识管理,可根据知识与检索主题间的语义相关程度为用户呈现结构清晰的知识体系。垂直的知识分类,实现基于学科本体,面向主题的相关关系、等级 关系和等同关系术语的展现[2] 。为适应社会发展以及人们的需要,知识导航服务的发展在诸多方面都呈现出以下新的特征:服务范围全球化、服务对象具体化、服务方式智慧化、服务内容深层化。 2 基于知识图谱的知识导航服务系统 知识图谱揭示了实体之间的关系,实现了对现实世界的事物及其相互关系进行形式化的描述[3]。知识图谱的一般表 示为G =(E ,R ,S )。其中E ={e 1,e 2,…, e |E |}表示了客观世界中的具体事物,是知识库中的实体集合,共有|E |个不同实 体;R ={r 1,r 2,…,r |R |}表示知识库中的关系集合,描述了概念、实体、事件之间客观存在的联系,共有|R |种不同关系;S ?E ×R ×E 表示知识库中的三元组集合。三元组的基本形式主要包括实体1(E 1)、关系(R )、实体2(E 2)和概念(C )、属性(P )、属性值(V )等,知识图谱中的基本元素是实体,不同的实体间有不同的关系。概念是指人们在认识世界过程中形成的对客观事物的概念化表示[4],如交通工具、公司企业、政府机关等。 基于知识图谱的知识导航系统的技术架构如图1所示, 自低向上可以分为数据层、知识图谱构建层和知识导航应用层3个部分。与传统技术相比,应用知识图谱技术构建的知识库质量更高,知识之间的语义关系更丰富。基于知识图谱的知识导航可以对用户的检索内容进行语义推理,精准分析用户知识需求,快速地帮助用户找到所需的知识。 图1 基于KG的知识导航服务技术框架 2.1 数据层 数据层主要任务有语料库的存储、知识抽取和知识存储。语料库中有选择地从互联网上采集了大量信息和数据,并存储到本地;知识抽取则是采用自然语言处理技术,从语料库中有选择地抽取出知识三元组并存储到数据库中;数据采用非关系型数据库(NoSQL )存储数据,向上层提供统一接口并完成一系列的数据操作任务。2.2 知识图谱构建层 构建层负责知识存储库的构建和管理。其中图模式一般 作者简介:朱鹏(1993— ),男,湖南永州人,硕士研究生;研究方向:教育资源数字化。 摘 要:随着知识生产速度和规模的增加,传统的基于“字符串”的检索技术在正确性和扩展性方面都存在着严重的不足,且 容易造成知识迷航。文章讨论了基于知识图谱的知识导航系统模型,把人的思维模式应用到知识导航中,降低使用者的知识检索成本,同时提升知识导航的服务质量。关键词:知识图谱;知识导航;知识服务 基于知识图谱的知识导航服务研究 朱 鹏 (云南师范大学 信息学院,云南 昆明 650500) 无线互联科技 Wireless Internet Technology

相关文档
最新文档