面向中文知识图谱构建的知识融合与验证

合集下载

利用AI技术进行知识图谱构建的方法与技巧

利用AI技术进行知识图谱构建的方法与技巧

利用AI技术进行知识图谱构建的方法与技巧一、引言在当今互联网时代,知识图谱作为一种强大的信息组织和搜索工具,逐渐成为了研究者关注的焦点。

它可以帮助我们更有效地理解和利用海量的数据,从而实现智能化的知识管理。

AI技术在知识图谱构建中发挥着重要作用,通过利用AI技术的方法与技巧,我们能够构建出更加准确和全面的知识图谱。

二、知识图谱构建方法1. 数据收集在构建知识图谱之前,我们首先需要收集大量的数据作为基础。

这些数据可以来自于多个来源,如互联网上的公开资料、企业内部的文档和数据库、第三方数据提供商等。

收集到的数据应该包含尽可能多的领域和主题相关信息,并且需要进行初步清洗和去重处理。

2. 实体抽取实体抽取是知识图谱构建过程中非常重要的一步。

通过人工智能技术中的实体抽取算法,我们可以从文本数据中自动地识别出各种实体。

例如,在医疗领域中,我们可以使用语义分析算法来自动抽取出疾病、药物、症状等实体。

3. 关系抽取实体抽取完毕后,我们还需要进行关系抽取的工作。

通过分析文本数据中的语义关系,我们可以自动地获取实体之间的关联信息。

例如,在电影领域中,我们可以通过解析剧情简介和演员表来获得演员与电影之间的关系。

4. 知识表示在知识图谱中,我们需要将收集到的数据以一种规范化的方式进行表示。

知识表示方法有很多种,如RDF(Resource Description Framework)、OWL(Web Ontology Language)等。

通过采用适当的知识表示方法,可以使得知识图谱更加容易被机器理解和处理。

三、AI技术在知识图谱构建中的应用1. 自然语言处理自然语言处理是AI技术中非常重要的一个分支,它可以帮助我们对文本数据进行语义分析和理解。

在知识图谱构建过程中,自然语言处理可以用于实体抽取、关系抽取等任务。

例如,在医学领域中,我们可以利用自然语言处理技术从医学论文中自动提取出疾病名称和治疗方法。

2. 图像识别图像识别是AI技术中的另一个重要分支,它可以帮助我们从图像数据中获取有用的信息。

面向语义搜索的知识图谱构建与应用研究

面向语义搜索的知识图谱构建与应用研究

面向语义搜索的知识图谱构建与应用研究随着信息技术的发展,人们在获取信息时面临越来越多的挑战。

传统的搜索引擎只能基于关键词匹配进行搜索,但这种方法忽略了语义信息。

为了更好地满足人们的需求,更准确地获取信息,语义搜索成为了一种热门的技术。

而知识图谱,作为形式化语义网络,可以有效构建语义搜索的基础,成为了一种非常强大的工具。

本文将探讨面向语义搜索的知识图谱构建与应用研究。

一、知识图谱的概念及构建知识图谱的概念起源于Web 3.0的概念,是指一种基于图论思想构建的丰富语义信息网络,其主要目的是让机器理解人类知识的组织方式,以此实现自然语言处理中的全面语义理解。

知识图谱是一个由节点和关系组成的有向加权图,其中节点代表实体或概念,边代表实体或概念之间的语义关系。

知识图谱是一个高度互联的网络,能够展示信息之间的关联和共现性,同时提供了一种全新的信息检索方法,使得人们能够从事实和概念之间的关联性中获得更多的知识信息。

知识图谱的构建需要结合语义抽取、实体识别、关系抽取和知识融合等多个技术,旨在将不同来源的知识整合成一个知识库,并通过对于知识库的持续更新使得知识库得到不断完善。

在现有的研究中,知识图谱的构建主要分为两种方式:手动构建和自动构建。

手动构建需要大量的工作力和耗时,需要专家和领域知识,但在实际应用中,由于数据量庞大,面临更新换代的问题。

这种方式逐渐显得比较无法应对大规模的数据构建和系统维护。

自动构建是采用自然语言处理、机器学习以及图论等技术从非结构化或半结构化数据源中自动提取数据,并将这些数据转化为结构化、具有图谱特征的知识库。

自动构建的优点在于其高效自动化,而缺点则在于存在噪音、误差等问题。

因此,对于知识图谱的构建,应该根据具体情况选择合适策略。

二、面向语义搜索的知识图谱的应用研究由于知识图谱可以实现信息的有机连接和展示,它已经应用于许多领域。

在搜索领域中,知识图谱的应用表现为在关键字来征集所涉及的实体或概念上下文信息,为用户提供更加准确的答案。

基于知识图谱使用多特征语义融合的文档对匹配

基于知识图谱使用多特征语义融合的文档对匹配

第 54 卷第 8 期2023 年 8 月中南大学学报(自然科学版)Journal of Central South University (Science and Technology)V ol.54 No.8Aug. 2023基于知识图谱使用多特征语义融合的文档对匹配陈毅波1,张祖平2,黄鑫1,向行1,何智强1(1. 国网湖南省电力有限公司,湖南 长沙,410004;2. 中南大学 计算机学院,湖南 长沙,410083)摘要:为了区分文档间的同源性和异质性,首先,提出一种多特征语义融合模型(Multi-Feature Semantic Fusion Model ,MFSFM)来捕获文档关键字,它采用语义增强的多特征表示法来表示实体,并在多卷积混合残差CNN 模块中引入局部注意力机制以提高实体边界信息的敏感性;然后,通过对文档构建一个关键字共现图,并应用社区检测算法检测概念进而表示文档,从而匹配文档对;最后,建立两个多特征文档数据集,以验证所提出的基于MFSFM 的匹配方法的可行性,每一个数据集都包含约500份真实的科技项目可行性报告。

研究结果表明:本文所提出的模型在CNSR 和CNSI 数据集上的分类精度分别提高了13.67%和15.83%,同时可以实现快速收敛。

关键词:文档对匹配;多特征语义融合;知识图谱;概念图中图分类号:TP391 文献标志码:A 文章编号:1672-7207(2023)08-3122-10Matching document pairs using multi-feature semantic fusionbased on knowledge graphCHEN Yibo 1, ZHANG Zuping 2, HUANG Xin 1, XIANG Xing 1, HE Zhiqiang 1(1. State Grid Hunan Electric Power Company Limited, Changsha 410004, China;2. School of Computer Science and Engineering, Central South University, Changsha 410083, China)Abstract: To distinguish the homogeneity and heterogeneity among documents, a Multi-Feature Semantic Fusion Model(MFSFM) was firstly proposed to capture document keywords, which employed a semantically enhanced multi-feature representation to depict entities. A local attention mechanism in the multi-convolutional mixed residual CNN module was introduced to enhance sensitivity to entity boundary information. Secondly, a keyword co-occurrence graph for documents was constructed and a community detection algorithm was applied to represent收稿日期: 2022 −05 −15; 修回日期: 2022 −09 −09基金项目(Foundation item):湖南省电力物联网重点实验室项目(2019TP1016);电力知识图谱关键技术研究项目(5216A6200037);国家自然科学基金资助项目(72061147004);湖南省自然科学基金资助项目( 2021JJ30055) (Project (2019TP1016) supported by Hunan Key Laboratory for Internet of Things in Electricity; Project(5216A6200037) supported by key Technologies of Power Knowledge Graph; Project(72061147004) supported by the National Natural Science Foundation of China; Project(2021JJ30055) supported by the Natural Science Foundation of Hunan Province)通信作者:张祖平,博士,教授,从事大数据分析与处理研究;E-mail :***************.cnDOI: 10.11817/j.issn.1672-7207.2023.08.016引用格式: 陈毅波, 张祖平, 黄鑫, 等. 基于知识图谱使用多特征语义融合的文档对匹配[J]. 中南大学学报(自然科学版), 2023, 54(8): 3122−3131.Citation: CHEN Yibo, ZHANG Zuping, HUANG Xin, et al. Matching document pairs using multi-feature semantic fusion based on knowledge graph[J]. Journal of Central South University(Science and Technology), 2023, 54(8): 3122−3131.第 8 期陈毅波,等:基于知识图谱使用多特征语义融合的文档对匹配concepts, thus facilitating document was matching. Finally, two multi-feature document datasets were established to validate the feasibility of the proposed MFSFM-based matching approach, with each dataset comprising approximately 500 real feasibility reports of scientific and technological projects. The results indicate that the proposed model achieves an increase in classification accuracy of 13.67% and 15.83% on the CNSR and CNSI datasets, respectively, and demonstrates rapid convergence.Key words: document pairs matching; multi-feature semantic fusion; knowledge graph; concept graph识别文档对的关系是一项自然语言理解任务,也是文档查重和文档搜索工作必不可少的步骤。

知识图谱构建技术的探索路径与演进 从知识表达到知识推理

知识图谱构建技术的探索路径与演进 从知识表达到知识推理

知识图谱构建技术的探索路径与演进从知识表达到知识推理知识图谱构建技术的探索路径与演进:从知识表达到知识推理知识图谱是一种结构化的知识表示方法,通过将实体、属性和关系组织成图的形式,为计算机系统提供了一种全面、准确、可扩展的知识存储和推理能力。

知识图谱的构建技术已经取得了长足的进展,从最初的知识表达到如今的知识推理,探索路径也在不断演进。

一、知识表达知识表达是构建知识图谱的第一步,它涉及到将自然语言中的知识转化为计算机可理解的形式。

最早的知识表达方法是基于人工编码的,即由领域专家手动创建知识模式,并将其转化为机器可读的形式。

这种方法面临着知识获取效率低、可扩展性差等挑战。

随着自然语言处理和机器学习的发展,基于数据驱动的知识表达方法逐渐崭露头角。

这种方法通过从大规模文本数据中挖掘知识,将其转为结构化的形式,并构建知识图谱。

这种方法可以大大提高知识获取的效率和覆盖广度,但仍然存在着知识不准确、知识冲突等问题。

二、知识融合由于知识的来源多样性和不确定性,单一的知识表达方式往往无法满足实际应用的需求。

知识融合是解决这一问题的关键技术,它通过将来自不同知识源的知识进行合并和整合,生成更完善、一致的知识图谱。

知识融合技术包括实体对齐、关系抽取、属性合并等。

实体对齐通过比较不同知识图谱中的实体,并找到其在不同图谱中的对应关系,实现知识的一致性。

关系抽取通过从文本中识别出实体之间的关系,丰富知识图谱中的关系信息。

属性合并则是将来自不同知识源的属性进行整合,消除冗余和矛盾。

三、知识推理知识推理是知识图谱的核心能力,它使得计算机能够根据已有的知识进行思考和推断,完成更复杂的任务。

知识推理可以分为基于规则的推理和基于统计的推理两种方式。

基于规则的推理是指通过定义一系列逻辑规则,根据已有的知识进行推理。

这种方法的优势在于其可解释性强,但是需要手动编写规则,且规则的维护和更新成本较高。

基于统计的推理则是通过学习大规模数据中的模式和规律,自动推理出新的知识。

基于多种数据源的中文知识图谱构建方法研究

基于多种数据源的中文知识图谱构建方法研究

基于多种数据源的中文知识图谱构建方法研究一、本文概述随着信息技术的迅猛发展,大数据时代的到来为知识图谱的构建提供了海量的数据源。

知识图谱,作为一种以图结构形式描述现实世界实体间复杂关系的大型语义网络,对于领域的发展具有深远影响。

它不仅有助于实现知识的有效组织、存储和查询,还能为自然语言处理、智能问答、推荐系统等多个领域提供强大的数据支撑。

本文旨在探讨基于多种数据源的中文知识图谱构建方法。

在深入研究现有知识图谱构建技术的基础上,结合中文语言特性和数据特点,提出了一种融合多种数据源的知识图谱构建框架。

该框架涵盖了数据收集、数据预处理、实体识别、关系抽取、知识融合以及知识存储等多个关键环节,并对每个环节的技术实现进行了详细阐述。

本文的研究不仅有助于提升中文知识图谱的构建效率和质量,还能为相关领域的应用提供有力支持。

通过综合运用多种数据源,可以更加全面地反映中文世界的语义信息,为智能化应用提供更加丰富的知识资源。

本文的研究成果也能为其他语言的知识图谱构建提供有益的参考和借鉴。

二、中文知识图谱的构建方法中文知识图谱的构建是一个系统而复杂的过程,涉及数据的收集、处理、融合和存储等多个环节。

基于多种数据源进行中文知识图谱构建,旨在整合不同来源的信息,提高知识图谱的覆盖率和准确性。

数据收集是构建知识图谱的基础。

中文知识图谱的数据来源广泛,包括结构化数据(如数据库、表格等)、半结构化数据(如百科、新闻等)和非结构化数据(如文本、图片等)。

针对这些不同类型的数据,需要设计相应的爬虫和抓取策略,确保数据的全面性和准确性。

数据处理是构建知识图谱的关键环节。

对于收集到的数据,需要进行清洗、去重、格式转换等操作,以提高数据的质量和一致性。

还需要利用自然语言处理(NLP)技术对文本数据进行实体识别、关系抽取等操作,以提取出结构化的知识。

在数据融合方面,中文知识图谱的构建需要解决实体对齐和关系融合等问题。

实体对齐是指将不同数据源中的同名实体进行匹配和合并,以提高知识图谱的一致性。

知识图谱构建与应用方法介绍与示例

知识图谱构建与应用方法介绍与示例

知识图谱构建与应用方法介绍与示例知识图谱是一种用于描述和组织知识的技术,它可以将各种不同领域的知识整合在一起,形成一个结构化的知识网络。

知识图谱可以帮助人们更好地理解和利用知识,在许多领域具有广泛的应用前景。

本文将介绍知识图谱的构建方法和应用示例,帮助读者了解并应用这一强大的技术。

一、知识图谱构建方法1. 知识抽取:知识抽取是构建知识图谱的第一步,它包括从文本、数据库或其他数据源中提取结构化的知识。

常用的技术包括自然语言处理、信息抽取和实体识别等。

通过这些技术,我们可以从大量数据中提取出实体、关系和属性等信息,用于构建知识图谱的节点和边。

2. 知识表示:知识表示是将抽取得到的知识转化为计算机可以理解和处理的形式。

常用的表示方法有本体表示、三元组表示和图表示等。

本体表示使用本体语言(如OWL)定义概念和属性之间的关系,三元组表示使用主语-谓语-宾语的形式表示实体之间的关系,图表示使用节点和边的形式表示知识的结构。

3. 知识融合:知识融合是将从不同数据源中抽取得到的知识整合在一起,形成一个统一的知识图谱。

融合知识需要解决实体对齐、关系对齐和属性对齐等问题,常用的方法包括基于规则的匹配、基于语义的匹配和基于机器学习的匹配等。

4. 知识推理:知识推理是对知识图谱进行推理和推断,发现其中的隐藏知识和规律。

常用的推理方法包括规则推理、语义推理和统计推理等。

通过知识推理,我们可以发现新的关系、属性和实体,提高知识图谱的质量和可用性。

二、知识图谱应用示例1. 智能问答系统:知识图谱可以用于构建智能问答系统,帮助用户快速获取有关问题的答案。

通过将问题转化为图谱查询,系统可以在知识图谱中找到相关的实体和关系,并生成相应的回答。

例如,用户可以询问“谁是美国第一位女性总统?”,系统可以通过知识图谱回答“希拉里·克林顿是美国第一位女性总统”。

2. 智能推荐系统:知识图谱可以用于构建智能推荐系统,帮助用户发现符合其需求和兴趣的内容。

知识图谱构建与应用的技术路线研究

知识图谱构建与应用的技术路线研究

知识图谱构建与应用的技术路线研究知识图谱(Knowledge Graph)是一种以图结构表示人类知识的语义模型,可以帮助人们更好地理解和组织各种知识领域中的信息。

它的构建以及在各个领域的应用研究已经引起了广泛的关注和研究。

本文将介绍知识图谱构建与应用的技术路线研究,包括知识图谱构建的方法和工具,以及知识图谱在不同领域中的应用案例。

一、知识图谱构建的方法1. 知识抽取与融合知识抽取是从结构化、半结构化和非结构化数据中提取出关键实体、关系和属性的过程。

常用的方法包括自然语言处理、信息抽取、实体识别和关系抽取等。

融合是将从不同数据源中抽取出的知识进行整合,消除冲突和重复,并统一表示。

常见的融合方法包括同义词消歧、实体链接、关系合并和数据清洗等。

2. 知识表示与建模知识表示是将抽取出的实体、关系和属性表示成计算机可处理的形式。

常用的表示方法包括本体表示、三元组表示和图表示等。

本体表示利用本体语言(如OWL,RDF等)来定义实体、关系和属性的语义;三元组表示使用主谓宾的形式来表示实体、关系和属性之间的关联;图表示则使用节点和边表示实体和关系之间的关系,并利用图算法进行结构化分析。

3. 知识存储与管理知识图谱的存储与管理是在构建阶段将抽取融合后的知识存储到数据库或图数据库中,并提供高效的查询和更新接口。

常用的存储和管理系统包括关系型数据库、NoSQL数据库和图数据库等。

其中,图数据库由于其天然的图结构存储和查询优势,成为知识图谱存储的首选。

4. 知识推理与推理引擎知识推理是基于已有知识进行推理和推断的过程,可以补全和丰富知识图谱中的缺失信息。

推理引擎是进行知识推理的核心组件,常用的推理引擎包括规则引擎、图数据库查询和机器学习等。

推理可以帮助实现知识图谱的自动化和智能化。

二、知识图谱应用的技术路线研究1. 领域知识图谱构建根据不同领域的需求,构建针对特定领域的知识图谱。

例如,在医疗领域中,可以构建医学知识图谱,整合和分析各类医学知识,辅助医疗决策和临床研究。

知识图谱基础知识之三——知识图谱的构建过程

知识图谱基础知识之三——知识图谱的构建过程

知识图谱基础知识之三——知识图谱的构建过程前两次介绍了知识图谱的基本概念和知识图谱的构建⽅式,这次介绍⼀下知识图谱系统的构建过程。

1 知识图谱的总体构建思路如图所⽰,从原始的数据到形成知识图谱,经历了知识抽取、知识融合(实体对齐)、数据模型构建、质量评估等步骤。

原始的数据,按照数据的结构化程度来分,可以分为结构化数据、半结构化数据和⾮结构化数据,根据数据的不同的结构化形式,采⽤不同的⽅法,将数据转换为三元组的形式,然后对三元组的数据进⾏知识融合,主要是实体对齐,以及和数据模型进⾏结合,经过融合之后,会形成标准的数据表⽰,为了发现新知识,可以依据⼀定的推理规则,产⽣隐含的知识,所有形成的知识经过⼀定的质量评估,最终进⼊知识图谱,依据知识图谱这个数据平台,可以实现语义搜索,智能问答,推荐系统等⼀些应⽤。

以下对知识图谱构建中的步骤进⾏详细的介绍。

2 知识抽取我们将原始数据分为结构化数据、半结构化数据和⾮结构化数据,根据不同的数据类型,我们采⽤不同的⽅法进⾏处理。

2.1 结构化数据处理针对结构化数据,通常是关系型数据库的数据,数据结构清晰,把关系型数据库中的数据转换为RDF数据(linked data),普遍采⽤的技术是D2R技术。

D2R主要包括D2R Server,D2RQ Engine和D2RRQ Mapping语⾔。

D2R Server 是⼀个 HTTP Server,它的主要功能提供对RDF数据的查询访问接⼝,以供上层的RDF浏览器、SPARQL查询客户端以及传统的 HTML 浏览器调⽤。

D2RQ Engine的主要功能是使⽤⼀个可定制的 D2RQ Mapping ⽂件将关系型数据库中的数据换成 RDF 格式。

D2RQ engine 并没有将关系型数据库发布成真实的 RDF 数据,⽽是使⽤ D2RQ Mapping ⽂件将其映射成虚拟的 RDF 格式。

该⽂件的作⽤是在访问关系型数据时将 RDF 数据的查询语⾔ SPARQL 转换为 RDB 数据的查询语⾔ SQL,并将 SQL 查询结果转换为 RDF 三元组或者 SPARQL 查询结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


需要综合利用多种类别的信息

属性的语义信息

成立={创立,建立} 出生={诞辰,诞生} 出生日期的主要值为时间 总部的主要值为机构

属性的值分布信息


属性的联合分布

出生日期+出生地点+职业+单位 =>人
Schema Mapping解决方案

建立一个全局的Schema

例如,以Freebase的Schema作为基准

人物.出生日期

PER 出生于 Date Date 是 PER 的诞辰 Date 哪一天,PER 的母亲生下来他。 ....

Schema之间的蕴含关系

公司.创始人 => 公司.员工 收购(公司,公司)=>合并(公司,公司)
知识验证
知识验证

知识图谱构建不是一个静态的过程, 需要
苹果公司
内在结构
财务
主题
人物
产品
实体
乔布斯
乔纳森·艾 维
iPod iPhone
iPad Mac NASDAQ

设计师,英国, 简洁, …
CEO, 狂人… … … …
实验结果
描述层知识融合
描述层知识融合-Schema Mapping


我们有一个集合的知识源,每一个知识源使用不同 的分类体系和属性体系 需要将这些Schema(分类体系和属性体系)统一为 一个全局的schema

数据层融合

Record Linkage/Entity Linkinpedia: China<-->互动百科:中国

语义描述层融合
ikipediaWikipedia:人物.出生日期 和 人物. 出生地点
• 苹果发布iPhone {IT0.41,手机0.23, 苹果公司
• 苹果丰收 {植物0.45,水果0.33,贸易0.21}
计算机
娱乐

基于实体-主题模型融合实体知识
Document
Apple Inc. (NASDAQ: AAPL; formerly Apple Computer, Inc.) is an American multinational corporation that designs and sells consumer electronics, computer software, and personal computers. The company's best-known hardware products are the Macintosh line of computers, the iPod, the iPhone and the iPad. Its software …

Meta Learner


(出生地点,北京)+(生日,1991) => (出生,0.9), (生日, 1.0)
Schema Mapping的挑战


建立全局Schema的标准是什么?如何建立统一的 全局Schema? Scalable Schema Mapping算法 Schema和自然语言表述之间的关系?描述一个特 定Schema的表达方式有哪些?

基于人工编写方式,构建了一系列的中小规模 中文知识库

知网(HowNet)[董振东 和 董强,1999] 《同义词词林》[梅家驹等,1996] 概念层次网络(HNC)[黄曾阳,1997] 规模相对较小 建模的知识范围特定 不同知识库构建的目的不一样,因此使用不同的语 年营业额
Wikipedia
公司性质 成立 标语口号 营业额
Schema Mapping难点

属性体系并非简单的一对一关系



公司.成立 = {公司.成立时间,公司.成立地点,公司. 成立方式} 出生={出生日期,出生地点} 出生日期={出生年份,出生月,出生日}

冗余度


多样性

正确的答案会以不同的方式表达
知识验证证据(2)

一致性

正确的答案应当与其它知识相容无冲突

例子

黄河是世界第5大河 密西西比河是第4大河,长6262公里 澜沧江全长4880公里,是第5大河 4880公里 < 长度(黄河) <6262公里
知识验证的统计模型

训练数据:

人物(出生,北京) 人物(生日,1999-1-2) 公司(总部所在地,北京)

mapping

(出生地点,北京) => (出生,0.8), (总部所在地,0.2)
人物(出生,北京) 人物(生日,1999-1-2) 公司(总部所在地,北京) => P(出生|生日)= 0.5,P(总部所在地|出生) = 0.001


利用一个集合的Base learners,将不同知识源中 的schema与全局Schema进行映射 使用Meta-Learner来综合利用Base learner的分 类结果并利用属性的联合分布信息,从而得到最 终的Schema mapping全局结果
Schema Mapping样例

Base Learner
面向中文知识图谱构建的 知识融合与验证
孙乐 韩先培
中国科学院软件研究所 基础软件国家工程研究中心
中文知识图谱

NLP和AI的终极目标之一是构建比肩人类的文 本阅读和理解系统 缺乏支撑计算机智能推理和决策的知识库一直 是构建上述系统的瓶颈之一 目标:逐步构建可支撑上述目标的中文知识图 谱


相关工作—传统知识库
特点总结
1. 2. 3.
4.
5.
6.
7.
分散:知识独立自治的存在于多个源中 异构:不同知识资源使用不同的结构和元数据 冗余:各个知识源中的知识具有一定的重叠(同构 或异构的方式) 噪音:Web 2.0方式会引入大量错误和噪音 不确定:通常需要集成不确定的信息抽取系统结果 非完备:知识的长尾性 仅仅覆盖特定领域的高频 知识,大部分是常识知识库 中文知识的缺乏:现在已经有大规模的英文知识图 谱,但是大规模中文知识图谱的工作相对缺乏
实体链接方法(1): 基于实体知识的链接
基于实体-提及模型的实体链接
人们在进行链接工作时,使用了大量关于
实体的知识
实体的知名度
实体的名字分布
实体的上下文分布
提出了实体-提及模型来融合上述异构知识
13
实体知名度
实体的名字分布
• 一个实体的名字通常是固定的,且以一定的
概率出现
上下文词
实验性能
准 确 率
Learn2Link EM Model Topic Index
BoW
BoW
EM Model Learn2Link Topic Index
实体链接方法(2): 基于篇章主题的链接
主题一致性假设
• 文章中的实体通常与文本主题相关,因此这
些实体相互之间语义相关
• 出现实体ipad和iphone的文章也更有可能出现
数据层融合关键技术--实体链接

等同性(Equality)判断


给定不同数据源中的实体,判断其是否指向同一个 真实世界实体 大陆:贝克汉姆 == 香港:碧咸==北美: Beckham?

基于等同性判断,我们可以连接不同知识源中的 等同知识,从而将多个分散的知识源连接成为一 个整体

Linked Data
• 翻译:乔丹 佐顿 • 其它方式:科比大神,薄熙来不厚
16
实体的上下文词分布
• 不同实体的上下文词分布通常有极大的差异
苹果公司
苹果银行
基于实体-提及模型融合上述知识
知识库
知名度 名字 苹果(水果) 苹果公司
苹果
今年的苹果丰收 了,但价格降了
Apple
Apple的iphone 4s价格又跌了
• IBM和国际商用机器公司都可以作为IBM公
司的名字,但是BMI,Oracle不会作为它的 名字
• IBM比全称国际商用机器公司更常作为IBM
公司的名字出现
实体名字模型
• 建模了许多不同的名字构建方式
• 保持原始形式: 迈克尔 迈克尔 • 缩写: 亲爱的顾客 亲(淘宝体)
• 省略: 李克强 总理 … 总理
出发点

如何从当前的这些知识出发,构建准确、高覆盖、 一致的大规模中文知识图谱? 策略一:融合


充分利用现有知识库,融合这些分散、冗余和异构 的知识,作为构建中文知识图谱的出发点

策略二:验证

对新加入知识图谱的知识(如信息抽取系统的结果, 众包标注)进行验证,确保新知识与知识图谱的一 致性,持续更新中文知识图谱
初始 证据
基于图的协同推断
大灌篮
0.20
在公牛期间,乔丹 出演了电影大灌篮
0.13
宇宙大 灌篮
0.66
乔丹(NBA 球星) 乔丹(好莱 坞影星) 乔丹(机器 学习)
0.08
芝加哥 公牛队
0.82
乔丹
0.12
公牛 公牛(动 物)
0.03
0.01
基于图的协同推断
实体 链接概率 链接概率(增 强后) 宇宙大灌篮 35% 21% 芝加哥公牛队 23% 30% 乔丹(NBA球星) 5% 46%

特点

相关工作—协同知识库

基于Web 2.0的方式,各个领域都有丰富的 Web 2.0知识站影:豆瓣 商品:淘宝,中关村在线,太平洋 餐馆:大众点评 医学:丁香园
相关文档
最新文档