中文知识图谱:体系、获取与服务

合集下载

知识图谱的概念及其应用研究

知识图谱的概念及其应用研究

知识图谱的概念及其应用研究人类从出现以来,就一直在探索和积累知识,并试图将其体系化、系统化。

然而,随着时代的发展和知识的积累,这种尝试变得越来越困难。

在过去的几十年里,人工智能技术的迅速发展和互联网的普及,为知识体系化、系统化带来了一个新工具——知识图谱。

知识图谱是一种以图形化方式呈现知识和关系的人工智能技术。

它通过收集、整合和分析大量的结构化和非结构化数据,把这些数据转化为符合机器处理的形式,并构建出一个大型的、结构化的、层次化的知识网络图。

在知识图谱中,每个知识点都有一个唯一的标识符,然后通过各种关系将它们链接在一起。

这种链接方式既可以是语义关系,也可以是属性关系,还可以是实体之间的关联关系等等。

知识图谱应用于众多领域,主要用于支持自然语言处理、智能搜索、智能客服、机器人服务等方面。

它为人工智能的多个领域带来了一个统一的知识库,让人工智能的决策和推荐更有根据,更具智能化。

首先,在自然语言处理方面,知识图谱主要用于实现语义理解。

自然语言处理是人工智能中最有挑战性的领域之一,这是因为人类语言的复杂性和变化性。

然而,知识图谱可以通过将人类语言与知识图谱中的概念相对应,使人工智能系统对人类语言的理解和表达能力得到极大提高。

其次,在智能搜索方面,知识图谱可以极大地提高搜索精度。

传统的搜索引擎只是根据关键词或短语来检索网页,而知识图谱可以通过结构化的知识模型来帮助人们更精确地定位到他们所想要的信息。

知识图谱可以告诉搜索引擎某个词语或短语的含义、上下文、实体属性等等,从而更好地匹配用户信息需求。

再次,在智能客服与机器人领域,知识图谱可以帮助客户服务中心或企业提供智能化的解决方案。

知识图谱可以通过分析客户提出的问题,识别与之相关的实体、属性和关系,快速且精准地提供答案。

在机器人领域,知识图谱可以作为机器人大脑中的知识库,快速检索相关知识,完成多轮对话,从而实现越来越自动化、无人化的机器人服务。

除了以上几个领域,知识图谱在医疗诊断、金融风险控制、智慧城市等领域都有着广泛的应用。

知识图谱应用于学科知识服务初探知识讲解

知识图谱应用于学科知识服务初探知识讲解

②、知识图谱的应用推广
首先,现今图书馆的专职学科馆员还不普遍,大多 是兼职的形式,掌握知识图谱需消耗大量的成本。 其次,目前会提供知识图谱学科服务的机构也很少 ,利用知识图谱的图书馆用户就更少。这样就会在 一定程度上对知识图谱的推广造成困难。 最后,尤其现在国内对知识图谱的研究还处于起步 阶段,其研究成果不多,知识图谱技术与其可视化 效果的优化不易在短期内得到发展,这便降低了知 识图谱在学科知识服务中被用户接受的可能。
谢 谢!
1、契合学科知识服务的职责
学科馆员以开发专题信息资源为目的,深入学 科专业领域之中,针对用户的问题及其特定的环境 ,对某一学科的基本理论、历史和现状、学术前沿 、学术的主要领头人等方面进行深入的分析了解。 对无序繁杂的信息进行加工、分析、整理、重组, 完成知识的管理过程,为用户提供有效可靠的支持 知识应用和知识创新的服务。
④、数据质量
知识图谱应用于学科知识服务的障碍还包括: 获取的数据质量直接影响知识产品的质量。而在专 业领域中的高质量数据(可获取并有用的)大都以 普通形式出现,这就需要即将生产出来的数据也必 需以相同形式出现。
⑤、评价体系
任何一种机制,如果缺乏相应的质量评价指标 ,那么就会难以得到优化和发展。相应的质量评价 指标缺乏,既不能客观地反映知识图谱于学科知识 服务的进行现状,也不利于对其整体事业建设进行 宏观调控。
3 服务社会,扩大受众
学科社会化服务是学科知识服务的必经之路: 一方面可以使信息接受者增加,学科知识服务拓宽 服务面,增强知识传播效果。 另一方面,学科馆员在服务的同时,还可以深入实 践,在实践中完善理论,更加了解专业发展现状, 更好的把握研究趋势以及未来研发方向。
4 提高数据质量
随着知识图谱工具的提高,只有数据质量也提 高,才能真正使整体的学科知识图谱质量提高。只 有简洁规范的数据才是最佳的基础。这就要求利用 专门的数据库,对那些经过加工、整理的数据直接 进行利用,会取得最佳效果。

知识图谱构建及其在信息检索中的应用

知识图谱构建及其在信息检索中的应用

知识图谱构建及其在信息检索中的应用知识图谱是一个由实体、关系和属性组成的图数据结构,用于表示知识中的实体和实体之间的关系。

它是一种基于语义的知识表示模型,能够将大量的信息进行结构化和关联,并提供高效的信息检索和智能推理功能。

知识图谱的构建和应用在信息检索领域具有重要的意义,本文将首先介绍知识图谱的构建方法,然后探讨其在信息检索中的应用。

一、知识图谱的构建方法知识图谱的构建需要从原始数据中提取实体、关系和属性信息,并将其组织成图结构。

下面将介绍几种常见的知识图谱构建方法。

1. 实体识别与命名实体识别(NER):实体识别是从文本中识别出具有特定含义的实体,如人物、地点、组织机构等。

命名实体识别是实体识别的一种特定形式,用于从文本中识别出具有特定名称的实体。

实体识别和命名实体识别是知识图谱构建的基础,通过这两个步骤可以提取出知识图谱中的实体。

2. 关系抽取:关系抽取是从文本中提取出实体之间的关系。

常用的关系抽取方法包括基于规则的方法和基于机器学习的方法。

基于规则的方法依赖于预定义的规则模板来匹配和提取关系,而基于机器学习的方法则是通过训练模型来自动学习关系的特征和规律。

3. 属性提取:属性提取是从文本中提取出实体的属性信息。

常见的属性包括实体的特征、属性值和描述等。

属性提取可以通过文本分析和信息抽取技术来实现,例如基于文本模式匹配和基于统计的方法。

二、知识图谱在信息检索中的应用知识图谱在信息检索中的应用主要体现在以下几个方面。

1. 语义搜索:知识图谱可以为搜索引擎提供更加准确和智能的搜索结果。

传统的文本搜索通常是基于关键词匹配的,而知识图谱可以通过理解用户查询的意图和上下文信息来进行精确的语义匹配,从而提供与用户需求更加匹配的搜索结果。

2. 关系推理:知识图谱可以利用其中的关系信息进行关系推理。

通过分析实体之间的关系链,知识图谱可以发现隐藏在数据背后的关联和规律,并通过推理方法进行预测和推断。

这在信息检索中可以用于推荐相关文档、文章或者联系相关实体。

知识图谱:链接知识与数据的桥梁,开启智能应用的新篇章

知识图谱:链接知识与数据的桥梁,开启智能应用的新篇章

知识图谱—链接知识与数据的桥梁,开启智能应用的新篇章引言随着大数据时代的到来,海量的信息使得用户在寻找所需知识时面临巨大的挑战。

传统的信息检索方法往往只关注关键词匹配,忽略了知识之间的内在联系,使得检索结果往往不尽如人意。

为了解决这一问题,知识图谱应运而生,它以图形化的方式表示不同实体之间的关系,将无序的数据转化为有价值的知识,从而为用户提供更精准的信息服务。

图1知识图谱一、知识图谱的定义与构成1、知识图谱的定义知识图谱是一种以图形化的方式表示知识的工具,它通过对实体之间关系的描述,将复杂的知识结构化,以便于计算机理解和处理。

知识图谱在语义网、自然语言处理、信息检索等领域有着广泛的应用前景。

2、知识图谱的构成知识图谱主要由实体、属性和关系三部分构成。

实体是知识图谱中的基本单元,它代表了现实世界中的客观事物;属性描述了实体的特征和属性值;关系则表示了实体之间的联系。

通过这三部分信息的有机结合,知识图谱能够清晰地呈现出不同事物之间的内在联系。

二、知识图谱的构建过程数据采集:通过爬虫技术、API接口等方式从各类数据源中获取数据。

数据清洗:去除重复、错误或不完整的数据,提高数据质量。

实体识别:从文本中提取出实体,包括名词、名称等。

关系抽取:通过自然语言处理等技术分析实体之间的关系。

知识表示学习:利用深度学习等技术对知识进行表示学习,提高知识的精度和可解释性。

知识推理与问答:通过对知识的推理和分析,实现问答系统的智能化。

应用开发:将知识图谱应用于实际场景,如智能客服、搜索引擎等。

三、知识图谱的优势与应用场景提高信息检索精度:通过实体之间关系的描述,知识图谱能够更准确地理解用户的查询意图,从而提供更精准的检索结果。

实现智能化决策支持:通过对大量数据的分析挖掘,知识图谱可以为决策者提供有关市场趋势、竞争对手等方面的信息支持。

增强智能客服能力:通过自然语言处理等技术,知识图谱可以帮助客服人员快速准确地回答用户问题,提高客户满意度。

知识图谱概述及应用

知识图谱概述及应用

知识图谱概述及应用
知识图谱是一种用于表示和组织知识的技术,它能够将知识以图形的方式呈现出来,并通过建立实体、关系和属性之间的链接,形成一个包含丰富语义信息的知识结构。

知识图谱可以帮助人们更好地理解和利用海量的知识资源,促进知识的共享和交流。

知识图谱的应用非常广泛,以下是一些常见的应用领域:
1.问答系统:知识图谱可以用于构建智能问答系统,通过将问题和答案映射到知识图谱中的实体和关系,实现对问题的准确理解和精确回答。

2.引擎优化:知识图谱可以用于引擎的优化,通过将结果与知识图谱中的实体和关系进行匹配,提供更准确和有关联的结果。

3.推荐系统:知识图谱可以用于推荐系统中的个性化推荐,通过分析用户的兴趣和行为数据,结合知识图谱中的实体和关系,为用户提供个性化的推荐信息。

4.信息抽取:知识图谱可以用于自动化信息抽取,从非结构化的文本数据中提取实体和关系,并将其映射到知识图谱中的结构化数据中,方便后续的分析和利用。

5.智能机器人:知识图谱可以用于构建智能机器人,通过将机器人需要的知识和信息组织成知识图谱,使机器人能够更好地理解和回答用户的问题。

6.语义:知识图谱可以用于语义,通过将语句与知识图谱中的实体和关系进行匹配,实现更准确和有意义的结果。

7.语义表达:知识图谱可以用于语义表达,通过将自然语言表达的文本映射到知识图谱中的实体和关系,实现对文本的语义理解和分析。

总之,知识图谱是一种强大的知识表示和组织技术,它在各个领域都有广泛的应用。

通过构建和利用知识图谱,我们可以更好地组织和管理知识,实现对知识的智能化利用。

未来随着知识图谱技术的发展和应用场景的扩大,相信它将在人们的日常生活和各个行业中发挥更加重要的作用。

知识图谱构建与应用方法介绍与示例

知识图谱构建与应用方法介绍与示例

知识图谱构建与应用方法介绍与示例知识图谱是一种用于描述和组织知识的技术,它可以将各种不同领域的知识整合在一起,形成一个结构化的知识网络。

知识图谱可以帮助人们更好地理解和利用知识,在许多领域具有广泛的应用前景。

本文将介绍知识图谱的构建方法和应用示例,帮助读者了解并应用这一强大的技术。

一、知识图谱构建方法1. 知识抽取:知识抽取是构建知识图谱的第一步,它包括从文本、数据库或其他数据源中提取结构化的知识。

常用的技术包括自然语言处理、信息抽取和实体识别等。

通过这些技术,我们可以从大量数据中提取出实体、关系和属性等信息,用于构建知识图谱的节点和边。

2. 知识表示:知识表示是将抽取得到的知识转化为计算机可以理解和处理的形式。

常用的表示方法有本体表示、三元组表示和图表示等。

本体表示使用本体语言(如OWL)定义概念和属性之间的关系,三元组表示使用主语-谓语-宾语的形式表示实体之间的关系,图表示使用节点和边的形式表示知识的结构。

3. 知识融合:知识融合是将从不同数据源中抽取得到的知识整合在一起,形成一个统一的知识图谱。

融合知识需要解决实体对齐、关系对齐和属性对齐等问题,常用的方法包括基于规则的匹配、基于语义的匹配和基于机器学习的匹配等。

4. 知识推理:知识推理是对知识图谱进行推理和推断,发现其中的隐藏知识和规律。

常用的推理方法包括规则推理、语义推理和统计推理等。

通过知识推理,我们可以发现新的关系、属性和实体,提高知识图谱的质量和可用性。

二、知识图谱应用示例1. 智能问答系统:知识图谱可以用于构建智能问答系统,帮助用户快速获取有关问题的答案。

通过将问题转化为图谱查询,系统可以在知识图谱中找到相关的实体和关系,并生成相应的回答。

例如,用户可以询问“谁是美国第一位女性总统?”,系统可以通过知识图谱回答“希拉里·克林顿是美国第一位女性总统”。

2. 智能推荐系统:知识图谱可以用于构建智能推荐系统,帮助用户发现符合其需求和兴趣的内容。

面向知识图谱的中文信息抽取与知识表示研究

面向知识图谱的中文信息抽取与知识表示研究

面向知识图谱的中文信息抽取与知识表示研究知识图谱是近些年来在人工智能领域备受关注的一个研究方向。

它是一种基于大规模结构化数据构建的语义网络,能够将不同领域的知识整合起来,并能够进行高效的信息抽取与知识表示。

中文信息抽取与知识表示是在中文语境下实现知识图谱构建的重要环节,本文将着重探讨面向知识图谱的中文信息抽取与知识表示的研究。

中文信息抽取是将非结构化的中文文本转化为结构化的信息的过程。

在知识图谱的建设过程中,从大规模的中文文本中抽取实体、关系和属性等元素是十分关键的。

实体抽取旨在识别文本中的具名实体,如人物、地点、组织等。

关系抽取则专注于识别实体之间的关系,并构建关系三元组。

属性抽取旨在提取与实体相关的特征和属性。

这些抽取出来的信息将作为构建知识图谱的基础。

对于中文信息抽取来说,面临着中文语言的复杂性和多样性。

中文语言中存在着大量的歧义性和省略性,使得信息抽取的难度增加。

此外,中文语言中也缺乏一套完备的规范和标准,给信息抽取带来了一定的挑战。

因此,中文信息抽取的研究需要考虑到这些特点,采用特定的方法和技术来解决这些问题。

知识表示是将抽取到的信息映射到知识图谱中的过程。

在知识图谱中,信息是以图的形式进行组织和表示的。

因此,对于中文信息抽取来说,需要将抽取到的实体、关系和属性等元素进行合理的映射和组织,以便于后续的知识推理和应用。

知识表示的关键在于选择适当的表示方式和模型,使得信息能够被准确地表达和存储。

对于中文知识图谱的信息抽取与知识表示来说,还需要解决一些具体问题。

首先是中文语言特定的实体识别和命名实体识别。

中文语言中存在着很多组织、人物等具名实体,需要特定的方法来解决命名实体的识别和分类问题。

其次是中文语言的关系抽取和关联性判断。

中文语言中存在着大量的省略和隐喻,需要采用相应的技术来解决关系抽取的问题。

此外,属性抽取和属性建模也是中文知识图谱构建中的重要环节。

在中文信息抽取与知识表示的研究中,我们可以借鉴已有的方法和技术,如自然语言处理、机器学习和深度学习等。

知识图谱

知识图谱

知识图谱作者:***来源:《百科知识》2013年第22期2012年5月,谷歌公司通过其官方博客正式发布搜索页面的新功能——知识图谱(Mapping Knowledge Domain)。

这可能是谷歌搜索引擎上线以来最大的一次改革。

什么是知识图谱?知识图谱也被称为科学知识图谱,是显示知识发展进程与结构关系的一系列不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

具体来说,知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与计量学引文分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。

它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。

下面我们先来举一个实例进行说明,比如我们在谷歌搜索框里输入“十三陵”,以往只能在搜索结果页面显示10多个由标题、链接以及与关键词相关的简短内文片段组成的搜索结果。

虽然现在搜索页面也会插入图片等结果,不过搜索结果大体上依然通过文字简介的形式提供。

如果使用知识图谱搜索则不同,当我们输入“十三陵”后,除了在搜索结果页面显示相关的文字信息外,在搜索页面右栏还直观地显示出十三陵在地图上的位置、来自维基百科的文字简介、建筑相关信息表(高度、开放时间、设计师等)。

页面下方还有与十三陵相关的历史古迹和旅游景点,让用户可以全面了解十三陵。

再比如我们输入“电脑”这个关键词,谷歌除了在搜索结果页面显示电脑的相关信息,还会在页面右侧显示我们所在城市的各个电脑卖场位置,给用户购买电脑提供方便。

从用户角度来看,知识图谱的好处显而易见。

我们能够直接获得搜索内容的基本信息汇总,而不用根据文字片段和网站名称判断究竟哪个链接最有价值,然后再打开新页面人工过滤页面内的有价值信息。

知识图谱的演变知识图谱是谷歌在2010年收购了开放式数据库公司Metaweb后发展而来的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 1980年、购房、房产、房地产……
目前的Taxonomy存在的问题
• 不同的知识资源采用不同的Taxonomy百科• 类别属性定义不统一
互动百科
Solution:Ontology Matching
• 建立体系间的Alignment
– 挖掘概念之间SameAs关系 – 评测:Ontology Alignment Evaluation Initiative
已有的知识图谱搜狗知立方 知心其他已有的知识库Name language Year Construction Types
Hownet
Wordnet CYC DBpedia Yago Freebase
Chinese
English
2000
1985 1984 2007 2007 2007
Manual
评测: QALD
面向复杂问句的知识问答
Who are the parents of the wife of Juan Carlos I?
– 问题分析:把自然语言问句转换成语义三元组的形式
– 资源映射:对Query Triple中的每个短语,确定其在知识库 中的对应资源 – SPARQL生成:对于不同类型的问题依据不同的模板生成 SPARQL语句
知识体系:三种组织形式(Cont.)
• 标签分类法
– Folksonomy
• 网络用户自发性定义的平面的、非层级的标签分类 • 优点:灵活,可以表达更为丰富的概念关系 • 缺点 – 缺乏层次性,难以揭示复杂的关系 – 自定义的标签缺乏语义精确性,标签缺乏组织与关联 – 给推理带来很大的困难
目前网络知识资源的组织形式
– 从句法结构判别实体关系,可以发现未知的实体关系 ,但是所抽取的都是关系的mention,缺乏对于关系语 义的确定 – 需要对于关系的语义进行挖掘
• 已有方法都是集中于英文,在中文方面表现如何
开放式中文实体关系抽取
• 已有百科知识进行回标产生训练语料并训 练CRF抽取器
姚明 1980年生于上海。
Solution:建立框架?
• 是否需要建立知识体系的框架
– 已有的体系框架
• GeoNames/DBpedia Ontology/TexonConcept Ontology • KOS/
– 的翻译和扩展
• 体系覆盖度不足,局限于英文 • 细致化不足
– 百科知识描述体系的制订
知识体系:几个术语(cont)
• 关系
– 层级关系Hypernym-Hyponym
• Is-a (Kind-of) • Part-Whole
– 非层级关系
• • • • • Thematic roles 论旨角色 Possession 领属 Attribute 属性 Casuality 因果 ……
Inference over the Web
• 关键难点
– 如何学习鲁棒的推理规则 – 如何推理、验证新的知识
小结
• 知识体系
– 何种知识体系是有效的? – 是否需要建立知识体系的框架?或者建立进行ontology matching, 或者Tag matching
• 知识获取
– 非结构化文本的实体关系抽取是构建知识图谱的重要组成部分, 目前的性能还未达到实用 – 开放式关系抽取中,确定关系元组的语义重要 – 中文知识抽取与英文有很大区别
– 信息块的识别(Record Identification) – 模板的学习(Pattern Learning) – 属性值的抽取(Attribute Value Extraction)
Infobox中的属 性名 身高 语言 国籍 体重 ……
抽取方法(续)
• 相对于工业界,学术界更加侧重于从纯文 本中抽取实体知识
– 在一个限定的领域中做semantic parsing – Ontology规模小 – 基于关键词匹配或者人工书写模板
• CCG(Combinatory Categorial Grammar) • PCCG(Probabilistic Combinatory Categorial Grammar)
747
3
478
半结构化 半结构化和非结构化文本的实体关系抽取非常重要 非结构化文本的实体关系抽取:对于文本进行结构化 半结构化文本实体关系抽取:抽取个性化的实体属性
非结构化
CMU: NELL(Never-Ending Language Learning)
• Input
– Initial ontology – 500 million web pages
– Ontology:共享概念化的规范,涉及概念、关系和公理三个要素 – Knowledge Base:服从于ontology 控制的知识单元的载体
– Ontology是蛋糕的模具,Knowledge Base是蛋糕
• Formal Ontology vs. Lightweight Ontology – Formal Ontology: 大量使用公理 – Lightweight Ontology: 不用或很少使用公理
• 中国大百科全书出版社
知识获取
文本信息结构
• 结构化数据(Infobox)
– 置信度高 – 规模小 – 缺乏个性化的属性信息
• 半结构化数据
– – – – – 置信度较高 规模较大 个性化的信息 形式多样 含有噪声
• 纯文本
– 置信度低 – 复杂多样 – 规模大
抽取方法
• 结构化与半结构化文本信息(利用网页结构)
UW: Machine Reading
• TexRunner、ReVerb、WOE、 OLLIE
– 从Wikipedia Infobox获得关系名
– 通过在句法树上回标获得句法关系 模板
思考
• NELL:
– 给定了Ontology,约束了关系的类别,很难发现未知的 实体关系
• University of Washington :
中文知识图谱:体系、获取与服务
中国科学院自动化研究所 模式识别国家重点实验室 赵军 刘康
什么是知识图谱
• The Knowledge Graph is a system that understands facts about people, places and things and how these entities are all connected. • 知识图谱本质上是一种语义网络。其结点代表实 体 (entity) 或者概念(concept) ,边代表实体/概念之 间的各种语义关系。
• 对于新文档
– 文档分类 – 选择抽取器进行抽取 – 句子级验证
开放式中文实体关系抽取
五个类别上测vel vs. Set level
– 构建知识图谱不需要正确识别每个句子中的实体关系 – 充分利用网络数据的冗余特性
• 根据数据源、文本信息结构的置信度进行投票
Common Sense Knowledge
Automatic
Common Sense Knowledge + Factual Knowledge
Crowding Sourcing
知识工程:三个层面问题
知识体系 知识获取 知识服务
多数研究集中在这一层面
知识体系
知识体系:几个术语
• Ontology vs. Knowledge Base
– Top1 vs. Top5
• 最近邻规则(当一个句子中出现多个实体1与多个实体2,则取最近邻的那个 规则)
– 最近邻 vs. 无最近邻
– 用不同的训练语料训练抽取器
规则所产生的训练语料规模: Top1+无最近邻 12.8 MB Top1+最近邻 12.8 MB Top5+无最近邻 25.4 MB Top5+最近邻 25.4 MB
在大数据环境下,细致的处理不再重要 训练语料量的增加比训练语料质的提升更为重要
知识服务
已有的知识服务:检索与问答
基于知识图谱的检索或问答的核 心问题:Semantic Parsing
• 自然语言句子到知识库中概念和关系的映射
姚明到底有多高?
Semantic Parsing
• 传统semantic parsing
•my与Folksonomy相结合的组织形式,以 Taxonomy为主。
目前的Folksonomy存在的问题
• Folksonomy的标签不能覆盖的所有的关系
– 无论是开放分类标签 – 还是Infobox属性标签
• 这些开放式类别标签存在冗余、不规范的 问题,标签之间也缺乏关联
• Aim
– Extract new instances of categories and relations – Learn to read better than yesterday
1,994,282 Instances of 874 different categories and relations
知识体系:三种组织形式
• 层级分类法
– Ontology (狭义)
• 树状结构,不同层节点之间具有严格的IsA关系 – Human activities -> leisure activities -> sports -> golf • 优点:因为概念关系单一,方便于知识推理 • 缺点:无法表示概念关系的多样性
• 2004-2013
– Benchmarks (bibliographic references), Web directories, Anatomy (biomedical)
• 关键:概念之间的相似度计算 • 挑战
– – – – Large-scale ontology matching and evaluation Matching with background knowledge (Increase recall but hurt precision) Multiple matchers and selection(Global Alignment) Incorporating social information
相关文档
最新文档