人工智能-知识图谱机器大脑中的知识库

合集下载

人工智能之知识库(一)2024

人工智能之知识库(一)2024

人工智能之知识库(一)引言概述:人工智能的发展已经带来了许多重大突破,其中之一就是知识库的建立。

知识库是人工智能系统中的重要组成部分,它存储了各种领域的知识和经验,并为系统提供学习和推理的基础。

本文将重点介绍人工智能中知识库的概念、构建和应用。

正文:一、知识库的概念和作用知识库是指一个系统性地组织、存储和管理的知识集合。

它包含了丰富的领域知识和经验,可以为人工智能系统提供学习和推理的基础。

知识库在人工智能领域中扮演着重要的角色,它可以通过机器学习和自然语言处理技术,使计算机能够理解和应用这些知识。

小点:1. 知识库的基本结构和组成部分。

2. 知识库的优势和局限性。

3. 知识库与其他人工智能技术的关系。

4. 知识库的分类和应用领域。

5. 知识库的发展动态和趋势。

二、知识库的构建方法知识库的构建是一个复杂的过程,需要经过知识抽取、推理和验证等环节。

在知识抽取阶段,可以采用自动化技术从大量的文本数据中提取知识。

在推理和验证阶段,可以利用逻辑推理、机器学习和统计分析等方法对知识进行验证和优化。

1. 知识抽取的方法和技术。

2. 知识推理和验证的方法和技术。

3. 知识库的知识表示和表示语言。

4. 知识库的维护和更新策略。

5. 知识库构建中的挑战和解决方案。

三、知识库的应用领域知识库在各个领域都有广泛的应用,并对现实生活和工业生产等领域产生了巨大的影响。

例如,在医疗领域中,知识库可以帮助医生进行诊断和治疗,提高医疗水平。

在智能交通领域中,知识库可以为自动驾驶汽车提供交通规则和道路信息,提高行车安全性。

小点:1. 医疗领域中的知识库应用。

2. 金融领域中的知识库应用。

3. 教育领域中的知识库应用。

4. 智能交通领域中的知识库应用。

5. 其他领域中的知识库应用案例分析。

四、知识库的挑战和发展趋势尽管知识库在人工智能领域中发挥着重要作用,但它面临着一些挑战。

例如,如何保证知识的准确性和完整性,如何进行知识的更新和维护等。

知识图谱与智能图谱的应用

知识图谱与智能图谱的应用

知识图谱与智能图谱的应用随着大数据时代的到来,信息的浩瀚化和碎片化越来越成为一种难以逾越的壁垒。

传统的搜索引擎虽然可以通过关键字搜索来帮助用户找到相关信息,但是却无法提供更加智能、针对性更强的推荐和建议。

知识图谱和智能图谱的应用则是在这个背景下应运而生,为用户提供更加精准、智能的搜索、推荐和建议服务。

本文将深入探讨知识图谱和智能图谱的概念、原理和应用,并对其未来发展进行展望。

一、知识图谱的概念与原理知识图谱(Knowledge Graph)是一种将各种实体和概念以及它们之间的关系进行建模、组织和表示的知识库。

有别于传统的关系型数据库,知识图谱通常采用图形结构来组织和表示知识,以实现更加灵活、复杂的关系建模和查询。

知识图谱的核心思想在于利用大数据和人工智能技术,将海量的数据和知识进行有机整合和挖掘,揭示其中的潜在关联和模式,为用户提供更加准确、丰富的知识服务。

知识图谱的表示方式主要采用语义网络图的形式,即通过节点和边来表示实体和关系。

节点通常表示某个实体或概念,如人物、地理位置、事件等,而边则表示这些实体之间的关系,如人物之间的社交关系、地理位置之间的距离关系等。

不同类型的节点和边可通过自定义的层次结构来组织和分类,从而更好地反映实体之间的本质关系。

知识图谱的构建过程一般包括以下步骤:1.确定知识域范围:即确定构建知识图谱的领域或主题,如医疗、金融等。

2.数据采集和清洗:收集原始数据,对其进行清洗、筛选和分类,消除冗余和噪声数据。

3.知识抽取和建模:通过自然语言处理和机器学习等技术抽取有用的实体和关系,并将其进行建模和组织。

4.知识推理和推荐:基于知识图谱中的关系和属性,通过推理和推荐等方式为用户提供精准、智能的信息服务。

二、智能图谱的应用知识图谱的应用范围广泛,覆盖了许多领域,如自然语言处理、智能交互、信息检索、推荐系统等。

下面我们将以智能图谱的应用为例,来探讨其在实际场景中的应用和价值。

1.智能客服传统的客服服务通常采用人工操作和基于规则的问答系统,局限性很大。

人工智能基础 第二章 知识表示与知识图谱

人工智能基础 第二章 知识表示与知识图谱
是一个学生。
• 2.产生式表示法 • 产生式表示法又称规则表示法,表示一种“条件—结果”形式,是
目前应用最多的一种知识表示方法,也是一种比较成熟的表示方法。 • 产生式表示法适用于表示具有因果关系的知识,其一般形式为:前
件→后件,前件为条件,后件为结果,由逻辑运算符AND、OR、 NOT组成表达式。
图2-5 经典图结构和多关系图
知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关 系(Relation)”来表达图里的“边”。实体指的是现实世界中的事物, 比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某 种联系,比如人—“居住在”—北京、张三和李四是“朋友”、逻辑回归 是深度学习的“先导知识”等等。
属性值主要指对象指定属性的值。如 “面积”、“人口”、“首都”是几 种不同的属性, 960万平方公里是“面积”的属性值等。
现实世界中的很多场景非常适合用知识图谱来表达。比如一个社交网络图 谱里,如图2-6(a)所示,我们既可以有“人”的实体,也可以包含“公司” 实体。人和人之间的关系可以是“朋友”,也可以是“同事”关系。人和 公司之间的关系可以是“现任职”或者“曾任职”的关系。 类似的,一个 风控知识图谱可以包含“电话”、“公司”的实体,电话和电话之间的关 系可以是“通话”关系,而且每个公司它也会有固定的电话,
2.1 知识与知识表示
2.1.1 知识 2.1.2 知识表示 2.1.3 常用的知识表示方法
2.1.1 知识
• 机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不 是人类的专属,动物也具备感知能力,甚至某些感知能力比人类 更强,比如狗的嗅觉,机器一定程度也可以比人类更强。但认知 是人类的专属能力,也是机器实现人工智能的核心所在,知识的 价值就在于可以让机器在感知能力的基础上形成认知能力。

人工智能导论知到章节答案智慧树2023年哈尔滨工程大学

人工智能导论知到章节答案智慧树2023年哈尔滨工程大学

人工智能导论知到章节测试答案智慧树2023年最新哈尔滨工程大学第一章测试1.下列关于智能说法错误的是()参考答案:细菌不具有智能2.目前,智能的定义已经明确,其定义为:智能是个体能够主动适应环境或针对问题,获取信息并提炼和运用知识,理解和认识世界事物,采取合理可行的(意向性)策略和行动,解决问题并达到目标的综合能力。

()参考答案:错3.传统人工智能领域将人工智能划分为强人工智能与弱人工智能两大类。

所谓强人工智能指的就是达到人类智能水平的技术或机器,否则都属于弱人工智能技术。

()参考答案:对4.人类历史上第一个人工神经元模型为MP模型,由赫布提出。

()参考答案:错5.下列关于数据说法错误的是()参考答案:我们通常所说的数据即能够直接作为计算机输入的数据是模拟数据6.下列关于大数据的说法中正确的有()参考答案:大数据具有多样、高速的特征;“大数据时代”已经来临;“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产7.大数据在政府公共服务、医疗服务、零售业、制造业、以及涉及个人位置服务等领域都将带来可观的价值。

()参考答案:对8.人工智能在各个方面都有广泛应用,其研究方向也众多,下面属于人工智能研究方向的有()参考答案:语音识别;模式识别;机器学习;知识图谱9.机器人发展经历了程序控制机器人(第一代)、自适应机器人(第二代)、智能机器人(现代)三代发展历程。

()参考答案:对10.下列选项中属于人工智能的应用领域的有()参考答案:智能安防;智能农业;程序设计;智慧城市第二章测试1.生命起源于什么时候?()参考答案:45-35亿年之间2.人工智能使人类改造自然、适应自然的各类技术发展到最高阶段,智能技术使得工具变得有智能,促使技术在以指数级增长速度加速进化(加速回报定律)。

()参考答案:对3.对于人工智能的价值、作用与意义的说法错误的是:()参考答案:生命层面:促进人类社会整体向更高阶段文明加速进化;社会层面:促使人类自身由地球自然智能生命向更高阶的宇宙智能生命进化4.联结主义认为人的思维基元是符号,而不是神经元;人的认知过程是符号操作而不是权值的自组织过程。

人工智能之知识库

人工智能之知识库

之知识库本文档详细介绍了领域中知识库的相关信息,包括定义、分类、应用等方面。

以下是文档的具体章节:1.知识库的定义知识库是一种存储和组织知识的数据库,用于系统的学习和推理。

它可以包含各种类型的信息,如事实、规则、概念、关系等。

2.知识库的分类2.1 基于结构的知识库- 数据库:存储结构化数据的知识库,如关系数据库管理系统。

- 图数据库:用于存储和查询图结构数据的知识库,如社交网络分析中常用的图数据库。

2.2 基于语义的知识库- 本体库:用于表示和组织领域知识的知识库,如OWL (Web Ontology Language)。

- 语义图谱:用于描述实体和实体之间的关系的知识库,如Google的知识图谱。

3.知识库的应用3.1 自然语言处理- 问答系统:基于知识库的问答系统,通过查询知识库中的信息回答用户的问题。

- 文本:基于知识库的文本系统,通过结构化的知识来自然语言描述。

3.2 智能推荐- 商品推荐:利用知识库中的用户购买历史和商品信息,为用户推荐个性化商品。

- 电影推荐:根据用户的电影偏好和电影信息,为用户推荐符合其口味的电影。

3.3 知识图谱构建- 实体关系抽取:基于知识库中的文本信息,自动抽取实体和实体之间的关系。

- 知识图谱更新:根据新的数据源,更新知识库中的实体和关系信息。

附件:- 附件一:知识库系统架构图- 附件二:知识库查询接口文档法律名词及注释:- 知识库:指存储和组织知识的数据库。

- 数据库:用于存储结构化数据的电子系统。

- 图数据库:用于存储和查询图结构数据的数据库。

- 本体库:用于表示和组织领域知识的库。

- 语义图谱:用于描述实体和实体之间关系的图结构。

人工智能之知识图谱

人工智能之知识图谱

人工智能之知识图谱Research Report of Knowledge Graph目录图表目录 (4)摘要 (6)1.概念篇 (7)1.1.知识图谱概念和分类 (7)1.1.1.知识图谱的概念 (7)1.1.2.知识图谱的分类 (3)1.2.知识工程发展历程 (3)1.3.知识图谱的知识图谱 (6)2.技术人才篇 (10)2.1.知识表示与建模 (11)2.1.1.知识表示模型 (11)2.1.2.知识表示学习 (12)2.1.3.知识表示与建模人才介绍 (12)2.2.知识获取 (19)2.2.1.实体识别与链接 (19)2.2.2.实体关系学习 (20)2.2.3.事件知识学习 (21)2.2.4.知识获取人才介绍 (22)2.3.知识融合 (29)2.3.1.本体匹配 (30)2.3.2.实例匹配 (30)2.3.3.知识融合人才介绍 (30)2.4.知识图谱查询和推理计算 (36)2.4.1.知识推理 (36)2.4.2.知识存储和查询 (37)2.4.3.知识查询与推理人才介绍 (38)2.5.知识应用 (44)2.5.1.典型应用 (44)2.5.2.通用和领域知识图谱 (45)2.5.3.知识应用人才介绍 (46)2.6.高引学者及论文介绍 (51)2.6.1.高引学者介绍 (51)2.6.2.高引论文介绍 (56)2.7.会议奖项介绍 (57)3.应用篇 (67)3.1.通用知识图谱应用 (67)3.2.3.企业商业 (70)3.2.4.创业投资 (71)3.2.5.生物医疗 (72)4.趋势篇 (73)参考文献 (76)附录 (78)图表目录图 1 知识工程发展历程 (3)图 2 Knowledge Graph 知识图谱 (9)图 3 知识图谱细分领域学者选取流程图 (10)图 4 基于离散符号的知识表示与基于连续向量的知识表示 (11)图 5 知识表示与建模领域全球知名学者分布图 (13)图 6 知识表示与建模领域全球知名学者国家分布统计 (13)图7 知识表示与建模领域中国知名学者分布图 (14)图8 知识表示与建模领域各国知名学者迁徙图 (14)图9 知识表示与建模领域全球知名学者h-index 分布图 (15)图10 知识获取领域全球知名学者分布图 (23)图11 知识获取领域全球知名学者分布统计 (23)图12 知识获取领域中国知名学者分布图 (23)图13 知识获取领域各国知名学者迁徙图 (24)图14 知识获取领域全球知名学者h-index 分布图 (24)图15 语义集成的常见流程 (29)图16 知识融合领域全球知名学者分布图 (31)图17 知识融合领域全球知名学者分布统计 (31)图18 知识融合领域中国知名学者分布图 (31)图19 知识融合领域各国知名学者迁徙图 (32)图20 知识融合领域全球知名学者h-index 分布图 (32)图21 知识查询与推理领域全球知名学者分布图 (39)图22 知识查询与推理领域全球知名学者分布统计 (39)图23 知识查询与推理领域中国知名学者分布图 (39)图24 知识表示与推理领域各国知名学者迁徙图 (40)图25 知识查询与推理领域全球知名学者h-index 分布图 (40)图26 知识应用领域全球知名学者分布图 (46)图27 知识应用领域全球知名学者分布统计 (46)图28 知识应用领域中国知名学者分布图 (47)图29 知识应用领域各国知名学者迁徙图 (47)图30 知识应用领域全球知名学者h-index 分布图 (48)图31 行业知识图谱应用 (68)图32 电商图谱Schema (69)图33 大英博物院语义搜索 (70)图34 异常关联挖掘 (70)图35 最终控制人分析 (71)图36 企业社交图谱 (71)图37 智能问答 (72)图38 生物医疗 (72)图39 知识图谱领域近期热度 (75)图40 知识图谱领域全局热度 (75)表1 知识图谱领域顶级学术会议列表 (10)表2 知识图谱引用量前十论文 (56)表3 常识知识库型指示图 (67)摘要知识图谱(Knowledge Graph)是人工智能重要分支知识工程在大数据环境中的成功应用,知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。

一文打尽知识图谱(超级干货,建议收藏!)

一文打尽知识图谱(超级干货,建议收藏!)

⼀⽂打尽知识图谱(超级⼲货,建议收藏!)©原创作者 | 朱林01 序⾔知识是⼈类在实践中认识客观世界的结晶。

知识图谱(Knowledge Graph, KG)是知识⼯程的重要分⽀之⼀,它以符号形式结构化地描述了物理世界中的概念及其相互关系。

知识图谱的基本组成形式为<实体,关系,实体>的三元组,实体间通过关系相互联结,构成了复杂的⽹状知识结构。

图1 知识图谱组成复杂的⽹状知识结构知识图谱从萌芽思想的提出到如今已经发展了六⼗多年,衍⽣出了许多独⽴的研究⽅向,并在众多实际⼯程项⽬和⼤型系统中发挥着不可替代的重要作⽤。

如今,知识图谱已经成为认知和⼈⼯智能⽇益流⾏的研究⽅向,受到学术界和⼯业界的⾼度重视。

本⽂对知识图谱的历史、定义、研究⽅向、未来发展、数据集和开源库进⾏了全⾯的梳理总结,值得收藏。

02 简史图2 知识库简史图2展⽰了知识图谱及其相关概念和系统的历史沿⾰,其在逻辑和⼈⼯智能领域经历了漫长的发展历程。

图形化知识表征(Knowledge Representation)的思想最早可以追溯到1956年,由Richens⾸先提出了语义⽹(Semantic Net)的概念。

逻辑符号的知识表⽰形式可以追溯到1959年的通⽤问题求解器(General Problem Solver, GPS)。

20世纪70年代,专家系统⼀度成为研究热点,基于知识推理和问题求解器的MYCIN系统是当时最著名的基于规则的医学诊断专家系统之⼀,该专家系统知识库拥有约600条医学规则。

此后,20世纪80年代早期,知识表征经历了Frame-based Languages、KL-ONE Frame Language的混合发展时期。

⼤约在这个时期结束时的1984年,Cyc项⽬出现了,该项⽬最开始的⽬标是将上百万条知识编码成机器可⽤的形式,⽤以表⽰⼈类常识,为此专门设计了专⽤的知识表⽰语⾔CycL,这种知识表⽰语⾔是基于⼀阶关系的。

2024版较好的人工智能PPT

2024版较好的人工智能PPT
研究如何让计算机从图像或视频 中获取信息、理解内容并作出决
策的科学。
发展历程
从早期的图像处理到现代深度学 习技术的应用,计算机视觉经历 了多个阶段的发展,逐渐实现了 从简单图像处理到复杂场景理解
的跨越。
应用领域
广泛应用于智能安防、自动驾驶、 医疗影像分析、工业质检等领域。
图像识别、目标检测和跟踪技术方法
当前应用领域及市场前景
应用领域
人工智能已广泛应用于金融、医疗、教育、交通、安防等领域,为人们提供了 更加便捷、高效、智能的服务。
市场前景
随着技术的不断发展和应用场景的不断拓展,人工智能市场将持续增长,成为 未来科技产业的重要支柱。同时,人工智能也将推动相关产业的发展,形成更 加完善的产业链和生态系统。
化学习、迁移学习等进行融合,以拓展其应用领域。
03
自然语言处理技术探讨
自然语言处理定义及挑战性问题
自然语言处理(NLP)定义
研究计算机处理、理解和运用人类自然语言的一门综合性科学 技术。
挑战性问题
包括词义消歧、文本蕴含、指代消解等,这些问题都是自然语 言处理中需要解决的难题。
文本挖掘、情感分析和语义理解技术方法
较好的人工智能PPT
目录
• 人工智能概述与发展历程 • 机器学习原理与技术介绍 • 自然语言处理技术探讨 • 计算机视觉在人工智能中应用 • 人工智能伦理、法律和社会影响 • 知识图谱与认知智能发展趋势
01
人工智能概述与发展历程
人工智能定义及特点
定义
人工智能是一种模拟人类智能的技 术和系统,能够执行复杂的任务, 包括学习、推理、理解自然语言、 识别图像、语音识别等。
现状分析
对各国人工智能法律法规进行梳理和比较, 总结经验和教训。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

知识图谱技术原理介绍•莫扎特•2016-01-09 17:31:55•大数据技术•评论(0)•作者:王昊奋近两年来,随着Linking Open Data[1] 等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。

互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。

在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。

下面我将从以下几个方面来介绍知识图谱:知识图谱的表示和在搜索中的展现形式,知识图谱的构建和知识图谱在搜索中的应用等,从而让大家有机会了解其内部的技术实现和各种挑战。

知识图谱的表示和在搜索中的展现形式正如Google的辛格博士在介绍知识图谱时提到的:“The world is not made of strings , but is made of things.”,知识图谱旨在描述真实世界中存在的各种实体或概念。

其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。

每个属性-值对(attribute-value pair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。

知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。

上述图模型可用W3C提出的资源描述框架RDF[2] 或属性图(property graph)[3] 来表示。

知识图谱率先由Google提出,以提高其搜索的质量。

为了更好地理解知识图谱,我们先来看一下其在搜索中的展现形式,即知识卡片(又称Knowledge Card)。

知识卡片旨在为用户提供更多与搜索内容相关的信息。

更具体地说,知识卡片为用户查询中所包含的实体或返回的答案提供详细的结构化摘要。

从某种意义来说,它是特定于查询(query specific)的知识图谱。

例如,当在搜索引擎中输入“姚明”作为关键词时,我们发现搜索结果页面的右侧原先用于置放广告的地方被知识卡片所取代。

广告被移至左上角,而广告下面则显示的是传统的搜索结果,即匹配关键词的文档列表。

这个布局上的微调也预示着各大搜索引擎在提高用户体验和直接返回答案方面的决心。

【三大搜索引擎关于姚明的知识卡片(略)】虽说三大搜索引擎在知识卡片的排版和内容展现上略有不同,但是它们都列出了姚明的身高、体重、民族等属性信息。

此外,它们均包含“用户还搜索了”或“其他人还搜”的功能来展现相关的人物。

该功能允许用户去浏览其他与姚明相关的人物的详细信息。

细心的读者也发现Google在其知识卡片中也展示了很多与姚明相关的图片,以图文并茂的方式来展示姚明的方方面面。

百度则结合了百度风云榜的信息,列出了姚明的类别(体坛人物)及其百度指数(今日排名和今日搜索热度等信息)。

在搜索结果页面的左上角(在图中未给出),百度还展示了其特有的专题搜索,包含了与姚明相关的百科、图片、微博、新闻、音乐、贴吧和视频等七大类的结果,基本涵盖了用户最基本的需求。

搜狗在列出与姚明相关的百科、图片,电影和最新相关消息等专题的同时,其知识卡片额外显示了诸如“主持电视节目”、“效力篮球队”、“人物关系”等各种细粒度的语义关系。

当遇到含有歧义的用户查询时,知识卡片还会列出其他可能的查询目标对象。

在上面的例子中,搜狗还列出了一项“您是否要找”的功能,列出一位也叫姚明的一级作曲家。

该功能用于去歧义,在显示最相关实体的同时也给出其他可能的对象,达到去歧义的作用。

当搜索“李娜”或“长城”时,Google和百度也在其知识卡片下方展现了类似的功能。

除了给出著名网球运动员李娜和万里长城之外,它们还列出歌手李娜和长城汽车供用户选择和浏览。

更值得一提的是,当在搜狗知立方中输入“姚明的老婆的女儿的身高”如此复杂的查询时,其会直接返回其女儿的姓名(姚沁蕾)以及其身高(110cm),并给出推理说明“叶莉的女儿是姚沁蕾”。

如此详实的说明不仅为返回的答案提供了很好的解释,从另一个侧面也展示了知识图谱的强大,其不仅能识别出运动员姚明,也能抽取出关系“老婆”和“女儿”和属性“身高”等信息。

当我们将查询修改为“姚明的妻子的女儿的身高”时,依然返回相同的结果,这也意味着知识图谱知道“妻子”和“老婆”代表相同的含义。

通过上述的介绍,大家应该对知识图谱的表示以及其在搜索中的展现形式有了更深的了解。

接着,我将介绍知识图谱的构建以及如何在搜索中应用知识图谱返回相应的知识卡片以及答案。

知识图谱的构建1. 知识图谱的规模据不完全统计,Google知识图谱到目前为止包含了5亿个实体和35亿条事实(形如实体-属性-值,和实体-关系-实体)。

其知识图谱是面向全球的,因此包含了实体和相关事实的多语言描述。

不过相比占主导的英语外,仅包含其他语言(如中文)的知识图谱的规模则小了很多。

与此不同的是,百度和搜狗主要针对中文搜索推出知识图谱,其知识库中的知识也主要以中文来描述,其规模略小于Google的。

2.知识图谱的数据来源为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验,我们不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现并添加新的知识。

在这种背景下,知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。

这些数据普遍质量较高,更新比较慢。

而另一方面,知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。

此外,通过搜索日志(query log)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。

相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。

这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核加入到知识图谱中。

a) 百科类数据维基百科[4] ,通过协同编辑,已经成为最大的在线百科全书,其质量与大英百科媲美。

可以通过以下方式来从维基百科中获取所需的内容:通过文章页面(Article Page)抽取各种实体;通过重定向页面(Redirect Page)获得这些实体的同义词(又称Synonym);通过去歧义页面(Disambiguation Page)和内链锚文本(Internal Link Anchor Text)获得它们的同音异义词(又称Homonym);通过概念页面(Category Page)获得各种概念以及其上下位(subclass)关系;通过文章页面关联的开放分类抽取实体所对应的类别;通过信息框(Infobox)抽取实体所对应的属性-值对和关系-实体对。

类似地,从百度百科和互动百科抽取各种中文知识来弥补维基百科中文数据不足的缺陷。

此外,Freebase[5] 是另一个重要的百科类的数据源,其包含超过3900万个实体(其称为Topics)和18亿条事实,规模远大于维基百科。

对比之前提及的知识图谱的规模,我们发现仅Freebase一个数据源就构成了Google知识图谱的半壁江山。

更为重要的是,维基百科所编辑的是各种词条,这些词条以文章的形式来展现,包含各种半结构化信息,需要通过事先制定的规则来抽取知识;而Freebase则直接编辑知识,包括实体及其包含的属性和关系,以及实体所属的类型等结构化信息。

因此,不需要通过任何抽取规则即可获得高质量的知识。

虽然开发Freebase的母公司MetaWeb于2010年被Google收购,Freebase还是作为开放的知识管理平台独立运行。

所以百度和搜狗也将Freebase加入到其知识图谱中。

b) 结构化数据除了百科类的数据,各大搜索引擎公司在构建知识图谱时,还考虑其他结构化数据。

其中,LOD项目在发布各种语义数据的同时,通过owl:sameAs将新发布的语义数据中涉及的实体和LOD中已有数据源所包含的潜在同一实体进行关联,从而实现了手工的实体对齐(entity alignment)。

LOD不仅包括如DBpedia[6] 和YAGO[7] 等通用语义数据集,还包括如MusicBrainz[8] 和DrugBank[9] 等特定领域的知识库。

因此,Google等通过整合LOD中的(部分)语义数据提高知识的覆盖率,尤其是垂直领域的各种知识。

此外,Web上存在大量高质量的垂直领域站点(如电商网站,点评网站等),这些站点被称为Deep Web[10]。

它们通过动态网页技术将保存在数据库中的各种领域相关的结构化数据以HTML表格的形式展现给用户。

各大搜索引擎公司通过收购这些站点或购买其数据来进一步扩充其知识图谱在特定领域的知识。

这样做出于三方面原因:其一、大量爬取这些站点的数据会占据大量带宽,导致这些站点无法被正常访问;其二、爬取全站点数据可能会涉及知识产权纠纷;最后,相比静态网页的爬取,Deep Web爬虫需要通过表单填充(Form Filling)技术来获取相关内容,且解析这些页面中包含的结构化信息需要额外的自动化抽取算法,具体细节在下一节描述。

c) 半结构化数据挖掘AVP虽然从Deep Web爬取数据并解析其中所包含的结构化信息面临很大的挑战,各大搜索引擎公司仍在这方面投入了大量精力。

一方面,Web上存在大量长尾的结构化站点,这些站点提供的数据与最主流的相关领域站点所提供的内容具有很强的互补性,因此对这些长尾站点进行大规模的信息抽取(尤其是实体相关的属性-值对的抽取)对于知识图谱所含内容的扩展是非常有价值的。

另一方面,中文百科类的站点(如百度百科等)的结构化程度远不如维基百科,能通过信息框获得AVP的实体非常稀少,大量属性-值对隐含在一些列表或表格中。

一个切实可行的做法是构建面向站点的包装器(Site-specific Wrapper)。

其背后的基本思想是:一个Deep Web站点中的各种页面由统一的程序动态生成,具有类似的布局和结构。

利用这一点,我们仅需从当前待抽取站点采样并标注几个典型详细页面(Detailed Pages),利用这些页面通过模式学习算法(Pattern Learning)自动构建出一个或多个以类Xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实现自动化的AVP抽取。

对于百科类站点,我们可以将具有相同类别的页面作为某个“虚拟”站点,并使用类似的方法进行实体AVP的抽取。

自动学习获得的模式并非完美,可能会遗漏部分重要的属性,也可能产生错误的抽取结果。

相关文档
最新文档