基于知识的智能问答技术

合集下载

基于知识图谱的智能问答技术研究与应用

基于知识图谱的智能问答技术研究与应用

基于知识图谱的智能问答技术研究与应用随着人工智能技术的不断发展和普及,智能问答技术已经成为人们生活中不可或缺的一部分。

基于知识图谱的智能问答技术更是成为了当前研究的热点之一。

下面,本文将从知识图谱和智能问答两个方面来探讨基于知识图谱的智能问答技术的研究与应用。

一、知识图谱的介绍知识图谱(Knowledge Graph)是一种语义网技术,它利用语义信息将多个实体之间的关系进行建模,形成图形结构。

知识图谱不仅仅是一个庞大的知识库,同时也是一种强大的语义计算工具。

知识图谱的构建离不开人工智能技术的支持,例如自然语言处理、机器学习、图像处理等技术,这些技术的发展也为知识图谱的发展提供了坚实的技术基础和理论支持。

二、智能问答技术的介绍智能问答技术(Intelligent Question Answering)是一种基于人工智能技术的问答系统,它可以对用户提出的自然语言问题进行理解和分析,并从庞大的知识库中获取相关知识,最终给出准确的答案。

在智能问答技术的研究中,知识图谱的应用功不可没。

通过将知识图谱和智能问答技术结合起来,可以构建出高效准确的智能问答系统,为人们提供便捷的服务。

三、基于知识图谱的智能问答技术的研究1. 数据预处理在基于知识图谱的智能问答技术研究中,数据预处理是一个非常重要的步骤。

在数据预处理中,需要对原始数据进行清洗和标注,最终得到结构化的数据。

通过这些数据,可以构建出知识图谱,并为后续的智能问答提供良好的数据基础。

2. 知识图谱的构建知识图谱的构建是基于知识图谱的智能问答技术研究中的关键步骤。

知识图谱的构建需要借助自然语言处理、机器学习等人工智能技术,对大量的结构化数据进行处理,最终构建出一个包含众多知识点的知识图谱。

3. 问答匹配技术在基于知识图谱的智能问答技术研究中,问答匹配技术是非常重要的。

问答匹配技术可以对用户输入的问题进行解析和匹配,从而为用户提供准确的答案。

通过使用自然语言处理、语义匹配等技术,可以更好地解决问答匹配难题。

基于知识图谱的智能问答机器人研究

基于知识图谱的智能问答机器人研究

基于知识图谱的智能问答机器人研究随着人工智能技术的不断发展,智能问答机器人逐渐成为了人们研究的热门领域。

然而,如何让机器人具备可靠的问答能力,一直是制约其发展的难点之一。

传统的问答系统通常采用基于规则的方法对问题进行回答,但这种方法不仅效率低下,而且无法涵盖各类问答场景。

为此,研究者们开始尝试利用知识图谱来设计智能问答机器人,以期实现更加准确、自然、快速的问答。

本文将从这一角度切入,介绍基于知识图谱的智能问答机器人的相关研究。

一、背景介绍知识图谱是一种结构化的语义网络,它能够表达复杂的语义关系。

在知识图谱中,各种实体之间的关系都可以被明确地表示出来。

因此,基于知识图谱的智能问答机器人能够通过对知识图谱的理解,更好地理解问题并给出准确的答案。

此外,知识图谱还能够自动扩充其本身的知识,并引导问答机器人进行更加精确的回答。

二、技术架构基于知识图谱的智能问答机器人通常采用如下技术架构:首先,构建一个知识图谱,将其存储在一个专门的知识库中,如RDF、OWL等格式;然后,将用户提出的问题转化为语义表示,与知识图谱中的实体、关系进行匹配;最后,基于匹配结果,生成符合用户需要的答案并返回。

三、研究进展基于知识图谱的智能问答机器人在近几年取得了长足的进展。

下面简要介绍一些相关的研究。

(一)匹配算法知识图谱中的实体、属性、关系等都可以被表达为三元组的形式,如“<实体1,属性,实体2>”。

如何对用户所提出的问题与知识图谱中的三元组进行匹配,一直是该领域研究的重点之一。

近年来,受到深度学习的影响,基于神经网络的语义匹配算法被广泛应用于匹配问题和知识图谱实体。

这些算法通常将问题表示为向量或矩阵形式,将知识图谱中的实体和属性表示为向量形式,然后通过计算向量之间的相似度来进行匹配。

(二)语义推理对于复杂问题,单一的匹配算法往往无法满足要求。

因此,研究者们开始探索更深层次的语义推理方法,以期提高机器人的问答能力。

语义推理旨在基于已有的知识,通过推理出新的知识。

基于领域知识的智能问答系统构建与优化

基于领域知识的智能问答系统构建与优化

基于领域知识的智能问答系统构建与优化随着人工智能技术的发展,智能问答系统越来越受人们的关注和重视。

智能问答系统是一种通过人工智能技术和自然语言处理技术实现的能够回答人们提出的问题的系统。

智能问答系统的核心是知识库,而基于领域知识的智能问答系统具有更高的精确度和针对性。

本文将从构建和优化基于领域知识的智能问答系统两个方面展开论述。

一、构建基于领域知识的智能问答系统1. 知识抽取构建基于领域知识的智能问答系统的第一步是获取和构建知识库。

知识库是智能问答系统的核心,是回答问题的基础。

而获取和构建知识库的主要方法之一是知识抽取。

知识抽取指从文本中抽取结构化的信息,将其转化为可处理的形式。

知识抽取的过程包括实体识别、关系抽取等步骤,通过这些步骤可以得到领域内的实体和实体之间的关系。

2. 知识表示获取到领域内的实体和实体之间的关系后,需要对知识进行表示。

知识表示是指将知识转化为计算机可以理解和处理的形式。

常用的知识表示方法包括本体论和知识图谱。

本体论是一种形式化的知识表示方法,它通过定义类别、属性、关系等概念来描述世界,使得计算机能够理解和推理出逻辑关系。

知识图谱是一种图形化的知识表示方法,它通过将实体和关系转化为图形,展现出实体之间的关系。

3. 问答匹配构建好了知识库后,需要将用户提出的问题和知识库中的信息进行匹配,找到与问题相关的答案。

这个过程被称为问答匹配。

问答匹配的方法包括基于规则、基于模板、基于语义等多种方法。

其中,基于语义的方法是近年来被广泛使用的一种方法,它使用自然语言处理技术将用户提出的问题进行语义分析,再与知识库中的信息进行语义匹配。

二、优化基于领域知识的智能问答系统1. 实时更新知识库知识库的准确性和完整性对智能问答系统的质量有着重要的影响。

在实际应用中,领域内的知识是时刻在更新和变化的,因此需要保持知识库的实时性。

实时更新知识库是优化基于领域知识的智能问答系统的有效方法之一。

在知识库中加入实时的、有用的知识,不仅可以提高问题回答的精确度和速度,还可以让系统更加智能化。

基于本体知识库的智能问答系统研究

基于本体知识库的智能问答系统研究

基于本体知识库的智能问答系统研究智能问答系统是一种人工智能技术,旨在让机器能够理解和回答人类提出的问题。

基于本体知识库的智能问答系统是将本体知识表示和推理与问答系统相结合,以提供更精确和准确的答案。

本文将探讨基于本体知识库的智能问答系统的研究现状和发展趋势。

近年来,随着人工智能技术的快速发展,智能问答系统在各个领域得到了广泛的应用。

基于本体知识库的智能问答系统是其中一种重要的研究方向。

本体是一种形式化的知识表示方式,将领域知识组织成概念和关系的集合。

通过将本体嵌入到问答系统中,可以使系统更好地理解和回答用户提出的问题。

目前,基于本体知识库的智能问答系统主要分为两个阶段:信息抽取和问答生成。

在信息抽取阶段,系统从本体知识库中提取和整理与问题相关的知识片段。

这个过程通常涉及到实体识别、关系抽取和知识推理等技术。

在问答生成阶段,系统根据从知识库中抽取的知识片段,生成具体的答案。

这个过程通常涉及到自然语言处理和生成、推理和排序等技术。

随着人工智能技术的发展,基于本体知识库的智能问答系统面临一些挑战和问题。

首先,如何构建面向用户需求的本体知识库是一个重要的问题。

本体知识库需要覆盖广泛的领域,并且与用户的实际需求相匹配。

其次,如何有效地从本体知识库中提取和整理与问题相关的知识片段也是一个挑战。

知识库往往非常庞大且复杂,要快速准确地找到与问题相关的知识片段并不是一件容易的事情。

最后,如何生成准确、详细的答案也是一个重要问题。

由于自然语言的复杂性,生成可读且准确的答案仍然是一个具有挑战性的任务。

为了克服这些挑战和问题,一些研究者提出了一些创新的方法和技术。

例如,一些研究者提出了基于图谱的方法来构建本体知识库,将实体、属性和关系组织成图的形式。

这种方法可以更好地表示实体之间的关联和依赖关系。

另一些研究者提出了基于深度学习的方法来进行信息抽取和问答生成。

深度学习模型可以从大量的数据中学习模式和规律,并生成更准确的答案。

基于知识库的智能问答系统设计与实现

基于知识库的智能问答系统设计与实现

基于知识库的智能问答系统设计与实现随着人工智能技术的不断发展,越来越多的人开始将目光投向了机器人和智能问答系统这些科技前沿领域。

智能问答系统对于企业和个人来说都具有非常广泛的应用场景,可以有效地提高工作效率、节省时间和降低成本。

本文将从技术实现层面出发,探讨如何基于知识库设计和实现一个高效、智能的问答系统。

一、智能问答系统的基本概念智能问答系统是一种能够自动地处理自然语言(NLP)输入并输出相应答案的软件应用程序。

在用户和问答系统之间进行沟通交流时,系统利用自然语言处理技术分析和理解问题,从知识库中检索相关信息,并根据问题类型和语义关系生成相应答案。

随着机器学习和深度学习技术的不断发展,智能问答系统在诸多领域中有着广泛的应用,如客服机器人、智能家居、人工助手等。

目前智能问答系统中最普遍的类型分为两类:基于规则和基于机器学习。

基于规则的智能问答系统是通过在系统中内置人类编写的规则集,对输入问题进行逐一匹配和处理,最终返回相应答案。

这种方法需要将所有的信息都先定义好,才能准确地匹配到答案,因此难以覆盖所有的问题类型和场景,而且维护和更新规则集也比较复杂。

基于机器学习的智能问答系统则是利用机器学习技术对海量的语料数据进行学习,提取问题和答案之间的语义关系,从而实现高效的问答匹配。

这种方法通过学习数据集中的相关信息,能够更好地适应自然语言环境的复杂性和变化性,提高了问答系统的健壮性和可扩展性。

二、基于知识库的智能问答系统基于知识库的智能问答系统是一种利用已有领域专业知识构建的知识库来回答用户问题的问答系统。

知识库可以是行业标准、法规政策、常见问题等,通过将知识结构化和存储,再借助问答程序获取问题答案。

在实际应用中,比较典型的知识库型问答系统有百度知道、Quora等问答社区。

这类问答系统一般都是通过手动或自动构造知识库来实现问题的快速响应和准确性,能够有效地提高用户对问题的掌握和领域知识的理解。

但这种方法也存在一些问题,比如完整性、准确性、更新速度等方面并不能完全保证。

基于知识图谱的智能问答系统设计

基于知识图谱的智能问答系统设计

基于知识图谱的智能问答系统设计引言随着人工智能技术的快速发展和应用,智能问答系统已经成为了人工智能领域中的重要应用之一。

基于大数据和自然语言处理技术,智能问答系统能够利用人类的语言信息,结合领域知识,对用户提出的自然语言问题进行解答和处理。

而在智能问答系统中,知识图谱技术则是非常重要的一部分。

本文将从智能问答系统的概念、知识图谱的意义以及基于知识图谱的智能问答系统的设计方案等方面详细讲解。

一、智能问答系统概念及其应用智能问答系统,简称QA系统,是一种基于计算机智能技术实现的自然语言问答技术应用。

它可以实现用户提出问题并自动寻找答案的功能,也可以在寻找答案的同时提出更深层次的问题,从而进行更全面的解答。

智能问答系统的应用已经非常广泛。

例如,常见的智能客服、智能咨询、智能导购、智能医疗等都是智能问答系统的具体应用。

二、知识图谱的意义知识图谱,即Knowledge Graph,是指将实体、属性和关系等形成的具有结构化的知识表示形式。

在知识图谱中,每个实体都有所属的领域,而每个实体之间的关系也被准确地表示出来。

这种表示形式使得计算机能够理解和利用领域知识,进而实现更加精确的智能问答。

知识图谱的意义在于,它能够帮助人工智能系统更好地理解和利用信息,进而实现智能问答系统更加准确和精细的答案。

同时,知识图谱也能够帮助计算机更好地理解语言表达,从而提高自然语言处理的准确度。

三、基于知识图谱的智能问答系统的设计方案基于知识图谱的智能问答系统应具备以下特点:1. 实体和关系的提取在设计智能问答系统时,首先应该能够识别问题中所涉及到的实体和关系。

这样可以为系统后续的问题解答以及信息处理奠定基础。

2. 结合语言模型理解用户意图在理解问题的实体和关系之后,需要结合对于语言模型的理解及其他信息消歧技术,进一步理解用户的意图。

这样可以更好地把问题转化为计算机能够处理和解答的问题。

3. 知识图谱相似度计算在系统理解用户问题之后,往往需要查找知识图谱中与问题相关的实体和关系。

基于知识图谱的智能问答机器人设计与开发

基于知识图谱的智能问答机器人设计与开发

基于知识图谱的智能问答机器人设计与开发智能问答机器人是一种机器学习技术在自然语言处理领域的应用,通过从大规模数据中学习知识,让机器学会如何理解人类语言并根据用户的提问进行自然回复。

与传统的搜索引擎不同,智能问答机器人可以提供更加智能化的服务,与用户进行更加自然的交互,为用户提供更加智能、更加定制化的答案。

基于知识图谱的智能问答机器人通过构建语义关系模型、知识抽取引擎以及面向问答系统的自然语言处理引擎三个子系统来完成问答功能的实现。

其中,语义关系模型是构建整个知识图谱的基础。

它包括知识的实体、属性和关系,并使用概念图表达实体之间的关系。

因此,需要合理、精准地进行实体识别和关系抽取。

一般来说,可以采用 web 爬虫,从互联网上获得分类体系、词汇信息和思想内涵等原始知识,再使用这些原始知识构建语义关系模型。

第二个子系统是针对问答系统的自然语言处理引擎。

它可以进行自然语言问答、文本分析、词向量训练等能力,为问答系统提供支持。

因此,在构建自然语言处理引擎时,需要针对端到端模型进行设计和优化。

自然语言处理引擎的好坏直接决定了智能问答机器人的问答能力,因此,需要采用优秀的算法和技术,比如 BERT、RoBERTa等。

第三个子系统是知识抽取引擎。

知识抽取引擎通过识别用户问题中的实体和属性信息,将其与知识图谱中的实体和属性进行匹配,从而得出最终答案。

在进行知识抽取时,需要结合具体场景和实体属性等因素,进行综合分析和判断。

在整个知识图谱的构建过程中,需要采用图像化的图谱建模工具进行图谱的构建和管理。

这些工具可以帮助开发者快速构建全功能的知识图谱,同时可以通过可视化的方式进行统计和分析。

总体而言,基于知识图谱的智能问答机器人设计和开发是一个相对复杂的工程,需要需要团队合作进行。

通过有序的分工协作和优秀的技术和算法,可以实现智能问答机器人的功能,提高用户体验,为人类社会的生产生活带来便利。

基于知识图谱的智能问答系统构建与应用

基于知识图谱的智能问答系统构建与应用

基于知识图谱的智能问答系统构建与应用在当前信息大爆炸的时代,人们获取信息的方式愈加多元和复杂。

在这样的背景下,智能问答系统作为一种人工智能的应用,获得了越来越多的关注和重视。

其中,基于知识图谱的智能问答系统,已经成为了当前研究的热点之一。

一、知识图谱的概念及构建技术知识图谱(knowledge graph)是指以实体和实体之间的关系为基础,构建出的一种语义化的图结构。

知识图谱的构建,需要从多个文本数据源抽取出实体及其属性,并通过对实体和属性之间的关系进行提取和建模,形成一个图形结构。

知识图谱与传统的语义网络不同之处在于,它具有更加丰富的内容表示能力,可以在不同领域的应用中发挥重要作用。

构建知识图谱的过程,可以分为实体识别、关系提取、统一命名实体、跨领域实体链接和知识推理等阶段。

其中,实体识别阶段是指从文本中提取相关有用实体的过程;关系提取阶段则是识别和提取实体之间的关系。

统一命名实体,是将不同来源及描述方式的同一实体统一起来。

跨领域实体链接是指将不同语言、领域、时间的相同实体链接起来。

最后,知识推理则是在知识图谱上进行规则推理,从而实现知识的进一步挖掘和发掘。

二、基于知识图谱的智能问答系统的构建基于知识图谱的智能问答系统,就是利用知识图谱的信息,通过自然语言处理技术,实现用户的问题与知识图谱中的实体之间的匹配,从而回答用户的问题。

该系统的构建可以分为问题分类、语义分析、答案生成和答案排序等环节。

其中,问题分类阶段是指将用户的问题分类到相应领域。

语义分析则是将用户的问题转换成对知识图谱的查询语言。

答案生成可以通过对知识图谱上相关实体及其属性的查询结果进行转换,生成符合用户需求的答案。

最后,为了保证生成的答案有效性和可靠性,需要对答案进行排序和评价。

三、基于知识图谱的智能问答系统的应用基于知识图谱的智能问答系统已经在多个领域得到了广泛的应用。

例如,在医疗领域,借助知识图谱的知识库,智能问答系统可以帮助医生对病例进行分析和诊断;在金融领域,基于知识图谱的智能问答系统可以有效地回答投资者的疑问,并提供个性化的理财建议;在旅游领域,基于知识图谱的智能问答系统则可以为游客提供旅游咨询和行程规划等服务。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

题目:基于知识的智能问答技术(PDF)作者:许坤,冯岩松(北京大学)————————————————————作者简介:许坤,北京大学计算机科学技术研究所博士生,研究方向为基于知识库的智能问答技术,已连续三年在面向结构化知识库的知识问答评测QALD-4, 5, 6中获得第一名。

冯岩松,北京大学计算机科学与技术研究所讲师。

2011年毕业于英国爱丁堡大学,获得信息科学博士学位。

主要研究方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用;研究小组已连续三年在面向结构化知识库的知识问答评测QALD中获得第一名;相关工作已发表在TPAMI、ACL、EMNLP等主流期刊与会议上。

作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863计划项目。

分别在2014 和2015 年获得IBM Faculty Award。

引言近年来,信息抽取技术的快速发展使得快速构建大规模结构化、半结构化知识库成为可能。

一大批结构化知识库如雨后春笋般涌现出来,如Google Knolwedge Graph (Freebase)、Yago,DBpedia、微软ProBase、搜狗知立方及百度等企业内部的知识图谱等。

同时,这些大规模知识库也被应用于关联检索、个性化推荐、知识问答等任务中。

相比于传统基于文本检索的问答系统,利用知识库回答自然语言问题可以为用户提供更精确、简洁的答案,因此一直受到学术界和工业界的广泛关注。

目前基于知识库的问答技术可以大致分为两类。

第一类基于语义解析的方法。

这类方法通过学习相关语法将自然语言转问题转换成可以用来描述语义的形式化语言,如逻辑表达式等。

构建这样的语义解析器需要大量的标注数据,例如,自然语言问题及其对应的语义描述形式。

然而,针对Freebase这样大规模的结构化知识库,在实际中很难收集到足够多的高质量训练数据。

另外,语义描述形式与知识库的结构之间的不匹配也是这类方法普遍遇到的一个问题,例如,在Freebase中并没有“爸爸”或“妈妈”这样的谓词关系,只有“父母”,因此,如果想表示“A 是B的母亲”这样的关系,则需明确表示为“<B,父母,A>” 并且“<A, 性别, 女性>”。

另一类知识问答技术是传统的基于信息检索的方法。

这类方法不会将自然语言问题完全转换成形式化的语义描述,而是首先利用实体链接技术从知识库中收集候选答案集合,然后构建排序模型对候选答案进行排序。

因为不需要完整地解析自然语言问题的语义结构,因此,这类方法构造训练数据的过程相对简单,只需收集问题答案对即可。

实验表明,基于检索的方法对语义简单的自然语言问题比较有效,但是难以处理语义结构复杂的问题,尤其是包含多个实体和关系的自然语言问题。

例如,对于自然语言问题“What mountain is the highest in North America”,检索类的方法由于缺乏对highest的正确解析,通常会将所有坐落在北美的山脉返回给用户。

事实上,为了得到正确的答案,问答系统还需要根据山脉高度对候选答案进行排序,并选择海拔最高的山脉返回给用户。

该过程通常需要人工编写解析规则对答案进行筛选,费时费力。

此外,由于自然语言描述的多样性,人们也无法事先穷举所有这样的规则。

然而事实上,Freebase这样的结构化知识库希望存储关于真实世界的知识条目,而像维基百科页面这样的文本百科资源则存储支持这些事实的文本描述。

例如,在维基百科页面中,我们可以找到一段与候选答案有关的文本Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。

很明显可以看出,这段文本描述可以帮助我们提升Denali 或者Mount McKinley 作为正确答案的置信度,并过滤掉候选集中的错误答案。

正是受到这个发现的启发,我们提出同时利用结构化知识库与可信的文本百科资源,如维基百科页面,来回答知识类自然语言问题。

基于多种知识资源的问答技术框架图1:针对问题who did shaq first play for的流程图以样例问题who did shaq first play for的处理流程为例,图1展示了融合多种知识资源的问答框架。

该问答系统框架主要包含基于结构化知识库Freebase的问题求解和基于非结构化知识资源Wikipedia文本的浅层推理。

•基于结构化知识库的问题求解基于结构化知识资源的问题求解部分只需给出候选答案集合即可,因此既可采用基于语义解析的方法,也可以直接采用基于检索的方法来实现。

这里我们采用的是基于检索的方案,主要包括实体链接,关系抽取,以及这两部分的联合消解三大部分。

1) 实体链接实体链接在知识类问题解析中扮演着十分重要的角色。

我们采用词性POS序列来筛选问题中的所有实体候选,以前面的问题为例,我们可以利用POS序列NN 识别出实体shaq。

对于识别出来的实体候选,我们使用实体链接工具S-MART获取可以潜在链接到Freebase的5个候选实体。

具体而言,对给定的实体候选,S-MART首先根据字符串相似度从Freebase中获取一些候选实体,然后利用统计模型根据知识库实体与实体候选之间的共现频率计算出一个得分并排序,最终给出实体链接结果。

2) 关系抽取关系抽取用于识别问句中的实体与答案(疑问词)之间的语义关系。

我们使用多通道卷积神经网络来确定自然语言问题中实体与答案之间存在的关系。

具体地讲,我们使用两个通道,一个通道捕捉句法信息,另一个通道捕捉上下文信息。

每个通道的卷积层接受一个长度不固定的输入,但是返回一个固定长度的向量(我们使用最大采样法)。

这些固定长度的向量被拼接在一起形成最后softmax分类器的输入,该分类器的输出向量维度等于关系类别的总数,每一维的值等于映射到对应知识库谓词的置信度。

3) 实体和关系的联合消歧通常情况下的实体链接与实体关系抽取都是独立预测的,因而不可避免的会存在流水线框架下常见的错误传递现象。

因此,我们提出了一种联合优化模型从实体链接和关系抽取的候选结果中选择一个全局最优的“实体-关系”配置。

这个挑选全局最优配置的过程本质上可以被视作一个排序问题,即,“合理”的实体-关系配置在知识库中应更常见,应该有更高的得分。

我们主要依赖从知识库中抽取的三类特征,即实体特征、关系特征和答案的特别特征。

•基于Wikipedia文本描述的浅层推理基于结构化知识库求解的候选答案集,我们从维基百科文本资源中收集候选答案的支持文本,并训练答案过滤器对候选答案集进行筛选,以得到更准确的答案。

1) 数据预处理具体地讲,我们首先从维基百科中找出描述自然语言问题中实体的页面。

我们抽取维基百科页面的内容,并利用Wikifier识别句子中的维基百科实体,再利用Freebae API将这些实体映射到Freebase中的实体。

最后在页面中寻找包含候选答案的句子当做支持文本。

2) 答案过滤模型我们将浅层推理的过程抽象为一个面向候选答案的二分类任务。

在实验中,我们使用LibSVM来训练该二分类器。

该分类器主要使用的特征是词级别配对特征,其中第一个部分来自给定的问题,而第二个部分来自维基百科中的支持文本。

更形式化地,给定一个问题q = <q1,… q n>和一个作为支持文本的句子s =<s1,…,s m>,其中记q和s中的单词分别为q i和s j。

对每个问题与支持文本对(q,s),我们可以生成词级别配对特征集合{(q i,s j)},这些词对出现的次数作为特征用来训练分类器。

需要指出的是,这里仅尝试了最简单的二分类方式,主要目的是检验附加文本资源的作用;而使用线性优化、或神经网络等更精巧的融合方式可能会带来更明显的准确率提升。

实验我们使用WebQuestions数据集进行相关实验。

该数据集一共包含5810个自然语言问题以及答案。

其中训练集包含3778个问题(65%),测试集包含2032个问题(35%)。

我们使用答案的平均F1值来评测本框架。

表1给出了不同方法在WebQuestions数据集上的结果。

表1基于关系抽取问答技术在WebQuestions数据集上的结果为了确定所提出框架中不同模块的重要性,我们详细比较了以下几种模型变种的结果。

Structured 该方法只包含基于结构化知识库Freebase的问题求解。

具体地讲,我们首先进行实体链接,将自然语言问题中包含的实体名词映射到Freebase中的实体,其中得分最高的实体被当做结果。

然后我们进行关系抽取并从候选关系中选择与实体最匹配的关系当做最终的实体-关系配置。

最后,我们使用这个实体-关系配置来预测问题的答案。

Structured + Joint 与上面的方法略有不同,这个方法使用联合消歧的方法去选择全局最优的实体-关系组合,并进行基于结构化知识库的问题解答。

Structured + Unstructured 这个方法里,我们使用流水线的实体链接和关系抽取结果进行基于结构化知识库的问题求解,进而,利用基于维基百科的浅层推理来筛选答案。

Structured + Joint + Unstructured 这是我们所提出的融合多种知识资源的完整的问答框架。

我们首先在结构化知识库Freebase上进行问题求解,即,进行实体链接和关系抽取的联合优化,并在Freebase上获得候选答案集合;在此基础上进行基于文本的浅层推理,即,从维基百科中抽取答案支持文本,并对候选答案进行筛选,获得最终答案。

从表1中的结果,我们可以发现实体链接和关系抽取的联合推理结果会优于流水线方法,整体效果提高了3%,并且比大部分语义解析的方法要好。

另一方面,与(Yih et al. 2015)利用人工编写规则的工作相比,融合结构化知识库与文本知识资源的方法在问答准确率上整体提高了0.8%,这进一步说明了恰当的使用非结构化的文本知识资源可以在很大程度上代替人工编写规则来辅助回答自然语言问题。

本文提出的融合不同知识资源的问题解答框架具有较好的可扩展性,无论在结构化知识库求解部分,还是多种资源的融合利用方面都可进一步改进,以更大限度的发挥不同资源之间的互补作用,提高知识类问题的解答精度。

参考文献•Hannah Bast, Elmar Haussmann. More Accurate Question Answering on Freebase. CIKM. 2015, 1431-1440•Jonathan Berant, Percy Liang. Imitation Learning of Agenda-based Semantic Parsers[J]. Transactions of the Association for Computational Linguistics.2015, 3:545–558•Siva Reddy, Oscar Täckström, Michael Collins, Tom Kwiatkowski, Dipanjan Das, Mark Steedman, Mirella Lapata. Transforming Dependency Structures toLogical Forms for Semantic Parsing[J]. Transactions of the Association for Computational Linguistics. 2016, 4: 127-140•Kun Xu; Siva Reddy; Yansong Feng; Songfang Huang; Dongyan Zhao Question Answering on Freebase via Relation Extraction and TextualEvidence. ACL 2016,•Kun Xu; Yansong Feng; Songfang Huang; Dongyan Zhao, Hybrid Question Answering over Knowledge Base and Free Text, COLING 2016•Yi Yang; Ming-Wei Chang, S-MART: Novel Tree-based Structured Learning Algorithms Applied to Tweet Entity Linking, ACL 2015• Wen-tau Yih, Ming-Wei Chang, Xiaodong He, Jianfeng Gao. Semantic Parsing via Staged Query Graph Generation: Question Answering withKnowledge Base[C]. ACL-IJCNLP. 2015,1321-1331。

相关文档
最新文档