知识图谱和问答系统
知识图谱在智能问答中的应用:提升问答系统效果的重要手段

知识图谱在智能问答中的应用:提升问答系统效果的重要手段引言随着互联网的快速发展,人们对于快速、准确获取信息的需求不断增加。
智能问答系统作为信息检索领域的重要应用,越来越受到关注。
知识图谱作为一种表示和推理知识的工具,为智能问答系统的发展提供了新的机遇。
本文将深入探讨知识图谱在智能问答系统中的应用,以及如何利用知识图谱提升问答系统的效果。
图1知识图谱在智能问答中的应用:提升问答系统效果的重要手段一、知识图谱的基本原理与特点知识图谱的基本原理知识图谱是一种以图形化的方式表示知识的工具。
它以实体、属性和关系为基础元素,通过连接不同实体之间的关系,呈现出丰富的知识结构和语义信息。
知识图谱可以实现对知识的语义理解、推理和查询,为智能问答系统提供强大的支持。
知识图谱的特点(1)语义丰富:知识图谱能够以图形化的方式呈现知识的丰富语义信息,帮助机器理解人类语言中的复杂概念和关系。
(2)可扩展性强:知识图谱可以通过不断添加新的实体和关系来扩展其覆盖范围,实现知识的持续更新和优化。
(3)可交互性好:知识图谱可以与其他应用程序进行集成,实现数据的共享和交互,提高工作效率和准确性。
三、智能问答系统中知识图谱的应用问题理解与分类智能问答系统中,对问题的理解与分类是关键。
知识图谱可以帮助系统更好地理解问题的语义信息和实体关系,从而对问题进行准确的分类。
通过对问题的实体、属性和关系进行分析,可以快速定位到相关领域的知识,提高问题处理的效率。
答案生成与推理基于知识图谱的智能问答系统可以通过对知识图谱的查询和推理来生成准确答案。
通过对问题的实体和关系进行匹配,可以快速找到与问题相关的知识点,从而生成准确的答案。
此外,通过知识图谱的推理功能,还可以实现知识的逻辑推理和推断,提高答案的精度。
跨领域问答传统的问答系统通常针对特定领域的问题进行回答。
然而,实际应用中往往需要对跨领域的问题进行回答。
知识图谱可以帮助实现跨领域的知识共享和融合,使得问答系统能够处理不同领域的问题,提高系统的通用性和实用性。
知识图谱技术与智能问答系统

知识图谱技术与智能问答系统一、知识图谱技术概述知识图谱是一种基于语义技术的数据表示方式,用于表示实体及其属性之间的关系,是实现智能问答系统所必需的基础技术之一。
知识图谱技术通常包括三个方面:知识抽取、知识表示和知识融合。
1. 知识抽取知识抽取是从大量的非结构化数据中提取有用的信息,形成可被计算机程序所理解的结构化数据的过程。
知识抽取的关键任务包括实体识别、属性抽取、实体链接和关系抽取。
2. 知识表示知识表示是将从各种来源抽取到的知识整合成一个统一的知识库,以便于对这些知识进行查询和推理。
知识表示的关键任务包括实体分类、属性类型、关系类型和语义链接的建立。
3. 知识融合知识融合是将从不同数据源抽取到的知识进行统一,并根据一定的规则将知识进行整合。
知识融合的关键任务包括知识匹配、权重计算和冲突解决。
二、智能问答系统概述智能问答系统是指能够根据用户输入的自然语言问题,自动检索在大规模知识库中与问题相匹配的答案,并将结果以自然语言的形式呈现给用户的系统。
智能问答系统通常包括以下几个模块:问句理解、知识匹配、答案生成和回答呈现。
1. 问句理解问句理解是指将用户输入的自然语言问题转换为计算机可以处理的形式,并将问题所涉及到的实体和属性识别出来。
2. 知识匹配知识匹配是指将用户问题中识别出的实体和属性与知识库中的实体和属性进行匹配,找到与问题所涉及到的实体和属性相匹配的知识点。
3. 答案生成答案生成是指根据匹配到的知识点,生成一个符合用户意图的答案并返回给用户。
4. 回答呈现回答呈现是指将生成的答案以自然语言的形式呈现给用户,以便用户更好地理解和接受。
三、知识图谱技术在智能问答系统中的应用知识图谱技术在智能问答系统中扮演了重要的角色。
它可以使得智能问答系统更加准确和高效,主要体现在以下几个方面:1. 实体链接实体链接是将用户的自然语言问题中所涉及到的实体识别出来,并将其与知识库中已有的实体进行链接。
这样就可以更好地实现对于实体相关的问答任务,提高问答系统的准确性。
航空航天工程知识图谱构建与问答系统

航空航天工程知识图谱构建与问答系统航空航天工程是一门涉及航空航天器设计、制造和运行的综合学科,它包含着众多复杂的知识和技术。
为了更好地组织和利用这些知识,构建一个基于知识图谱的问答系统成为一个重要而有挑战性的任务。
本文将介绍航空航天工程知识图谱的构建方法,并探讨如何利用该知识图谱建立一个有效的问答系统。
一、航空航天工程知识图谱构建方法1. 知识抽取与表示航空航天工程知识的抽取是构建知识图谱的关键步骤。
可以通过自然语言处理技术,从文本、论文、专利等多种信息源中自动提取相关知识。
抽取的知识应进行适当的表示,可以使用OWL(Web本体语言)或图结构进行表示。
2. 实体识别与关系提取在航空航天工程领域,存在大量的实体和关系需要进行识别和提取。
实体识别是指从文本中自动识别出和航空航天工程相关的实体,例如飞机、发动机等。
关系提取则是指从文本中提取实体之间的关系,如发动机是飞机的组成部分等。
3. 知识融合与校正从不同来源得到的知识需要进行融合和校正,以保证知识的准确性和一致性。
可以利用信息抽取和数据融合等方法对知识进行整合,并进行必要的校正。
二、航空航天工程问答系统设计1. 问题分类与理解航空航天工程领域的问题多种多样,需要对问题进行分类并进行理解。
可以利用机器学习等方法,对问题进行分类,以便更好地匹配知识库中的知识。
2. 答案检索与生成在知识图谱中,每个实体和关系都与相应的知识点和属性相关联。
当用户提问时,系统可以通过匹配问题和知识点进行答案的检索。
对于无法直接从知识图谱中检索到的答案,系统可以利用自然语言生成技术,根据知识图谱中的相关信息生成答案。
3. 用户界面设计为了提供良好的用户体验,航空航天工程问答系统的用户界面设计应简洁明了。
可以采用虚拟助手形式,通过语音或文字与用户进行交互,提供准确、实时的答案。
三、航空航天工程知识图谱与问答系统的应用前景1. 教育与培训航空航天工程知识图谱与问答系统可以应用于航空航天工程教育和培训领域。
知识图谱的应用

知识图谱的应用知识图谱(Knowledge Graph)是一种用于表示知识和信息的图形结构模型,它将实体、概念和关系组织在一起,形成一个语义上相互关联的知识网络。
知识图谱通过以图模型的形式来组织和表达知识,可以用于各种领域的知识管理、知识发现和智能应用。
知识图谱的应用非常广泛,下面列举几个常见的应用领域:1. 搜索引擎优化(SEO):知识图谱可以帮助搜索引擎更好地理解用户查询意图和搜索结果,提供更准确、有用的搜索结果。
通过将搜索引擎的索引数据转化为知识图谱的形式,可以实现更深层次的语义理解和信息抽取,提高搜索的精确性和效果。
2. 问答系统:知识图谱可以为问答系统提供丰富的背景知识和语义关联信息,提高系统的问答能力和效率。
通过将问题和知识库中的实体、概念建立关联,问答系统可以根据问题的语义和上下文信息,快速找到相关答案。
3. 智能推荐:知识图谱可以统一整合多个数据源和信息资源,为用户提供个性化、精准的推荐服务。
通过分析用户的兴趣、行为和社交网络等信息,结合知识图谱中的关联关系和语义信息,可以为用户推荐更符合其需求和兴趣的内容和产品。
4. 语义搜索和智能助手:知识图谱可以使搜索结果更加精确和准确,提高搜索的语义理解和结果排序能力。
智能助手可以通过对知识图谱的理解和分析,提供更智能、个性化的服务和建议,如日历管理、旅行规划、健康咨询等。
5. 自然语言处理和信息抽取:知识图谱可以作为自然语言处理任务的背景知识和语义解析模型,提供实体识别、关系抽取、事件推理等能力。
通过将文本数据和知识图谱中的实体、概念关联起来,可以实现信息的语义理解、关联分析和知识的挖掘。
在知识图谱的应用过程中,还存在一些挑战和问题需要解决。
首先,知识的获取和构建是一个复杂而耗时的过程,需要从多个数据源中抽取和整合信息。
其次,知识的表示和存储需要解决效率和可扩展性的问题。
第三,知识的更新和维护需要建立起有效的机制和流程,保证知识的及时性和准确性。
基于知识图谱的智能问答系统设计

基于知识图谱的智能问答系统设计引言随着人工智能技术的快速发展和应用,智能问答系统已经成为了人工智能领域中的重要应用之一。
基于大数据和自然语言处理技术,智能问答系统能够利用人类的语言信息,结合领域知识,对用户提出的自然语言问题进行解答和处理。
而在智能问答系统中,知识图谱技术则是非常重要的一部分。
本文将从智能问答系统的概念、知识图谱的意义以及基于知识图谱的智能问答系统的设计方案等方面详细讲解。
一、智能问答系统概念及其应用智能问答系统,简称QA系统,是一种基于计算机智能技术实现的自然语言问答技术应用。
它可以实现用户提出问题并自动寻找答案的功能,也可以在寻找答案的同时提出更深层次的问题,从而进行更全面的解答。
智能问答系统的应用已经非常广泛。
例如,常见的智能客服、智能咨询、智能导购、智能医疗等都是智能问答系统的具体应用。
二、知识图谱的意义知识图谱,即Knowledge Graph,是指将实体、属性和关系等形成的具有结构化的知识表示形式。
在知识图谱中,每个实体都有所属的领域,而每个实体之间的关系也被准确地表示出来。
这种表示形式使得计算机能够理解和利用领域知识,进而实现更加精确的智能问答。
知识图谱的意义在于,它能够帮助人工智能系统更好地理解和利用信息,进而实现智能问答系统更加准确和精细的答案。
同时,知识图谱也能够帮助计算机更好地理解语言表达,从而提高自然语言处理的准确度。
三、基于知识图谱的智能问答系统的设计方案基于知识图谱的智能问答系统应具备以下特点:1. 实体和关系的提取在设计智能问答系统时,首先应该能够识别问题中所涉及到的实体和关系。
这样可以为系统后续的问题解答以及信息处理奠定基础。
2. 结合语言模型理解用户意图在理解问题的实体和关系之后,需要结合对于语言模型的理解及其他信息消歧技术,进一步理解用户的意图。
这样可以更好地把问题转化为计算机能够处理和解答的问题。
3. 知识图谱相似度计算在系统理解用户问题之后,往往需要查找知识图谱中与问题相关的实体和关系。
知识图谱在智能问答系统中的应用研究

知识图谱在智能问答系统中的应用研究智能问答系统是一种依托人工智能技术,为用户提供准确、高效答案的系统。
而在智能问答系统中,知识图谱作为一种知识表示与存储的方式,发挥着重要的作用。
本文将探讨知识图谱在智能问答系统中的应用研究。
一、知识图谱的概念与特点知识图谱是一种用于描述和表示实体、概念和其关系的图结构模型。
它通过构建实体之间的关联关系,形成一张知识网络,将不同领域的知识进行有机整合。
与传统的关系型数据库相比,知识图谱更侧重于语义信息的表达,能够更好地满足问答系统对知识的理解和推理需求。
1.1 知识图谱的构成元素知识图谱主要由实体、属性和关系组成。
实体指的是现实世界中的具体或抽象事物,如人、地点、事件等。
属性是实体的特征或性质,可以用来描述实体。
而关系则表示实体之间的联系和依赖关系。
1.2 知识图谱的特点知识图谱具有以下几个特点:1)灵活性:知识图谱的结构非常灵活,可以随着知识的不断扩充和演化而发展。
新的实体、属性和关系可以被动态地添加进图谱中。
2)语义丰富性:知识图谱通过精确的语义关系表示知识,能够更好地表达实体之间的语义信息。
这种语义丰富性使得智能问答系统能够更准确地理解用户的问题。
3)推理能力:知识图谱能够基于已有的知识进行推理和推断,通过图上的路径发现实体之间的隐藏关系。
这使得智能问答系统能够回答一些间接或复杂的问题。
二、知识图谱在智能问答系统中的应用2.1 问答匹配在智能问答系统中,用户提出的问题需要与知识库中的问题进行匹配,以找出最佳答案。
而知识图谱可以用来表示问题和知识库中问题的语义相似度,从而进行问题匹配。
通过计算知识图谱上的路径和关系,可以找到与用户问题最相关的知识点。
2.2 答案推理有些问题的答案并不直接包含在知识库中,但通过推理能够得到。
知识图谱上的推理能力可以用来解决这类问题。
通过图谱上的路径发现,系统可以推理出与问题相关的实体之间的关系,从而找到最佳答案。
2.3 实体链接智能问答系统中的问题常常涉及到实体,如“中国的首都是哪里”。
基于知识图谱的自动问答系统设计与实现

基于知识图谱的自动问答系统设计与实现自动问答系统是一种能够自动回答用户提出的问题的计算机系统。
随着人工智能和自然语言处理的快速发展,基于知识图谱的自动问答系统成为了当前研究的热点之一。
本文将介绍基于知识图谱的自动问答系统的设计与实现。
一、系统设计基于知识图谱的自动问答系统的设计包括以下几个关键步骤:1. 知识图谱构建:需要从多个数据源中收集和整合相关的知识,并利用技术手段将这些知识结构化地存储为知识图谱。
知识图谱可以采用图数据库或者关系型数据库的形式,以便于后续的问题匹配和查询。
2. 自然语言理解:系统需要具备自然语言理解的能力,能够将用户输入的自然语言问题转化为计算机可理解的形式。
这个步骤涉及到词法分析、语法分析、语义理解等技术。
3. 问题匹配:将用户提出的问题与知识图谱中的知识进行匹配。
这个步骤可以采用基于规则的匹配方法,也可以使用基于机器学习的方法,如文本相似度匹配算法等。
4. 答案生成:通过匹配到的知识,在知识图谱中查找相应的答案。
可以通过图搜索算法或者数据库检索技术来实现。
5. 答案排序和展示:对生成的答案进行排序和过滤,根据可信度和相关度等指标,将最优的答案展示给用户。
二、系统实现基于知识图谱的自动问答系统的实现需要结合多个技术和工具。
下面将介绍一些常用的实现方法:1. 数据收集与知识抽取:首先,需要从互联网上收集相关领域的知识数据,可以使用爬虫技术从多个网站抓取数据。
然后,对抓取到的数据进行清洗和结构化处理,提取出知识图谱中的实体、属性和关系信息。
2. 知识图谱构建工具:可以利用各种图数据库或者关系型数据库来搭建知识图谱。
常用的图数据库包括Neo4j、DGraph等,关系型数据库可以使用MySQL、PostgreSQL等。
3. 自然语言处理工具:常用的自然语言处理工具包括NLTK、Stanford NLP、SpaCy等,可以用于实现自然语言理解的各个步骤,如分词、词性标注、句法分析等。
基于领域知识图谱的问答系统构建与优化

基于领域知识图谱的问答系统构建与优化问答系统(Question Answering System,简称QA系统)是指能够对用户提出的自然语言问题进行理解、分析,并给出准确答案的人工智能系统。
近年来,随着信息技术的发展和人工智能的应用,QA系统在各个领域得到了广泛的应用和研究。
本文将重点介绍基于领域知识图谱的问答系统构建与优化。
一、领域知识图谱概述知识图谱(Knowledge Graph)是一种表示和存储结构化知识的方法,以图的形式将实体、关系和属性组织起来,形成一个大规模的知识库。
在构建问答系统时,领域知识图谱可以作为系统的知识基础,并通过图谱中的实体和关系来解决问题。
二、基于领域知识图谱的问答系统构建1. 知识图谱构建:首先,需要构建一个适用于特定领域的知识图谱。
这可以通过爬取网络数据、使用自然语言处理技术进行实体和关系抽取等方式实现。
构建知识图谱时需要考虑选择合适的存储和查询技术,以及设计有效的知识表示和标注方法。
2. 问题理解:对用户提出的问题进行语义理解,将问题转化为可被理解和查询的形式。
这一步可以使用自然语言处理技术,如分词、词性标注、句法分析等。
3. 实体识别和关系抽取:在问题中识别出需要查询的实体和相关的关系。
这可以通过命名实体识别和关系抽取等方式实现。
在实体识别和关系抽取过程中,可以利用领域知识图谱中的实体和关系信息进行指导和约束。
4. 问题匹配与推理:将问题与知识图谱中的实体和关系进行匹配,并进行推理和计算,以找到与问题相关的答案。
可以利用图谱中的路径查询、相似度计算、逻辑推理等技术进行问题匹配与推理。
5. 答案生成与排序:根据问题和匹配后的实体和关系,生成可能的答案。
可以采用基于模板的方法、基于语义相似度的方法、基于机器学习的方法等生成答案,并根据答案的相关性和可信度进行排序。
三、基于领域知识图谱的问答系统优化1. 知识图谱更新与扩充:知识图谱是一个动态的结构,需要不断更新和扩充。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
知识图谱和问答系统一、引子在讨论知识图谱和问答系统之前,先给出几篇以前的文章。
第一篇文章是《立委科普:问答系统的前生今世》,以前也发过,再发一下。
详见博文:/blog-362400-436555.html下一个姐妹篇《立委科普:自动回答How 与Why 的问题》。
这篇文章详细谈谈问答系统中的How类型问题和Why类型问题。
这篇已经太长,收住吧。
希望读者您不觉得太枯燥,如果有所收获,则幸甚。
谢谢您的阅览。
How 类型的问题搜寻的是解决方案,其实也不好回答,同一个问题往往有多种解决档案,譬如治疗一个疾病,可以用各类药品,也可以用其他疗法。
因此,比较完美地回答这个How 类型的问题也就成为问答系统研究中公认的难题之一。
Why 类型的问题是要寻找一个现象的缘由或动机。
这些原因有些是显性表达,更多的则是隐性表达,而且几乎所有的原因都不是用几个简单的词或短语就可以表达清楚的,找到这些答案,并以合适的方式整合给用户,自然是一个很大的难题。
第三篇文章《立委科普:从产业角度说说NLP这个行当》,这是几年前吹的牛皮。
详见李维的博文:/blog-362400-434811.html。
由于也很相关,所以也放在这里。
NLP技术的工业可行性我认为已经完全被证明了,虽然很多人也许还没有意识到。
证明的实例表现在我们解决了三个信息搜索的难题:搜索How类型问题的难题;搜索Why类型问题的难题;对客户反馈情报及其动机的抽取(譬如客户对一个产品的好恶)。
前两个问题是问答搜索业界公认的最难类型的题目,第三个题目涉及的是语言现象中较难把握的主观性语言(subjective language),并非NLP中通常面对的客观性语言(objective language)。
这类从文本中提取主观性语言的技术,即情感提取(sentiment extraction)成为语言处理最难的课题之一。
从问答系统角度来看,回答Who、When、Where等实体事实型(entity factoid)问题比较简单,技术相对成熟,最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军。
Jeopardy的大多数问题是属于实体事实类的问题,而这类问题的处理技术相对成熟。
电脑打败了人脑,详见COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS。
具体细节就不谈了,以后有机会再论。
总之,这三大公认的难题在过去五年中被我们一个一个解决,标志了作为实用技术的NLP 已经过了需要证明自己的阶段。
二、问答系统在搜索引擎中的使用现状由于各种缘由,整个行业的现状是慢了半拍。
而我们自己做的产品虽然也大数据了,云端了,也有全球用户了,但实际上平台还是不够大。
我们的HOW QA系统实际已经部署五六年了,可行性和有效性应该说没有什么值得怀疑的了。
从理论上讲,我们的系统是open domain 的,而且很容易对接上搜索引擎,因此任何一个搜索巨头都可以用上这个技术。
对接方式也特别简单,就是在Query Plan模块中判断一下查询中是否含有How QA,有就去调用这个系统。
调用以后的结果一定比搜索引擎现有的结果漂亮很多。
但是各大巨头做了知识图谱,用到了What QA,还没有任何一家用到了How QA,莫非How型问题不常见么,或用处不大么?当然不是。
How QA没有被巨头商用的原因基本上就是巨头并不总是看得见小公司的创新。
在另一方面,因为平台不够大,商业价值不够有力,最后这个靠向用户收费的产品还是歇菜了。
商业模式没有让它赚钱,歇菜是自然的。
可对于目前主流的搜索引擎的商业模式,靠的不是向最终用户收费,而是提高用户的体验和粘性,然后向广告主收费。
这种情形下,这个用图谱来支持问答的技术就应该可以开花结果的。
当然这一切就是一个时间问题。
最终一定是成为搜索的一个部分的,这一点没有疑问。
知识图谱回答了What 和Who的实体类事实型问题以后,回答更难的How和Why 的问题是搜索变得越来越智能的必由之路。
话说回来,甚至连业界公认已经成熟的factoid questions (when、where 之类的问题),搜索巨头也还没有大规模集成和部署,所以更难的问题迟迟不见动静也就可以理解了。
巨头有巨头的考虑,我们技术人是搞不懂的。
成本应该是一个考虑因素,知识图谱的实现和维护成本肯定比关键词索引高很多。
甚至有群友也说了,为什么搜索要改进啊,如果不进一步跳跃性改进就已经有的赚,提高用户体验就没有迫切性。
谁知道,也许还真是这么回事儿。
三、我们在How QA 上做的工作先发一张我和我搭档的合影照片,他是一个公司的创始人,当年我俩一起把How QA商业化,市场需求也是我的搭档先提出来的。
图1:李维与搭档麦克合影还有两个相关的帖子,是在隔壁的泥沙龙讨论搜索与NLP关系时整理的,一并放在这里做为背景和参考。
一篇是《parsing是引擎的核武器,再论NLP与搜索》,详见博文:/home.php?mod=space&uid=362400&do=blog&id=902849。
这篇文章的相关的内容有:问答系统有两类。
一类是针对可以预料的问题,事先做信息抽取,然后索引到库里去支持问答。
这类问题的召回率很高,精度也高,但是没有实时检索的灵活性和以不变应万变的效果。
另一类问答系统就是对通用搜索的直接延伸。
利用关键词索引先过滤,把搜罗来的相关网页,在线分析,深度分析后找到答案。
这个路子技术上是可行的。
应对所谓事实型问题(Who、Where、When类问题)是有效的。
但是复杂问题如how、why,还是要走第一类的路线。
为什么可行?因为我们的深度分析是线性时间复杂度,在现代的硬件条件下根本不是问题。
不管分析有多深入、多精细,比起相关接口之间的延误,分析其实是小头,因此在线分析已经不是性能的瓶颈了。
总之,技术上可以做到立等可取。
另一方面,对于常见的问题,互联网在线问答系统的召回率根本就不是问题,这是因为网上的冗余信息太多。
无论多不堪的召回率,也不是问题。
比如,问2014年诺贝尔物理奖得主是谁。
这类问题,网上有上百万个答案在。
如果关键词过滤了一个子集,里面有几十万答案,少了一个量级,也没问题。
假设在线分析只召回其中的十分之一,又少了一个量级,那还有几万个实例,这足以满足统计的要求,来坐实NLP得来的答案,可以弥补精度上可能的偏差。
另一篇文章是《创新,失败,再创新,再失败,直至看上去没失败》,详见李维的博文:/home.php?mod=space&uid=3624 00&do=blog&id=902931。
这一篇笔记与今天要讲的题目最相关,提供了详细的背景信息。
有些做出来很漂亮的系统,后来市场上没站住。
现身说法,举近年来作者亲身经历的NLP产品化的例子。
我们曾和Elsevier签了一个千万美元以上的合同,做一个世界上绝无仅有的,本质上能回答How QA的问答系统。
这个系统的市场起源是这样一种需要,科研人员和产品设计师们在创新的时候,需要查询文献,看前人都做过怎样的工作,可以借鉴。
设计要求是,给定任一问题,例如,how to handle tooth decay,或规定任一功能,例如,how to increase bone density,要求系统从文献中抽取挖掘所有的解决办法(solutions),分门别类呈现给用户。
众所周知,How问题是问答系统中最难回答的问题之一,因为涉及的答案各式各样,比起when、where、who 这样的事实型问题难度大得多。
可是,我们有基于深度分析的信息抽取,较好地解决了这个难题。
系统交货以后,用的人喜欢得不得了,反馈极佳。
反正世界上没有一个机器可以回答这么广泛的how 难题。
无论是如何治疗疾病,还是如何泡妞,或者如何成为百万富翁,只要你能想到的问题,我们的系统---- illumin8,都可以回答。
给你这个世界上讨论过这个问题的所有答案,整合到一起,一目了然。
而且是动态呈现,你可以对任何解决方案找到最终原始出处和上下文,你也可以进一步找这个方案的因果关系,看得失优劣。
一下子成了科学家和产品设计师搜集前人工作的利器。
Elsevier里面负责这块的小团队来拜访我,也都夸这个系统做得好,合作是非常愉快的。
结果Elsevier在其全球用户的系统中用了五六年,去年终结了,合同没有续约。
我作为设计者很感伤。
特定类型问题的问答系统可以看成是新一代的垂直搜索引擎,我们把它叫作research tool。
这么好的技术创新,填补的产品空白,世界上没有第二家系统可以弥补,至少目前如此。
可是经历了六年还是归于失败。
Elsevier的全球用户都使用这个产品这么些年,但是发现还是无法拿它盈利。
尽管用的人还是喜欢,也还是掐了。
光技术好还是不行,不熟悉市场和商业模式,也还是死路一条。
eHow的SEO有一阵在Google上做得铺天盖地的,但凡搜个How QA的查询,头一条就是eHow提供的结果,而他们就是雇了很多人,快速编纂各种How的小tip,不用自动的方法。
那些How QA在Youtube上也红火得不得了,主要集中在家用方面的FAQ of How上。
例如如何换机油、如何换轮胎之类。
这种针对FAQ 做How QA是有道理的,可以赚得高点击,从而可以用广告费来制作很精良到位的内容以满足需求。
但对于开放性的How QA,人工方式的FAQ,自然是不行的。
四、到底什么是知识图谱我给的标题是《知识图谱和问答系统》,这年头只要提到知识图谱就吸引眼球了。
这是谷歌等“盗用”了学界的信息抽取(Information Extraction,IE)的概念而火起来的时髦词。
谷歌把这个行业提到公众台面了。
过些年后,大家也不必再提啥IE 了,都用知识图谱代替得了。
真的就是一回事儿,不过谷歌嗓门大,又在搜索引擎里把What和Who的问题给用知识图谱解决了。
过去吵死了的概念,只能在业界。
现在一换门面,大众知。
信息抽取是个动词,说的是过程。
知识图谱是这个动作的结果,存在库里。
相当于我们以前的IE Store,就是类似于关键词索引一样存取关系的库。
知识图谱的名字与应用更近,更接地气。
因为IE作为基础只是脱机处理,其结果才是联机去帮助回答问题的。
五、知识图谱和问答系统的关系回到正题,知识图谱与问答系统。
问答系统需要IE的支持,我们很多年前就极力主张,几篇QA 的论文也是强调的这个。
但这只对于预先定义好的问题有效,因为知识图谱是预先定义的关系。
知道有什么问题,然后去针对性地抽取,这样一来是一打一个准。
但是,这并不是说问答系统只能利用知识图谱来做。
事实上,开始的QA系统,都只有有限量的IE支持,一般都做了实体识别,但没有做图谱。