【CN110222162A】一种基于自然语言处理和知识图谱的智能问答方法【专利】

【CN110222162A】一种基于自然语言处理和知识图谱的智能问答方法【专利】
【CN110222162A】一种基于自然语言处理和知识图谱的智能问答方法【专利】

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910388931.6

(22)申请日 2019.05.10

(71)申请人 天津中科智能识别产业技术研究院

有限公司

地址 300457 天津市滨海新区天津经济技

术开发区第二大街57号泰达MSD-G1-

1001单元

(72)发明人 张大朋 孙哲南 

(74)专利代理机构 天津市三利专利商标代理有

限公司 12107

代理人 韩新城

(51)Int.Cl.

G06F 16/332(2019.01)

G06F 16/36(2019.01)

G06F 16/33(2019.01)

(54)发明名称

一种基于自然语言处理和知识图谱的智能

问答方法

(57)摘要

本发明公开一种基于自然语言处理和知识

图谱的智能问答方法,在对话策略学习阶段中,

通过对设置的必要属性的学习,识别出不确定话

轮,使该不确定话轮与知识图谱交互,由知识图

谱进行处理反馈,输出反馈结果;若当前场景下

识别到用户有调用新场景意图,则通过对话嵌套

从当前场景跳转到新场景进行对话。本发明通过

引入知识图谱的推理和对话的嵌套,解决了现有

聊天系统技术的缺点,即对于无法预测的话轮及

场景内调用其它场景无法处理的问题。权利要求书1页 说明书4页 附图4页CN 110222162 A 2019.09.10

C N 110222162

A

权 利 要 求 书1/1页CN 110222162 A

1.一种基于自然语言处理和知识图谱的智能问答方法,其特征在于,在对话策略学习阶段中,通过对设置的必要属性的学习,识别出不确定话轮,使该不确定话轮与知识图谱交互,由知识图谱进行处理反馈,输出反馈结果;

若当前场景下识别到用户有调用新场景意图,则通过对话嵌套从当前场景跳转到新场景进行对话。

2.如权利要求1所述基于自然语言处理和知识图谱的智能问答方法,其特征在于,若某个话轮在当前场景不存在,则在对话历史中查询是否存在某个话轮,若存在,则跳转到此话轮中并将此话轮执行的历史中的场景通过嵌套置为当前场景,然后进行此话轮的执行。

3.如权利要求2所述基于自然语言处理和知识图谱的智能问答方法,其特征在于,所述在对话历史中查询是否存在某个话轮,通过知识图谱来实现。

2

知识图谱概述与应用

导读:知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年纷纷推出了自己的知识图谱产品以作为回应。比如在国,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融,知识图谱可以有哪方面的应用呢? 目录: 1. 什么是知识图谱? 2. 知识图谱的表示 3. 知识图谱的存储 4. 应用 5. 挑战 6. 结语 1.什么是知识图谱? 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里

输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。 另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。 上面提到的知识图谱都是属于比较宽泛的畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。 2.知识图谱的表示 假设我们用知识图谱来描述一个事实(Fact) - “三是四的父亲”。这里的实体是三和四,关系是“父亲”(is_father_of)。当然,三和四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把也作为节点加入到

依托知识管理实现智能服务-知识管理论坛

知识管理论坛 ISSN 2095-5472 CN11-6036/C Knowledge Management Forum E-mail: kmf@https://www.360docs.net/doc/8415914638.html, https://www.360docs.net/doc/8415914638.html, 519 【专家访谈】 依托知识管理实现智能服务 ——专访华夏基金知识管理专家葛朝晖、李响 ◎ 采编:刘远颖 易飞 王铮 专家简介 葛朝晖:具有证券/基金、互联网、软件等多个行业的丰富从业经历,自2007年加入华夏基金,现任客户服务总监。在此期间,积极推动部门建立三级KPI 指标体系,不断提升服务效率,实现对4 700多万基金客户的优质服务,连续7次获得中国客服委最佳客服评奖;组织实施客服知识库改造,2次获得“中国最受尊敬的知识型组织大奖”(MAKE 大奖),并在业内首家上线智能客服系统。 李响:2007年加入华夏基金,现任客户服务部质检中心主管,负责管理质检、知识库、 培训、投诉等工作,从业经验丰富。从2010年起开始进行知识管理,不断探索基金行业知识体系架构,建立起符合行业需要的知识四库,以创新的知识应用方式获得权威机构认可。 采访者:《知识管理论坛》(以下简称KMF )编辑部刘远颖、易飞 文字整理:王铮 受访者:华夏基金客服服务部总监葛朝晖、质检中心主管李响(以下简称“华夏基金”)采访时间:2017年7月13日采访地点:华夏基金客户服务部 引用格式:依托知识管理实现智能服务——专访华夏基金知识管理专家葛朝晖、李响[J/OL]. 知识管理论坛, 2017, 2(6): 519-525[引用日期]. https://www.360docs.net/doc/8415914638.html,/p/119/. 发表日期:2017-12-28 本文责任编辑:刘远颖 葛朝晖 李响 1 关于基金行业的知识管理特点 KMF :两位专家你们好!感谢你们接受《知识 管理论坛》的采访,本刊从2016年开始采访知识管理界的专家学者,涵盖了软件界、咨询界、培训界、学术界等各个方面的人士,而你们是来

智能问答系统中命名实体识别问题研究

龙源期刊网 https://www.360docs.net/doc/8415914638.html, 智能问答系统中命名实体识别问题研究 作者:费建军 来源:《数字技术与应用》2017年第07期 摘要:信息化时代的到来,人们从互联网中快速获得大量的信息。如何高效的从海量数据中获取有用的资源的需求和人工智能的兴起,促进了问答系统的发展。问答系统是构架于信息抽取之上,其影响着知识库的结构和解析问句的方式。命名实体是信息抽取领域的一个子集。所以本文主要是针对实体识别模型进行研究,本文介绍了三中主流实体识别模型的,并将股票实体作为研究对象,最终采用了CRF(Conditional Random Field)条件随机场模型。在该模型基础上根据上下文和词性特征,提出了CC-CRF识别算法。利用CRF++训练得到能够识别代码和名称的CC-CRF实体识别模型。 关键词:股票;命名实体识别;CRF模型 中图分类号:TP391.6 文献标识码:A 文章编号:1007-9416(2017)07-0093-04 命名实体通常指的是现实中独立存在的具体的或者抽象的事物[2]。如何使计算机能够理 解自然语言是智能问答系统需要解决的一个关键问题。自然语言处理的研究范围包括词法分析、信息抽取、自动文摘等[1]。信息抽取领域中,命名实体识别作为重要分支[3],其任务是标注语句中的实体,所以命名实体的识别有着非常关键的意义。作为文本的基本单位,它包含大量的语义信息,因此对命名实体进行识别可以保证最简单快捷的获得文本信息。他存在的价值就是标注语句中的实体,实体的识别对正确解析自然语言有着极其重要的作用。识别的实体领域一般为人名、机构名、地名以及专有名词等。在实际研究中,还需要根据具体要求来确定。本文中,要识别的实体为股票名称与股票代码[4]。命名实体识别在问句处理和知识库的 构建方面发挥着关键性的作用。 命名实体识别的方法主要有:基于规则和词典的方法、基于统计的方法和二者混合的方法[5]。 本文介绍了四种命名实体识别模型(基于规则和词典的方法、隐马尔科模型、最大熵模型、条件随机场模型)以及每种模型的优缺点。在经过对比并且结合股票命名实体的特点,选择条件随机场作为投资领域命名实体的模型。并在此基础上提出了引入了上下文特征和词性特征的CC-CRF识别算法。使用该模型对语料训练得到CC-CRF模型,并对模型的识别效果进行测试。 1 相关工作与常规实体识别模型 1.1 基于规则和词典的方法

知识图谱概述及应用

导读:知识图谱(Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业- 互联网金融,知识图谱可以有哪方面的应用呢? 目录: 1. 什么是知识图谱? 2. 知识图谱的表示 3. 知识图谱的存储 4. 应用 5. 挑战 6. 结语 1.什么是知识图谱? 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。 另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

基于知识库的智能客服机器人问答系统设计

Computer Science and Application 计算机科学与应用, 2019, 9(11), 2098-2104 Published Online November 2019 in Hans. https://www.360docs.net/doc/8415914638.html,/journal/csa https://https://www.360docs.net/doc/8415914638.html,/10.12677/csa.2019.911235 Design of Question Answering System of Intelligent Customer Service Robot Based on Knowledge Base Jie Lu, Shaobo Li The Mechanical Engineering College, Guizhou University, Guiyang Guizhou Received: Nov. 1st, 2019; accepted: Nov. 14th, 2019; published: Nov. 21st, 2019 Abstract Firstly, this paper analyzes the current situation of intelligent customer service robot, summarizes the characteristics of information retrieval, database query and Q&A system. It also compares the question answering system based on Web information retrieval, the question answering system based on knowledge base and the community question answering system. Secondly,it decomposes the knowledge base management and relationship architecture of Q&A system, and puts forward the specific learning process and implementation framework. Finally, the weather query applica-tion scenario is simulated. The results show that the question answering system of intelligent customer service robot based on knowledge has good practical application effect. Keywords Question Answering, Knowledge Base, Natural Language Processing, Resource Description Framework 基于知识库的智能客服机器人问答系统设计 陆婕,李少波 贵州大学机械工程学院,贵州贵阳 收稿日期:2019年11月1日;录用日期:2019年11月14日;发布日期:2019年11月21日 摘要 本文首先对智能客服机器人现状进行分析,总结了基于任务处理模式的信息检索、数据库查询、问答系

知识图谱概述及应用

导读:知识图谱(Knowledge Graph) 就是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界与工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度与搜狗分别推出”知心“与”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业- 互联网金融, 知识图谱可以有哪方面的应用呢? 目录: 1、什么就是知识图谱? 2、知识图谱的表示 3、知识图谱的存储 4、应用 5、挑战 6、结语 1、什么就是知识图谱? 知识图谱本质上就是语义网络,就是一种基于图的数据结构,由节点(Point)与边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱就是关系的最有效的表示方式。通俗地讲,知识图谱就就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出,主要就是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。 另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“,Google 能准确返回她的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

三大类知识管理系统——III 智能技术

第九章 知识管理与大数据 9.7 三大类知识管理系统 ——III 智能技术

2 智能技术 人工智能(AI)技术: 智能技术:用于捕捉个人和集体知识,并扩展知识库 自动化任务 生成复杂问题的解决方案 知识发现 捕捉隐性知识模拟人类行为的计算机系统

3 1. 专家系统 在特定的、有限的人类专业知识域中捕捉隐性知识 捕捉熟练员工的知识,并在软件系统中作为规则(IF… Then…),以供组织内其他人员使用 一般执行有限的任务,可能需要几分钟或数小时,例如:?诊断故障的机器?决定是否发放信贷 用于离散、高度结构化的决策

?一个专家系统包含了一系列的规则。这些规则是相互关联的,结果的数量是已知的且有限的,有多个路径可以得到相同的结果。在一个单一的时间,该系统可以考 虑多个规则。 ?本图显示的是一个适用于简单的信用证授予专家系统所需要的规则。D->E如果是D, 询问雇佣年限 G->H如果 年限<4,询 问其他债务 F 限额10,000 I 限额3,000 A->B如果收 入>50,000, 询问汽车付款, 否则退出 D 给予信贷额度 B->C如果汽车付款<收 入的10%,询问按揭还 款,否则退出 C->D如果抵押贷款付款 <20%的收入,批准信贷, 否则退出 E->F如果年限>=4,给予 10,000限额,否则执行G H->F如果其他债务<5%的 收入,执行F,否则执行I F 限额10,000 I 限额3,000 D->E如果是 D,询问雇佣 年限 G->H如果年 限<4,询问 其他债务 1. 专家系统 专家系统规则 4

5 1. 专家系统 专家系统如何工作 前向推理链:推理引擎从用户输入的信息开始搜索知识库,并得出结论反向推理链:从假设开始,问用户问题直到假设被证实或否定 知识库 推理引擎 包含上百或上千的规则 搜索知识库的策略

从问答系统看知识智能

问答系统发展历程 问答系统的研究经历了几个阶段。 从20世纪50~60年代开始,人工智能科学家就致力于研究基于知识推理的问答系统,其特点是:专家建立知识库,答案或者从知识库中检索得到,或者在知识库上经过推理得到。推理主要是基于专家制定的启发式规则进行。代表性系统是美国麻省理工学院开发的数学符号运算系统MACSYMA[1]。基于知识推理的问答系统具有性能良好、回答准确、具有推理能力等优点。但是这种方法也有明显的缺点:人工构建知识库非常困难,知识库规模和领域有限,如果问题超出了知识库的范围,则系统性能会很差。 20世纪90年代,随着互联网技术的发展,网络信息日益丰富,搜索引擎为信息获取提供了极大的便利,但却无法清楚地表达人们的意图,而且其返回的是网页,并不是确切的答案,因此不能很好地满足人们的信息需求。为了弥补搜索引擎的不足,研究人员提出了问答式检索系统,如麻省理工学院开发的Start1、Umass开发的QuASM2和微软公司开发的Encarta3。这类系统的主要特点是:利用信息检索以及浅层自然语言处理技术从大规模文本库或者网页库中抽取出答案。与基于知识推理的问答系统相比,问答式检索系统不受知识库规模和领域的限制,更加接近真实的应用需求;与传统的搜索引擎相比,问答式检索系统接受的是自然语言形式的提问,对用户意图的把握更加准确,呈现给用户的答案也更加准确。但是目前,问答式检索系统仅能处理有限类型的简单问题,如事实性的问题、定义性的问题等。而且,由于只用到检索技术和一些浅层的自然语言处理技术,问答 图灵测试 让计算机具有人的智能,一直是科学家追求的目标。1950年,阿兰·图灵(A. M. Turing)提出“图灵测试”:让一个人在不接触对方的情况下,通过一种特殊的方式和对方进行一系列问答;如果在相当长的时间内,他无法根据这些问题判断对方是人还是计算机,那么就可以认为这台计算机具有相当于人的智力,即这台计算机是能思维的。自此,问答系统成为判断计算机是否具有智能(特别是语言智能)的理想模型。美国认知心理学家奥尔森(G. M. Olson)认为,判别计算机是否理解自然语言的四个标准是:问答系统(question answer-ing)、文摘(summari z ation)、复述(paraphrase)和机器翻译(machine translation)。计算机只要达到四个标准之一,就认为它理解了自然语言。赵 军 中国科学院自动化研究所 从问答系统看知识智能关键词:问答系统 知识智能 1 https://www.360docs.net/doc/8415914638.html,/。 2 https://www.360docs.net/doc/8415914638.html,/IRLab/11-743s04/。 3 https://www.360docs.net/doc/8415914638.html,/。

知识图谱和问答系统

知识图谱和问答系统 一、引子 在讨论知识图谱和问答系统之前,先给出几篇以前的文章。第一篇文章是《立委科普:问答系统的前生今世》,以前也发过,再发一下。详见博文: https://www.360docs.net/doc/8415914638.html,/blog-362400-436555.html 下一个姐妹篇《立委科普:自动回答How 与Why 的问题》。这篇文章详细谈谈问答系统中的How类型问题和Why类型问题。这篇已经太长,收住吧。希望读者您不觉得太枯燥,如果有所收获,则幸甚。谢谢您的阅览。 How 类型的问题搜寻的是解决方案,其实也不好回答,同一个问题往往有多种解决档案,譬如治疗一个疾病,可以用各类药品,也可以用其他疗法。因此,比较完美地回答这个How 类型的问题也就成为问答系统研究中公认的难题之一。Why 类型的问题是要寻找一个现象的缘由或动机。这些原因有些是显性表达,更多的则是隐性表达,而且几乎所有的原因都不是用几个简单的词或短语就可以表达清楚的,找到这些答案,并以合适的方式整合给用户,自然是一个很大的难题。

第三篇文章《立委科普:从产业角度说说NLP这个行当》,这是几年前吹的牛皮。详见李维的博文: https://www.360docs.net/doc/8415914638.html,/blog-362400-434811.html。由于也很相关,所以也放在这里。NLP技术的工业可行性我认为已经完全被证明了,虽然很多人也许还没有意识到。证明的实例表现在我们解决了三个信息搜索的难题: 搜索How类型问题的难题; 搜索Why类型问题的难题; 对客户反馈情报及其动机的抽取(譬如客户对一个产品的好恶)。 前两个问题是问答搜索业界公认的最难类型的题目,第三个题目涉及的是语言现象中较难把握的主观性语言(subjective language),并非NLP中通常面对的客观性语言(objective language)。这类从文本中提取主观性语言的技术,即情感提取(sentiment extraction)成为语言处理最难的课题之一。从问答系统角度来看,回答Who、When、Where等实体事实型(entity factoid)问题比较简单,技术相对成熟,最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军。Jeopardy的大多数问题是属于实体事实类的问题,而这类问题的处理技术相对成熟。电脑打败了人脑,详见COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS。具体细节就不谈了,以后有机会再论。总之,这

【CN109947916A】基于气象领域知识图谱的问答系统装置及问答方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910153832.X (22)申请日 2019.03.01 (71)申请人 河北尚云信息科技有限公司 地址 050000 河北省石家庄市高新区天山 大街266号方大科技园10号楼1052 (72)发明人 江跃华 周二亮 刘伟 朱玉  (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/338(2019.01) G06F 17/27(2006.01) (54)发明名称基于气象领域知识图谱的问答系统装置及问答方法(57)摘要本发明属于自然语言处理的问答系统领域,尤其涉及气象问答领域的方法及装置。装置包括:气象领域的知识图谱构建模块,问题解析模块,数据聚合模块,答案生成模块。该系统接收用户提出的问题,并通过问题解析模块使用自然语言处理的方式解析用户所提出的关于天气的问题,并排除不合理的问题;根据知识图谱中所存储的天气知识来判断实时的天气数据是否符合该天气信息,根据用户所提的问题,生成相应的答案,反馈给用户。对于结构不固定,类型多样的天气、生活和其他类的规则,可以方便的进行存 储与查询。权利要求书3页 说明书10页 附图2页CN 109947916 A 2019.06.28 C N 109947916 A

权 利 要 求 书1/3页CN 109947916 A 1.基于气象领域知识图谱的问答系统装置,其特征在于,包括: 气象领域的知识图谱构建模块,用以将气象领域的专业知识转换为实体,实体和实体之间用与或关系进行链接,构建气象领域天气知识的知识图谱;用于所有天气知识转成三元组,人工构建天气的气象判断规则,存储到图数据库中并组成三元组; 问题解析模块,用于解析用户所提出的关于天气的问题,将用户提出的问题进行分词和预处理,根据分得的词汇的词性和该词汇对应自定义词库的类别作为依据,填充在该模块设置的问题槽位,并排除不合理的问题; 数据聚合模块,用于对问题槽位中的词,通过词的相似度计算方式,选取与知识图谱中最匹配的规则,进而判断实时的天气数据是否符合该规则,并将天气数据和多种判断结果存入该模块设置的答案槽位中; 答案生成模块,用于将数据聚合模块中答案槽位的数据取出,并根据答案的类型生成相应的回答;对于各个类型的答案进行组合时,需要对每个类型的答案进行排序;最后将答案反馈给用户。 2.如权利要求1所述的基于气象领域知识图谱的问答系统装置,其特征在于,实时的天气数据来源于在线的第三方接口平台; 用户提出的问题可划分为五种类别:天气详情、被查询天气详情、天气属性、出行、穿衣; 问题槽位所设置的形式包括(时间类型,地点类型,天气类型,生活类型,其他类型,问题类型); 答案槽位形式为(时间及其属性;地点及其属性;天气数据和判断结果;生活和判断结果;其他;问题类型); 气象判断规则划分为时间类型、地点类型、天气类型、生活类型、其他类型; 答案生成模块中预先定义有答案模板,用于产生答案时使用该模板,仅需将采集的天气数据替换到该模板中对应位置即可产生相应的答案。 3.如权利要求2中任一项所述的基于气象领域知识图谱的问答系统装置,其特征在于,在问题解析模块中使用分词软件进行分词之前,预加载本地的自定义词库;该本地的自定义词库按行读取文本内容并添加到分词软件的自定义词库中;本地自定义词库包括时间类型、天气类型、地点类型、生活类型的词汇。 4.如权利要求3所述的基于气象领域知识图谱的问答系统装置,其特征在于,问题槽位只包含时间类型或地点类型或天气类型或生活类型或其他类型词汇,以及将这五种类型词组合后缺少时间类型或地点类型的词汇的问题槽位对应的问题为不合理的问题。 5.如权利要求3所述的基于气象领域知识图谱的问答系统装置,其特征在于,数据聚合模块还用于训练词向量模型;用于在知识图谱中查询相似度最高的节点;用于将查询后的所有路径信息转换成树形结构的路径;用于遍历整个规则树,使用判断函数计算实时的天气数据是否符合其规则;还用于提前计算重要天气信息,若存在,则填充到答案槽位中。 6.如权利要求5所述的基于气象领域知识图谱的问答系统装置,其特征在于,使用判断函数计算实时的天气数据是否符合其规则天气知识图谱中所存储的天气知识时,没有在原始数据中直接给出的天气数据通过自定义函数计算。 7.基于气象领域知识图谱的问答系统的问答方法,其特征在于:使用权利要求1-6任一 2

智能问答系统调研

中文问答系统调研报告 目录 问答系统调研报告 (1) 1 问答系统的价值体现 (3) 1.1市场应用价值 (3) 1.2 弥补了搜索引擎的不足 (3) 1.3 总结 (3) 2 问答系统的市场应用情况 (3) 3 问答系统整体框架 (5) 3.1 问答实现流程 (5) 3.2问句分析模块 (6) 3.2.1中文分词 (6) 3.2.2关键词提取 (9) 3.2.3关键词扩展 (10) 3.2.4实体识别 (11) 3.2.5问句分类 (12) 3.3 信息检索模块 (13) 3.3.1模式匹配 (13) 3.3.2答案检索 (13) 3.3.3知识图谱 (16) 3.4答案抽取模块 (21)

3.4.1基于规则的方法 (21) 3.4.2基于统计的方法 (22) 4 问答系统的应用场景 (23) 4.1 任务型 (23) 4.2 问答型 (24) 4.3 语聊型 (24) 5 调研总结 (30)

1 问答系统的价值体现 1.1市场应用价值 问答系统是智能人机交互的技术基础,智能人机交互通过拟人化的交互体验逐步在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的作用和价值。因此,各大公司都将智能聊天机器人作为未来的入口级别的应用在对待。 包括Google、Facebook、Microsoft、Amazon、Apple等互联公司相继推出了自己的智能私人助理和机器人平台。 1.2 产品技术价值 1、搜索引擎的缺陷: 一方面,用户所输入的搜索关键词或关键句,无法真实反映用户需求;另一方面,检索系统仅仅通过几个关键词的简单逻辑组合来返回答案。两方面的误差造成检索结果很差。 检索结果不够简洁。冗余信息使用户难以快速准确定位所需信息,造成时间和精力的浪费。 缺乏对用户问句的语义理解。只靠关键词的索引或简单的匹配算法,并不能真正触及到问题的真实意思,使检索结果一般。 2、问答系统能针对搜索引擎缺陷的改进 1)问答系统允许用户以自然语言的形式询问或者输入。 2)问答系统能直接返回答案,提供给用户简洁、有效的答案。 3)问答系统能分析用户意图,提供给用户真正有用、准确的信息。 1.3 总结 无论是在日常生活中查阅资料,还是在科学研究、商业金融等领域的应用,都有智能问答的参与,所以智能问答的发展与管理将是人们不可忽视的研究方向。 2 问答系统的市场应用情况 按照市场应用情况可分为五类:在线客服,娱乐机器人,教育聊天机器人,个人助理和智能问答. (1) 在线客服

基于知识的智能问答技术

题目:基于知识的智能问答技术(PDF) 作者:许坤,冯岩松(北京大学) ———————————————————— 作者简介: 许坤,北京大学计算机科学技术研究所博士生,研究方向为基于知识库的智能问答技术,已连续三年在面向结构化知识库的知识问答评测QALD-4, 5, 6中获得第一名。 冯岩松,北京大学计算机科学与技术研究所讲师。2011年毕业于英国爱丁堡大学,获得信息科学博士学位。主要研究方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用;研究小组已连续三年在面向结构化知识库的知识问答评测QALD中获得第一名;相关工作已发表在TPAMI、ACL、EMNLP等主流期刊与会议上。作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863计划项目。分别在2014 和2015 年获得IBM Faculty Award。 引言 近年来,信息抽取技术的快速发展使得快速构建大规模结构化、半结构化知识库成为可能。一大批结构化知识库如雨后春笋般涌现出来,如Google Knolwedge Graph (Freebase)、Yago,DBpedia、微软ProBase、搜狗知立方及百度等企业内部的知识图谱等。 同时,这些大规模知识库也被应用于关联检索、个性化推荐、知识问答等任务中。相比于传统基于文本检索的问答系统,利用知识库回答自然语言问题可以为用户提供更精确、简洁的答案,因此一直受到学术界和工业界的广泛关注。

目前基于知识库的问答技术可以大致分为两类。第一类基于语义解析的方法。这类方法通过学习相关语法将自然语言转问题转换成可以用来描述语义的形式化语言,如逻辑表达式等。构建这样的语义解析器需要大量的标注数据,例如,自然语言问题及其对应的语义描述形式。然而,针对Freebase这样大规模的结构化知识库,在实际中很难收集到足够多的高质量训练数据。另外,语义描述形式与知识库的结构之间的不匹配也是这类方法普遍遇到的一个问题,例如,在Freebase中并没有―爸爸‖或―妈妈‖这样的谓词关系,只有―父母‖,因此,如果想表示―A 是B的母亲‖这样的关系,则需明确表示为―‖ 并且―‖。 另一类知识问答技术是传统的基于信息检索的方法。这类方法不会将自然语言问题完全转换成形式化的语义描述,而是首先利用实体链接技术从知识库中收集候选答案集合,然后构建排序模型对候选答案进行排序。因为不需要完整地解析自然语言问题的语义结构,因此,这类方法构造训练数据的过程相对简单,只需收集问题答案对即可。实验表明,基于检索的方法对语义简单的自然语言问题比较有效,但是难以处理语义结构复杂的问题,尤其是包含多个实体和关系的自然语言问题。例如,对于自然语言问题―What mountain is the highest in North America?”,检索类的方法由于缺乏对highest的正确解析,通常会将所有坐落在北美的山脉返回给用户。事实上,为了得到正确的答案,问答系统还需要根据山脉高度对候选答案进行排序,并选择海拔最高的山脉返回给用户。该过程通常需要人工编写解析规则对答案进行筛选,费时费力。此外,由于自然语言描述的多样性,人们也无法事先穷举所有这样的规则。 然而事实上,Freebase这样的结构化知识库希望存储关于真实世界的知识条目,而像维基百科页面这样的文本百科资源则存储支持这些事实的文本描述。例如,在维基百科页面中,我们可以找到一段与候选答案有关的文本 Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。

个方面分析知识图谱的价值和应用

6个方面分析知识图谱的价值和应用知识对于人工智能的价值就在于,让机器具备认知能力和理解能力。构建知识图谱这个过程的本质,就是让机器形成认知能力,理解这个世界。一、知识图谱无处不在说到人工智能技术,人们首先会联想到深度学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等等,各行各业都在研发底层技术和寻求AI场景,却忽视了当下最时髦也很重要的AI技术:知识图谱。当我们进行搜索时,搜索结果右侧的联想,来自于知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自于知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景,都越来越依赖知识图谱。二、知识图谱与人工智能的关系知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模。通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。形成知识图谱的过程本质是在建立认知、理解世界、理解应用的行业或者说领域。每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱。正是因为有获取和形成知识的能力,人类才可以不断进步。知识图谱对于人工智能的重要价值在于,知识是人工智能的基石。机器可

以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如:狗的嗅觉。而“认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。”知识对于人工智能的价值就在于,让机器具备认知能力。而构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。 三、图数据库知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,图论中图的基本元素是节点和边,在图数据库中对应的就是节点和关系。用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。目前市面上较为流行的图数据库有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库,一修改便容易“牵一发而动全身”图数据库可实现数据间的“互联互通”,与传统的关系型数据库相比,图数据库更擅长建立复杂的关系网络。图数据库将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。四、知识图谱的价值知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各种关系,并且非常直观、自然、直接和高效,不需要中间过程

智能科普问答系统

随着科普信息的不断普及,为了解决科普内容艰涩难懂的特性,并结合互联网、新媒体等新型传播媒介,不仅仅传输给人们具有权威性、全面性的科普知识,结合自然语言的科普知识更加通俗易懂,这就实现了智能科普问答系统。 目前,网络上的科普数据资源浩如烟海、错综复杂,而用户的信息需求又千变万化、千姿百态,基于关键词组合的信息需求表示方式和基于浅层分析的语义分析这类传统的信息检索技术俨然不能满足当下用户的需求,智能科普问答技术通过对数据的深度加工和组织管理、以更自然的交互方式满足用户更精确的信息需求。 科普问答系统借助互联网,突破时间和空间的限制,让公众可以随时随地获取自己想要的科学信息。这也是对公众的一种赋权,让他们更直观、更全面的了解科学知识。问答系统采用人工智能技术,可以有效防止科普信息存在的漏洞,让群众可以正确了解科学知识。 智能科普问答系统以一问一答形式,精确的定位网站用户所需要的提问知识,并给网站用户提供交互服务。 (一)相关问答推送 当网站用户提出问题时,系统不仅将问题答案推送出来,而且会将与这个问题相关的知识也都推送出来供用户查询,这样就做到了一次提问全面掌握所有信息。 (二)提问智能提示 用户在提问的过程中, 系统将已经输入的内容自动分析给予优化的补全或相关提示。 (三)焦点问题自动排行 对在一定的时间内,用户对知识提问的热度,系统自动聚焦,并按照访问频度将热点知识集中在系统页面上热点词聚焦 系统对用户提交的业务关键词进行统计,并按照访问的频度进行聚焦,将与关键词相关的业务列表自动链接,形成业务热点关键词。

(四)显在线客服问答 模拟在线客服人员,以网站智能客服形式完成客服作用。 (五)引导式交互客服服务 将常见问题整理成若干流程诊断型的知识,通过引导交互式地服务,尽量从Web端解决客户常见问题。 (六)客服座席协助 完成专家坐席功能,在普通坐席人员无法回答问题时提供标准化的知识协助,帮助普通客服人员快速,准确回答。 智能科普问答系统的上线应用,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

相关文档
最新文档