【CN110717018A】一种基于知识图谱的工业设备故障维修问答系统【专利】

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910302775.7

(22)申请日 2019.04.15

(71)申请人中国石油大学（华东）

地址 266580 山东省青岛市黄岛区长江西

路66号

(72)发明人于强　张卫山　耿祖琨　

(51)Int.Cl.

G06F 16/332(2019.01)

G06Q 10/00(2012.01)

G06F 16/953(2019.01)

G06F 16/36(2019.01)

G06N 3/08(2006.01)

(54)发明名称

一种基于知识图谱的工业设备故障维修问

答系统

(57)摘要

本发明提出了一种基于知识图谱

(Knowledge Graph)的工业设备故障维修问答系

统，包括以下步骤：专家经验知识获取以及预处

理消歧，并以此运用关系抽取算法以及事件抽取

算法构建工业故障维修领域知识图谱；将深度神

经网络与隐马尔可夫模型相结合构建语音识别

模型，在提高普通话语音识别准确率的同时，训

练多个地域的语音识别模型，实现对多种方言语

音的精确解析。基于Fasttext意图识别算法等融

合性自然语言处理技术对语音识别结果进行语

义分析，精准识别客户语音查询意图，通过对知

识图谱查询相关故障维修意见。权利要求书1页说明书3页附图1页CN 110717018 A 2020.01.21

C N 110717018

权　利　要　求　书1/1页CN 110717018 A

1.一种基于知识图谱的工业设备故障维修问答系统，其特征在于，知识获取模块、知识图谱构建模块、语音识别模块、语义分析模块，知识图谱查询模块包括以下步骤：步骤(1)、在知识获取模块，通过人工录入和互联网收集的方式获取与故障诊断维修相关的专家经验知识。经过清洗、筛选、和特征提取，形成有效的故障维修相关信息；

步骤(2)、在知识图谱构建模块，通过对预处理后的工业设备维修相关知识基于依据依存关系进行实体关系抽取，即从文本内容中识别出实体，进而抽取实体间的语义关系，以及基于模式匹配算法与SVM算法组合使用进行事件抽取，从文本等非结构化信息中抽取出特定的故障维修模式，并结构化呈现；

步骤(3)、在语音识别模块，将深度神经网络与隐马尔可夫模型相结合训练语音识别模型，在提高普通话语音识别准确率的同时，训练多个地域的语音识别模型，将语音数据转化为文本数据，实现对多种方言语音的精确解析；

步骤(4)、在语义分析模块，将转化后的文本数据进行分词处理，之后基于FastText模型对用户查询进行意图识别，分析查询故障类型、维修方法等信息。

步骤(5)、在知识图谱查询模块，基于对用户意图识别结果从知识图谱中检索相关故障维修信息，得到与用户提问相似的候选问句，返回对应的候选结果列表。

知识图谱概述与应用

导读：知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来，它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年纷纷推出了自己的知识图谱产品以作为回应。比如在国，互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比，对处于当今风口浪尖上的行业 - 互联网金融，知识图谱可以有哪方面的应用呢？目录： 1. 什么是知识图谱？ 2. 知识图谱的表示 3. 知识图谱的存储 4. 应用 5. 挑战 6. 结语 1.什么是知识图谱？知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里

输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。另外，对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“，Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。上面提到的知识图谱都是属于比较宽泛的畴，在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用，这也是工业界比较关心的话题。 2.知识图谱的表示假设我们用知识图谱来描述一个事实（Fact） - “三是四的父亲”。这里的实体是三和四，关系是“父亲”（is_father_of）。当然，三和四也可能会跟其他人存在着某种类型的关系（暂时不考虑）。当我们把也作为节点加入到

依托知识管理实现智能服务-知识管理论坛

知识管理论坛 ISSN 2095-5472 CN11-6036/C Knowledge Management Forum E-mail: kmf@https://www.360docs.net/doc/bc11482863.html, https://www.360docs.net/doc/bc11482863.html, 519 【专家访谈】依托知识管理实现智能服务 ——专访华夏基金知识管理专家葛朝晖、李响 ◎ 采编：刘远颖易飞王铮专家简介葛朝晖：具有证券/基金、互联网、软件等多个行业的丰富从业经历，自2007年加入华夏基金，现任客户服务总监。在此期间，积极推动部门建立三级KPI 指标体系，不断提升服务效率，实现对4 700多万基金客户的优质服务，连续7次获得中国客服委最佳客服评奖；组织实施客服知识库改造，2次获得“中国最受尊敬的知识型组织大奖”（MAKE 大奖），并在业内首家上线智能客服系统。李响：2007年加入华夏基金，现任客户服务部质检中心主管，负责管理质检、知识库、培训、投诉等工作，从业经验丰富。从2010年起开始进行知识管理，不断探索基金行业知识体系架构，建立起符合行业需要的知识四库，以创新的知识应用方式获得权威机构认可。采访者：《知识管理论坛》（以下简称KMF ）编辑部刘远颖、易飞文字整理：王铮受访者：华夏基金客服服务部总监葛朝晖、质检中心主管李响（以下简称“华夏基金”）采访时间：2017年7月13日采访地点：华夏基金客户服务部引用格式：依托知识管理实现智能服务——专访华夏基金知识管理专家葛朝晖、李响[J/OL]. 知识管理论坛, 2017, 2(6): 519-525[引用日期]. https://www.360docs.net/doc/bc11482863.html,/p/119/. 发表日期：2017-12-28 本文责任编辑：刘远颖葛朝晖李响 1 关于基金行业的知识管理特点 KMF ：两位专家你们好！感谢你们接受《知识管理论坛》的采访，本刊从2016年开始采访知识管理界的专家学者，涵盖了软件界、咨询界、培训界、学术界等各个方面的人士，而你们是来

智能问答系统中命名实体识别问题研究

龙源期刊网 https://www.360docs.net/doc/bc11482863.html, 智能问答系统中命名实体识别问题研究作者：费建军来源：《数字技术与应用》2017年第07期摘要：信息化时代的到来，人们从互联网中快速获得大量的信息。如何高效的从海量数据中获取有用的资源的需求和人工智能的兴起，促进了问答系统的发展。问答系统是构架于信息抽取之上，其影响着知识库的结构和解析问句的方式。命名实体是信息抽取领域的一个子集。所以本文主要是针对实体识别模型进行研究，本文介绍了三中主流实体识别模型的，并将股票实体作为研究对象，最终采用了CRF（Conditional Random Field）条件随机场模型。在该模型基础上根据上下文和词性特征，提出了CC-CRF识别算法。利用CRF++训练得到能够识别代码和名称的CC-CRF实体识别模型。关键词：股票；命名实体识别；CRF模型中图分类号：TP391.6 文献标识码：A 文章编号：1007-9416（2017）07-0093-04 命名实体通常指的是现实中独立存在的具体的或者抽象的事物[2]。如何使计算机能够理解自然语言是智能问答系统需要解决的一个关键问题。自然语言处理的研究范围包括词法分析、信息抽取、自动文摘等[1]。信息抽取领域中，命名实体识别作为重要分支[3]，其任务是标注语句中的实体，所以命名实体的识别有着非常关键的意义。作为文本的基本单位，它包含大量的语义信息，因此对命名实体进行识别可以保证最简单快捷的获得文本信息。他存在的价值就是标注语句中的实体，实体的识别对正确解析自然语言有着极其重要的作用。识别的实体领域一般为人名、机构名、地名以及专有名词等。在实际研究中，还需要根据具体要求来确定。本文中，要识别的实体为股票名称与股票代码[4]。命名实体识别在问句处理和知识库的构建方面发挥着关键性的作用。命名实体识别的方法主要有：基于规则和词典的方法、基于统计的方法和二者混合的方法[5]。本文介绍了四种命名实体识别模型（基于规则和词典的方法、隐马尔科模型、最大熵模型、条件随机场模型）以及每种模型的优缺点。在经过对比并且结合股票命名实体的特点，选择条件随机场作为投资领域命名实体的模型。并在此基础上提出了引入了上下文特征和词性特征的CC-CRF识别算法。使用该模型对语料训练得到CC-CRF模型，并对模型的识别效果进行测试。 1 相关工作与常规实体识别模型 1.1 基于规则和词典的方法

知识与知识库系统

知识管理与知识库系统 1.知识管理随着计算机科学技术的发展，以计算机为工具的信息处理技术经历了数值计算阶段和数据处理阶段之后，已经进入了知识管理与处理的阶段，也就是说，计算机可以像人类一样具有创造性思维的能力，即智能。这意味着计算机信息社会进入了一个知识信息处理的新时代，而知识库技术将使计算机应用系统拥有更多的智能。作为一种管理行为，知识管理历史悠久。知识经济将是继农业经济和工业经济以后的又一种新的社会经济形态。知识不仅是与传统生产要素并列的一种资源，而且是当今唯一有意义的特殊资源，知识首次以一种无形的形式作为经济基础出现在人类发展的进程中。 1.1 知识管理的发展

知识作为一种组织资产的重要性在80年代中期已经被人们意识到知识管理一词正式出现于1989年，这一年为了给知识管理工作提供相应的技术支持，美国一家公司联合会实行了一项管理资产的实验项目，与知识管理相关的一些文章开始出现于一些知名杂志，如《斯隆管理评论》、《哈佛商业评论》、《组织科学》等 1991年野中郁次郎和组内广隆出版了名著《知识创造型公司：日本公司如何建立创新动力机制》标志着知识管理的产生。 1.2 知识经济时代企业的核心竞争力 IDC研究报告显示，员工做的90%的所谓创新工作都是重复的，因为这些知识已经存在。另一份报告显示，员工的1/3时间用在了寻找某些他们永远没有找到的信息上。有72%的员工认为自己所在的企业没有把公司不同地方的知识很好的相互复用，也没有实现知识的整合，形成了“知识孤岛”。

由此看来，如何优化流程将员工宝贵的工作时间能够直接运用于协作顾客或解决问题的创造价值的活动上，对营造企业竞争优势非常重要。 1.3 知识管理的定义知识管理就是运用信息化技术手段将人与知识充分结合，并且创造知识分享的文化，以加速员工学习、创造及应用知识，提升组织的核心能力，核心为人、组织和技术，简称HOT 。 1.4 为什么需要知识管理 1）外部环境压力 ●全球化、快速化、动态化的激烈市场竞争压力 ●知识成为21世纪的主要经济资源 2）竞争与生存的需求 ●知识利用可以产生竞争上的差异化，并使竞争对手难以模仿 ●知识会影响企业机会把握、响应速度和产品上市时间等最重要的企业生存能力 3）知识的经济价值性 1.5 知识管理的实现方法 1）知识管理理念、方法的导入

知识图谱概述及应用

导读：知识图谱(Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来，它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内，互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比，对处于当今风口浪尖上的行业- 互联网金融，知识图谱可以有哪方面的应用呢？目录： 1. 什么是知识图谱？ 2. 知识图谱的表示 3. 知识图谱的存储 4. 应用 5. 挑战 6. 结语 1.什么是知识图谱？知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。另外，对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“，Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

基于知识库的智能客服机器人问答系统设计

Computer Science and Application 计算机科学与应用, 2019, 9(11), 2098-2104 Published Online November 2019 in Hans. https://www.360docs.net/doc/bc11482863.html,/journal/csa https://https://www.360docs.net/doc/bc11482863.html,/10.12677/csa.2019.911235 Design of Question Answering System of Intelligent Customer Service Robot Based on Knowledge Base Jie Lu, Shaobo Li The Mechanical Engineering College, Guizhou University, Guiyang Guizhou Received: Nov. 1st, 2019; accepted: Nov. 14th, 2019; published: Nov. 21st, 2019 Abstract Firstly, this paper analyzes the current situation of intelligent customer service robot, summarizes the characteristics of information retrieval, database query and Q&A system. It also compares the question answering system based on Web information retrieval, the question answering system based on knowledge base and the community question answering system. Secondly,it decomposes the knowledge base management and relationship architecture of Q&A system, and puts forward the specific learning process and implementation framework. Finally, the weather query applica-tion scenario is simulated. The results show that the question answering system of intelligent customer service robot based on knowledge has good practical application effect. Keywords Question Answering, Knowledge Base, Natural Language Processing, Resource Description Framework 基于知识库的智能客服机器人问答系统设计陆婕，李少波贵州大学机械工程学院，贵州贵阳收稿日期：2019年11月1日；录用日期：2019年11月14日；发布日期：2019年11月21日摘要本文首先对智能客服机器人现状进行分析，总结了基于任务处理模式的信息检索、数据库查询、问答系

电子运维知识库管理系统建设方案

1. 概述 1.1. 建设背景现湖南E-OMS 系统已初步形成了面向日常运维事务、对日常运维工作进行监督和管理的具有湖南移动自身特色的电子化运维的平台性系统，成为湖南移动网络部日常工作、网络维护不可或缺的系统。随着E-OMS系统的完善，电子化运维的使用人员对资源的优化，使用的方便程度提出了越来越高的要求，迫切需要建设一套电子运维知识库系统，来提高运维工作效率，以便于日常工作管理。 1.2. 建设原则按照集团公司的规划，知识库系统采用独立部署，统一建设的原则，达到应用统一和信息共享的目的。由于客服目前已经依据集团规划，建设了一套知识库系统，因此不允许再进行重复性的建设。 1.3. 建设内容根据前面所述的系统的建设背景及原则，我们提出：依托客服现有的知识库系统，建设电子运维知识库管理系统。通过对现有客服知识库系统的改造来满足电子运维对知识库的需求，同时也大大降低了成本，加快了建设的速度。总体建设方式如下： 1、在现有知识库中新增电子运维专用数据节点，同时分配给电子运维专用的账号及权限，以便进行管理。 2、通过对现有知识库系统知识搜索功能的改造，增强现有知识库的搜索引擎功能。 3、在现有知识库系统上，增加新的业务接口，满足电子运维对知识库的需求。

知识库系统

企业知识管理系统产品白皮书
2009.5
声明：本文件只供指定用户使用，未经银海天怡公司允许，此文件不得传递至第三方。
Created with Print2PDF. To remove this line, buy a license at: https://www.360docs.net/doc/bc11482863.html,/

目录
概述
知识库系统
系统简介
系统规划
Page 2
Created with Print2PDF. To remove this line, buy a license at: https://www.360docs.net/doc/bc11482863.html,/

随着企业组织机构和人员的增加，以及业务领域的拓展，使得随之产生的大量文档、业务数据等知识元素，分散的沉淀在各个系统之中
越来越多的知识停留在纸质的沉淀和分散在各个系统中，知识搜索和共享非常困难
知识分散度
前端客户服务人员无知识库系统支撑，业务营销和服务解释口径不统一
人员数量
Page 3
Created with Print2PDF. To remove this line, buy a license at: https://www.360docs.net/doc/bc11482863.html,/

面对呈几何级数增长的大量电子数据信息，企业往往容易走入误区，利用搜索引擎技术，为企业提供信息查询，满足企业内部的信息检索
我们应该更多考虑，如何调整散布在各处的知识片段，如何将知识与人进行自动关联，如何打破人与人之间的沟通界限，形成具有企业自身业务需求特点的知识平台
搜索引擎
知识平台
Page 4
Created with Print2PDF. To remove this line, buy a license at: https://www.360docs.net/doc/bc11482863.html,/

育儿知识问答集

育儿专题知识库一、各阶段宝宝的生理特征和护理事项 1: 新生儿的各项生理数据 2: 1个月宝宝身体特征；护理注意事项3: 2个月宝宝生理特征；护理注意事项4: 3个月宝宝生理特征；护理注意事项5: 4个月宝宝生理特征；护理注意事项6: 5个月宝宝生理特征；护理注意事项7: 6个月宝宝生理特征；注意事项 8: 7个月宝宝生理特征；护理注意事项：9: 8个月宝宝身体特征；护理注意事项10: 9个月宝宝身体特征；护理注意事项11: 10个月宝宝生理特征；护理注意事项12: 11个月宝宝身体特征；护理注意事项13: 12个月宝宝身体特征；护理注意事项14: 1-3岁宝宝身体特征；注意事项 15: 3-6岁宝宝生理特征；注意事项二、新生儿相关的知识 16: 新生儿易发哪些疾病 17: 新生儿期应做的特殊护理18: 如何鉴别新生儿呕吐 19: 新生儿的睡眠姿势忌固定不变20: 新生儿神经精神发育 21: 新生儿正确的睡姿是什么22: 新生儿身体,生理发育特点 23: 新生儿如何保暖；如何穿着和包裹新生儿 24: 新生儿的居室条件 25: 新生儿如何清洁皮肤；脐带的护理 26: 新生儿特殊的生理现象 27: 新生儿眼屎多的４种原因 28: 新生儿惊跳的原因 29: 新生儿常见的一些生理现象溢乳三、宝宝打嗝吐奶的处理 29：宝宝的改善措施 30：宝宝溢奶、吐奶的原因和改善措施 31：吐奶处理方式四、宝宝腹泻 1

32：轮状病毒的症状、感染和预防途径33：宝宝拉肚子的原因 34 ：肠炎的病因及防治35: 婴儿腹泻时的饮食安排 36：乳糖不耐受： 37: 乳糖不耐症和牛奶过敏的区别牛奶过敏五、宝宝的大便 38：大便奶油状（奶瓣） 39：宝宝的大便有时黄，时绿的原因40: 母乳喂养和人工喂养的大便颜色41: 小儿不正常的大便42：宝宝断奶转喝奶粉，最近发现宝宝的大便干硬，是否与奶粉有关，应该如何处理 43: 宝宝大便干硬怎么办 44: 便秘的原因和改善措施六、宝宝湿疹及奶癣问题 45：宝宝对牛奶过敏的原因 46：宝宝湿疹的护理 47: 婴儿患奶癣还能吃奶吗 48: 湿疹与痱子的区别 49: 宝宝尿布疹的表现和护理七、关于宝宝钙的问题 50: 母乳可以喂到什么时候如何正确的给宝宝补充维生素 51：宝宝如何补钙 52: 儿童补钙过量危害大53: 含钙量较多的辅食有哪些54: 佝偻病的防治 55: 骨头汤能补钙吗？ 56: 鱼肝油中毒八、关于宝宝牙的问题 57: 婴儿出牙表现及护理 58：宝宝几时开始出牙，出牙的注意事项59: 乳牙（牙齿）的保健60: 出牙晚不一定是钙“出错 61: 宝宝夜间磨牙的原因 2

三大类知识管理系统——III 智能技术

第九章知识管理与大数据 9.7 三大类知识管理系统 ——III 智能技术

2 智能技术人工智能（AI）技术：智能技术：用于捕捉个人和集体知识，并扩展知识库自动化任务生成复杂问题的解决方案知识发现捕捉隐性知识模拟人类行为的计算机系统

3 1. 专家系统在特定的、有限的人类专业知识域中捕捉隐性知识捕捉熟练员工的知识，并在软件系统中作为规则（IF… Then…），以供组织内其他人员使用一般执行有限的任务，可能需要几分钟或数小时，例如：?诊断故障的机器?决定是否发放信贷用于离散、高度结构化的决策

?一个专家系统包含了一系列的规则。这些规则是相互关联的，结果的数量是已知的且有限的，有多个路径可以得到相同的结果。在一个单一的时间，该系统可以考虑多个规则。 ?本图显示的是一个适用于简单的信用证授予专家系统所需要的规则。D->E如果是D，询问雇佣年限 G->H如果年限<4，询问其他债务 F 限额10,000 I 限额3,000 A->B如果收入>50,000，询问汽车付款，否则退出 D 给予信贷额度 B->C如果汽车付款<收入的10%，询问按揭还款，否则退出 C->D如果抵押贷款付款 <20%的收入，批准信贷，否则退出 E->F如果年限>=4，给予 10,000限额，否则执行G H->F如果其他债务<5%的收入，执行F，否则执行I F 限额10,000 I 限额3,000 D->E如果是 D，询问雇佣年限 G->H如果年限<4，询问其他债务 1. 专家系统专家系统规则 4

5 1. 专家系统专家系统如何工作前向推理链：推理引擎从用户输入的信息开始搜索知识库，并得出结论反向推理链：从假设开始，问用户问题直到假设被证实或否定知识库推理引擎包含上百或上千的规则搜索知识库的策略

从问答系统看知识智能

问答系统发展历程问答系统的研究经历了几个阶段。从20世纪50~60年代开始，人工智能科学家就致力于研究基于知识推理的问答系统，其特点是：专家建立知识库，答案或者从知识库中检索得到，或者在知识库上经过推理得到。推理主要是基于专家制定的启发式规则进行。代表性系统是美国麻省理工学院开发的数学符号运算系统MACSYMA[1]。基于知识推理的问答系统具有性能良好、回答准确、具有推理能力等优点。但是这种方法也有明显的缺点：人工构建知识库非常困难，知识库规模和领域有限，如果问题超出了知识库的范围，则系统性能会很差。 20世纪90年代，随着互联网技术的发展，网络信息日益丰富，搜索引擎为信息获取提供了极大的便利，但却无法清楚地表达人们的意图，而且其返回的是网页，并不是确切的答案，因此不能很好地满足人们的信息需求。为了弥补搜索引擎的不足，研究人员提出了问答式检索系统，如麻省理工学院开发的Start1、Umass开发的QuASM2和微软公司开发的Encarta3。这类系统的主要特点是：利用信息检索以及浅层自然语言处理技术从大规模文本库或者网页库中抽取出答案。与基于知识推理的问答系统相比，问答式检索系统不受知识库规模和领域的限制，更加接近真实的应用需求；与传统的搜索引擎相比，问答式检索系统接受的是自然语言形式的提问，对用户意图的把握更加准确，呈现给用户的答案也更加准确。但是目前，问答式检索系统仅能处理有限类型的简单问题，如事实性的问题、定义性的问题等。而且，由于只用到检索技术和一些浅层的自然语言处理技术，问答图灵测试让计算机具有人的智能，一直是科学家追求的目标。1950年，阿兰·图灵(A. M. Turing)提出“图灵测试”：让一个人在不接触对方的情况下，通过一种特殊的方式和对方进行一系列问答；如果在相当长的时间内，他无法根据这些问题判断对方是人还是计算机，那么就可以认为这台计算机具有相当于人的智力，即这台计算机是能思维的。自此，问答系统成为判断计算机是否具有智能（特别是语言智能）的理想模型。美国认知心理学家奥尔森(G. M. Olson)认为，判别计算机是否理解自然语言的四个标准是：问答系统(question answer-ing)、文摘(summari z ation)、复述(paraphrase)和机器翻译(machine translation)。计算机只要达到四个标准之一，就认为它理解了自然语言。赵　军中国科学院自动化研究所从问答系统看知识智能关键词：问答系统　知识智能 1 https://www.360docs.net/doc/bc11482863.html,/。 2 https://www.360docs.net/doc/bc11482863.html,/IRLab/11-743s04/。 3 https://www.360docs.net/doc/bc11482863.html,/。

智能问答系统调研

中文问答系统调研报告目录问答系统调研报告 (1) 1 问答系统的价值体现 (3) 1.1市场应用价值 (3) 1.2 弥补了搜索引擎的不足 (3) 1.3 总结 (3) 2 问答系统的市场应用情况 (3) 3 问答系统整体框架 (5) 3.1 问答实现流程 (5) 3.2问句分析模块 (6) 3.2.1中文分词 (6) 3.2.2关键词提取 (9) 3.2.3关键词扩展 (10) 3.2.4实体识别 (11) 3.2.5问句分类 (12) 3.3 信息检索模块 (13) 3.3.1模式匹配 (13) 3.3.2答案检索 (13) 3.3.3知识图谱 (16) 3.4答案抽取模块 (21)

3.4.1基于规则的方法 (21) 3.4.2基于统计的方法 (22) 4 问答系统的应用场景 (23) 4.1 任务型 (23) 4.2 问答型 (24) 4.3 语聊型 (24) 5 调研总结 (30)

1 问答系统的价值体现 1.1市场应用价值问答系统是智能人机交互的技术基础，智能人机交互通过拟人化的交互体验逐步在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的作用和价值。因此，各大公司都将智能聊天机器人作为未来的入口级别的应用在对待。包括Google、Facebook、Microsoft、Amazon、Apple等互联公司相继推出了自己的智能私人助理和机器人平台。 1.2 产品技术价值 1、搜索引擎的缺陷：一方面，用户所输入的搜索关键词或关键句，无法真实反映用户需求；另一方面，检索系统仅仅通过几个关键词的简单逻辑组合来返回答案。两方面的误差造成检索结果很差。检索结果不够简洁。冗余信息使用户难以快速准确定位所需信息，造成时间和精力的浪费。缺乏对用户问句的语义理解。只靠关键词的索引或简单的匹配算法，并不能真正触及到问题的真实意思，使检索结果一般。 2、问答系统能针对搜索引擎缺陷的改进 1）问答系统允许用户以自然语言的形式询问或者输入。 2）问答系统能直接返回答案，提供给用户简洁、有效的答案。 3）问答系统能分析用户意图，提供给用户真正有用、准确的信息。 1.3 总结无论是在日常生活中查阅资料，还是在科学研究、商业金融等领域的应用，都有智能问答的参与，所以智能问答的发展与管理将是人们不可忽视的研究方向。 2 问答系统的市场应用情况按照市场应用情况可分为五类:在线客服，娱乐机器人，教育聊天机器人，个人助理和智能问答. (1) 在线客服

知识图谱概述及应用

导读:知识图谱(Knowledge Graph) 就是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界与工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度与搜狗分别推出”知心“与”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业- 互联网金融, 知识图谱可以有哪方面的应用呢？目录: 1、什么就是知识图谱？ 2、知识图谱的表示 3、知识图谱的存储 4、应用 5、挑战 6、结语 1、什么就是知识图谱？知识图谱本质上就是语义网络,就是一种基于图的数据结构,由节点(Point)与边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱就是关系的最有效的表示方式。通俗地讲,知识图谱就就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出,主要就是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“,Google 能准确返回她的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

知识库分类标准与采集标准

知识库分类标准与采集标准一、主要分类现知识库分为政策法规、问题解答、办事指南、业务专题、表证单书、相关法规、通知公告、通讯录、学习园地九大库，用于存放不同性质的知识。 1.政策法规：存放人力资源与社会保障相关的政策法规。 2.问题解答：存放广大群众关心的关于人力资源与社会保障相关的问题。 3.办事指南：存放关于人力资源和社会保障相关的办事流程。 4.业务专题：存放人力资源和社会保障中综合性的问题。 5.表证单书：存放广大群众办理人力资源和社会保障事宜时涉及的相关表格与证书。 6.相关法规：存放相关的国家法规。 7.通知公告：存放紧急的内部通知，而这些通知的内容会影响到12333坐席给广大群众做电话解答时的对外的口径。 8.通讯录：存放人力资源和社会保障相关单位对外的公开联系电话。 9.学习园地：存放相关的学习资料，但这些资料不在知识库检索应用中进行展现。二、各类型知识采集具体要求（一）问题解答 1．内容规范说明（1）资料简码：由系统自动生成（2）所属类别：根据目录树选择该问题的所属类别，同一问题适用多个类别时，应同时选择（3）更新日期：由系统自动生成（4）失效日期：添加该问题失效的时间（初始采集时不涉及该字

段）（5）适用范围：选择该问题的适用范围，包括国家、省级、设区市、区县（6）地区：选择该问题的适用地区，根据行政区域进行选择（中华人民共和国、某省、某市、某县）（7）人员类别：选择该问题的适用对象（8）行业类型：选择该问题的适用对象，根据系统中列表进行选择（9）信息公开选项：选择主动公开、依申请公开和不予公开（10）是否有效：选择有效、无效（初始采集时均为有效）（11）人事劳动选择：选择该问题的适用范围，人事、劳动或通用（12）创建人：系统自动生成（13）标题：添加具体问题。（14）内容：添加解答内容。（15）相关链接：可在系统中将与该问题相关的问题解答库其他内容，及办事指南、表证单书、政策法规等内容进行关联处理，在查看该条问题记录时，可一并显示其关联内容。（16）关键字：添加该问题涉及的关键字，系统可自动抽取关键字供录入者参考，尽量选取与标题接近的关键字。（17）权重参数：在进行检索时，权重较大的问题会优先被显示，参数可在1-10之间选择。（初始采集不需要进行选择）（18）附件上传：对涉及到应当添加附件的，可以上传单个文件不大于10M的附件。 2．范例：

知识图谱和问答系统

知识图谱和问答系统一、引子在讨论知识图谱和问答系统之前，先给出几篇以前的文章。第一篇文章是《立委科普：问答系统的前生今世》，以前也发过，再发一下。详见博文： https://www.360docs.net/doc/bc11482863.html,/blog-362400-436555.html 下一个姐妹篇《立委科普：自动回答How 与Why 的问题》。这篇文章详细谈谈问答系统中的How类型问题和Why类型问题。这篇已经太长，收住吧。希望读者您不觉得太枯燥，如果有所收获，则幸甚。谢谢您的阅览。 How 类型的问题搜寻的是解决方案，其实也不好回答，同一个问题往往有多种解决档案，譬如治疗一个疾病，可以用各类药品，也可以用其他疗法。因此，比较完美地回答这个How 类型的问题也就成为问答系统研究中公认的难题之一。Why 类型的问题是要寻找一个现象的缘由或动机。这些原因有些是显性表达，更多的则是隐性表达，而且几乎所有的原因都不是用几个简单的词或短语就可以表达清楚的，找到这些答案，并以合适的方式整合给用户，自然是一个很大的难题。

第三篇文章《立委科普：从产业角度说说NLP这个行当》，这是几年前吹的牛皮。详见李维的博文： https://www.360docs.net/doc/bc11482863.html,/blog-362400-434811.html。由于也很相关，所以也放在这里。NLP技术的工业可行性我认为已经完全被证明了，虽然很多人也许还没有意识到。证明的实例表现在我们解决了三个信息搜索的难题：搜索How类型问题的难题；搜索Why类型问题的难题；对客户反馈情报及其动机的抽取（譬如客户对一个产品的好恶）。前两个问题是问答搜索业界公认的最难类型的题目，第三个题目涉及的是语言现象中较难把握的主观性语言（subjective language），并非NLP中通常面对的客观性语言（objective language）。这类从文本中提取主观性语言的技术，即情感提取（sentiment extraction）成为语言处理最难的课题之一。从问答系统角度来看，回答Who、When、Where等实体事实型（entity factoid）问题比较简单，技术相对成熟，最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军。Jeopardy的大多数问题是属于实体事实类的问题，而这类问题的处理技术相对成熟。电脑打败了人脑，详见COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS。具体细节就不谈了，以后有机会再论。总之，这

基于知识的智能问答技术

题目：基于知识的智能问答技术（PDF）作者：许坤，冯岩松（北京大学） ———————————————————— 作者简介：许坤，北京大学计算机科学技术研究所博士生，研究方向为基于知识库的智能问答技术，已连续三年在面向结构化知识库的知识问答评测QALD-4, 5, 6中获得第一名。冯岩松，北京大学计算机科学与技术研究所讲师。2011年毕业于英国爱丁堡大学，获得信息科学博士学位。主要研究方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用；研究小组已连续三年在面向结构化知识库的知识问答评测QALD中获得第一名；相关工作已发表在TPAMI、ACL、EMNLP等主流期刊与会议上。作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863计划项目。分别在2014 和2015 年获得IBM Faculty Award。引言近年来，信息抽取技术的快速发展使得快速构建大规模结构化、半结构化知识库成为可能。一大批结构化知识库如雨后春笋般涌现出来，如Google Knolwedge Graph （Freebase）、Yago，DBpedia、微软ProBase、搜狗知立方及百度等企业内部的知识图谱等。同时，这些大规模知识库也被应用于关联检索、个性化推荐、知识问答等任务中。相比于传统基于文本检索的问答系统，利用知识库回答自然语言问题可以为用户提供更精确、简洁的答案，因此一直受到学术界和工业界的广泛关注。

目前基于知识库的问答技术可以大致分为两类。第一类基于语义解析的方法。这类方法通过学习相关语法将自然语言转问题转换成可以用来描述语义的形式化语言，如逻辑表达式等。构建这样的语义解析器需要大量的标注数据，例如，自然语言问题及其对应的语义描述形式。然而，针对Freebase这样大规模的结构化知识库，在实际中很难收集到足够多的高质量训练数据。另外，语义描述形式与知识库的结构之间的不匹配也是这类方法普遍遇到的一个问题，例如，在Freebase中并没有―爸爸‖或―妈妈‖这样的谓词关系，只有―父母‖，因此，如果想表示―A 是B的母亲‖这样的关系，则需明确表示为―‖ 并且―‖。另一类知识问答技术是传统的基于信息检索的方法。这类方法不会将自然语言问题完全转换成形式化的语义描述，而是首先利用实体链接技术从知识库中收集候选答案集合，然后构建排序模型对候选答案进行排序。因为不需要完整地解析自然语言问题的语义结构，因此，这类方法构造训练数据的过程相对简单，只需收集问题答案对即可。实验表明,基于检索的方法对语义简单的自然语言问题比较有效，但是难以处理语义结构复杂的问题，尤其是包含多个实体和关系的自然语言问题。例如，对于自然语言问题―What mountain is the highest in North America？”，检索类的方法由于缺乏对highest的正确解析，通常会将所有坐落在北美的山脉返回给用户。事实上，为了得到正确的答案，问答系统还需要根据山脉高度对候选答案进行排序，并选择海拔最高的山脉返回给用户。该过程通常需要人工编写解析规则对答案进行筛选，费时费力。此外，由于自然语言描述的多样性，人们也无法事先穷举所有这样的规则。然而事实上，Freebase这样的结构化知识库希望存储关于真实世界的知识条目，而像维基百科页面这样的文本百科资源则存储支持这些事实的文本描述。例如，在维基百科页面中，我们可以找到一段与候选答案有关的文本 Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。

【CN109947916A】基于气象领域知识图谱的问答系统装置及问答方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910153832.X (22)申请日 2019.03.01 (71)申请人河北尚云信息科技有限公司地址 050000 河北省石家庄市高新区天山大街266号方大科技园10号楼1052 (72)发明人江跃华　周二亮　刘伟　朱玉　 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/338(2019.01) G06F 17/27(2006.01) (54)发明名称基于气象领域知识图谱的问答系统装置及问答方法(57)摘要本发明属于自然语言处理的问答系统领域，尤其涉及气象问答领域的方法及装置。装置包括：气象领域的知识图谱构建模块，问题解析模块，数据聚合模块，答案生成模块。该系统接收用户提出的问题，并通过问题解析模块使用自然语言处理的方式解析用户所提出的关于天气的问题，并排除不合理的问题；根据知识图谱中所存储的天气知识来判断实时的天气数据是否符合该天气信息，根据用户所提的问题，生成相应的答案，反馈给用户。对于结构不固定，类型多样的天气、生活和其他类的规则，可以方便的进行存储与查询。权利要求书3页说明书10页附图2页CN 109947916 A 2019.06.28 C N 109947916 A

权　利　要　求　书1/3页CN 109947916 A 1.基于气象领域知识图谱的问答系统装置，其特征在于，包括：气象领域的知识图谱构建模块，用以将气象领域的专业知识转换为实体，实体和实体之间用与或关系进行链接，构建气象领域天气知识的知识图谱；用于所有天气知识转成三元组，人工构建天气的气象判断规则，存储到图数据库中并组成三元组；问题解析模块，用于解析用户所提出的关于天气的问题，将用户提出的问题进行分词和预处理，根据分得的词汇的词性和该词汇对应自定义词库的类别作为依据，填充在该模块设置的问题槽位，并排除不合理的问题；数据聚合模块，用于对问题槽位中的词，通过词的相似度计算方式，选取与知识图谱中最匹配的规则，进而判断实时的天气数据是否符合该规则，并将天气数据和多种判断结果存入该模块设置的答案槽位中；答案生成模块，用于将数据聚合模块中答案槽位的数据取出，并根据答案的类型生成相应的回答；对于各个类型的答案进行组合时，需要对每个类型的答案进行排序；最后将答案反馈给用户。 2.如权利要求1所述的基于气象领域知识图谱的问答系统装置，其特征在于，实时的天气数据来源于在线的第三方接口平台; 用户提出的问题可划分为五种类别：天气详情、被查询天气详情、天气属性、出行、穿衣; 问题槽位所设置的形式包括（时间类型，地点类型，天气类型，生活类型，其他类型，问题类型）; 答案槽位形式为（时间及其属性；地点及其属性；天气数据和判断结果；生活和判断结果；其他；问题类型）; 气象判断规则划分为时间类型、地点类型、天气类型、生活类型、其他类型; 答案生成模块中预先定义有答案模板，用于产生答案时使用该模板，仅需将采集的天气数据替换到该模板中对应位置即可产生相应的答案。 3.如权利要求2中任一项所述的基于气象领域知识图谱的问答系统装置，其特征在于，在问题解析模块中使用分词软件进行分词之前，预加载本地的自定义词库；该本地的自定义词库按行读取文本内容并添加到分词软件的自定义词库中；本地自定义词库包括时间类型、天气类型、地点类型、生活类型的词汇。 4.如权利要求3所述的基于气象领域知识图谱的问答系统装置，其特征在于，问题槽位只包含时间类型或地点类型或天气类型或生活类型或其他类型词汇，以及将这五种类型词组合后缺少时间类型或地点类型的词汇的问题槽位对应的问题为不合理的问题。 5.如权利要求3所述的基于气象领域知识图谱的问答系统装置，其特征在于，数据聚合模块还用于训练词向量模型；用于在知识图谱中查询相似度最高的节点；用于将查询后的所有路径信息转换成树形结构的路径；用于遍历整个规则树，使用判断函数计算实时的天气数据是否符合其规则；还用于提前计算重要天气信息，若存在，则填充到答案槽位中。 6.如权利要求5所述的基于气象领域知识图谱的问答系统装置，其特征在于，使用判断函数计算实时的天气数据是否符合其规则天气知识图谱中所存储的天气知识时，没有在原始数据中直接给出的天气数据通过自定义函数计算。 7.基于气象领域知识图谱的问答系统的问答方法，其特征在于：使用权利要求1-6任一 2