【CN109885660A】一种知识图谱赋能的基于信息检索的问答系统和方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910134021.5
(22)申请日 2019.02.22
(71)申请人 上海乐言信息科技有限公司
地址 200030 上海市徐汇区上海市番禺路
1028号数娱大厦8楼
(72)发明人 褚善博 王昊奋
(74)专利代理机构 上海专利商标事务所有限公
司 31100
代理人 施浩
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/36(2019.01)
(54)发明名称
一种知识图谱赋能的基于信息检索的问答
系统和方法
(57)摘要
本发明公开了知识图谱赋能的基于信息检
索的问答系统和方法,整体提升系统的问答效
果,扩大用户咨询范围并提升问题反馈的准确
度。其技术方案为:系统包括:知识图谱数据库存
储领域知识图谱的信息;分词和词性标注模块将
用户问题进行分词并对其词性标注;实体识别与
链接模块将用户问题中的实体进行识别并将实
体链接到知识图谱数据库中的节点上;意图理解
模块基于实体链接结果及分布式表示向量得到
用户问题的意图理解结果;检索模块基于检索数
据源,根据用户问题中的信息检索出对应的多个
问答对作为粗选结果;排序模块利用实体的分布
式表示向量对粗选结果进行重排序;语义匹配模
块利用实体的分布式表示向量对重排序结果进
行打分并最终输出答案。权利要求书3页 说明书10页 附图3页CN 109885660 A 2019.06.14
C N 109885660
A
权 利 要 求 书1/3页CN 109885660 A
1.一种知识图谱赋能的基于信息检索的问答系统,其特征在于,包括分词和词性标注模块、实体识别与链接模块、意图理解模块、检索模块、排序模块、语义匹配模块、知识图谱数据库,其中:
知识图谱数据库,存储领域知识图谱的信息,其中知识图谱的信息包括知识图谱的节点、节点与实体的链接关系及其分布式表示向量;
分词和词性标注模块,连接知识图谱数据库,将用户问题进行分词并对每一个词进行词性标注;
实体识别与链接模块,连接分词和词性标注模块、知识图谱数据库,将经过分词和词性标注后的用户问题中的实体进行识别,并且将识别出的实体链接到知识图谱数据库中的知识图谱的相关节点上;
意图理解模块,连接实体识别与链接模块、知识图谱数据库,基于实体识别与链接模块的实体链接结果以及知识图谱数据库中的实体的分布式表示向量得到用户问题的意图理解结果;
检索模块,连接意图理解模块,基于包括多问答对的检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果;
排序模块,连接检索模块和知识图谱数据库,利用知识图谱数据库的实体的分布式表示向量对检索模块输出的粗选结果进行重排序;
语义匹配模块,连接语义匹配模块和知识图谱数据库,利用知识图谱数据库的实体的分布式表示向量对排序模块的重排序结果进行打分并最终输出用户问题相应的答案。
2.根据权利要求1所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,系统还包括:
拼写纠错模块,拼写纠错模块的输出端连接分词和词性标注模块,用于将用户所输入的问题进行拼写纠错后输出为纠错后的问题,并将纠错后的问题输出至分词和词性标注模块。
3.根据权利要求2所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,拼写纠错模块基于拼写规则和语言模型纠正包括拼音和五笔在内的输入法带来的拼写错误,其中根据用户输入习惯搜集常见的拼写错误并建立拼写规则,产生候选的可能正确的词列表,再使用语言模型对整个问题是否像自然语句进行打分得到最优的结果后将其作为纠错后的问题。
4.根据权利要求1所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,分词和词性标注模块采用词典匹配与基于条件随机场的模型进行分词和词性标注。
5.根据权利要求1所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,实体识别与链接模块将实体识别建模成序列标注问题并采用条件随机场模型(CRF)来进行实现,其中实体链接部分先产生待链接的实体文本片段以及对应的候选实体列表,再使用排序模型对候选实体列表中的每一个候选实体与文本片段结合周边文本以及实体周边信息进行打分,得到最终的链接实体并将其链接到知识图谱数据库中相关的节点上。
6.根据权利要求5所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,知识图谱数据库中预先对整个领域知识图谱中的节点和边进行分布式的表示学习,并用分布式表示向量来存储,以便结合实体识别与链接模块得到用户问题中的每一个实体的分布式表
2