知识图谱和问答系统(活动za)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

知识图谱和问答系统

一、引子

在讨论知识图谱和问答系统之前，先给出几篇以前的文章。第一篇文章是《立委科普：问答系统的前生今世》，以前也发过，再发一下。详见博文：

下一个姐妹篇《立委科普：自动回答与的问题》。这篇文章详细谈谈问答系统中的类型问题和类型问题。这篇已经太长，收住吧。希望读者您不觉得太枯燥，如果有所收获，则幸甚。谢谢您的阅览。

类型的问题搜寻的是解决技术指导文件，其实也不好回答，同一个问题往往有多种解决档案，譬如治疗一个疾病，可以用各类药品，也可以用其他疗法。因此，比较完美地回答这个类型的问题也就成为问答系统研究中公认的难题之一。

类型的问题是要寻找一个现象的缘由或动机。这些原因有些是显性表达，更多的则是隐性表达，而且几乎所有的原因都不是用几个简单的词或短语就可以表达清楚的，找到这些答案，并以合适的方式整合给用户，自然是一个很大的难题。

第三篇文章《立委科普：从产业角度说说这个行当》，这是几年前吹的牛皮。详见李维的博文：。由于也很相关，所以也放在这里。技术的工业可行性我认为已经完全被证明了，虽然很多人也许还没有思想到。证明的实例表现在我们解决了三个信息搜索的难题：

搜索类型问题的难题。

对客户反馈情报及其动机的抽取（譬如客户对一个产品的好恶）。

前两个问题是问答搜索业界公认的最难类型的题目，第三个题目涉及的是语言现象中较难把握的主观性语言（），并非中通常面对的客观性语言（）。这类从文本中提取主观性语言的技术，即情感提取（）成为语言处理最难的课题之一。

从问答系统角度来看，回答、、等实体事实型（）问题比较简单，技术相对成熟，最突出的表现就是的问答系统赢得美国家喻户晓的电视智力竞赛的冠军。的大多数问题是属于实体事实类的问题，而这类问题的处理技术相对成熟。电脑打败了人脑，详见'!' 。具体细节就不谈了，以后有机会再论。总之，这三大公认的难题在过去五年中被我们一个一个解决，标志了作为实用技术的已经过了需要证明自己的阶段。二、问答系统在搜索引擎中的使用现状

由于各种缘由，整个行业的现状是慢了半拍。而我们自己做的产品虽然也大数据了，云端了，也有全球用户了，但实际上平台还是不够大。我们的系统实际已经部署五六年了，可行性和有效性应该说没有什么值得怀疑的了。从理论上讲，我们的系统是的，而且很容易对接上搜索引擎，因此任何一个搜索巨头都可以用上这个技术。对接方式也特别简单，就是在模块中判断一下查询中是否含有，有就去调用这个系统。

调用以后的结果一定比搜索引擎现有的结果漂亮很多。但是各大巨头做了知识图谱，用到了，还没有任何一家用到了，莫非型问题不常见么，或用处不大么？当然不是。没有被巨头商用的原因基本上就是巨头并不总是看得见小公司的创新。

在另一方面，因为平台不够大，商业价值不够有力，最后这个靠向用户

收费的产品还是歇菜了。商业模式没有让它赚钱，歇菜是自然的。

可对于目前主流的搜索引擎的商业模式，靠的不是向最终用户收费，而是提高用户的体验和粘性，然后向广告主收费。这种情形下，这个用图谱来支持问答的技术就应该可以开花结果的。当然这一切就是一个进度问题。最终一定是成为搜索的一个部分的，这一点没有疑问。知识图谱回答了和的实体类事实型问题以后，回答更难的和的问题是搜索变得越来越智能的必由之路。

话说回来，甚至连业界公认已经成熟的（、之类的问题），搜索巨头也还没有大规模集成和部署，所以更难的问题迟迟不见动静也就可以理解了。巨头有巨头的考虑，我们技术人是搞不懂的。成本应该是一个考虑因素，知识图谱的实现和维护成本肯定比关键词索引高很多。甚至有群友也说了，为什么搜索要改进啊，如果不进一步跳跃性改进就已经有的赚，提高用户体验就没有迫切性。谁知道，也许还真是这么回事儿。

三、我们在上做的工作

先发一张我和我搭档的合影照片，他是一个公司的创始人，当年我俩一起把商业化，市场需求也是我的搭档先提出来的。

图：李维与搭档麦克合影

还有两个相关的帖子，是在隔壁的泥沙龙讨论搜索与关系时整理的，一并放在这里做为背景和参考。一篇是《是引擎的核武器，再论与搜索》，详见博文：。这篇文章的相关的内容有：问答系统有两类。一类是针对可以预料的问题，事先做信息抽取，然后索引到库里去支持问答。这类问题的召回率很高，精度也高，但是没有实时检索的灵活性和以不变应万变的效果。

另一类问答系统就是对通用搜索的直接延伸。利用关键词索引先过滤，把搜罗来的相关网页，在线分析，深度分析后找到答案。这个路子技术上是可行的。应对所谓事实型问题（、、类问题）是有效的。但是复杂问题如、，还是要走第一类的路线。

为什么可行？因为我们的深度分析是线性进度复杂度，在现代的硬件条件下根本不是问题。不管分析有多深入、多精细，比起相关接口之间的延误，分析其实是小头，因此在线分析已经不是性能的瓶颈了。总之，技术上可以做到立等可取。

另一方面，对于常见的问题，互联网在线问答系统的召回率根本就不是问题，这是因为网上的冗余信息太多。无论多不堪的召回率，也不是问题。比如，问年诺贝尔物理奖得主是谁。这类问题，网上有上百万个答案在。如果关键词过滤了一个子集，里面有几十万答案，少了一个量级，也没问题。假设在线分析只召回其中的十分之一，又少了一个量级，那还有几万个实例，这足以满足统计的要求，来坐实得来的答案，可以弥补精度上可能的偏差。

另一篇文章是《创新，失败，再创新，再失败，直至看上去没失败》，详见李维的博文：。

这一篇笔记与今天要讲的题目最相关，提供了详细的背景信息。

有些做出来很漂亮的系统，后来市场上没站住。现身说法，举近年来作者亲身经历的产品化的例子。我们曾和签了一个千万美元以上的合同，做一个世界上绝无仅有的，本质上能回答的问答系统。这个系统的市场起源是这样一种需要，科研人员和产品设计师们在创新的时候，需要查询文献，看前人都做过怎样的工作，可以借鉴。设计要求是，给定任