基于众包的聊天机器人的研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

^信息疼术2017年第4期文章编号=1009 -2552 (2017)04 -0102 -02 D O I:10.13274/ki.hdzj.2017. 04. 026

基于众包的聊天机器人的研究

郑晓霞,吕游,邓红,刘向春,张艳艳,李艳波,

吴长伟,齐浩亮,马东宇

(黑龙江工程学院计算机科学与技术系,哈尔滨150050)

摘要:文中设计并实现了一个基于众包的聊天机器人系统。聊天机器人通过自然语言处理技 术,实现了与人进行交流的人机对话。该聊天机器人,通过用户主动提供问题和答案的方式来 丰富知识库,并对系统提供的答案进行反馈,优化聊天效果;此外,还能够通过论坛与其他用 户进行交流。在聊天机器人中引入众包思想,有助于提高聊天机器人回答问题的质量。

关键词:众包;聊天机器人;自然语言处理;自动问答;知识库

中图分类号:T P391. 1; T P242文献标识码:A

Study on chat robot based on crowd-sourcing

ZHENG Xiao-xia,LV You,DENG Hong,LIU Xiang-chun,ZHANG Yan-yan,LI Yan-bo,

WU Chang-wei,QI Hao-liang,MA Dong-yu

(Department of Computer Science and Technology,Heilongjiang Institute of Technology,Harbin 150050,China)

A b s t r a c t:T h is p a p e r d e s ig n e d a n d im p le m e n te d a c h a t ro b o t based o n th e c ro w d-s o u rc in g. C h a t ro b o t

system is a th ro u g h n a tu ra l la n g u a g e p ro c e s s in g te c h n o lo g y p e e rs e x ch a n g e th e m a n-m a c h in e d ia lo g u e in te llig e n t system. T h e c h a t ro b o t e n ric h e s th e k n o w le d g e b y a c tiv e ly p ro v id in g th e u s e r w ith q u e s tio n s an d

a n s w e rs,w h ic h p ro v id e d

b y th e fe e d b a

c k s y s te m,o p tim iz e s th e c h a t e ffe c t; in a

d d it io n,i t c a n c o m m u n ic a te

o th e r users th ro u g h th e fo ra m. T h e in tro d u c tio n o l c ro u d s o u rc in g in th e c h a t ro b o t h e lp s to im p ro v e th e q u a lity of a n s w e rin g q u e s tio n s.

K e y w o r d s:c ro w d-s o u rc in g; c h a t ro b o ts;n a tu ra l la n g u a g e p ro c e s s in g;o p e n d o m a in Q A; k n o w le d g e in v e n to ry

0引言

近年来,在互联网飞速发展的同时,人工智能领域也迅速崛起,于是聊天机器人应运而生。但是目前市场上存在的聊天机器人都不是很灵活。当今社会的流行语言更新速度快,人们输入聊天机器人中的问题五花八门,甚是新颖,而知识库的内容却是固定的,因此每当有新的问题时,都要重新构建知识库,困难 重重。把众包的概念和聊天机器人结合到一起,用大众的思想有助于知识库的建设,具有研究意义。

1聊天机器人的研究现状及问题分析聊天机器人是自动问答(Q A)领域的一个具体方向,对聊天机器人的研究相当大的一部分和图灵测试有关。1995年理查德博士设计并开发出了人工领域众所周知的聊天机器人A l i c e,因为A l i c e在 人工智能领域取得的成功,理查德博士连续两年都获得了人工智能领域的最高荣誉一洛伯纳奖。21 世纪以来中国也曾出现过类似于A l i c e的聊天软件的产品,例如近几年人人上的小黄鸡以及前些年的聊天机器人小i。但在学术领域或者是产业领域,聊 天机器人的研究和发展方向投入的人力物力还不够。究其原因是,对科研人员来说,他们从事的是研究性工作,要研究聊天机器人莫不如直接研究自动

收稿日期:2016 -05 -22

基金项目:黑龙江省教育厅项目(12541670)

作者简介:郑晓霞(1971 -),女,硕士,副教授,研究方向为信息管 理与信息系统。

问答技术,所以科学家和学者往往会直接研究自动 问答系统;从产业角度来说,聊天机器人没有什么具 体实用价值。他的作用大多体现在闲暇时光的聊天 上,毕竟在现实中人们不会和机器人没完没了的聊 天。倘若聊天机器人能回答一些有实用价值的问 题,那么问题的关键又转换到对自动问答的研究了,无需研究聊天机器人。

自动问答指的是用户通过自然语言提出信息查 询,系统经过自然语言处理后根据一些算法对问题进 行具体解析,结合上下文语义在各种数据以及知识库 中找出比较合理的答案,再将这些答案排序,得到排 名最高的返回给用户。苹果的S i r i在国内外的问答 系统中很有代表性,很有效地提高了聊天机器人的用 户体验,使用了语音识别和自然语言两种方式。

近几年的聊天机器人微软小冰还是效果较好,直观看去微软小冰和小黄鸡的界面差不多,实质上 却存在着本质差异,尤其是在技术实现上。这些应 用的流程一般是这样的:用户输入短文本—对输入 的语句进行语义解析—判断出用户的目的—按照一 定的算法调用对应的知识库—返回答案。

2研究的主要内容

2. 1信息检索简介

信息检索在人工智能领域地位很高,其实它要 处理的关键性问题应该这样描述:怎样通过用户提 出的一些查询请求,能够快速准确地检索出用户想 要获取的知识信息和用户表达其意图的信息。信息 检索架构图如图1所示。

图1信息检索架构

信息检索模型的定义如下述公式所示:

定义:给出 四元组作为 信息检索模型的描述。

其中,^代表着文档集;^代表着用户发出的查询请 求;F代表着信息检索模型的典型机制,它描述的是 文档办以及用户发出的查询问题答案的请求0,还 有文档和查询请求的具体关系。

及,办)代表着排序函数,输入的是^ E0的问题和办e D的文档,输出结果对文档的排序有一定的作用。

由该定义可知,它主要是通过一种模型机制来 简化用户发出的查询请求,此外还要对这些内容执 行相似度计算与分析,找出相关性最高的作为答案 返回给用户。

2.2统计语言模型

在语言模型里,可以把句子S当作是一连串的 词汇序列:如w1,w2,w3,…,w k,则S的概率计算方 法如公式(1)所示。

k

= n P(A1^-1^-2,…,A-n+1)(1)

i=1

其中,尸(S)代表着生成S的概率;尸(^I乂_1,抓i-2,…,抓i-r a+1)代表着抓i-1,抓i-2,…,抓i-r a+1发生之后%发生的概率。

上述公式,如果〃 =1,那么就将该模型称作是 一元语言模型;如果^ = 2,就称该语言模型为二元 语言模型;类似地,有〃元语言模型。假设这里词汇 和词汇间没有关系,那么一元语言模型估计句段的 生成的概率运用的是单个词汇出现的概率,通过这 种方法来做估计。

2.3答案的抽取与生成

2.3.1关键词抽取的流程图

关键词抽取流程图如图2所示。

图2关键词抽取流程

2.3.2影响关键词的因素

①词性

关键词大多数时候都是名词或者有名词性的词 组成的实词,因此在抽取关键词的过程中仅仅考虑 实词会大大降低计算的复杂性,词性过滤会很大程 度上将计算精简,过滤掉没有意义的虚词,去除停用 词等,并且对抽取的内容影响较小。

②词频

词出现的频率对于该词地位的重要性不言而 喻,在文档中如果某个词汇经常出现,那基本可证明 这个词在文档中占有重要地位,他能够比较准确地 描述文档的主题。

③词的段落分布

④词义的长度 (下转第109页)

相关文档
最新文档