中文自动问答系统探讨
智能问答的实现方式

智能问答的实现方式智能问答,是指能够自动回答用户提出的问题的系统,目前已经广泛应用于各行各业。
如何实现智能问答呢?下面我们从数据准备、算法选择和效果评估三个方面来探讨实现方式。
一、数据准备1. 获取数据要实现智能问答,首先需要有大量问题和对应的答案。
常见的做法是从网络上爬取问答平台上的问题和答案,或者通过人工标注的方式构建数据集。
2. 数据清洗获取到的原始数据需要进行数据清洗,主要包括去除停用词、分词、词干提取等操作,以便后续进行算法模型训练。
二、算法选择1. 传统规则算法传统的规则算法主要是基于关键词匹配的方式,把用户提出的问题与事先准备好的问题库进行匹配,然后输出对应的答案。
这种方式简单易懂,但是对于语言变化和用户表述不规范的情况会产生较大的误差。
2. 机器学习算法机器学习算法可以更好地解决关键词匹配的问题,常见的算法包括朴素贝叶斯、支持向量机、神经网络等。
它们可以根据已有的数据训练出一个模型,然后根据用户提出的问题判断它属于哪个类别,并输出相应的答案。
3. 深度学习算法深度学习算法相比于传统机器学习算法有更高的精度和适应性,能够适应更复杂的问题。
常见的算法包括卷积神经网络、循环神经网络等。
深度学习算法需要大量数据和高性能的计算资源来训练模型,但它的表现相对更加优秀。
三、效果评估1. 准确度准确度是衡量智能问答系统的重要指标。
可以通过人工标注一部分数据进行测试,计算系统对问题的回答正确率。
2. 速度速度是智能问答系统的重要性能指标,用户往往希望系统能够在短时间内返回答案。
可以通过测试系统响应时间来评估系统速度。
3. 用户满意度用户满意度是评价一款产品的重要指标。
可以通过用户问卷调查或用户行为分析等方式,了解用户的意见和反馈,进一步改进系统性能。
总结:智能问答的实现方式需要考虑数据准备、算法选择和效果评估三个方面。
在实现过程中,要选择合适的算法,根据实际需求和使用场景进行数据准备,最终通过评估系统准确度、速度和用户满意度来不断优化系统性能。
基于医疗知识图谱的自动问答系统研究与实现

基于医疗知识图谱的自动问答系统研究与实现基于医疗知识图谱的自动问答系统研究与实现摘要:随着医疗信息的快速增长和医学知识的不断更新,如何快速、准确地获取医疗信息成为了一个严峻的挑战。
本文基于医疗知识图谱,研究并实现了一种自动问答系统,旨在帮助医生和患者轻松获取医疗相关知识。
通过构建医疗知识图谱、设计自动问答算法以及开发用户友好的界面,本系统能够根据用户提出的问题,快速准确地给出相关的答案。
关键词:医疗知识图谱;自动问答系统;医疗信息;医学知识1. 引言随着医疗信息系统的发展和互联网技术的普及,人们对于医疗信息的需求越发迫切。
然而,由于医学知识的庞大和分散,要从大量的医学文献中检索到准确的信息非常困难。
传统的医疗信息检索方式往往需要人工参与,效率低下且容易出错。
因此,基于人工智能的自动问答系统逐渐成为了解决这一问题的有效途径。
2. 医疗知识图谱的构建为了准确地回答用户的问题,本系统首先需要构建一个完备的医疗知识图谱。
医疗知识图谱以医学术语为节点,以医学知识之间的关联为边进行建模。
通过医学文献的挖掘和专家的知识提炼,我们将医学知识组织成一个结构良好的图谱,以便于后续的问答处理。
3. 自动问答算法设计基于构建好的医疗知识图谱,本系统设计了一套针对医疗问答的算法。
首先,系统会将用户提出的问题进行分词和实体识别,以便于理解问题的含义。
然后,系统会根据问题的类型,选择适当的算法进行问题-答案匹配。
例如,当问题是关于疾病症状的询问时,系统会采用基于规则的匹配算法;当问题是关于治疗方案的询问时,系统会采用基于相似度计算的匹配算法。
最后,系统会根据问题和匹配到的答案,生成一段通俗易懂的答案,并返回给用户。
4. 系统实现本系统采用Python语言进行开发。
对于医疗知识图谱的构建,我们使用了专业的医学文献数据库,并通过文本挖掘和专家审核的方式进行知识的抽取和整理。
对于自动问答算法的设计,我们选择了支持中文自然语言处理的开源工具包,并利用已有的医学知识库进行训练和优化。
中文口语开放域问答系统中问句分析处理方法的研讨

Vo.5No6 1 . 2
No . 0 7 v 2 0 5 7
文章 编 号 :6 11 1 (0 7 0 —0 70 1 7—5 32 0 )60 5 —5
中文 口语 开放域 问答系统 中问句 分 析处 理 方 法 的研 讨
何 晓彦 黄 家琳2 ,
(. 1 北京工商大学 信息工程学院 ,北京 103 ; . 0 07 2 北京工商大学 计算机 学院,北京 10 3 ) 00 7 摘 要 : 汉 语语 言 的特 点, 中文 口语 自动 问答 系统 中 用 户 问 句的 处 理 方 法 作 了 系统 的分 析 . 就 对
提 出了 口语 问句规 范化 处理 的方 法, 使得 系统 能够 对 口语 表达 形 式多样 ( 至病 句) 但 语义相 同的 甚 ,
问句可 以采 用相 同的分析 算 法 .同时此 法所 得 出的规 范化 问 句将 反馈 给 用户 , 于 用户确 认 , 用 实现
了人 机 交 互 . 范化 问 句通 过 主 题 词 的 方 法 , 定 搜 索 的 知 识 源 , 确 和 缩 小 了搜 索 范 围, 少 了 规 确 明 减
因而 , 词 是 汉 语 文 本 分 析 处 理 中首 先 要 做 的 工 分 作_ . 而 , 1 然 J 与西 方 语 言 相 比汉 语 却缺 少单 词 的 形 态 的变 化, 且 目前汉 语语 法 尚未形成 规范 化, 些 而 这 都为 汉语 文本 的处 理增 加 了难 度 . 文 本形 式 的 搜 索 引擎 通 常 依据 语 料库 , 自然 对 语言 文本 语句 进行 分词 . 过 分词 处理 之后 的文本 经
收 稿 E期 :20 —0 0 l 0 7 3— 6
词是 自然 语 言 中最 小 的能独立 活 动的有 意义 的
基于深度学习的在线问答系统设计与实现

基于深度学习的在线问答系统设计与实现随着互联网技术的飞速发展,人们在日常生活中越来越依赖网络搜索来获取所需信息。
在线问答系统是一种由机器自动回答用户提出的问题的系统,它能够帮助用户快速获取所需信息,提高工作效率和生活品质。
基于深度学习的在线问答系统是一种高效、准确的问答系统,具有较高的智能化水平。
本文将从系统设计、实现和优化方面介绍基于深度学习的在线问答系统。
一、系统设计1. 数据预处理在线问答系统需要基于大量的数据集训练,考虑到互联网数据庞杂、不规则的特点,我们需要对原始数据进行预处理。
预处理的具体步骤包括:中文分词、去除停用词、去除特殊符号等。
特别的,对于一些实体类问题,在进行分词处理的同时,需要进行实体识别和命名实体识别,以便更准确地响应答案。
2. 模型选择深度学习模型有卷积神经网络(CNN)、递归神经网络(RNN)和长短时记忆网络(LSTM)等,不同的模型拥有各自的适用场景。
为了达到准确性和响应速度的平衡,我们选择使用LSTM模型来构建在线问答系统。
3. 用户界面设计用户界面设计应该结合所针对的用户群体特点,界面尽量简洁明了,方便用户使用。
通常的设计方式是包括搜索框、热门问题推荐、历史记录等模块。
二、系统实现1. 数据收集在线问答系统需要大量的语料库作为数据源进行训练。
数据可以从互联网上收集,也可以依靠人工标注的方法来获取。
另外,我们还可以使用一些开源数据集进行训练,如中文问答数据集和某度搜索数据集。
2. 模型训练在数据预处理完成后,我们可以使用Python等编程语言构建模型,使用Keras、Tensorflow等深度学习框架来实现在线问答系统。
在训练过程中,需要设置好超参数,以优化模型的性能。
模型训练的结果将被保存为可重复使用的模型文件。
3. 系统部署为了让用户能够正常使用在线问答系统,我们需要将系统部署到服务器上,并配置好相关的环境和参数。
我们可以使用Web应用或移动应用来提供用户服务。
自动问答系统中问句分类研究综述

自动问答系统中问句分类研究综述镇丽华;王小林;杨思春【摘要】问句分类作为问答系统所要处理的第一步,在问答系统中起着至关重要的作用,其准确性直接影响最终抽取的答案的正确性.从问句分类的概念出发,先对问句分类体系、特征提取、问句分类方法等进行阐述,然后重点分析了用于问句分类的几个主流学习模型,并对几个模型作了比较分析,最后指出了当前问句分类的研究难点和未来的研究方向.【期刊名称】《安徽工业大学学报(自然科学版)》【年(卷),期】2015(032)001【总页数】8页(P48-54,66)【关键词】问答系统;问句分类;特征提取;分类模型【作者】镇丽华;王小林;杨思春【作者单位】南通大学管理学院,江苏南通226019;安徽工业大学计算机科学与技术学院,安徽马鞍山243032;安徽工业大学计算机科学与技术学院,安徽马鞍山243032【正文语种】中文【中图分类】TP391问答系统是目前自然语言处理和信息检索领域的一个研究热点,它允许用户以自然语言形式提出问题,并采用自然语言处理技术自动地将简洁、正确的回答返回给用户[1-2]。
与传统的搜索引擎相比,问答系统能更好地满足用户从互联网上快速、准确地获取信息的需求。
问答系统一般包括问句分析、信息检索和答案抽取3个主要部分[3-4],典型问答系统的体系结构如图1所示。
其中,问句分类作为问答系统的首要环节,为系统知道用户想要寻找什么类型的答案提供重要信息。
问句分类是指在确定的分类体系下,根据问句的内容自动地确定问句关联的类别[5],这种对应关系可以用一种映射函数来表示:其中:X表示问句实例集合;{C1,C2,…,Cn}表示问句类别集合;G负责将未知类别的问句x∈X根据先验信息或者某种规则映射到类别集合中的某个类别Ci中去。
问句分类的作用主要体现在以下2个方面:(1)问句分类能够有效地减少候选答案空间,提高系统返回答案的准确率。
例如,用户输入查询语句“国际奥委会是什么时候成立的?”经过问句分类,知道这个问句属于时间类,在答案抽取阶段,系统把不含时间的候选句子过滤掉,从而有效地较少了候选答案空间。
自动问答系统中的句子相似度算法的研究

关键词 : 分词 ; 本体 ; 知网 ; 义相 似度 ; 语 查全率 ; 查准 率
中图分 类号 :P 9 T31 文 献标识 码 : A 文章编 号 :6 3 6 9 2 1 )5 0 7 - 4 1 7 — 2 X(0 2 0 - 0 5 0
S ud n Se t n e S m ia iy App o c fAu o a i t y o n e c i l rt r a h o t m tc As & Ans r Sy tm k we se
Ab t a t M an y su y o e e a e t n e smiaiy a p o c e f t e a t ma c a k a d a s rs se , u h a M g rt m a e sr c : i l t d n s v r ls n e c i l r p r a h s o h u o t s n we y tm s c VS a o i t i n s l h b sd
周 永梅 , 陶 红 , 陈姣 姣 , 张再 跃
( 江苏科技大学 计算机科学与工程学院 , 江苏 镇江 220 ) 100
摘 要 : 中主要 研究 了 自动问答 系统 的句子 相似度 的几 种常 见算法 , 于统 计 的 V M 算法 、 义相 似 度算 法 、 文 基 S 语 结构 的 相
第2 2卷
第 5期
计 算 机 技 术 与 发 展
COMP 'R CHNOL UI E TE OGY AND DE VELOP MEN T
21 0 2年 5月
Vo . 2 No 5 12 . Ma 2 2 v 01
自动 问答 系统 中的句 子相 似 度 算 法 的研 究
研究和设计微信的自动问答系统

研究和设计微信的自动问答系统摘要:自动问答是计算机与人类以自然语言的形式进行交流的一种方式,是人工智能研究的一个分支.介绍了微信公众平台的特点及其开发接口,研究了lucene全文检索工具包和ikanalyzer中文分词工具包,并最终实现了一个基于微信的自动问答系统,可为用户提供自动问答服务.测试结果表明,该系统具有一定的实用性.关键词:lucene; ikanalyzer;自动问答;微信公众平台;前言近年来,随着互联网的快速发展,网络上的信息量呈现出爆炸式增长的势头.用户在互联网上搜索问题时,传统搜索引擎暴露出两个问题:①用户常因关键字选择不准确而导致搜索失败;②搜索结果是一大堆网页链接,用户仍需逐个打开查看.于是,自动问答系统[1]成为了当下研究的热点.这是因为自动问答系统允许用户以一种自然语言的形式进行提问,并且直接给出答案.目前,国外已经有几个比较成熟的问答系统,如:starts webclopedia、answerbus等系统.但是相比之下,由于中文本身的语义、语法复杂性等多方面因素,中文问答系统的发展则相对逊色一点.本文主要讨论如何借助微信公众平台,利用lucene和ikanalyzer两个开源工具,构建一个自动问答系统.1微信公众平台微信公众平台[2]是腾讯公司在微信基础上新增的功能模块,通过这个平台,个人和企业都能打造一个属于自己的微信公众账号,并且能够实现和特定群体之间文字、图片及语音的沟通和互动.由于微信拥有其得天独厚的优势,它的用户基数早己突破六亿,所以,基于微信公众平台的开发也正如火如荼地发展起来.微信团队给开发者提供了一套标准的接口,为开发者的开发工作提供了很大的便利.我们从图1中可以知道,开发者要做的就是两件事:①如何正确使用微信开发的消息接口来收发消息;②服务器如何正确处理接收到的消息.其他的事情只要交给微信的服务器去做就行了.本系统正是利用微信公众平台开发的这些优势,只专注于自动问答系统的实现过程,大大减少了网络通信的工作量,选择它作为问答这一互动过程的交流渠道也是基于这些考量.对于开发人员而言,首先要做的是了解微信公众平台的消息接口. 如图2所示,虽然微信消息有很多种类,但其基础接口总体上可以分为两大类,按照微信公布的接口格式对其进行封装处理可以大大减少程序代码的编写量.2ikanalyzer中文分词工具包ikanalyzer [4]是一个开源的,基于java语言开发的轻量级的中文分词工具包,采用的是“正向迭代最细粒度切分算法”.在最初,它是以开源项目lucene为应用主体,并且结合了词典分词和文法分析算法的中文分词组件.ikanalyzer 一共支持两种分词模式:智能切分和细粒度切分.这两种分词模式各有自己的优势.对于同样数量的文章,智能分词得到的关键词少,生成的索引文件小,用相同的关键词进行搜索检索得到的结果少、匹配度高;而细粒度分词因为切分得更细,所以得到的关键词多,生成的索引文件大,用相同的关键词进行搜索检索得到的结果更多.31ucene全文检索工具包lucene [3]是一套用于全文检索和搜索的开源工具包,由apache 软件基金会支持和提供.但lucene不是一个完整的全文索引应用,而是一个用java写的全文索引引擎工具包,它可以方便地嵌入到各种应用中以实现针对应用的全文检索功能.lucene最核心的两个功能就是索引和检索.它给开发人员提供了很多的api,其中indexwriter类是创建索引的核心类,indexsearcher类是搜索的核心类.本系统正是使用这两个类来对数据源建立索引和全文检索,以实现正确匹配用户问题的功能.4系统设计和实现系统工作流程如图3所示.首先,系统按照微信开发的消息接口格式接收来自微信公众平台的消息.然后,系统会用ikanalyzer中文分词工具对用户的问题进行分词处理,再用lucene工具在事先创建好的faq库索引上进行全文检索.接下来,在检索完之后的相关文档中,选出得分最高的文档去匹配该问题所对应的答案.最后,系统再按照微信开发的消息接口格式,将要回复给用户的消息封装成相对应的消息格式,并发送还微信的服务器,通过微信的服务器把用户问题的答案发送给用户.4. Ifaq库设计模块faq (frequentlyaskedquestions,常见疑问)库[5]是事先准备好的一些问题-答案对,回复给用户的答案都存在这个数据库中.而lucene正是根据faq库的内容建立的索引文件,这也是系统能正常工作的前提条件.⑴qa表存储的是问题-答案对,这是一个问题只对应一个答案的情况.⑵qa_sub表存储的也是问题-答案对,这是一个问题对应多个答案的情况.换句话说,当一个问题有多个答案时,系统将不再从qa表中获取答案,而是从qa_sub表中随机地抽取一个该问题所对应的答案.其中,pid作为外键,就是指qa表中的问题-答案对的编号(id字段).⑶chathistory表存储的是用户与公众号之间的聊天记录.通过查看聊天记录,我们可以针对系统不能回答或者回答得不好的问题进行人工的补充和修改.通过定期地更新faq库中的内容,可以逐步地完善faq 库,使系统能回答越来越多的问题,保证faq库的健壮性.4. 2问题分析模块在这个模块中,系统借用的是开源的ikanalyzer中文分词工具包来实现.在智能切分模式下,ikanalyzer工具能对用户发来的问题进行很好的分词处理.除此之外,ikanalyzer不仅可以对专业词汇进行扩充,还可以针对某些特定的应用场景使用停用词典来提高分词的准确率.不过,由于系统主要是用于人们日常生活的交流,并不涉及到某些领域的专业词汇,所以系统仅仅是简单地采用智能切分来处理用户的问题,并没有对专业词汇进行扩充或使用停用词典.4. 3全文检索模块在这个模块中,系统借用的是开源的lucene开源检索工具包来实现.在对用户的问题进行分词处理之后,系统要用分词后的内容在基于faq 库建立的索引文件之上使用开源的lucene工具包进行全文检索.lucene拥有强大的搜索功能,其中indexsearcher就是其搜索的核心类,用于在指定的索引文件中进行搜索.而search ()方法能够帮助我们找到得分前n的相关文档集合.4. 4答案抽取模块答案抽取模块是对全文检索出来的相关文档作进一步的筛选.简单地,我们可以直接选取得分topi的文档来当做最匹配的问题,然后再根据该问题的id去faq库中选出答案返回给用户.但是,lucene 有着自己的一套评分机制,我们也可以通过干预lucene的评分公式来影响它的排序结果,从而可以针对不同的场合选取更合适的答案.5系统测试本系统分别在装有5. 2. 1版本微信客户端的安卓和苹果手机上进行测试,测试显示运行效果良好,系统能正常地与用户进行日常交流. 测试效果如图4所示.6总结对自动问答系统的研究己经得到越来越多的重视,用户可以通过这些研究成果或方法快速得到自己想要的答案.本文对微信公众平台进行了简单的介绍,分析了系统的主要功能模块,并实现了一个简单的自动问答系统.测试结果表明,该系统达到了预期的效果.但是faq 库的内容来源及其后期的维护和补充仍是一个庞大的工程,有大量的工作需要做.。
如何进行自动问答和知识图谱生成

如何进行自动问答和知识图谱生成自动问答和知识图谱生成是人工智能领域中的两个重要任务,它们旨在通过计算机自动处理和生成问题答案,以及构建表示知识的图谱。
本文将详细介绍如何进行自动问答和知识图谱生成,并探讨其在实际应用中的意义和挑战。
1.自动问答(Question Answering,QA)自动问答是指通过计算机程序自动回答用户提出的问题。
它可以分为开放领域问答和封闭领域问答。
开放领域问答旨在回答任意领域的问题,而封闭领域问答则针对特定领域的问题进行回答。
自动问答的实现通常包括以下步骤:1.1问题理解首先,需要对用户提出的问题进行理解和解析。
这可以通过将自然语言问题转化为计算机可以理解的形式来实现。
常见的方法包括分词、词性标注、句法和语义分析等技术。
1.2文本检索在理解问题后,需要在相关文本中检索与问题相关的信息。
这可以通过使用信息检索技术,如倒排索引、关键词匹配等方法,来找到与问题最匹配的文本。
1.3答案生成根据检索到的相关文本,需要从中提取出最相关的答案。
这可以通过使用文本挖掘、机器学习和自然语言处理等技术来实现。
常见的方法包括基于规则的答案抽取、基于模板的答案生成、基于机器学习的答案排序等。
1.4答案评估与展示最后,需要对生成的答案进行评估和排序,并将其展示给用户。
评估答案的质量可以使用各种评估指标,如准确率、召回率、F1值等进行评估。
自动问答的应用非常广泛,例如智能助理、问答社区、智能客服等。
它可以帮助用户快速获取所需信息,提高工作效率。
2.知识图谱生成(Knowledge Graph,KG)知识图谱是一种用于表示和存储结构化知识的图形化数据库。
它将知识以实体-属性-关系的形式建模,并通过实体之间的关系进行链接。
知识图谱可以帮助人们理解和组织大量的信息,并进行相关的推理和分析。
知识图谱生成的过程主要包括以下步骤:2.1知识抽取首先,需要从各种来源(如文本、数据库等)中提取和抽取出结构化的知识。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通过 网络搜 索技术 获取大 量 的信 息 ,但如 何从海 量 的信息 中找 出 自己所 需要 的具体信 息却 十分 困难 。如何 快速 、高效 的获取 用户 所 需 的准确信 息是 当前研 究 的一 个热 点 。通 过简 单 的研 究或 发展 单纯 的搜 索技 术 已经 很难 取得长 足 的进 步 ,因此 必须发 展 自动 问 答 系统 。特别 是面 向中国市场 的 中文 自动 回答 系统 。
由于搜索 技术 的发展 异常 迅速 ,并且 目前 的实用 搜索 引擎功 能 己很 强大 ,在 此 ,我们就 不再进 一步 讨论搜 索技术 了。 现在 我们来 研 究答案 生成 中涉及 到 的相关技术 。在该部 分主 要涉 及到 的是答 案抽 取技术 ,由于在 该部 分英文和 中文没有 必然 的不 同 ,所 以可 以借 鉴一些 国外 已有 的现成 技术 。主要 有 :名 实
中图分类号 :T 2 1 P7
文献标识码:A
文章鳊号:10 ~ 59 ( 00 0— 03 0 07 99 2 1 ) 5 0 5— 2
Chn s et n An weigS g L
( a jU i ri f r n c neB oi 7 1 0 , h a) B oi n esyo At a dS i c ,a j 2 7C i v t s e 0 n
计算机 光盘 软件 与应用
2 1 年第 5期 00
C m u e DS fw r n p lc t o s o p t rC o t a ea dA p ia in 工 程 技 术
中文 自动 问答系统探讨
黄 莉 ( 宝鸡文理 学院,陕西宝鸡
7 10 2 07)
摘 要 :中文 自动 问答 系统 是 网络 高速 发展 的必 然产物 。论 文从 自动 问答 系统 的定 义入手 ,系统 的研 究 了它的关键技 术 ,并对 其应 用前景和 发展趋 势做 了预测 。 关键 词 : 自动 问答 系统 :信 息检 索;答案 生成
体法 、推理 法和 上下文 法 。其 中,基于 名实 体 的方 法就 是采 于权重 的方 法来提 取答 案 。其主要 步骤 就是 :首先 在被选 区域进 开发 自己的搜 索技术 来从 网络海 量 的信 息 中检索 出指定 的信息 。 行权重 标示 ,然 后 找 出权重最 大 的就是 所要 的结果 。推理 法就 是 答 案生成 就是从 搜索 引擎搜 出的海 量 网页 中提 取并 进行适 当 的组 通 过推 理技术 结合 已有 的抽取 结果 , 目的是获 得更加 准确 的结论 。 装 从而为用 户提供 准确而 简洁 的答案 。 上 下文法 处理那 些系 统不 能准确 决定 问题焦 点的这类 问题 。 在 问题 分析 部分主 要涉及 到 :问题分 类 、关键词 提取 、 问题 三 、前景 展望 相关 扩展 。在该 部分主 要涉及 到分 词、名 实体 识别 、词性标 注和 虽然通 过近 年来 不断 的努力 ,基 于 中文 的 自动回答 系统 已经 组块 分析等 。对于 中文 自动 问答系统 来说 ,主要 的一 个 问题 就是 取得 了一 定的成 绩 ,得到 了较广 泛 的应用 ,但我 们不 能不看 到 目 中文 自动分 词。它 涉及到 汉语 分词基础 表 、汉语 分词规 则 、汉语 前 的系统还 存在 许多 问题 ,主要 体现在 :系统 规模 小 、应 用领 域 分词算 法 。由于汉语 和英语 有很 大 的不 同,基于英 文 的分词方 法 有 限, 并且 答案 过于 简单 , 甚至 有些系 统还 需要大 量的人 工干预 。
引言 随着科 学技术 的高速 发展 , 信 息爆炸 时代 ”已经来 临 。同时 “ 由于网络技 术 的快速 发展 及 I tre 的大 规模普及 , n en t 人们 可 以快 速 高效的 获取大 量的信 息 。但 是 当面临 具体 问题 时 虽然人们 可 以
一
、
故 目前还不 具有 实用性 。神 经 网络分词 法就 是采用 神经 网络系 统 来实现 分词 操作 。它通 过模 拟人脑 思维 过程 ,分布 处理和 建立数 值 计算模 型 ,将分 词知 识用 隐式 的方法存 入神 经 网络 内部 ,通过 自学 习和 训练 修 改内部权 值 ,以获 得正确 的分 词结 果。该 方法具 有 分词准 确 、高效 的特 点,但 实现较 复杂 ,并 且 目前 还存在 一些 未解 决 的问题 ,是分 词法发 展 的一个主 要方 向 。 在 问题 分析 部分 还有 一个较 关键 的部分 就是 问题相 关扩展 。 它早 在上个 世纪 7 年代 就被 提 出来 了, 0 主要 有 3 方法 : 类 全局 分 析法 、局部 分析 法和局 部上 下文 分析法 。其 中 ,全 局分 析法通 过 对所 有文档 中 的词或词 组采 用相 关度分 析 ,从 而实 现扩展 的一种 方法 。主要采 用词 聚类 法 、相 似性 词典 法等方 法来 实现 的,该 方 法 效果较 好 , 但不 具有 实用性 ,因为 当系统太大 时就 无法实 用 了。
二 、关键技 术研 究 自动 问答系 统是融 合 了计算机 语言 学 、信 息科 学 以及 人工 智 能 等多项 技术为 一体 的智能 自然语 言处 理技术 。它 通过用 户采 用
自然语言作为输入, 自动问答系统系统通过搜索、综合,提供给
用户 一个准 确 的答 案 ,人们就 能通 过该 系统高 效、快速 的获取特 定 的信息 。虽然 自动 问答 系统较 复 杂 ,但通 过 分析 ,我们 可 以得 出 ,系统主 要涉及 到三 部分 的内容 : 问题分 析 、信息检 索 以及答 案生成 。 问题 分析就 是通 过对用 户 问题 的分 析获 取 问题 的关键 部 分 ,对 问题进 行理解 ,为 搜索准 备关键 词 。信息检 索一 般都 是通
Ab ta tTh i e e q e to n we ng s t m ste i e tb ep o c ft e rp d d v lpme tofte n t r Pa e s s r c : e Ch n s u sin a s r yse i h n vi l r du to a i e eo i a h n ewo k. p r h fo te sa t t ed fn to uo ai e to ns rng s se , e s se fisk y tc n l g ndisa l ai sa d r m tr h t e ii nofa tm tcqu s na we h wi h i i i y tm t y tm o e e h o o y a t ppi t h t c on n d v lp e t rn o e as. e eo m n e df r c t t Ke wo dsAuo a ca we n y tm ;n o ma o ere a; y r : tm t ns r gs se I f r t nr tiv l i i i Ans rge e ae we n r td