中文问答系统中问题理解与信息检索的研究与实现

中文问答系统中问题理解与信息检索的研究与实现
中文问答系统中问题理解与信息检索的研究与实现

摘要

摘要

问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。所以,与传统的搜索引擎相比,问答系统能更好的满足用户

的查询要求,更准确地检索出用户所需要的答案。本文主要利用自然语言处理技

术,研究中文问答系统中的两个关键技术:问题理解和信息检索,并实现了一个

汉语问答系统CQAS。

问题理解是中文问答系统首先进行的工作,此过程的分析结果对后面的处理有重要的影响。本文在前人研究的基础上做了如下的工作:(1)针对本系统主要

处理的是事实类的简单问题,提出了基于启发的疑问词和疑问焦点相结合的问题

分类方法;(2)建立问句句型库,对问句进行句型分析,提高了系统处理多种表

达形式问句的能力;(3)采用机器学习的方法,以最大熵模型作为分类器,进行

问句的语义角色标注,并将问句转化为语义框架结构。

信息检索是问答系统中承上启下的一个重要的组成部分,其质量直接影响系统的性能。本文提出了一种两策略的检索方法,包括本地知识库检索和网络检索。

利用网络上出现的知识共享平台,构建大规模的真实用户问题知识库,实现本地

知识库检索。如果本地知识库检索失败,则进行网络检索,利用Google搜索的网

页片断作为答案抽取的资源,而不下载网页片断对应的网络源文件。

最后,针对问题理解阶段和信息检索阶段采用的方法,对系统CQAS进行了测试及分析,实验结果验证了本文所采用方法的可行性。

关键词:问答系统,问题理解,信息检索,答案抽取,自然语言处理

我本沉默

https://www.360docs.net/doc/5017687198.html,

西北大学学位论文知识产权声明书

本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并

向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被

查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据

库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学

位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文

章一律注明作者单位为西北大学。

保密论文待解密后适用本声明。

学位论文作者签名:主基必窒指导教师签名:

聊年厂月堋。7年‘月fgEl

西北大学学位论文独创性声明

本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和

致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成

果,也不包含为获得西北大学或其它教育机构的学位或证书而使

用过的材料。与我一同工作的同志对本研究所做的任何贡献均已

在论文中作了明确的说明并表示谢意。

学位论文作者签名:弓炎晚李

二口D7年厂月/g日

我本沉默

https://www.360docs.net/doc/5017687198.html,

的互联网用户感到应当出现更有效的、准确的信息搜索技术.

(2)美国的个人建议服务供应商Keen所做的调查,它在美国三个城市调查

了79个人四天中寻找问题答案的过程,调查得出的结论是:人们平均每天有四

个问题需要从外界获取答案;其中31%的人使用搜索引擎寻找答案;平均每周花

费8.75小时找寻答案;53.3%的时间花在从旁人那里获得答案,29%的时问花在

亲戚朋友身上,24.3%的时间花在销售商那里;网上查找答案的,半数以上都不

成功;他们每周将花费14.5美元以上,以获取正确的信息.

从上面的数据可以看出,目前的搜索引擎仍然存在不少的弊端,主要有:

(1)搜索引擎返回的相关网页太多,用户很难快速、准确地定位到所需的信

息,用户需要大量时问去浏览这些网页,检查其中是否包含所需要的信息.

(2)人们的检索需求往往是比较复杂的,通过简单的几个关键词组合不能很

好的反映用户的信息查询需求.这也是现有搜索引擎最大的通病之一.

(3).以关键词为基础的索引、匹配算法虽然很简单,可操作性强,但是这

种检索毕竟还是停留在语言的表层,没有触及语义,因此检索效果很难进一步提

高.用户对检索效果不满意.比如,在一个搜索引擎上搜索“和服”一词,本来

是想查找有关日本和服的相关内容,但是经过搜索,发现搜索到的大量网页都涉

及“产品和服务”的.*

这些弊端使得广大网络用户对于现有的搜索技术仍然不满意,期盼更完美的

搜索技术的出现.目前信息时代竞争的关键已不是占有信息的多少,而是谁能够

以最快的速度准确而详尽地获得自己真正想要得到的信息。因此,探索新型的更

高效、更人性化的搜索引擎具有十分重要的意义.

1.1.2自然语言理解与问答系统

人工智能的研究已经成为当前十分重要的研究学科之一,而自然语言理解

(NLU,NaturalLanguageUnderstanding)与tl然语言处理0虹卫NaturalLanguage

PIoc器血g)是同义词,都是人工智能的一个分支网。自然语言理解是研究如何利

用计算来理解和生成自然语言的.一般把人工设计的语言称为人工语言}而自然

语言就是人们日常使用的语言.自然语言和各种符号语言一样,是人们进行推理

和交流的桥梁,由于语言在智能活动中具有重要的作用,当计算机在不同领域逐

我本沉默

https://www.360docs.net/doc/5017687198.html,

第一章绪论

答技术的研究,比如微软、mM、Mrr等等.在每年一度的文本信息检索会议

TREC(TextRetrievalConference)上,自动问答都是最受关注的主题之一【4】。

现在国际互联网上已经有一些面向不同专业领域或开放域的问答系统,其中

比较著名的有StartES]、Asldeeves[6]、AnsweerBus[",MULDERt引、LAMP[9]等。

Start是麻省理工学院开发的问答系统。在1993年开始发布在Intemet上,该系

统是第一个面向国际互联网的自然语言问答系统,它能够回答一些有关地理、历

史、文化、科技、娱乐等方面的简单问题.Asldeeves是美国Asldeeves公司的

检索系统,它把信息分为不同的类别和应用领域,允许用户用自然语言句子提问,

检索系统会自动分析用户的提问,然后通过与用户的交互进一步明确用户的真正

意图,这使得用户能够充分表达自己的检索要求,这种检索方式检索到的网页比

单纯基于关键词的网页更符合用户的需求.但是Asldeeves返回的结果仍然是网

页,而不是问题的直接答案.AnswerBus是一个面向互联网的、多语种的自动问

答系统,它不仅可以回答英语问题,还能回答法语、西班牙语、德语等很多语种

的问题.然而AnswerBus并不给出问题的具体答案,而是返回可能包含答案的

句子和相关联的URL。华盛顿大学的MULDER是第一个完全以网络作为其知识

库的自动问答系统,它将检索到的网络文档下载到本地,并且对这些文档进行详

细的语法分析从中抽取答案.新加坡国立大学的LAMP是另一个和MULDER相

似的系统,不同的是,LAMP采用比较简单的分析技术,不下载检索到的网页,

而仅仅分析搜索引擎返回的网页片断信息.LAMP采用传统的向量空间模型

(VSM)的改进作为抽取答案的方法.

和国外研究情况相比,国内在问答系统方面的研究差距不小。主要的原因有

汉语问答系统缺乏相应的语言处理基础资源,中文信息处理的许多基础性技术还

没有突破,国内在这方面的投入的人力、物力及重视程度还不够.

目前国内主要有中科院计算所、复旦大学、哈工大、北京大学、北京语言大

学、重庆大学等从事汉语问答系统的研究,另外研究汉语问答系统的还有台湾大

学、台湾中央研究院、NationalDefenseManagementCollege等单位。

_

J。,

1.2.2问答系统的核心问题

问答系统一般包括三个主要部分:问题理解、信息检索和答案抽取.如何在

我本沉默

https://www.360docs.net/doc/5017687198.html,

堆网页,而问答系统需要返回的是简短的、准确性很高的答案,这样通过信息检

索模块搜索出来的相关文档就要提交给抽取模块来提取答案.答案可以是一句

话、一段摘要或者是图片。对于那些询问时间,地点的问题,就可以用很短的语

句来回答,而对于询问原因、方式等问题就需要较长的语句才能回答,所以答案

抽取时还需要依据问题理解阶段判断得到的问题的类型采取相应的策略。

1.2.3问答系统的评测方法

如何客观而科学地评测问答系统的性能,是该研究领域一个很重要的问题.

目前,对问答系统进行评测的国际会议有:英语问答评测平台TRECQATrack、

日语问答评测平台NICⅡ己和多语种问答评测平台CLFF。应该说,目前的问答系

统测评测标准并不太成熟,就连TRECQATrack的评测标准,也有相当的主观成

分在里面.

目前TRECWebTrack检索用的较多的,是查全率(Recall)和查准率(Precision),

以及两者的调和平均数F.具体来说,就是:

Recall=查询出来的准确答案个数/数据库中所有的准确答案个数(公式1.1)

Precision=查询出来的准确答案个数/查询出来的所有答案个数(公式v2)

F-2XPXRX(P+R)(公式1-3)

。汉语问答技术的研究还处于起步阶段,国际上没有一个公开的、公认的汉语

问答系统测试集合以及评估方法.作为尝试,中科院自动化所已经初步建立了一

个汉语问答系统评测平台(简称EPCQA).其中,EPCQA语料库、测试集和打分

标准的建立基本参考TRECQATrack、NIC瓜和CLFF的成功经验,并针对汉语的

特点进行适当的修改【15】.

一般采用下面的做法来对问答系统进行评测,首先需要建立一个测试集,这

个测试集是人工做出来的问题和答案对的集合。把这个测试集中的问题提交给问

答系统,让问答系统自动的给出答案,然后把问答系统自动找出的答案和测试集

中的答案,进行人工的对比。如果问答系统给出的答案通过人工的对比基本正确,

则可以判断这个答案是正确的。否则答案是错误的.这样就可以计算出问答系统

的准确率,公式为:

准确率=答对的问题数/问题总数(公式1-4)

我本沉默

https://www.360docs.net/doc/5017687198.html,

而不是相关的网页,所以问答系统能更好的满足用户的检索需求,能更快地找出

用户所需的答案.可以说,问答系统就是新一代的搜索引擎.对于问答系统,用

户不需要把自己的问题分解成关键词,用户可以把整个问题直接交给问答系统。

问答系统结合自然语言处理技术,通过对问题理解,能够直接提交给用户想要的

答案。问答系统就像一个知识渊博的专家,可以快速准确地回答任何问题。比如,

用户提交一个问题“什么是蓝牙技术?”,问答系统将会直接给出答案:“蓝牙技

术是一种用于替代便携或固定电子设备上使用的电缆或连线的短距离无线连接

技术”。可以看出,问答系统要比传统的搜索引擎方便、快捷、高效.

问答系统从本质上区别于专家系统、信息检索系统、信息抽取系统,它不是

传统技术的简单变形,而是一个具有高度理论和实用价值的研究课题。

1.4本文的研究内容

本文主要进行中文问答系统的前两个阶段一问题理解和信息检索的研究和

实现了一个中文问答系统。问题理解阶段是问答系统执行的开始,也是所有涉及

到自然语言接口系统的研究内容;信息检索阶段是问答系统执行的中间阶段,也

是对后续结果产生重大影响的部分.本文将对这两部分目前存在的问题进行比较

和分析,提出一种更为有效的方法.对用户的提问进行详尽的分析和判断,这将

大大提高系统后期工作的准确率,从而提高系统的性能。在信息检索阶段采取高

效的搜索策略,不仅能够提高检索的速度而且还能够提高检索的准确度。

本文将主要从以下几个方面对问题理解和信息检索进行研究:

(1)针对用户的问题,进行正确分词和词性标注;

(2)识别用户的提问意图,采用基于启发的疑问代词和疑问焦点相结合的方

法对问题进行分类;

(3)提取问题中的关键词并进行扩展:

(4)对问题进行句型分析,提高了系统处理多种表达形式问旬的能力;

(5)对问题进行浅层语义分析,将问句转化为语义框架结构;

(6)将问题理解模块得到分析结果,提交给信息检索模块,采用两策略的信

息检索方法.

我本沉默

https://www.360docs.net/doc/5017687198.html,

第二章问题理解

第二章问题理解

2.1引言

目前,问答系统回答问题的准确率都不高。研究表明,其中的一个很重要的

原因是问答系统“理解”用户提问不准确。而问题理解又是问答系统的第一个执

行阶段,这一阶段的分析结果将成为后一阶段的处理信息,因此问题理解阶段对

用户提问的模糊分析,甚至错误理解致使后面的工作变得无效和错误,最终导致

了回答的不准确和错误.

在问题理解的过程中,关键就是对问题的内容进行深刻的理解。只有首先明

确用户提出的问题所要表达的正确含义以后,才能够识别问题的疑问中心进行问

题分类、生成用于信息检索的检索表达式、确立答案抽取规则和约束条件,用于

答案生成,才能使后续的操作得到满意的结果.

在问答系统中,对疑问句进行理解与一般的自然语言语句理解是不同的.对

疑问旬的理解具有特殊性,一方面是因为疑问短语中包含着丰富的语义信息,疑

问句的疑问信息主要体现在疑问词上,另一方面是问句的句法结构具有规律性.

2.2问题理解的流程

对于问题理解的研究方法,大致可以分为以下几类:基于关键词匹配的分析、

基于概念的分析、基于模式匹配的分析和基于语义理解的分析,其中第一类是最

基本、最常用的方法,第二类和第四类对于汉语的研究才刚刚开始,第三类是部

分问答系统采取的方法.本文采取了第一种分析方法.

对于用户用自然语言提出的问题,一般的问题理解模块首先是进行最基本的

预处理,包括分词和词性标注,然后去掉停用词后进行问题类型分类,提取关键

词,并进行关键词扩展,最后将关键词的集合提交给信息检索模块.为了提高分

析的准确度,在问题理解过程中增加了问句的句型分析和浅层语义分析,问题理

解的流程如图2-1所示.本章2.3节至2.7节就将详细阐述问题理解部分的每个

子功能和CQAS采用的方法.

10

我本沉默

https://www.360docs.net/doc/5017687198.html,

采用了中科院计算所研制的汉语词法分析系统ICTCLAS,它采用的是多层隐马尔可夫模型,是对原有的隐马模型进行了扩展,将模型分别应用到原子切分、简单和复杂的未登录词识别及基于类的隐马分词等多个层面上.选择ICTCLAS系统,主要基于以下几个理由:(1)分词准确率高。按照973专家组评测结果,ICTCLAS分词识别率97.58%,基于角色标注的未登录词识别能取得高于90%召回率。(2)处理速度快,ICTCLAS分词和词性标注速度达到31.5KB/S,这在对大量包含潜在答案的文本进行词性处理的情况下,是一个非常大的优势。(3)功能全面,既包括传统的分词处理功能,也支持词性的一级、二级标注,以及未登录词的识别。下面是句子“问答系统是一种对用户用自然语言提出的问题能够做出尽可能简洁、准确回答的计算机程序.”在ICTCLAS中的运行结果.同答系镜是—种对用户用自然语言提出的问题能够徽出尽可能简洁,准确目答的计算机程序?惑;每;§:o弋j4、。’翟一一二二_…一嚣i…“6’’F’r’j_f。r‘+妒伸譬曲曲j‘e壮”?秒嚣尹甲。蔫…日^、’r饲醐分+标准标注734瓣[;级。f’m匡虱,磐竺::I『.:塑.:I:墨三=.IjI!一一。勰,,、;。当前娠评分t164300.1048。嫂用时?『—■"肾名旗%出舻丽岔。%氧孔AYSF;/删n用。/p固嚣,n的尼畜‰粼锚貉臻÷,r:一、jI≯≯:j。.一j■。o;o“ojv|简单地说,问题分类是指根据一定的分类标准,定义一个类型集,对于某个问题,根据~定的算法判断出该问题属于哪一个类型。从数学角度来看,问题分类是一个映射的过程,它将未标明类别的问题映射到已有的类别中,该映射可以https://www.360docs.net/doc/5017687198.html, 我本沉默

2.4.2本系统的问题分类方法

本文的分类方法采用基于规则的方法,提出一种基于启发的疑问词和疑问焦

点相结合的方法来对问题分类.首先定义了以下八类问题类型,在表2.1中列出

了每一种类型所对应的疑问词举例、预期的答案类型,以及问题的举例。

表2-l问题类型

问题类型疑问词举例预期的答案类型问题的举例

询问人谁人名谁提了进化论?

询问地点哪里地点名词2008年夏季奥运会在哪里举办?

询问时间何时时间名词人类第一次登上月球是什么时候?

询问数量多少数字台湾面积是多少?

询问定义什么解释型答案什么是人工智能?

询问方式怎样解释型答案怎样使自己每天都精神饱满?

询问原因为什么解释型答案为什么会出现禽流感?

其他情况复杂世界上有哪些著名服装品牌?

前面的四种类型分别代表询问人、询问地点、询问时间、询问数量,它们占

据了基于事实问题类型的绝大多数,也是问答系统重点识别和处理的.这类问题

往往依赖命名实体识别和信息抽取技术才能找到正确答案。

后面还有三种问题类型是询问定义,方式或者原因,答案可能是一段文字或

者多段较长的文字,这些问题的答案已经无法通过识别命名实体来找到答案,而

需要段落理解、自动摘要等更高级技术.最后一种类型是“其他”,对于一些在

问题分类期间无法识别出目标答案类型的问题,系统把它们归结为“其他”类型

问题。对于这类问题不能制定具体的规则,将采用概率分类的方法,概率分类方

法需要收集大量的问题作为训练语料,通过程序统计出问题属于各种问题类型的

概率,然后选择概率值最大的问题类型作为该问旬的类型.本系统中的问题分类

模块会尽最大可能,将用户提出的问题归类于这八个类型中的一种,但在后续处

理中,系统只把重点放在前面四种类型上.

问题类型的识别主要依赖的是句子中的疑问词,但各个疑问词对问题类别的

辨别能力是不同的。例如,若问句中出现疑问词。哪里”、“哪儿”,可以很容

易地判断出问题类型为询问地点;若问句中含有“谁”,可以判断出问题类型为

14

我本沉默

https://www.360docs.net/doc/5017687198.html,

第二章问题理解

注,这是进行问题分类的原始数据源.例如问题“谁发明了电灯?”,经过分词处理之后,形成“谁,r发明/v了/u电灯In?1w”分词串。

(2)识别专有疑问代词.在问题分类过程中,疑问代词的识别是最重要的一个环节,因为绝大多数的问句类型,都能很清楚地通过疑问代词判断出来.比如存在“谁”、那么极有可能是询问人类型问题,存在“哪里”,则很有可能是询问地点类型问题.在问答系统里面,疑问代词的识别对于确定问题类型起很大的贡献,但并不是绝对的.事实上,对于每一个待识别的问题,系统都会维护一个问题类型评价表,用o.1的浮点数表明该问题属于某种特定问题类型的信度值.识别出特定的疑问代词,将增加此问题在相关问题类型上的信度.(3)通过疑问焦点识别通用疑问代词.有些问题,光看疑问代词还不足以判断出问题类型,比如疑问代词“哪个”,即可以是“哪个……人……”,即询问人类型问题,也可以是“哪个……地方……”,即询问地点类型问题.在这种情况下,制定了根据疑问焦点来确定通用疑问词对应的问题类型判定规则,判定出问题类型后,在问题类型评价表中增加该类型的信度值.下表2-2列出了以“什么”疑问代词为例,根据疑问焦点制定的判定规则.

表2-2根据疑问焦点制定的判定规则

疑问代词句式判定规则疑问类型什么什么+时间I时候/年代时间

什么什么+地点/地方,位置地点

什么。什么+人人

什么什么+原因疑问词之后紧跟的名原因

什么什么+方式,方法,途径词为疑问的焦点,根据

方式

什么+是+专有名词名词的类型来确定问

什么句的类型定义

专有名词+是+什么

什么+普通名词

什么什么+情况其他

什么+是+…+名词短语

(4)利用启发式规则再次对信度值进行修正.通过上面两个步骤,已经大体

得到了某个问题在各个问题类型上的信度值,但是无论是疑问代词识别还是疑问

焦点的识别,都无法保证覆盖到所有可能的隋况,于是,利用启发式规则再对己

获得的信度值进行修正.例如:“姚明为什么产品做代言?”这个问题,按照上

16

https://www.360docs.net/doc/5017687198.html, 我本沉默

信息检索复习资料(有答案版)

1.请说明一次文献、二次文献和三次文献的特点和功用。 (1)一次文献(Primary Document):通常是指原始制作,即作者以本人的研究成果为基本素材而创作(或撰写)的文献。如期刊论文、科技报告、会议论文、 专利说明书 (2)二次文献(Secondary Document):是指文献情报工作者对一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文献,由文献情报工作人 员编辑、出版和积累起来的工具性的文献。二次文献的重要性在于可以帮助人 们查找一次文献。如目录、题录、文摘、索引、各种书目数据库(3)三次文献(Tertiary Document):是指利用二次文献,选用一次文献内容,经综合,分析和评述后形成的指南性文献。包括综述研究和参考工具两类。如综述、 述评、词典、百科全书、年鉴、指南数据库、书目之书目 2.请说明题录目录文摘的特点以及区别 (1)题录是揭示和报导单篇文献外表特征的工具。 特点:以单篇文献为著录对象 (2)目录是系统积累和提供图书、期刊和其它单行本的名称、收藏单位和索取号等外表特征的揭示和报导的工具。 特点:以单位出版物为著录对象,反映馆藏情况,主要揭示文献外部特征 (3)文摘是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。 特点:带摘要的题录 3. 布拉德伏特文献文献分散定律和期刊影响因子的概念 (1)布拉德福文献分散定律:本专业文献的1/3刊登在本专业核心期刊上,另外的2/3则分散在其他的相关期刊和边缘期刊上。 如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n:n2......的关系。

简易信息检索系统

课程设计报告 ( 2013—2014 年度第一学期) 课程:微机原理及应用 题目:简易信息检索系统 院系:动力工程系 班级:自动化11K2 学号: 指导教师:李冰刘恒涛 设计周数:一周 成绩: 日期:2014年1 月2 日

《微机原理及应用》课程设计 任务书 一、目的与要求 1.通过对微机系统分析和具体设计,使学生加深对所学课程的理解。 2.掌握汇编语言程序设计的基本方法和典型接口电路的基本设计方法。 3.培养学生分析问题、解决问题的能力。 4.培养学生对微型计算机应用系统的基本设计能力。 5.提高学生的实践动手能力和创新能力。 二、主要内容 设计题目:简易信息检索系统。 1.针对所选择的设计题目进行硬件设计,合理选用所需元器件,绘制系统结构框图、硬件接线图,并在实验系统上完成电路的连接和调试。 2.根据所选题目的要求对微机系统进行程序设计,绘制程序总体流程图并编写源程序上机调试。 3.写出课程设计报告,对整个设计过程进行归纳和综合,对设计中所存在的问题和不足进行分析和总结,提出解决的方法、措施、建议和对这次设计实践的认识和收获。 三、进度计划 四、设计成果要求 1.系统硬件设计合理,软件编程达到设计要求。 2.系统硬件结构图和软件流程图绘制清楚规范。 3.设计报告完整规范。 五、考核方式 根据设计任务的完成情况、课程设计报告撰写情况及演示答辩情况采用五级记分制评定成绩。 学生姓名: 指导教师:李冰刘恒涛

一、课程设计目的与要求 1.通过对微机系统分析和具体设计,使学生加深对所学课程的理解。 2.掌握汇编语言程序设计的基本方法和典型接口电路的基本设计方法。 3.培养学生分析问题、解决问题的能力。 4.培养学生对微型计算机应用系统的基本设计能力。 5.提高学生的实践动手能力和创新能力 二、课程设计正文 1.程序正文 stack segment stack db 256 dup(0) stack ends data segment msg0 db '0. 0$' msg1 db '1. 1$' msg2 db '2. 2$' msg3 db '3. 3$' msg4 db '4. 4' msg5 db '5. 5$' msg6 db '6. 6$' msg7 db '7. 7$' msg8 db '8. 8$' msg9 db '9. 9$' index dw msg0,msg1,msg2,msg3,msg4,msg5,msg6,msg7,msg8,msg9 msg db 'Input a number please.',13,10,36 data ends

中文常用标点符号大全及用法详解

中文常用标点符号大全及用法详解 名 称 符号用法说明举例 句号。 表示一句话完了 之后的停顿。 网上城市是由全国3000余座城市构 建的城市主题论坛社区。 逗号, 表示一句话中间 的停顿。 全世界各国人民的正义斗争,都是互 相支持的。 顿号、 表示句中并列的 词或词组之间的停 顿。 能源是发展农业、工业、国防、科学 技术和提高人民生活的重要物质基础。 分号; 表示一句话中并 列分句之间的停顿。 不批判唯心论,就不能发展唯物论; 不批判形而上学,就不能发展唯物辩证法。 冒号:用以提示下文。 马克思主义哲学告诉我们:正确的认 识来源于社会实践。 问 号 ?用在问句之后。是谁创造了人类?是我们劳动群众。 感情号①! 1.表示强烈的感 情。2.表示感叹句末 尾的停顿。 战无不胜的马克思主义、列宁主义、 毛泽东思想万岁! 引号② “”‘’╗╚ ┐└ 1.表示引用的部 分。 毛泽东同志在《论十大关系》一文中 说:“我们要调动一切直接的和间接的力 量,为把我国建设成为一个强大的社会主 义国家而奋斗。” 2.表示特定的称 谓或需要着重指出的 部分。 他们当中许多人是身体好、学习好、 工作好的“三好”学生。 3.表示讽刺或否 定的意思。 这伙政治骗子恬不知耻地自封为“理 论家”。 括号③() 表示文中注释的 部分。 这篇小说环境描写十分出色,它的描 写(无论是野外,或是室内)处处与故事 的发展扣得很紧。 省略号④…… 表示文中省略的 部分。 这个县办工厂现在可以生产车床、电 机、变压器、水泵、电线……上百种产品。 破折号⑤—— 1.表示底下是解 释、说明的部分,有 括号的作用。 知识的问题是一个科学问题,来不得 半点的虚伪和骄傲,决定地需要的倒是其 反面——诚实和谦逊的态度。 2.表示意思的递 进。 团结——批评和自我批评——团结 3.表示意思的转 折。 很白很亮的一堆洋钱!而且是他的 ——现在不见了! 连接号⑥— 1.表示时间、地 点、数目等的起止。 抗日战争时期(1937-1945年)“北 京—上海”直达快车 2.表示相关的人亚洲—太平洋地区

信息检索问答题

一、最常用搜索会议论文的数据库?如何搜索最有影响期刊数据库? 1、会议论文数据库 (1)CALIS的会议论文数据库 CALIS会议论文数据库收录来自于“211工程”的61所重点学校每年主持的国际会议的论文,目前该数据库正在建设中。 (2)万方学术会议论文数据库 万方数据资源系统会议论文数据库收录国家一级协会、二级协会、二级以下协会、一级会议、二级会议、二级以下会议、国家重点实验室、研究会和其它机构主办的学术会议,涉及哲学、宗教、社会科学等20大类。 (3)CNKI中国重要会议论文全文数据库 中国知网的中国重要会议论文全文数据库收录我国2000年以来国家二级以上学会、协会、高等院校、科研机构、学术机构等单位的论文集。 (4)NSTL的中外文会议论文库 国家科技图书文献中心NSTL的会议数据库包括了中文会议论文数据库和外文会议论文数据库。。 (5)OCLC FirstSearch会议论文与会议录索引 OCLC First中的国际学术会议论文索引库包括在世界范围的各种会议、座谈会、博览会、研讨会、专业会、学术报告会上发表的论文的索引,收录了自1993年以来在不列颠图书馆文献提供中心(BLDSC)的会议录上收集到的已出版的论文,并通过馆际互借获取全文。(6)ISI会议论文集引文索引 ISI会议论文集引文索引包括自然科学版和社会科学与人文科学版,收录1996年以来世界上最著名的会议、座谈会、研讨会、专题讨论会及其它各种会议中发表的会议录论文及其引文信息,分别取代原来的科技会议录索引和社会科学与人文会议录索引,其覆盖的学科范围非常广泛,是目前世界上了解会议文献信息最主要的检索工具。 2、 二、个人文献管理软件的主要功能? 个人文献信息管理系统可以帮助读者处理个人所汇集的各种书目信息,主要功能包括建立并维护个人文献资料库,使用者在输入文献信息后,可以按纪录中有内容的字段进行检索,如利用关键词、作者、标题等字段进行布尔逻辑检索。它还包含有一般管理系统的功能,如排序、增删纪录等。这种个人研究领域的文献资料库,无论在撰写研究报告时的参考引用、查阅文献纪录的书目资料或者为学生开列参考书目时都很方便。 目前市场上可以提供给读者使用的个人文献信息管理软件的基本功能大同小异,主要有以下一些功能: (1) 批次输入信息资料:系统提供了各种资料库的检索结果直接转入系统的功能。用户可以将不同数据库的检索结果直接转入系统,成为格式一致的资料信息。 (2) 检索查询功能:文献信息输入后,可按不同的字段进行检索,例如用author, title, journal, keyword ,subject 等进行布尔逻辑组配检索,并可作排序或增删纪录等。该功能有效帮助读者写研究报告查阅文献纪录 (3) 查重:当用户陆续汇集许多资料后,系统可以自动查重,并允许将重复的纪录删除。 三、三大检索的中英全称,应用 (1)《科学引文索引》(Science Citation Index, SCI)是由美国科学信息研究所(ISI)1961年创办出版的引文数据库,其覆盖生命科学、临床医学、物理化学、农业、生物、兽医学、工程技术等方面的综合性检索刊物,尤其能反映自然科学研究的学术水平,是目前国际上三大检索系统中最著名的一种.

个性化智能信息检索系统研究

个性化智能信息检索系统研究 随着网络应用的普及,网上信息量以惊人的速度增长,并且更新频繁。人们面对的问题不再是缺乏有用信息,而是如何找到自己所需要的信息。传统信息检索技术满足了人们的一定需要,但仍然面临低检准率和低检全率问题。 多数商业搜索引擎提供的信息检索服务,由于其通用的性质,不能满足不同背景、不同目的和不同时期的查询请求。基于这种现状,作者设计并实现了个性化智能信息检索系统,旨在提高信息的检准率。作者在广泛研究了国内外信息检索技术发展现状之后,掌握了目前信息检索系统的不足和发展趋势。 本文针对目前检索系统的缺点,进行了个性化智能信息检索系统研究。本系统是一个结合人工智能领域Agent技术、机器学习技术、聚类技术与现有信息检索系统为一体的个性化智能信息检索系统。本文给出了本系统的总体设计思想和系统体系结构。 详细阐述了本系统个性化智能化的实现方法,对其中应用到的关键性技术和算法进行了详细描述。本系统通过观察用户在与系统交互时的行为,学习用户的兴趣,基于用户个人兴趣对检索结果做个性化过滤处理。经过过滤处理后的文档,其精度显著提高,更加贴近用户的兴趣。 其中Agent模块是本系统的核心模块,它负责获取用户的喜好;创建并及时更新用户兴趣模型;基于用户兴趣模型对文档做个性化过滤。为了实现信息检索的个性化智能化,作者提出使用个人兴趣档案模型来描述用户的兴趣,其中基于主题分类的个人兴趣词库是该模型中体现个人兴趣的关键部分。本文提出应用强化学习方法对个人兴趣模型进行自主更新,应用聚类技术于相关文档的个性化过滤。

经实验验证,这些技术取得了良好的效果。作者在信息检索的个性化智能化领域,进行了有益的探索,并取得一定成果。

常用中文标点符号与键盘对照表

汉字输入方法与技巧 一、实验目的 1.熟练掌握一种汉字输入方法 2.熟练掌握中英文切换、不同输入法间的切换方法 3.初步掌握中文标点的输入 4.会基本使用Windows 2000的应用程序写字板 二、相关知识要点 输入汉字是我们炎黄子孙学习计算机必须掌握的内容,也是省计算机等级考试必考的内容。快速的汉子输入将会对我们的学习和工作带来极大的方便。智能ABC(标准)输入法具有使用方便、自动造词、智能处理等特点;其使用方法在教材中已有较详尽介绍,这里仅作一简单总结。 (一)中英文输入基本操作 1.中英文切换方法:Ctrl +空格 2.不同输入法间的切换方法:Ctrl + Shift 3.中文标点的输入 ?中英文标点的切换:通常在输入中文时应使用中文标点,而在输入英文时应使用英 文标点。切换的方法是用输入法状态窗口中的“”图标,当前显示的是中文表点。 或用快捷键“Ctrl +句号”进行切换。 ?常用中文标点符号与键盘对照表见表1。 表1 常用中文标点符号与键盘对照表 中文标点键位(ABC等) 紫光中文标点键位(ABC等) 紫光 。句号. . 《〈双、单书名号< < ,逗号, , 〉》单、双书名号> > ;分号; ; ……省略号^ ^ :冒号: : ——破折号_ _ 问号、顿号\ / !感叹号! ! ·间隔号@ “”双引号“”“”¥人民币符号$ $ ‘’单引号‘’‘’—连接号& ()括号( ) ( ) 说明:使用键盘中的上档键应按住“Shift”键 自动配对指第一次输入时为左引号、左书名号等,再输入时为右引号、左书名号

等; 自动嵌套指第一次输入时为双书名号,在配对前再按时为单书名号;注意在左“<” 右“>”键单独输入太多时,会感觉找不到配对符号。 (二)中文输入 1.输入汉字时一般用,前后翻页;也可设置为键盘上的“=”向后翻页和“-” 向前翻页; 2.在输入词组时可以用完全拼音,也可以省去韵母(或省去部分字的韵母)。 3.在输入姓名等常使用的文字时,可以造词,以提高输入速度;在造词时应一次输入 所有字的完全拼音,并按回车挑选各单字(紫光输入法只要直接挑选各单字即可)。 4.英文和数字的输入 ?大写字母的输入:按下大写锁定键(Caps Lock)即可输入大写字母; ?小写字母的输入:按下锁定键(Caps Lock)后按下Shift键则输入的为小写字母。 但更常用的是利用“Ctrl +空格”转换成英文后输入。(紫光输入法中只要直接输 入大小写英文,按回车输入) ?一般数字可在输入中文或英文时直接输入。 5.量词“七”、“柒”等的快速输入 量词“七”、“柒”等可以和一般汉字一样输入,但可以使用更为方便直接的方法,如在输入中文时直接键入“i7”则输入“七”,而键入“I7”时输入“柒”。

中文数据库信息检索

实验5中文数据库信息检索(万方学位论文数据库) 【实验目的】 熟悉万方学位论文数据库的基本情况;掌握其信息检索系统的检索方法以及检索结果的处理;掌握提高查全率和查准率的方法。 学时安排:2 学时 【实验内容】 1、查阅该数据库的检索方式及其检索流程。 2、根据自选检索课题,从上次实验本组检索获取的10篇相关论文中的作者(至少8人)出发,使用作者途径(不限定年份)利用万方数字化期刊全文数据库检索本组课题内容。分别统计每位作者的发表论文分 检索,要求写出:检索课题名称、检索分类序列、检索结果数、5—10条检索命中记录的题录信息(题名、作者、文献出处)。 【实验报告】 1、进入武汉工业学院图书馆主页,点击〖常用数据库〗中的〖万方数据资源系统〗,即可进入图5-1,然后点击〖万方学位论文数据库〗,即可开始检索历程。

2、自选检索课题,如:数据加密技术,使用万方学位论文数据库检索。 图5-2 万方学位论文数据库分类检索页 实验6外文数据库信息检索(EBSCO期刊全文数据库) 【实验目的】 熟悉EBSCO期刊全文数据库信息检索系统的基本情况,掌握外文数据库信息检索系统的检索方法以及检索结果的处理。 学时安排:2 学时

【实验准备】 1、根据在实验3、4、5中的自我选题的查询情况,选择相应的主题检索词并将其翻译成英文(至少3~5个),可以通过阅读已查中文文献中的英文摘要、英文关键词的形式获得。 2、EBSCO期刊全文数据库 (1)访问地址:https://www.360docs.net/doc/5017687198.html,/ 或https://www.360docs.net/doc/5017687198.html, (2)使用方法:此服务器不计国际流量,只对我校合法的IP地址开放。(3)内容介绍: 我馆情况:已经购买了其中的ASP(Academic Search Premier)和BSP 包。 学术期刊集成全文数据库(Academic Search Premier,简称ASP):ASP是当今全世界最大的多学科学术期刊全文数据库。包括有关生物科学、工商经济、资讯科技、通讯传播、工程、教育、艺术、文学、医药学等领域的7876种期刊的文摘和索引;3990种学术期刊的全文,全文最早回溯到1990年,索引和文摘最早回溯到1984年。数据每日更新。商业资源集成全文数据库(Business Source Premier,简称BSP):BSP 收录了3048种学术性商业类全文期刊,文摘和索引的收藏更超过3851种期刊。较著名的有华尔街日报(The Walls Street Journal)、哈佛商业评论(Harvard Business Review)、每周商务(Business Week)、财富(Fortune)、American Banker、Forbes、The Economist等,涉及的主题范围有国际商务、经济学、经济管理、金融、会计、劳动人事、银行等。适合高等院校经济学、工商管理、金融银行、劳动人事管理等专业使用。全文最早回溯至1990年。数据每日更新。 3、世界科学出版社全文电子期刊数据库 (1)访问地址:https://www.360docs.net/doc/5017687198.html, (2)内容介绍: 资源特点:WorldSciNet为新加坡世界科学出版社(World Scientific Publishing Co.)电子期刊发行网站,该出版社委托EBSCO/MetaPress 公司在清华大学图书馆建立了世界科学出版社全文电子期刊镜像站。WorldSciNet目前提供58种全文电子期刊,涵盖数学、物理、化学、生物、医学、材料、环境、计算机、工程、经济、社会科学等领域。我馆情况:从2002年开始订阅。 资源状态:为网络资源,我校用户直接连接在清华的镜像站点使用。4、德国施普林格全文电子期刊数据库 (1)访问地址:https://www.360docs.net/doc/5017687198.html, (2)使用方法:为网络资源,拥有我校合法IP的用户,直接连接施普林格在清华的镜像站点使用。 (3)内容介绍: 资源特点:德国施普林格(Springer-Verlag)是世界上著名的科技出版集团, 通过Springer LINK系统提供学术期刊及电子图书的在线服务。目前Springer LINK所提供的全文电子期刊共包含439种学术期刊(其中近400种为英文期刊),是科研人员的重要信息源。我馆情况:从2002年开始订阅。 【实验内容】

商务信息与检索习题集(给学生)

第1章信息检索与信息素养 一、判断题。 1. 信息论创始人申农认为:信息是能够用来消除不确定性的东西。 2. 在现代社会中,由于网上信息发布具有很大的自由度和随意性,因此信息质量参差不齐,要注意甄别。 3. 1958年,迈克尔·波兰尼提出人类知识有两类:显性知识和隐性知识,其中显性知识是指能够被人类以一定符码系统加以完整表述的知识。 4. 根据《中华人民XX国国家标准·文献总则》(GB3792.1-83)对文献的定义:文献是记录有知识的一切载体,因此是涂写、存储的无实质知识内容的非空白纸X、磁带、光盘等不是文献。 5. 竞争情报的实质是组织(企业、团体乃至国家)为赢得竞争优势所需要的、具有对抗性的重要信息。 6. 情报是信息的一种。 7. 知识是系统化的信息,文献是静态记录的知识,情报是动态传递的知识。 8. 依信息组织方式划分有文本检索、超文本检索和超媒体检索。 三、名词解释。 1. 情报 2. 需求集合 3. 信息集合 4. 匹配和选择

四、问答题。 1. 信息检索原理。 2. 美国高校和研究图书馆协会工作组所定义的高等院校学生应具备的信息素养能力。 3. 信息素养标准。 第2章信息源 一、判断题。 1. 体语信息源有手势、表情和姿势等。 2. 实物信息源的特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含信息。 3. 依载体形式分,文献信息源可分为印刷型、缩微型、声像型和电子型。 4. 将文献信息源分为图书、期刊、报纸、专利文献等式属于按编辑出版形式所做的划分。 5. 文献信息,尤其是网络信息,只是启发智慧、开拓思维、解决疑惑的一个方面,不能过度依赖。 6. 期刊的著录代码为[J],图书的著录代码为[M],专利的著录代码为[P]。 7. 一次文献是最重要的文献,是全部文献的基础,其数量庞大、内容分散、无系统性,不便于管理与传播。 8. 从各种文献的使用特性对比来看,专利和标准具有法律性。

《信息检索系统》方案

HX-2055信息检索系统方案

目录 一项目意义 (2) 二系统设计 (3) 2.1技术原理 (3) 2.2系统构架 (5) 三系统功能 (6) 3.1信息采集 (6) 3.2中文自然语言处理 (6) 3.3全文检索功能 (7) 3.4格式文件检索 (8) 3.5性能指标 (8)

一项目意义 随着互联网的快速发展,每天有数千万条信息生成,包括文字信息、图片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎可以找到自己想要的信息,但是也存在很多弊端。 百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫(Spider)在世界各地百万台服务器上爬取网页数据,然后存储到数据库之后展现给查询用户,随着网站数量以及网络上信息更新的快速化,这些网络爬虫不能保证把所有的信息都抓到,尤其是特殊行业的行业信息,即便是抓到了也不一定能够在众多数据中展现出来。所以,对于一个部门来讲,有必要存在一款互联网信息检索系统来检索某一个行业的信息,每天自动在各大行业网站、政府网站等数据库中检索最新信息,通过自建的网络爬虫进行目标数据的抓取、存贮、归类、展现。 通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、各个部门都发生了什么,有哪些新的政策,方便管理层在最新的信息数据下快速做出正确的决定。 据统计,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的。内部网上的信息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据。因此,面对内部网中海量异构的信息资源,如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。 搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标。 搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。搜索引擎的主要目标包括:

信息检索考试题汇总(附答案)

一、单项选择题(从下列各题四个备选答案中选出一个正确答案,并将其代号写在答题纸相应位置处。每题2分,共30分) C 1. _是题录型检索工具 A. CABI B.中国学术期刊文摘 C.全国报刊索引(自然版) D.经济纵横 D 2. 浏览超星数字图书馆,应首先安装______. A. Apabi Reader B. Adobe Reader C. CAJ Viewer D. SSReader A 3. 世界上第一大联机检索系统是__。 A.DIALOG系统 B.OBRIT系统 C.OCLC系统 D.STN 系统 B 4. 利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是_________。 A.site: B.intitle: C. inurl: https://www.360docs.net/doc/5017687198.html,: A 5.国际农业和生物科学中心英文名称的简称为_ 。 A.CABI B. AGRINDEX C. BA D.B of A C 6.信息检索根据检索对象不同,一般分为_____________。A. 二次检索、高级检索 B.分类检索、主题检索 C.数据检索、事实检索、文献检索 D.计算机检索、手工检索 A 7. 国际上评价期刊最有影响力的一个指标是 _______。 A. 影响因子 B.读者统计数据 C.引文量 D.价格 C 8. 二次检索指的是:_____________。 A.第二次检索 B.检索了一次之后,结果不满意,再检索一次C.在检索结果中运用“与、或、非”进行再限制检索 D.以上都不是 A 9.国际连续出版物编号____________。 A.ISSN B.OCLC C.ISBN D. CSSCI B 10.下列搜索引擎具有书名号检索功能的有_____________。A.Google B.百度 C.中搜 D.AltaVista B 11.《中文核心期刊要目总览》2004 版的“农业经济”类核心期刊有___ 种。 A.20 B.19 C.17 D.15 B 12.通过追溯检索获得的相关文献与原文献相比在发表时间上____。 A.早 B.晚 C. 相同 D. 不确定 B 13.在维普中文期刊全文数据库中“在检索结果中”检索相当于。 A.逻辑“非” B.逻辑“与” C.逻辑“或” D.逻辑“加” D 14.检索语言中,是自然语言。 A.标题词 B.主题词 C.单元词 D.关键词 A 15.在baidu搜索引擎中,要实现字段的精确检索,可以用来限定。 A.“”(双引号) B.()(括号) C.+ (加号) D.-(减号) 二、判断正误(在正确答案后面划√,在错误答案后面划×,每小题2分,共10 分) 1.专利文献根据发明创造的性质可以分为发明、实用新型和外观设计专利。(√) 2. CNKI检索系统可以检索博硕士论文。(√) 3. Google不具有学术搜索功能。(×)4.国际标准书号的英文简称ISBN,新版国际标准书号2007年正式实施,国际标准书号由10位升至13位。(√) 5.检索效果的评价指标主要有查全率和漏检率。(×) 1.NSTL是(国家科技图书文献中心)的简称。 2.(信息检索系统)是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。 3.体系分类表通常由(类目表、标记符号、说明和注释、类目索引)4个部分组成。 4. 正式出版的中文期刊在检索工具和数据库中一般著录有国际标准刊号(ISSN)和国内统一刊号(CN)。 5. 缩写刊名“J.Anal.Chem.”还原成原刊名为(Journal of Analytical Chemistry)。 6. CASHL是指(中国高校人文社会科学文献中心),其英文全称是China Academic Social Sciences and Humanities Library,是全国性的、唯一的人文社科外文期刊收藏和服务中心。2002年开始规划建设,2004年3月15日正式启动 7. 电子期刊,指以(数字或称电子)形式出版发行的期刊,英文为(electronic Journal),简称e-journal. 8. 国家知识基础设施(National Knowledge Infrastructure,NKI)的概念,由世界银行提出于1998年。CNKI是指(中国基础知识设施工程),它是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于(1999)年6月。 https://www.360docs.net/doc/5017687198.html,KI平台的检索方式有(单库检索)、(跨库检索)、(数据库导航),在单库和跨库检索中有(初级)、(高级)、(专业)三种检索方式。 10.(报告号)是识别科技报告的显著标志。 11. 专利文献著录中,除了和专利有关的(专利名称)、(发明人)和(专利权人)等之外,还著录有(专利公布号)、(国际专利分类号)、(优先权号),有的还有申请号和申请日期、公布日期等。 13. 分类检索语言又称分类法,是用(分类号)和(类名)来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。 14. 对于刊名缩写,国际标准化组织ISO在1972年和1974年分别发布了两个相关标准,规则要点有: 1)刊名中的(前置词、冠词、连词)均省略; 2)刊名必须有(两个)词以上才可用缩写; 3)单词的缩写大多数采用(减少音节)的方法,如“Chemistry”缩写成(chem),只有极少数常用单词用首字母表示,如“Journal”缩写成(J); 4)刊名缩写时,刊名第一个单词的首字母一定要(大写)。 15、完整的信息检索系统是由( 检索 )和( 存贮 )两部分构成。 16、文献内容特征的检索途径主要有( 主题 )和 ( 分类 )。 17、文献检索方法分为( 常用法)、(追溯法)和(循环法)。 18、写出下列各国国家标准代号:中国(GB ) 、美国 (ANSI) 、英国 (BSI ) 、日本(JIS)

基于知识的智能问答技术

题目:基于知识的智能问答技术(PDF) 作者:许坤,冯岩松(北京大学) ———————————————————— 作者简介: 许坤,北京大学计算机科学技术研究所博士生,研究方向为基于知识库的智能问答技术,已连续三年在面向结构化知识库的知识问答评测QALD-4, 5, 6中获得第一名。 冯岩松,北京大学计算机科学与技术研究所讲师。2011年毕业于英国爱丁堡大学,获得信息科学博士学位。主要研究方向包括自然语言处理、信息抽取、智能问答以及机器学习在自然语言处理中的应用;研究小组已连续三年在面向结构化知识库的知识问答评测QALD中获得第一名;相关工作已发表在TPAMI、ACL、EMNLP等主流期刊与会议上。作为项目负责人或课题骨干已承担多项国家自然科学基金及科技部863计划项目。分别在2014 和2015 年获得IBM Faculty Award。 引言 近年来,信息抽取技术的快速发展使得快速构建大规模结构化、半结构化知识库成为可能。一大批结构化知识库如雨后春笋般涌现出来,如Google Knolwedge Graph (Freebase)、Yago,DBpedia、微软ProBase、搜狗知立方及百度等企业内部的知识图谱等。 同时,这些大规模知识库也被应用于关联检索、个性化推荐、知识问答等任务中。相比于传统基于文本检索的问答系统,利用知识库回答自然语言问题可以为用户提供更精确、简洁的答案,因此一直受到学术界和工业界的广泛关注。

目前基于知识库的问答技术可以大致分为两类。第一类基于语义解析的方法。这类方法通过学习相关语法将自然语言转问题转换成可以用来描述语义的形式化语言,如逻辑表达式等。构建这样的语义解析器需要大量的标注数据,例如,自然语言问题及其对应的语义描述形式。然而,针对Freebase这样大规模的结构化知识库,在实际中很难收集到足够多的高质量训练数据。另外,语义描述形式与知识库的结构之间的不匹配也是这类方法普遍遇到的一个问题,例如,在Freebase中并没有―爸爸‖或―妈妈‖这样的谓词关系,只有―父母‖,因此,如果想表示―A 是B的母亲‖这样的关系,则需明确表示为―‖ 并且―‖。 另一类知识问答技术是传统的基于信息检索的方法。这类方法不会将自然语言问题完全转换成形式化的语义描述,而是首先利用实体链接技术从知识库中收集候选答案集合,然后构建排序模型对候选答案进行排序。因为不需要完整地解析自然语言问题的语义结构,因此,这类方法构造训练数据的过程相对简单,只需收集问题答案对即可。实验表明,基于检索的方法对语义简单的自然语言问题比较有效,但是难以处理语义结构复杂的问题,尤其是包含多个实体和关系的自然语言问题。例如,对于自然语言问题―What mountain is the highest in North America?”,检索类的方法由于缺乏对highest的正确解析,通常会将所有坐落在北美的山脉返回给用户。事实上,为了得到正确的答案,问答系统还需要根据山脉高度对候选答案进行排序,并选择海拔最高的山脉返回给用户。该过程通常需要人工编写解析规则对答案进行筛选,费时费力。此外,由于自然语言描述的多样性,人们也无法事先穷举所有这样的规则。 然而事实上,Freebase这样的结构化知识库希望存储关于真实世界的知识条目,而像维基百科页面这样的文本百科资源则存储支持这些事实的文本描述。例如,在维基百科页面中,我们可以找到一段与候选答案有关的文本 Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。

中文常用标点符号大全及用法详解 完

中文常用标点符号大全及用法详解 名称符号用法说明举例 句号。表示一句话完了之后的停 顿。 网上城市是由全国3000余座城市构建的城市主题论 坛社区。 逗号,表示一句话中间的停顿。全世界各国人民的正义斗争,都是互相支持的。 顿号、表示句中并列的词或词组 之间的停顿。 能源是发展农业、工业、国防、科学技术和提高人民 生活的重要物质基础。 分号;表示一句话中并列分句之 间的停顿。 不批判唯心论,就不能发展唯物论;不批判形而上学, 就不能发展唯物辩证法。 冒号:用以提示下文。马克思主义哲学告诉我们:正确的认识来源于社会实践。 问号?用在问句之后。是谁创造了人类?是我们劳动群众。 感情号①! 1.表示强烈的感情。 2.表示感叹句末尾的停 顿。 战无不胜的马克思主义、列宁主义、毛泽东思想万岁! 引号②“ ” ‘’ ╗ ╚ ┐ └ 1.表示引用的部分。 毛泽东同志在《论十大关系》一文中说:“我们要调 动一切直接的和间接的力量,为把我国建设成为一个 强大的社会主义国家而奋斗。” 2.表示特定的称谓或需要 着重指出的部分。 他们当中许多人是身体好、学习好、工作好的“三 好”学生。 3.表示讽刺或否定的意 思。 这伙政治骗子恬不知耻地自封为“理论家”。 括号③()表示文中注释的部分。这篇小说环境描写十分出色,它的描写(无论是野外,或是室内)处处与故事的发展扣得很紧。 省略号④……表示文中省略的部分。 这个县办工厂现在可以生产车床、电机、变压器、水 泵、电线……上百种产品。 破折号⑤—— 1.表示底下是解释、说明 的部分,有括号的作用。 知识的问题是一个科学问题,来不得半点的虚伪和骄 傲,决定地需要的倒是其反面——诚实和谦逊的态 度。 2.表示意思的递进。团结——批评和自我批评——团结 3.表示意思的转折。很白很亮的一堆洋钱!而且是他的——现在不见了! 连接号⑥— 1.表示时间、地点、数目 等的起止。 抗日战争时期(1937-1945年) “北京—上海”直达快车 2.表示相关的人或事物的 联系。 亚洲—太平洋地区 书名号⑦《》 〈〉 表示书籍、文件、报刊、 文章等的名称。 《矛盾论》 《中华人民共和国宪法》 《人民日报》《红旗》杂志 《学习〈为人民服务〉》 间隔号·1.表示月份和日期之间的 分界。 一二·九运动2.表示某些民族人名中的 音界。 诺尔曼·白求恩 着重号. 表示文中需要强调的部 分。 学习马克思列宁主义,要按照毛泽东同志倡导的方 法,理论联系实际。

文献检索-习题

文献检索-习题

第一章生物医学信息检索基础理论 一、名词解释: 信息知识情报文献情报意识印刷型文献电子型文献图书期刊会议文献学位论文科技报 告专利文献一次文献二次文 献三次文献零次文献灰色文献数据库文档记录字段书目型数据库事实型数据库检索语言信息检索信息检索技术布尔逻辑检索截词检 索邻近检索字段限定检 索扩展检索主题途径分类途径查全率查准率检索策略检索史 二、填空题 1. 信息的基本属 性、 、。 2. 情报的基本属 性、 、和 。

3. 文献的四个基本要素是基本属 性、 、和 。 4. 按载体分,文献分 为、 、。 5. 学位论文包 括、 、。 6. 信息检索系统的构成要 素、 、和 。 7. 信息检索系统的类型主要 有、 、等。 8. 根据文献的外表特征,检索语言包 括、 、等9. 根据文献的内容特征,检索语言包 括、

、。10.信息检索的途径主要 有、 、等。11. 著者检索的规则是:在前, 在后,全称,缩写。 12. 广义的信息检索包括信息的与两个逆向的过程和相关技术。 13. 三个基本的布尔逻辑算符 是、、 。 1.截词的方式 有、、 。 15. 信息检索系统的功能主要 有、 、等。16.计算机基本检索技术包 括、 、和 。

三、选择题 1. 下列不属于学位论文的是() A:学士学位论文B:硕士学位论文C:博士学位论文D:博士后论文 2. 灰色文献与下列哪一种文献级别有重叠 () A:一次文献B:二次文献C:三次文献D:零次文献 3.综述属于() A:一次文献B:二次文献C:三次文献D:零次文献 4.文摘属于() A:一次文献B:二次文献C:三次文献D:零次文献 5.科技报告属于() A:一次文献B:二次文献C:三次文献D:零次文献 6. 主文档是指() A:顺排文档D:倒排文档C:索引D:子数据库 7. 下列属于截词符的是() A:+B:&C:*D:

医学信息检索作业答案

---------------------考试---------------------------学资学习网---------------------押题------------------------------ 《医学信息检索》作业集 第一章绪论 1.名词解释: 二次文献:是指信息工作者对大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,并案子一定的逻辑顺序和科学体系加以编排存储后得到的产物。 三次文献:是选用大量有关的文献,经过综合、分析、研究而编写出来的文献。 目录:是按照某种顺序编制的文献清单或清册,通常以一个完整的出版单位或收藏单位为著录的基本单位。 文摘:是指对一篇文献(或一个文献单元)的内容所作的简略、准确的描述,通常不包含对原文的补充、解释或评论。 检索提问式:就是采用计算机信息检索系统规定使用的组配符号(也称为算符Operator),将反映不同检索途径的检索单元组合在一起而形成的一种逻辑运算表达式。 虚拟馆藏:一般而言虚拟馆藏包括两类,第一类是图书馆购买了使用权的电子资源(如电子期刊、数据库等),这些电子资源存储在供应商的服务器上,图书馆对这类电子资源只有授权范围内的使用权,不具有所有权和永久使用权。这是图书馆虚拟馆藏的主要形式,是图书馆虚拟馆藏的核心部分。第二类是网络资源,是图书馆根据馆藏建设

的需要以及读者的需求,对互联网信息资源进行搜集、加工和整理,下载保存到本馆或本地网络,提供给读者使用,或者将这些信息资源链接到图书馆的网页上,建立网络资源导航,以方便读者迅速找到感兴趣的网络资源。 馆际互借:是图书馆之间或图书馆与其他文献情报机构之间利用对方的文献资源来满足读者需求的一种服务形式。 电子期刊:是指以数字形式发行,以互联网为媒介,定期或不定期连续出版,有连续编号的电子出版品。 1 / 81 2.问答题 (1)根据文献的发布类型和载体形式划分,文献可以分为哪些类型?答;根据发布类型划分文献可分为图书、期刊和特种文献,根据载体类型可分为印刷型、声像型、缩微型和机读型。 (2)结构式文摘包含哪些内容? 答;结构式文摘:包括目的、方法、结果和结论四部分内容。 (3)主题词的作用是什么? 答;主题词的作用是:为同一概念具有不同表达方式的词语进行规范;利于查全和查准;便于扩大或缩小检索范围;便于限定文献的主要概念及方面。 (5)在计算机检索中,常用的逻辑符号有哪些? 答;常用的逻辑符号有and、or、not。

中文标点符号用法

标点符号用法 Use of punctuation marks 1.范围 本标准规定了标点符号的名称、形式和用法。本标准对汉语书写规则有重要的辅助作用。 本标准适用於汉语书面语。 2.定义 本标准采用下列定义。 句子(Sentence) :前後都有停顿,并带有一定的句调,表示相对完整意义的语言单位。 陈述句(Declarative sentence) :用来说明事实的句子。 祈使句(Imperative sentence) :用来要求听话人做某件事情的句子。 疑问句(Interrogative sentence) :用来提出问题的句子。 感叹句(Exclamatory sentence) :用来抒发某种强烈感情的句子。 复句、分句(Complex sentence, clause) :意思上有密切联系的小句子组织在一起构成一个大句子。这样的大句子叫复句,复句中的每个小句子叫分句。词语(Expression) :词和短语(词组) 。词,即最小的能独立运用的语言单位。短语,即由两个或两个以上的词按一定的语法规则组成的表达一定意义的语言单位,也叫词组。 3.基本规则 3.1标点符号是辅助文字记录语言的符号,是书面语的有机组成部分,用来表示停顿、语气以及词语的性质和作用。 3.2常用的标点符号有16种,分点号和标号两大类。 点号的作用在於点断,主要表示说话时的停顿和语气。点号又分为句末点号和句内点号。句末点号用在句末,有句号、问号、叹号3种,表示句末的停顿,同时表示句子的语气。句内点号用在句内,有逗号、顿号、分号、冒号4种,表示句内的各种不同性质的停顿。 标号的作用在於标明,主要标明语句的性质和作用。常用的标号有9种,即:引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号和专名号。 4.用法说明 4.1 句号 4.1.1句号的形式为“。”。句号还有一种形式,即一个小圆点“.”,一般在科技文献中使用。 4.1.2陈述句末尾的停顿,用句号。例如: a) 北京是中华人民共和国的首都。

医学信息检索作业答案

《医学信息检索》作业集第一章绪论 1.名词解释: 二次文献:是指信息工作者对大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,并案子一定的逻辑顺序和科学体系加以编排存储后得到的产物。 三次文献:是选用大量有关的文献,经过综合、分析、研究而编写出来的文献。 目录:是按照某种顺序编制的文献清单或清册,通常以一个完整的出版单位或收藏单位为着录的基本单位。 文摘:是指对一篇文献(或一个文献单元)的内容所作的简略、准确的描述,通常不包含对原文的补充、解释或评论。 关键词:又称自然语言。指出现在文献中能表达文献主题内容的,或被人们用作检索入口的关键性专业名词术语。 检索提问式:就是采用计算机信息检索系统规定使用的组配符号(也称为算符Operator),将反映不同检索途径的检索单元组合在一起而形成的一种逻辑运算表达式。 虚拟馆藏:一般而言虚拟馆藏包括两类,第一类是图书馆购买了使用权的电子资源(如电子期刊、数据库等),这些电子资源存储在供应商的服务器上,图书馆

对这类电子资源只有授权范围内的使用权,不具有所有权和永久使用权。这是图书馆虚拟馆藏的主要形式,是图书馆虚拟馆藏的核心部分。第二类是网络资源,是图书馆根据馆藏建设的需要以及读者的需求,对互联网信息资源进行搜集、加工和整理,下载保存到本馆或本地网络,提供给读者使用,或者将这些信息资源链接到图书馆的网页上,建立网络资源导航,以方便读者迅速找到感兴趣的网络资源。 馆际互借:是图书馆之间或图书馆与其他文献情报机构之间利用对方的文献资源来满足读者需求的一种服务形式。 电子期刊:是指以数字形式发行,以互联网为媒介,定期或不定期连续出版,有连续编号的电子出版品。 2.问答题 (1)根据文献的发布类型和载体形式划分,文献可以分为哪些类型? 答;根据发布类型划分文献可分为图书、期刊和特种文献,根据载体类型可分为印刷型、声像型、缩微型和机读型。 (2)结构式文摘包含哪些内容? 答;结构式文摘:包括目的、方法、结果和结论四部分内容。 (3)主题词的作用是什么? 答;主题词的作用是:为同一概念具有不同表达方式的词语进行规范;利于查全和查准;便于扩大或缩小检索范围;便于限定文献的主要概念及方面。

相关文档
最新文档