信息检索概论思考题答案

信息检索概论思考题答案
信息检索概论思考题答案

第一章信息检索概论

思考题:

1.什么是信息?简述信息的特点和分类?

我们认为,信息是事物或事物之间不确定性的量度,即负熵。掌握的信息越多,所需认识的事情的确定性就会越少。信息由信源,信宿和信道(载体)构成。

信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性

(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性

(3)针对性:信息的作用和价值可以随着接受者的不同而不同

(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者

信宿:是信息的接收者

信息的传播是双向的,多维的。信息源和信宿是相对的,也是可以相互转换的。

信道:就是在传播过程中,编码经过的物理通道

(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化

一般而言,随着时间的推移,信息的价值会逐渐减少

也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大

衡量信息的时效性参数不只是时间参数,还有地理环境

(6)可转换性:信息可以从一种形态转换成另一种形态

(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。

(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失

信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。

?文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。

?图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。如,一幅画、一

部电影。

?数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。

?语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最

普遍的信息表现形式。

(2)按信息的出版类型划分,可分为图书,期刊,会议文献,科技文献,专利文献,标准文献,学位论文,产品资料,技术档案,政府出版物。

(3)按信息的加工程度划分,可分为零次信息,一次信息,二次信息,三次信息。

?零次信息:是指未经正式发行的或未进入社会交流的最原始的信息。如私人笔记、文章草

稿等。

?一次信息:是人们研究或创造性活动成果的直接记录,一般指公开出版的图书、期刊论文、科技报告、会议文献、学位论文、发明专利等。

?二次信息:是对一次信息加工、整理而成的。如目录、文摘、索引等各种书目数据库是二

次信息的核心。

?三次信息:对一次信息所载内容进行单元层次(如一条消息、一个定义、一种观点等)的

选择,经过汇集、综合、分析、评述等深度加工而成的产物。如评论、进展报告、述评、百科全

书、年鉴、指南、期刊书目等。

(4)信息还可以这样划分

按信息内容划分,分为社会信息、自然信息、机器信息。

按时间划分,分为历史信息、未来信息。

按行业划分,分为工业信息、农业信息、商业信息、金融信息、军事信息。

按性质划分,分为定量和定性信息。

2.什么是信息检索?信息检索与情报检索、文献检索的区别是什么?

广义的信息检索,是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”,狭义的信息检索,仅指从信息集合中找出所需信息的过程,也是利用信息系统、检索工具或数据库查找所需信息的过程。

信息检索

信息用户信息提问概念分析概念转换检索表达式

信息的检索过程

三个概念的区别

信息检索:存在于检索的整个过程.

情报检索:户.

文献检索:是一种方法,研究检索结果的形式,其最终结果仍然只是载体.

3.简述文献与信息、知识、情报的区别。

情报:情报是人们为一定目的搜集的有使用价值的新知识或新信息。

知识:《辞海》解释说:“知识是人类认识的成果或结晶,包括经验知识和理论知识,又说:知识

借助于一定的语言形式,或物化为某种劳动产品的形式,可以交流和传递给下一代,成为人类共

同的精神财富”。

文献:我国颁布的《中华人民共和国国家标准·文献著录总则》(GB3792·183)对文献的定义为:

“文献是记录有知识的一切载体。”

信息、文献、知识和情报四者关系

信息是起源,是基础,它包含了知识和情报,是它们共同的本质联系的纽带。文献则是信息、知识、情报的存储载体和重要的传播工具,是重要的知识源、情报信息源,它是信息、知识、情报存储的重要方式。信息可以成为情报,但是一般要经过选择、综合、研究、分析等加工过程,也就是要经过去粗取精、去伪存真、由此及彼、由表及里的提炼过程;信息是知识的重要组成部分,但不是全部,只有提高、深化、系统的信息才能称作知识;信息、知识、情报的主要部分被包含在文献之中。

4.简述信息检索的方法、途径和程序。

检索方法可分为两大类:手工检索和计算机检索。

(1)手工检索

是指人们通过手工的方式来存储和检索信息。(多利用各种检索工具的印刷版如目录、文献等来实现)

Ⅰ常用法

顺查法:适用于全面掌握学科或技术发展的全过程。

逆查法:适用于了解某一学科最新动向。

抽查法:选择某学科领域发展较迅速的时间进行查找的方法。

Ⅱ追溯法

即利用原始文献所附的参考文献进行追溯查找的方法。

Ⅲ循环法(交替法):结合以上两种方法。

(2)计算机检索

是指人们利用数据库、计算机软件技术、计算机网络以及通信系统进行的信息存储和检索,其检索过程是在人机的协同作用下完成的。

Ⅰ定题服务

Ⅱ回溯检索服务

Ⅲ随机问答服务

Ⅳ联机定购服务

检索途径是根据文献信息的不同特征,从各个不同角度来查找文献信息的途径,可分为分类途径、主题途径、著者途径、关键词途径和序号途径等。

(1)分类途径检索

是一种按学科体系来查找信息的途径。目前我国通用的分类法主要有:《中国图书馆图书分类法》、《中国科学院图书馆图书分类法》和《中国人民大学图书馆图书分类法》。其中《中国图书馆图书分类法》是国家推荐统一使用的分类法。

(2)主题途径检索

是以代表信息主题内容的实质性词汇作为检索标识进行检索的一种途径。

(3)关键词途径检索

是以代表信息主题内容具有实质意义的或对揭示信息内容来说是重要的、关键的词汇作为检索标识进行检索的一种途径。

(4)责任者途径检索

是根据已知信息作者姓名或机构名称来查找信息的途径

(5)序号途径检索

是一种按序号来查找信息的途径。序号包括:报告号、专利号、标准号等。

检索程序

(1)分析研究课题、明确检索目的和要求;

(2)选择数据库(检索工具);

(3)选择检索途径和检索方法;

(4)确定检索词、实施查找;

(5)索取原始文献,进行反馈调整

第二章信息检索语言

思考题

1.信息检索语言的基本概念?

检索语言,又称为标引语言、索引语言、文献检索语言、信息存储与检索语言等。它是用于描述信息系统中信息的内部特征和外部特征及表达信息用户需求提问的一种专门语言。

2.简述分类检索语言和主题检索语言?

分类语言建立在科学分类的基础上,运用概念划分与概括的方法.将大大小的概念进行层层划分,逐级划分就产生许多不同级别的类目。所有不同级别的类目,层层隶属,形成了一个严格有序、层次分明的知识门类等级制体系。每一类目分别以不同符号作标志,每个分类号都是表达特定知识概念的的语词,这种标志

就是分类语言。分为等级体系型分类检索语言,分面组配型分类检索语言

主题语言是使用词语标识的一类信息检索语言,又称主题法。主题语言是一种描述语言,即用自然语言中的名词、名词性词组描述事物概念的中心语义。也就是说,它以语言文字为基础,以反映特定事物为中心,不论学科分类和科学技术的逻辑序列,直接借助于自然语言的形式,作为信息内容的标识和检索依据,是一种以主题字顺体系为基本结构的检索语言。它给人以直观的感觉。

主题语言的构成原理:

(1)主题语言利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和提问内容的主题标识,即主题词。

(2)主题语言利用主题词的字顺序列,按事物的名称排列与检索文献信息。

(3)主题语言利用各种参照系统等手段,显示主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,构成多维的主题词体系。

主题语言的符号:

与分类语言有所不同,主题语言的显著特点是直接利用自然语言的词语作为主题标识,标引文献或检索信息时都必须使用主题词。

主题语言的语法:

先组式检索语言:直线序列标识,简单明了,适合手工操作的检索系统。如标题语言

后组式检索语言:多维性序列标识,多元揭示复合主题,适合计算机信息检索系统,如叙词语言

主题语言的种类

主题语言可以按照主题词性质的不同,分为标题语言、元词语言、叙词语言、关键词语言4种。

第三章检索工具及检索系统

思考题

1.检索工具和检索系统分别是什么?检索工具和检索系统的类型有哪些?

检索工具(Retrieval Device)是指用于报道、存储和查找文献的工具。它具有存储(编制过程)和检索(查找过程)两大功能。

检索系统由一定检索设备和加工整理并存储在相应的数据库(文献集合)及其它必要的设备共同构成的,具有存储和检索文献的信息服务设施

检索工具和检索系统的类型

按信息处理手段划分

1.手工检索工具或系统:用手工方式查找和处理文献的工具和系统。如卡片目录

2.机械检索工具或系统:用简单的机械装置来处理和检索文献。如穿孔卡片

3.计算机检索系统:用计算机处理和查找信息的电子信息检索系统。通常包括计算机、数据库、检

索终端等组成。

2.简述检索工具/系统的质量评价?

收录范围:系统收录范围是否明确、全面(首要标准)。

报道量:指某一检索刊物每期或每年所报道的文摘或题录或全文的条数。

如果是计算机系统的话,就是单位时间内收录文献的条数。

摘录质量:是否能够准确摘录文献的内部特征和外部特征。如果在全文检索系统,就不存在这个

问题。

报道速度:从一次文献发表到相应的二次文献之间文献滞留时间。在全文检索系统中,是指文献

的第一次发表,到收录到全文检索系统中的间隔时间。

检索功能:包括正文编排是否科学、索引是否完备、版面设置是否合理。

第四章信息检索方法途径和信息检索步骤

思考题

1.利用《中国林业文摘》,通过各种途径查找以下课题(选一种或两种途径均可),需要写清楚整个检索过程:

(1)查找有关“草坪栽培”的相关文献。

(2)查找有关“森林病虫害防治”的相关文献。

2.简述信息检索的方法、途径和步骤。

手工检索的方法

Ⅰ直接法:是指一般不使用检索工具(系统)检索信息的方法,它大致可分为浏览法和追溯法。

浏览法

是指直接通过浏览、查阅文献原文而获取所需文献信息的方法。此法比较适合查找新近发表还没被各检索工具收录的文献。

优点:能最快地获取信息;能直接阅读原文内容;基本能了解本学科发展的动态和水平。

缺点:需事先知道本学科的核心系的载体;检索的范畴不够宽、漏检率大。

追溯法

又称回溯法、扩展法、追踪法。它是指一种跟踪查找的方法。根据文献著者在文献末尾所附的参考文献、有关注释、辅助索引、附录等的指引追踪查找文献。

分为传统追溯法和引文追溯法。

优点:不需要利用检索工具,查找方法简单。

缺点:检索效率不高,漏检率和误检率较大。

Ⅱ常用法(或称常规法、工具法):它是利用检索工具查找信息的方法,以主题、分类、著者等为检索点,通过检索工具获得所需文献信息的一种方法,是一种常用的科学检索方式。

由于检索要求不同,常用法可分为顺查法、逆查法、抽查法和分段法

顺查法

它是根据检索课题的时间范围、按由远及近,从过去到现在,从旧到新的顺序逐年逐卷地查找文献信息的一种方法。

优点:查全率、查准率较高、漏查率较小。

缺点:费时费力、检索工作量大。

逆查法(倒查法)

它是指与顺查法相反,按照检索课题的时间范围,利用一定的检索工具由近到远、由现在到过去、由近期向早期回溯查找文献信息的一种方法。

优点:省时省力,灵活性大,效率高。

缺点:容易产生漏查的现象,查全率查准率低。

抽查法

它是指针对某学科的发展特点和发展阶段,抓住该学科发展较快、文献信息发表较多的年代,抽出这段时间进行检索的一种方法。

优点:能获得一批具有代表性、反映学科发展水平的文献,检索效果和效率较高。

难点:必须了解和熟悉学科发展的特点及历史背景,才可以达到满意的检索效果。

分段法

又称循环法或综合法,是交替使用“追溯法”和“常规法”来进行检索的综合方法。即首先

利用检索工具查出一批信息,再利用这些信息所附的参考文献追溯查找相关信息。如此交替、循环使用常规法和追溯法,不断扩检,直到满足检索要求为止。

优点:当检索工具缺期,缺卷时,也能连续获得所需年限以内的情报资料,漏检率低,检索效率高。

计算机检索方法

Ⅰ定题服务(SDI,Selective Dissemination of Information):针对用户的需求,定期地提供各种新信息,使用户能及时地掌握与自己研究工作有关地最新资料。

Ⅱ回溯检索服务(Retrospective Searching):根据用户的需求,对现有的文献进行彻底详尽的追溯,把与课题有关的一切文献全部查出来,提供给用户。

Ⅲ联机订购服务(On-line Ordering):通过联机检索得到二次文献,如果用户需要相对应的一次文献,可通过终端联机定购原始文献的复印件或原文。

Ⅳ随机问答服务:由用户直接利用终端进行检索。检索系统即时提供所需文献的信息,一般由数值型数据库、事实型数据库提供各种科学数据库和事实数据。

检索途径的分类

按照检索途径与信息内容相关程度划分

1.反应信息内容特征的途径

(1)分类途径:是一种按学科分类体系来查找信息的途径,以分类检索语言为依托。使用“分类目录”、“分类索引”等进行查找。

当研究课题较大,需要全面了解某一学科及其相关知识的时候,或者难于判定研究课题所属主题范围的时候,常通过分类途径查找信息。

(2)主题途径:是以代表信息主题内容的实质性的词汇作为检索标识进行检索的一种途径,以主题检索语言为依托,使用“主题索引”、“关键词索引”、“叙词索引”等进行查找。

这种途径有利于将分散的各学科的有关信息集中于同一主题词之下,表达概念准确灵活,便于特性检索。

2.反应信息外部特征的途径

(1)著者途径:是根据已知信息作者姓名或机构名称来查找信息的途径。

利用著者途径查找信息的优点是可以满足对个人及团体著者的学术水平进行评价时的信息查找。缺点是不能满足全面检索某一课题文献的需要。

(2)题名途径:包括书名、刊名和篇名等途径。使用“书名索引”、“刊名索引”、“会议资料索引”。

(3)序号途径:序号包括报告号、标准号、专利号、登记号等。使用“报告号索引”、“标准号索引”、“专利号索引”、“登记号索引”等进行查找;

3.其他途径

分子式途径:是以化学物质的分子式作为检索标识等查找文献的途径。通过“分子式索引”进行查找,主要为美国《化学文摘》所用。

信息检索的步骤

(1)分析研究(检索)课题,明确检索要求。

分析课题,是实施检索中最重要的一步,也是检索效率高低或成败的关键。

在课题分析中,要考虑以下几个问题:

a.分析主题内容

b.分析问题类型;

c.分析查找年代;

d.课题需要的主语种;

e.了解课题对查新、查准、查全诸方面有无具体要求。

(2)选择检索工具或检索系统

检索工具或检索系统的选择是否恰当,将直接影响检索质量。

(3)确定检索方法

选择检索方法的目的在于寻求一种花时少、检索效果好的有效方法。检索方法主要根据检索条件、检索要求和学科特点而定。

(4)确定检索途径和检索策略

根据已知条件,选取最易查获所需信息的途径。

检索策略是检索前制定的概念组配和执行顺序的方案。

(5)实施检索并调整检索策略

利用描述信息外表特征的途径进行检索,简便快捷。而利用分类途径或主题途径检索时,可能会出现检索提问标识和信息存储标识不一致的情况,所以应反复修改检索提问标识,直到恰当为止。

(6)记录和阅读文献线索

a.记录检索结果

b.阅读文献线索过程中应注意的问题

正确识别文献类型:国内检索工具的著录款目,一般均在文献篇名之后用一个汉字(方括号内)注明原始文献的类型。

(7)索取原始文献

当文献类型和出版物全称明确以后,就可以索取原始文献了。

3.简述信息检索的效果评价。熟悉查全率、查准率、漏检率、误检率等评价指标的计算。

常用的信息检索效果的评价指标有:收录范围、查全率、查准率、漏检率、误检率、响应时间、用户负担和输出形式等。其中主要指标是查全率和查准率、漏检率、误检率。

查全率:系统检索出的相关文献量占系统文献库中的相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。

查准率:系统检索出的相关文献量占检索出的文献总量的比率,是衡量信息检索系统精确度的尺度。

查准率和查全率的计算

与课题相关文献数非相关的文献数总计

被检索出的文献A BA+B

没被检索出的文献C DC+D

总计A+CB+DA+B+C+D

计算:

查全率R: =A/(A+C)*100% 查准率P:=A/(A+B)*100%

一般来说,查全率与查准率之间存在互逆关系,即当某一系统的查全率与查准率处于最佳比例关系时,继续提高查全率,检出的相关文献量增加,查全率提高,却导致不相关文献检出反而降低查准率,反之亦然。

漏检率:它是指漏检相关信息量与在检索系统中相关信息总量的比率,是衡量信息检索系统漏检信息的尺度。

误检率:它是指误检(检出不相关)信息总量的比率,是衡量信息检索系统误检信息程度的尺度。漏检率和误检率的计算

与课题相关文献数非相关的文献数总计

被检索出的文献 A BA+B

没被检索出的文献CDC+D

总计A+CB+D A+B+C+D

计算:

漏检率O: =C/(A+C)*100% 误检率E:=B/(A+B)*100%

第五章事实与数据检索

思考题

1简述参考工具书的结构?

参考工具书的定义:事实与数据检索使用的主要工具是参考工具书,参考工具书是根据一定的社会需要,以特定的编排形式和检索方法,为人们迅速提供某方面的基本知识或文献资料线索,专供查询的特定类型的图书。

参考工具书的结构

一部结构完备的参考工具书,通常由序、跋、凡例说明、目次、正文内容、附录、补遗等几部分组成。序、跋一般是对编者阅历的介绍,常识的推崇,对内容的评论,编撰的说明,版本演变的交代。

凡例说明说明编书的目的、意图、适用对象、取材多少及起止年限、编排体列及使用方法等。

目次全书主要标题的顺序排列,并指示所在的页次

正文内容工具书的主体。正文内容的思想性、科学性、资料性、知识性、易检性是衡量一本工具书质量高低的主要标准,也是选择使用工具书的主要依据。

辅助索引弥补正文内容编排的缺陷,扩大多种检索途径,方便使用。

附录包括是有关的图表、统计方法等。作用是扩大工具书的使用范围,提高科学价值。

补遗对正文内容的补充,单独列出。

2简述中文工具书的主要排检法?

中文工具书的主要排检法

中文工具书的排检方法相当多,目前比较常用的排检方法主要有字顺法、主题法、分类法、时序法和地序法。

1. 字顺法

字顺法也称字序法,是按照一定顺序排检单字或复词的一种方法,是工具书的一种重要排检方法。一般的字典、词典、索引和百科全书都采用这种方法。

字顺排检法的形式主要有形序法和音序法、号码法三种。

(1)形序法

根据汉字的形体结构,按其共同特点加以排列,以便人们查检其读音和字义。主要有部首法、笔画、笔顺法。

部首法:根据汉字的字形结构,按部首偏旁的相同部分归类的方法。

笔画法:笔画检字法是按汉字笔画数目多少为排列次序的检字法。

笔顺法:又称笔形法,是按起笔笔形顺序确定汉字排列先后的检字法,起源于清代宫廷文书档案整理和保管的方法。起笔顺序有按点(、)、横(—)、竖(|)、撇、折;或横、竖、撇、点、折等为序,现在广泛采用后者。

笔画法与笔顺法可结合使用,成为笔画笔顺法,如崎、崖、圈。

(2)号码法

该法是形序法的一种变型。它把汉字的各种笔形用号码表示,再按各个汉字代号的大小顺序编排。主要有四角号码法、中国庋撷字、起笔笔形代码法等。

四角号码法:它是根据汉字方块形状的特点,以汉字字角的各种笔型配一个阿拉伯数字代号。

四角号码法一般的方式是:先根据单字的四角号码排列其先后顺序,四角号码相同的单字,再按附角号码依次排列。

四角号码法把所有汉字四个角上出现的笔形概括为10种类型,每一种类型用个号码代替。

歌诀:横一垂二三点捺叉四插五方框六

七角八八九是小点下有横变零头

(3)音序法

这是一种按字音排列汉字的方法。主要有韵部顺序法(声韵法)、注音字母顺序法(注音法)和汉语拼音字母顺序法(拼音法)。

韵部顺序法(声韵法):它是古代按字音排列汉字的一种方法。

现代为阴平、阳平、上、去四声;古代是平上去入四声,它是先将汉字按声调分为上平声、下平声、上声、去声、入声五类,在每一声类下,再将韵母相同的汉字归在一起,组成一韵部,并取其一字作为这一韵部的代表字,称为“韵目”,古代许多韵书都用此法。韵部的划分,各个历史时期有所不同。

注音字母顺序法:以注音字母为标记,拼写汉字的拼音,并按注音字母及其拼读音节的顺序编排汉字的方法。50年代后,汉语拼音方案公布,此法即被取代。

汉语拼音字母顺序法:按1958年公布《汉语拼音方案》字母表的顺序排列汉字的方法。在26个字母中,除去I、U、V3个字母外,共23个部。如《现代汉语词典》。

2.分类法

这是将文献按学科或按事物性质系统排列的一种排检方法。

(1)事物性质排检法,如年鉴、手册。

(2)学科体系排检法,如百科全书。

我国现代分类法

目前我国图书文献信息机构使用较普遍的图书分类法有如下三种:

(1)《中国图书馆分类法》

简称《中图法》,是一部大型的综合性图书分类法。于1975年正式出版,1980年出版第二版,1990年出版第三版,1999年出版第四版,2010年出版第五版。

(2)《中国科学院图书馆图书分类法》

简称《科图法》,由中国科学院图书馆编辑,1958年正式出版。使用单位除中国科学院系统的图书馆外,还有部分其他系统的图书馆。

《科图法》采用纯数字作标记符号,其分类体系是5大部类25个基本大类。

(3)《中国人民大学图书馆图书分类法》

简称《人大法》,由中国人民大学图书馆编辑,1954年正式出版,至今已修改出版了5版。

《人大法》将图书文献分为四大部类,十七个大类,采用纯数字作标记符号,号码采用严格的层累编号制。

3.主题法

它是以表达文献内容的主题作标识,以字顺为主要检索途径,并且通过参照系统等方法,显示它们之间联系的标引和检索方法。简单说,它是一种以规范化的自然语言作为文献的主题标识和查找文献依据的方法。表达文献主题的语词称为“主题词”,通常分为标题词、元词、关键词、叙词。

(1)标题词法

标题词又称标题,来自通用语言中比较独立定型的事物名称,经过规范化处理,用来表达文献主题概念的词、词组或词语。

如:“图书”、“信息资源”、“信息组织”、“信息存储与检索”

(2)元词法

元词又称单元词,指那些从文献中抽取出来,能表达文献主题的最小和最基本概念的词汇单位,即字面上不能再拆分的词。元词法是以元词作为文献主题标识的主题词法,它是在标题词法的基础上发展起来的后组式标引方法。

如:“物理”、“贸易”,而“知识组织”、“主题标引”等不是元词。

(3)关键词法

关键词是指从文献(主要是篇名)中抽出来的、能确切地描述和揭示文献主题内容的关键性语词。

如:《计算机在人口普查中的应用》

关键词法是将关键词作为文献主题标识的主题词法,属非规范化主题词法,一般没有固定的主题词表。(4)叙词法

叙词是选自自然语言,经过规范化处理的单元词或词组。

叙词法是以叙词作为文献主题标识的主题词法。

如《汉语主题词表》

《中国分类主题词表》

4.时序法

这种是按事物发生发展的时间顺序或人物的生卒年月、生平经历的先后顺序编排的方法。如出版书目、个人著述目录、标准文献目录、会议录文件、学科发展史料和人物传记、年谱、年表、历表等都采用此法。

5.地序法

这是按事物的行政区划或自然地理性质排检知识材料的一种方法。多用于地理学、生物科学、农业及一些行政管理学科。用这种方法编排的工具书主要有地图集、地方志。

3常用参考工具书简介。

参考工具书的种类繁多,按其文种来说,有中文工具书和外文工具书;按其编撰时代来说,有古代工具书和现代工具书;按其刊印形式来说,有期刊、书籍和单幅图片;按其功能特点来说,有字典、词典、百科全书、年鉴、手册、名录、图录、表谱之分;本课按最后这种分类方法,并有侧重点对参考工具书作简单介绍。

分类:按文种,可分为中文工具书和外文工具书。

按学科内容,可分为社会科学工具书和自然科学工具书

按编撰时代来说,有古代工具书和现代工具书之分。

按刊印形式,有书籍、期刊和单幅图片之分。

按其功用特点,分为字典、词典、百科全书、年鉴、手册、名录、图录、表谱等。

参考工具书指南:工具书指南是向人们介绍那些比较重要的工具书,因此,它通常还被人们称为“工具书的工具书”。

字典、词典定义

字典是解释字的形体、读音、意义和用法的工具书;词典(辞典)是解释词的概念、意义及其用法的工具书。

类型

按其收录的语种分:可为为单语词典、双语对译和多语对照词典。

按其收录的内容及其用途:可分为语言词典、知识词典、综合性词典和专门性词典。

年鉴(Year Book 或Annual)是汇集一年内的重要时事文献、学科时事与各项统计资料,并按年度出版的连续性出版物。

一般可分为综合性和专科性两类。综合性年鉴主要是综合评述,报道内容广泛,反映政治、经济、文化、教育等各方面的进展情况;专科性年鉴只报道某一特定的专业领域或某一行业的情况和统计数字。

手册特点

小型、专题明确具体,取材新颖,论述简要,类型分明,注意实际演算或操作方法。常以公式、数据、规格、条例、图表作为表述方式,使用便查。

手册类型

根据其收选内容的不同,可分为综合性和专科性2种类型。

(1)综合性手册

(2)专科性手册

百科全书定义

百科全书(Encyclopaedia)一词出于古希腊文enkyklios(各方面的)和paideia(教育)合为“全面教育”“百科知识”的意思。它是知识的系统总结,是百科知识的总汇。

其基本特点是知识门类齐全,内容包罗万象,不但可供读者查检必要的知识和事实资料,释疑解难,而且还能扩大读者知识视野和系统求知。

百科全书依其收录的内容范围,可分为综合性百科全书和专科性百科全书。

名录

名录是涉及范围很广的一种工具书,包括人名录、地名录、机构名录等。人们在从事科学研究、外事活动以及读书看报过程中,经常会遇到有关国内外某机构组织、某人物生平、某报刊资料的简介和国内收藏等情况。

名录类型

(1)人名录

(2)机构名录

图录

图录是汇集某一学科某一方面的事物,用图象形式绘录或摄制下来,加以分类编排的一种直观性的特种工具书.图录包括地图集和图谱。

(1)地图集

地图是运用制图法则和符号、图形、文字等,在平面上表示地表的自然状况和社会、经济等现象的空间分布及相互关系的文献。地图集则是将多幅地图按一定的主题和顺序汇集而成的图册。

(2)图谱

图谱是指一系列有内在联系的图象资料,这些图象有一定的分工和客观的次序。图谱又称图鉴,是以图为主,文字为辅,用以对照实物,辩明种类。科技图谱一般都具有内容的科学性,文字的通俗性,图象的艺术性,表达的准确性,能形象地揭示复杂的自然科学现象、原理、技术等,为科学技术研究提供丰富的直观材料。

表谱

表谱,包括年表、历表及其他历史表谱。

年表、历表是查考历史年、月、日的工具书。其中:年表是查考历史年代和检查历史大事的工具书;历表是查考和换算不同历法年、月、日的工具书。

第六章图书和期刊信息的检索

实践:

请在读秀学术搜索查找书名为《三国演义》的图书,共查到多少本图书?请打开一本阅读。

第七章特种文献检索

1、什么是特种文献?它都包括什么类型?

特种文献:人们通常把书刊之外的出版物称作特种文献。特种文献包括:专利文献、标准文献、会议文献、科技报告、学位论文等。

2、什么是专利?专利的三性是什么?专利的种类有哪些?英文:Patent

狭义:指国家专利主管机关授予申请人在一定时间内享有的不准他人任意制造、使用或销售其专利产品或者使用其专利方法的专有排他权。

广义:专利权——法律角度

专利技术—技术角度

专利文献—文献角度

种类:发明专利、实用新型专利、外观设计专利

特点:独占性、地域性、时间性

三性:新颖性(Novelty)

创造性(Inventiveness)

实用性(Practical Applicability)

3、什么是标准文献?标准文献有什么特点?

标准文献:一般是由技术标准、管理标准及其他具有标准性质的类似文件所组成的特种科技文献体系。

标准文献的特点

标准文献它数量庞大,发展迅速与其他文献相比有以下几个特点:

强制性(指令性、指导性兼有)

自成体系(自成体系,独立完成)

重复交叉(种类繁多,重复交叉)

新陈代谢(更新迅速,修订频繁)

4、什么是学位论文?

学位论文(Thesis或Dissertation)是大学生或研究生为取得学位资格而提交的,介绍其发现与某种结论的调查或研究的学术论文。各级学位一般由高等院校或科研院所授予。

现代大多数国家学位有学士、硕士和博士三个等级,学位论文是学位授予的主要依据文件。学位论文包括学士、硕士和博士学位论文,学位论文是反映学术水平的重要文献资料,可分为技术应用性研究论文和理论探讨性研究论文两类。

学位论文的特点

观点新颖

论据充分

水平较高

学位论文的目的只是供审查答辩之用,不是为了出版销售。一般只打印若干份,在市场上无法获得。学位论文是非卖品也不公开发行,通常只在学位授予单位的图书馆和按国家规定接受呈缴本的图书馆保存有副本,故学位论文的收集与利用不如其它类型的文献方便。

5、什么是会议文献?会议文献有什么特点?

会议文献(conference document):是指在各种会议上宣读的论文、产生的记录及发言、论述、总结等形成的文献。

按会议文献出版的时间分

会前文献

会间文献

会后文献

按会议规模

国际性会议文献

地区性会议文献

国家性会议文献

基层会议文献

会议文献的特点

(1)内容新颖,水平较高。科技学术文献的内容新颖丰富,学术水平高,信息量大,可靠性高,观点可能不成熟,是了解某学科水平动态的重要信息源。

(2)信息及时,针对性强。传递信息比较及时,出版发行方式较多速度快,专业性强。(3)形式多样,检索困难。会议类型较多,文献收藏分散,难以检索。其重要性和利用率仅次于科技期刊。

6、科技报告的特点是什么?美国四大科技报告的简介?GRA&I的检索方法是什么?

科技报告是描述一项科学技术研究的结果或进展或一项技术研制试验和评价的结果;或是论述某项科学技术问题的现状和发展的文件,它是一种重要的特种文献信息源。科技报告报道研究工作和开发、调查工作成果或进展情况的一种文献类别,一般都编号码(识别报告本身或发行机构)。

科技报告的特点

?专一的告知性

?明确的目的性

?严格的保密性

?快速的时效性

?广泛的实用性

美国四大报告简介

(1)PB报告(行政系统)

1946年,美国为了整理在第二次世界大战中从战败国获得的内部科技资料,成立了美国商务部出版局负责整理、公布这批资料,因每件资料都冠以美国商务出版局的英文名称

Publication Board的自首“PB”作为标识,因而称为“PB报告”。

?PB报告的编号

?PB报告的编号原来采用PB代码加上流水号,1980年开始使用新的编号系统,即PB+年代+顺序号。

PB报告报告内容:开始是收录战败国的科技资料→后来是收录国家解密的报告或公开的报告等→现在侧重于民用工程方面,如:土木建筑、城市规划、生物医学等。

(2)AD报告(军事系统)

AD报告产生于1951年,由原美国军事技术情报局(简称ASTIA)收集、整理、出版的科技报告。该报告因由ASTIA统一编号,称ASTIA Document,简称AD报

告。

AD报告文献来源:与国防有关的各个领域,主要是源自海陆空三军下属的研究所、大学等报告。现在AD报告的文献来源非常广泛,报告范围不仅包括了与国

防有关的各个领域,也涉及许多民用技术领域。

就其数量和质量而言,AD报告比其它三种报告更重要。

AD报告的密级有4种:机密(Secret)、秘密(Confidential)、内部限制发行(Restricted Limited)、非密公开发行(Unclassified〕。

(3)NASA报告(宇航系统)

NASA报告是美国国家航空和航天局(National Aeronautics and space administration) 简称NASA出版的科技报告,现也简称N报告。

NASA报告主要是航空航天领域,年报告量约1万件左右。

NASA报告的报告号采用“NASA+报告出版类型+顺序号”的表示方法。

(4)DE报告(能源系统)

DE报告原称DOE报告,该报告因出版单位多次变化,先后由美国原子能委员会(department of energy); (AEC)、能源研究与发展署(ERDA)和美国能

源部(DOE)出版,报告名称也从AEC、ERDA、DOE到DE多次变化。

1981年开始,能源部发行报告都采用“DE+年代+顺序号”的形式。如“DE95009428”

内容:主要是原子能方面

美国《政府报告通报及索引》(GRA&I)是由美国商务部技术情报所主编的美国政府科技报告出版物的检索工具。

1946年创刊,是美国商务部国家技术情报服务局NTIS编辑出版,半月刊。报道方式:摘录。出版形式:印刷性缩微性、网络版、磁带版。

?编排:1987年以后按NTIS的主题法:22个大类,178个小类。

?GRA&I报道全部的PB报告、公开发行和解密的AD报告、部分NASA报告和DE报告,还有一部分美国专利申请说明书的摘要。其每期报道2500多件报告,每年24期。

GRA&I的检索途径:

分类途径

主题途径

著者途径

追溯检索

实践:

1请在中国知识产权局https://www.360docs.net/doc/1115702331.html,或中国专利信

息网查找申请人为“西南林业大学”(西南林学院)的专利,你在此系统中能查到多少篇与西南林大学相关的专利,请摘录一篇。

2请在CNKI中检索有关作者单位是西南林业大学(西南林学院)的学位论文,请摘录一篇。

第八章电子检索工具概论

思考题

1.数据库的定义及构成

数据库的定义

国际标准ISO/DIS5127规定,数据库的定义为:“至少由一种文档组成,能满足特定目的或特定功能数据处理系统需要的数据集合。”数据库的本质是可以提供共享的有一定组织方式的相关数据。

数据库的构成

数据库是以文档的形式组织起来的,文档的基本组成单位是记录,而记录又是以若干字段组织而成,因此,数据库主要由文档、记录、字段三个层次构成。

文档(File):若干个逻辑记录构成的信息集合称为文档。它是书目数据库和文献检索

系统中数据组织的基本形式。

记录(record):是作为一个单位来处理的有关数据的集合,是对某一实体的属性进行描述的结果,是文档的基本单元,在全文数据库中,一个记录就是一则完整的信息;在题录数据库中,一个记录就是一条文摘或题录。

字段(Field):是记录的基本单元,用来描述实体的某一属性。在书目数据库的记录中,字段的划分与文献著录事项的划分相一致,一个字段与一个著录项目相对应,所以,一个记录中通常含有文献号字段、题名字段、作者字段、出版字段、语种字段、主题词字段、分类号字段等各种必要的字段。每个字段的具体内容称为字段值或属性值。

子字段:是字段的下一级数据单位。在有些字段中,它们的值往往由多个子项构成。例如:作者字段可能含有多个作者,出版字段含有出版者,出版地和出版年等等。

2.简述检索技术。常用的布尔逻辑算符有哪些?

布尔逻辑检索技术

布尔检索利用布尔逻辑算符将用户的每一步简单概念组配成一个具有复杂概念的检索提问式,用以表达用户的检索需求,计算机将根据提问式与系统中的记录进行检索词或代码的逻辑组配,当两者相符时则命中,并自动输出该文献记录。是目前使用最广的检索方式。布尔逻辑算符

常用的布尔逻辑算符有3种,分别是逻辑或OR、逻辑与AND、逻辑非NOT

(1)逻辑或“OR”

是用来组配具有同义或同族概念的词,如同义词、相关词等,其含义是,检出的记录中,至

少含有两个检索词中的一个。

也可用“+”代替,检索词A和检索词B若用“OR”组配,则提问式可写为

A OR

B 或者A+B

(2)逻辑与“AND”

用来检索不同检索概念。其含义是检出的记录必须同时含有所有的检索词。

也可用“*”代替,检索词A和检索词B若用“AND”组配,则提问式可写为

A AND

B 或者A*B

对于提问式A AND B,假设检索词A的所有命中文献有M篇,检索词B的所有命中文献有N 篇,提问式的所有命中文献有Q篇,则:

当A与B有一定相关性时,M>Q>0或N>Q>0;

当A与B密切相关时,Q=min(M,N);

当A与B不相关时,Q=0。

使用逻辑与,可以缩小检索范围,提高检索结果的查准率。

(3)逻辑非“NOT”

该算符的应用可以用以排除含有某些词的记录,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。

也可用“-”代替,检索词A和检索词B若用“NOT”组配,则提问式可写为

A NOT

B 或者A-B

对于提问式A NOT B,假设检索词A的所有命中文献有M篇,检索词B的所有命中文献有N 篇,提问式的所有命中文献有Q篇,则:

当A与B有一定相关性时,Q

当A与B密切相关时,则当M>N时,Q=M-N;

当M

当A与B不相关时,Q=M。

使用逻辑非,用于排除不希望出现的检索词,提高检索结果的准确性。

(4)除以上三种布尔算符外,还有一种异或逻辑算符XOR。

检索词A和检索词B若用异或XOR组配,可写为:

A XOR B

检索结果为:含有检索词A的文献命中,含有检索词B的文献命中,但同时含有A和B的文献不命中。

3.简述检索策略。

广义上的检索策略:是在充分掌握用户需求的基础上对整个检索过程的通盘考虑与科学安排。

狭义上的检索策略:是检索标识的确定与检索表达式的拟定。

检索策略的制定

(1)明确用户的信息需求:要求明确用户检索的学科专业范围、主题内容与检索目标。

(2)选择检索方式和检索方法。

(3)选择检索系统或检索工具:一般选择权威的信息密度高的检索系统或工具,并据此确定合适的检索途径。

(4)确定检索项目:对用户提问进行标引形成与所选择检索系统使用一致的检索项目。

(5)拟定检索表达:根据检索提问的概念逻辑关系,把各组面用相应的逻辑符号联接起来,并确定各检索词的权值,以及输出阈值。

(6)制定具体的检索程序。

(7)判断检索结果的相关性,必要时进行反馈检索,获取原始信息单元。

以上步骤中,二、三步是支持性的,四、五步是关键与核心,狭义上理解的检索策略就是指相应的检索表达式的制定。

4.要检索“中东粮食生产问题的文献”,请用布尔检索算符给出检索表达式。

5.要检索“赖茂生所著的计算机情报检索方面的文献”,请利用各种可能的算符给出检索式。

第九章因特网信息检索

1.简述搜索引擎。

搜索引擎概述

简单地说,“搜索引擎”是INTERNET上查找准确信息的工具。引擎是英文“Engine”的音译词,代表发动机。搜索引擎是“Search Engine”意为查找信息的发动机。它是一种用于帮助INTERNET用户查询信息的搜索工具,它以一定的策略在INTERNET中搜集、发现信息。对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。

搜索引擎的构成

搜索引擎通常由搜索器(又称为网络蜘蛛——Web Spider,爬行者—— Crawlers,机器人——Robots等)和检索程序两部分组成。网络蜘蛛在网络间则负责对搜索到的信息进行整理、分类和索引,并对检索者提出的各种检索要求作出响应。搜索引擎的运行速度一般都非常快。每次检索只要几秒钟即可完成。

搜索引擎基本类型

目前,Internet中的搜索引擎主要有三种基本类型,1)以分类目录为主的搜索引擎;2)以全文搜索为主的搜索引擎;3)建立在独立搜索引擎之上的多元搜索引擎(Meta-Search Engine)。其中,前两类搜索引擎的功能是相互借鉴和互为补充的,两者的界限也渐趋模糊。,1)以分类目录为主的搜索引擎

这类搜索引擎又称为目录服务,著名的Yahoo是其代表。

检索系统将搜集到的Internet中的所有资源按其主题分为若干大类。每个大类下面又分设若干二级类目、三级类目等。每个类目下面列出属于这一类目的网站名称的网址链接。

2)以全文检索为主的搜索引擎

这类搜索引擎通常称为索引服务,它们与分类目录为主的搜索引擎中的网站查询功能相似,著名的ALTA VISTA就是这方面的代表。

以全文检索为主的搜索引擎,它们的搜索对象是Internet所有网站中每个网页的全部内容。检索得到的结果,通常是一个个网页的地址和一段文字。

3)多元搜索引擎

Internet 庞大的信息,使得独立的搜索引擎都无法单独覆盖,而建立在搜索引擎之上的搜索引擎,通常称之为多元搜索引擎。

原理:当向一个多元搜索引擎发出检索要求之后,该引擎会将检索要求迅速发送给其他独立的搜索引擎,并将它们反馈的结果集中显示。

多元搜索引擎具有同时查询多个数据库的优势,至于其本身是否拥有数据库则无关紧要。

按其工作方式,又可具体分为串行处理和并行处理两种;

串行处理是将检索要求先发送给某一个搜索引擎,然后将其检索结果经处理后,传递给下一个搜索引擎,依次进行下去,直至最终将结果反馈给系统。

并行处理则是将检索要求同时发送给所有要调用的搜索引擎。

4)All-in-One集成搜索

All-in-One是指只要通过一个网站,即可选择多个搜索引擎依次进行搜索。

在很多场合,多元搜索引擎被视为All-in-One集成搜索的一部分。

All-in-One搜索公司的“ All-in-One Search Page”可以看作是All-in-One集成或搜索的代表。

5)特殊用途的搜索引擎

科学信息的搜索引擎Scirus;

全球华人寻人搜索引擎——Look 4 U;

软件搜索引擎——Soft Seek,Download Power Search;

图形、图像搜索引擎——Image Surfer;

支持自然语言的搜索引擎——Ask Jeeves;

搜索引擎的一般检索步骤

第一步,选择合适的搜索引擎。

一般而言,选择搜索引擎应从以下几个方面考虑:

(1)收录范围。

(2)数据库容量。

(3)检索界面。

(4)更新周期。

(5)准确性。

(6)全面性。

第二步,选择合适的检索入口实施检索。

搜索引擎的检索途径通常由分类和关键词两种。一般形式是,以分类目录为主的搜索引擎几乎都有一个关键词检索框,而以全文检索为主的搜索引擎,除极个别外,也都有一个分类目录索引。

(1)以分类为检索入口的搜索引擎的使用。这种方式主要用于检索者使用搜索引擎只是想大致了解某个方面的信息。

(2)以关键词为检索入口的搜索引擎的使用。

关键词索引是搜索引擎的基本组成部分。一个搜索引擎可以没有分类目录,但却很少没有关键词检索,只不过有的搜索引擎关键词检索的对象是网页,有的则是网站而已。

过程:进入搜索引擎可见一个关键词检索框在检索框中输入检索表达式按检索键

2.简述Google的使用方法。

Google简介

Google是由Larry page与Sergey Brin于1998年9月在美国硅谷设计的搜索引擎。目前,已有Yahoo,AOL,网景和中国的网易等知名网站在内的全球150多家公司采用了Google的搜索引擎技术。Google中文搜索引擎技术在某种程度上可以说是目前收录范围最广、功能最强、精确度最高的搜索引擎之一。

功能和特点

(1)采用了先进的网页级别技术。

(2)在同一界面下,可以定制语言和到何种网站中进行搜索。

(3)搜索结果通常会比其他搜索引擎来得更准确。

(4)Google是目前收集亚洲网站最多的搜索引擎之一,对中文的支持性强。

(5)Google的“手气不错”、“网页快照”、“类似结果”等功能。

手气不错

按下“手气不错?”按钮将自动进入Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。

例如,要查找Stanford 大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google 将直接带您进入Stanford 大学的官方主页https://www.360docs.net/doc/1115702331.html,。网页快照(Cached)

随着Google在网络上“爬行”,它将网页补充到它的搜索引擎中,它要快速地处理每个网页并储存备份。Google利用网页快照的主要目的,是为了判断一个网页是否与你的检索式相匹配,并定期地对其刷新。

类似结果(Similar Pages)

有的时候,你可能十分喜欢所找到的某个网页,并希望查看与其相类似的网页。当你想查找更多的相同类型的资源或者网站时,请点击Similar Pages(类似结果)链接。

翻译该网页链接(Translate This Page)

如果某个网页使用的不是你所熟悉的语言,则可使用Google的翻译网页的功能。即,可以利用Google翻译这个网页。

文件类型的转换

有的时候,Google可查找到不是网页的文件。例如,检出的可能是使用Microsoft Word 格式或PDF格式的文件。Google能够将这种文件转换成HTML(超文本标识语言)或文本格式。

文件类型的转换可用于当你使用原文本格式不能观看网页的时候,比如,当你的计算机上没有安装合适的软件或当你想马上观看某个文件的时候。在该文件有被转换的格式的版本时,Google会显示View as HTML或View as Text链接,点击其中的一个链接,则可观看转换了格式的网页。

查找特定类型文件

例如,如果您只想查找PDF或Flash 文件,而不要一般网页,只需搜索“关键词filetype:pdf” 或“关键词filetype:swf”就可以了。

例如:检索“信息检索filetype:pdf”

检索方式

在地址栏里输入https://www.360docs.net/doc/1115702331.html,,打开Google首页,它会根据所使用的浏览器自动出现简体中文界面,分为基本查询和高级搜索两种。

(1)基本查询。Google简洁、鲜明的界面中间便是要求输入关键字的对话框,其右边是两个小键:“高级搜索”和“使用偏好”,其中“使用偏好”可以选择目前26种不同的语言,第四行是“Google搜索”和“手气不错”,再下面为Google大全、搜索建议等。

有时,可以在检索式中加入对google有特殊涵义的运算符,将运算符与检索词一起使用,可以改进google的检索方式。

引号:“”

使用双引号界定多个检索词,可以查到各个单词按相同词序在一起出现的网页。

如:“信息检索”

通配符:*

还有的情况,是你只知道想查找的某个字句的一个部分。可能你只知道一首歌曲的几句歌词或者一部图书书名中的一个部分,对于这种情况,Google提供了一种通配符运算符*(星号),表示匹配用它代表的任何词。把*作为你不知道的词的替代符号。

运算符:OR

使用OR运算符则表示告诉Google,查找包含其中任何一个词的网页。

注意:必须使用”OR“,而不是“or”,是因为Google把前者看成是运算符,而将后者看成是普通的检索词,虽然Google对于检索词不区分大小写,但是,运算符却使用大写来表示。

例如:土豆OR白菜OR萝卜

运算符:AND

使用AND 运算符表示告诉Google,查找包含其中所有词的网页。

也可以在两个词之间以空格隔开。

如:土豆AND白菜AND萝卜

土豆白菜萝卜

运算符:“-”

将一个“-”号放在一个词的前面(不加空格),表示让Google找出不含该检索词的网页。

例如“武汉–广州”

是要检出只含有武汉,而不含有广州的网页。

(2)高级搜索(Advanced Search)

当我们利用简单检索已山穷水尽时,可以使用高级检索表格来规定要准确查找的内容.点击检索框右面或上方的Advanced Search(高级检索)的链接(或者输入网址:https://www.360docs.net/doc/1115702331.html,/advanced_search)

可进入到高级检索页面。

(3)查询结果。

提交查询后,系统根据检索词和查询选项返回查询结果。Google可以自定义每页显示的结果数量,选择10,20、30、50或100,Google默认值是10。Google会根据其网页级别,对结果网页排列出优先次序。

Google的不足之处

?其数据的更新速度无法进一步提高。

?无法搜索动态生成的网页。

国科大信息检索作业

国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章) 以下每题10分,共计100分。 1、习题1-4 a.时间复杂度O(x+y)。因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档 号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果xy,caesar指针后移。 b.时间复杂度是O(N),N是全部的文档数。因为结果集的大小取决于文档数N,而不是倒排记录表的长度。 2、习题1-7 对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度 (tangerine OR trees) = O(46653+316812)=O(363465) (marmalade OR skies) = O(107913+271658) = O(379571) (kaleidoscope OR eyes) = O(46653+87009) = O(300321) 即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies) 3、习题1-10 UNION(p1,p2) answer ←{ } while p1!=NIL and p2!=NIL do if docID(p1)=docID(p2) then ADD(answer,docID(p1)) p1<- next(p1) p2<-next(p2) else if docID(p1)

网络信息检索试题及答案(DOC)

第一部分 1、一条及时的信息可能使濒临破产的企业起死回生,一条过时的信息可能分文不值,甚至是企业丧失难得的发展机遇,造成严重后果,这说明信息具有( C )特征。 A、差异性 B、传递性 C、时效性 D、共享性 2、培养学生养成良好的信息素养,主要从四个方面进行,其中不包含( B ): A、信息意识 B、信息心理 C、信息能力 D、信息道德 3、哈佛大学经济学专业学生能够依据图书馆中哪些极为平常、完全公开的图书资料,撰写出核专家都感到惊异的“制造核弹的方法”的报告,反映出良好的信息素养是()。 A、获取知识的捷径 B、科学研究的向导 C、终身教育的基础 D、创新知识的源泉 4、按照信息处理的级别来划分,可以将信息分为零次、一次、二次和三次信息,下面()是一次信息的别称。 A、灰色信息 B、原始信息 C、检索性信息 D、参考性信息 5、“便于保存传递、但需要借助阅读机阅读”是以感光材料记录文字及相关信息的()信息载体类型的特点。 A、印刷型 B、电子型 C、声像型 D、微缩型 6、谈谈你对“信息”的理解。 特征:客观性和普遍性、差异性、传递性、时效性、可转换性、共享性。 7、下列文献哪个是二次文献?( A ) A. 文摘 B. 会议文献 C. 辞典 D.百科全书 8、“文章草稿”、“私人笔记”及“会议记录”属于( A )。 A. 零次文献 B. 一次文献 C. 二次文献 D. 三次文献 9、下列选项中哪一项属于“国内统一刊号”(C )。 A. ISBN 7-04-014623-1 B. ISSN 0254-4164 C. CN 11-2127/TP D. 0254-4164/TP 10、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( C )参考文献的著录条目描述。 萧钰.出版业信息化迈入快车道[EB/OL] .(2001-12-19) [2002-04- 15]. http:∥www. ….htm. A、标准文献 B、期刊(杂志) C、电子文献 D、会议文献 11、根据国标GB/T 7714-2005规定,下面的横线上的信息是对( B )参考文献的著录条目描述。 昂温G,昂温P S .外国出版史[M]. 陈生铮,译. 北京:中国书籍出版社, 2001:15-20 A、期刊(J) B、图书 C、科技报告(R) D、会议文献(Z) 12、下面哪些资料属于三次信息?(ACFLOP) A、《2009年山东省统计年鉴》 B、美国《工程索引》 C、《新华字典》 D、《新华文摘》 E、《机械工业出版社2012年图书征订目录》 F、《计算机科学技术百科全书》 G、《计算机工程与应用》 H、《网络营销》 I、《NASA报告》。 J、《博士论文:论网络时代的商务模

华电信息检索期末考试-单选题库

单选(微软雅黑5号为正确答案,非答案为小5号) 1.下面对图书馆(主馆)在学校所处的位置描述正确的是? A学生宿舍一号楼与二号楼之间 B学生宿舍一号楼与食堂之间 C教二楼与教三楼之间 D主楼和教二楼之间 https://www.360docs.net/doc/1115702331.html,pendex是哪个数据库的网络版? A El B INSPEC C IEL D SIAM 3.我馆外文图书在借阅? A主馆二层前台 B主楼C座308室 C主馆一层基本库 4.图书馆研讨空间于 2014年4月23日开放,单个研讨空间使用者不少于__人,不超过_ A 3, 8 B 6, 8 C 3, 5 D 3, 6 5.世界上最大的图书馆是 _ 一? A英国国会图书馆 B美国国会图书馆 C法国国会图书 6.1958年,美国的大学最先将计算机技术运用到图书馆? A密苏里 B哈佛 C哥伦比亚 D夏威夷 7.以下哪个数据库能下载专利全文? A维普数据资源系统 B读览天下 C万方数据知识服务平台 D读秀知识库 8.使用超星数字图书馆浏览和下载电子图书时,应安装:

A Apabi Reader B SSReader C CAJ Viewer D Adobe Reader 9.以下可以查阅电子图书的数据库是: A维普数据资源系统 B中国知识资源总库 C读览天下 D读秀知识库 10.在中国学术期刊全文数据库中,检索篇名含“图书馆”的文献,最好用:A高级检索 B 一框式检索 C二次检索 D跨库检索 11.我馆购买的中国知识资源总库数据的年限是: A 1988年至今 B 1995年至今 C 1997年至今 D 2000年至今 12.中国知识资源总库下载的期刊论文,浏览全文必须安装: A IE浏览器 B SSreader阅读器 C cajviewer浏览器或PDF阅读器 D书生阅读器 13.查询某数据库中是否收录《自动化学报》,检索途径最好选择: A关键词 B刊名 C分类号 D著者 14.以下数据库中,属于文摘型数据库的是: A CNKI B维普数据库 C中文社会科学引文索引(CSSCI) 15.中文电子资源中,超星数字图书馆属于: A索引型数据库 B文摘型数据库

情报检索试题及答案

一、单项选择题(共20题,1分/题,共20分) 1. 刘志强.我国农业生态环境可持续发展评价及对策[J].农业系统科学与综合研究,200l,17(3):24-26该参考文献的17(3):24-26的含义应该是: a.17卷3页24-26行 b. 17卷3页24-26行 c. 17卷3期24-26页 d. 17期3部分24-26页 2. ISSN0023-1231.是_____ a. 国际标准书号 b.国际标准刊号 c.图书分类号 d. 标准号 (国际标准书号:ISBN) 3. 查找某一年的新闻、事件、数据和统计资料,应该用___ __类参考工具书。 a.百科全书 b.手册 c.年鉴 d.统计资料 4. 在以下列出的搜索引擎中哪一种是专门搜索学协会数据库资源的搜索引擎? a. Google scholar b.Google book search c.Scirus d. Scitopia 5. 用google在华中科技大学的网站内进行站内搜索应使用: a. link: b. related: c. site: d. info: 6. 在ELSVIER SCIENCE DIRECT数据库中使用哪个符号表示精确检索: a. “” b.() c.[ ] d.{ } 7.可以检索color或者colour的最常用检索式是: a. 输入:color或者colour b. 输入:color and colour c. 输入:color*colour d.输入:colo?r 8. 我馆购买的下列名称的检索工具中,目前不能用来检索学位论文的是: a. CNKI b. 维普 c. Proquest d. 万方 9. 用维普《中文科技期刊数据库》查询刊物《图书情报知识》的关于数字图书馆的文献,检索式为: a. K=数字图书馆*图书情报知识 b. K=数字图书馆+J=图书情报知识 c. K=数字图书馆*J=图书情报知识 d. K=数字图书馆*A=图书情报知识 10. 某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论 文总数得出的结果是: a.影响因子b.立即影响指数c.H指数d.Eigenfactor 11. 用IEEE检索系统检索computer programming方面的论文,限定computer和programming 词序一定但间隔至多不能超过2个单词,则检索式应该是: https://www.360docs.net/doc/1115702331.html,puter 2w Programming https://www.360docs.net/doc/1115702331.html,puter NEAR/2 Programming https://www.360docs.net/doc/1115702331.html,puter w2 Programming d. .Computer ONEAR/2 Programming 12.下面哪个出版社不是新成立的纯OA出版社?

(2)--信息检索期末考试A卷答案

武汉大学信息管理学院《信息检索》考试试卷(A)答案 一、名词解释(5x4=20分) 1.信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.引文索引是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。 3.China Academic Library and Information System中国高等教育文献保障系统。 4.邻近检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。 5.搜索引擎(Search Engine)是一种 Web 上应用的软件系统,它以一定的策略在 Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。用户可以通过主题浏览和关键词检索的方式搜索所需信息。 二、简答(5x6=30分) 1.电子图书有哪些特点? 存储空间大(磁介质存储密度高、容量大,一张光盘甚至可以存上百部中外名著)、节省资源(不需消耗纸张等物质资源)、使用方便(借助于专门的软件便可使用,可以便捷地编辑和查找特定内容)、传播过程中的无独占性和无损坏性(可以同时供多人使用,可无失真地重复使用)。 2.对搜索引擎的选择与比较主要从哪些方面考虑? 收录范围(索引库中内容的数量、地域范围、语言种类、资源类型、资源的深度和广度)、分类(分类方式是否合理多样、类名是否规范、分类的广度与深度是否合适)、检索功能与效果(是否包含浏览检索和关键词检索功能、是否支持布尔检索、截词检索等高级检索功能、是否有检索帮助和提示功能、检索结果和查全率、查准率及响应时间)、结果处理(结果的排序方式是否多样、是否有去重功能、能否按照用户反馈动态调整和显示检索结果)、页面组织(页面组织是否清晰、类目设置是否合理、界面是否友好)、其他功能与服务(能否满足用户多方面的信息需求)、用户评价(是否有用户评价及统计功能)。 3.网络信息选择的标准有哪些? 权威性(网站及其建站机构的权威性和知名度)、内容(内容应当客观、切题、标题清楚、组织规范、逻辑性强、有明确的范围和边界、有足够的深度和广度、有自己的特色)、时效性(网站内容及其链接应当新颖、应明确地说明其创建和更新周期)、网页设计(应以合理的方式综合使用图像、声音和文字、界面的友好性、清晰直观)、适用性(应保证用户能用较短的时间、点击较少的链接找到所需信息)、用户对象(信息的专业化程度应能满足目标用户的特定需求)、访问次数或被链接次数(网络信息的被访问和被其他网页链接的次数)。

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案 王斌 最后更新日期 2013/9/28 第一章布尔检索 习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。 文档 1 new home sales top forecasts 文档 2 home sales rise in july 文档 3 increase in home sales in july 文档 4 july new home sales rise 习题1-2 [*] 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; 解答: breakthrough 1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hopes 0 0 0 1 new 0 1 1 1

patients 0 0 0 1 schizophrenia 1 1 1 1 treatment 0 0 1 0 b. 画出该文档集的倒排索引(参考图 1-3中的例子)。 解答:参考a。 习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么? a.schizophrenia AND drug 解答:{文档1,文档2} b.for AND NOT (drug OR approach) 解答:{文档4} 习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少? a.Brutus AND NOT Caesar b.Brutus OR NOT Caesar 解答: a.可以在O(x+y)次完成。通过集合的减操作即可。具体做法参考习题1-11。 b.不能。不可以在O(x+y)次完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒 排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和 N,即O(N) 或者说O(x+N-y)。 习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询 c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra) 我们能在线性时间完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗? 解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。 习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。 a. 通过分配律将习题1-5中的查询写成析取式; 12 b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低? c. 上述结果对任何查询通用还是依赖于文档集的容和词本身? 解答: a. 析取式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra) b. 这里的析取式处理比前面的合取式更有效。这是因为这里先进行AND操作(括号),得到的倒排记录表都不大, 再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。 c. 上述结果不一定对,比如两个罕见词A和B构成的查询 (A OR B) AND NOT(HONG OR KONG),假设HONG KONG一 起出现很频繁。此时合取方式可能处理起来更高效。如果在析取式中仅有词项的非操作时,b中结果 不对。 习题 1-7 [*] 请推荐如下查询的处理次序。 d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

信息检索题目(含答案)

2013年(秋)《信息检索》练习 单选题(每题1分,共45题,45分) 1.计算机中使用的0与1的二进制代码是(C) A.自然信息 B.生物信息 C.机器信息 D.人类信息 2.以下(B)不是信息的基本要素。 A.载体 B.数据库 C.信源 D.信宿 3.国际标准书号中地区号为7,代表其是(B)出版的图书。 A.美国 B.中国大陆 C.俄语系国家 D.法语系 4.以下(D)不是信息的特征。 A.共享性 B.价值型 C.时效性 D.不可扩充性 5.(A)使用的是http协议。 A.WWW网络资源 B.FTP信息资源 C.TELNET信息资源 D.用户服务组资源 6.(B)使用的是ftp协议。 A.WWW网络资源 B.FTP信息资源 C.TELNET信息资源 D.用户服务组资源 7.分类法用(A)作为文献容标识和检索标识。 A.分类号 B.词语 C.阿拉伯数字 D.英文字母

8.主题法用(A)做描述文献主题的标识和检索标识。 正确答案:B A.分类号 B.词语 C.阿拉伯数字 D.英文字母 9.关键词语言属于(B) 正确答案:A A.自然语言 B.标题词语言 C.叙词语言 D.分类语言 10.以下族性检索功能最强的是(A) A.分类途径 B.文献名途径 C.著者途径 D.主题途径 11.(D)是从参考文献着手来查找文献的方法。 A.顺查法 B.倒查法 C.抽查法 D.追溯法 12.一个截词符代表多个字符指的是(D) 正确答案:C A.后截词 B.中截词 C.无限截词 D.有限截词 13.在布尔逻辑检索技术中,用(B)表示在检索结果中只需包含A或者B即可。正确答案:D A. A not B B. A and B C. A - B D. A or B 14.(B)之前,必须输入一个空格。 正确答案:C A.与运算 B.或运算

信息检索考试题汇总(附答案)

4.国际标准书号的英文简称ISBN,新版国际标准书号2007年正一、单项选择题(从下列各题四个备选答案中选出一个正确答案,式实施,国际标准书号由10位升至13位。(√)并将其代号写在答题纸相应位置处。每题2分,共30分) 5.检索效果的评 价指标主要有查全率和漏检率。(×) 1._C_是题录型检索工具 1.NSTL是(国家科技图 书文献中心)的简称。 A.CABIB.中国学术期刊文摘 C.全国报刊索引(自然版)D.经济纵2.(信息检索系统)是指由一定的设备和信息集合构成,具有一横定存储、检索与传送 技术设备,提供一定的存贮与检索方法及检 2.浏览超星数字图书馆,应首先安装 __D_____. 索服务功能的工作系统。体系分类表通常由(类目表、标记符号、说明和注释、类目索 3.世界上第一大联机检索系统是_A_。引)4个部分组成。 A.DIALOG系统B.OBRIT系统C.OCLC系统D.STN系统 4.正式出版的中文期刊在检索工具和数据库中一般 着录有国际 4.利用baidu搜索信息时,要将检索范围限制在网页标题中,应标准刊号(ISSN)和国内统一刊号(CN)。该使用的语法是___B_______。 5. A.site: B.intitle: C.inurl: https://www.360docs.net/doc/1115702331.html,: (JournalofAnalyticalChemistry)。 5.国际农 业和生物科学中心英文名称的简称为_A。 6.CASHL是指(中国高校人文社会科学文献中心),其英文全称是ChinaAcademicSocialSciencesandHumanitiesLibrary,是全 6.信息 检索根据检索对象不同,一般分为___C___________。国性的、唯一的人文社科外文期刊 收藏和服务中心。2002年开始 A.二次检索、高级检索 B.分类检索、主题检索规划建设,2004年3月15日正式启动 C.数据检索、事实检索、文献检索D.计算机检索、手工检索7.电子期刊,指以(数字或称电子)形式出版发行的期刊,英文7.国际上评价期刊最有 影响力的一个指标是___A_____。为(electronic A.影响因子B.读者统计数据C.引文量D.价格 Journal),简称e-journal. 8.二次检索指的是:___C__________。 8.国家知识 基础设施(NationalKnowledgeInfrastructure,NKI)A.第二次检索B.检索了一次之

最新文献检索期末试卷(学生)

《文献检索》期末试卷 姓名学号专业 本试题一共5道大题,共5页,满分100分。 阅卷人题号一二三四五合计 核分人题分30 30 20 10 10 100 总分得分 一、单项选择题(请将正确答案的序号填在括号内,每题1.5分,共30分) 1. 文献是记录有知识的() A 载体 B 纸张 C 光盘 D 磁盘 2. 下列哪种文献属于一次文献( ) A 期刊论文 B 百科全书 C 综述 D 文摘 3. 下列哪种文献属于二次文献( ) A 专利文献 B 学位论文 C 会议文献 D 目录 4. 下列哪种文献属于三次文献( ) A 标准文献 B 学位论文 C 综述 D 文摘 5. 下列选项中属于连续出版物类型的选项有() A 图书 B 学位论文 C 科技期刊 D 会议文献 6. 下列选项中属于特种文献类型的有() A 报纸 B 图书 C 科技期刊 D 标准文献 7. 纸质信息源的载体是() A 光盘 B 缩微平片 C 感光材料 D 纸张 8. 以刊载新闻和评论为主的文献是() A 图书 B 报纸 C 期刊 D 会议文献 9. 使用分类语言对信息进行描述和标引,主要是可以把()的信息集中在一起。 A 同一作者 B 同一学科 C 同一主题 D A+B+C 10.《中国图书馆分类法》(简称《中图法》)将图书分成( ) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 11.《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在()

类目下查找。 A S类目 B Q类目 C T 类目 D R类目 12. 利用文献末尾所附参考文献进行检索的方法是() A 倒查法 B 顺查法 C 引文追溯法 D 抽查法 13. 至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为() A 数据库 B 记录 C 字段 D 文档 14. 广义的信息检索包含两个过程() A 检索与利用 B 存储与检索 C 存储与利用 D 检索与报道 15. 狭义的专利文献是指() A 专利公报 B 专利目录 C 专利说明书 D 专利索引 16. 中国国家标准的代码是() A G B B CB C ZG D CG 17. 我校图书馆所购买的下列数据库中可以检索期刊论文的是() A 万方数据库资源系统 B 超星数字图书馆 C 书生之家数字图书馆 D 方正Apabi数字图书馆 18. 期刊论文记录中的“文献出处”字段是指:() A 论文的作者 B 论文作者的工作单位 C 刊载论文的期刊名称及年卷期、起止页码 D 收录论文的数据库 19. 以下四种信息检索语言中,不受《词表》控制的是() A 标题词语言 B 元词语言 C 叙词语言 D 关键词语言 20. 以下检索出文献最少的检索式是() A a and b B a and b or c C a and b and c D (a or b) and c

(完整版)文献信息检索试题及答案

文献信息检索 一、填空题 1、文献的级次分为零次文献、一次文献、二次文献、三次文献。 2、按内容可将计算机检索系统的数据库类型分为:文献书目型数据库、事实型数据库、数值型数据库和全文型数据库。 4、我国标准可分为国家标准、部标准和企业标准三大类。 5、在实际检索中,文献的检索方法主要有:直查法、追溯法、工具法和综合法。 6、信息检索常用的方法有:引文追溯法、工具法和循环法。 7. 构成文献的三要素是知识、载体和记录。 8. 标准文献的主体是标准。 9. 期刊论文的文献出处包括期刊名称、年卷期和起止页码。 10. 所需信息被检出程度的信息量指标为查全率。 二、选择题 1. 文献是记录有知识的( A ) A 载体 B 纸张 C 光盘 D 磁盘 2. 下列哪种文献属于一次文献( A ) A 期刊论文 B 百科全书 C 综述 D 文摘 3. 下列哪种文献属于二次文献( D ) A 专利文献 B 学位论文 C 会议文献 D 目录 4. 下列哪种文献属于三次文献( C ) A 标准文献 B 学位论文 C 综述 D 文摘 5. 下列选项中属于连续出版物类型的选项有( C ) A 图书 B 学位论文 C 科技期刊 D 会议文献 6. 下列选项中属于特种文献类型的有( D ) A 报纸 B 图书 C 科技期刊 D 标准文献 7. 纸质信息源的载体是( D ) A 光盘 B 缩微平片 C 感光材料 D 纸张

8. 以刊载新闻和评论为主的文献是( B ) A 图书 B 报纸 C 期刊 D 会议文献 9. 使用分类语言对信息进行描述和标引,主要是可以把( B )的信息集中在一起。 A 同一作者 B 同一学科 C 同一主题 D A+B+C 10.《中国图书馆分类法》(简称《中图法》)将图书分成( A ) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 11.《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。 A S类目 B Q类目 C T 类目 D R类目 12. 利用文献末尾所附参考文献进行检索的 方法是( C ) A 倒查法 B 顺查法 C 引文追溯法 D 抽查法 13. 至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为( A ) A 数据库 B 记录 C 字段 D 文档 14. 广义的信息检索包含两个过程( B ) A 检索与利用 B 存储与检索 C 存储与利用 D 检索与报道 15. 狭义的专利文献是指( C ) A 专利公报 B 专利目录 C 专利说明书 D 专利索引 三、判断题 1. 1948年,美国数学家、信息论的创始人维纳在题为《通讯的数学理论》的论文中指出:“信息是用来消除随机不定性的东西”。 ( × ) 2. 从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。(×)----从文献检索的角度来看,一次文献是检索的对象,二次文献是用于检索的主要手段和工具。 3. 《中国图书馆分类法》是按知识门类的学科体系的逻辑次序进行分类。(√)

武汉大学《信息检索》试卷及答案(两套)

三.选择填空(4 x 5分=20分)1.C,d,g,I,j 2.a,b,e,g,h3.c,d,e,g, h4.c,d,f,g此题为多项选择题,选错者不倒扣分,但所选答案不得多于5个。 1.下列中不能用于查找期刊论文引用信息的有: a. SSCI b. CSSCI c. Journal Citation Report d. Ulrich’s International Directory of Periodicals e. SCI f. A&HCI g. ProQuest Digital Dissertations h. Web of Knowledge i.VIP Chinese Scientific Journal Database j.Chinese Enterprises and Companies Database 2.检索图书馆学、信息管理学的期刊论文,可用的检索工具有: a. LISA b. ISA c. BA d. CA e. Web of Knowledge f. Ei g. SSCI h. SCI i. ProQuest Digital Dissertations 3.下列中可用于查找机构信息的有: a. ProQuest Digital Dissertations b. Ulrich’s International Directory of Periodicals c.Chinese Enterprises and Companies Database d. Foundation Dire ctory e. Peterson’s Gradline f. Who is Who g. World of Learning h. Encyclopedia of Associations 4.下列中可用于查找期刊论文信息的有: a. ProQuest Digital Dissertations b. Ulrich’s International Directory of Periodicals c. ABI/INFORM d. Elsevier e. Journal Citation Report f. Chinese Academic Journal Fulltext Database g. OCLC Electronic Collections Online 武汉大学信息管理学院2008-2009学年度第二学期 《信息检索》考试试卷(A)答案 一、名词解释(5x4=20分) 1.信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.引文索引是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。 3.China Academic Library and Information System中国高等教育文献保障系统。 4.邻近检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。 5.搜索引擎(Search Engine)是一种Web 上应用的软件系统,它以一定的策略在Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。用户可以通过主题浏览和关键词检索的方式搜索所需信息。 二、简答(5x6=30分) 1.电子图书有哪些特点? 存储空间大(磁介质存储密度高、容量大,一张光盘甚至可以存上百部中外名著)、节省资源(不需消耗纸张等物质资源)、使用方便(借助于专门的软件便可使用,可以便捷地编辑和查找特定内容)、传播过程中的无独占性和无损坏性(可以同时供多人使

信息检索导论-王斌-第三次课后作业(13-21)

信息检索导论第三次课后作业 1、习题13-2 答:(i)贝努利模型:三个文档具有相同的模型表示 (ii)多项式模型:文档1和文档2相同,文档3与它们都不同。文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。 2、习题13-5

3、习题14-6 在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?

4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)? 答:一个数据集里支持向量的最小数目是2个。因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。请问这两个条件是否等价? 答:这两个停止条件是等价的。当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么? b. 当使用HAC 算法时,预期的结果是否仍然一样? 答:a.预期的结果:文档根据语言的大致分成两类。 b.预期的结果不一样。HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。 7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然,该术语表只用于帮助理解,对检索系统来说是不可见的。 答:(1)词项-文档矩阵: d1 d2 d3 d4 d5 d6 hello 1 0 0 0 0 1

信息检索期末考试题复习资料和题

学号: 姓名: 2012----2013学年第二学期信息检索与利用考查上机试卷 (要求检索结果全部存放在Word文档里,Word文档命名为: 学号+姓名。文档的第一行写上:学号、姓名。) 一、搜索引擎检索:将检索结果存到Word文档中。(30分) 1、文献信息源按照内容的压缩程度,可分为___________ 、__________ 2、霍金曾三次来到中国,时间分别是_____________ 、_____________ 3、元搜索引擎的定义_____________________________________________ ,并列举出6个中文元搜索引擎:_________________________ 、 4、三国时期刘备生于公元161 ______________ 年,死于—公元223 ___________ 年,字玄德_________ , 涿郡涿县(今河北涿州) ________________ 人。 5、信息检索系统由输入系统,存储系统,用户界面,索引器,检索器。 _____________ 、_________ 、_________ 、_________ 和_________ 成。 6、苏州道前街”一名的来历是— .是_由原道前街、府前街、卫前街合并而成 ______ , 五卅路”曾用名王废基_______ ,位于苏州市古城区 ____________ _____________ 。 7、室内空气中臭氧卫生标准_____________________________________ 。

学号: 姓名: &计算机信息检索大体经历了___________________ : _________________ 、

文献检索期末复习题

1. 请解释信息、知识、文献的概念,并简述三者之间的关系 信息是客观事物属性和运动状态的外在表现。知识是人们对客观事物存在和运动规律的认识。文献是记录知识的一切载体。 信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储传递知识和信息的载体。信息大于知识,信息可分为正确信息和虚假信息、有用信息和无用信息,而知识是在实践中获取并经过实践检验的正确、有用的信息。信息是起源,是基础;知识是系统化了的信息。在信息时代,源于众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。 2. 在数据库检索中,当检出的文献数量较少时,分析其可能原因,以及采用何种对应措施,才能增大文献信息的检出量?(至少列举5种情况) 原因:检索词拼写错误;遗漏重要同义词或者隐含概念;位置算符和字段算符使用过多;没有使用截词算符;使用过多的逻辑“与”,过于严格。 措施:扩大检索范围,增加文献信息的检出量。(1)减少“与”算符,以OR加入相关检索词(2)在词干相同的单词后使用截词符(?)(3)修正错误的检索词(4)补充足够的同义词(5)去除已有的字段和位置算符限制 3. 试举例说明链入网页、链出网页和锚文本。 在Page1中建立一个指向Page2的链接,需要在Page1的HTML代码中加入“点击打开网页Page2”,用户在Page1中打开这个链接,就可以打开网页Page2。Page1是Page2的链入网页,Page2是Page1的链出网页,而在Page1中的蓝色超文本就是锚文本。 4.信息检索和文献检索是不同的两个概念。区别及联系。 信息检索的实质是将用户的检索提问标识和检索系统中的信息特征标识进行比对,匹配,两者一致或者信息特征标识包含检索提问标识,则具有该标识的信息就从检索系统中输出,输出的信息就是检索命中的信息。 区别:信息检索主要是通过文献检索实现的,文献检索是信息检索一个重要的组成部分。联系:文献是一切情报知识信息的载体,所以情报知识信息不可能超越文献这一载体而存在。因此,信息检索一般也不可能超越作为信息载体的文献。 5.IP地址和域名地址 Internet是基于TCP/IP协议的网络。网络中的每一个节点都必须有一个唯一的地址,用来保障通信的准确无误。它就是网络位置的唯一标识,即IP地址。IP地址一般用十进制数字表

《信息检索导论》课后习题答案

《信息组织与检索》作业答案 第一章布尔检索 习题1-2 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; b. 画出该文档集的倒排索引(参考图1-3中的例子)。 Term-Documentmatrix: 1234 approach0010 breakthrough1000 drug1100 for1011 hopes0001 new0111 of0010 patients0001 schizophrenia1111 treatment0010 Inverted Index: approach -> 3 breakthrough ->1 drug ->1->2 for ->1->3->4 hopes ->4 new ->2->3->4 of ->3 patients ->4 schizophrenia ->1->2->3->4 treatment >3 注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便

于查找。这里我们暂不考虑词的正规化处理(如hopes->hope)。 补充习题1 写出AND查询的伪代码 ●面向过程风格的伪代码: 给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。 这里应用了“化归”思想(将新问题转化归为旧问题来解决)。这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。 While p1 != null AND p2 != null If p1->docId==p2->docId //对两(剩余)列表的首元素进行比较 insert(answer, p1); p1=p1->next;//构造新的剩余列表,迭代执行 p2=p2->next;// Else if p1->docId < p2->docId p1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表 Else p2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表 End ●面向对象风格的伪代码: 注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。 While list1.currentItem() != null AND list2.currentItem() != null If list1.currentItem().getDocId() == list2.currentItem().getDocId() answer.insert(list1.currentItem()); list1.moveToNext(); list2.moveToNext(); Else if list1.currentItem().getDocId() < list2.currentItem().getDocId() list1.moveToNext(); Else list2.moveToNext(); End

文献检索试题和答案

文献检索课习题卷答案 文传系新闻2班 谢舜珠一、不定项选择题(共50分,每题1分,少选多选均不给分) 1.信息是“用来消除不确定性的东西”,是那个科学家提出来的(D.申农)2.现代社会中,人们把( B.信息、物质、能量)称为构成世界的三大要素3.以下属于一次信息资源的是:( B.学位论文) 4. 属于一次信息资源的有(A 会议记录 B 专著 C 专利说明书 D 研究报告) 5. 关于文献,下列说法错误的是(CD )。 A 文献记录的是显性知识 B 检索工具书都属于二次文献 C 文献可以没有载体 D 文献记录的是隐性知识 6. 关于文献,下列说法正确的是:( A 私人笔记属于零次文献 B 学位论文属于一次文献C 百科全书属于三次文献) 7. 关于信息资源,下列说法错误的是( A )。 A. 信息资源同时只能被一个使用者所利用 B. 信息资源必须依赖一定的载体才能体现出来 C. 从某种意义上讲,信息资源的价值取决于信息的时效性 D. 信息资源的扩散速度与传递技术的发展成正比 8.推广优秀职员的营销经验使公司业绩大提高,职员经验交流说明了信息具有(C.共享性)

9.关于信息的特征,下列说法正确的是(D.信息需要依附于一定的载体形态)10.下列叙述中,其中( D )是错误的。 A. 信息可以被多个信息接收者接收并且多次使用 B. 信息具有时效性特征 C. 同一个信息可以依附于不同的载体 D. 获取了一个信息后,它的价值永远存在 11.信息素养的核心是( C.信息能力) 12.关于检索语言,下列说法正确的是(C 中国图书馆图书分类法属于体系分类语言) 13.图书的外部特征有( A、著者B、价格C、书名D、出版社) 14.以下检索途径,哪些是反映信息外部特征的(A 题名途径 B 著者途径 C 代码途径) 15.《中国图书馆图书分类法》(简称《中图法》)将图书分成(A. 5大部类,22个基本大类) 16.按照中国图书分类法,下列分类号排序正确的是(C F123、F123.1、F13 )17.长篇小说《射雕英雄传》的分类号为(A I247.5) 18.根据《中图法》的分类标准,鲁迅《朝花夕拾》的分类号是(B. I210.4 )19.巴金长篇小说《家》的分类号为( A I247.5 ) 20.利用文献后所附参考文献进行检索的方法叫(A.追溯法)。 21.利用选定的检索工具由近及远地逐年查找,直到查到所需文献为止的检索方法是( B. 倒查法)

相关文档
最新文档