信息检索复习题(综合最终)
(完整版)信息检索期末复习题及答案

《信息检索》期末复习题及答案(仅供参考)一、判断题1.综述和百科全书属于二次文献。
(× )2.从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。
(× )3.题录、目录属于一次文献;期刊论文属于二次文献。
(× )4.主题词规范化的目的是扩大检索范围。
(√)5.在众多的信息源中,期刊是最重要的信息源。
(√ )6.核心期刊是指经常使用的期刊。
(× )7.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后者是未经词表规范的自由词。
(×)8.《中国图书分类法》(简称《中图法》)是由分类号(代码)和类名来揭示信息的主题概念。
(×)9.题录型的检索工具,其著录项目包括题目、作者、文献出处、文摘。
()10.一项发明创造要获得专利权必须具备新颖性、创造性和实用性。
()二、选择题1、广义的信息检索包含两个过程( B )A、检索与利用B、存储与检索C、存储与利用D、检索与报道2、文献是记录有知识的()。
A、载体B、纸张C、光盘D、磁盘3、下列哪种文献属于一次文献( A )。
A、期刊论文B、百科全书C、综述D、文摘4、下列哪种文献属于二次文献( D )。
A、专利文献B、学位论文C、会议文献D、目录5、下列哪种文献属于三次文献( C )。
A、标准文献B、学位论文C、综述D、文摘6、下列选项中属于连续出版物类型的选项有(C )。
A、人民日报B、学位论文C、科技期刊D、会议文献7、下列选项中属于特种文献类型的有( D )。
A、学位论文B、图书C、科技期刊D、标准文献8、纸质信息源的载体是()A、光盘B、缩微平片C、感光材料D、纸张9、《中国图书分类法》(简称《中图法》)将图书分成( A )A、5大部分22个大类B、5大部分26个大类C、6大部分22个大类D、6大部分26个大类10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。
信息检索复习题--附答案-绝对正确

《信息检索》复习题--附答案-绝对正确!!(总9页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--《信息检索》课理论考试复习题一、选择题:A1、从对文献的生产加工与组织层次来看,文献可以分成一次文献、二次文献和三次文献。
一次文献主要有(A )A、专著、报纸、期刊B、书目、索引、文摘C、百科全书、年鉴、手册2、《中图法》共分为五个基本部类,( B )个大类。
A、二十五B、二十二C、二十八3、按照《中图法》的分类原则,文学类和哲学、宗教类分别用汉语拼音字母( C )表示。
A、G、HB、E、DC、I、B4、根据主题词表所规定的以反映文献内容的主题词为标志,从主题的角度检索文献资料的途径是( C)A、著者途径B、文献名途径C、主题途径5、著录一批相关的图书或报刊文献的基本特征,按照一定次序编排而成的揭示和报道文献的工具书是( B )A、文摘B、书目C、索引6、按照文献的知识内容及所属学科性质而分类和检索文献信息的途径是( A )A、分类途径B、主题途径C、著者途径7、信息检索中,以课题起始年代为起点,按时间顺序由远而近逐期查找文献的方法是( C )A、倒查法B、追溯法C、顺查法8、在各种大型电子全文图书系统中,国内影响较大的主要有( B)A、人大复印资料数据库B、超星数字图书馆C、学位论文数据库9、美国《科学引文索引》是最具权威的国际性检索系统之一,简称是(A )A、SCIB、SSCIC、EI10、目前世界上最大的连续动态更新的中国期全文数据库是( B)A、维普中文期刊数据库B、CNKI中国学术期刊数据库C、万方数字化期刊数据库11、集各种类型工具书之大成,被称为“工具书之王”的工具书是( C )A、类书B、年鉴C、百科全书12、汇集某一学科或多学科的文献信息资料,按照特定的体例和排检方法编排,专供人们查阅、征引或解决疑难问题的一种专门文献是( A )A、工具书B、标准文献C、专利文献13、联机检索分为( B )联机检索和检索结果与反馈3个阶段。
信息检索复习题

信息检索复习题信息检索复习题信息检索是一门研究如何有效地从大量信息中找到所需信息的学科。
在现代社会,信息爆炸的时代,我们每天都要面对大量的信息,如何高效地检索到我们需要的信息成为了一个重要的技能。
下面是一些关于信息检索的复习题,希望能够帮助大家回顾和巩固相关知识。
一、选择题1. 下面哪个不属于信息检索的基本环节?A. 信息需求分析B. 信息获取C. 信息存储D. 信息销毁2. 在信息检索中,下面哪个不是常见的信息检索模型?A. 布尔模型B. 向量空间模型C. PageRank模型D. 概率模型3. 下面哪个不是信息检索中常见的评价指标?A. 准确率B. 召回率C. F1值D. 置信度4. 在信息检索中,下面哪个不是常见的查询扩展方法?A. 同义词扩展B. 相关词扩展C. 反义词扩展D. 词干扩展5. 下面哪个不是信息检索中常见的搜索引擎?A. 谷歌B. 百度C. 必应D. 微信二、填空题1. 信息检索的目标是根据用户的信息需求,从大量的____________中找出与之相关的信息。
2. 在布尔模型中,使用____________运算符来表示查询中的关键词之间的逻辑关系。
3. 在向量空间模型中,使用____________来表示文档和查询之间的相似度。
4. 在信息检索中,____________是指检索到的与用户信息需求相关的文档。
5. 在信息检索中,____________是指用户实际需要的与信息需求相关的文档。
三、简答题1. 请简要介绍信息检索的基本过程。
信息检索的基本过程包括信息需求分析、信息获取、信息处理和信息呈现。
首先,需要对用户的信息需求进行分析,明确需要检索的内容和目标。
然后,通过各种途径获取相关的信息,如使用搜索引擎、访问数据库等。
获取到信息后,需要对信息进行处理,包括对文本进行分词、索引构建等。
最后,将处理后的信息呈现给用户,如搜索结果列表、文本摘要等。
2. 请简要介绍布尔模型和向量空间模型。
《信息检索》总复习题库及答案

2011-2012经济学院《文献检索与利用》总复习题库备注:红色为不确定答案,紫色是为了个人强化记忆。
单选题题库1.下列属于布尔逻辑算符的是(D )。
A、与B、或C、非D、以上都是2、信息素养的核心是(C ).A、信息意识;B、信息知识;C、信息能力;D、信息道德3、20世纪70年代,联合国教科文组织提出:人类要向着( B )发展.A、终身学习;B、学习型社会;C、创新发展;D、信息素质4.参考文献的标准著录格式是( A )。
A、著者篇名来源出处;B、篇名著者来源出处5.请标出文献:马品仲. 大型天文望远镜研究. 中国的空间科学技术,1993,13(5)P6-14,ISSN1000-758X 属于哪种文献类型( C )。
A、图书;B、科技报告;C、期刊;D、报纸6.常用的检索系统有( D )。
A、目录检索系统B、文摘检索系统C、全文检索系统D、以上都是7、哪一种布尔逻辑运算符用于交叉概念或限定关系的组配?( A )。
A.逻辑与()B.逻辑或(OR)C.逻辑非(NOT)D.逻辑与和逻辑非8、根据国家相关标准,文献的定义是指“记录有关( C )的一切载体。
”A.情报B.信息. C.知识D.数据9、( D )是指通过文献信息资料的主题内容进行检索的途径。
A.题名检索途径B.作者检索途径C.分类检索途径D.主题检索途径10、搜索含有“data bank”的PDF文件,正确的检索式为:( A )A."data bank" filetype:pdf B.data and bank and pdf11、从文献的( B )角度区分,可将文献分为印刷型、电子型文献。
A.内容公开次数B.载体类型. C.出版类型D.公开程度12、按照出版时间的先后,应将各个级别的文献排列成( C )A.三次文献、二次文献、一次文献B.一次文献、三次文献、二次文献C.一次文献、二次文献、三次文献D.二次文献、三次文献、一次文献13、利用文献后面所附的参考文献进行检索的方法称为( A )。
信息检索复习题

信息检索复习题第一部分各章思考题第一章思考题1.信息、知识、文献的概念及相互关系是什么?2.信息环境问题主要体现在哪些方面?3.信息素质的内涵包括哪些内容?4.按文献的载体形式、出版形式可分别将文献分为哪几种类型?5.按文献的加工程度可将文献分为哪几种类型?它们之间的关系是什么?第二章思考题1.文献的外部特征和内容特征分别有哪些?2.检索方法及各自的优缺点有哪些?3.常用的检索技术有哪些?4.简述布尔逻辑算符AND、OR和NOT在编制检索提问式中的作用。
5.请为检索课题“航空或航天发动机的设计和制造”编制检索式。
6.在一个具有1000篇文献的检索系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。
经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率。
第三章思考题1. 你是如何认识数字图书馆时代的馆藏资源的?2. 请做排序:TP3/2;I247.5/123;I247.5/55;TP316/4;O13/5;TM925/44;G252.7/178;TP39/3。
3. 谈谈你对数字图书馆的认识。
4. 请检索你在图书馆近一年的借阅历史。
5. 请检索丁元霖主编的《商品流通企业会计》在中国国家图书馆是否有收藏,收藏在哪些书库?第四章思考题1.试比较分析中国知网(CNKI)、万方数据知识服务平台、维普资讯网中“中文期刊数据库”的异同点。
2.查找你所在单位人员撰写的你所学学科专业的硕士论文或博士论文3篇。
3.用检索实例说明中国知网(CNKI)标准检索、高级检索、专业检索、引文检索、学者检索的检索方法。
4.查找洗衣机方面的中国专利2项。
简述检索方法和步骤。
5.查找参考文献写作规范的国家标准。
第五章思考题1.结合你所学专业列出你所熟悉的外文电子图书数据库,并简述其检索方法。
2.简述你所学专业的常用外文电子期刊数据库有哪几种,并以其中一个数据库说明其检索方法。
3.简述ProQuest学位论文数据库检索方法。
信息检索考试题及答案

信息检索考试题及答案第一篇:信息检索考试题及答案一、名词解释0、文献及其要素“文献”是泛指“有历史价值或参考价值的图书资料。
”要素:1、构成文献内核的信息、知识、数据、事实2、载体信息、知识、数据、事实的物质载体。
3、记录信息、知识、数据、事实的符号系统。
1、专利文献专利文献是实行专利的国家、地区及国际专利组织在批审专利过程中产生的官方文件及出版物,包括专利说明书、专利权利要求书、专利公报、专利分类表、专利检索工具等。
2、三大检索系统三大检索系统是:SCI(《科学引文索引》,英文全称为Science Citation Index)是美国科学情报研究所(Institute for Scientific Information,简称ISI)出版的一部世界著名的期刊文献检索工具,其出版形式包括印刷版期刊和光盘版及联机数据库,现在还发行了互联网上Web版数据库。
EI是美国《工程索引》(TheEngineeringIndex)的简称。
EI创刊于1884年,由美国工程情报公司(EngineeringInformationCo.)出版发行。
EI是工程技术领域内的一部综合性检索工具,报道内容包括:电类、自动控制类、动力、机械、仪表、材料科学、农业、生物工程、数理、医学、化工、食品、计算机、能源、地质、环境等学科。
ISTP是IndextoScientific&TechnicalProceedings的缩写,是美国科学情报研究所的网络数据库WebofScienceProceedings中两个数据库(ISTP和ISSHP)之一。
专门收录世界各种重要的自然科学及技术方面的会议,包括一般性会议、座谈会、研究会、讨论会、发表会等的会议文献,涉及学科基本与SCI相同。
3、二次文献二次文献又称二级次文献,它是文献检索工具,能比较全面、系统地反映某个学科、专业或专题在一定时空范围内的文献线索,是积累、报道和检索文献资料的有效手段.4、受控语言受控语言是一种规范化的人工语言,包括具有较强族性检索功能的分类语言和具有较强特性检索功能的主题语言。
信息检索考试题

信息检索考试题一、选择题1.以下电子数据库中,属于专业数据库的是:A. 北大法宝B. CNKIC. 豆瓣读书D. 百度百科2.信息检索是指:A. 查询图书馆的藏书B. 在互联网上进行搜索C. 分析和组织信息D. 对信息进行筛选和评估3.以下哪个不是信息检索的基本环节?A. 信息需求B. 信息获取C. 信息评估D. 信息广告4.以下哪个是信息检索系统的组成部分?A. 搜索引擎B. 网络浏览器C. 操作系统D. 打印机5.以下哪个是有效关键词的特征?A. 词频高B. 指代范围广C. 相关性强D. 排序靠前二、判断题1.信息检索只能通过关键词搜索,不能使用其他搜索策略。
( )2.在进行信息检索时,使用布尔运算可以更精确地筛选所需信息。
( )3.在信息检索过程中,对信息进行评估可以判断信息的可靠性和适用性。
( )4.特定领域的专业数据库比综合性搜索引擎提供的信息更有针对性。
( )5.通过信息检索,我们可以获取到所有网络上的信息,无论是否公开。
( )三、简答题1.请简要介绍一下常用的信息检索工具和平台。
2.什么是关键词,并举例说明如何选择关键词。
3.请列举几个常用的信息检索策略,并简要介绍其使用方法。
4.什么是信息评估,为什么在信息检索中需要进行信息评估?5.请简要介绍一下信息检索系统的基本原理。
四、论述题信息检索在当今社会中扮演着重要的角色,请你谈谈在哪些领域中信息检索的作用,并说明其作用的重要性。
注意事项:1. 回答问题时可以使用自己的语言表达,但需确保表达准确清晰。
2. 如有需要,可以适当扩充回答内容,但需保持内容的相关性和合理性。
3. 文章排版整洁美观,语句通顺,准确表达,不影响阅读体验。
信息检索考试题汇总(附答案)

一、单项选择题(从下列各题四个备选答案中选出一个正确答案,并将其代号写在答题纸相应位置处。
每题2分,共30分)1. _C_ 是题录型检索工具A. CABI B。
中国学术期刊文摘 C。
全国报刊索引(自然版) D。
经济纵横2。
浏览超星数字图书馆,应首先安装__D_____。
A. Apabi ReaderB. Adobe ReaderC. CAJ ViewerD. SSReader3. 世界上第一大联机检索系统是_A_。
A。
DIALOG系统 B.OBRIT系统 C.OCLC系统 D。
STN 系统4。
利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是___B_______。
A。
site: B.intitle: C. inurl: :5.国际农业和生物科学中心英文名称的简称为_A 。
A.CABI B。
AGRINDEX C. BA D.B of A6.信息检索根据检索对象不同,一般分为___C___________。
A。
二次检索、高级检索 B。
分类检索、主题检索C。
数据检索、事实检索、文献检索 D.计算机检索、手工检索7. 国际上评价期刊最有影响力的一个指标是 ___A_____。
A. 影响因子B.读者统计数据C.引文量 D。
价格8。
二次检索指的是:___C__________。
A.第二次检索 B.检索了一次之后,结果不满意,再检索一次C.在检索结果中运用“与、或、非”进行再限制检索 D.以上都不是9.国际连续出版物编号___A__________.A。
ISSN B。
OCLC C.ISBN D. CSSCI10.下列搜索引擎具有书名号检索功能的有______B________。
A.Google B.百度 C。
中搜 D。
AltaVista11.《中文核心期刊要目总览》2004 版的“农业经济”类核心期刊有_B__ 种。
A.20 B.19 C.17 D.1512.通过追溯检索获得的相关文献与原文献相比在发表时间上__B__。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、信息存储与检索:广义地说是“信息存储与检索”(Information Storage and Retrieval),它是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。
从本质上讲信息检索是一种有目的和组织化的信息存取活动,其中包括了“存”和“取”两个基本环节。
对于“存”来说,主要指面向来自各种渠道的大量或海量信息而进行的高度组织化的存储;对于“取”来说,则要求面向随机出现的各种用户信息需求所进行的高度选择性的查找。
2、文本检索:指以各种自然语言符号系统所表示的信息作为主要检索对象的信息检索活动。
3、数值(据)检索:主要是针对数值型数据的查询而发展起来的一类较有特色的信息检索。
4、音\视频检索:主要针对各种数字化音频与视频信息而进行查询的一类新兴的信息检索操作。
5、电子信息源:指以数字化形式(即二进制码)将文字、图像、声音、动画等存储在光、磁等存储介质(如CD-ROM、磁盘)上,并能通过计算机、通信设备再现出来的信息资源。
6、书目数据库:一种专门存储二次文献信息的数据集合,亦称二次文献数据库,通常收录有关主题领域的各种书目信息,包括文摘、题录、目录等,以向用户提供文献信息,指引用户查找、使用原始文献。
7、文献索引数据库:主要是简要地通报有关领域某一时期发表的文献,供人们查阅与检索。
它提供确切的文献来源信息,即能准确鉴别相对应的原始文献8、全文数据库:一种源数据库,主要存储文献全文或其中的主要部分,可以将包括题名、著者、摘要、关键词、正文、参考文献和著作日期在内的数据全部收入数据库,供用户查询利用。
9、网络信息资源:指以电子数据的形式将文本、图像、声音、动画等多种形式的信息存放在光磁等非印刷型载体的介质中,并通过网络通信、计算机或终端等方式再现出来的电子信息源。
10、集中式系统:是资源有空间上集中配置的系统,单机检索系统是典型的集中式系统,它将软件、数据和主要外部设备集中在一套计算机系统之中。
11、分布式检索系统:是指通过计算机网络把分布在不同地点的计算机硬件、软件、数据库等设备和资源联系在一起,以服务于一个共同的系统目标而是实现的相互通信、相互操作和资源共享的系统。
12、用户界面:是用户与计算机之间的通信媒体或手段,是人机双向信息交换的软件和硬件。
13、搜索引擎:广义的搜索引擎泛指网络(尤其是万维网)上提供信息检索服务的工具或系统。
狭义的搜索引擎主要指利用网络自动搜索软件或人工方式,对万维网信息资源进行采集分析与标引,并将索引信息组织成数据库,以网站形式为网络用户提供检索服务的一类信息服务系统。
14、收录范围:是指检索系统的数据库所覆盖的学科面、所收录的文献类型和数量,它现在已经演化成网站或搜索引擎的规模。
15、响应时间:是指从提问接收到检索结果提供所消耗的时间。
16、用户负担:是指用户在检索过程中花费的精力的总和。
17、输出形式:是检索系统提供的检索结果的形式,可能是书目信息,也可能是全文信息等。
18、相关性(评价核心):主要是指检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。
问答题目:1、什么是信息检索?它有哪些主要类型?所谓“信息检索”,广义地说是“信息存储与检索”,它是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。
从本质上讲信息检索是一种有目的和组织化的信息存取活动,其中包括了“存”和“取”两个基本环节。
对于“存”来说,主要指面向来自各种渠道的大量或海量信息而进行的高度组织化的存储;对于“取”来说,则要求面向随机出现的各种用户信息需求所进行的高度选择性的查找。
狭义理解是主要关注如何从存储的信息集合中快速获取各种需要的信息。
信息检索的主要类型早期分类方法:文献检索、事实检索、数据检索三种类型文献检索是指以文献(包括文摘、题录或全文)为检索对象的一类信息查询活动。
事实检索主要针对从文献中提取出来的各种事实(或知识项)所进行的检索活动。
数据检索主要以经过选择、整理、鉴定的各种数据信息,例如人口、国民生产总值、建筑材料的各种性能参数等作为检索对象的一类检索操作。
新分类方法:文本检索、数值检索以及音/视频检索文本检索:是指以各种自然语言符号系统所表示的信息作为主要检索对象的信息检索活动。
数值检索:主要是针对数值型数据的查询而发展起来的一类较有特色的信息检索。
音/视频检索:是主要针对各种数字化音频与视频信息而进行查询的一类新兴的信息检索操作。
2、试分析阐述信息检索的基本原理。
信息检索的基本原理抽象概括为一句话,即对信息集合与需求集合的匹配与选择。
●信息集合是指有关某一领域的,经采集、加工的信息集合体。
信息集合是一种公共知识结构,有可能弥补某个特定用户的知识结构缺陷,即可以向用户提供所需要的知识或信息,或是获取知识的线索,或是提供某种信息去激活人脑中存储的知识。
●用户的信息需求是在社会实践活动中产生的。
众多用户不同形态的信息需求的汇集,就形成了需求集合的存在,信息需求的产生与满足,是实施信息检索行为的前提与基础,也是实施信息检索行为的目的所在。
●信息检索提供一种“匹配”机制,主要功能在于能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
要求匹配机制至少包裹两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
3、如何鉴别高质量期刊?国内外公认的鉴别方式有二:核心期刊和同行评审期刊。
●核心期刊是指刊载某一学科或专业有关的信息较多,且学术水平较高,能够反映该学科最新成果和前沿动态,受到该专业读者特别关注并成为检索与阅读首选的那些期刊。
核心期刊的确定一般运用文献计量学的方法,通过对期刊和刊载论文的一些计量指标的统计和分析来确定。
●同行评审期刊是国外高水平期刊对来稿评审普遍采取的方式。
具体做法是:作者将文稿寄交编辑部并经初审合格后,为了审查论文的学术质量需将论文稿送交有关专家(即同行)进行审阅。
所选专家来自不同的机构,他们一般对该刊物比较了解,而且有相当高的专业背景和造诣,大多都有投稿的经历或本身就是高产作者。
同行评审的主要目的是对稿件的质量进行控制,确保提交的论文是可读的、可信的和有意义的。
因此,人们普遍认为同行评审期刊的学术水平高于一般期刊。
4、我国出版的专利文献有哪些?目前我国出版的专利文献主要包括专利说明书、专利公报以及专利索引等,既有一次文献,也有二次文献。
它们是:(1)《发明专利公报》、《实用新型专利公报》和《外观设计专利公报》;(2)《发明专利申请公开说明书》、《发明专利说明书》、《实用新型专利说明书》;(3)专利年度索引5、书目数据库的特征。
(1)书目数据库中的数据来源于期刊论文、会议论文、研究报告、专利文献、学位论文、图书、政府出版物等各种不同的一次文献,是经过加工、提炼过的数据,因此其信息密度高,文献报道范围广,数据量大,连续性和积累性强。
(2)书目数据库的数据结构比较简单,记录格式较为固定。
(3)书目数据库的生产者多为学术机构、政府机构、图书馆信息服务机构等非赢利性组织,书目数据库的开放性比较好,使用上没有太多限制。
(4)相对于手工检索工具来说,书目数据库还具有检索途径多、速度快的特点。
但相对于网络信息资源而言,书目数据库的更新周期比较长。
6、全文数据库的特点?与其他数据库或信息源(尤其是书目数据库)相经,全文数据库有许多优点,主要表现在以下几方面:(1)可直接利用。
用户检索全文数据库得到的结果是原始文献的全文信息,而不像书目数据库那样得到的是文摘或书目之类的二次文献,从而省去了通过二次文献去查找一次文献的环节。
因而,全文数据库又称为自足性数据库。
(2)简化数据标引和建库工作。
绝大多数全文数据库采取自然语言的计算机自动标引技术,节省了大量的人力、物力和财力。
此外,全文库的建立还可以省去许多用户并不产心的著录项目,比如出版介质、出版单位、印刷单位、价格等等,这些信息对用户的检索意义不大,但是却在书目数据库的创建中占用了信息加工人员的大量精力。
(3)避免了文献二次加工中人为的差错。
由于全文数据库包括了二次文献和参考文献在内的几乎所有数据,而这些数据均出自原文,从而避免了文献二次加工可能出现的差错。
(4)后处理能力强。
由于全文数据库收录的是全文信息,且数据库的容量都比较大,容易产生检索结果中包含一些不相关的信息,因此,全文检索系统一般会对实施检索所得到的检索结果进行各种优化,诸如检索结果的聚类、图形图像的处理、信息过滤、反馈机制的使用等。
通过增强检索系统的后处理能力,可以进一步满足用衣个性化检索需求。
(5)信息量非常大,对检索技术的要求很高7、一个通用信息检索系统的基本结构如何?它主要有哪些功能模块构成?✓信息检索系统的物理层面以及逻辑层面✓物理构成角度看,计算机化信息检索系统是指由系统的硬件、软件、数据资源等构成的一个实体系统。
分为硬件部分、软件部分以及数据资源。
物理空间的分布情况看,又可分为集中式和分布式检索系统。
✓信息检索系统的逻辑结构主要是指它所包括的功能模块(或子系统)及其相互关系。
一个通用的计算机化信息检索系统,通常应该具有“信息存储”和“信息查询”两大基本功能。
✓功能模块:✓(1)信息采集子系统;✓(2)信息标引处理子系统;✓(3)创建/更新数据库及索引文档子系统;✓(4)用户界面子系统;✓(5)检索匹配子系统;✓(6)知识组织工具子系统。
8、什么是标引深度和标引的专指度?●标引深度又称“网罗度”,是衡量标引详尽性的指标,其含义是标引词对数据库每条记录各方面内容表达和识别的详尽程度。
●专指度用于衡量标引词对信息记录特定内容描述的精细程度。
网罗度越高,越有利于提高检索的查全率;专指度越高,则越有利于提高检索的查准率。
9、什么是自动标引?自动标引处理的基本流程如何?自动标引中自动抽词标引和自动赋词标引自动标引:通过利用计算机对标引特征的出现频率、出现位置、提问频率等进行统计,进而采用一定的加权策略来实现。
在自动标引的处理过程中,标引词的来源和选取方式各有不同,据此可以把自动标引区分为自动抽词标引和自动赋词标引两种类型。
自动抽词标引是指利用计算机直接从文献的题名、文献或正文中抽取关键词来标识文献内容,并自动生成关键词索引文档(或倒排档);而自动赋词标引则是让计算机模仿标引员的赋词标引方式,通过分析文献内容,从词表中选取与文献主题相符或密切相关的词语符号做索引词。
基本流程如下:从“待标引机读文本”开始到“索引文档生成”结束的,描述了自动抽词标引的基本处理过程,而涉及到“概念转换”和“规范词汇”环节,表达了实现自动赋词标引需要额外增加的两项重要处理要求。
见P44图10、何谓文档?在数据库中,文档结构有哪些类型?文档是按一定结构组织的若干逻辑记录构成的信息集合。