数字信息检索与利用复习重点
信息检索与利用复习重点

一、工具书概念:根据一定的查阅需要,系统汇集有关的知识资料,以特定的编排方式和检索方法,为人们迅速提供知识信息或资料线索,专供查阅的图书(文献)。
工具书的特点:①信息密集②资料性强③查考为主④方便检索工具书类型:1 检索工具书又称线索性工具书,主要提供查找文献的线索:书目、索引、文摘。
2 参考工具书主要向读者提供可资参考的知识内容,如数据、史实、结论、定义、人物简介等数据和事实信息:字典、词典、百科全书、年鉴、手册、名录、数表统计资料、表谱、图录等类型。
3 边缘工具书——形式上不是工具书但具有查考检索作用的图书。
丛书、总集、汇编、综述、史志、学科史及要籍等。
工具书的结构:①序、跋②凡例③目录④正文⑤辅助索引⑥附录、参考文献工具书的鉴别与选择原则:1)看其主流,考察内容材料,看内容是否完备、材料新颖可靠,解释引证准确2)客观、正确,有无立场、观点问题3)了解编制体例,编排方式、检索方法、印刷规则、文体。
4)同一种工具书的不同版本。
鉴别与选择的方法1)查考编辑者与出版者2)编纂和出版的年代、审察版本3)查考序跋、凡例和目次4)辨别正文——选条试查、定条比较 5)参阅书评二、机器检索及光盘、联机与网络检索计算机检索:人们在计算机或计算机检索网络终端机上,使用特定检索指令、检索词和检索策略,从计算机检索系统数据库中检索出需要的信息,继而再有终端设备显示或打印的过程。
信息检索工具:指用以报道、存储和查找文献线索的工具。
它是附有检索标识的某一范围文献条目的集合,是二次文献,如书目数据库、搜索引擎、索引、文摘。
检索工具的分类:1)(文献检索工具)提供线索的指示型检索工具(二次文献):书目、馆藏目录;索引;文摘;工具书指南2)(事实与数据检索工具)提供具体信息的参考工具(三次文献):1词典2类书、政书、百科全书3、年鉴4传记资料5表谱、图录6、政府文献7名录、手册8数表、统计集9丛集汇要10地理资料信息检索途径:1)外部特征途径:题名途径,著者途径,序号途径2)文献内容特征途径:分类途径,主题途径,关键词途径,分类主题途径,其他途径。
信息检索与利用考试复习大纲(1)

信息检索与利用考试复习大纲1、信息素养的内涵狭义上的定义认为信息素养是指具有应付和适应信息技术的能力;广义的信息素养是指关于检索和利用各种信息源以解决信息需求的能力,要求具有发现、评价、利用以及交流知识的能力。
具备信息素养的人必须渴望知道某种知识或某个问题的答案,必须能够利用分析技能系统提出问题,必须能够识别研究方法,必须能够利用批判性技能对信息进行评价。
更有学者认为信息素养是人文素质的一部分,是人文社会的信息知识、信息意识、接受教育、环境因素等所形成的一种稳定的、基本的、内在的个性和心理品质。
纵观国内外关于信息素养的定义,我们可以总结出一些共同的内容:①确定自己的信息需求;②明智地选择信息资源;③有效和高效地检索信息;④评价与选择信息;⑤能够利用多种媒介;⑥有效地将信息传递给他人;⑦了解与信息检索、利用相关的法律、道德、伦理问题。
信息素养的培养主要从信息意识,信息道德,信息能力几个方面进行。
2、信息、情报和文献的定义文献:记录有信息或知识的一切载体。
情报:为一定目的而搜集和传递的有特定效用的知识。
信息:是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。
情报的三个基本属性是什么?知识性、传递性、效用性3、构成文献的四要素是什么?知识内容、物质载体、记录符号、记录手段4、按文献的出版形式和内容划分为几种类型?文献信息按出版形式的不同可划分为图书、期刊、报纸和特种文献。
(图书、期刊、报纸、专利信息、标准、学位论文、科技报告、会议信息、政府出版物、产品样本资料、技术档案)其中哪些类型可称为特种文献?特种文献:科技报告、会议文献、专利文献、标准文献、学位论文、政府出版物、产品资料、技术档案5、文献按载体形式可划分为几种类型?(手写型、印刷型、缩微型、声像型、机读型)6、一些文献类型的特征号码ISBN,ISSN,CN,GB2763-1981,GB/T各表示什么?ISBN:国家标准书号的简称;ISSN:国家标准刊号;CN:国内统一刊号简称;GB2763-1981:粮食、蔬菜等食品中六六六、滴滴涕残留量标准;GB/T:我国的国家推荐型标准。
信息检索与利用复习资料

第一讲图书馆的利用一、图书馆基础知识1.图书馆定义(1)图书馆是收集、整理、存储和利用文献信息,并为社会的政治、经济服务的文化教育机构。
(2)图书馆是社会知识、信息与文化的记忆装置、扩散装置。
3.我国图书馆的现状(1)国家图书馆(2)公共图书馆系统(3)科学、专业图书馆系统(4)高校图书馆系统二、高校图书馆的利用1.图书馆的传统服务(1)外借服务(2)阅览服务(3)参考咨询服务(4)馆际互借服务(5)读者教育与培训2.图书馆的网上服务(1)馆藏书目数据库检索服务(2)网上文献信息传递服务(3)网上信息共享服务(4)网络资源信息导航服务三、大学生与图书馆2.大学生要学会利用图书馆(1)了解图书馆藏书结构,掌握图书馆学科分类体系(2)了解和掌握图书馆机读目录的使用和检索方法(3)掌握工具书的使用方法和网络信息检索技能第二讲信息检索基础理论一、什么是信息检索?信息检索就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。
三、什么是信息资源?信息资源是指人类社会经济活动中经过加工处理的、有序化的并大量积累后的有用信息的集合。
(狭义)和它的生产者以及信息技术的集合。
(广义)五、文献信息资源文献信息资源是指以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源。
例如,手稿,书籍,光盘,胶片,磁带等。
七、印刷型文献的分类(名词解释)1.图书图书基本上有两大类:一是供读者阅读的图书;例如,各种专著,教科书,各种文学读物,科普读物,二是供读者查阅的图书(参考工具书)。
例如,各种目录,手册,词典等。
2.期刊期刊是一种定期或不定期的连续性出版物,每期版式基本相同,有固定名称,用卷期、年月、或其他顺序号出版。
作者众多,内容不重复,有多篇文章,内容新颖,出版周期短,报道文章速度快,信息量大。
例如《知音》、《重庆教育学院学报》、《小说月报》、《管理科学》等。
3.报纸报纸是指定期出版的,报道时事新闻为主的出版物。
【云南大学】信息检索期末复习重点

【云南大学】信息检索期末复习重点第一篇:【云南大学】信息检索期末复习重点云南大学信息检索重点第一章一、检索策略定义:在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果密切相关。
二、检全率与检准率1.检全率及其影响:检全率=(检出的相关信息数/信息库中相关信息总数)x100%2.检准率及其影响:检准率=(检出的相关信息数/检出的信息总数)x100% 影响检出文献的检索效果的质量。
三、检索模型1.布尔检索模型(1)定义:布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用户提问,通过对文献表示与提问式的逻辑运算来检索文献。
(2)优点:简单、易理解、易实现、能处理结构化提问(3)缺点:A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。
尤其是对复杂的检索课题,不易套用布尔检索模型。
B.易造成零输出或过量输出。
检索输出完全依赖布尔提问式与系统倒排挡中的文献匹配情况,输出量较难控制。
C.无差别的组配元,不能区分各组配元的重要程度。
D.匹配标准存在某些不合理的地方。
由于匹配标准是有或无,因此,对于文献中表因此的数量没有评判,都一视同仁。
E.检索结果不能按照重要性排序输出。
2.向量检索模型(1)定义:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。
(2)优点:A.采用自动标引技术维文献提供标引词B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。
C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。
D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。
E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。
信息检索与利用复习资料(整理2016.1)

信息检索与利用复习资料(一)、名词解释1、INTERNET(因特网):Internet:因特网。
泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络。
采用TCP/IP协议。
2、SCI: SCI是科学引文索引的英文缩写首字母。
SCI是一个引文数据库,收录全世界出版的数、理、化、农、林、医、生命科学、天文、地理、环境、材料、工程技术等自然科学各学科的核心期刊。
3、报刊:报刊是指报纸和期刊的总称,是属于连续出版物,它具有统一的题名,定期或不定期以连续分册形式出版,有卷期或年月标识,并且计划无限期连续出版。
报纸以刊载新闻和评论为主,期则围绕某一学科和某些学科或某一研究对象,由多篇文献资料编辑而成。
4、标准文献。
广义的标准文献包括标准的原始文件及检索工具书等。
狭义的标准文献仅指带有标准号的标准、规范、规程等技术标准。
5、超文本:超文本是在普通文本的基础上增加了链接功能的一种文本。
用户只要用鼠标点击页面上有特殊颜色或有下划线的文字时,就会出现新的解释或访问更多的信息。
6、分类途径:是指按文献内容的学科分类体系查找文献信息的途径。
一般说来,一种检索工具的编制都须按学科建立自己的分类体系,其收录的文献按分类目录中的排序进行编排,这样的编排的结果可将同一学科的文献集中,便于按学科查找文献。
7、技术档案:指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有保密性和内部使用的特点。
8、检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。
它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。
9、竞争情报:竞争情报是20世纪80年代在国际上迅速发展起来的一种信息业务,是关于竞争环境、竞争对手和竞争策略的情报研究。
信息检索与利用++复习提纲

信息检索与利⽤++复习提纲注:考试时,务必带上2B铅笔、橡⽪擦,签字笔考试题型:填空、简答、单选、多选、判断单选、多选、判断,请在答题卡上作答,第⼀章绪论1、了解信息素养的概念,掌握信息素养的具体内容概念:具有确定、评价和利⽤信息,成为独⽴的终⾝学习者的能⼒内容:信息意识、信息知识、信息能⼒、信息道德2、了解信息、知识、情报和⽂献四个概念;掌握他们之间的关系概念:信息:信息是⽤来消除随机不定性的东西知识:经过思维加⼯的信息情报:⼈们为解决某⼀特定的问题⽽搜索、传递有特定效⽤的知识或信息⽂献:记录有知识的⼀切载体关系:包含关系、转化关系、交叉关系3、⽂献信息资源按物质载体和记录形式的划分类型⼿写型/印刷型/缩微型/声像型/机读型信息资源⽂献信息资源按加⼯深度不同的划分类型零次/⼀次/⼆次/三次⽂献⽂献信息资源按出版形式的⼏种划分类型图书(ISBN)、期刊(ISSN/CN)、报纸、科技报告、学位论⽂、⽂献会议、专利⽂献、标准⽂献(ISO /GB)、政府出版物、产品资料、技术档案图书、期刊的类型及特点图书:分类:阅读性⽤书、参考⼯具书、检索⼯具书特点:内容全⾯系统,基础理论性强,论点成熟可靠。
不⾜之处在于图书撰写、编辑、出版所需要的时间长,传递信息速度慢,内容相对陈旧期刊:分类:学术性/技术性刊物、检索⾏刊物、其他类型刊物特点:信息量⼤,品种多,出版周期短,报道速度快,连续出版,内容新颖,能够及时反映最新研究动态,反映国内外当前的科技⽔平第⼆章检索基础知识1、⼴义信息检索的含义包含信息的存储和检索两个过程。
信息检索是将信息按照⼀定的⽅式组织并存储在数据库中,⽤户根据需要,利⽤检索⼯具按照⼀定的⽅式从数据库中查找所需的信息的过程。
2、按检索对象划分,信息检索的类型及其特点⽂献检索、事实性信息检索、数据型信息检索、声频与视频检索3、信息检索系统及计算机检索系统的构成信息检索系统:检索⽂档、检索设备、系统规则、操作⼈员计算机检索系统:脱机检索系统、光盘检索系统、联机检索系统、⽹络检索系统4、数据库结构字段、记录、⽂档、帮助⽂件不同⽂献类型的主要字段:存取号字段、基本索引字段、辅助索引字段5、信息检索原理(检索语⾔是(标引者和检索者之间的沟通桥梁)信息索引和存储过程、信息的需求分析和储存过程6、检索语⾔的类型按标识的组配⽅式:先组式语⾔、后组式语⾔按表达信息的特征:描述外部特征语⾔、描述内容特征语⾔按规范化程度:⾃然语⾔、受控语⾔7、主题检索语⾔按照选词⽅式不同,可分为哪3种。
信息检索与利用期末复习材料

信息检索与利用期末复习材料第一章1、信息素养的具体内容:信息意思、信息知识、信息能力、信息道德。
2、搜商:人们借助工具获取新知识的能力。
3、信息:信息是事物运动状态和运动方向的表达。
信息不是事物本身,而是由事物发出的消息、指令、数据等所包含的内容。
知识就是经过思维加工(总结、处理、加工)了的信息。
4、知识:而搜索、传递有特定效用的知识或信息。
解决某一特定的问题5、情报:情报是人们为知识性、传递性、效用性。
6、情报的基本属性:、文献:文献是人们记录、积累、传播和继承知识的最有效手段。
凡是记录有信息或知识7 的一切载体均为文献。
包含关系、转化关系、交叉关系。
、信息、知识、情报与文献关系:8人脑加工记录载体文献(范围最广)信息知识情报口头、实物文献的划分类型9、)按文献的物质载体和记录方式划分:(1机读型信息资源。
声像型信息资源、手写型信息资源、印刷型信息资源、微缩型信息资源、)按文献的出版形式和内容划分:(2 )、特种文献(灰色文献){科技报告(R)、M 图书()、期刊(J)、报纸(N)、标准文献(S)、政府出版物、学位论文(D)、会议文献(C)、专利文献(P产品资料、技术档案}。
3)按加工程度划分:(零次文献(最原始文献):私人笔记、私人信件、手稿、实验记录、工程图纸、论文草稿、设计草稿。
个人专著、大多数阅读性图书、期刊论文、科技报告、一次文献(原始文献):专利文献、会议文献、学位论文、技术档案。
二次文献(检索性文献、检索工具):目录、题录、索引、文摘、机读型书目数据库。
三级文献(参考性文献):综述、专题述评、学科年度总结、进展报告、数据手册、百科全书、年鉴、名录、图录、表谱、指南。
零次文献、一次文献、二次文献和三次文献之间的关系:10、零次文献是最原始的信息资源,多数没有进入出版、发行和流通渠道,不易收集,但它是生成一次文献信息资源的主要素材;一次文献是最主要的信息资源,是生成二次文献和三次文献的基础,是信息检索和利用的主要对象;二次文献是一次文献的集中提炼和有序化,是信息检索的主要工具;三次文献是把分散的零次文献、一次文献、二次文献,按专题或知识的门类进行综合分析、重新组合、加工而成的文献,是人们查考数据信息和事实信息的主要信息资源。
数字信息检索与利用复习资料.docx

信息检索的概念、类型?'义前Ji息矗索是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。
狭义的信息检索是指从存储的信息集合中快速获取各才中需要的信息。
信息检索也称:石佐存储与检索。
存储是基础,检索是目的类型:1、按照检索对象的不同,早期信息检索分为:1>文献检索:以文献为检索对象的一种相关性检索。
2>事实检索:检索结果是事实结论的信息检索(确定性检索)。
3>数据检索:检索结果是数据的信息检索(确定性检索)。
2、新的三分方法:文本检索、数值检索、声频与视频检索。
2、阐述信息检索的基本原理?是对信息集合与需求集合的匹配与选择。
通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
3、检索语言的含义及作用?含义:检索语言是应文献信息的加工,存储和检索的共同需要而编制的专门语言, 是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。
简言之,检索语言是用来描述信息源特征和进行检索的人工语言,又叫信息检索标识。
作用:(1)标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;(2)对内容相同及相关的文献信息加以集中或揭示其相关性;(3)使文献信息的存储集中化,系统化,组织化,便于检索者按一定的排列次序进行有序化检索;(4)便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;(5)保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
4、信息检索的方法有哪几种?(具体例子》1、工具法又称常用法,是指直接利用检索系统(工具)检索文献信息的方法。
它又分为顺查法、倒查法和抽查法。
(1)顺查法这是一种依照时间顺序,按照检索课题所涉及的起始年代由远及近、由过去到现在查找信息的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章信息检索概述1. 信息检索的概念。
狭义信息检索是指用户找出有关信息的过程。
广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
2. 信息检索的类型(1)按照检索对象的不同划分早期分为:文献检索、事实检索、数据检索。
当前三分方法:文本检索、音频与视频检索、数值检索。
(2)按检索手段划分:手工检索、机器检索3.简述信息检索的基本原理信息检索的基本原理:对信息集合与需求集合的匹配与选择。
实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。
一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。
二、需求集合:用户的信息需求是在社会实践活动中产生的。
当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。
三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。
5.信息检索领域的主要研究问题有哪些?⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等⑶信息资源及其收集、加工:信息存储、数据库⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。
信息检索的两种研究方式:以计算机为中心和以用户为中心,以计算机为中心的IR 问题是主流。
6.检索语言的含义及作用检索语言:是根据检索需要而创造的一种人工语言,它是存储、查找文献的共同依据,也叫标引语言。
作用:(1)保证不同标引人员表征文献信息的一致性。
(2)使内容相同及相关的文献集中化。
(3)保证检索提问与文献信息标引的一致性。
(4)保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。
7.检索语言的类型(1)是否规范化:受控语言、自然语言(2)包括的专业范围:综合性和专业性(3)描述文献的特征:外表特征、内部特征(4)组配方式:先组式、后组式(5)文献内部特征语言:分类检索语言、主题检索语言分类语言分类法是按信息资料内容的学科知识属性分门别类来系统标示和组织信息资料,并用分类号表达文献主题概念的方法。
分类标引(归类)——依据一定的分类语言对信息资源的内容特征进行分析、判断,赋予分类标识的过程。
主题语言(1)标题语言标题语言是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。
标题语言是主题语言系统中最早出现的一种,标题语言属于先组定组式检索语言类型。
(2)元词语言元词语言是以元词作为主题标识,通过字面组配的方式表达信息资源主题的主题语言。
元词:是指用来标引信息资源主题的、最基本的、字面上不能再分的语词。
(3)叙词语言叙词语言是以从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配方式表达信息资源主题的主题语言。
叙词:经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。
(4)关键词法关键词法是直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过对关键词轮排等方式揭示文献主题的主题语言。
关键词:关键词指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词。
语词组配:(1)字面组配;(2)概念组配8.信息检索的途径有哪几种?是举例说明。
根据文献的外部特征和内部特征,将信息的检索途径分为两大类型。
(1)以文献的外部特征为检索途径①题名途径(利用刊名、书名、篇名对文献进行检索的途径):一般用于查找图书、期刊、单篇文献。
②著者途径(著作者、编者、译者、专利权人、出版机构等):根据已知文献著者姓名查找文献的途径。
③号码途径(通过已知号码查找文献的途径,如标准号、专利号、报告号、索取号等)(2)以文献的内部特征为检索途径①分类途径(文献内容所属的学科体系)②主题途径(文献的主题内容)9、信息检索的方法有哪几种?试举例说明。
⑴常用法:①顺查法:以检索课题的起始年代为起点,按时间顺序由远及近地查找。
如已知某研究成果最初产生的年代,现在需要了解它的全面发展情况,即可从最初年代开始,按时间的先后顺序,一年一年地往近期查找。
用这种方法所查得的文献较为系统全面,基本可反映某学科专业或某课题发展的全貌,能达到一定查全率。
在较长的检索过程中,可不断完善检索策略,得到较高的查准率。
此法的缺点是费时费力,工作量较大。
一般在申请专利的查新调查和新开课题时采用这种方法。
②倒查法:即由近及远,由新到旧的查找法。
此法多用于查找新课题或有新内容的老课题,在基本上获得所需信息时即可终止检索。
此法有时可保证情报的新颖性,但易于漏检而影响查全率。
③抽查法:是针对研究课题发展特点,抓住学科发展迅速发表文献较多的一段时间,逐年进行查找文献的一种方法。
这种方法针对性强,节省时间。
但必须是在熟悉学科发展阶段的基础上才能使用,有一定的局限性。
⑵追溯法:又叫回溯法,是利用已有的文献后面的参考文献由近及远进行追溯查找的方法。
此法的缺点是费时费力,工作量较大。
一般在申请专利的查新调查和新开课题时采用这种方法。
⑶综合法:又称循环法、分段法或者交替法。
是常用法和追溯法的综合运用。
即首先利用检索工具查出一批文献资料,再利用这些文献资料所附的参考文献追溯查找相关文献。
如此交替、循环使用常用法和追溯法,不断扩检,直到满足检索要求为止。
综合法的优点在于:当检索工具缺期、缺卷时,也能连续获得所需年限以内的文献资料。
10.简述信息检索步骤⑴分析研究信息检索课题①了解用户信息需求的目的和意图②分析检索课题的主题要求③时间要求④检索效果要求⑤检索费用及其他要求⑵选择信息检索工具⑶确定信息检索方法⑷掌握获取原文的线索⑸获取原文⑹用户相关反馈第二章信息检索的数学模型1. 什么是信息检索的数学模型?目前它主要由哪些不同的类型?(1)什么是模型?模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述。
面对相同的输入,模型的输出应能够无限地逼近现实世界的输出。
(2)信息检索的实质问题:对于所有文档,根据其与用户查询的相关程度由大到小进行排序(3)信息检索模型:是用来描述文档与用户查询的形式表示以及对它们进行相关性计算的框架和方法适宜的形式化表示?实现信息检索,主要涉及三个关键要素的处理:信息资源集合、用户信息需求、匹配选择。
信息资源集合表示,原始信息一般不能直接进行信息检索,需要从原始信息文档(可能包含文本、图像、视频、音频等数据)中抽取其逻辑视图;用户信息需求表示,用户信息需求是进行查询的依据,系统将据此搜索文档集合;匹配选择,信息检索的匹配过程是一种相似性匹配,查询的结果需按照某种相似性排序算法有序输出。
一般地,一个信息检索系统可以形式化地抽象表示为如下四元组(quadruple)形式,即System = (D, Q , F , R(dj , q))其中,D, Q , F 和R(dj , q)分别表示检索系统的信息资源集合、用户信息需求集合、信息资源与信息需求的匹配处理框架以及(相似性)匹配函数。
3. 用户信息需求有哪些不同的状态?相互之间关系如何?从理论上讲,用户的信息需求有潜在真实需求(Real Information Need,简称RIN)、意识到或感知到的需求(Perception Information Need,简称PIN)、表达出的需求(Request)、提问(Query)等不同的存在状态。
4. 指出信息检索领域的三种经典数学模型。
布尔检索模型、向量空间模型、概率模型5. 布尔模型的基本原理是什么?布尔模型有哪些优缺点?布尔模型在解释信息检索处理过程时,主要遵循以下两条基本规则:系统索引词集合(K)中的每一个索引词在一篇文档中只有两种状态:出现或者不出现。
相应地,每个索引词的权值wij ∈{0,1};用户提问式q由3种布尔运算符“and” 、“or”、“not” 连接索引词来构成。
⑴优点:①简单(simplicity);②容易理解(easy understanding)③简洁的形式化(clean formalism)⑵缺点:①精确匹配(exact matching)策略问题。
非此即彼的二值判断标准严重影响检索系统的性能改善。
②布尔逻辑表达用户需求的能力问题。
对于没有检索经验的用户把信息需求转换成恰当的布尔表达式不容易实现。
③检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小。
④结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要。
6. 向量空间模型的基本原理是什么?向量空间模型有哪些优缺点?文档向量的构造、提问向量的构造、索引词权值( wij )的计算、相似度计算⑴优越性(相对于布尔模型)①向量空间模型在检索处理中所具有的先进技术特征主要表现在:②采用局部匹配策略,使得在算法层面上基于多值相关性的判断处理得以实现;③采用基于统计学方法的词加权处理模型,使检索效果大大得到了改善;④采用对检索结果排序输出的策略,使对检索结果数量的控制与调整具有相当的弹性与自由度。
⑵缺陷与不足①相似度计算量巨大;②标引词的不同位置会代表不同的权重,而不同的关键词长度也会影响权重的大小;③标引词之间的独立性假设与实际不符:实际上,标引词的出现之间是有关系的,不是完全独立的。
如:“王励勤”“乒乓球”的出现不是独立的。
第三章信息检索评价一、信息检索评价的意义1.信息检索系统的评价工作一直是信息检索领域的一项重要研究内容,多年来人们进行了大量的评价试验和多角度的探索与分析。
2.究其原因,主要在于检索评价工作在为研究者验证检索系统效益、比较各种检索技术的优劣、改进现有检索系统、开发新的应用领域等许多方面,都发挥着不可替代的作用。
3.信息检索评价的主要价值在于:(1)提高系统资源分配的合理性;(2)找出系统存在的缺陷及其原因,以便加以改进;(3)比较各种检索技术的优劣;(4)有助于新系统的设计;(5)丰富信息检索理论。
二、信息检索评价的类型1.功能测试与分析——侧重系统软件的功能测试2.检索性能评价——测定检索系统满足用户需求的程度3.检索效益评价——测定检索系统提供的服务或系统本身获得的效益(包括经济效益和社会效益)。