文献检索第三章

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章计算机信息检索

计算机信息检索的发展

计算机检索主要经历了以下四个阶段(1)脱机检索阶段(1954-1964年)早期应用系统,利用单台计算机,以磁带作为存储介质,进行的批量或定题检索。已基本淘汰。脱机检索(Offline Retrieval),即批处理检索,1946年世界上第一台电子计算机问世后,20世纪50年代初就有人开始研究其在信息检索领域的应用。1954年,美国海军武器实验站图书馆在一台电子管计算机上建立了世界上第一个计算机检索系统。(2)联机检索阶段(20世纪60年代-80年代)进入20世纪60年代,计算机检索进入了实用和全面发展阶段。20世纪60年代末,数据通讯网络出现,大容量计算机分时系统和强功能检索软件研制成功,使脱机检索发展到联机检索并迅速得到了推广。20世纪70-80年代,联机检索得到迅速发展,一些联机检索系统开始向公众提供商业性服务,如DIALOG、ESA、ORBIT、BRS等许多世界著名的联机检索系统相继投入商业性运营。

联机检索的优缺点:直接利用国内外大量规范化得专业数据库进行信息检索,迅速地查到相关信息。有较高的查全率和查准率,但联机费用较高,而且需要熟练地检索技能。(3)光盘检索阶段 1983年,出现了一种新的存储器,CD-ROM光盘。光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),具有可随时修改检索策略而具有很高的查全率和查准率等优点,因而至今仍被世界各地广泛应用。(4)网络化检索阶段进入20世纪90年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大联网。网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有网络用户都非常具有挑战性。

计算机信息检索原理计算机信息检索是指人们在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息,然后再由终端设备显示和打印的过程。为实现这种信息检索,必须事先将大量的原始信息加工处理、存贮在各种信息载体上待用,所以计算机信息检索广义上讲包括信息的存贮和检索两个方面。

信息检索则是查询的过程。用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行查找。这一查找的过程实际上是计算机自动比较匹配的过程,当检索标识、检索策略与数据库中的信息的特征标志及其逻辑组配关系相一致时,则属“检索命中”,即找到了符合要求的信息。检索结果可以联机或脱机打印输出。

信息存贮的过程就是将所选中的一次文献进行主题分析、标引和著录,按一定格式输入计算机,构成可供机读数据库记录及文献特征标识,这相当于编制手工检索用的文摘索引等检索工具。

数据库是计算机技术和文献信息检索技术相结合的产物,同时它又反作用于信息检索。它是文献信息检索系统必不可少的组成部分,是计算机信息检索系统的信息源和核心,也是现代信息资源管理的重要工具。所谓数据库,是计算机信息检索的重要组成部分。它是以二进制代码形式在计算机存贮设备上(如磁带、磁盘和光盘等)合理存放的相关数据的信息集合,通常由存贮信息记录及其索引的若干文档组成。

数据库类型根据数据库所含信息内容来分,可将数据库分为以下四种类型的数据库:文献型数据库数值型数据库词典型数据库全文型数据库

文献型数据库又叫书目型数据库,记录文档中主要存入的是原始文献的书目。包括原始文献的篇名、作者、文献出处、文摘、关键词,以及主要用于查询各种文献资料的书目性线索、文摘等。该数据库主要以文献或书目形式记录在存储介质上,其记录实体有期刊论文、图书、博士论文、技术报告及其他出版物。包括机读版的文摘、索引、目录等,它的作用是指引用户查找一次文献,文献出处是不可缺少的内容。用户可从大量文献记录中筛选出有参考价值的文献源,以获取一次文献。目前这类数据库占有很大的比例,其代表性的数据库有《Ei Compendex Plus》(工程索引)、《INSPEC》(科学文摘)和《中文期刊数据库》等

数值型数据库的记录包括各种调查数据或统计数据。它是一种以自然数值形式表示、计算机可读的数据集合,这些数据是从文献中分析、概括、提取出来,或以调研、观测及统计工作中直接获得的数据。数值型数据库主要用于查询各种有关的数字、参数、公式等。如:气象数据、地质资料、化学或物理化合物特性的文献数据、人口统计资料、市场调研数据等。

词典型数据库 (事实型)这类数据库的文献记录主要介绍一些有关公司、团体或名人的情况,供用户查询某一事物发生的时间、地点、过程或简要情况,或诸如化学物质名称、结构、俗称和化学物质登记号之类指南性信息,故又称之为指南型数据库。如:百科全书、手册、地图集、人名录、企事业名录、计算机程序、音乐等。《中国科学技术成果数据库》、《中国企业、公司及产品数据库》等等

全文型数据库这类数据库的文献记录存入了原始信息的正文。通过它可以直接检索出原始信息的全文,从而大大方便了用户,也提高了信息的有效利用。目前大多数的全文型数据库的记录都是图像扫描格式,阅读时需要专门的软件,大多可以通过软件转换成文本格式。目前全文数据库逐渐增加,如《人民日报全文数据库》、《中国学术期刊全文数据库》等。

数据库结构数据库主要由记录、字段、文档三个层次构成。一个数据库一般都有数以万计的信息记录,每条记录都有不同的字段组成,一组相关记录组成一个数据库文档。通常,数据库的文档由顺排文档和倒排文档组成。顺排文档:记录文档。按文摘号(文献记录存取号)顺序由小到大排列的二次文献文档结构,查找时按文献号顺序,检索结果的显示是由大到小排列。倒排文档:按数据库记录的检索标识(主题、著者等)的某种顺序排列起来的文档。

信息检索技术布尔逻辑检索截词检索位置检索限制检索加权检索

布尔逻辑检索 (Boolean Logical)是用布尔逻辑运算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。它是机检系统中最常用的一种检索方法。逻辑算符主要有:And/与、Or/或、Not/非,

逻辑“与”运算符为 And 或 * 。检索词A和检索词B用“与”组配,检索式为:A And B或者 A * B 它表示检出同时含有A、B两个检索词的记录。逻辑与检索能增强检索的专指性,使检索范围缩小。此算符适于连接有限定关系或交叉关系的词。逻辑“或”运算符为 Or 或 + 。检索词A和检索词B用“或”组配,检索式为:A Or B或者 A+B 它表示检出所有含有A 词或者B词的记录。逻辑或检索扩大了检索范围。此算符适于连接有同义关系或相关关系的词。

逻辑“非”运算符为 Not 或 - 。检索词A和检索词B用“非”组配,检索式为:A Not B或者 A - B 它表示检出含有A 词,但同时不含B词的记录。逻辑非和逻辑与运算的作用类似,可以缩小检索范围,增强检索的准确性。

注意事项:大多数计算机检索系统都支持布尔逻辑运算,但表现形式不尽相同,有的用AND、OR、NOT,有的用符号+、-、*来代替,还有的把运算符号直接隐含在菜单中,所以在检索中一定结合系统的实际情况选择。

信息检索技术-截词检索截词检索(Truncation)是指用给定的词干做检索词,查找含有该词干的全部检索词的记录,也称词干检索或字符屏蔽检索。它可以起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间,降低检索费用等作用。对于外文来讲,检索时,若遇到名词的单复数形式,词的不同拼写法,词的前缀或后缀变化时,均可采用此方法。按截断部位可分为右截断、左截断、中间截断、复合截断等;按截断长度分为有限截断和无限截断。1) 右截断:截去某个词的尾部,是词的前方一致比较,也称前方一致检索。例如:输入geolog?(?为截断符号),将会把含有geological、geologic、geologist、geologize、geology等词的记录检索出来。若输入PY=199?,会把90年代的记录全部查出来。

信息检索技术-截词检索

2) 左截断:截去某个词的前部,是词的后方一致比较,也称后方一致检索。例如:输入?magnetic 能够检出含有magnetic、electromagnetic、paramagnetic、thermo-magnetic等词的记录。

(3) 中间截断:截去某个词的中间部分,是词的两边一致比较,也称两边一致检索。例如:输入organi?ation可以检出organization、organisation;输入f??t可查出foot、feet。

(4)复合截断:是指同时采用两种以上的截断方式。例如?chemi?可以检出chemical、chemist、chemistry、electrochemistry、electrochemical、physicochemical、thermochemistry等。

5) 有限截断:是指允许截去有限个字符。例如comput??? ?可检出compute、computer、computers、computing等词,不能检出computable、computation、computerize等词。注意:词干后面连续的数个问号是截断符,表示允许截去字符的个数,最后一个问号是终止符,它与截断符之间要有一个空格,输入时一定要注意。

无限截断:是指允许截去的字符数量不限,也称开放式截断。

上面右截断、左截断所举的例子均属此类型。

信息检索技术-位置检索

位置检索(Proximate)是在检索词之间使用位置算符(也称邻近算符Adjacent Operators),来规定算符两边的检索词出现在记录中的位置,从而获得不仅包含有指定检索词而且这些词在记录中的位置也符合特定要求的记录。

能够提高检索的准确性,当检索的概念要用词组表达,或者要求两个词在记录中位置相邻/相连时,可使用位置算符。

机检系统中常用的位置算符(按限制强度递增顺序排列)如下:(1)(f)算符Field:要求被连接的检索词出现在同一字段中,字段类型和词序均不限。例如 happiness(f)sadness and crying 2)(s)算符Sub-field/Sentence:要求被连接的检索词出现在同一句子(同一子字段)中,词序不限。例如 machine(s)plant(3)(n)算符near:(n)要求被连接的检索词必须紧密

相关文档
最新文档