计算机检索基本知识
合集下载
第三章 计算机检索基础知识

在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
第三章 计算机检索基础知识

1. 2. 3. 4.
5.
在实践中,需要根据课题的具体要求,合理 调节查全率和查准率,保证检索效果相对较优。 通常采用以下方法进行调节: 若要提高查全率,进行扩检,可按如下方法 调整检索: 选全同义词并以“OR”方式与原词连接后加入到 检索式中; 降低检索词的专指度,找出一些检索词的上位词 或相关词; 采用分类号进行检索; 删除某个不甚重要的概念组面,减少“AND”运 算; 取消某些过严的限制符,如字段限制符等。
(4)同一事物名词的单复数、不同词性、英美语的不 同形式 单数 复数 名词 动词 computer computers composition composite 英拼 colour fibre 美拼 color fiber (5)隐含概念扩展 隐含概念是显见主题的更确切的表达。 “一个取代高残杀菌剂的理想品种” 隐含了“高效低毒杀菌剂”或“高效低毒农药”
下位词: 下位概念扩展法:概念分析的树形展开法 如:汽车 卡车 轿车 货车等
所有图书馆用户能够在校外使用天津高校文献信息 中心的电子资源,比如超星电子图书、维普期刊全文数据 库、EBSCO电子期刊等。 IP通远程访问系统已开通 IP通用户登录方法: 首先要确保您使用的网络是非教育网。 WEB方式用户请登录 / 客户端软件用户请登录
1. 2. 3. 4. 5.
提高检索词的专指度,找出一些检索词的下位词或 专指性较强的相关词; 增加概念组面,用“AND”连接一些进一步限定主 题概念的相关检索项; 限制检索词出现的可检字段; 利用文献外表特征限制,如:文献类型、出版年代、 语种、作者等; 用逻辑非“NOT”来排除一些无关的检索项。
截词检索
邻近检索 限制检索 加权检索 检索词的确定
计算机检索基础知识

14
这个阶段文献信息数据库不论从种类还
是规模上都远远超过了以往各个阶段, 全文数据库、多媒体数据库更是其中的 佼佼者;文献信息检索不再是单位内部 联机检索,价格昂贵的国际联机检索, 而是通过各个接入网、交换网检索互联 网各结点上的服务器的各类信息。
15
三、计算机信息检索的服务方式
计算机检索系统按其服务功能可分为回溯检索、定题
16
2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输 入事先确定好的检索提问式保存在检索系统中,检索 系统根据数据库更新周期,定期地对保存的检索提问 式进行检索,将检索出的最新文献信息提供给用户。 定题检索服务对于长期追踪某一领域的新颖信息很适 合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实 时进行的检索。用户一旦输入检索提问,计算机检索 系统就可立即执行,并在用户终端显示屏上输出检索 结果。
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献
第六章 计算机信息检索基础知识

25
�
2
二,计算机信息检索的基本概念
利用计算机,根据用户的提问, 利用计算机,根据用户的提问,在一 定时间内, 定时间内,从经过加工处理并已存储在计 算机存储介质内的信息集合中查出所需信 息的一种方式. 息的一种方式.
3
三,计算机信息检索系统构成
1,硬件 , 2,软件 , 系统软件和应用软件. 系统软件和应用软件. 3,数据库 , 数据库是至少由一种文档组成, 数据库是至少由一种文档组成, 能满足特定目的或特定数据处理系统 需要的数据集合. 需要的数据集合.
19
第二节 DIALOG联机检索命令 联机检索命令
一,BEGIN(或B)选库命令 ( )
?BEGIN 文挡名 ?B 文挡名 ?BEGIN 文挡号 ?B 文挡号
20
二,sf调文档命令 sf调文档命令
只在打开411 库时有效 只在打开 ? 8,12,63,72…… , , ,
21
三,SELECT(或S)选词命令 ( )
23
六,DISPLAY SETS (或DS)联 或 联 机显示命令
用于显示相应的检索结果, 用于显示相应的检索结果,具体指令格 式与TYPE相同 式与 相同
七,LOGOFF结束检索过程命令 结束检索过程命令
24
第三节 联机检索的一般步骤
1,分析信息需求; 2,选择系统及数据库; 3,确定检索途径; 4,选择检索项; 5,编制检索式; 6,上机检索; 7,输出检索结果; 8,退出联机检索系统
22
STEPS( SS) 四, SELECT STEPS(或SS)命令
SS computer? and image? S1 597 computer? S2 176 image? S3 105 computer? and image?
计算机检索基础知识

“COTTON(2N)PROCESSING”时, 凡含有cotton processing,processing of cotton和processing of Egyptian cotton的文 献记录都算命中。
28
(5)(F)算符——含义为“Field”
这个算符表示其两侧的检索词必须在同一字段(文献著 录的基本单元,反映文献外部特征或内容特征的某一 个项目,如同在题目字段或文摘字段)中出现,词序 不限,中间可插任意检索词项。
34
又如:查找wang wei写的文章,可以输入检索式: au=wang wei(有时检索词须放在双引号内) /TI—篇名;如:S control(w)pollution/ti /DE—叙词;如:S aluminum compounds/de /ID—标引词;如:S soap/id /AB—文摘词;如:S computer/ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab
计算机检索基础知识

第二章 计算机检索基础知识
第三节 计算机检索步骤
四.选择检索途径 确定检索词后,根据课题性质、 确定检索词后,根据课题性质、范围以及检索系统所提供的可检 标识等选择适当的检索途径,检索途径主要有以下几种: 标识等选择适当的检索途径,检索途径主要有以下几种: 以文献的著者(包括个人和团体著者、编者、 (1)著者途径 以文献的著者(包括个人和团体著者、编者、 ) 译者、专利权人等)姓名为检索标识来进行检索的途径。 译者、专利权人等)姓名为检索标识来进行检索的途径。 从文献信息内容相关的主题词角度来检索文献, (2)主题途径 从文献信息内容相关的主题词角度来检索文献, ) 这是一种常用的途径。 这是一种常用的途径。 从文献所属学科类别角度来检索。 (3)分类途径 从文献所属学科类别角度来检索。 ) 以文献所附有的号码特征来检索,如专利号、 (4)号码途径 以文献所附有的号码特征来检索,如专利号、 ) 报告号等。 报告号等。
A NOT B A―B 数据库中凡含词A 数据库中凡含词 而不含词B的记录 而不含词 的记录 被检出
逻辑关系 的说明
逻辑关系图 图中红色部分) (图中红色部分)
A
B
第二章 计算机检索基础知识
第二节 计算机检索技术
布尔逻辑算符的优先级顺序为NOT、AND、OR,另外可以使用 、 布尔逻辑算符的优先级顺序为 、 , 括号改变它们之间的运算顺序。 括号改变它们之间的运算顺序。 如可以编写( 如可以编写(A+B)*(C+D)检索式,先运算 A+B,C+D再运 )( )检索式, , 再运 )。但应注意 算(A+B)*(C+D)。但应注意,对于同一个布尔逻辑提问式 )( )。但应注意, 来说,不同的运算顺序会有不同的检索结果。 来说,不同的运算顺序会有不同的检索结果。
计算机信息检索基础知识

• 支气管扩张剂对肺的作用
– 分类标引:R974 呼吸系统药物 – 主题标引:肺/药物作用 支气管扩张剂/药理学
计算机信息检索系统组成
• 硬件:运算器、控制器、存储器、输入输出装置等 • 软件:系统操作程序、数据库管理程序、联机控制
程序、应用程序等。 • 通讯线路:电话通讯网、数据通讯网、卫星通讯网 等。 • 检索终端:信息用户与检索系统主机进行人机对话, 实现联机检索的设备。包括上网设备、调制解调器 等。 • 数据库:是计算机检索的对象。是由一个或数个文 档构成,并能够满足某一特定目的或某一特定数据 处理系统需要的一种数据集合。
光盘数据库检索
• 光盘 是80年代发展起来的激光存储载体,继 纸张感光材料、磁性载体之后问世的又一种 新型的信息存储介质。能存储数据、文字、 图形、图像、声音、动画等各种信息。一张 普通的光盘、信息存储量约为550兆。 • 光盘的分类:按存储方式分为
(1)只读型光盘:CD-ROM (2)写读光盘:WORM (3)可擦写型光盘:ERM
光盘检索的定义和特点
• 定义:
是一种用激光技术在特制圆盘上记录信息 的检索方式。 • 特点: (1)投资成本低; (2)价格低; (3)运行速度快; (4)检索效果好; (5)下载方便; (6)安全性能高。
光盘检索的系统组成
• 单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印 机等 • 网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器
NOT > AND > OR ( )号里的部分运算优先
截词检索
截词检索就是把检索词截断,取其中的一 部分,在加上截词符号一起进行检索。主要 用于检索词的单复数、词性的词尾变化、词 根相同的一类词,以及同一词的拼法变异等。 通用的截词符有:?和* ?代表一个字母;*代表两个或两个以上字母
计算机检索基础知识

(N)算符是“near”的缩写,表示此算符两边 的检索词必须紧密相连,此间不允许插入其他 单词或字母,但词序可以颠倒;
(nN)算符则表示在两个检索词之间最多可以 插入n个单词,且词序可以颠倒。如,?S econom?? ?(2N)recovery , 可 以 检 出 : economic recovery, recovery of the economy, recovery from economic troubles。 词位臵检索是很有用的检索技术,它可以规 定词组中各词的前后次序,防止错误的搭配和 输出。
第二节 计算机检索技术
一、基本检索技术 1 布尔检索 几乎所有的网络信息检索系统都支持布 尔逻辑检索,但不同的检索工具又有差别. 2 截词检索
3 短语检索
在网络检索工具中,
若在检索框内输入两个或两个以上的检 索词,且两个检索词之间没有任何其它符号, 该检索系统会将这两个检索词之间的关系设 为默认值(AND或OR);
目前加权检索在网络检索工具中的运用 还很不完善,尚不能根据用户的需求来确定 某一个具体语词的权值大小从而确定它对检 索结果的影响程度。
现在很多网络检索工具采用“+”、“-” 来表示检索词在检索提问中的分量。在某个 检索词前面带上“+”表示该检索词必须在检 索结果中出现,反之,若某个检索词前面带 上“-”,则表示该检索词一定不能出现在检 索结果中。 AltaVista、HotBot、Infoseek等都 支持这种形式的加权检索。
作者
文献类型 刊名 语种 出版年
4 位臵逻辑检索符
又称全文查找逻辑算符,相邻度检索算符, 原文检索符。由于布尔检索的“AND”运算要求 AND两边的检索词在同一记录中同时存在才能 命中文献,这就可能会引起误组配而造成大量 误检,而位臵逻辑检索是以原始记录中检索词 与检索词特定的位臵关系为逻辑运算的对象, 检索词用位臵算符相连,就可以弥补布尔检索 的缺陷。 位臵逻辑检索可分为词位臵检索、同句检 索、字段检索和记录检索。