信息检索 第三章

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、计算机信息检索的方法
计算机的检索方法大致可分为以 下几种类型,即菜单检索、指令检 索、浏览式检索和提问—回答式检 索。
22
1. 菜单检索 (Easy Menu Search)
菜单检索这是计算机存取系统中最普遍 的查询方式之一。用户在系统给出的菜单 中选择项目来完成各种操作。在检索过程 中,用户还可以参考屏幕提示的信息或按 下F1键来获取帮助。菜单方式的缺陷是检 索的步骤多,而且检索的精确度不及指令 检索。
计算机信息检索的策略 计算机检索策略的制定 计算机检索策略的应用与调整
27
一、计算机信息检索的策略

所谓检索策略,就是在分析课题内容具有哪些概念单元 的基础上,确定检索系统、检索文档、检索途径和检索 词,并科学安排各检索词之间的位置关系和逻辑关系以 及查找步骤等。

对一个检索课题来说,要达到什么目标,要求什么范围, 选择什么检索系统,通过什么途径、选用什么检索词和 逻辑组配方法以及需要哪些反馈等一系列问题的考虑与 安排,都属于检索策略的研究范畴。

2014-3-4
16


基本索引字段
表达文献记录的内容特征的字段 篇名字段(Title Field,TI) 文摘字段(Abstract Field,AB) 叙词字段(Descriptor Field,DE) 自由标引词字段(Identifier Field,ID)
2014-3-4
信息检索系统中凡可供检索的字段都有倒排文档


19
数据库类型(按其内容分四种)
(1)题录、文摘型数据库(bibliographic database)它是一种 二次文献数据库。主要存贮相关主题领域的各类文献资料信 息,包括机读版的文摘、题录、目录、索引等。用户可从该 库的文献记录中筛选出所需文献,并依据记录提供的来源指 示获取一次文献。 如:Ei、ISTP、《中文期刊数据库(文摘题录)》等。 (2)全文数据库(full-text database)它是将一个完整的信息源 的全部内容转化为计算机可识别和处理的信息单元而形成的 数据集合,即机读化完整的一次文献,用户可直接检索出原 始文献,也可检索全文中的段、节、章等内容。 如:《中国学术期刊数据库(全文版)》、Elsevier、IEEE、 ASME等。
12
3. 数据库
数据库是将数据按一定格式存储在计 算机内的数据的仓库,即存储在计算机内 的相关数据的集合。数据库是有组织、可 共享的各类数据的集合,数据库中的数据 按照一定的规格组织、描述和存储,具有 较小冗余度和较高的数据独立性、易维护 性与扩展性。
13
数据库:至少由一种文档组成,并能
满足某一特定目的或某一特定数据处 理系统需要的一种数据集合。
6
2. 信息组织管理
信息组织管理主要是指信息 标引的方法、组织方式和更新周 期。信息组织管理科学、实用、 合理与否,会直接关系到信息检 索的效果。
7
3. 系统功能
信息检索系统的功能取决于系 统所能提供的检索途径、检索方法。 信息检索系统功能的状况会在很大 程度上影响到检索的结果,例如词 表管理。
第三章 计算机信息检索
本章的主要内容为:计算 机信息检索的Leabharlann Baidu展过程 、计 算机信息检索系统的组成和工 作原理、计算机检索的策略与 步骤 。
1
第一节 计算机信息检索的发展过程
计算机信息检索的发展过程主要内容 包括:
计算机信息检索技术的发展 计算机信息检索技术的特征
2
一、计算机信息检索技术的发展
调整检索策略
利用检出文献的信息,拓宽检索
充分利用各种资源
30
第四节
信息检索步骤
1.分析检索课题明确检索需求(检索 准备) 2.选择合适的检索工具 3.选择(确定)检索途径 4.编制检索式 5.实施检索 6.筛选结果,索取原文
2014-3-4 31
4.1 分析检索课题明确检索需求 不同的检索课题,同一课题的不同研究 阶段的信息需求不一样。 检索目的、学科范围、主题概念、语种 范围、时间范围、文献类型、文献数量
17



辅助索引字段
表达文献外表特征的字段
作者(AU)、 出版年份(PY)、语种(LA) 期刊名称(JN)、存取号(AN) 更新周期(UD)、文献类型(DT)
2014-3-4
18

一个数据库应至少包括一个顺排文档和一个倒排文档

顺排文档:数据库的全记录按存取号大小排列而成的文 档,相当于印刷型检索工具的正文部分。 倒排文档:以信息外表特征或内容特征标识而建立的有 序文档,相当于印刷型检索工具的索引部分。
8
4. 用户接口
用户接口承担着 用户与系统之间 的通讯功能,是二者之间实现通讯 不可缺少的连接系统 ( 软硬件 ) 。它 通常由用户模型、信息显示、命令 语言和反馈机制等部分构成。
9
5. 系统技术支持
系统技术支持主要是指系统及其软、 硬件平台的通用性、兼容性、可靠性和 稳定性。用户输入检索词或提问式后, 系统要将检索词或提问式与数据库中存 储的数据进行比较运算,然后把运算结 果输出给用户。


分类途径:分类目录/分类索引/族性检索 主题途径:主题索引/主题目录/主题词表/特征检索
2014-3-4
38



4.3 确定检索途径 4.32 以文献内容特征为检索途径 确定检索词的方法:
规范化词;国际上通用的词;隐性概念;核心概 念;联机选词; 注意检索词的缩写词、词形变化、英美不同拼法
字段
记录
数据库
2014-3-4
14


每条记录由3种字段构成:
检索系统存取号:计算机识别码(AN) 基本索引字段:表达文献内容特征的字段 辅助索引字段:表达文献外表特征的字段
2014-3-4
15

检索系统的存取号(AN)
检索系统规定的能计算机被识别的记录号码 同一数据库中每篇文献记录只有一个存取号 存取号一般由6—9位数字组成
10
(二) 计算机信息检索系统的基本结构
1. 硬件部分 硬件是指以计算机主机为中心的一 系列机器设备,包括主机、外围设备 以及与数据处理或数据传送有关的其 他设备。
11
2. 软件部分
软件部分是信息检索系统中的有关程序和 各种文件资料的总称 。存取系统的软件一般包 括操作系统、数据库管理程序、编译程序与汇 编程序、自动标引程序、文件管理程序、词表 管理程序、SDI程序、回溯检索程序、记账统计 程序、通讯管理程序、总控程序等。
1954年,美国海军军械中心(NOTS)利用IBM-701型电子计算机建
立了世界上第一个计算机信息检索系统,实现了单元词组配检索功 能。

1964年,美国国立医学图书馆(NLM)建立了以医学为主的信息检索 系统,这一时期可称为脱机检索时期。


1967年美国洛克希德公司的DLALOG系统研制成功 。
辅助功能完善
4
第二节 计算机信息检索系统的组成和工作原理
一、计算机信息检索系统的组成
(一) 计算机信息检索系统
一个完整的信息检索系统,通常由信息源、 信息组织管理、系统功能、用户接口和系统支 持技术等几个有机部分组成。
5
1. 信息源
信息源是指计算机检索系统信息或数据 的来源。信息检索系统中的数据主要来自各 种公开文献,如一次文献中的期刊、图书、 研究报告、会议论文、专科文献、政府出版 物、学位论文;二次文献中的摘要、索引和 目录;三次文献中的百科全书、专科词典、 名录、指南、手册等。
提问检索目标明确,技术规范,不仅检索速度 快,而且“查全率”和“查准率”比较高,适用 于大型检索系统,可以广泛应用与光盘数据库和 Web 网上的各类搜索引擎。提问 — 回答式检索可 以划分为基本检索、二次检索、词组检索、索引 词典检索、高级检索和综合检索等几种方式。
26
第三节 计算机检索的策略
计算机检索的策略主要内容为:
浏览式检索一般用于网络信息资源的超文 本或超媒体查询。浏览式检索通过跟踪信息节 点之间的链路,在网络系统中查找与检索概念 相关的信息资源。 Internet 互联网与 Web 都具 有导航浏览式检索的功能。这种检索方式的缺 陷是用户在漫游中可能会“迷航”。
25
4. 提问—回答式检索(Quiz & Answer Search)
1971年美国国立医学图书馆建立了MEDLINE系统,计算机检索进 入联机检索期。

20世纪80年代中期光盘(CD-ROM)产品开始投放市场。
20世纪90年代,计算机信息检索系统跨入互联网新的阶段。
3
二、计算机信息检索技术的特征

速度快、效率高。


检索范围广
不受时空的限制
数据更新频率高
28
二、计算机检索策略的制定

检索策略的制定是确定检索系统、检索文档、 检索途径和检索词,并科学安排各检索词之 间的位置关系和逻辑关系以及查找步骤。

制定检索策略之前,对目标数据库必须有比 较清醒的认识和了解,弄清检索课题的内容 要求和检索目的。
29
三、计算机检索策略的应用与调整
广泛地浏览数据库 选择合适的数据库试查


1、收录的文献信息需含盖检索课题的主题内容 2、就近原则 3、质量高、信息量大、报道及时、索引齐全、使用方便 4、记录来源、文献类型、文种尽量满足课题要求 5、数据库是否有对应的印刷型版本 6、经济条件
2014-3-4
35
4.3 确定检索途径 检索课题的已知条件 检索系统提供的检索途径
2.逻辑“或”
用“or”、“+”或逗号表示。 在网络搜索引擎中习惯用逗号代替 “OR”。 它连接的检索词只要其中任何一个出现在结果中就能满足检索条件, 用来组配具有并列关系、概念相同或者相近的词。 【实例】在搜索引擎中输入“计算机,多媒体,Windows98”则查 询至少包含“计算机”、“多媒体”、“Windows 98”三者之一 的信息。
41
4.4.1布尔逻辑检索算符
1.逻辑“与”
用“and”、“*”或者空格表示。 在网络搜索引擎中习惯用空格 代替“and”。 它连接的两个检索词必须同时出现才能满足检索条件。用来组配具 有相互交叉、限定关系的概念。AND算符的基本作用是缩小检索 结果范围,减少命中文献量,提高查准率。 【实例】检索“中国人民政府”这个网站,可以输入“中国*政 府”、“中国 and政府”、“中国 政府”等。
2014-3-4
39


4.4 编制检索(提问)式
检索式是既能反映检索课题需求又能为计算机识 别的表达式 最简单的检索式由一个检索词构成 检索式 = 检索词 + 关系算符


2014-3-4
40
4.4.1布尔逻辑检索算符 4.4.2位臵检索算符 4.4.3截词检索算符 4.4.4字段揭示及限制算符 4.4.5其它符号
23
2. 指令检索(Command Search)
指令检索是一种依靠各种指令来完成 操作的检索方法。检索指令包括检索过程 中所使用的功能键。指令检索一般适用于 有经验的用户。应用各种指令有助于用户 表达检索提问和进行各种方案的检索比较, 以获取比较理想的检索结果。
24
3. 浏览式检索 (Browsing Search)

2014-3-4
36
4.3 确定检索途径 4.31 以文献外部特征为检索途径


题名途径:书名/刊名/篇名 责任者途径:作者/编者/译者/专利权人/出版机构 号码途径:标准号/专利号/报告号/索取号

优点:以字顺或数字排列和检索,不易漏检
2014-3-4
37
4.3 确定检索途径 4.32 以文献内容特征为检索途径
(3)事实型数据库(fact database) 该类数据库能直接向用户提供可用的数据(包括文字、图 形、图象、声音、计算机程序等)。如:百科全书、辞 典、手册、指南、地图集、人名录、企事业名录、计算 机程序、音乐等。 如:新华社多媒体数据库(新增)、中国资讯行等。 (4)数值型数据库(numeric database) 这类数据库主要提供来自原始文献的统计数据、调查数据 或经过处理的各种数据、数值表格。主要以数据形式记 录物质或材料的各种特性、参数、常数、价格等, 如:气象数据、地质资料、化学或物理化合物特性的文献 数据、财务数据、人口统计资料、市场调研数据等。
2014-3-4
32
4.2 选择合适的检索工具
4.21 依据 课题内容范围、检索工具的特点
2014-3-4
33
4.2选择合适的检索工具 4.22 方法


1、检索工具指南 2、浏览检索工具 3、熟悉的检索工具 4、向工作人员请教 5、网络在线选择
2014-3-4
34
4.2选择合适的检索工具 4.23 原则
相关文档
最新文档