信息检索与利用第3讲计算机检索技术

合集下载

第三章 计算机检索基础知识

第三章 计算机检索基础知识
在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。

第二章 信息检索基本知识

第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网

7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;

信息检索第三讲

信息检索第三讲

3.选择检索词 3.选择检索词 选择
一个检索课题往往涉及多个概念,选择检索词时首 先要将检索课题涉及的所有概念分离出来,并针 对每一个概念选择尽可能多的检索词。 选择检索词是一种经验积累,检索词一般为名词。 在一定程度上也有章可循: ①词义概念最小化(单元词比多元词检索效果好) 词义概念最小化(单元词比多元词检索效果好) 词义概念最小化 经济* 如:经济发展 经济*发展 ②隐含概念的分析 垃圾的处理(处理——回收与再生) ——回收与再生 如:垃圾的处理围, 检索范围, 提高检全率
A or B
逻辑“ 逻辑“非”
表示, 用”not” 或”-”表示,用于描述概念间的排斥关 not 表示 系和特殊限定关系。
含义:检出文献中必须包含这个算符前的词,必须不含 这个算符后的词。 • 作用:缩小检索范围,提高查准率。
【实例】在搜索引擎中输入“电视台-中央电视台”,查 实例】在搜索引擎中输入“电视台-中央电视台” 询结果不包含“中央电视台” 询结果不包含“中央电视台”。
《EBSCO》数据库使用邻近位置检索算符 EBSCO》 Wn)。 (Wn)。 【实例】用《EBSCO》数据库检索税收改革 实例】 EBSCO》 文献,检索式“ reform”表示tax一 表示tax 文献,检索式“tax W8 reform 表示tax一 定在前,距离reform最多是8个词汇, reform最多是 定在前,距离reform最多是8个词汇,因此 可以检索出 “tax reform”,不能检索出 reform , tax”。 “reform of income tax 。
与运算示意图
A
computer
B
virus
作用: 缩小 作用: 检索范围, 检索范围, 提高检准率

信息检索与利用练习题与答案

信息检索与利用练习题与答案

信息检索与利用练习题与答案第一章概说综合练习一、填空题1、文献信息资源,在载体形式上,包括纸质文献和电子资源。

2、一次文献是依据作者本人的研究或研制成果创作的文献,即通常所说的“原始文献” 、“第一手资源” 。

一次文献在形态上具有多样性,在内容上具有原创性,在出处上具有分散性。

3、二次文献是按一定的方法对一次文献进行整理加工,以使之有序化而形成的文献,主要包括目录、索引、文摘等。

二次文献通常又被称为“检索性文献”、“线索性文献”。

4、三次文献是对大量相关文献进行综合分析而形成的评述研究性文献,如综述、述评等。

三次文献在内容上具有综合性,在功效上具有参考性。

5、传统的文献检索工具体系由印刷版工具书构成。

6、电子化的检索工具是以数据库的形式出现的,数据库类型有数值型数据库、事实型数据库、文献型数据库。

7、部首法首创于东汉时期著名学者许慎的《说文解字》。

8、在现有的电子版检索工具中,检索词主要有两大类:字段词和任意词以数值型数据库、事实型数据库和书目数据库出现的电子版检索工具,检索词是字段词。

以全文数据库出现的电子版检索工具,检索词可以是“任意词”。

9、“循环衍生法”包括定义衍生法、语素衍生法、语境衍生法。

10、现有的中文电子版检索工具一般都设有高级检索功能,较多地使用的检索技术是布尔逻辑检索、截词检索和位置检索,体现出的检索特点是组配检索、模糊检索和限定检索。

11、逻辑“与”(and)符号表示为“ * ”。

表示“同时包含”关系。

逻辑“或”( or)符号表示为“+”。

表示“分别包含”关系。

逻辑“非”(not)符号表示为“- ”。

表示“排除其他”关系。

12、中文检索引擎的检索方式主要有两种:一是分类方式,二是关键词方式。

13、文献信息资源的引证标注有3 种情况:注释、引文出处、参考文献。

14、文后参考文献著录的国家标准是1987年5 月《文后参考文献著录规则》15、文后参考文献列表可以采用“顺序编码制”,也可以采用“著者——出版年制”。

信息检索与利用--第三讲

信息检索与利用--第三讲

历史
地理 自然科学 医药卫生 工业技术 农业科学技术 综合性图书
杜威十进分类法
杜威十进分类法(Dewey Decimal Classification,DC/DDC), 美国M.杜威编制的综合性等级列举式分类法。 杜威十进分类法大类表: 000 总论 100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学和数学 600 技术(应用科学) 700 艺术、美术和装饰艺术 800 文学 900 地理、历史及辅助学科
2、国内常用图书分类法简介
任何一个图书馆,不论其藏书有多少,都必须对藏书进 行科学的分类和排架,以便读者有效利用文献资源。 所谓图书分类,就是根据图书的学科内容或读者对象、 文种、编辑形式、体裁等特征来分门别类地组织图书。 •《中国图书馆分类法》 (Chinese Library Classification - CLC) 简称《中图法》,它是当今国内图书馆使用最广泛的分 类法体系,国内主要大型书目、检索刊物、机读数据库, 以及《中国国家标准书号》等都著录《中图法》进行分 类。
1.分类排架法
(1)先按《中图法》分类体系排架; 以文献分类体系为主体的排架方法,多用于排列图书。 分类排架号(索书号)=分类号 + 辅助号
分类号:代表图书内容所属的学科类目, 辅助号:为同类图书的区分号。 一般先按分类号顺序排列,分类号相同,再按辅助号顺序排列, 一直区分到各类图书的不同品种。 (2)同类图书排列法通常有4种: 1)按著者名称字顺排列 即相同类号的图书再依据著者号码的次序排列。用这种排列法可 集中同类中同一著者的不同著作,附加区分号后,还可集中同一 著作的不同版本、不同译本、不同注释本、同一传记主编的各种 传记等。是各国图书馆普遍采用的排列方法。 2)按书名字顺排列, 3)按出版时间排列 4)按图书编目种次排列,

文献信息检索 第三章

文献信息检索 第三章

The end
A
B
运算顺序:先算“ 然后是“ 运算顺序:先算“与”和“非”、然后是“或” 混合运算, 电脑) 混合运算, (计算机 OR 电脑) AND 软件 NOT 硬件
二、计算机信息检索技术-6
2.截词检索
前截词(后方一致)。 :?computer )。例 computer, ① 前截词(后方一致)。例:?computer, 可检索出computer mirocomputer, computer, 可检索出computer,mirocomputer, 后截词(前方一致)。 )。例 instruction? ② 后截词(前方一致)。例:instruction? 可检索出instruction instructions, instruction, 可检索出instruction,instructions, instructional 中间截词。 wom? 可检索出woman woman, ③ 中间截词。 例:wom?n,可检索出woman, women。 women。 colo???? ????r 可检索出colour colour, colour, colo????r,可检索出colour,colour, colonizer。 colonizer。 前后截词。 :?Plane Plane? ④前后截词。 例:?Plane? 可检索出 airoplane,planes, “airoplane,planes,plane
4.限制检索 为提高查全率和查准率, 为提高查全率和查准率,需要一些缩小或 约束检索结果的方法, 约束检索结果的方法,称之为限制检索 用这种方法可将检索过程限定在特定的范 或字段)中进行。 围(或字段)中进行。 前缀写法: JN=,LA= TI= =,LA (1)前缀写法:例:JN=,LA= TI= 后缀写法: /DE,/DF—叙词 叙词; (2)后缀写法:例:/DE,/DF 叙词;/ID, /IF—标引词;/TI――题目;/AB――文 标引词;/TI――题目;/AB―― /IF 标引词;/TI――题目;/AB――文 摘。

计算机检索技术

计算机检索技术

02
信息检索基础
信息检索原理
信息检索是利用计算机技术实现信息 查询和获取的过程,通过输入关键词 、主题等检索条件,从大量数据中快 速、准确地获取所需信息。
信息检索的基本原理包括信息标引、 索引和匹配等环节,通过建立索引数 据库,对信息进行分类、标引和索引 ,实现信息的快速检索和获取。
信息检索语言
发展阶段
20世纪80年代以后,随着计算机技术的飞速发展,计算机检索技术也取得了突破性进展。数据库技术、网络技术、 人工智能等领域的成果被广泛应用于信息检索领域,使得信息检索更加高效、准确。
成熟阶段
进入21世纪,计算机检索技术已经逐渐成熟,并渗透到各个领域。云计算、大数据、物联网等新技术的 应用,为计算机检索技术的发展带来了新的机遇和挑战。
大数据环境下的信息检索
01
02
03
数据挖掘技术
通过数据挖掘算法,从海 量数据中提取有价值的信 息,为信息检索提供更多 数据支持。
分布式存储与检索
利用分布式存储技术,将 大规模数据分散存储在多 个节点上,提高数据存储 和检索效率。
实时分析处理
对大数据进行实时分析处 理,快速响应检索请求, 提供实时的信息检索服务。
学术论文检索的优缺点
03
学术论文检索的优点在于能够快速、准确地找到相关论文,缺
点在于需要使用专业数据库,且可能存在版权问题。
案例三:数字图书馆的计算机检索技术
数字图书馆的特点
数字图书馆具有资源丰富、易于检索和共享 的特点,能够满足用户对知识的需求。
数字图书馆检索的关键技术
数字图书馆检索的关键技术包括元数据、数据挖掘 和语义网等,这些技术能够提高检索的准确性和效 率。
03

计算机等级考试中的高效信息检索与利用

计算机等级考试中的高效信息检索与利用

计算机等级考试中的高效信息检索与利用在计算机等级考试中,高效的信息检索与利用是取得优异成绩的重要因素之一。

随着互联网的发展和数据量的爆炸式增长,学会如何迅速、准确地获取所需信息,并运用到实际问题中,已成为我们的必备技能。

本文将探讨如何在计算机等级考试中,进行高效的信息检索与利用。

一、选择合适的检索工具在信息检索之前,我们需要选择合适的检索工具。

通常情况下,我们可以利用搜索引擎进行信息检索。

谷歌、百度等搜索引擎提供了强大的搜索功能,能够迅速检索到相关的资料。

此外,还有一些专业的学术搜索引擎,如Google Scholar和百度学术,针对学术领域的文献检索提供了更准确的结果。

二、明确需求,减少冗余信息在进行信息检索时,我们要明确自己的需求,并用准确的关键词进行检索。

在搜索引擎中,我们可以使用引号来表示一个短语的搜索,这有助于减少冗余信息的出现。

此外,还可以通过在搜索框中添加其他限定词,如“site:edu”表示只搜索教育机构的网站,或者“filetype:pdf”表示只搜索PDF格式的文件,来进一步缩小搜索范围,提高检索效率。

三、善用高级搜索功能为了更精确地获取所需信息,我们还可以善用搜索引擎的高级搜索功能。

例如,在Google中,我们可以使用“site:”来限定搜索范围,使用“intitle:”来限定标题中包含关键词,使用“inurl:”来限定URL中包含关键词等。

这些高级搜索语法可以帮助我们更快地找到相关信息,提高信息利用效率。

四、选择权威的信息来源计算机等级考试要求我们使用可靠、权威的信息来源。

因此,在进行信息检索时,我们应选择来自权威机构、学术期刊或专业网站等的信息。

这些信息来源通常经过专业机构的审核和筛选,具有较高的可信度和学术价值。

五、合理整理、归纳信息在完成信息检索后,我们应合理整理、归纳所得到的信息。

可以将相关资料分类存储,使用文件夹或标签进行分类。

此外,我们还可以利用笔记软件或在线笔记工具,将重要的内容进行记录和整理,以备后续复习和查阅。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
17
前截词
• 前截词:将截词符号放在一个字符串的左方, 代替该位置上的有限或无限个字符,也称为左 截词、后方一致。 例如: *physics,可检 physics、astrophysics 、 biophysics等;
*computer,表示computer, microcomputer, minicomputer等;
• 较少使用
19
2.1.3 检域限制
• 检域限制,限定检索词出现在数据库记录中某一字段范 围的一种检索技术。 • 检索时,系统只对指定字段进行匹配运算,提高检索效 率和查准率。 • 检域限制方式有后缀方式和前缀方式。 后缀方式是在检索词之后加上指定检索字段的字段代码。 书写格式为:检索词/字段代码 例如:aircraft/TI 前缀方式是在检索词之前加上指定检索字段的字段代码。 书写格式为:字段代码=检索词 例如:AU=HU,Haiyan • 检域限制符则有后缀限制符和前缀限制符。后缀限制符 对应基本索引字段,反映文献的内容特征;前缀限制符 对应辅助索引字段,反映文献的外部特征。
21
常用字段名及代码
22
注意
目前各个检索系统所选取的字段各不相同,即使字段相同, 检域限制也可能采用不同的书写格式。
如对于题名字段,Ei中,用 highway transport* within TI 表示; OCLC Firstsearch 中,用 TI: highway transport* 表示。 在进行字段检索时,应先看一下该数据库的使用指南。 例: Ei CPX Web 网络版数据库主要字段的字段代码如下: CV Ei叙词表受控语 TI 题名 AB 文摘 AU 著者姓 AF 著者机构名称 ST 连续出版物名称
32
(3) (N)—Near
• (N)表示该算符两侧的检索词紧邻,中间不允 许插入其他词(空格、连字符和标点除外), 但两者的相对位置可以颠倒。 • 例如:computer(N)network 可检出含有 computer network 、network computer 形式的 文献记录。 • ( Dialog 为例)
33
(4) (nN)—n Near
• (nN)表示此算符两侧的检索词之间允许 间隔最多n 个词或代码,且两者的顺序 可以颠倒。 • 例如 computer(2N)system 可检出含有 computer system ,computer code system ,computer aided design system , system using modern computer 等形式的 文献记录。 (N),(1N),(nN)
30
(2 )(nW)—n Words
• (nW)表示在此算符两侧的检索词之间最多允许 间隔n 个词(实词或虚词)或代码,且两词在记 录中的先后顺序不能颠倒。
• 例如:laser(1w)printer 可检出含有laser printer 和laser color printer 的文献; • Computer(1w)animation可检出含有Computer animation、Computer assisted animation的文 献。
(c) 检索式中有not时前后检索词不能交换。
• 备注: ( )必须在半角和英文状态下输入
9
布尔逻辑检索表达式的优缺点
• 优点:表达直观清晰,方便扩检和缩检。 易于计算机实现。
• 缺点:没有反映文献内容(或信息需求) 所涉及的多个概念的相对重要性。没有 反应概念之间的内在语义关系。
10
写出下图阴影部分的布尔逻辑检索表达式
2.1.2 截词
• 截词(truncation):针对同义不同形词、同一词根的不同词形、 词性、单复数等原因造成检索词列举不全形成漏检而提出的 特殊检索技术,将检索词在被认为合适的地方截断,用截词 符进行处理的一种方法。
• 截词符号:一般为“?”或 “*” 或其它。各检索系统规定不同, 目前无统一标准。 • 截词符具有“OR ”运算符的功能,提高查全率,减少输入检 索词的时间,提高检索效率。
20
2.1.3 检域限制
• 基本索引字段 中文:标题、文摘、叙词、自由标引词 英文:Title 、abstract 、 descriptor、 identifier 代码: TI、 AB、 DE、 ID •hor、 journal Name、language 、 publication year 代码:AU、JN、LA、PY
信息检索与利用
第三讲 信息检索技术基础
1
主要内容
2.1 信息检索技术 2.2 检索词的确定 2.3 信息检索策略及策略式 2.4 信息检索步骤 2.5 检索效果评价
2
2.1 信息检索技术
2.1.1 布尔逻辑
2.1.2 截词 2.1.3 检域限制 2.1.4 位置逻辑
3
2.1.1 布尔逻辑

布尔逻辑,利用布尔逻辑算符对多个检索词进 行逻辑组配,以利于对复杂课题进行充分而高 效检索的方法。
• 例: computer and control (SCI) computer*control (Dialog) computer control (Google) computer AND control (Google)
5
逻辑或
• • • • 逻辑“或”用于并列或平行概念的组配。 扩大检索范围,提高查全率。 A 表达符号:“OR”、“+” 表达形式:A OR B 或 A + B (Google) (SCI) (EI)
• 例:Energy NOT nuclear (SCI) Energy –nuclear (Google) Energy AND NOT nuclear (ProQuest)
7
2.1.1布尔逻辑
• 逻辑或(OR): 扩大检索范围,有利于提高查全率。
• 逻辑与(AND):缩小检索范围,有利于提高查准率。
B
• 例:airplane OR aircraft airplane or aircraft airplane or aircraft
6
逻辑非
• 逻辑“非”用于从原检索范围中排除不需要的 或影响检索结果的概念。 A B • 缩小命中范围,提高查准率。 • 表达符号:“NOT”、“-” • 表达形式:A not B、A-B
“? ?” ,常用来表示检索词的单复数变化。
例如用system? ? 可以查出sytem 和systems 的文献。System 后最多可以加1个变化的字母。
相同字符串后可能变化两个以上字符时,则在其后连续使用若 干个“?”代替可能变化的字符。例如,??表示两个字符,???表 示三个字符,以此类推。 如表示九十年代;199? ? 表示20世纪:19??
• 位置算符,表示检索词之间的位置关系,实现 精确检索。 • 特征 • 这是一种可以不依赖主题词表而直接使用自 由词进行检索的技术方法。 • 可表达复合内容 • 属于提高专指度的方法 • 目的,表达复杂专深的概念,提高检索专指度, 弥补布尔逻辑算符难以表达某些提问的不足。
28
2.1.4 位置逻辑
分类: • 记录级检索:要求检索词在同一记录中有 L • 字段级检索:要求检索词在同一字段中,有 F • 子字段或自然句级检索:要求检索词出现在 同一子字段或同一自然句中,有 S, • 词位置检索:要求词之间相互位置满足某些 条件,有 W, nW, N. nN 等
布尔逻辑是构造检索表达式的最基本、最简单 匹配的模式。 布尔逻辑算符有三种:逻辑与AND(*) 逻辑或OR(+) 逻辑非NOT(-)
4


逻辑“与”
• • • • 逻辑“与”用于交叉概念或限定关系的组配。 缩小检索范围,提高查准率。 A B 表达符号:and、﹡、空格等 表达形式:A and B、 A * B 、或 A B
26
Search within a specific field using "wn" {test bed} wn ALL AND {atm networks} wn TI (window wn TI AND sapphire wn TI) OR Sakamoto, K* wn AU
27
2.1.4 位置逻辑
12
截词符
*——Ei Village,Web of Science, Elsevier,EBSCO Jane‘s 航空数据库 ?——PQDD ,Dialog
13
截词的分类
• 按截断的位置分: 前截词 中间截词 后截词 前后截词 • 按截断的数量分: 有限截词 无限截词
14
后截词
• 后截词,也称前方一致。将截词符放在一串字符的后面,表示 相同字符串开头,而结尾不同的所有词。 • 一、词尾的有限截断 相同字符串后可能变化一个字符时,则在其后使用一个
• ( 以Dialog为例)
29
(1 )(W)—With
(W)表示该算符两侧的检索词紧邻,在记录中的 先后顺序不能颠倒,且两者之间只允许有一 个空格、标点符号或连字符,不允许有任何 字母或词。(W)可以简写为( )。 • 例如: Aircraft( )design 可检索出含有Aircraft design 的文献记录。 • Computer( )aided( )design 可检索出含有 Computer-aided-design或Computer aided design 的文献记录 • 检索专有名词和词组时,必须使用该算符。
(W),(1W),(nW)
31
常见的另外的表达形式
• Wn 如:W8——EBSCO 例:tax W8 reform • ADJ——Elsevier两词按指定顺序排列, 相当于短语 例:remote ADJ education • PRE/n ——PQDD 例:military PRE/1 weapons
相关文档
最新文档