第二讲:计算机信息检索基础知识
合集下载
计算机信息检索基础知识

• 逻辑非:NOT或—, A NOT B 或A—B,
– 例:要查找有关能源方面 的文章, 但涉及原 子能方面的文章不要。 Energy not nuclear 表达 式:A—B
计算机信息检索技术
• 检索实例:检索“狂犬病的诊断及防治”方面的 文献
– (狂犬病 not 伪狂犬病) and (诊断 or 防治)
命中文献
计算机信息检索概念与原理
• 匹配运算,目前的计算机文献信息检索,都能实 现字符匹配,而概念匹配,是计算机文献信息检 索发展的目标。所以,在使用计算机文献信息检 索时,一定要注意检索词的选取。
– 举例一:字符匹配:比如检索“棉花拔杆机”和“棉花拔秆机”方面的文 献。 – 举例二:概念匹配:比如检索“纳米技术在废水处理中的应用”
计算机信息检索策略
• 检索词:射频识别技术 RFID 中国 超市 应用 • 数据库:CNKI • 表达式: (KY=射频识别技术 OR KY=RFID) AND KY=中国 AND KY=超市 AND KY=应用
计算机信息检索策略
• 去掉一些不太重要的关键词 • (KY=射频识别技术 OR KY=RFID) AND KY=超市
合乎逻辑的方式进行。但是在检索过程中,检索者随时可能被引向新的检索 词或新的检索途径。因此,随时调整检索策略也是影响检索成败的关键环节。 根据检出文献数量调整检索策略,往往可使检出结果达到较理想的查全率和 查准率。)
–
–检出文献太少,扩大检索范围的方法:
• • • •
计算机信息检索策略
• 课题:浅谈21世纪射频识别技术在我国超市的 应用 • 课题分析:时间范围:2000-2009 RFID是射频识别技术的英文(Radio Frequency Identification,RFID)的缩写,又称电子标签,射 频识别技术是20世纪90年代开始兴起的一种自 动识别技术,射频识别技术是一项利用射频信 号通过空间耦合(交变磁场或电磁场)实现无接 触信息传递并通过所传递的信息达到识别目的 的技术。
信息检索基础知识

TP 自动化技术、计算技术
3 计算技术、计算机
31
计算机软件
316
操作系统
.1
分时操作系统
.2
实时操作系统
.7
Windows操作系统
39
计算机的应用
… F25 物资经济 F250 物资经济理论 F252 物资流通
… F5 交通运输经济 F50 交通运输经济理论
… F53 铁路运输经济 F54 陆路、公路运输经济
匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
精选ppt
3
信息检索一般过程
信息源
信息分析、 著录、标引
信息的表示
用户
检索语言
用户需求分析
数据库 匹配过程
输出检索结果 精选ppt
检索表达式
4
信息检索的过程往往需要一个评价反馈途径,多次比较匹配, 以获得最终的检索结果。其图示如下:
9
责任者 及其单位
中图分类号 文献标示码
关键词
正文
精选ppt
题名 摘要
10
分类语言
也属于主题语言。分类语言是按学科范畴划分而构成的一 种语言体系,它集中反映学科的系统性、反映它们的相关、 从属、派生等关系,从总体到局部分层、分面展开,形成 分类体系。由类目号码及名称作为检索语言,构成分类类 目表,如前述图书分类表、专利分类表用的都是分类语言 。
13
……
主题语言
包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同 的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词 汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语
第二讲 信息检索基础知识

1.1 信息检索的概念
广义信息检索
是将信息按一定的 方式进行加工、组 织并贮存起来,再 根据信息用户的需 要找出有关的信息 过程。它的全过程 又叫信息存储与检 索。
信息检索
狭义信息检索
指用户根据需要 ,借助于检索工 具,从信息集合 中找出所需要信 息的过程。本书 所介绍的信息检 索就是狭义信息 检索 。
1.2 信息检索的原理
存
储 一次 分析 信息
过 信息
特征
程
检 索 信息 过 需求 程
分析 检索 提问
标引 信息特征 输入 检
检 索
标识
(检索项)
索检
工 具 输出
索
语
和结
言 标引
检索提问 检索 系
标识
统
果
(检索词)
1.3 信息检索的类型
按信息检索的内容划分
▪ 数据信息检索(Data information Retrieval) ▪ 事实信息检索 (Fact information Retrieval) ▪ 文献信息检索 (Document information Retrieval)
青岛工学院图书馆http://10.10.58.103/
三、信息检索技术
检索技术,是指利用光盘数据库、联机 数据库、网络数据库、搜索引擎等进行信息 检索,采用的相关技术,主要包括布尔检索、 截词检索、字段检索、词位置检索、加权检 索等
检索方式
▪ 1、命令式检索:用逻辑运算符、位置算符及其他检索 符号,把不同的检索词连接起来进行检索的一个种方式。 适用于专业人员。
主题语言又分为标题词语言、单元词语言、叙词
语言和关键词语言,前两种语言目前使用较少。 1)叙词语言:叙词是为了适应计算机检索的需
信息检索基础知识 - 第二讲信息检索系统、工具及语言

二、按加工层次分:
一次文献(Primary Document):
通常是指原始制作,即作 者以本人的研究成果为基本素材而创作(或撰写)的文献。 检索的目标 如期刊论文、科技报告、会议论文、专利说明书
二次文献(Secondary Document):是指文献情报工作者对
一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文 献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。二次文 献的重要性在于可以帮助人们查找一次文献。 检索的手段
光盘检索
用光盘作为信息存储介质的数据库。 分为单机检索和局域网内的联机光盘检索。
网络信息检索
用户在自己的客户端上,通过互联网和浏览器界面对网络 信息进行检索。 特点
数据库分布式存储,数量多,信息量大;由于超文本语传输 协议,提供了大量相关链接; 内容向多媒体发展,不仅有文本,还有图像、声音等; 数据库更新速度快; 检索功能强,索引多,易学易懂;但目前各数据库检索界面 和检索技巧不尽相同,给使用者造成不必要的麻烦; 检索环境宽松,检索费用比联机检索低很多。 (网络信息检索也包括通过网络进行的数据库检索)
国 hggghgh5454545454
风 光 好 官 方 官 方 共 和
知识的存在形式
1、存在于人脑记忆中 2、存在于实物中 3、用文字、图形、符号、代码、声频、视频 等技术手段记录在一定载体上的知识。 其中第三种形式称作文献
文献(literature、document)的概念
《中华人民共和国国家标准· 文献著录总则》给文献 下的定义是:“文献是记录有知识的一切载体”。
俴蔑曱檻椚怒盽盢餚罗孎榢巫萶絃筢 湵誕秠櫆憸诺啂奥込穚篣癑蓐潇醹歟 栉鷰鄹眙
第二讲信息检索基础

回 顾
●
本讲主要内容
● ●
信息检索概念 信息检索意义 信息检索原理 信息检索类型 信息检索途径 信息检索方法
●
信息检索技术 信息检索策略 信息检索步骤
●
● ●
●
Hale Waihona Puke 信息检索语言信息检索利用
●
●
●
有一种能力与生俱来
有一种能力终身受用------信息检索
信息检索概念
南航学生事务服务中心:【名家讲坛】4月8 日19:00在一号楼四楼报告厅,延参法师邀 请你一起《快乐看人生》!本次讲座将凭票 入场,但入场券只提供入场资格,现场座位 先到先得!入场券将在本周日(3月31日) 16:00在学生事务服务中心办公室免费领取, 领完为止,同样先到先得哦!邀你的同学一 起聆听大师的教诲吧!
信息检索途径
是由提取信息源的外部与内部特征形成 的,又称为检索点或检索入口
题名 责任者 号码 (专利号、标准号等) 出版信息 丛编 装帧 责任者单位
分类 主题
外部特征 信息(文献)
内部特征
文献外部特征主要检索途径:题名 责任者 号码 文献内部特征主要检索途径:分类 主题
信息检索方法
德国柏林图书馆门前有这样一段话:“这里是知识的宝库, 你若掌握了它的钥匙,这里的全部知识都是属于你的。”
信息检索类型
信息检索类型
按检索对象性质: 文献检索:凡是以文献(包括文献线索、文摘、题录 和 全文)为检索对象的一种检索。检索结果是特定文献线索。 移动通信病毒文献有哪些? 数据检索:凡是以数据(包括计算公式、化学分子式、数 值、图表(参考工具书) )为检索对象的叫数据检索。 检索结果是数值性数据。今日人民币对美元汇率 事实检索:统计资料、百科知识、人物传记、案例等世界 上最长的斜拉桥是哪座,该桥位于什么地方,何时建成? 按检索方式:手工检索 计算机检索
《信息检索》 第2讲 信息检索的基本知识2

19
2013-8-1
(2)自然语言和受控语言的一体化发展趋势
在网络环境下自然语言和受控语言的融合或称一体化是检索
语言未来发展的必然趋势。这方面比较前沿的、有代表性的 理论研究和实践是国内张琪玉先生提出的学科——事物概念 组配型检索语言和美国国家医学图书馆所创建的UMLS系统 。 学科——事物概念组配型检索语言具有的特点是:通过学 科聚类和事物聚类的结合、号码标识和词语标识的结合以及 系统序列和字顺序列的结合,实现分类系统和主题系统的完 全一体化。用户从自然语言词汇、分类号和主题词任一途径 入口检索,都能获得相应的文献。这种检索语言具有开放性 ,可不断增补新概念。目前该模式正处于理论研究阶段。 UMLS模式即一体化医学语言系统。UMLS由超级叙词表、语 义网络、情报源图谱和专家词典四个相互联系的部分组成。
13
2013-8-1
用主题法查找文献,要注意以下几点:
注意利用词表
选择主题词要把握概念的含义 要利用概念之间的属种关系和相关关系增加检索线索
14
2013-8-1
注意利用词表
主题词是检索系统使用的专门的规范化语言,用这
种语言表述的概念,只有一种解释,不允许一词多 义、多词一义,这是规范化检索语言的单义性所规 定的。而一般用户的提问用的是自然语言,自然语 言并不遵守特定事物具有特定概念用特定语言表达 这一原则。
10
2.2 关键词语言
关键词语言是适应目录索引编制过程自动化的需要而产
生的。关键词是文献的篇名、摘要、正文中出现的具有 实质意义并能表达文献主题内容的词语。以关键词作为 标识的检索系统就叫做关键词语言。 由于关键词是未经规范的自然语言,一个概念可以用几 个词义相同或相近的词来表达,因此关键词语言没有固 定的词表,只有一个停用词词表,用以识别词语的词性 ,方便计算机自动抽取实质性语词。 关键词语言十分适于计算机编制索引,检索入口多,编 制速度快,但缺点是容易造成漏检。 例如:“国际联机检索概论”中的“国际联机检索”、 “国际联机”、“联机”、“检索”都是能描述这篇文 献主题的关键词,都可以作为检索词。
信息检索 第二讲 信息检索概述

通过分析信息存储和检索的全过程可以看出检索语言
大致有以下四个主要的功能:
对文献的情报信息内容及其外表特征加以规范化的标引;
对内容相同及相关的文献信息加以集中或揭示其相关性;
可使文献信息的存储集中化、系统化、组织化,便于检
索者按一定的排列秩序进行有序化检索;
便于将标引用语和检索用语进行相符性比较。
科性质进行分类和系统排列 。
特点:能集中体现学科的系统性,反映事物的
从属、源生关系,便于按学科门类进行族姓检
索。
(1)分类语言
按照分类方式的不同:
混合分类语言 体系分类语言 分类语言
体系分类法是基于概念
的划分和概括,以学科 分类为基础,把概括文
献内容与事物的各种类
目组成一层层隶属、详 细列举的等级结构体系。
文献检索
事实检索
数据检索
7
3.信息检索的类型
文献检索。以文献或其索引、文摘为检索对象, 目的是核实已知文献的不确切项目,如著者名、 年代、出处等,或查检某课题原始文献的线索 及它们的具有收藏情况。
文献检索是相关性检索,不直接回答用户所提 技术问题本身,只提供有关的文献供参考。
举例: “关于自动控制系统有些什么参考文献”
CALIS公共目录检索系统检索界面
读秀知识库检索界面
三、信息检索语言
1.检索语言的概念
2.信息检索语言的功能与作用
3.信息检索语言的类型
1.信息检索语言的概念
信息检索语言是一种专门的人工语言,又 称标引语言和索引语言,是信息系统中用 以描述信息的内容及外表特征和检索者表 达检索提问的语言,是两者相互沟通的共 同依据,是用于信息标引和检索提问的约 定语言。
计算机信息检索基础知识

例如:利用DIALOG联机系统检索美国“化学文摘 (CA)”从1967至今的数据库,一般一个课题 只用3-4min左右,用光盘数据库检索也不超过 10-15min,但用手工检索《CA》的累积索引和 卷期索引,一个至少要花上几天的时间。
计算机检索特点
(2)检索途径多: 因为计算机检索系统 对数据库记录的许多字段都做了索引,有 的系统甚至对每个字段都做了索引,所以 这些字段均可作为检索入口。
c:未检出的相关文献量
提高查全率的方法
提高检索词的泛指度(热水器-燃气热 水器)
选全同义词、近义词(土豆-马铃薯) 多用截词符 减少使用逻辑“与”、逻辑“非”运算
符 增加使用逻辑“或”运算符 取消某些限制符 在多字段或全文中检索 采用分类号检索等
• 明确自己的情报需求和检索目的 即明确自己研 究的课题是攻关型的还是探索型的,对信息查找 的指标要求是查准、查全还是查新。同时还要弄 清所需文献信息的类型、文种、时间范围等。
(5)执行检索指令: 对数据库进行查找, 并输出检索结果。
(6)分析检索结果,完善检索表达式: • 重新确定检索词; • 选用“上位词”或 “下位词”: • 选用其他相关检索词; • 更换检索途径等,
如何计算?
查全率:
检出的相关文献量
R=---------------------×100%=
检索系统中相关文献总量
a ——×100% a+c
查准率:
检出的相关文献量
P=---------------------×100%=
检出的文献总量
a ———×100%
a+b
a:检出的相关文献量 b:检出的非相关文献
差集 A-B
A
非 NOT -
计算机检索特点
(2)检索途径多: 因为计算机检索系统 对数据库记录的许多字段都做了索引,有 的系统甚至对每个字段都做了索引,所以 这些字段均可作为检索入口。
c:未检出的相关文献量
提高查全率的方法
提高检索词的泛指度(热水器-燃气热 水器)
选全同义词、近义词(土豆-马铃薯) 多用截词符 减少使用逻辑“与”、逻辑“非”运算
符 增加使用逻辑“或”运算符 取消某些限制符 在多字段或全文中检索 采用分类号检索等
• 明确自己的情报需求和检索目的 即明确自己研 究的课题是攻关型的还是探索型的,对信息查找 的指标要求是查准、查全还是查新。同时还要弄 清所需文献信息的类型、文种、时间范围等。
(5)执行检索指令: 对数据库进行查找, 并输出检索结果。
(6)分析检索结果,完善检索表达式: • 重新确定检索词; • 选用“上位词”或 “下位词”: • 选用其他相关检索词; • 更换检索途径等,
如何计算?
查全率:
检出的相关文献量
R=---------------------×100%=
检索系统中相关文献总量
a ——×100% a+c
查准率:
检出的相关文献量
P=---------------------×100%=
检出的文献总量
a ———×100%
a+b
a:检出的相关文献量 b:检出的非相关文献
差集 A-B
A
非 NOT -
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2021/3/10
讲解:XX
3
计算机信息检索包含两个内涵:
存储过程:大量的数据按一定的格式输入 到计算机中,经过计算机的加工处理,以 一定的结构有序地存储在计算机的存储介 质上。
查找过程:用户的需求输入到计算机中, 由计算机对其进行处理,并与已存储在计 算机中的信息进行查询与匹配,最后按要 求的格式输出检索结果
作用:缩小检索范围,提高查准率。 例如: 水果 – 香蕉
Patent not German
2021/3/10
讲解:XX
32
非运算示意图
B
German
A
Patent
2021/3/10
事实型数据库 供查询某一客体的基本事
实或简况,包括名录、传记等数据库
数值型数据库 提供各类数值型数据
图象数据库 以图形、图象为记录单位
2021/3/10
讲解:XX
11
返回
2021/3/10
讲解:XX
12
返回
2021/3/10
讲解:XX
13
返回
2021/3/10
讲解:XX
14
返回
2021/3/10
2021/3/10
讲解:XX
6
输入:“信息检索技术”(题名字段)-----命 中该信息
输入:“光盘数据库”(题名字段)------不会 命中该信息
2021/3/10
讲解:XX
7
检索结果
输入“信息检索技术”
2021/3/10
讲解:XX
8
计算机信息检索特点
检索速度快,效益高; 检索功能强,数量大; 检索途径多,手段灵活; 检索范围广,服务方式多。
2021/3/10
讲解:XX
4
信息检索原举例:
【题 名】信息检索技术在网络数据库中的应用研究 【作 者】邹小筑[1] 缪红梅[2] 【机 构】[1]南京大学信息管理系,南京210093 [2]南京航空航天
大学,南京210016 【刊 名】图书情报工作.2007,51(2).-104-106,131 【ISSN号】0252-3116 【关键词】信息检索技术 网络数据库 检索平台 【文 摘】以信息检索技术为脉络,结合Ei Village2、ISI Web of
CAD or computer aided design
2021/3/10
讲解:XX
30
或运算示意图
B
A
pipe
tube
2021/3/10
A or B
讲解:XX
作用:扩大 检索范围, 提高检全率
31
③“非”算符 not NOT -
“非”算符用于描述概念间的排斥关系和特 殊限定关系。
含义:检出文献中必须包含这个算符前 的词,必须不含这个算符后的词。
2021/3/10
讲解:XX
21
• 记录
由若干不同字段组成的文献单元,一条记录在 数据库中代表一篇文献。
• 数据库(文档)
由若干数量的记录构成的数据的集合。大型的 数据库检索系统中称为文档。
2021/3/10
讲解:XX
22
可检索字段
中国期刊网字段示例
2021/3/10
讲解:XX
23
2021/3/10
第二讲 计算机信息检索基础知识
2021/3/10
讲解:XX
1
主要内容
计算机检索的概念 数据库及其类型 数据库的结构 计算机检索技术 计算机检索的步骤、方法、途径
2021/3/10
讲解:XX
2
一 计算机信息检索的定义
指利用计算机存储和检索信息。
具体地说,就是指人们在计算机或计算 机检索网络的终端机上,使用特定的检 索指令、检索词和检索策略,从计算机 检索系统的数据库中检索出所需的信息 的过程。
2021/3/10
讲解:XX
9
二 数据库及其类型
概念 数据库是在计算机存贮设备上按
一定方式存储的相互关联的数据集 合。
2021/3/10
讲解:XX
10
数据库类型—按内容和功能划分
参考型数据库 以文档的形式组织起来,提
供文献的题录、文摘等书目信息
全文型数据库 存储文献全文或其中的主要
部分的源数据库
讲解:XX
24
命中记录列表
详 细 记 录
2021/3/10
讲解:XX
25
四 计算机检索技术
1 布尔逻辑运算符 2 截词算符 3 字段限制
4 范围限制 5.短语检索 6.括号检索
2021/3/10
讲解:XX
26
1、布尔逻辑运算符
①逻辑与: “*”或“and” ②逻辑或: “+”或“or” ③逻辑非: “-”或“not”
Knowledge、CSAIDS、EBSCOHost、ProQuestordjne等多个著名 检索平台综合分析布尔逻辑、位置逻辑、模糊检索技术、网络叙 词表构建技术在网络数据库的应用,研究表明信息检索技术已深 深植入网络信息资源管理之中,深入剖析信息检索技术,可以清 晰揭示提问表达式的构建机理,掌握网络数据库的原理及使用方 法,为网络信息资源评价和建设提供依据。
18
专业数据库 :
2021/3/10
讲解:XX
返回
19
专题数据库
2021/3/10
讲解:XX
20
三 数据库的结构—字段、记录和
文档
• 字段:文献著录的基本单元,反映文献
外部特征和内容特征的每一项目,在数 据库中就称为字段。
如:关键词KW、题名TI、文摘AB、作者AU、 刊名JN、出版时间PY、语种LA等
2021/3/10
讲解:XX
27
①“与”算符 and AND *
“与”算符用于描述概念间的交叉关系和限 定关系。
含义:检出文献中必须同时包含被其连 接的所有词或词组。
作用:缩小检索范围,提高查准率。 例如: 儿童 * 心理学
computer AND virus
2021/3/10
讲解:XX
28
与运算示意图
A
B
computer
virus
A and B 计算机 *病毒
2021/3/10
讲解:XX
作用: 缩小检索范围,
提高检准率
29
②“或”算符 or OR +
“或”算符可描述概念间的并列关系和相关 关系,用来组配同义词或相关词等。
含义:检出文献中包含有被其连接的任 意一个词或词组。
作用:扩大检索范围,提高查全率。 例如:自行车 + 脚踏车
讲解:XX
15
2021/3/10
讲解:XX
返回
16
数据库类型—按收录专业范围划分
综合性数据库
收录多个学科或专业的信息资料。如中国期刊网
专业性数据库
收录单一学科或专业的信息资料。
专题性数据库
收录某一特定专题的信息资料
2021/3/10
讲解:XX
17
综合型数据库
返回
2021/3/10
讲解:XX