第二章 文献信息检索基础知识
第二章 文献检索基础知识 PPT课件

《医学主题词表》
该表收集了1.6万多个主题词 第一部分是按主题词字顺排列的“字顺表”(Alphabetical List), 第二部分是“树状结构表”(Tree Structures),又称“范畴表”。 (1) 字顺表:将全部主题词按字母顺序排列,每个主题词下都附有树状 结构号,有些主题词下还有历史注释和参照系统。 Abdominal Muscles A2.633.567.50+ 93; was ABDOMINAL WALL 1963-92 X Abdominal Wall 字顺表中的主题词一般均用正常的词序,但为了使概念相近的词汇集 在一起,有时也采用倒置词序, 例:
《美国国会图书馆分类法》(library of congress : classification, LC)、 《国际十进分类法》( universal decimal classification,UDC)、 《杜威十进分类法》(Dewey decimal classification and relative index, DC 或 DDC) 《中国图书馆分类法(中图法)》。
文献检索包括两方面的内容
一方面是文献线索的查找,即如何利用检
索工具的问题;
另一方面是特定原始文献的查找,即在查
找特定的文献线索后,找出原始文献的过
程。
文献检索的一般意义
促进素质教育,培养信息意识 避免低水平的重复劳动,全面掌握必要的文献
信息;
节省时间和费用,提高信息利用效率,促进信
文献检索的基本原理
原 始 主 文 分 析题 献 概 念 存贮过程 检索工具 检索过程
检
文 献 标文 存 标 引献 贮 识 特 征 标 识 提 索 分 问 检 转主 检 标识比较 标 索 换 析 索 题 课 识 提 概 问 题 标 念 识 检 索 结 果
第二章 文献信息检索概述讲义(教学用)

第二章文献信息检索概述导入:面对以下问题怎么办?知识更新的速度越来越快,当代大学生如何应对挑战?将来从事的工作与所学专业完全不相关,你如何应对?信息检索的重要性:有效、快速地获取所需信息☐为什么要进行文献信息检索(know why)?☐什么是文献信息检索(know what)?☐怎么去做文献信息检索(know how)?第一节文献信息检索的基本原理第二节文献信息检索途径与策略第三节文献信息检索的方法与步骤第一节文献信息检索的基本原理一、信息检索(Information Retrieval)1、检索:所谓检索是指查找、寻求、获取的意思。
2、信息检索:指将信息按一定的方式组织和存储起来,根据信息用户的需求,找出信息的过程。
广义的检索包括信息存储与检索两个过程。
狭义的信息检索指后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询。
3、信息检索原理:原始文献——加工整理——数据库(存储)提问——检索——输出(检索)简而言之:文献信息检索是指从信息集合中找出所需要的信息的过程,仅指检索一个过程。
二、文献检索的分类按其检索对象分为:1、文献检索:凡是以文献为检索对象的称为文献检索。
它不直接解答用户所提出的技术问题本身,只是提供相关的文献供用户参考。
2、数据检索:凡是以数据作为检索对象的称为数据检索,它直接回答用户提出的技术问题,即直接提供用户所需要的确切的数据或事实3、事实检索:凡是以事实为检索对象的成为事实检索,直接查询事实性答案,提供用户所需要的确切事实,是一种确定性检索。
例:同类产品中,哪个品牌销售量最大?4、概念检索:就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。
数据、事实、概念检索得到的是能够确切解答问题的信息,或者说是文献中的具体信息。
文献线索检索则是检索出包含所需要信息的文献,其结果是与某一课题有关的若干篇论文。
文献检索是最典型、最重要和最常用的文献信息检索。
文献检索-第二章 文献检索基本知识(100829)(包括第三章)

二、检索语言的种类
1、按表达文献特征划分
描述文献外部特征 检索语言 描述文献内容特征
学科分类—分类索引
描述 文献 内容 特征
研究对象—主题索引
所包含的关键词—关键词索引
分析单元性概念—叙词索引、单元词索引 分子式、结构式—分子式索引、结构 式索引 地理位置等特种内容—经纬度索引等 特种索引
2、按结构划分 分为分类语言、主题语言、代码语 言、引文语言。
第二节 检索语言
一、检索语言的定义:
从上节“检索原理”可以看出, 必须有同样的检索标识系统(即检索 语言)来标引文献特征和检索提问, 这是文献检索成败的关键。这就要求 信息标引人员和信息用户应当具有必 要的检索语言的基本知识。
文献检索时,检索标识和用户提 问都需要用一定的语言来表达,这种 标引人员表达检索标识和信息用户(检 索者)表达检索提问所共同采用、共同 理解的语言,就是信息检索语言。
②叙词语言 它是以叙词作为文献内容标识和检 索依据的一种主题语言。叙词是从文献 的题目,摘要或正文中抽取出来,用以 表达文献基本内容的概念单元。叙词受 词表控制,词表中词与词之间无从属关 系,都是相互独立的概念单元。检索时, 利用这些概念单元组配起来,表达一个 复杂的概念。叙词语言特别适用于计算 机检索。
③关键词语言 它是以关键词作为文献内容标识和检 索依据的一种主题语言。关键词是从文献 的题目、正文或摘要中直接抽取出来,未 经规范化处理的自由词汇。关键词不受词 表控制,标引文献时根据文献内容选择恰 当的词汇进行组配,以表达文献的内容特 征。
第三节
检索工具基础知识
一、什么是检索工具? 检索工具是积累和查找文献线索的 工具。它报导文献的存在,揭示文献 的内容,帮助科技人员鉴定和选择文 献、开发和利用文献资源。检索工具 具有存贮和检索两方面的功能。
第二章 文献信息检索基础

理的名词术语,具有单一性、组配性好的特 点。
(2)分类语言:直接体现知识分类的等
级制概念标识系统;如中图分类号、杜威 十进制分类法等。
《中国图书馆图书分类法》即《中图法》
《中国图书馆图书分类法》
体现学科的系统性,反映事物的从属、 派生关系,并从上至下、从总体到局部 层层划分,展开,是一种等级分明的语 言。分为五大部类,22个大类,分别用 22个大写字母表示(其中除掉L、M、W、 Y)。
1.前方一致
也叫后截断,将截词符置于一个字符串的后面,以表示其后的有限或无 限个字符的检索。
无限截词
如: ? Physic? 可检出physic、physical、physican、physicalism
有限截词
截断两个字符
中间有 空格
如:? physic?? 可检出physic、physical、physican 截断一个字符 如:? cat? ? 可检出cat、cats
2.3 综合法
综合法又称为循环法,它是把上述两种方法
加以综合运用的方法。综合法既要利用检索 工具进行常规检索,又要利用文献后所附参 考文献进行追溯检索,分期分段地交替使用 这两种方法。即先利用检索工具(系统)检 到一批文献,再以这些文献末尾的参考目录 为线索进行查找,如此循环进行,直到满足 要求时为止。 综合法兼有常用法和追溯法的优点,可以查 得较为全面而准确的文献,是实际中采用较 多的方法。
能包含特征B。可以缩小检索范围,有利于提高查 准率。 A – B(逻辑非)
例:自由分配方面的文献(排除海南大学师生的著作) 提问式::(关键词=‘自由分配’) not (单位=‘海南大学')
三、位置算符
也叫邻近检索, 在检索词之间使用, 规定算符两边的检索词出现在记录中
文献信息检索基础知识

(二)检索语言
1、概念:用于描述文献的外部及内部特征所用的语言。 2、分类:
描 述 文 献 外 表
检 索 语 言
特 征 的 语 言
特 征 的 语 言
题名(书名、篇名)语言 著者语言 号码语言(序列号、专利号) 分类语言
描 述 文 献 内 容
关键词
主题语言 主题词(叙词)
3、分类语言:以号码为基本字符,用分类号 表达文献主题概念的检索语言。 (《中图法》、《人大法》) (1)《中图法》结构体系如下:
指用户借助于计算机终端和通信线路与计算 机数据库中心直接进行对话的一种检索方式。用 户使用终端设备与远程中央计算机相连,运用规 定的指令操作,如:Dialog联机检索
微机
通讯网络
中央计算机
数据库
3、计算机检索的类型 (2)光盘检索(CD—ROM search) # 光盘单机检索→最终还是网络、联机检索。
微机
检索终端
#光盘联机检索
光驱
微机
检索终端
局域网
服务器
光驱
3、计算机检索的类型
(3)网络检索(networked search ) 全球性的分布式结构 开放式的信息环境 跨国界的信息流
正式与非正式信息交流渠道共存
信息缺乏有效的组织管理
4、各种机检的比较
联机 数据库量 数据更新 检索方法 检索范围 使用方便 费用支付 用户费用负担 用户精神负担 较多 较快 各库较一致 远程 光盘 较少 较慢 各库差异较大 单机或局域 因特网 不计其数 很快 各异 远程/局域
+
=
类 目
经济
索书号
“1”种次号
4、主题语言:用自然语言中的名词、词组、句子描述文 献主题概念的检索语言。 ※ 主题词:表达文献主题概念的词叫主题词 。当使用主
第二章文献信息检索基本知识

运算符
1、布尔逻辑运算符(Boolean Operators) 2、通配符和截词符 3、字段限制符
、
1、布尔逻辑运算符 Boolean Operators
名 称
逻辑 与
逻辑 或
逻辑 非
运算符
AND * OR +
NOT -
逻辑关 系
举例
作用
限定 A AND B 缩小
需求分析
信息源
检索工具 检索方法
检索途径 检索标识
确定学 科范围、
主题概 念。
确定信 息源类 型、 语
种、时 间和空 间范围。
选择数据 库及其文 档、搜索 引擎及网 站。
选择检索 途径
及其检索 标识
制定检索 策略
调整检索 策略
查找文献 线索
索取原始 文献
检索提 问表达 式
根据检索 结果,扩 大或缩小 检索范围, 提高查全 率和查准 率。
以工程索引EI为例,通配符和截词符的检索 表达式及检索结果如下:
算符 *
$
含义
结果
利用它可以输入检索词的起始部分,而 实现一簇词的检索
自动取词根运算符
Alter*可命中 alter,alternando,altern ant,alternate,alternati ve等
$alter可命中 alter,alternate,alterna tive
用检索 工具查 找到文 献线索
馆藏文献借阅、 复制 全文数据库 网上获取 向作者索取
检索提问表达式=检索词+运算符
检索词
分为两类: 字词类:名词术语(如叙词或关键词),或者是个
人或机构名称。 如:行政管理、王平、西安邮电大学等。
2第2章 文献信息检索基础知识

4
标引标识
原始信息
信息分析、著录和标引 信 息 检 索 系 统
信息存贮
检 索 语 言
检 索 结 果
检索课题
课 题 分 析
信息检索
提问标识
5
从信息资源管理的角度讲,信息检索是从已存储
的信息资源中检索出与用户提问相关的文献、知识、 事实、数据的逻辑运算和技术操作过程的总和 , 以 文献检索为本源。
IMAGE PROCESSING(图像处理)
MATERIALS SCIENCE(材料科学)
32
主标题词-倒叙式
倒叙式:将事物的名称放在前,后加修饰性的词说明其范围。 例如: COMPUTER,ANALOG(模拟计算机) COMPUTER, DIGITAL(数字计算机) OSCILLATORS,MICROWAVE(微波振荡器)
主标题词除用单个名词或动名词外, 还有下列三种形式:
正叙式 倒叙式 并列式
31
主标题词-正叙式
正叙式:直接采用事物的名称、现象、方法或过程等词。
例如: COMPUTER PROGRAMMING LANGUAGES(计算机程 序语言) ELECTRIC POWER SYSTEMS(电力系统) ELECTRON GUNS(电子枪)
35
(6)叙词
指采用表示单元概念的规范化词语的组合来对信息主题或内 容进行描述。从自然语言中优选出来的经过规范化出来的名 词术语。 来源:是指一些以概念为基础、经过规范化处理、具有组配功能的动态性
的词或词组。
叙词语言的最主要的特征:
规范化 概念组配
36
国内外常用的叙词表主国有:
2文献检索基础知识

文献信息检索基 础知识
1
所谓文献信息检索就是根据课题的需要,利 用检索工具和检索系统,按照一定的检索方法和 程序去查找文献信息的过程。 检索原理: 检索就是将“检索提问标识”与存储在检索系 统中的“文献特征标识”进行比较,两种标识基 本相符的,即完成检索过程。
2
•文献检索的概念
检索途径
汉语拼音音节索引 用拼音著录汉字
12
2.按照检索语言所描述的文献信息特征的内容 可分为描述文献内容特征的语言和描述文献 外部特征的语言: 其中前者又可分为分类语言、代码语言、 主题语言(包括关键词、单元词、标题词、 叙词语言等); 后者又可分为书/刊/篇名、著者/团体 著者、引文、代码/序号。
13
(1)分类语言:是一种直接体现知识分类的 等级制概念标识系统,是按照学科范畴划分 而构成的一种语言体系。它能集中体现学科 的系统性,反映事物的从属、派生关系,并 从上至下、从总体到局部层层划分、展开, 是一种等级分明的语言。 分类检索语言通过分类表来体现,一部完 整的分类表大体可由:编制说明、大纲、简 表、详表、辅助表、索引、附录等组成。
6
• 数据和事实检索是要检索出包含在文 献中的具体情报; • 文献检索则是要检索出包含所需要情 报的文献。 • 文献检索是最典型和最重要也是最常 利用的情报检索
7
• 2、根据检索方式 • 手工检索系统由手工检索设备(如书本式目录、文摘、 索引、卡片柜等)、检索语言、文献库等构成。 • 特点:它使用方便,成本低廉,但检索效率和响应时间 均较差。 • 机器检索系统可以分为机械检索系统和计算机检索系统。 • 机械检索系统主要由穿孔卡片、选卡机、机械探针、编 码规则、文献库等构成。 • 计算机检索系统主要由计算机检索设备(光盘检索设备、 微机(脱机)检索设备、联机检索设备、缩微品机检设 备等)、检索语言、文献库等构成。 • 特点:检索效率高,响应速度快等特点,但是成本和检 索费用较高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这类文献特点是体积小、信息密度高、 轻便,易于传递,保存容易。但使用时必须 借助于放大设备。
电子型文献(Electronic Document)
原称机读型文献。是指以数字化技术将文献
存储在光、磁载体上,通过计算机或网络进行阅
2、学术期刊 (Periodicals,Journal,Magazine):
指有固定名称和统一的出版形式,按一定规律定
期或不定期连续出版的文献载体,与报纸属于称
连续性出版物。
(1)期刊的特征:
统一的刊名,有连续的年、卷、期及页码;
有国际标准连续出版物刊号ISSN (International Series Standard Number) ISSN由8位数字分两段组成,如1000-0135,前7 位是期刊代号,末位是校验号。
(3)期刊著录格式:
作者(多作者用逗号分开,超过3个者用“等或 et al”). 文章题目[J].刊物名称,年代,卷数(期 数):页数 如: Porter MF, Zhang J. An algorithm for suffix stripping. Program, 1980, 14(3):130~137
P:专利文献类别代码
(2)专利文献著录格式
专利申请者.
专利题名:专利国别(或地区), 专利号[P].出版日期. TACHIBANA R, SHIMIZU S, KOBAYSHI S, et al. Electronic watermaking method and system: US, 6,915,001[P]. 2002-04-25.
(1)图书的特征
图书没有统一的开本
不连续出版 正式出版的图书都有一个ISBN号
ISBN号即国际标准书号(International Standard Book Number)。其定长为10个数字, 分四节,分别表示地域号、出版社号、该出版社 出版图书的流水号及计算机校验位 。由ISBN号 可知该书的语种区、出版社、流水号等出版信息。
二、按文献的加工程度划分
零次文献(Raw Literature): 未以公开形式
出版或未经正式渠道流通的文献,如文章草稿、私 人笔记、实验记录、会议记录等
一次文献(Primary Literature):是作者以
生产或研究成果为依据而创作的原始文献。如,期 刊论文、学位论文、专利文献、会议文献、研究报
仍使用这个例子,前两个区占总数 23% 的 15种期刊载文 214篇,
约占总篇数的 66% 。如果要完整地阅读这一专题的论文,还需要看其 余 51种期刊。由此,我们可以看到,经常阅读核心期刊,确实不失为
一种有效的情报获取方法。
五、按文献出版形式划分(10类)
图书 期刊 会议文献 专利文献 标准文献 学位论文 科技报告 科技档案 产品样本 政府出版物
朱冬林,任光明,聂得新,等.水库水位变 化下对水库滑坡稳定性影响的预测[J].水文地质 工程地质,2002,29(3):6-9.
3、会议文献(Conference Paper)
国内外重要学术会议上发表的论文和报告,也
包括一些非学术性会议的报告。
(1)特点
学术水平高,内容新颖,反映最新成就和发展趋势,但内
ZHANG
有些国际会议定期召开,其会议文献也定期出版, 从而形成了连续性出版物,这些出版名称也有
Proceeding等字样,但应作为期刊。Proceedings
of the American Power Conference, Proceeding
of the IEEE等。
4、专利文献(Patent Document):
告、专著、译文等。
二次文献(Secondary Literature):将无序的一
次文献进行收集、整理,著录其特征并以规定的格
式编制成为便于管理和查找文献的工具,即检索工
具。如目录、题录或索引、文摘等
三次文献(Tertiary Literature):是指在利用 二次文献的基础上,对一次文献的内容经阅读研究, 浓缩提炼而编写成的文献。如科技动态、专题综述、
如GB 11228-1989,住宅厨房及其家具设备的协调尺寸;
标准文献的文献类别代码为S
(2)分类(按标准的适用范围):
国际标准、区域性标准、国家标准、行业标 准 、地方标准、企业标准 (3)著录格式 标准颁布国家或组织. 标准名称[S]. 标准 号. 中华人民共和国国家标准. 织物透湿量测 试方法[S]. GB/T 12704 - 91.
国内公开:由CN + 地区号+ 国内标准连续出版 物编号+《中图法》分类号组成。内部刊物:有 准印证号。
例:浙江林学院学报
中国标准刊号ISSN1000-5692、CN 33-1085/S
通常表示期刊的单词有:Acta(学报) journal(杂志)、 annales(纪事)、 bulletin (通报)、transactions (汇刊)、 proceedings(会刊)、 review(评 论)、 progress/advances in (进展)、 communication 、letters (通讯)、 news 例如: Acta biochimica et biophysica sinica ; Journal of Adolescent Health Review of Austrian Economics
读的文献。例如,光盘、数据库文献和网络文献
信息。 具有信息存储密度高和存取速度快的特点, 并且具有电子加工、出版和传递功能。
视听型文献(Audio-visual Document)
又称声像型,载体是感光材料或磁性材料,如 录像带、录音带、科技电影、幻灯片等。
通过这类资料的播放,可获得如见其 形,如闻其声的真切效果。
有会议如开的地点、时间以及会议录的出版地、
出版单位及年份等。
会议文献的文献类型识别标识为C
(2) 著录格式
析出责任者.
析出题名[C] //编著者. 文集 名. 出版地:出版者,出版年:起止页码. Wen-li, WANG Lin-ze, XIE Jiang-hua, et al. Hopf bifurcation of impact damper [C]// Proceedings of the 3rd International Conference on Nonlinear Mechanics. Shanghai: Shanghai University Press, 1998: 437-440.
刘加林. 多功能一次性压舌板:中国, 92214985.2[P]. 1993-04-14.
5、标准文献(Standards)
标准主要指为工程建设或工业产品的质量、规格、检验 方法等所作的技术规范 (1)特征: 具有法律性和时效性,约束力强 更新性:一般过若干时间就要进行修订, 新的标准不 断地替代旧的标准 标准号:国别(组织)代码+顺序号+年代,
(3)图书著录格式:
著者.书名[M]. 出版地:出版社名称.出版 时间 Etten V W. Fundamentals of optical fiber communication[M]. London: Prentice-Hall ,1991. 吴桂金. Internet网络信息资源的分析与利 用[M]. 哈尔滨:东北林业大学出版社,2005, 7.
第二章 文献信息 检索基础知识
2.1 文献的类型
一、按文献记录的载体划分
印刷型文献(Printed Document)
载体是纸张,又可分为手抄型和印刷型。它是 一种传统类型的文献。如书、刊、特种文献。 优点是传递知识方便灵活、广泛,保存时间 相对较长;缺点是存储密度小,体积庞大。
缩微型文献(MicroForm Document)
情报调研报告、决策参考、指南、进展等。
三、按文献信息公开程度划分
白色文献:指一切正式出版并在社会上公开流通和 传递的文献,包括各类图书、期刊、报纸、缩微胶 卷、光盘、数据库等。其蕴涵的信息人人都可以使 用。
灰色文献:非公开发行、流通和传递的文献,从正 常途径难以获取的内部文献或限制流通的文献。如 社会上公开传播的内部刊物、内部教材和会议资源 等。
容不如期刊成熟。
有表示会议的专门用词,主要名称有conference(大
会)、meeting(小型会议)、symposium(讨论会)、 proceeding(会议录)、paper(单篇论文)、
transaction(汇报)等。
有表示会议录的一些词,如:proceedings of、
Collections of…等。
6、学位论文(Dissertation)
高等学校、科研机构的毕业生、研究生为了获 得各级学位所撰写的论文。
(1)特点
具有内容新颖、出版周期短、报道速度快, 信息量大且文献类型多样等特点,能及时反映
新成果、学科动向,且发行量大,影响面广。
是交流学术思想最基本的文献形式 。 J:期刊文献类型代码
(2)期刊分类:
学术性、综述与述评性期刊、检索性期刊和科 普性、动态性、通报性期刊,其中学术性期刊和 技术性期刊对科研生产的参考价值较大
主要指各国专利局的正式出版反映专利技术信
息及内容的一种文献类型。如:专利说明书、专
利公报、专利文摘、索引、分类表
专利说明书:发明创造的技术内容和权利要求
(1)特点:
涉及领域广,技术含量高,内容详尽、可靠, 缺点是时效性与专利权有效时间有关 专利号:国别代码+流水号组成。如US、GB|、 CN、DE等,如US473168,CN1016502A;一般还有 Patent一词,后面为专利号,如US Patent 4,576,486 。