网络文献信息检索基础
第二章 文献信息检索基本知识(2).概要

(2)截词检索表达式
用截词符号“*”、“?”或“$”加在检索词 的前后或中间,以检索一组概念相关或同一词根 的词。 按截断的位置可分为:
前截断、中间截断、后截断 按截断的字符数量可分为: 有限截断(?)、无限截断(*)
如:输入检索式“Comput*”,将检出包含 Computer、Computing、Computed、 Computerization 等词汇的结果。
第二章 信息检索基础知识
2.3 文献信息检索的工具
1、文献信息检索工具概述 检索工具是将大量分散无序的文献资料经过加 工整理,按照一定的规则和方法编制起来,用来 报道、存储和查找文献的工具,是附有检索标识
的某一范围文献条目的集合。
传统的检索工具是人们利用手工方法编制的
工具书,有字典、词典、目录、百科全书、名录、 类书、政书、表谱、图录等。这些工具书是人们
题录示例
(3)索引(引得) 索引是将书刊内容中所论及的篇名、语词、主 题等项目,按照一定的排检方法加以编制,注明出 处,供读者查检使用的检索工具。 索引与目录的根本区别就在于著录的对象不同, 目录所著录的是一个完整的出版单位,索引所著录 的则是完整的出版物的某一部分、某一观点、某一 知识单元,提高文献检索的深度和检索效率。
完全一致(精确匹配)、任意一致(模糊匹配)
等。
讨论1: 我馆书目查询系统共有多少种检索方式?其基 本检索有多少个检索字段?
讨论2: “中国学术期刊网络出版总库”有哪些检索方式?
?
? ? 中国科技期刊数据库初级检索界面
2、 信息检索方法
(1)常用法 ①顺查法 ②倒查法 ③抽查法 (2)回溯法 (3)循环法
文献信息检索基础知识

1=Biblioteka 主题语言:用自然语言中的名词、词组、句子描述文 献主题概念的检索语言。 主题词:表达文献主题概念的词叫主题词 。当使用主题词来表达文献内容特征时叫主题标引(标识)。 主题语言的优点: 直观 符合人的辩识习惯 专指性强 主题词标识经过严格的规范化处 理,查准率高。 灵活 词与词的概念组配揭示文献中各种主题。 集中性 将不同学科的同一主题文献集中在一起。 例如有关“鲁迅”的文献资料,分类法将其 分散在文学、艺术、文化、历史各个门类 查找费时,而主题法在“鲁迅”标题下,直接 反映出全部有关“鲁迅”的文献资料。
3种逻辑关系的区别
逻辑算符
AND(与)
OR(或)
NOT(非)
检索式
A AND B A * B
F250 物资经济理论 F251 物资管理 F252 物资流通 F253 物资企业 经营与管理 F259 世界各国 物资经济
F251.1 物资管理 体制 F251.2 物资计划 F251.3 物资统计
分类号
类名
+
类目
F251.3 /1 或F251.3 “1”种次号
信息的基本属性
二、基本概念: 1、信息(information)的概念:信息是事物的存在的形式和运动状态的表征 。
知识性或客观性 记录和传播性
目录
CONTENTS
01
信息存储
Add a title
02
Add a title
一次文献:论文等 二次文献:目录、文摘、索引 三次文献:字词典、百科、年鉴
《汉表》 主表的著录格式(例2) Tian zhu ren 天竺人 Sindus; Sindhus “用”项 Y 古印度人 词族索引(例3) 族首词 法(法律) * 一级下位词 . 国际法 04LA 二级下位词 . .国际公法 三级下位词 . . .海洋法
文献信息检索基础知识

文献信息检索基础知识第一节概论科学技术的发展,具有连续性和继承性,科学技术的发明创造,需要依靠经验、材料和理论的不断积累,没有科学上的继承和借鉴,就没有提高。
任何一个科技工作者,都有赖于在前人已经取得成就的基础上进行不断的研究和探索。
在科研选题过程中,要首先了解所研究的学科领域发展现状与趋势,对自己挑选的课题进行查新,以免重复别人的劳动。
在课题研究过程中,要借鉴别人已有的成果,比如一些统计、实验数据,可以直接利用,没有必要自己再做一次,节省研究经费与时间;对别人研究没有取得成功的地方,要分析原因,可以避免研究走入歧途。
要完成这一切,都离不开科技文献的检索与利用。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科技信息的主要来源。
科技文献数量急剧增长,可以说是“知识爆炸”,在浩如烟海的文献面前,盲目地查找自己所需要的文献很困难,对信息污染难以分辨;专业文献出版分散,如果只注意查找本专业的核心期刊,已看不到专业文献的全貌,仅能了解其中的一小部分而已,因为大量的专业文献分散出版在其它刊物里。
文献老化加快,出版种类繁多,我们如果想了解某一数据、某一事件或事实,更如大海捞针,无从下手。
要快速、全面、准确地获得所需要的文献信息,就必须掌握科学的文献查找方法,因此就必须学习科技文献检索知识。
掌握了科技文献检索的方法,首先可以节省查找文献的时间,据调查统计,一个科技工作者在其科学研究生涯中花在查找文献上的时间占整个科研时间的40~50%,如果掌握正确的文献检索方法,将缩短查找文献时间,从而延长科研寿命。
其次有利于专题文献查全,由于专题文献出版分散特点,使得只从核心期刊上获取专题文献很难查全,掌握文献检索方法,在检索工具或数据库中去检索,就能克服这一不足。
再者可以克服自然语言和学科专业语言障碍,由于当今文献语种很多,而一般科技工作者除母语之外仅掌握1~2门外语,这就为了解世界先进技术带来困难。
文献信息检索基础知识

1
可编辑ppt
第1节 文献信息检索的基本概念
一、文献、信息、信息源 1.定义 文献:用文字、图形、符号、声频、视频等技术手段 记录人类知识的一种载体,或理解为固化在一定物质载体 上的知识。
信息:广义地说,信息就是消息。
指对接收者来说预先不知道的报道。(辞海)
是用来通信的事实,在观察中得到的数据、新闻和知 识。(韦氏字典)
10
可编辑ppt
第1节 文献信息检索的基本概念
专利文献(patent document)
专利文献是一切与专利制度有关的专利文件的统称, 如专利申请书和专利说明书、专利公报。
专利说明书是公开的文献,但只能由各国专利局发行, 它反映了当前最新的技术成果。
学位论文(dissertation, thesis) 是作者为获得某种学位而撰写的科学论文。博士论文 具有较高的参考价值: 一般偏重于理论,附有大量的参考文献,借此可以看 出有关专题的发展过程和方向。 学位论文一般不出版发行,而是保存在授予学位单位 的图书馆里。
6
可编辑ppt
第1节 文献信息检索的基本概念
科技图书(Book):对已有的研究成果或生产经验所 作的概括论述。
特点: 带有总结性、成熟定型;出版周期长,信息传 递慢;传授知识,而不是报道最新情报。
图书一般分为两类:
阅读型:教科书、专著等
工具型:字典、百科全书、年鉴、手册
科技期刊(journal, periodic) 特点:名称固定、有连续的卷、年月顺序号、出版周 期短,报道速度快、数量大,内容丰富。 据估计,从期刊获取的科技情报占整个情报来源的 60%-70%。
5
可编辑ppt
第1节 文献信息检索的基本概念
02+文献信息检索工具基础和网络信息资源检索与文献线索

含《社科新书目》、《科技新书目》、《读者新书目》三大子报,是各类图 书、多媒体制品最新出版信息总汇的商务传媒。
收录图书品种丰富,介绍详细,以新书为主,每月预告初、重版图书信息逾 5000种,年近6万种; 《新华书目报· 社科新书目》报道全国各出版社的社科类图书、多媒体制品 等最新出版信息。年收录图书信息3万余种。主要以社科、文学、财经、少 儿、文教、综合类图书为报道对象。 《新华书目报· 科技新书目》报道全国各出版社的科技类图书、多媒体制品 等最新出版信息。年收录图书信息3万余种。主要以自然科学、基础科学、 工程技术、医药、各级标准、生活科学等类图书为报道对象。
4
2.1.1 文献信息检索工具的概念、特点、分类与结构
2.文献信息检索工具的特点
一般检索工具必须具备四个基本条件: (1)必须详细记录文献的外部特征和内容特征; (2)必须具有既定的检索标识。如主题词、分类号、著者姓名和文献序号 等; (3)必须根据标识的顺序,系统地、科学地排列文献,使其成为一个有机 的整体; (4)能够提供多种检索途径。
献数等)等。 如《全国新书目》、《全国联合目录》、 《四库全书总目录》 等。
8
2.1.2 检索工具的常见类型介绍
9
2.1.2 检索工具的常见类型介绍
2.题录
按“题录”要求进行著录,按“篇” 报导文献信息、揭示单篇文献的外部 特征。
题录著录的项目主要包括篇名、著者(或含其所在单位)、来源出处(包括 出版物名称、卷(期)、页数、出版年等)等,无内容摘要。例如,《中国 社会科学文献题录》、《全国报刊索引》、美国的《化学题录》(Chemical Title)等。
7
2.1.2 检索工具的常见类型介绍
1.目录
按“题录”要求进行著录,按“本” 报导文献信息、揭示出版物的外部特 征。 目录的著录项目一般有:题名、著者/编者、文献出处(包括出版单位名称、 出版年等)、编号(科技报告号、专利号等)、描述性注释(原文文别,译
第一讲文献信息检索基础知识

(旧号)
ISBN 978-7-5025-6431-5 (2007年后出版图书采用的新号)
第一段:978是由国际物品编码(EAN·UCC)系统专门提供给国际ISBN管理 系统的产品标识编码。
第二段:7 语区号,代表国家、地区、语种
如0和1-英,2-法,3-德,4-日,5-俄,7-中,88-意大利,
9971-新加坡 第三段:5025 出版社代号,由国家或地区ISBN中心分配; 第四段:6431 出版图书号,由出版社按出版顺序所给; 第五段:校验位
期刊的特点
A、期刊以品种为单位形成知识流; B、报道文献速度快,内容新颖,能及时反映世界科
技水平,但不如图书成熟; C、品种多,数量大,覆盖了人类所以知识领域及各
学科专业,具有很强的容纳性。 D、科技期刊 是最重要的一次文献。
核心期刊
* 少数刊载某一学科大量高质量专业论文的期刊。
* 特点 (1)刊载专业文献密度高,信息含量高; (2)水平较高,代表本学科的最新发展水平; (3)出版相对稳定,所载文献寿命较长; (4)利用率和被引率较高。 目前,许多单位核心期刊的判定是以 《中文核心期刊要目总览》为标准
美国信息产业协会主席保罗 . 泽考斯基(Paul Zurkowaski)1974年在美国全国图书馆与情报学委 员会上,最早提出了信息素养的概念,他把信息素 养概括为:“利用大量的信息工具及主要信息源使 问题得到解答的技术和技能。”
信息素养为什么重要
在科技飞速发展、信息资源激增的当今时代,信息 素养越来越显示其重要性
(International Standard Book Number)
每一种正式出版的图书的唯一标识代码,是专门为识别 图书等文献而设计的国际编号。
文献信息检索

1.1 文献信息基本知识
• 声像型文献:也称为视听型文献,又称为声像资料、视听资料 和音像制品。它是以磁性材料或者感光材料为存储载体,借助 特定的机械设备直接记录声音信息和图像信息所形成的文献, 如录音带、录像带等。其特点是形象直观、逼真,但是使用时 需要借助一定的设备。
• 机读型文献:是通过一定的技术将文字、图像以及声音等转换 成二进制数字代码,记录在磁性介质或光记录介质载体上,采 用计算机进行阅读、浏览的文献载体。机读文献包括文摘、题 录及全文等各种类型数据库。其特点是一次加工,多次使用, 存储容量大,节省存放空间,易于实现资源共享,是一种很有 发展前途的文献类型。但是检索机读型文献时,必须借助电子 计算机。
• 产品资料:制造厂商为了宣传推销其产品而编制的以介绍产品 性能为主的资料。如产品目录、产品样本(集)、产品说明书、 产品总览和产品数据手册等。其内容大致为已定型产品的性能 与用途、结构原理、使用方法、操作规程和产品规格等。
1.1 文献信息基本知识
• 2.按文献信息的表现形式划分 8)科技档案是科学技术研究和生产建设部门在研究、生产和建
多样性:《韦氏大词典》(美国)注释信息为:信息是通信的 事实,是在观察中得到的数据、新闻和认识。(说明信息的表 现形式可以是数据、消息和新闻等,具有多样性。)
1.1 文献信息基本知识
文献信息资源的构成 可以从不同的角度或层面予以描述和划分,譬如从记录文献
的物质载体、文献信息的表现形态(文献类型)以及文献信息 被加工的详略程度等。 按文献信息的物质载体划分 • 刻写型文献:是指印刷术尚未发明之前的古代文献和当今尚未 付(交付的意思)印的手写记录,以及正式付印前的草稿。如 古代的甲骨文、金文、棉帛文、竹木文以及现如今的会议录、 手稿等。
医学文献信息检索--第一章 文献信息检索基础

零次文献
一次文献
科技文献层次结构
三次文献(浓缩的新的信息产品) 将知识重新组合,使知识序列化
二次文献(一次文献的替代品) 将分散的文献序列化 一次文献(初始的知识产品) 将知识以文字等形式固化 零次文献(创造知识的素材) 信息的直接记录或传递 研究活动(实验、观察、思考)
3.认识不同载体的文献
印刷型文献:纸质
实例:
中国核科技报告 China Nuclear Science and Technology Report 主办:《中国核科技报告》编辑部 周期: 半年 出版地:北京市 语种: 中英 开本: 16开 ISSN 1671-7430 CN 11-9253/TL 创刊年:1985
主题词检索途径
序号:N2
序号:N1 主题词:S1 著者:Au1 标题:t1 ……
著者倒排档
Au1:N1,N4 Au2:N3 Au3:N4 ……
著者检索途径
……
主文档和倒排文档的关系示意图
其它检索途径
四、文献信息检索系统的分类 1.书目型数据库
2.事实数值型数据库
3.全文型数据库
文献信息数据库
(4)三次文献(Tertiary Document):是科技人员围 绕某一专题,借助于二次文献,在充分研究与利用大量一 次文献的基础上,经过阅读、分析、归纳、概括,撰写而 成的新的文献。 表现形式主要有:综述(Review)、述评 (Comment)、进展(Progress、Advance)、现状 (Update)、发展趋势(Trend)等期刊文献和百科全 书、年鉴、手册等参考工具书。
⑤政府出版物
政府出版物:这是各国政府部门及其设立的专门
机构发表、出版的文件,分为行政性文件(如法 令.统计等)和科技文献(30%~40%)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意:
在不同的检索系统里,布尔逻辑的运算次序是不同的,因此会 导致检索结果的不同。通常运算次序有这样几种形式: 一是按算符出现的顺序,如果是and、or、not,就按and、or、 not的顺序运算;如果是or、not、and,就按or、not、and的 顺序运算; 二是默认and优先运算,其次是or、not; 三是默认or优先运算,然后是and、not。一般来讲,检索系 统的“帮助”文件中都会有这类说明,只要注意查看即可。 在中文数据库里,布尔逻辑运算符有时用and、or、not下拉菜单 形式表示,供用户选择;有时用“*”号表示逻辑“与”,用“+”表 示逻辑“或”,用“-”表示逻辑“非”。
检索技术
位置算符检索:
即运用位置算符(position operators)表示两个检索词 间的位置邻近关系,又叫邻接检索(proximity)。这 种检索技术通常只出现在西文数据库中,在全文检索 中应用较多。如果说布尔逻辑算符是表示两个概念之 间的逻辑关系的话,位置算符表示的是两个概念在信 息中的实际物理位置关系 。
数字信息资源概述:检索技术
布尔逻辑检索
布尔逻辑检索
布尔逻辑检索:运用布 尔逻辑算符(Boolean operators)对检索词 进行逻辑组配,表达两 个概念之间的逻辑关系。
逻辑“与”(and):检索时,命中信息同时含有两个概念,专指性强; 逻辑“或”(or):检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,检索 范围比and扩大。 逻辑“非”(not):命中信息只包括逻辑A,不包括逻辑B或同时有A和B的,排除了不需 要的检索词。 逻辑“异或”(xor):命中信息包含逻辑A,也包含逻辑B,但不包含同时含有A和B的信 息。
截词举例
符号:*,?,$ 后截断:librar* → library, libraries, librarian,… 前截断:*magnetic → magnetic, electromagnetic, electromagnetic, thermo-magnetic, … 中截断:organi?ation → organization, organisation
常用的位置算符有
算符 功能 表达式 检索结果
Education school Education schools (school of education schools of education) Education school Education schools Education and music school School of continued education Education school Education schools W, W/N with 两词相邻,按输 Education(W)school, 入时顺序排列 或 within (也有数据库允 Education with 许顺序颠倒) school nW 同上,两词中间 Education (1W) 允许插入n个词 scho截词检索技术,系 统默认的是词根检索,即输入一个词,系统会自动检 索出同一词根的一组词,例如输入gene,可以检索出 gene,genic,genome等。这是一种智能检索方式, 但要求系统内必须预先配置词根表。 IEE/IEEE全文数据库默认词根检索 有些数据库需要加入词根运算符如“$”才进行词根检 索
网络数字资源检索基础
2005年3月
数字信息资源概述
参考数据库 全文数据库 事实数据库 电子图书 电子期刊 电子报纸 搜索引擎/分类指南 网络学术资源学科导航 FTP资源 其他:网站、BBS、新闻组等
检索提问式的定义及类型
概括地说,检索式是检索策略的逻辑表达式,是指 计算机信息检索中用来表达用户检索提问的逻辑表 达式,由检索词和各种布尔逻辑算符、位置算符以 及系统规定的其他组配连接符号组成。 布尔逻辑检索式是目前使用最普遍的检索式,即用 布尔算符(and、or、not)将检索词组合起来。 位置算符检索式是对布尔逻辑检索式的一种改进, 式中不仅有布尔算符,而且有位置算符,用以指明 检索词之间的位置关系,从而解决了布尔算符组配 检索词时没有词序的问题,进而提高了查准率。
检索技术
截词检索:
用截词符号“?”、“*”或“$”加在检索词的前后或中间, 以检索一组概念相关或同一词根的词。这种检索方式 可以扩大检索范围,提高查全率,主要用于西文数据 库检索。中文数据库通常不使用这种技术。
截词检索类型
截词方式根据截词的位置不同,分为前截断、后截断、 中截断;根据截断的数量不同,分为有限截断和无限 截断。
Pre
两词相邻,按输 入顺序排列
Education Pre school
常用的位置算符有
算符
N, near, adj
功能
两词相邻,顺序可以 颠倒 同上,两词中间可以 插入n个词
表达式
Education (N) school, 或 Education near school Education (1N) school
学位论文:中国学术期刊网和万方数据资源系 统的学位论文数据库、高校学位论文数据库、 PQDD数据库(美国)。 专利文献:中国专利信息网、国家知识产权局、 DILAOG系统、世界知识产权组织专利数据库、 美国专利商标局专利检索数据库。 标准类:中国标准咨询网、万方数据资源系统 标准数据库、国际标准化组织、美国国家标准 委员会。
构成检索提问式的5种符号
位置算符:表示所连接的各个单元词词间位置关 系的符号,在不同的系统中往往以不同的符号表 示。 字段后缀符:限制检索词在数据记录中出现的字 段位置,主要是题名、文摘、叙词和标识词字段, 分别缩写为TI、AB、DE和ID。通常是在检出的 文献量较多的情况下才考虑使用。 限制符:挑选命中文献的文种、文献类型、出版 时间和重要文章,约束检索结果。其形式和用法 同上。
截词检索类型
根据截断的数量不同,分为有限截断和无限 截断。
无限截断:不限制被截断的字符数量,例如输入 educat?,可以检索educator,educators,educated, educating,education,educational,等等。 有限截断:限制被截断的字符数量,例如输入 educat**,表示被截断的字符只有两个,可以检索 educator,educated两个词。
位置算符检索
位置算符(position)
With(field): same field or same sequence Near: same sentence Pre (precede): library pre science → library science, library with science, ... w/n (Within): library w/n science → library science, science library, … Field: same field Same: same paragraph
检索结果
Education school Education schools School of education Education school School of education Education and music school 例如同时出现在题名 或文摘字段中 同时出现在一个段落 中
字段前缀符:其作用与限制符一样,都是表示文 献的外部标志,不反映文献的内容,对检索式的 命中文献从非主题方面加以限制。 截词符:其作用是在保证关键词检索的前提下, 扩大检索范围。 除了以上5种符号外,构造检索式还常常用到 括号。括号可以规定运算的优先次序。 一般说来,使用布尔算符、括号、截词符和 位置算符,就可以构造出一个比较完善、切题的 检索式了。
inSpirs
网上各类型信息资源查询
数字图书馆:中国数字图书馆、书生之家数字图 书馆、超星数字图书馆、北大方正的Apabi系统 。 报刊资料:中国学术期刊网、中文科技期刊数据 库、中国财经报刊数据库。 会议文献:中国科学院学术会公告、学界动态、 IEEE学术会议数据库、万方学术会议文献数据库、 中国重要会议论文集全文数据库、国内专业会议 资料数据库、OCLC的会议文献数据库、美国科学 信息研究所( ISI )会议数据库。
截词检索(truncation)
后截断:是前方一致检索,又称右截断,截词符放在被截词 的右边,是最常用的截词检索技术。后截断主要用于下列检 索:词的单复数检索,如company与companies;年代检索, 如199?(九十年代);词根检索,如socio*,可以检索 sociobiology,socioecology,sociology等20多个词汇。 前截断:截词符放在被截词的左边,可与后截断一同使用。 例如输入*magnetic,可检electro-magnetic、 electromagnetic、thermo-magnetic等。目前这种检索技术 应用已经极少。 中截断:把截词符放在词的中间。如organi?ation,可检索 organisation、organization。这种方式查找英美不同拼法 的概念最有效。
nN
F
两个词同在一个标引 字段中 两个词同在一个段落 (paragraph)中
Education (F) school
Same
Education Same school
注意:
不是每一个检索系统都使用上述位置算符, 不同的系统使用的位置算符不同,不同的算 符在不同的系统中有时可能含义不同。例如 “W”算符,在Dialog检索系统表示两词相邻, 输入顺序不变;在ProQuest系统中,“W”算符 表示输入的两个词相邻,但顺序可变,如顺 序要求不变,则使用“Pre”算符。用户可以查 阅help帮助文档说明。