第2章信息检索原理与技术

合集下载

第2章--信息检索PPT课件

第2章--信息检索PPT课件

经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。

第二章_信息检索基础之二

第二章_信息检索基础之二

检索表达式示例
字段代码与字段 名称对照
位臵检索
位臵检索又称邻近检索,主要是通过 检索式中的特定符号来规定检索词在结果 中出现的顺序和词间距。
例如检索“生物防治”的文献,若用 检索式“biological*control”检索,则 会将“抑制生物”(control biological) 的文献也查出来,这显然不是所需文献。

字段代码方式
在进行检索时,通常在检索式中加入字段代 码来限定检索字段。字段代码与检索词之间可用 后缀符“/”或前缀符连“=”接起来。各个系统的 字段代码和前缀后缀符号可能各有不同。有的系 统不分前缀后缀限定。 例如,美国专利局数据库的高级检索界面便使 用了字段限制代码,用户需用这些字段限制代码 构造检索式,在检索框中输入检索命令来进行检 索。
字段限制检索主要有两种方式:

菜单选择方式
在检索系统的界面上设臵的字段下拉菜单中 进行选择,在相应的检索框中输入检索词,就可 完成字段限制检索。目前大多数检索系统都设臵 了此种检索方式。 例如,在中国期刊全文数据库检索界面中, 可在其提供的字段下拉菜单中选择合适的字段名 称进行检索。
字段限制检索主要有两种方式:
字段限制检索
字段检索是限定检索词在记录中出现的字段范围, 检索时,计算机只对限定字段进行查找。 这种检索技术可以缩小检索范围,提高检索的准 确率。 一般而言,一条记录中主要用来表达文献内容 特征的字段称为基本索引字段,如题名、文摘、叙词、 自由词等。常用的基本索引字段及其代码如表所示。 表达文献外部特征的字段称为辅助索引字段,如著者、 机构名称、语种、刊名、来源、出版年等。常用的辅 助索引字段及其代码如表所示。
截词检索
有限截断比较精确,只检出用户需要的词汇,而无限 截断作用时必须注意词干不要太短,否则会检出许多无关 文献。 在中文数据库中作用最多的是后截断,即立脚前方一 致检索。例如,金盘书目系统的查询方式。 金

清华大学-信息检索-第2章

清华大学-信息检索-第2章

28
2.3 检索系统与检索方法
2.3.2 检索方法 1. 常用法
常用法是利用检索工具查找信息的一种方法, 因为这种方法是目前查找信息中最常使用的,故亦 称常用法。 (1) 顺查法 (2) 倒查法 (3) 抽查法
29
2.3 检索系统与检索方法
(1) 顺查法
是指按年代由远及近的顺序进行查找的方法, 如检索“电视文化”这一课题,首先要弄清起始时 间,即“电视文化”产生的时间是哪一年,然后从 这一年开始查起,一直查到当前“电视文化”方面 的相关信息为止和查准率都较高,但是检 索整个课题较费时费力。
1) 手工检索 手工检索简称“手检”,是指人们通过手工 的方式检索信息,其使用的检索工具主要是书本 型、卡片式的信息系统,即目录、索引、文摘和 各类工具书。检索过程是由人工以手工的方式完 成的。 2) 计算机检索 计算机检索简称“机捡”,是指人们利用数 据库、计算机软件技术、计算机网络及通信系统 进行的信息检索,其检索过程是在人机的协同作 用下完成的。
11
2.1 信息检索概念及类型
3) 数据型信息检索
数据型信息检索是一种确定性检索,是以 数值或图表形式表示的数据为检索对象的信息检 索,又称“数值检索”。检索系统中存储的是大 量的数据,这些数据既包括物质的各种参数、电 话号码、银行账号、观测数据、统计数据等数字 数据,也包括图表、图谱、市场行情、化学分子 式、物质的各种特性等非数字数据。
22
2.2 检索途径与检索语言
(2)主题语言 主题“是一组具有共性事物的总称,用以表达 文献所论述和研究的具体对象和问题”,即文献的 “中心内容”。每种文献都包含着若干主题,研究 或阐述一个或多个问题。主题词就是表达主题概念 的词汇。
23

文献检索-第二章 文献检索基本知识(100829)(包括第三章)

文献检索-第二章  文献检索基本知识(100829)(包括第三章)

二、检索语言的种类
1、按表达文献特征划分
描述文献外部特征 检索语言 描述文献内容特征
学科分类—分类索引
描述 文献 内容 特征
研究对象—主题索引
所包含的关键词—关键词索引
分析单元性概念—叙词索引、单元词索引 分子式、结构式—分子式索引、结构 式索引 地理位置等特种内容—经纬度索引等 特种索引
2、按结构划分 分为分类语言、主题语言、代码语 言、引文语言。
第二节 检索语言
一、检索语言的定义:
从上节“检索原理”可以看出, 必须有同样的检索标识系统(即检索 语言)来标引文献特征和检索提问, 这是文献检索成败的关键。这就要求 信息标引人员和信息用户应当具有必 要的检索语言的基本知识。
文献检索时,检索标识和用户提 问都需要用一定的语言来表达,这种 标引人员表达检索标识和信息用户(检 索者)表达检索提问所共同采用、共同 理解的语言,就是信息检索语言。
②叙词语言 它是以叙词作为文献内容标识和检 索依据的一种主题语言。叙词是从文献 的题目,摘要或正文中抽取出来,用以 表达文献基本内容的概念单元。叙词受 词表控制,词表中词与词之间无从属关 系,都是相互独立的概念单元。检索时, 利用这些概念单元组配起来,表达一个 复杂的概念。叙词语言特别适用于计算 机检索。
③关键词语言 它是以关键词作为文献内容标识和检 索依据的一种主题语言。关键词是从文献 的题目、正文或摘要中直接抽取出来,未 经规范化处理的自由词汇。关键词不受词 表控制,标引文献时根据文献内容选择恰 当的词汇进行组配,以表达文献的内容特 征。
第三节
检索工具基础知识
一、什么是检索工具? 检索工具是积累和查找文献线索的 工具。它报导文献的存在,揭示文献 的内容,帮助科技人员鉴定和选择文 献、开发和利用文献资源。检索工具 具有存贮和检索两方面的功能。

第二章-互联网信息资源检索概论

第二章-互联网信息资源检索概论
11
12
发展前景:
虽然目录型检索工具在当今互联网信息检 索界的地位已不如从前,但仍是个个人维护的目录 型检索工具,它成为了相当一部分上网用 户的“入口”,许多对上网无从下手的人, 最需要的就是这样的导航网站,如今360也 开发了360网址。
第2章
1
第2章 互联网信息检索概论
2.1互联网信息检索类型和特点 2.2互联网信息检索原理之一——信息组织 2.3互联网信息检索原理之二——信息查询 2.4互联网检索工具的性能评价
2
2.1互联网信息检索的类型和特点
2.1.1互联网信息检索的类型 2.1.2互联网信息检索的特点
8
最具代表的互联网目录型检索工具当属 “yahoo”(雅虎),是由斯坦福大学的研究 生杨致远(Jerry Yang)和David Filo与 1993年创立的。
互联网刚开始发展时,他们在网上冲浪时, 逐渐把自己喜爱的站点编成一个名单以便 寻找,并将这一名单在网上公布,供网友 使用,这就是雅虎的前身,也是目录型检 索工具的工作原理。
索互联网站点提供了极大的方便,但随着
互联网的持续发展,它的缺点也越来越明 显,其地位收到了以Google为代表的搜索 引擎的挑战。
时过境迁,雅虎和搜狐都已经发展成了门
户网站。
10
补充:门户网站
中国四大门户网站:新浪、网易、搜狐、 腾讯
门户网站:又被称为链接页面,是通向某 类综合性互联网信息资源并提供相关信息 服务的应用系统。
张朝阳在中国创办“搜狐”,也是比较成 功典型的互联网目录型检索工具。
9
优点:人工参与度高,网络资源目录的组 织编排符合人们所熟悉的知识分类体系,
检索目标性相对较强,提供的检索结果准 确性也较高。

计算机信息检索2

计算机信息检索2

22
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
索引(index) 是对一组信息集合的系统化的指引, 通常依附于其他检索工具。
2019/5/3
23
2.5 文献信息检索的步骤
1. 明确检索要求,分析课题涉及的概念
明确检索要求就是要搞清楚需要查找的课题属于 什么学科,所需情报的文献类型及语种,查找文 献的年代,所需文献的最佳篇数,允许支配的检 索费用。 分析课题所涉及的主要概念,找出能代表这些概 念的若干个词或词组,这些词或词组将作为检索 词在检索中使用。
篇目按照一定的排检方法编排而成 的,供人们查找篇目出处的检索工 具。
2019/5/3
21
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
文摘 (Abstracts) 是以精练的语言把文献信息的重要
内容摘录下来,并按一定的著录规则 与排列方式编排起来,供读者查阅使 用的一种检索工具。
2019/5/3
5
2.3.1 检索语言种类
按构成原理
⑴分类语言:体系分类语言 ⑵主题语言
①叙词语言—概念组配是叙词语言的最主要 特征.
②关键词语言—不加规范化处理是关键词 语言的主要特征.
2019/5/3
6
2.3.2 分类检索原理与检索方法
分类检索原理:
⑴分类法(表)的定义:按照文献信息的内容和形
式等, 根据科学学科之间的逻辑归属关系, 采用 层次型或树杈型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的代码, 从而形成的类表。
2019/5/3
33
2.6 会议馆藏信息
《1976-1978年西文科技会议 录联合目录》 《西文科技学术会议录联合目 录(续编)》 图书馆的OPAC系统

第二章 信息检索基础

第二章 信息检索基础

2014-5-26
18
数据检索以具有数量性质,并以数 值形式表示的数据为检索目的和对象, 检索的结果是经过测试、评价过的各种 数据。
数据文件组织方式不同,数据检索 的技术方法亦不同。对于顺序结构文件 ,常见方法有顺序检索、分块查找法、 两分检索等。
对于随机结构文件,常采用直接地 址法、杂凑(hash)法等。地理信息系 统中空间数据检索常涉及目标空间分布 范围(行政区域、地理范围或空间关系 等)及目标属性类型(地形高度、坡度 、土地利用现状等)两个方面的综合条 件。
根据研究文摘历史的专家弗西斯·威蒂( Francis J. Witty)介绍,一种用途类似于文摘 的工具首先出现在公元前两千年美索不达米亚 人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西 汉刘向、刘歆父子整理编撰的《别录》和《七 略》。古代使用文摘的人有学者、政治家,还 有教皇和僧侣。
第四阶段:网络检索阶段。
网络信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲高 能粒子协会分别推出了因特网上的检索工具 WAIS、Gropher和WWW。
目前,WWW因其集文本、图像、声音等 多媒体信息于一体的巨大优点,已占信息服务 的主导地位。
在该阶段,系统大多采用分布式的网络化 管理,其信息资源的主要特点是:数字形式表 达、多媒体和多取复杂、 用户界面要求高等。
信息检索多语种化 多语种信息检索将依然是未来网络信息检索 的研究热点,现在对多语种信息检索的支持主 要体现在预先设定检索语言,
其检索结果也限制在预先设定的语言中 。而使用某一种语言直接进行多语种检索,提 供多语种的匹配结果将是多语种信息检索的下 一个方向。
这种单一检索界面的检索将在后台有一个多 语种词库,对用户提交某一语种的检索词自动 在词库中查找对应其他语种的检索词,再提交 给搜索引擎,以多语种检索结果输出给用户。 这种多语种、多信息检索需要机器翻译技术的 支持,并且需要对多语种检索得出的输出结果 相关度或重要性排序进行研究。

第二章 信息检索的基本知识

第二章 信息检索的基本知识

应用举例:
利用《中图法》在《全国报刊索引》中查找 有关“建筑抗震设计”方面的相关文献。 第一步:分析课题,按学科属性属于“T工业技术” 中的“TU建筑科学”大类。 第二步:查《中图法》确定分类号为:T工业技 术—TU建筑科学—TU3建筑结构—TU352.11抗震结 构。 第三步:根据《全国报刊索引》(科技版)的分 类目录给出的TU3建筑结构的页次,得到相关文献。 第四步:根据的出处索取原始文献。
第二章 信息检索的基本知识
主要内容
1.信息检索概述 2.信息检索原理及检索语言 3.信息检索系统与检索工具 4.信息检索的一般程序
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
一条中文书目记录:
题名: 信息检索 作者: 徐天秀 出版项:北京:科学出版社,2006 页码: 320页 价格: CNY23.00 主题: 情报检索 索取号: G252.7/101 内容提要:本书是一本工具型书籍,提供的信息检索学科 范围广,内容尽量以最新版本为主,是一本适用性强的学 习信息检索方法和技巧的专著,尤其是本书配制的多媒体 光盘,为本课程的学习提供了便捷。 分类: G252.7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

黑龙江省计算机软件工程技术研究中心 江苏省计算机软件工程研究中心 中山大学计算机软件研究所 云南省计算机软件技术开发研究中心 计算机软件国家工程研究中心 武汉大学计算机软件工程研究所 贵州大学计算机软件与理论研究所 浙江大学计算机软件研究所
小结:
书目信息检索是利用各种目录、题录 和文摘工具获取有关信息的线索。 例如:
1. 信息标引和存储过程 2. 信息的检索过程
2.1.2 信息检索的实质
将描述特定用户所需信息的提问 特征,与信息存储的检索标识进行 异同的比较,从中找出与提问特征 一致或基本一致的信息。提问特征 是指从欲检索课题中选择出能代表 信息需求的主题词、关键词或分类 号等。
示例一
区域发展中的生态环境特征研究 提问特征(关键词) 1.区域发展 生态环境 2.区域 生态 环境
2. 信息检索原理及技术
2.1 信息检索概述 2.2 信息检索原理 2.3 信息检索方法 2.4 信息检索技术
2.1 信息检索概述
2.1.1信息检索的含义 2.1.2信息检索的实质 2.1.3信息检索的类型和特点
2.1.1 信息检索的含义
信息检索通常是指从任何方式 组成的信息集合中,查找特定用户 在特定时间和条件下所需信息的方 法与过程。因此,完整的信息检索 应包括以下两个方面:
• 各种图书目录、期刊目录 • 国内外著名的题录和文摘有《全国
报刊索引》、《工程索引》(EI)、 《科学引文索引》(SCI)等。
全文信息检索是利用各种全文系统获 取有关的全文信息。
例如:中国科技期刊全文数据库
数据和事实检索是利用各种参考工具 书获取有关的确定性数据或事实信息。
例如:各种百科全书、年鉴、手册等。
示例二
食品中常见病原菌快速检测
提问特征(关键词)
食品、食物 病原菌 检测
2.1.3 信息检索的类型和特点
1. 书目信息检索 2. 全文信息检索 3. 数据信息检索 4. 事实信息检索 5. 小结
书目信息检索
以标题、作者、原文来源、摘要及收藏地点为检 索对象,是一种相关性检索。特点:检索结果不直接 解答课题用户提出的技术问题,只提供与之相关的线 索。一般以目录、索引、文摘数据库为检索工具。
检索工具:中国期刊全文数据库
数据信息检索
以具有数量性质并以数值形式表示的 数据为检索对象,是一种确定性检索。 检索的结果是经过测试和评价过的各种 数据,可用于比较分析和定量分析。它 一般以数据大全、手册、年鉴等为检索 工具。
示例
2008年申请中国发明专利和 获得授权发明专利的国家有哪些?
检索工具 中国统计年鉴
2.2.3 信息检索语言
检索语言又称标引语言, 是系统存储和检索时共同 使用的一种约定语言,以 达到信息存储和检索的一 致性,提高检索效率。
检索语言的类型
分类语言 主题语言
体系分类语言 组配分类语言 混合分类语言 标题词语言 关键词语言 叙词语言 单元词语言
体系分类语言
体系分类语言是按学科逻辑分类的 原理,运用概念划分的方法,按知 识门类从总到分,从上到下,层层 划分,逐级展开组成分类表,并以 分类表来标引、存储信息和检索信 息。特点是体现学科的系统性,反 映事物的平行、隶属和派生关系, 有利于从学科的角度进行族性检索, 达到较高的查全率。
事实信息检索
以事项为检索对象,检索 结果是有关某一事物的具体 答案,也是一种确定性检索。 一般利用字词典、年鉴、百 科全书、手册等为检索工具。
示例
问题:国内计算机软件的研究机构? 检索工具:中国企业、公司及产品数据库 中油油气勘探软件国家工程研究中心有限公司 四川省嵌入式计算机软件技术重点实验室 信息产业部实时计算机系统及应用重点实验室 电子科技大学嵌入式实时计算研究所
例如:查找有关“城市生态环境及 可持续发展”方面的国内外信息有那
些?
检索工具: 中文科技期刊数据库、万方数据资说明书的全文为检索对 象,也是相关性检索。特点:是在书目 信息检索基础上更深层次的内容检索。
例如:检索由侯果山撰写,发表在 小说评论,2009,(S1)“浅谈《红楼梦》 与《家》的相似之处” 一文。
示例 课题名称:相变储能纤维的制备
一、检索目的和要求: 目的:科技立项 要求:国内外有无 1.相变储能纤维制备的研究报道; 2.已采用的制备方法有哪些?
海岸带
湿地 生态环境
示例 二
高性能纤维的制备和研究 关键词:
纤维 制备
2.3 信息检索方法
2.3.1 信息需求分析 2.3.2 制定检索策略 2.3.3 实施检索策略
2.3.1 信息需求分析
信息需求是人们在客观或主 观上就课题所需信息的要求,是 人们检索信息的基本出发点,也 是评价检索效果的依据。它包括 两个方面(参见教材24页) 1. 明确检索的目的和要求 2. 对主题进行分析
关键词语言
关键词语言是一种主题语言(采 用表达某一事物或概念的名词术语 标引、存储和检索的一种语言)。 它是直接从原文的标题、摘要、全 文中,研究课题中抽选出来的具有 实质意义的、未经规范化处理的自 然语言词汇作为存储和检索依据的 一种检索语言。
示例 一
海岸带湿地变化及其对生态环境的影响
关键词:
《中图法》第四版分类体系组成及结构
《中图法》T 工业技术及环境科学 大类简表(二级类目表)
TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学与金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 能源与动力工程
TL 原子能技术 TM 电工技术 TN 无线电电子学、电信技术 TP 自动化技术、计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程
2.2 信息检索原理
2.2.1 信息检索效率 2.2.2 信息检索系统 2.2.3 信息检索语言
2.2.1 信息检索效率
信息检索效率是评价一个检 索系统性能优劣的质量标准,它 贯穿于信息的存储和检索的全过 程。其评价指标主要是:
查全率 查准率
2.2.2 信息检索系统
信息检索系统是拥有一定 的存储、检索技术装备、存 储有各种信息,并能为用户 检索所需信息的服务工作系 统。目前常用的是手工检索 系统和计算机检索系统。
相关文档
最新文档