信息检索基础知识
第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
信息检索基础知识考点整理

信息检索基础知识考点整理●2.1 信息检索的概念与原理●2.1.1 信息检索的概念(重要)●2.1.2 信息检索的原理●信息检索原理就是将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出●信息检索的类型●1.文献检索●2.数据检索●3.事实检索●2.1.3 信息检索的意义/作用(重要)●1.信息检索是有效利用信息资源,实现其最大价值的科学方法●2.信息检索是再学习的工具,是获取知识的有效途径●3.信息检索能有效地提高科研工作的效率,节省人力、物力及时间●2.1.4 信息检索的历程●1.手工检索●2.计算机检索●2.2 信息检索系统(重要)●2.2.1 信息检索系统的概念●1.信息检索系统的含义●2.信息检索系统的工作原理●2.2.2 信息检索系统的构成●1.信息选择子系统●2.信息索引子系统●3.词表管理子系统●4.用户接口子系统●5.匹配子系统●2.2.3 信息检索系统的分类●1.手工检索系统●1.书本式的手工检索系统●2.卡片式的手工检索系统●2.计算机检索系统●1.硬件●2.软件●3.数据库●1.参考数据库●1.书目数据库●2.指南数据库●2.源数据库●1.数值数据库●2.文本—数值数据库●3.全文数据库●4.术语数据库●5.图像数据库●6.多媒体数据库●2.3 信息检索方法(重要)●1.直接浏览法●直接查找法●2.常用法●顺查●倒查●抽查●3.追溯法●4.综合法(分段查找法、循环法、交替法)●2.4 信息检索效果(重要)●2.4.1 信息检索效果评价●信息检索效果的概念●1.检索结果有效性评价●2.检索系统实用性的评价●3.检索费用—效率评价●信息检索效果评价对于信息检索系统的建设和发展的意义●信息检索效果评价的核心问题是建立一套切实可行的评价指标●1.查全率和查准率●2.误检率和漏检率●3.响应时间●其他与检索效果相关的指标●2.4.2影响信息检索效果的因素●1.标引的质量●2.检索途径的数量●3.检索策略的优劣●4.检索人员的素质。
第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网
它
7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;
第二讲信息检索基础

回 顾
●
本讲主要内容
● ●
信息检索概念 信息检索意义 信息检索原理 信息检索类型 信息检索途径 信息检索方法
●
信息检索技术 信息检索策略 信息检索步骤
●
● ●
●
Hale Waihona Puke 信息检索语言信息检索利用
●
●
●
有一种能力与生俱来
有一种能力终身受用------信息检索
信息检索概念
南航学生事务服务中心:【名家讲坛】4月8 日19:00在一号楼四楼报告厅,延参法师邀 请你一起《快乐看人生》!本次讲座将凭票 入场,但入场券只提供入场资格,现场座位 先到先得!入场券将在本周日(3月31日) 16:00在学生事务服务中心办公室免费领取, 领完为止,同样先到先得哦!邀你的同学一 起聆听大师的教诲吧!
信息检索途径
是由提取信息源的外部与内部特征形成 的,又称为检索点或检索入口
题名 责任者 号码 (专利号、标准号等) 出版信息 丛编 装帧 责任者单位
分类 主题
外部特征 信息(文献)
内部特征
文献外部特征主要检索途径:题名 责任者 号码 文献内部特征主要检索途径:分类 主题
信息检索方法
德国柏林图书馆门前有这样一段话:“这里是知识的宝库, 你若掌握了它的钥匙,这里的全部知识都是属于你的。”
信息检索类型
信息检索类型
按检索对象性质: 文献检索:凡是以文献(包括文献线索、文摘、题录 和 全文)为检索对象的一种检索。检索结果是特定文献线索。 移动通信病毒文献有哪些? 数据检索:凡是以数据(包括计算公式、化学分子式、数 值、图表(参考工具书) )为检索对象的叫数据检索。 检索结果是数值性数据。今日人民币对美元汇率 事实检索:统计资料、百科知识、人物传记、案例等世界 上最长的斜拉桥是哪座,该桥位于什么地方,何时建成? 按检索方式:手工检索 计算机检索
信息检索基本知识

T
TB TG TH TE …… TU TV
TB1
TB2
TB3
TB4
…… TB48 …… TB488
……
TB482
TB489
T—工业技术类中图法举例
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
二、文献信息源类型
文献可按不同的方法分类描述,比较常见 的分类方法有如下三种: 按信息的载体形式划分(印刷、胶片、 电子文献等); 按信息加工的级别划分(四次文献); 按信息的发布形式划分(十大文献信 息源等)
1、按文献的载体形式划分
• 印刷型(Printed form):以纸张为载体 • 缩微型(Microform):以感光材料为载体:胶片 • 声像型(Audio-Visual form):以声像记录材料为 载体:磁带 • 电子型(Machine Readable form):以计算机信息 存储设备为载体 :软磁盘、光盘、硬盘等
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
• 国际十进分类法(UDC: UDC(Universal Decimal Classification)
又称为通用十进制分类法。是世界上规模最大、用户 最多、影响最广泛的一部文献资料分类法。原由比利 时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类 法》第6版的基础上编成。近百年来,UDC已被世界 上几十个国家的10多万个图书馆和情报机构采用。 UDC目前已成为名符其实的国际通用文献分类法。
信息检索基础知识

第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。
信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。
这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。
运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。
信息已成为与物质、能量同样重要的三大资源之一。
信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。
文献:将知识记录并保持在一定的载体上,就形成了文献。
文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。
2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。
信息检索基础

信息检索基础信息检索是指通过计算机系统从大规模的信息资源中获取有用的、相关的和准确的信息的过程。
在信息爆炸时代,信息检索的重要性越来越突出。
本文旨在介绍信息检索的基础知识,包括检索模型、检索评价以及检索技术。
一、检索模型检索模型是信息检索系统中的基本框架,它描述了用户如何提出查询并获取相关文档。
常见的检索模型有布尔模型、向量空间模型和概率检索模型。
1. 布尔模型布尔模型基于布尔代数,将查询和文档都表示为由逻辑操作符(AND、OR、NOT)连接的词项。
用户通过在查询中使用逻辑操作符来指定信息需求,系统根据查询与文档的逻辑关系进行匹配和检索。
2. 向量空间模型向量空间模型基于向量空间理论,将查询和文档都表示为向量。
每个向量的维度是词项,向量的值表示对应词项的权重。
用户的查询和文档都被映射到向量空间中,并通过计算查询向量与文档向量之间的相似度来进行检索排序。
3. 概率检索模型概率检索模型基于概率论,通过估计查询和文档之间的相关性概率来进行检索。
常见的概率检索模型有BM25模型和语言模型。
BM25模型利用词项频率和文档长度进行计算,语言模型则将检索看作是从语言模型中生成查询和文档的过程。
二、检索评价检索评价是衡量信息检索系统效果的重要方法,常见的评价指标有召回率、准确率、F1值和平均准确率(MAP)。
1. 召回率召回率是衡量检索系统找到相关文档比例的指标,计算公式为:召回率=找到的相关文档数/相关文档总数。
召回率越高,系统找到相关文档的能力越强。
2. 准确率准确率是衡量检索系统返回的文档中真正相关的比例的指标,计算公式为:准确率=真正相关的文档数/返回的文档总数。
准确率越高,系统返回的文档质量越高。
3. F1值F1值综合考虑了召回率和准确率,计算公式为:F1值=2*(召回率*准确率)/(召回率+准确率)。
F1值越高,系统综合检索能力越好。
4. 平均准确率(MAP)MAP是针对多个查询的评价指标,计算公式为:MAP=(查询1的准确率+查询2的准确率+...+查询n的准确率)/查询总数。
信息检索基础知识

信息检索效果的评价
评价指标: 漏检率
漏检相关文献量 漏检率 100% 系统中相关文献总量
误检率
误检文献量 误检率 100% 检出文献总量
影响检索效果的主要原因
信息系统组织结构、检索系统功能
问题
检索策略、检索方法问题
提高检索效果的措施
熟悉各种信息系统特征
认真分析课题需求 灵活掌握检索方法和提高制定检索
信息检索的步骤
分析研究课题
制定检索需求描述 调整检索策略 索取原始文献
分析研究课题
明确以下问题:
分析客体的主要内容以及所涉及的知识点
明确所需要的文献种类、语种、年代以及
文献量。 明确对查新、查准、查全的指标要求以及 侧重点 确定所需要的文献应该具备的内外部特征。
分析研究课题
课题检索的类型:
查全型:开题报告、综述等 查准型:在具体细微的专业问题方面的研究 动态型:新技术、新理论的研究 查新型:同类研究项目比较
信息检索效果的评价
评价指标: 查全率(检全率)
检出相关文献量 检全率 100% 系统中相关文献总量
查准率(检准率)
检出相关文献量 检准率 100% 检出文献总量
策略的能力
第一部分 信息检索基础知识
主讲:戴 锋展
信息检索定义与分类
主要检索系统类型 信息检索效果评价
信息检索的作用
有利于减少课题的重复研究、提高
科研成功率
有助于节约时间、提高科研效率
切忌用来拼凑论文
信息检索的发展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
TP 自动化技术、计算技术
3 计算技术、计算机
31
计算机软件
316
操作系统
.1
分时操作系统
.2
实时操作系统
.7
Windows操作系统
39
计算机的应用
… F25 物资经济 F250 物资经济理论 F252 物资流通
… F5 交通运输经济 F50 交通运输经济理论
… F53 铁路运输经济 F54 陆路、公路运输经济
匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
精选ppt
3
信息检索一般过程
信息源
信息分析、 著录、标引
信息的表示
用户
检索语言
用户需求分析
数据库 匹配过程
输出检索结果 精选ppt
检索表达式
4
信息检索的过程往往需要一个评价反馈途径,多次比较匹配, 以获得最终的检索结果。其图示如下:
9
责任者 及其单位
中图分类号 文献标示码
关键词
正文
精选ppt
题名 摘要
10
分类语言
也属于主题语言。分类语言是按学科范畴划分而构成的一 种语言体系,它集中反映学科的系统性、反映它们的相关、 从属、派生等关系,从总体到局部分层、分面展开,形成 分类体系。由类目号码及名称作为检索语言,构成分类类 目表,如前述图书分类表、专利分类表用的都是分类语言 。
13
……
主题语言
包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同 的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词 汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语
言与非规范主题语言。
规范主题语言:规范主题语言是以自然语言为基础,经过标准化、规范化处
非规范主题语言:它是相对于规范主题语言而言的,以自然语言的语词作检
索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和
纯自然语言。
※ 关键词语言
直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内容 的自由词。
※ 纯自然语言
指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它 采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使 用纯自然语言中检索中最大的问题是误检率极高。
精选ppt
2
检索的基本原理
信息检索基本原理的核心是用户信息需求与文 献信息集合的比较和选择, 是两者匹配(match)的 过程。 一方面是用户的信息需求, 一方面是组织有序的 文献信息集合,检索就是从用户特定的信息需求 出发,对特定的信息集合采用一定的方法、技术 手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。
精选ppt
15
★关键词的提炼
1、反映信息概念的准确性(作为检索词应当科学,表达的意思要准确,普遍使用,同时 应该简明、精练,尽可能简短明了,易输易检,词汇不宜过长)
理的词语,具有概念性、规范性、组配性、语义性和动态性。规范主题语言包括 单元词语言、标题词语言和叙词语言。
*单元词语言
是一种最基本的、不能再分的单位词语,亦称元词,它从文献内容中抽出, 再经规范,能表达一个独立的概念。比如“天气雷达”不是单元词,只有“天气” 和“雷达”才是单元词,在英语中,单元词经常是一个单词。如《WPI----规范化 主题词表》
具体体现为用分类号和类名来表达信息的主题概 念,如F25 物资经济
*中国图书馆图书分类法(5部类,22大类)
*美国国会图书馆分类法
* 杜威十进位分类法
* IPC国际专利分类法精选ppt
11
中图法大类表
精选ppt
12
《中图法》体系细分如下所示:
F 经济
T 工业技术
F0 经济学 F1世界各国经济概况、经济史、经济地理
第二章 信息检索基础知识
一 信息检索 二 信息检索语言、途径 三 信息检索技术 四 检索步骤
精选ppt
1
一、信息检索
信息检索:是指将信息
(主要指文献信息)按一定 的方式组织和存储起来,并 根据用户的需要找出相关信 息的过程。
信息检索
存储 检索
存检储索::是是对指信面息向进信行息著需录求、 标而引进、行整高序度,选编择制性检的索查工找 具过和程建。立检索系统的过程。
作用:1)、保证不同标引人员表征文献信息的一致性。
2)、使内容相同及相关的文献集中化。
ቤተ መጻሕፍቲ ባይዱ
3)、保证检索提问与文献信息标引的一致性。
4)、保证检索者按不同需求检索文献信息时,
都能获得最高的精选查ppt 全率和查准率。
7
2、检索语言的类型
检 索
表述文献外部 特征的语言
题名 责任者 机构 号码
语
言
分类法
的
391 391.7 391.72 391.73
信息处理(信息加工) 机器辅助技术 CAD CAM
F55 水陆运输经济 F56 航空运输经济 F57 城市运输经济
… F74 国际贸易
……
F740 国际贸易理论与方法
……
U 交通运输
U16 特种货物运输
U169 集装箱运输
精选pUp1t 69.6 集装箱运输管理
精选ppt
5
二 信息检索语言、途径
1、检索语言的含义及作用 2、检索语言的类型 3、检索途径
精选ppt
6
1、检索语言的含义及作用
检索语言:用于描述信息系统中信息的内容特征及外部特征和表达
用户信息提问的一种专门语言。它要求文献的标引者和检索者共同遵守。 按其使用的场合不同,检索语言常使用不同的名称,在存储的过程中用 来标引文献,称为标引语言,用以编制索引就称为索引语言,用来检索 文献则称为检索语言。是根据检索需要而创造的一种人工语言。
表述文献内部
类
特征的语言
主题法
型
单元词语言 标题词语言 叙词语言 关键词语言 纯自然语言
精选ppt
8
信息特征与标识对应关系
特征 外表特征
主题特征 内容特征 分类特征
标识 标题、作者、 主题词、 文摘、说明、 分类号 作者工作单位 关键词 全文
对应 精确对应
模糊对应 模糊(精确) 模糊对应 对应
精选ppt
*标题词语言
是从文献的题目和内容中抽出来,经过规范化处理的主题语言。美国工程信息公
司出版的《工程标题词表》(简称SHE)是典型的标题词语言,但该公司1993年以后
改用《工程索引叙词表》(Ei Thesaurns精)选。ppt
14
* 叙词语言
是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组 配的一种主语语言。如《汉语主题词表》、《INSPEC叙词表》(《科学文 摘》)、《工程索引叙词表》等。