第二讲 信息检索基本原理与方法

合集下载

信息检索的基本原理与方法

信息检索的基本原理与方法
算、比较和数学推导,也包括非数值数据 (如事实、概念、思想、知识等) 的检索、比较、演绎和 逻辑推理。
它要求检索系统不仅能够从数据 (事实) 集合中查出原来存入的数据或事实,还能够从已有的
基本数据或事实中推导、演绎出新的数据或事实。
例如,该系统中存储有如下事实:①李明是A校的学生。②A 校的学生都学外语。如果该系统
(3)、光电检索:即把检索标识变成黑白点矩阵或条形码,存储在缩微胶片 (卷)上,利用光电效应, 通过检索机械进行查找。
(4)、计算机检索:即把情报及其检索标识转换成电子计算机可以 阅读的二进制编码,存储在磁性载体上,由计算机根据程序进 行查找与输出。根据检索者同计算机进行的不同通信方式,计 算机检索又可以分为脱机检索、联机检索及多机网络化检索等。
信息检索的意义和作用主要是能有效提高人们检索信息和利 用信息的效率。对大学生来说,文献信息检索是培养学生能 力的基本技能和方法之一,最主要的是自学能力、研究能力、 思维能力、表达能力和组织管理能力的培养,是科学研究不 可缺少的一项工作。
具体地说信息检索有下面三个方面的作用:
(1).信息检索是获取知识的捷径
检索标识是信息存储时,对信息内容进行分析提出能代表信息内容实 质的主题词、分类号或其它符号,硅藻土、通用塑料、工程塑料、特种 塑料等、聚氯乙烯、聚乙烯、聚丙烯、聚酰胺、聚酰亚胺、聚酯、玻璃 钢等都是检索标识。
检索时,将提问特征与检索标识进行对比匹配,若达到一致或部分一 致,即为所需信息。
2、信息检索的起源
(3).信息检索是终身教育的基础
学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能
力、表达能力和组织管理能力。
联合国教文组织提出,教育已扩大到一个人的整个一生,认为唯有全面

第二讲 检索原理 (2)

第二讲 检索原理 (2)

五、主题语言:标题词语言
标题词语言:是最早出现的一种主题法类型。是以标题
词作为文献内容标识和检索依据的主题语言。 标题词:是从文献题目和内容中抽选出来,经过规范化 处理,用以描述文献内容特征的词,词组或短语。一般 分为主、副标题词。 1.标题词法的原理 是从科技人员熟悉的大量科技名词术语中,选出具 有实质性意义的科技名词术语,经过规范化处理,作为 标识,来直接表达文献所论及的事物──主题,而不管 该文献是从哪个角度,哪个学科来论述该事物主题的, 并将全部标识按字顺排列,而不管各个标识所表达的事 物──主题之间的关系。
自动设计 CAD CAM

......
2.体系分类法的结构





我国广泛使用的《中国图书馆图书分类法》简称《中图法》,就是一种典型 的体系分类法,它由编制说明,基本大类,简表,详表,辅表五个部分组成。 现以1999年出版的第四版《中图法》为例,说明体系分类法的结构。 (1)编制说明:包括该分类法的编制过程,所依据的编制原则、部类及 大类的设置和次序的理由,对各种分类问题的处理方法,标记方法,使用方 法等。 (2)基本大类:采用五个基本部类。即马克思、• 列宁主义毛泽东思想, 哲学,社会科学,自然科学,综合性图书。在此基础上组成了22个基本大类 (一级类目) (3)简表 由三级类目组成,是《中图法》的基本类目表,浏览简表可 以很快了解整个分类体系的概貌,归类查表时只有从简表入手查详表,才能 做到准确快速。 (4)详表 又叫主表,由类号、类目和注释组成。 (5)辅表 也叫复分表,• 用来对主表中所例举的类目进行细分,可分为 “通用复分表”和“专用复分表”。
索词,与它后台数据库中存储的文件关键词进行比 对,如果能够匹配,就认为这条信息是你需要的, 立刻输出给你。

信息检索基本方法和基本技术

信息检索基本方法和基本技术

(1)使盲目的分散检索成为有目的的集中检索,因为检索
工具将分散在不同学科、不同类型、不同语种中,但主题内
容相同的文献集中在一起,这样就可避免直接检索的分散性、
盲目性,大幅度提高检索效率。
(2)检索工具中的信息源不限于某一个或儿个信息机构,
这样就可以为读者提供广泛的信息来源。
(3)提供有规律的检索途径,因而检索者只要掌握检索工
2.1 信息检索原理、类型与方式
一、信息检索原理
信息检索的基本原理是:通过对大量的、分散无序的文献
信息进行收集、加工、组织、存储,建立各种各样的检索系
统,并通过一定的方法和手段使存储与检索这两个过程所采
用的特征标识(特征标识是指从自然语言中精选出来的并加以
规范化处理的一套特殊符号或代码)达到一致,以便有效地获
户通过检索获取的是原文的“替代物”。
2)数据信息检索
利用参考工具书、数据库等检索工具检索包含在文献中
的某一数据、参数、公式或化学分子式等,统称为数据信息
检索( Data Retrieval)。其检索结果为数据信息。信息用户
可用通过检索获得的经过核实、整理的数值信息再作定量分
析。
上一页 下一页 返回
2.1 信息检索原理、类型与方式
通过对大量的分散无序的文献信息进行收集加工组织存储建立各种各样的检索系统并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识特征标识是指从自然语言中精选出来的并加以规范化处理的一套特殊符号或代码达到一致以便有效地获得和利用信息源
第二章 信息检索基本方法和 基本技术
2.1 信息检索原理、类型与方式 2.2 信息检索语言与工具 2.3 信息检索的方法、途径与程序 2.4 计算机信息检索

第二章信息检索

第二章信息检索
(nN):表示算符两侧的检索词之间允许插入0-n个实词或系统禁用词, 两词词序可变。 如: 智能机器人(3N)控制,可检出“智能机器人控制”,“..控制 算法对智能机器人的影响”等
位置运算
同句检索: 要求参加检索运算的两个检索词必须在同一自然 句中出现。
位置运算符: (S)--sentence
同字段检索:对同句检索条件进一步放宽,可以使用同字段 检索。
为了保证信息能存得进、取得出,就必须使信息存储所依 据的规则与信息检索时所依据的规则尽量做到一致。
提问(检 索)语言
匹配
信息标 识语言
信息检索的基本原理
信息处理人员
用户
信息分析、著录、标引
检索语言
信息需求分析
信息的表示
数据库 匹配比对 输出检索结果
检索提问
三、信息检索的类型
按信息检索的内容,信息检索可分为:
逆查法:也叫倒查法,与顺查法相反,是利用所选定 的检索工具,按照由新到旧、由近及远、由现在到过去的 逆时序逐年前推查找,直至满足课题要求为止的查检方法。
这种方法多用于新课题、新观点、新理论、新技术的 检索,检索的重点在近期信息上,只需查到基本满足需要 时为止。倒查法的目的是要获得某学科或研究课题最新或 近一段时间内所发表的文献或研究进展状况。此方法省时, 查得的信息有较高的新颖性,但查全率不高。
2、题名途径 通过文献的题名来查找, 包括文献的篇名、书名、 刊名等。
第三节 信息检索途径
3、分类途径 按学科分类体系来检索文 献。这一途径是以知识体 系为中心分类排检的,较 能体现学科系统性,反映 学科与事物的隶属、派生 与平行的关系。
4、主题途径 通过反映文献资料内容的主 题词来检索文献,便于用 户对某一问题、某一事物 和对象作全面系统的专题 性研究。

第二章 信息检索的原理与方法

第二章  信息检索的原理与方法

主题语言是采用规范化或不规范化的自然语 言作为文献资料内容的标识符号。这种检索标 识表达概念比较直接,便于检索,同时不受体系的 约束,增删灵活。 主题语言根据文献中研究对象的主题集中文 献,把同一主题的文献用字顺集中,同一学科的文 献可能分散到不 同的主题词标题下。 主题语言可以直接采用新的事物名称为主题 反映边缘学科、交叉学科和新技术等,同时对具 有复合主题文献的表达比较直观。
检索途径
文献代码 途径
按文献固 有的号码顺 序进行检索 的途径。如, 标准号索引、 报告号索引、 专利号索引、 专利对照索 引、合同号 索引等。
检索途径
检索途径
分类途径
按照文献信息所属学科体系来检索文献的 一条途径,是文献检索的主要途径之一。常用 的检索工具有分类目录和分类索引以及各数据 中的分类导航等等。。 我国的图书馆普遍采用《中图法》,了解 《中图法》的分类体系、掌握本专业领域文献 资料的分类号是使用分类途径检索文献的关键。
数据、事实检索
《中国大百科全书》:中国第一部大型综 合型百科全书,15年编撰完成,共74卷。 世界最著名的百科全书(百科全书A、B、 C):
《新不列颠百科全书》EB
《美国百科全书》 EA
《科利尔百科全书》EC
数据、事实检索
年鉴:
almanac一般为综合性年鉴,yearbook为
专科年鉴,但实际上彼此并无严格区别。年 鉴是一种按年编纂出版的参考工具书,它汇 集了一年之内的新闻、事件、数据和统计资 料,按类编排。
I I2 I24 I247 I247.4 I247.5 I247.7 I247.8 I25
文学 中国文学 小说 建国后作品 章回小说 新体长篇、中篇小说 新体短篇小说 故事、微型小说 报告文学

文献检索,信息检索(2)第二章 信息检索原理

文献检索,信息检索(2)第二章  信息检索原理

数据库
检索提问
匹配过程
输出检索结果
二、信息检索的类型
按检索内容划分 1、文献检索
是以文献为检索对象的信息检索。
2、数据检索
是以数据为检索内容的信息检索,要求
从检索系统存储的大量原实检索
是以具体事项为检索内容的信息检索, 要求从检索系统存储的各种原始信息资源中查出专门的 事实材料。
三、检索工具的结构
(一)计算机检索工具结构 1、检索软件 (二)手工检索工具结构
1、使用说明(凡例)
2、目次表 3、正文 4、辅助索引 5、附录
2、数据库
(1)字段 (2)记录
(3)文档(顺排、倒排)
(4)帮助文件
工具书的类型
类型 概念 内容 举例 提供可资参考的知 根据特定的社会需要, 识 内 容 , 如 数 据 、 字典、词典、百科 广泛汇释一定范围内 史实、观点、结论、 全书、类书、政书、 比较成熟的知识,按 定 义 、 公 式 、 分 子 年鉴、手册、名录、 一定的规则编排组织 式 、 人 物 简 介 等 数 表谱、图录等 的工具书。 据和事实信息。 又称线索性工具书 提供查找文献线索 书目、索引、文摘
分类途径 信息内部特征 检索途径 信息外部特征 主题途径 关键词途径 题名途径 著者途径 其它途径
一、根据信息内容特征的检索途径 二、根据信息外部特征的检索途径
第四节
检索工具
检索工具:是在不同学科范围内对 一、检索工具的功能 某阶段出版的有关文献进行收集、整理 二、检索工具的类型 或对新文献加以及时报道的二次文献。
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,

信息检索的基本原理与方法

信息检索的基本原理与方法
安徽工业大学图书馆信息检索教研室
★★2)主题语言
• 主题语言:是一种描述语言,即用自然语言 中的名词、名词性词组或句子描述文献所论 述或研究的事物概念 。 • 例如:我们在搜索引擎中查找文献时输入的 “汽车燃料”就是主题语言的一种。 • 特点:直接用词语来表达各种概念。通过概 念组配用于表达任何专指概念。具有较高的 专指性,便于特性组配检索,直指性强。
安徽工业大学图书馆信息检索教研室
2)文摘检索系统
• 文摘检索系统:用于对信息题录和文摘 的检索,检索结果一般是文献的来源信 息。
• 常用文摘检索系统:工程索引(EI)、 科学引文索引(SCI) 、社会科学引文 索引(SSCI)
安徽工业大学图书馆信息检索教研室
• EI
EI检索界面
检索词 选择字段
安徽工业大学图书馆信息检索教研室
信息检索
Information Retrieval
主讲:李延信
安徽工业大学图书馆信息检索教研室
第二讲 信息检索 基本原理与方法
信息检索
——掌握航海工具
安徽工业大学图书馆信息检索教研室
主要内容
• 2.1 • 2.2 • 2.3 • 2.4 • 2.5 • 2.6 信息检索原理 检索系统 检索语言 检索技术 检索策略 信息检索评价
安徽工业大学图书馆信息检索教研室
文献检索的常用途径
• 1.题名 :注意题名关键词的排序特征 • 2.作者 :通常按姓在前名在后方式检索 • 3.分类 :我国高校与公共图书馆的文献资料,一般采用《中国 图书馆图书分类法》(简称《中图法》)进行分类。 • 4.主题词:主题是指表征文献内容特征、经过规范化的名词术 语。检索者通过检索这些规范的词语来找到所要的文献和情报。 《现代汉语主题词表》 • 5.关键词:直接从文献的篇名或文摘或全文中抽取出来的非规 范化检索词。 • 6.顺序号检索:专利号,标准号,合同号、研究报告号等。 • 7.全文检索 : • 8.引文检索:利用被引文献来查找原文献的检索方法。如: CNKI中国知网被引用字段,维普中文期刊数据库引文检索途径。 • 9.其它:超文本检索,基于概念的自然语言检索,图象等。

计算机的信息检索技术有哪些详解信息检索的基本原理与方法

计算机的信息检索技术有哪些详解信息检索的基本原理与方法

计算机的信息检索技术有哪些详解信息检索的基本原理与方法信息检索是指通过计算机技术,从大量数据中快速找到所需信息的过程。

随着互联网的普及和信息爆炸的时代,信息检索技术的重要性日益突出。

本文将详解信息检索的基本原理与方法,以及常见的信息检索技术。

一、信息检索的基本原理信息检索的基本原理是通过索引和检索两个步骤实现的。

首先,在建立索引的阶段,将待检索的数据进行预处理,提取出关键词和相关信息,并建立索引文件。

索引文件包含了每个文档中所有的关键词及其所在位置的信息。

其次,在检索的阶段,用户输入检索词,系统根据索引文件快速定位到相关文档,并将其返回给用户。

二、信息检索的方法1. 布尔检索法布尔检索法是最早的信息检索方法之一,它通过逻辑运算符(例如AND、OR、NOT)将用户检索词与索引文件中的关键词进行匹配,从而找到满足要求的文档。

这种方法简单直接,但需要用户具有一定的逻辑思维能力。

2. 向量空间模型向量空间模型将文档表示为向量,并利用向量之间的相似度进行检索。

在该模型中,每个文档可以看作是一个向量,而检索词也可以转换为向量。

通过计算文档向量与检索向量之间的相似度,可以确定与用户需求最匹配的文档。

3. 概率检索模型概率检索模型基于信息检索的概率理论,利用检索词在文档中出现的概率和文档的相关性进行检索。

常见的概率模型包括贝叶斯模型和语言模型。

这种方法能够更准确地计算文档与检索词的相关性,提高检索结果的质量。

4. 自然语言处理技术自然语言处理技术在信息检索中起着重要的作用。

通过对自然语言的分析和理解,能够更好地理解用户查询的意图,并将其转化为机器可理解的形式。

常见的自然语言处理技术包括词法分析、句法分析和语义分析。

三、常见的信息检索技术1. 网页搜索技术网页搜索技术是信息检索中最常见的应用之一。

通过搜索引擎,用户可以快速找到互联网上的相关信息。

网页搜索技术常用的算法包括页面排名算法(例如PageRank算法)和关键词匹配算法(例如倒排索引)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档