4-信息检索基础

合集下载

信息检索知识点

信息检索知识点

信息检索知识点 Revised by Liu Jing on January 12, 2021信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。

2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。

3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。

存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。

检索过程是存储过程的逆过程。

因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。

4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。

缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。

第一讲 信息检索 PPT课件

第一讲 信息检索 PPT课件

第一节 信息 知识 情报 文献
2.知识 知识是人类认识的成果或结晶,是系
统化信息的集合. 知识的属性:
意识性 信息性 实践性 规律性 继承性 渗透性
第一节 信息 知识 情报 文献
3.文献 知识借助于一定的语言形式或物化为某
种劳动产品的形式,就成为可以交流的 文献。 文献的三要素:知识、载体、纪录方式。 文献的属性:知识信息性、客观物质性、 人工纪录性、动态发展性等。 文字形式的文献变成数据形式即称之 为电子文献。
信息的重要性(二)
从知识层面上理解
知识经济建立在知识 材料、 消耗 不可 不可 利用与创新的基础上, 能源 性 共享 再生 知识创新需要大量的
信息做原料。
信息与材料、能源 被称为当今社会的三 大资源
信息
非消 耗性
可共 享
可再 生
二、信息意识和信息素质
信息意识:是人们对各种信息的自觉 心理反应。
第一节 信息 知识 情报 文献
4.情报 在英汉词典中,“information”可译
为“信息”,也可译为“情报”. 情报:人们在一定的时间内为了一定
的目的而传递的有使用价值的知识. 情报的属性:知识性、传递性、效用性。 情报交流:直接交流和间接交流
第一节 信息 知识 情报 文献
信息的重要性 从情报的层面上理解 1.信息决定战争的胜负 2.信息决定企业的兴衰 3.信息是领导决策的依据。
二、文献的出版类型
按出版类型文献划分以下十大类:
(1)图书 (2)期刊(3)会议文献 (4)科技报告 (5)专利文献 (6)学位论文(7)标准文献 (8)政府出版物(9)产品资料 (10)技术档案
二、文献的出版类型
1.科技图书(Sci-Tech book) 阅读类:科普读物、专著、文集等 工具类:百科全书、年鉴、手册、词典等。

第4章 信息检索技术

第4章  信息检索技术

如:?经济 则数据库中含有经济、工业经济、农业经济 等方面的文献均为命中文献。
3、中截断 (通用字符法或屏蔽)
是把截断符号置于一个检索词的中间,对词中 间出现变化的字符数加以限定。一般中截断仅允许 有限截断。
应用:用于英美单词的不同拼写方式或单复数的 特殊变化。
例如: defence defense
作用:扩大检索范围,增加命中文献量;提高检 索结果的查全率。3、逻辑“非”———————————————A
逻辑运算符: 逻辑表达式为: B
“not”或“-” A not B 或 A-B
其含义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
例如,在EI COMPENDEX(1998)文档中 检索提问式 SS PATENT NOT GERMAN 所得结果为: S1 S2 S3 110 325 108 PATENT GERMAN PATENT NOT GERMAN
1. 后截断 将截词符号放在一个字符串的右方,满足截词符左 方所有字符的记录都为命中记录。 无限截断:是在检索词词干后面加一个截词符,表 示不限制词尾可变化的字符位数,即查找词干相同的所有 词。例: comput* 表示允许其后可带有任何字符且数 量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、 computerized、computation、 computations、 computational、 computationally 等词。
主题字段 (基本字段)
标题、叙词、关键词、文摘、 分类号等
字段 非主题字段 (辅助字段)
作者、作者工作单位、连续 出版物编号、使用语言、出版 者等

网络信息资源检索4

网络信息资源检索4
现在大多数网络检索工具都是采用一种称为 Robot(又称为:Spider, Worms,Wanders等)的 网络自动跟踪索引程序。它实际上是一个在网络上检 索文件且自动跟踪该文件的超文本结构并循环检索被 参照的所有文件的软件。不同的自动索引软件所采用 的标引、搜索策略不同,自动索引软件搜寻、标引网 页的方式对信息检索的质量有直接影响。
第四章 Internet信息检索 1 2 3 4 网络信息检索的一般方法 网络信息检索工具 相关网络信息检索技术 搜索引擎及其原理
1 网络信息检索的一般方法
1.1 浏览
1.2 通过网络资源指南来查找信息 1.3 利用搜索引擎进行信息检索
1.1 浏览

(1)偶然发现。
这是在因特网上发现、检索信息的原始方法。
等功能。
2 网络信息检索工具
网络信息检索工具是指在因特网上提 供信息检索服务的计算机系统,其检索的 对象是存在于因特网信息空间中各种类型 的网络信息资源。
近来具一般是由自动索引程序、 数据库和检索代理软件组成的。
自动索引程序
即在日常的网络阅读、漫游过程中,意外发现一些
有用信息。这种方式的目的性不是很强,其不可预 见性、偶然性使检索过程具有某种探索宝藏的意味, 也许会充满乐趣,但也可能一无所获。

(2)顺“链”而行。
指用户在阅读超文本文档时,利用文档中的链接从一网
页转向另一相关网页。有些类似于传统文献检索中的“追溯 检索”,即根据文献后所附的参考文献目录去追溯相关文献, 一轮一轮地不断扩大检索范围。这种方式可以在很短的时间 内获得大量相关信息,但也有可能在“顺链而行”中偏离了
3、提供检索服务 用户输入关键词进行检索,搜索引擎从 索引数据库中找到匹配该关键词的网页;为 了用户便于判断,除了网页标题和URL外, 还会提供一段来自网页的摘要以及其他信息。

3信息需求及其表达4信息检索基础

3信息需求及其表达4信息检索基础

中国图书馆分类法的体系结构
大类( 22 个):
A 马克思主义、列宁主义、 毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济
一个字母表示一个大类,称为一级类目
O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医学、卫生 S 农业科学 T 工业技术 TH 机械、仪表工业 TM 电子技术 TN 无线电电子学、电 讯技术 TP 自动化技术、 计算技术 TQ 化学工业 TS 轻工业、手工 业
结论:做科研、发明之前,应利用信息检索来避免重复的研究,从而少走弯 路。
2. 检索语言
2.1 定义
检索语言是文献信息存储和检索过程中共同使用
的一种专门语言,用于描述检索系统信息的内部及外
部特征和表达用户信息需求,是编制检索工具的依据。
2.2 类型——按照描述文献的基本特征划分
不同的检索语言构成不同的标目及索引系统,提供各种检索点(即检索途径)
查阅文献 计划思考 实验研究 书写报告
计划思考 15%
科 研 人 员 时 间 分 配 表
1.5 信息检索的意义
提高信息查询的效率
全世界每年出版的图书有80万种以上,科技期刊8万种以
上,发表期刊论文大于600万篇以上;公开的专利说明书100多
万件;国际会议文献1万多件;美、英、德、日等国产生的科 技报告达20万件左右。 具备一定的信息检索能力,才能在浩如烟海的文献中,快 速、有效地查找出有用的信息。
明确的因素:一个月内 不明确的因素:外观、用途、厂商品牌; 不十分明确的因素:①价格在15万元左右多大幅度(是10万-20万, 还是14万-16万);②较高的性价比是指在一定价格前提下哪些主要部 件的技术含量及其指标。

第4章 国内常用信息检索工具(系统)

第4章 国内常用信息检索工具(系统)

4.1 文献检索-全国报刊索引
《全国报刊索引》:由上海图书馆编辑出版, 一种题录类综合性的检索工具,月刊分为:哲 学社会科学版和自然科学版两种。目前提供网 络版检索 《全国报刊索引》综合数据库从1993年开始编 辑发行 为了全面报道国内中文报刊资源,2004年起推 出了《全国报刊索引数据库-目次库》,收录 各类报刊近万种,几乎包括了国内(包括港台 地区)所有的中文报刊资源

4.2 常用系统-中文常用系统简介
这里主要介绍的是综合性检索系统
中国知网 万方数据 维普期刊 国家科技图书文献中心(外刊、外文资源)

4.2 常用系统-中国知网简介
中国知网:由清华大学、清华同方发起,始建于 1999年4月。以实现全社会知识资源传播共享与增 值利用为目标 /index.htm 经过十几年的发展,中国知网已经成为目前中国常 用的检索系统平台 它的检索功能与界面也几经更新,目前最新的知识 发现网络平台(简称KDN) /help/AssistDocument/KDN/ht ml/main.htm 知网概览:资源、导航、数字化学习研究以及个人 /机构图书馆
目前年鉴总计2000种
按行业分成二十一类行业,同时按照地方年
鉴按照区域分成34个省和区域 1949年至今 提供年鉴整刊导航
4.2 常用系统-中国知网工具书及知识元检索
除了上述常见文献及年鉴的数据库,知网还
提供工具书及知识元的检索。
4.2 常用系统-中国知网概念知识元检索
4.2 常用系统-中国知网其他服务
新版知网提供更多服务,例如数字图书馆系

4.1 文献检索-人大报刊复印资料





第四章网络信息检索

第四章网络信息检索

搜索引擎检索技巧 • 简单检索 • 双引号(“”)检索
• 加号(+)检索:强调某个词汇必须出现在搜

• • • • • •
索结果中。 减号(-)检索:强调某个词汇必须不出现在 搜索结果中。
括号()检索: 空格检索 通配符(*?)检索: 区分大小写检索 布尔逻辑检索 元词检索
(四)常用中文搜索引擎及特点
(二)网络信息检索的一般方法 • 浏览 • 通过网络资源指南查找信息 • 利用网络信息检索工具查找信息:Web 网检 索工具---搜索引擎。 将位于全世界不同地点的相关信息资源 有机地编织在一起,用户通过internet 调来 所希望得到的所有文本、图像、影视和声 音等信息。
(三) www搜索引擎
1996年2月提供服务的台湾蕃薯藤搜索引擎, 标志着中文搜索引擎的正式开始。之后哇 塞、奇摩、悠游等一批中文搜索引擎在港 台相继出现;在中国内地,继四通利方公 司(新浪网前身)开发出了国内最早的中 文搜索引擎Richsurf后,网易、搜索客、常中文搜索引擎:
定义: • 广义上的搜索引擎指基于因特网提供信息管理、 查询、检索等服务的工具、系统与网站。 • 狭义上的搜索引擎指利用ROBOT软件对因特网上 的见面或网站信息资源进行自动搜索服务而专门 设计的一种检索服务软件。 • 常用较为严谨的搜索引擎定义:?
2 搜索引擎的类型
按照信息搜集方法和服务提供方式的不同,搜索引 擎可以分为三大类: (1)目录式搜索引擎:早期的搜索引擎是把因特网 中的资源服务器的地址收集起来,由其提供的资 源的类型不同分成不同的目录,再一层层地进行 分类。信息大多面向网站,提供目录浏览服务和 直接检索服务。优点:信息准确、导航质量高; 缺点:需要人工介入,维护量大,信息量少,信 息更新不及时。代表: Yaho用语法规则)

第四章 信息检索模型

第四章 信息检索模型

向量空间模型
➢ 向量空间模型(Vector Space Model,VSM) 是由G·Salton等人在1958年提出的
➢ 代表系统
SMART( System for the Manipulation and Retrieval of Text)
➢ 这一系统理论框架到现在仍然是信息检索 技术研究的基础
D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利,文档di通常由
从文档中抽取的能够表达文档内容的特征项(如索引 项/检索词/关键词)来表示 设K={k1, k2 , … , kn} 为系统索引项集合 则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性(权值weight)
相当于识别包含了一个某个特定term的文档
➢ 经过某种训练的用户可以容易地写出布尔查询 式
➢ 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
➢ 布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 非常刚性: “与”意味着全部; “或”意味着任何一 个
模型中的问题
➢ 怎样确定文档中哪些词是重要的词?(索 引项)
➢ 怎样确定一个词在某个文档中或在整个文 档集中的重要程度?(权重)
➢ 怎样确定一个文档和一个查询式之间的相 似度?
索引项的选择
➢ 若干独立的词项被选作索引项(index keys) or 词表 vocabulary
➢ 索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪些呢?
例如:文档的统计特性 ➢ 用户规定一个词项(key)集合,可以给每个词项附加权重
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
息按一定的方式组织和存贮起来,并根据信息用户的信 息需求查找所需信息的过程和技术,所以信息检索的全 称又叫“信息存贮与检索”(Information Storage and Retrieval)。信息检索又叫情报检索或文献检索, 文献信息检索是指从文献信息集合中查找所需文献或文 献中包含的信息内容的过程。
否 是否匹配

得到检索结果☺
检索过程
检索需求
检索者
主题分析
主题概念
用检索语言对 文献进行描述
检索表达式
(提问标识)
输出结果为零
4.1.2 信息检索系统
信息检索系统的构成 印刷型信息检索系统的类型 计算机信息检索系统
1、信息检索系统的构成
检索文档(file)。检索文档即标有检索标识的信 息集合(information set),如手工检索系统中的 书目、索引和文摘中由文献款目组成的记录、工具 书中的条目或短文组成的主体,计算机检索系统中 的数据库。
字段(field):字段是记录的基本单元,用 于描述事物的某一属性,字段与文献记录中的 著录项相对应。下成是常见的字段名称和代码 表。
目录的著录对象一般是整本书或整种刊物。 《全国总书目》揭示每年国内图书出版情况, 每个图书馆的OPAC(联机公共目录)揭示该馆的管藏 联合目录揭示许多家图书馆出版物收藏情况。
•目录著录格式示例
文献检索与信息素养教育/秦殿启编 著.——南京:南京大学出版社, 2008.8 258页;16厘米 ISBN 978-7-305-05393-1 I.文… II.秦… III.①情报检索 ② 信息学 IV.G252.7G201
信息检索原理
信息检索过程的实质是将检索提问 标识与存贮在检索工具(系统)中的标 引标识进行比较,两者一致或信息标引 的标识包含着检索提问标识的信息就是 检索命中的信息,这就是信息检索原理。
•检索原理图
文献存储过程
文献
主题分析 主题概念
情报工 作人员
用检索语言对 文献进行描述
文献标识
检索工具(系统)
第四章 信息检索基础
4.1 信息检索的原理、系统和效果评价 4.2 信息检索的基本步骤 4.3 检索语言、标引方法和实例 4.4 数据库检索技术
4.1 信息检索的原理、系统和效果评价
4.1.1 信息检索的原理 4.1.2信息检索的原理
信息检索 信息检索(Information Retrieval),是指将信
•文摘著录格式示例
0900371 具有输出时延的网络控制系统 故障检测 [刊,中]/张捷,薄煜明,胡 维礼//控制工程.——2009,(3).—— 254-256
考虑一类具有长时延的网络控制系统, 假定其传感器到控制器之间存在输出时 延,对其进行故障检测研究。……。参4
•文摘型检索工具的特点与作用
帮助读者克服语言上的障碍,因为在一种检索工具 中,无论原始文献是什么语种,其文摘都被译为统一 的一种语言(一般为英语).
3.计算机信息检索系统
(1)计算机信息检索系统构成 计算机信息检索系统由计算机检索终端、通
信设施、数据库、检索软件及其他应用软件四大 部分构成,其中数据库是检索系统的核心部分。 (2)数据库的定义和构成 定义:根据ISO/DIS 5127号标准,数据库 (database)的定义为:“至少由一种文档组成, 并能满足某一特定目的或某一特定数据处理系统需 要的一种数据集合。”通俗地说,数据库就是在计 算机存贮设备上按一定方式存贮的相互关联的数据 集合,是计算机技术与情报检索技术相结合的产 物,是计算机信息检索的基础。
(2)题录
• 题录的含义
题录是描述文献外部特征的文献条目。文献的 外部特征包括题名、著者、出处、卷期、页码、 时间、文献类型、语种等著录项目。
题录的著录对象一般是单篇文献。
•题录著录格式示例
09000458 统一用户数据库设计及其应 用/解冲锋(北京研究院网络业务部宽 带 业 务 研 究 ) . 何 潇 刘 波 // 信 息 网 络.——2009,(4).——40-42
对文摘的阅读,在一定程度上起到代替原文作 用.科技人员阅读了著录较为详细的文摘之后,大体 上就掌握了原文内容要点,不必再阅读原文了。这一 点,对于那些难索取到原文的“难得文献”尤为重要, 也大大节省了科技人员查找和阅读文献的时间
确定相关性,即帮助读者判断所检索到的文献是否 合乎需要,从而决定原始文献的取舍.
(3)文摘
• 文摘的定义
不仅描述文献的外表特征,而且还揭示文献的内容特征, 是带有摘要内容的、扩展了的题录,它比题录多出文摘正 文(摘要)等。我国国家标准GB 3468-1983; 《检索期刊 编辑总则》说明定义:“除题录部分外还对文献内容作实 质性描述的文献条目称之为文摘”。
文摘是文献原文浓缩后的产物,是忠实于原文内容的简要 记录单元。揭示文献的内容特征,在文摘的编写中不能加 入编写人员的主观见解和任何解释性说明,也不能对原文 作任何修改。
构成:数据库主要由“文档、记录、字段”三个 层次构成。
文档(file):文档,也称文件,在逻辑上是由 大量性质相同的记录组成的集合,它是数据库中 数据组织的基本形式,包括顺排文档和倒排文档。
下面是倒排文档的记录排列示意图:
标识词
记录号
管理
1,3
计算机
1
企业
1,2,3
网络
2,3
……
……
记录(record):记录由若干个字段组成,它是机 器可存取的基本单位,是顺序记录在磁带上供计算 机去读的格式化数据,用于数据资源的交换与共享。 在书目数据库中,一个记录相当于一条文摘或题录。 EBSCO期刊文献书目信息记录示例。
技术设备。技术设备指能贮存信息的技术设备,如 输入装置、储存器、输出装置、通信设备等。
语言工具。语言工具指检索语言、标引规则、输入 和输出标准等。
作用于系统的人。包括信息加工、标引人员、录入 人员、检索人员、系统管理维修人员等。
2、印刷型信息检索系统的类型
•目录的含义
目录是图书、期刊等出版物外表特征的揭示和报道。它 以完整的出版物(如一本书、一种期刊)作为著录的基本 单位,所以也可以说它是按某种顺序编排的文献清单。是 指导阅读和科学管理文献的重要手段。
相关文档
最新文档