第2章 计算机信息检索技术
合集下载
第二章 信息检索原理及技术

• ②词族表 computer applications .administrative data processing ..distributive data processing .computerized signal processing ..computerized pattern recognition ..computerized picture processing ...computer-generated holography
3、检索途径 、
• 检索途径又称检索入口,指信息用户在检索时,把所需信息的某 种特征标识转换为检索标识,以此为入口进行检索
信息内部特征 检索途径 题名途径 著者途径 机构途径 代码/序号途径 信息源类型途径 其它途径 分类途径 主题途径 关键词途径
信息外部特征
信息检索途径及其选择
内容特征检索途径
作用: 、保证不同标引人员表征文献信息的一致性。 作用:1)、保证不同标引人员表征文献信息的一致性。 2)、使内容相同及相关的文献集中化。 、使内容相同及相关的文献集中化。 3)、保证检索提问与文献信息标引的一致性。 、保证检索提问与文献信息标引的一致性。 4)、保证检索者按不同需求检索文献信息时, 、保证检索者按不同需求检索文献信息时, 都能获得最高的查全率和查准率。 都能获得最高的查全率和查准率。
※
纯自然语言
指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。 指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。 它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。 它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。 使用纯自然语言中检索中最大的问题是误检率极高。 使用纯自然语言中检索中最大的问题是误检率极高。
同济大学文献检索课件

第二章 计算机信息检索概论
第一节 计算机信息检索的发展
计算机信息检索是利用计算机查找出符合读者所需信 息的过程。 计算机信息检索的发展史 脱机信息检索阶段(20世纪50年代中期到60年代中 期) 联机信息检索阶段(20世纪60年代中期到70年代初 期) 跨国联机信息检索阶段(20世纪70年代中期至今) 光盘信息检索阶段(20世纪80年代中期至今) 网络信息检索阶段(20世纪90年代至今)
第二节 计算机信息检索的基础知识
一、计算机信息检索系统的构成
物理构成 :计算机硬件、软件、数据库 数据库构成:文档(File) 、记录(Record) 、字段(Field)
数据库
文档1
文档2
文档3
…
记录1
记录2
记录3
…
字段1
字段2
字段3
…
逻辑构成 :信息采集与建立数据库子系统、标准化子系 统、用户子系统
(SO)European Journal of Human Genetics advance online publication, 27 September 2006; doi:10.1038/sj.ejhg.5201711. PMID: 17003842 [PubMed - as supplied by publisher]
(AB)Pulmonary arterial hypertension is a progressive disease, characterised by increased proliferation of
pulmonary artery smooth muscle cells, vasoconstriction and remodelling of the vascular wall leading to right heart failure and death. The idiopathic form is rare (idiopathic arterial primary hypertension (IPAH); formerly PPH, MIM#. untranslated region in exon 7 (g.8129T>C) was observed in five patients. It appeared in 46% of the control group. The frequency of this alteration in the coding region of the VIP gene could therefore not be correlated with the appearance of IPAH. Apart from the importance of VIP signalling, genetic and/or environmental modifiers might therefore contribute to the development and perpetuation of the disease.
第一节 计算机信息检索的发展
计算机信息检索是利用计算机查找出符合读者所需信 息的过程。 计算机信息检索的发展史 脱机信息检索阶段(20世纪50年代中期到60年代中 期) 联机信息检索阶段(20世纪60年代中期到70年代初 期) 跨国联机信息检索阶段(20世纪70年代中期至今) 光盘信息检索阶段(20世纪80年代中期至今) 网络信息检索阶段(20世纪90年代至今)
第二节 计算机信息检索的基础知识
一、计算机信息检索系统的构成
物理构成 :计算机硬件、软件、数据库 数据库构成:文档(File) 、记录(Record) 、字段(Field)
数据库
文档1
文档2
文档3
…
记录1
记录2
记录3
…
字段1
字段2
字段3
…
逻辑构成 :信息采集与建立数据库子系统、标准化子系 统、用户子系统
(SO)European Journal of Human Genetics advance online publication, 27 September 2006; doi:10.1038/sj.ejhg.5201711. PMID: 17003842 [PubMed - as supplied by publisher]
(AB)Pulmonary arterial hypertension is a progressive disease, characterised by increased proliferation of
pulmonary artery smooth muscle cells, vasoconstriction and remodelling of the vascular wall leading to right heart failure and death. The idiopathic form is rare (idiopathic arterial primary hypertension (IPAH); formerly PPH, MIM#. untranslated region in exon 7 (g.8129T>C) was observed in five patients. It appeared in 46% of the control group. The frequency of this alteration in the coding region of the VIP gene could therefore not be correlated with the appearance of IPAH. Apart from the importance of VIP signalling, genetic and/or environmental modifiers might therefore contribute to the development and perpetuation of the disease.
第二章 信息检索

2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。
第二章_信息检索基础之二

检索表达式示例
字段代码与字段 名称对照
位臵检索
位臵检索又称邻近检索,主要是通过 检索式中的特定符号来规定检索词在结果 中出现的顺序和词间距。
例如检索“生物防治”的文献,若用 检索式“biological*control”检索,则 会将“抑制生物”(control biological) 的文献也查出来,这显然不是所需文献。
字段代码方式
在进行检索时,通常在检索式中加入字段代 码来限定检索字段。字段代码与检索词之间可用 后缀符“/”或前缀符连“=”接起来。各个系统的 字段代码和前缀后缀符号可能各有不同。有的系 统不分前缀后缀限定。 例如,美国专利局数据库的高级检索界面便使 用了字段限制代码,用户需用这些字段限制代码 构造检索式,在检索框中输入检索命令来进行检 索。
字段限制检索主要有两种方式:
菜单选择方式
在检索系统的界面上设臵的字段下拉菜单中 进行选择,在相应的检索框中输入检索词,就可 完成字段限制检索。目前大多数检索系统都设臵 了此种检索方式。 例如,在中国期刊全文数据库检索界面中, 可在其提供的字段下拉菜单中选择合适的字段名 称进行检索。
字段限制检索主要有两种方式:
字段限制检索
字段检索是限定检索词在记录中出现的字段范围, 检索时,计算机只对限定字段进行查找。 这种检索技术可以缩小检索范围,提高检索的准 确率。 一般而言,一条记录中主要用来表达文献内容 特征的字段称为基本索引字段,如题名、文摘、叙词、 自由词等。常用的基本索引字段及其代码如表所示。 表达文献外部特征的字段称为辅助索引字段,如著者、 机构名称、语种、刊名、来源、出版年等。常用的辅 助索引字段及其代码如表所示。
截词检索
有限截断比较精确,只检出用户需要的词汇,而无限 截断作用时必须注意词干不要太短,否则会检出许多无关 文献。 在中文数据库中作用最多的是后截断,即立脚前方一 致检索。例如,金盘书目系统的查询方式。 金
第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网
它
7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;
计算机信息检索2

22
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
索引(index) 是对一组信息集合的系统化的指引, 通常依附于其他检索工具。
2019/5/3
23
2.5 文献信息检索的步骤
1. 明确检索要求,分析课题涉及的概念
明确检索要求就是要搞清楚需要查找的课题属于 什么学科,所需情报的文献类型及语种,查找文 献的年代,所需文献的最佳篇数,允许支配的检 索费用。 分析课题所涉及的主要概念,找出能代表这些概 念的若干个词或词组,这些词或词组将作为检索 词在检索中使用。
篇目按照一定的排检方法编排而成 的,供人们查找篇目出处的检索工 具。
2019/5/3
21
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
文摘 (Abstracts) 是以精练的语言把文献信息的重要
内容摘录下来,并按一定的著录规则 与排列方式编排起来,供读者查阅使 用的一种检索工具。
2019/5/3
5
2.3.1 检索语言种类
按构成原理
⑴分类语言:体系分类语言 ⑵主题语言
①叙词语言—概念组配是叙词语言的最主要 特征.
②关键词语言—不加规范化处理是关键词 语言的主要特征.
2019/5/3
6
2.3.2 分类检索原理与检索方法
分类检索原理:
⑴分类法(表)的定义:按照文献信息的内容和形
式等, 根据科学学科之间的逻辑归属关系, 采用 层次型或树杈型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的代码, 从而形成的类表。
2019/5/3
33
2.6 会议馆藏信息
《1976-1978年西文科技会议 录联合目录》 《西文科技学术会议录联合目 录(续编)》 图书馆的OPAC系统
文献检索,信息检索(2)第二章 信息检索原理

优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
信息检索教程(第二章)

4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/10/16
25
(2)二次文献检索*
是针对全文检索而言,也就是分别将文献的内部特征 (题名、分类等)和外部特征(作者、出处、年代、 ISSN、语言等)作为存储和检索的匹配标识而形成 的数据集合,利用检索系统的检索结果是文献信息的 题录及文摘。
学科领域覆盖面广,信息量大,可以利用文献线索获 取到一次文献。
其中的某些字、符号或短语、图形和图像起着“热链路” (Hotlink)的作用,在显示出来时其字体或颜色变化或者标有下 横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上, 并且按了一下鼠标键之后,鼠标器光标便沿着这条链路跳到该文 件的另一处或另一个文件。
计算机信息检索在经历了传统信息检索、全文文本检索之后,随 着多媒体技术的发展和应用,出现目前这种超文本检索方式。可 用于检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文 物、生物等内容广泛的各种信息。
用由用户平摊,随机存储。 缺点:一次机会检索,检索结果延误,委
托性检索。
(2) 联机信息检索
联机检索是用户利用终端设备,通过通信 网络或通信线路与检索系统联机,进行 “人机对话”,从检索中心的数据库查找 所需要的文献信息过程。 特点:检索的速度快,检索结果可以得到
及时修改。 缺点:检索费用高。
(3)国际联机检索*
各大网站均可进规模 的多媒体、多文种新闻信息综合性数据库。
2020/10/16
27
(4)超文本检索
超文本(Hyper text) 是利用计算机将多介质信息按照一定的逻辑 联接关系加工、贮存起来,构成可任意连接的、有层次的网状结 构数据库,是一种联想式的综合信息管理系统。
2020/10/16
3
国外计算机信息检索发展阶段(P5)
➢ 脱机检索阶段(20世纪50-60年代) ➢ 联机检索阶段(20世纪60-80年代) ➢ 光盘检索阶段(20世纪80年代中-90年代) ➢ 网络信息检索阶段(1995-)
2020/10/16
4
1.2 计算机信息检索的定义
计算机信息检索的实质就是由计算机将输入的检索策略与 系统中存储的文献特征标识及其逻辑组配关系进行类比、 匹配的过程,需要人——机协同作用来完成。
第二章 计算机信息检索技术
郑州大学信息检索教研室
2020/10/16
1
第1节 计算机检索概述 第2节 计算机信息检索系统组成 第3节 计算机信息检索的分类 第4节 计算机信息检索技术 第5节 信息检索的方法* 第6节 信息检索的策略*
2020/10/16
2
1.1 国内外计算机信息检索发展阶段
➢ 1975年,从国外引进数据库开展机检服务; ➢ 1980年,建立国际联机终端开展检索服务; ➢ 20世纪80年代中后期,自建数据库; ➢ 90年代初,发展光盘检索; ➢ 90年代中期,Internet网络化检索阶段。
信息存贮是将文献、数值、事实等按一定的格式输入到计 算机中,加工处理成可供检索的数据库。
信息检索是将检索提问式按一定的要求输入计算机中,经 计算机系统与已存贮在计算机中的数据库进行匹配运算, 然后将符合检索提问的数据按要求的格式输出。
2020/10/16
5Hale Waihona Puke 1.3 计算机信息检索特点
检索速度快,效益高; 检索功能强,数量大; 检索途径多,手段灵活; 检索范围广; 服务方式多。
2020/10/16
8
信息的著录
对所收集的原始信息的外表特征(如题名、 著者、文献出处等)和内容特征(如分类 号、主题词、摘要等)进行描述,形成一 条条款目或记录的过程。
在数据库中,其外表特征和内容特征通常 称之为字段,一条记录由若干个不同字段 构成。
2020/10/16
9
信息的标引
标引:根据一定的规则和程序(主题词典或词 表),对文献的主题内容进行分析,给予每篇文 献主题词、关键词作为存储和检索标识;或者根 据文献的学科归属,采用某种文献资料分类法, 给予分类号作为检索标识。
2020/10/16
10
信息检索过程
用户对检索课题加以分析,明确检索范围,弄清主题 概念,然后用系统检索语言来表示主题概念,形成检 索标识及检索策略,输入到计算机进行检索。计算机按 照用户的要求将检索策略转换成一系列提问,在专用 程序的控制下进行逻辑运算,选出符合要求的信息输 出。
计算机检索的过程实际上是一个比较、匹配的过程, 检索提问只要与数据库中的信息的特征标识及其逻辑 组配关系相一致,则属“命中”,即找到了符合要求 的信息。
标引、特点等问题较难了解、熟悉; ➢检索技术和技巧不易掌握
2020/10/16
33
世界上最著名的国际联机检索系统
1、DIALOG系统*
是世界最大的国际联机检索系统 1963年,原属美国洛克希德公司,系统设在加洲Palo
Alto市,1988年转让给美国Knight-Ridder公司。2000年 又转入DIALOG公司经营。目前,该系统的联机服务网遍 布世界70多个国家和地区的200多个城市,共设有联机检 索终端25000余台。 系统中各类型数据库数量的发展速度相当快, 拥有数据库约900多个,占全世界机存总量的60%,内容 涉及自然科学、社会科学、经济、商业等各个领域。
和主题词等。 这类数据库占用很大的比例,其代表性的数据库有 《EI Compendex Plus》(工程索引)、《INSPEC》(科学
文摘)和《全国报刊索引》等。 图书馆提供的基于网络的联机公共检索目录(OPAC)系统
2020/10/16
20
事实数据库
存储的是用来描述人物、机构、事物等信息 的情况、过程、现象的事实数据。
例如:COMPENDEX、INSPEC、SCI等国外数据库; 万方数据的学位论文、会议论文数据库、全国报刊索 引、Calis西文期刊目次数据库等
2020/10/16
26
(3)多媒体检索
就是把文字、声音、图像(形)等多种信息的传播载体 通过计算机进行数字化加工、处理而形成的一种综合存 储技术。
利用多媒体检索系统可分别进行视频检索、声音检索、 图像检索。多媒体信息检索系统有着广阔的应用前景, 它将广泛用于电子会议、远程教学、远程医疗、电子图 书馆、艺术收藏和地球资源管理、天气预报、时装设计、 智能群体决策、计算机支持协同工作、金融市场、军事 指挥系统、防汛指挥系统等方面。
构成数据库的三大要素: 文档——记录——字段
检索时,计算机按输入检索词的字顺先从指定的倒排文档 中找到相匹配的索引词,然后根据索引词后的记录顺序号 到顺排档中调出相应的记录。
2020/10/16
13
文档(File)
数据库中一部分记录的集合,文档由若干记录构成。 数据库是由一个顺排文档和若干个倒排文档所构成
特性 的文献数据、人口统计资料、市场调 研数据等。
2020/10/16
22
全文数据库
存储的是原始文献的全文,如杂志论文、报纸 新闻、法院案例等。
全文检索可直接获取原始资料,而不是书目检 索时的线索,提高了用户的检索效率。 如:中国知网(CNKI)、万方、维普、 Elsevier等全文数据库。
2020/10/16
2020/10/16
28
3.2 按信息访问模式分(P5)
根据检索方式分: (1)脱机检索 (2)联机检索 (3)国际联机检索 (4)光盘检索 (5)镜像检索 (6)网络检索
2020/10/16
29
(1) 脱机信息检索
是六十年代发展起来的批次检索,用户不与检索系 统发生直接联系,只需把检索要求送往检索中心, 由检索人员在计算机主机进行文献检索的一种方式。 优点:价格便宜,无网络通讯费,检索费
14
2020/10/16
15
记录(Record)
由若干字段组成的文献单元,是数据库中的基本
文献单元,每条记录描述了原始信息的外部和内
部特征。数据库中的一条记录通常代表一篇文献。
例如:在书目型数据库中,一条记录相当于一条
题录或文摘;在全文型数据库中,一条记录相当
于一篇完整的文献;在其它类型数据库中,一条
记录则代表一个信息单元。记录越多,数据库的
容量就越大。
2020/10/16
16
2020/10/16
17
字段(Field)
字段是构成记录的基本单元,是对文献某一方 面的特征(包括外表特征和内容特征)进行描 述的结果。
例如:题名、作者、作者地址、出版年、来源 (出处)、主题词、文摘等字段是书目数据库 中必备字段。为识别每一个字段所表达的文献 特征,通常每个字段都有固定的名称和缩写 (或称字段标识符),如,题名字段的标识符 为TI,作者字段的标识符为AU等。
1.4 计算机信息检索的原理(P8-11)
信息存储
信息检索
原始信息 主题
著录
信息主题
数据库记录及 信息特征标识
分析
信息需求 主题
分析
检索主题 标引 检索语言(主题词表) 选定
编制
检索提问式及 提问标识
计算机
类比
输出
检索结果
2020/10/16
7
信息存储过程
信息存储就是按照一定标准,将收集 到的原始文献进行主题概念分析,用 系统规定的语言(主题词、分类号) 进行标引,形成信息的特征标识,进 行整理与排序,构成可供检索的数据 库,主要包括:信息的采集、著录、 标引和整序等过程。
2020/10/16
18
2.3 数据库的类型*(P3-4)
参考(文献书目型)数据库 全文数据库 事实数据库 数值数据库
2020/10/16
19
参考(文献书目型)数据库
是指包含各种数据、信息或知识的原始来源和属性的数据 库;是机读的目录、索引和文摘检索工具,检索结果是文 献的线索而非原文。 存储的是二次文献,包括文献的外部特征、题录、文摘