计算机检索基本知识(一)
第三章 信息检索基本知识

信息论的奠基人 申农在《通信的数学 理论》中把信息定义 为:“信息是用来消 除不确定的东西。”
控制论创始人
维纳在《信息控制论》 一书中指出:“信息是 人与外界相互作用过程 中相互交换的内容和名 称。”
―信息”的定义之所以呈现多样化,主要有三方 面的原因 : 第一,信息本身的复杂性。它是一个多元化、 多层次、多功能的综合物; 第二,信息科学是一门新兴学科,是一门“大” 学科,它有许多分支学科,它的内涵与外延 不很确切,而且随着社会、经济和科学技术 的发展处于不断发展之中; 第三,人们出于不同的研究目的或使用目的, 从不同的角度或层次出发,对“信息”必然 作出不同的理解与解释。
4.从信息观的角度理解,知识是人类通过信息 对自然界、生物界、人类社会运动规律的认识 和概括,是一种特定的人类信息,它是对信息 进行提炼、深化、抽象化、系统化的结果,是 信息中最有价值的部分。知识是信息的一部分。 知识必须要有充分、可靠的经验性证据, 并且要经过理性的合理加工。
(二)知识的特性 1.实践性 社会实践是一切知识产生的基础和检验知 识的标准,科学知识对实践有重大指导作用。 2.规律性 人们对事物的认识是一个无限的过程,人 们获得的知识在一定层面上揭示了事物及运动 过程的规律性。 3.渗透性 随着知识门类增多,各种知识可以相互渗透, 形成许多新的知识门类,形成科学知识的网状 结构体系。
四、文献 (一)文献的定义 1.国际标准化组织《文献情报术语国际标准》: 文献是存储、检索、利用或传递记录信息的过 程中,可作为一个单元处理的、在载体内、载 体上或依附载体而存储有信息或数据的载体。 2.国家标准《文献著录总则》:文献是记录有知 识的一切载体。 北大教授王子舟《图书馆学是什么》:是指专门 记录、传播有知识的一切载体。 南大教授沈固朝《信息检索(多媒体)教程》: 记录有人类精神信息的、且便于存贮或传递的 人工固态附载物
第三章 计算机检索基础知识

算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
《计算机基础》信息检索资料

组
纸质书刊、资料 件、信息存储数据库、 检索软件、联机数据库、 端、通讯网络、网络数
成
通讯网络
通讯网络
据库
检索方法较简单,检索
设备简单,检索费用 检索范围广泛,检索速度
优 直观,信息存储
较灵活、方便,及时性
低,检索技术容 易掌 快,检索功能强,及时性
点 与检索费用低
好,检索费用和速度均
握
好
低
缺 检索入口少、速 点 度慢、效率较低
天网除提供WWW主页检索外,还提供FTP站点搜索(“天网文件”),为 高级用户查找特定文件提供方便。同时,天网将FTP文件分为电影和动画片、 MP3音乐、程序下载及文档资源共4大类,用户可以像目录导航式搜索引擎那样 层层深入、查找自己需要的FTP文件。
8.5 常用搜索引擎使用介绍
2.使用方法
(1) 启动方法
更新不够及时
检索技术复杂,设备要求 高、检索费用昂贵。
8.3 网络检索系统
1. 用户如何在网络上找到信息?
解决之道:搜索引擎
2. 搜索引擎的分类:
目录(Directory,或 Catalog); 基于Robot的搜索引擎; 元搜索引擎 (用得较少)。
8.3.1 目录
目录:目录方式所使用的数据库是依靠专职编辑或志愿人员建立起来的。 目录的用户界面基本上都是分级结构。有两种使用方式:
当用户只知道需要检索的大致内容,而没有明确的关键词时,可以使用分类检 索。
【例8.1】:查找西 安交通大学的网页。
方法: • 从“网站分类”逐步查找
8.5 常用搜索引擎使用介绍
• 找到目的网页, 双击打开。其中 名称后面的@号 表示还有下一级 目录。
启动IE浏览器,在地址栏输入:
计算机网络信息检索基本知识

A
B
逻辑或( ): ):A 逻辑或(OR): OR B 要求检出文献中包含概念A或概念 或同 要求检出文献中包含概念 或概念B或同 或概念 时包含概念A和概念 和概念B, 时包含概念 和概念 ,其作用是扩大检索范 增加命中文献数。 围,增加命中文献数。
A
B
逻辑非( ):A 逻辑非(NOT): NOT B ): 要求在检出的包含概念A的文献中去除含 要求在检出的包含概念 的文献中去除含 有概念B的文献 其作用是缩小检索范围。 的文献, 有概念 的文献,其作用是缩小检索范围。
若干个记录构成的信息集 合称为文档。 合称为文档。大型的数据 库分Байду номын сангаас成若干文档。 库分割成若干文档。
记录
字段
组 成 记 录 的 数 据 项 目
记录是构成数据库的完整的信息单 元,每条记录描述了原始信息的外 部特征和内部特征。 部特征和内部特征。
四、网络系统和通讯网络 主要由因特网( )、万维网 主要由因特网(Internet)、万维网 )、 (WWW)、远程登录(telnet)、文件 )、远程登录( )、文件 )、远程登录 )、 传输( 传输(FTP)和电子邮件(E-mail)等组 )和电子邮件( ) 成。
第二章
计算机网络信息检索 基本知识
医学文献检索教研室 阳春 E-mail:gl-yc@ : Tel:2813741 : QQ:42781867 :
第一节 计算机网络信息检索概述
手工检索 基本技能
计算机网络信息检索
计算机信息检索主要经历了四个阶段: 计算机信息检索主要经历了四个阶段: 脱机检索阶段( 世纪 世纪50~60年代中期) 年代中期) 脱机检索阶段(20世纪 年代中期 联机检索阶段( 世纪 世纪60~70年代中期) 年代中期) 联机检索阶段(20世纪 年代中期 光盘检索阶段( 世纪 年代中期) 世纪80年代中期 光盘检索阶段(20世纪 年代中期) 网络检索阶段( 世纪 年代中期) 世纪90年代中期 网络检索阶段(20世纪 年代中期)
计算机检索基础知识

第二章 计算机检索基础知识
第三节 计算机检索步骤
四.选择检索途径 确定检索词后,根据课题性质、 确定检索词后,根据课题性质、范围以及检索系统所提供的可检 标识等选择适当的检索途径,检索途径主要有以下几种: 标识等选择适当的检索途径,检索途径主要有以下几种: 以文献的著者(包括个人和团体著者、编者、 (1)著者途径 以文献的著者(包括个人和团体著者、编者、 ) 译者、专利权人等)姓名为检索标识来进行检索的途径。 译者、专利权人等)姓名为检索标识来进行检索的途径。 从文献信息内容相关的主题词角度来检索文献, (2)主题途径 从文献信息内容相关的主题词角度来检索文献, ) 这是一种常用的途径。 这是一种常用的途径。 从文献所属学科类别角度来检索。 (3)分类途径 从文献所属学科类别角度来检索。 ) 以文献所附有的号码特征来检索,如专利号、 (4)号码途径 以文献所附有的号码特征来检索,如专利号、 ) 报告号等。 报告号等。
A NOT B A―B 数据库中凡含词A 数据库中凡含词 而不含词B的记录 而不含词 的记录 被检出
逻辑关系 的说明
逻辑关系图 图中红色部分) (图中红色部分)
A
B
第二章 计算机检索基础知识
第二节 计算机检索技术
布尔逻辑算符的优先级顺序为NOT、AND、OR,另外可以使用 、 布尔逻辑算符的优先级顺序为 、 , 括号改变它们之间的运算顺序。 括号改变它们之间的运算顺序。 如可以编写( 如可以编写(A+B)*(C+D)检索式,先运算 A+B,C+D再运 )( )检索式, , 再运 )。但应注意 算(A+B)*(C+D)。但应注意,对于同一个布尔逻辑提问式 )( )。但应注意, 来说,不同的运算顺序会有不同的检索结果。 来说,不同的运算顺序会有不同的检索结果。
计算机系统基础知识 (1)

[模拟] 计算机系统基础知识单项选择题第1题:若磁盘的转速提高一倍,则______。
A.平均存取时间减半B.平均寻道时间减半C.存储道密度提高一倍D.平均寻道时间不变参考答案:D磁盘的转速提高一倍,只是减少了在选中磁道上的旋转等待时间,而平均存取时间包括两部分:平均寻道时间和在选中磁道上的旋转等待时间,因此平均存取时间减半的说法是错误的。
平均寻道时间与磁盘的转速没有什么关系,因此平均寻道时间减半的说法是错误的。
磁盘的道密度与磁盘的转速无关,绝不可能因磁盘的转速提高而使存储密度提高一倍。
只有平均寻道时间不变是正确的。
第2题:内存用于存放计算机运行时的指令、程序、需处理的数据和运行结果,但是存储在______中的内容是不能用指令来修改的。
A.RAMB.DRAMC.ROMD.SRAM参考答案:CROM为只读存储器,其中的内容在制造时存入,使用时只能读出,不能写入修改,因此依靠程序或指令不能修改ROM中的内容。
第3题:鼠标器按检测原理可分为为机械式、______三种。
A.电阻式和轨迹球式B.轨迹球式和光电式C.扫描式和轨迹球式D.电阻式和光机式参考答案:B鼠标器按检测原理可分为机械式、轨迹式和光电式三种。
第4题:在选择多媒体数据压缩算法时需要综合考虑______。
A.数据质量和存储要求B.数据的用途和计算要求C.数据质量、数据量和计算的复杂度D.数据质量和计算要求参考答案:C通常在选择数据压缩算法时需要综合考虑数据质量、数据量和计算的复杂度。
·数据质量好是指恢复数据失真较小:·数据量越小,代表压缩比越大,压缩算法越好;·压缩算法对计算复杂度的要求是压缩算法简单、速度快。
另外,选择压缩算法时还应考虑硬件实现的可能性。
第5题:与外存储器相比,内部存储器的特点是______。
A.容量大、速度快、成本低B.容量大、速度慢、成本高C.容量小、速度快、成本高D.容量小、速度慢、成本低参考答案:C计算机的内部存储设置在计算机的内部,与其外部存储器相比较,内部存储器的容量小、速度快、成本高。
计算机检索基础知识

(N)算符是“near”的缩写,表示此算符两边 的检索词必须紧密相连,此间不允许插入其他 单词或字母,但词序可以颠倒;
(nN)算符则表示在两个检索词之间最多可以 插入n个单词,且词序可以颠倒。如,?S econom?? ?(2N)recovery , 可 以 检 出 : economic recovery, recovery of the economy, recovery from economic troubles。 词位臵检索是很有用的检索技术,它可以规 定词组中各词的前后次序,防止错误的搭配和 输出。
第二节 计算机检索技术
一、基本检索技术 1 布尔检索 几乎所有的网络信息检索系统都支持布 尔逻辑检索,但不同的检索工具又有差别. 2 截词检索
3 短语检索
在网络检索工具中,
若在检索框内输入两个或两个以上的检 索词,且两个检索词之间没有任何其它符号, 该检索系统会将这两个检索词之间的关系设 为默认值(AND或OR);
目前加权检索在网络检索工具中的运用 还很不完善,尚不能根据用户的需求来确定 某一个具体语词的权值大小从而确定它对检 索结果的影响程度。
现在很多网络检索工具采用“+”、“-” 来表示检索词在检索提问中的分量。在某个 检索词前面带上“+”表示该检索词必须在检 索结果中出现,反之,若某个检索词前面带 上“-”,则表示该检索词一定不能出现在检 索结果中。 AltaVista、HotBot、Infoseek等都 支持这种形式的加权检索。
作者
文献类型 刊名 语种 出版年
4 位臵逻辑检索符
又称全文查找逻辑算符,相邻度检索算符, 原文检索符。由于布尔检索的“AND”运算要求 AND两边的检索词在同一记录中同时存在才能 命中文献,这就可能会引起误组配而造成大量 误检,而位臵逻辑检索是以原始记录中检索词 与检索词特定的位臵关系为逻辑运算的对象, 检索词用位臵算符相连,就可以弥补布尔检索 的缺陷。 位臵逻辑检索可分为词位臵检索、同句检 索、字段检索和记录检索。
计算机信息检索基础知识

逻辑算符优先次序
注意:利用布尔逻辑三种算符检索时,有时 会同时用上,计算机会按优先顺序自动完成 算符运算。
其中NOT优先级最高,AND次之,OR的 最低
改变优先级可在检索式中添加括号。 例:(计算机 OR 电脑) AND 控制 AND 啤
酒
位置算符检索与位置算符
位置算符:是在检索式中用于表示检索词 之间位置关系的符号。包括在记录中的顺 序和相对位置。
计算机信息检索 基础知识
计算机检索
是指检索者在计算机终端上,将检索提 问式按特定的检索指令输入计算机,计 算机检索系统将检索提问式与数据库中 的文献特征项进行匹配比较,并将符合 检索提问式的文献记录输出,由计算机 显示或打印的过程。
计算机技术用于信息检索的历程:
单机批处理检索阶段 :
1946年,世界上第一台数字式电子计算机诞生,1951年,美国 麻省理工学院开始对利用计算机代码化文摘进行可行性研究。 这 一阶段也称为脱机检索时期,一是单机由专人操作,用户不能人 机见面;二是只能进行批处理不能即问即答。
手工检索过程是由人们用手查、眼看、脑子作判断 而完成的,它往往只存在于检索者的脑子里,所以 不必写成书面的表达语句,并且可以边查找边考虑, 灵活地改变检索策略。
计算机检索策略
计算机检索信息时,检索提问与文献 标识之间的对比匹配工作是机器进行 的,必须拟定周密的检索策略,用计 算机能够理解和运算的形式加以表达, 然后交计算机执行。
另外,联机联网系统中含有大量的数据库, 其主题涉及各个学科和生活的各个领域。
例如:dialog联机检索系统中有数百个数据库, 一个数据库收有数百万,甚至上千万条纪录。 OCLC联机检索系统中拥有多种类型的数据库,收 有数万种期刊、图书、会议记录等文献记录。