计算机检索基本知识2

合集下载

第二章 信息检索基本知识

第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网

7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;

计算机网络信息检索基本知识

计算机网络信息检索基本知识

A
B
逻辑或( ): ):A 逻辑或(OR): OR B 要求检出文献中包含概念A或概念 或同 要求检出文献中包含概念 或概念B或同 或概念 时包含概念A和概念 和概念B, 时包含概念 和概念 ,其作用是扩大检索范 增加命中文献数。 围,增加命中文献数。
A
B
逻辑非( ):A 逻辑非(NOT): NOT B ): 要求在检出的包含概念A的文献中去除含 要求在检出的包含概念 的文献中去除含 有概念B的文献 其作用是缩小检索范围。 的文献, 有概念 的文献,其作用是缩小检索范围。
若干个记录构成的信息集 合称为文档。 合称为文档。大型的数据 库分Байду номын сангаас成若干文档。 库分割成若干文档。
记录
字段
组 成 记 录 的 数 据 项 目
记录是构成数据库的完整的信息单 元,每条记录描述了原始信息的外 部特征和内部特征。 部特征和内部特征。
四、网络系统和通讯网络 主要由因特网( )、万维网 主要由因特网(Internet)、万维网 )、 (WWW)、远程登录(telnet)、文件 )、远程登录( )、文件 )、远程登录 )、 传输( 传输(FTP)和电子邮件(E-mail)等组 )和电子邮件( ) 成。
第二章
计算机网络信息检索 基本知识
医学文献检索教研室 阳春 E-mail:gl-yc@ : Tel:2813741 : QQ:42781867 :
第一节 计算机网络信息检索概述
手工检索 基本技能
计算机网络信息检索
计算机信息检索主要经历了四个阶段: 计算机信息检索主要经历了四个阶段: 脱机检索阶段( 世纪 世纪50~60年代中期) 年代中期) 脱机检索阶段(20世纪 年代中期 联机检索阶段( 世纪 世纪60~70年代中期) 年代中期) 联机检索阶段(20世纪 年代中期 光盘检索阶段( 世纪 年代中期) 世纪80年代中期 光盘检索阶段(20世纪 年代中期) 网络检索阶段( 世纪 年代中期) 世纪90年代中期 网络检索阶段(20世纪 年代中期)

计算机检索基础知识

计算机检索基础知识

第二章 计算机检索基础知识
第三节 计算机检索步骤
四.选择检索途径 确定检索词后,根据课题性质、 确定检索词后,根据课题性质、范围以及检索系统所提供的可检 标识等选择适当的检索途径,检索途径主要有以下几种: 标识等选择适当的检索途径,检索途径主要有以下几种: 以文献的著者(包括个人和团体著者、编者、 (1)著者途径 以文献的著者(包括个人和团体著者、编者、 ) 译者、专利权人等)姓名为检索标识来进行检索的途径。 译者、专利权人等)姓名为检索标识来进行检索的途径。 从文献信息内容相关的主题词角度来检索文献, (2)主题途径 从文献信息内容相关的主题词角度来检索文献, ) 这是一种常用的途径。 这是一种常用的途径。 从文献所属学科类别角度来检索。 (3)分类途径 从文献所属学科类别角度来检索。 ) 以文献所附有的号码特征来检索,如专利号、 (4)号码途径 以文献所附有的号码特征来检索,如专利号、 ) 报告号等。 报告号等。
A NOT B A―B 数据库中凡含词A 数据库中凡含词 而不含词B的记录 而不含词 的记录 被检出
逻辑关系 的说明
逻辑关系图 图中红色部分) (图中红色部分)
A
B
第二章 计算机检索基础知识
第二节 计算机检索技术
布尔逻辑算符的优先级顺序为NOT、AND、OR,另外可以使用 、 布尔逻辑算符的优先级顺序为 、 , 括号改变它们之间的运算顺序。 括号改变它们之间的运算顺序。 如可以编写( 如可以编写(A+B)*(C+D)检索式,先运算 A+B,C+D再运 )( )检索式, , 再运 )。但应注意 算(A+B)*(C+D)。但应注意,对于同一个布尔逻辑提问式 )( )。但应注意, 来说,不同的运算顺序会有不同的检索结果。 来说,不同的运算顺序会有不同的检索结果。

计算机信息检索2

计算机信息检索2

22
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
索引(index) 是对一组信息集合的系统化的指引, 通常依附于其他检索工具。
2019/5/3
23
2.5 文献信息检索的步骤
1. 明确检索要求,分析课题涉及的概念
明确检索要求就是要搞清楚需要查找的课题属于 什么学科,所需情报的文献类型及语种,查找文 献的年代,所需文献的最佳篇数,允许支配的检 索费用。 分析课题所涉及的主要概念,找出能代表这些概 念的若干个词或词组,这些词或词组将作为检索 词在检索中使用。
篇目按照一定的排检方法编排而成 的,供人们查找篇目出处的检索工 具。
2019/5/3
21
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
文摘 (Abstracts) 是以精练的语言把文献信息的重要
内容摘录下来,并按一定的著录规则 与排列方式编排起来,供读者查阅使 用的一种检索工具。
2019/5/3
5
2.3.1 检索语言种类
按构成原理
⑴分类语言:体系分类语言 ⑵主题语言
①叙词语言—概念组配是叙词语言的最主要 特征.
②关键词语言—不加规范化处理是关键词 语言的主要特征.
2019/5/3
6
2.3.2 分类检索原理与检索方法
分类检索原理:
⑴分类法(表)的定义:按照文献信息的内容和形
式等, 根据科学学科之间的逻辑归属关系, 采用 层次型或树杈型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的代码, 从而形成的类表。
2019/5/3
33
2.6 会议馆藏信息
《1976-1978年西文科技会议 录联合目录》 《西文科技学术会议录联合目 录(续编)》 图书馆的OPAC系统

《信息检索》 第2讲 信息检索的基本知识2

《信息检索》 第2讲 信息检索的基本知识2

19
2013-8-1
(2)自然语言和受控语言的一体化发展趋势
在网络环境下自然语言和受控语言的融合或称一体化是检索
语言未来发展的必然趋势。这方面比较前沿的、有代表性的 理论研究和实践是国内张琪玉先生提出的学科——事物概念 组配型检索语言和美国国家医学图书馆所创建的UMLS系统 。 学科——事物概念组配型检索语言具有的特点是:通过学 科聚类和事物聚类的结合、号码标识和词语标识的结合以及 系统序列和字顺序列的结合,实现分类系统和主题系统的完 全一体化。用户从自然语言词汇、分类号和主题词任一途径 入口检索,都能获得相应的文献。这种检索语言具有开放性 ,可不断增补新概念。目前该模式正处于理论研究阶段。 UMLS模式即一体化医学语言系统。UMLS由超级叙词表、语 义网络、情报源图谱和专家词典四个相互联系的部分组成。
13
2013-8-1

用主题法查找文献,要注意以下几点:
注意利用词表
选择主题词要把握概念的含义 要利用概念之间的属种关系和相关关系增加检索线索
14
2013-8-1
注意利用词表
主题词是检索系统使用的专门的规范化语言,用这
种语言表述的概念,只有一种解释,不允许一词多 义、多词一义,这是规范化检索语言的单义性所规 定的。而一般用户的提问用的是自然语言,自然语 言并不遵守特定事物具有特定概念用特定语言表达 这一原则。
10
2.2 关键词语言
关键词语言是适应目录索引编制过程自动化的需要而产
生的。关键词是文献的篇名、摘要、正文中出现的具有 实质意义并能表达文献主题内容的词语。以关键词作为 标识的检索系统就叫做关键词语言。 由于关键词是未经规范的自然语言,一个概念可以用几 个词义相同或相近的词来表达,因此关键词语言没有固 定的词表,只有一个停用词词表,用以识别词语的词性 ,方便计算机自动抽取实质性语词。 关键词语言十分适于计算机编制索引,检索入口多,编 制速度快,但缺点是容易造成漏检。 例如:“国际联机检索概论”中的“国际联机检索”、 “国际联机”、“联机”、“检索”都是能描述这篇文 献主题的关键词,都可以作为检索词。

计算机检索基础知识

计算机检索基础知识

(N)算符是“near”的缩写,表示此算符两边 的检索词必须紧密相连,此间不允许插入其他 单词或字母,但词序可以颠倒;
(nN)算符则表示在两个检索词之间最多可以 插入n个单词,且词序可以颠倒。如,?S econom?? ?(2N)recovery , 可 以 检 出 : economic recovery, recovery of the economy, recovery from economic troubles。 词位臵检索是很有用的检索技术,它可以规 定词组中各词的前后次序,防止错误的搭配和 输出。
第二节 计算机检索技术
一、基本检索技术 1 布尔检索 几乎所有的网络信息检索系统都支持布 尔逻辑检索,但不同的检索工具又有差别. 2 截词检索
3 短语检索
在网络检索工具中,
若在检索框内输入两个或两个以上的检 索词,且两个检索词之间没有任何其它符号, 该检索系统会将这两个检索词之间的关系设 为默认值(AND或OR);
目前加权检索在网络检索工具中的运用 还很不完善,尚不能根据用户的需求来确定 某一个具体语词的权值大小从而确定它对检 索结果的影响程度。
现在很多网络检索工具采用“+”、“-” 来表示检索词在检索提问中的分量。在某个 检索词前面带上“+”表示该检索词必须在检 索结果中出现,反之,若某个检索词前面带 上“-”,则表示该检索词一定不能出现在检 索结果中。 AltaVista、HotBot、Infoseek等都 支持这种形式的加权检索。
作者
文献类型 刊名 语种 出版年
4 位臵逻辑检索符
又称全文查找逻辑算符,相邻度检索算符, 原文检索符。由于布尔检索的“AND”运算要求 AND两边的检索词在同一记录中同时存在才能 命中文献,这就可能会引起误组配而造成大量 误检,而位臵逻辑检索是以原始记录中检索词 与检索词特定的位臵关系为逻辑运算的对象, 检索词用位臵算符相连,就可以弥补布尔检索 的缺陷。 位臵逻辑检索可分为词位臵检索、同句检 索、字段检索和记录检索。

信息检索基础知识2

信息检索基础知识2

2.1.2.5图录类工具书
图录类工具书是以图形、图像、符号等为 主体,附以简略的文字说明,以反映各种 事物、人物的空间特征和形象特征的工具 书。它包括地图、历史图录、文物图录、 人物图录、艺术图录、科技图像等。地图 是地球表面自然和社会现象在平面图上的 缩影,以反映各种事物和景象的地理分布 及其在空间与时间上的相互制约、内在联 系和发展动态。历史图录是以图形、图像 等揭示历史人物和事物的工具书。
2.1.2.4表谱类工具书
表谱类工具书是以表格或其他较为整齐的形式, 记录史实、时间、地理等资料,并附以简略的文 字说明,以反映史实和时间。主要包括年表、历 表和专门性历史表谱3种类型。年表是按年代顺 序编制,专供查考历史年代、历史纪元及历史大 事的检索工具。如《中华人民共和国大事记》等。 历表是一种把不同历法的历日按一定的次序汇编 在一起,以相互对照的表格,提供查找和换算不 同历法的年、月、日的工具书。专门性历史表谱 主要用于查考人物、职官、地理和数据等专题资 料,如《中西回史日历》等。
2.1.3 机械检索工具
机械检索工具是手工检索工具向计算机检 索系统过渡的中间检索工具。它主要包括 两种类型:机电检索工具(如打孔机)和光电 检索工具(如缩微机)。机械检索工具利用机 械装置改进信息资源的存储和检索方式, 但是只能对某一固定存储形式的信息资源 进行特定检索,过分依赖于设备,检索操 作复杂,成本很高,并且检索质量和效率 也不理想。所以很快被计算机检索系统所 取代。
联机检索系统
联机检索系统主要有以下四种服务方式: (1)回溯检索(RS,Retrospective Search) 是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定 时间范围内或特定时间以前的文献信息的一种联机检索方式。通过 RS进行专题检索或情报调研,可全面系统地了解有关文献信息的线 索。 (2)定题检索(SDI,Selective Dissemination of Information) 是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之 后出现的新的文献信息的一种联机检索方式。 (3)联机订购 联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系 统可以为用户提供原始文献的联机订购服务。 (4)电子邮件 联机检索系统为用户提供E-mail和电子邮政的功能 。

计算机信息检索基础知识

计算机信息检索基础知识

逻辑算符优先次序
注意:利用布尔逻辑三种算符检索时,有时 会同时用上,计算机会按优先顺序自动完成 算符运算。
其中NOT优先级最高,AND次之,OR的 最低
改变优先级可在检索式中添加括号。 例:(计算机 OR 电脑) AND 控制 AND 啤

位置算符检索与位置算符
位置算符:是在检索式中用于表示检索词 之间位置关系的符号。包括在记录中的顺 序和相对位置。
计算机信息检索 基础知识
计算机检索
是指检索者在计算机终端上,将检索提 问式按特定的检索指令输入计算机,计 算机检索系统将检索提问式与数据库中 的文献特征项进行匹配比较,并将符合 检索提问式的文献记录输出,由计算机 显示或打印的过程。
计算机技术用于信息检索的历程:
单机批处理检索阶段 :
1946年,世界上第一台数字式电子计算机诞生,1951年,美国 麻省理工学院开始对利用计算机代码化文摘进行可行性研究。 这 一阶段也称为脱机检索时期,一是单机由专人操作,用户不能人 机见面;二是只能进行批处理不能即问即答。
手工检索过程是由人们用手查、眼看、脑子作判断 而完成的,它往往只存在于检索者的脑子里,所以 不必写成书面的表达语句,并且可以边查找边考虑, 灵活地改变检索策略。
计算机检索策略
计算机检索信息时,检索提问与文献 标识之间的对比匹配工作是机器进行 的,必须拟定周密的检索策略,用计 算机能够理解和运算的形式加以表达, 然后交计算机执行。
另外,联机联网系统中含有大量的数据库, 其主题涉及各个学科和生活的各个领域。
例如:dialog联机检索系统中有数百个数据库, 一个数据库收有数百万,甚至上千万条纪录。 OCLC联机检索系统中拥有多种类型的数据库,收 有数万种期刊、图书、会议记录等文献记录。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

避免使用“的、地、得、着、了、过”等无意义的 虚词或禁用词,注:如一些固定表达的检索词中包 括了禁用词,这时可用“”将其引起来,如“journal of advanced material”
3、漏检:如忽略了同义词,或同一个词的多种表达,有 可能造成漏检
同义词:自行车—单车— 脚踏车 airplane – aircraft – plane 专有名词的固定表达: SPS(spark plasma sintering)—放电等离子烧结 NC(numerical control)—数字控制 中英文混用:网络数据库—web数据库 代理技术—agent技术
第二步:选择数据库或网络检索工具
选择合适检索工具的前提是对网络资源有一个较全面 的、清晰的了解,具体地说要对检索工具的类型、内容特 点、时间范围、学科范围、甚至出版商的大体情况都要有 一个了解。 方法:1、注重平时的积累 2、不要盲目检索,应养成检索前了解一下数据库 的习惯 3、注重与他人的交流 4、重视图书馆主页的资源
例1 网络数据库的安全性研究 关键词1:网络数据库—— 研究对象☺ 关键词2:安全——研究目的☺ 而意义太泛的词“研究”不应作为检索词 例2 基于代理技术的网络入侵检测 关键词1:(网络)入侵检测,但入侵检测一般即指网 络中的入侵检测,意义重复,网络可不要 关键词2:代理(技术),在入侵检测中使用“代理”, “代理”本身就是指的一项技术,因而也可不要
避免漏检的方法: 1)将同义词等列出来,然后用布尔逻辑运算符or将 其连接起来 2)使用规范词
4、误检:如一词多义或虚假匹配时,有可能造成误检 如:cell 细胞;电池 代理 销售代理、业务代理、代理人、代理技术
避免误检的方法:将这些词和其他检索词用布尔逻 辑运算符“and”进行组配 如前面的例中:代理*入侵检测
检索式2:
TI= (‘ 网络数据库’ or TI=‘web数据库’) and TI=‘安全’ 检索更准确,一定是关于网络数据库的内容,但会漏掉一些 相关文章 检索结果:17篇 1、2
5、在检索过程中需不断地调整检索策略 1)根据实际扩大、缩小检索范围 2)从已找到的文章中查找新的检索线索 3)考虑多种检索途径,不要一条道跑到黑 4)几种常用的检索策略:
计算机检索过程
词表
检索课题 主题分析 选择数据库 确定检索词 制定检索式 计算机处理 结果评价 Y N 用户
构造检索 策略 原文 标引
结 果 返 回
数据库
计算机检索的步骤: 第一步:分析检索课题:明确检索目 的,从而确定检索需求
基本要求:检索的时间范围、文献类型、检索深 基本要求: 度为题录、文摘还是全文等等 结果要求:了解某一理论、方法、设备、过程等的具体 结果要求: 的片断的信息,以解决研究中的具体问题,要求“准”。 申请发明,申报成果奖励、鉴定科研成果以及立项 查新,往往需要全面地收集某一主题范围的文献信息, 这类课题具有普查追溯的特点,应着眼于“全”。
第三步:提炼检索词,制定检索式
注意事项: 1、检索词尽可能使用词或词组,然后用布尔逻辑运算符 将检索词连接起来,切忌将整个题名输入到检索框中。 如:如网络数据库的安全性研究
检索式:网络*数据库*安全 √ ☺ 网络数据库*安全 √ ☺ 网络数据库安全 × 网络数据库的安全性研究 ××
2、要提炼关键的、核心的词作为检索词 去掉意义太泛或“无所谓有”的词
对于研究生做学位论文来说,做课题前应充分了解 一下本课题国内外的研究现状(即论文的综述部分),这 时应对该课题进行较全面的检索,包括综述性的文章,要 求全面;对于该课题的核心部分,即该课题所要解决的具 体问题,创新的地方,则需要准,技术细节越细越好。 检索误区1——从师兄师姐那得到相似研究课题的学位论文 作为参考,不失为一条捷径,但不能完全依赖它,不能仅 以学位论文提供的参考文献为线索去检索,应该自已提炼 关键词,利用现有的资源去发现更多更好的文章,从而开 拓自已的视野。
把检索课题剖析成若干个概念面,在每个概念面中尽可能全 和多地列举相关词、同义词、近义词,并用OR连接成子检索 式,然后再用布尔算符AND把所有子检索式连接起来 例:“肺癌与吸烟”可以分成两个概念面:肺癌、吸烟。这 两个概念面的各种形式的检索词有: cancer smoke(r) carcinoma smoking lung(s) cancer cigar、cigarette …… …… 子检索式1:S1=(cancer OR carcinoma) AND (lung OR lungs) 子检索式2: S2=smoker OR smokers OR smoking OR cigar OR cigarette OR … 总检索式:S=S1 AND S2
第四步: 检索 第五步: 检索结果处理:下载、打印、查找原文
Success!
用维普数据库进行检索(检索范围:字段为题名,时间 范围:2000-2004年)结果:
代理*入侵检测 45条记录(基本上全部符合要求) 代理*入侵检测*网络 2条记录 代理技术*入侵检测 10条记录 代理技术*入侵检测*网络 0条记录
有时不需要死抠文字,意思匹配即可
安全机制 安全性 安全模型 安全系统 所以在选择检索词时,只需“安全”即可 又如:智能机器人控制系统的研究 控制 控制系统 控制理论 控制方法 控制器 所以将“控制”作为检索词即可 如:上例中:安全
检索误区2——internet网上虽然有一些较好的资源,但是 与专业的网络数据库来比,无论是质量还是数量上都有 很大的差距,检索文献目前来说最主要的来源还应是专 业数据库,即正规的出版物上发表的文献。仅用搜索引 擎来查找文章 是非常不可取的。 检索误区3——不要忽略摘要数据库, 虽然检索摘要数据库不能马上得到全文, 但是摘要数据库的数据量大,范围广,是查找文章线索 极好的检索工具。就目前的情况而言,不可能全部都能 得到电子版的全文,先找到文章线索再根据线索查找印 刷版的全文是一项不错的组合。
网络数据库的安全性研究
网络数据库 或web数据库
网络 (web)、 数据库
安全系统 安全机制 安全策略 安全性 ……
检索式1:
(TI='网络' or TI='web') and TI='数据库' and TI='安全' 检索更全面,会包括如 “基于网络的……”,“网络中 数据库……”,但也可能会抱括一些和课题无关的文 章,如“数据库…… 网络链接” 检索结果:25篇 1、2、3
分馏式:先确定一个相当大的范围较广的文献 初始集,然后提高检索的专指度,得到一个较小的 命中文献集,直到数量适宜,用户满意为止。
特点:检索时间较长,但检索全面 适用:某一个检索词专指度较高,而其他检索 词则专指度较低,研究比较广泛。
说明:检索式、检索策略的制定依据个人的检 索目的、检索经验及检索习惯等来最终决定, 没有固定的模式,大家应灵活掌握,”不论黑 猫白猫抓住老鼠就是好猫”。
特点:思路清晰,检索全面 适用:每个检索词的专指度都不太高,都可检索 出较的文献
先从最专指的概念面或较为生僻、使用较少的词入 手,如果文献量较多,再与其他概念面用and组配, 如果文献量很少或没有,则可以终止检索。
Sorry!No Answer!
特点:目标明确,节省时间 适用:Байду номын сангаас一个检索词专指度高,或较为生僻或 目前研究得较少,相关文献也较少
相关文档
最新文档