检索语言

合集下载

检索语言的分类

检索语言的分类

检索语言的分类:按照揭示和反映信息内外部特征的不同,检索语言可划分为:分类语言:以数字、字母(或字母与数字结合)为检索标识,作为有关类目的代号。

主题语言:分为标题词语言、叙词语言和关键词语言;名称语言:以人名、地名、机构名、篇名、书名等为检索标识;代号语言:以文献特有的顺序号(如专利号、标准号、合同号等)为检索标识邻近位置算符(W)W是with的缩写。

(W)算符也可以简写为()算符,A(W)B,表示A紧挨着B,顺序不能颠倒。

A和B之间除允许有一个空格、一个标志符号或一个连接号以外,不得插入任何单位或字母。

邻词位置算符(nw)A(nw)B,表示两个词的次序不变,其间可以插入n个词。

句子位置算符(S)S是sentence的缩写。

A(s)B表A和B必须同时出现在记录的同一个句子或短语中,但次序可能随意改变,A与B之间可以有若干个其他的词。

字段位置符(F)F是field的缩写。

A(F)B,表示A和B 必须同时出现在记录的同一个字段之中,但位置和次序不限,两者之间还可以任意加词。

如Rice(F)Genetics/Ti 要求Rice和Genetics必在同时出现在篇名之中。

记录位置算符(C)C是citation的缩写。

A(C)B 其作用等同于A and B,均表示A和B 同时出现在同一记录内,但词序不限,也不要求在同一字段内。

截词符号常用的有“?”、“$”和“*”等,绝大部分数据库无限截词符用“*”,少数用“?”或者“$”截词类型(1)后截断,前方一致。

如:“comput*”表示computer、computers、computing等。

(2)前截断,后方一致。

如:“*computer”表示minicomputer、microcomputer等。

(3)中截断,中间一致。

如:“*comput*”表示minicomputer、microcomputers等。

1 .括号改变运算顺序。

2 .引号引号内的检索项以整体形式出现。

常用的检索语言

常用的检索语言

常用的检索语言检索语言在信息检索领域起着非常重要的作用,它是用户与搜索引擎进行交互的桥梁。

本文将介绍几种常用的检索语言,包括关键词检索、布尔检索、模糊检索和自然语言检索。

一、关键词检索关键词检索是最常见的一种检索方法,用户通过输入与所需信息相关的关键词来进行检索。

搜索引擎会根据关键词在数据库中的索引进行匹配,返回相关的结果。

关键词检索对于用户来说比较简单直观,但也存在一些问题。

比如,如果用户输入的关键词过于模糊,可能会返回大量与用户需求不相关的结果;如果用户输入的关键词过于具体,可能会导致相关结果过少。

二、布尔检索布尔检索是一种基于逻辑运算的检索方法,用户可以通过使用布尔运算符(如AND、OR、NOT)来组合多个关键词进行检索。

布尔检索可以更精确地表达用户的需求,提高检索结果的相关性。

例如,用户可以通过输入“电影AND 喜剧”来检索同时包含电影和喜剧两个关键词的相关内容。

三、模糊检索模糊检索是一种考虑到用户输入的不完整或错误的情况下进行的检索方法。

搜索引擎使用模糊匹配算法,将用户输入的关键词与数据库中的内容进行模糊匹配,返回与用户需求最相近的结果。

模糊检索可以有效地解决用户拼写错误或输入不完整的问题,提高搜索的准确性。

四、自然语言检索自然语言检索是一种使用自然语言进行检索的方法,用户可以用自然语言的形式描述自己的需求,而不需要使用特定的检索语法。

搜索引擎会将用户的自然语言转化为机器可理解的查询语言,然后进行检索并返回相关结果。

自然语言检索可以使用户更加方便地表达需求,但也存在一些挑战,如语义理解和查询解析的问题。

总结:常用的检索语言包括关键词检索、布尔检索、模糊检索和自然语言检索。

不同的检索方法适用于不同的用户需求和场景。

关键词检索简单直观,适用于用户已经清楚知道自己需要什么的情况;布尔检索可以更精确地表达用户需求,提高检索结果的相关性;模糊检索可以解决用户输入不完整或错误的问题,提高搜索的准确性;自然语言检索可以使用户更加方便地表达需求,但也面临语义理解和查询解析的挑战。

第二章 检索语言

第二章  检索语言

(一)分类检索语言的类型
1.体系分类法 2.组配分类法
(二)分类检索语言的特点
分类检索语言是信息管理领域经典的 检索语言之一,以1876年《杜威十进分类法》 的问世为标志,已走过了一个多世纪的历 程,形成了自成体系的一套信息组织和检 索方法。
二、分类检索语言结构
(一)类目 1.类目的划分 2.引用次序 3.类目的排列 4.类名的确定 5.类目之间相互关系的处理
一、检索语言的概念 传统意义上的检索语言仅指根据信息
检索需要而创制的人工语言,又称情报语 言、情报存储与检索语言、文献语言、文 献工作语言、索引语言、标引语言、标引 符号、标识系统等。
二、检索语言的基础
(一)概念逻辑 概念逻辑,是一种科学思维方法,通
过明确各种概念及其相互关系而揭示事物 的本质属性及各种事物之间的联系与区别。
词为基础,以概念组配为基本原理,对文 献主题进行描述的后组式检索语言。
(二)叙词表的编制
叙词表是叙词法的核心体现。目前, 国内的叙词表已有七八十种之多。常用的 有《汉语主题词表》、《化工汉语主题词 表》、《机械工程主题词表》、《电子技 术汉语主题词表》、《国防科学技术叙词 表》等。
五、主要主题词表介绍
(一)《汉语主题词表》 《汉语主题词表》是我国第一部大型的
综合性的叙词表,由中国科技信息研究所 和北京图书馆负责主持,1975年开始编制, 1980年正式出版。
(二)《中国分类主题词表》
《中国分类主题词表》是在《中图法》 编委会主持下,经全国40个单位160位专家 学者的共同努力,历时8年编制而成的,于 1994年6月正式出版。
(二)单元词法
单元词又称元词,是从自然语言中选 取,经过规范化处理,表达主题最小的、 最基本的、字面上不能再分的名词术语。

第2章 检索语言

第2章 检索语言
传统意义上的检索语言,是应文献信息的加工、存贮和 检索的共同需要而编制的专门语言,它是表达概括文献信息 内容的概念及相互关系的一种概念标识系统。

广义上的检索语言,指信息检索过程中涉及的人工语言 和自然语言。

人工语言是根据一定的规则人为编制而成的检索语言,有严格的使用规则,可用 于表述文献主要内容,建立信息检索系统。 自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。




2.1 2.2 2.3 2.4 2.5 2.6
检索语言概述 检索语言的理论基础 分类检索语言 主题检索语言 分类主题一体化检索语言 网络信息检索语言
2.1 检索语言基本知识

2.1.1 检索语言概述 2.1.2 检索语言的功能 2.1.3 检索语言的类型
2.1.1 检索语言概述
3.代表类事物特征的一套代码;
世界常见的检索语言主要有:



《杜威十进制分类法》 《国际十进制分类法》 《冒号分类法》 《中国图书馆分类法》 《中国人民大学图书馆分类法》 《汉语主题词表》
2.1.2检索语言所具备的功能




(1) 对文献的信息内容及其外表特征加以规范化 的标引; (2) 对内容相同及相关的文献信息加以集中或揭 示其相关性; (3) 可使文献信息的存贮集中化、系统化、组织 化,便于检索者按一定的排列次序进行有序化检 索; (4) 便于将标引用语和检索用语进行相符性比较。

狭义上的检索语言,仅指根据信息检索的需要,按照一 定的规则对自然语言进行规范,并专门用于信息标引和用户 检索的人工语言。

2.1.1 检索语言概述
检索语言又称情报语言、情报存储与检索语 言、文献语言、索引语言、标引语言、标示系 统等。 1.从自然语言中精选出来并加以规范化的词汇;

检索语言的概念

检索语言的概念

检索语言的概念检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。

简言之,检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。

编辑本段检索语言的作用检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。

在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。

检索语言的主要作用如下:①特征标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;②相关性对内容相同及相关的文献信息加以集中或揭示其相关性;③有序化检索使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;④一致性便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;⑤最高全准率保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。

编辑本段检索语言的类型目前,世界上的信息检索语言有几千种,依其划分方法的不同,其类型也不一样。

(一)按照标识的性质与原理划分,(二)按照表达文献的特征划分。

编辑本段按照标识的性质与原理划分检索语言1、分类语言分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。

以知识属性来描述和表达信息内容的信息处理方法称为分类法。

著名的分类法有《国际十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆图书分类法》等。

2、主题语言主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。

检索语言

检索语言

3.靠词标引 某些文献主题过于专指,词表中既无专指主题 词,又无法组配标引则可采用靠词标引。 上位词标引:选用最直接的上位主题词标引。 甲基莲心碱——→生物碱类 近义词标引:选择含义相近的主题词标引。 上消化道出血 ——→胃肠出血 自由词标引
4
.组配标引
主题词——主题词交叉组配
胃溃疡出血 肛温 贲门肿瘤 孢子虫感染 ——→消化的溃疡出血+胃溃疡 ——→体温+直肠 ——→胃肿瘤+贲门 ——→原虫感染+孢子虫纲
中图法二十二个大类
A 马克思主义、列宁主义、 毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N O P Q R S T U V X Z 自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学 综合性图书
④特征词(Check Tags)
人类、动物、病headings)
副主题词是限定主题概念的规范化词汇,对主题词起 细分作用或揭示多个主题词之间的关系。 副主题词没有独立的检索意义,其作用是增加主题概 念的专指性,提高检索效率 。 副主题词现有82个,使用范围详见37页。

Acquired Immunodeficiency Syndrome ⑵ C2.782.815.616.400.40 C2.800.801.400.40 ⑶ 83 ⑷ see related AIDS Arteritis, Central Nervous System HIV Seroprevalence ⑸ X AIDS X Immunodeficiency Syndrome, Acquired ⑹XR CD4-Positive T-Lymphocytes XR HIV-1

检索语言的定义

检索语言的定义
检索语言的定义:
检索语言是一种用于在数据库或文件系统中搜索和获取信息的编程语言。

它是
一种特殊的编程语言,旨在帮助用户有效地执行搜索和过滤操作以从大量数据中提取所需的信息。

检索语言通常用于查询和操作存储在数据库中的数据。

它提供了一种结构化的
方式来定义查询条件和过滤规则。

用户可以使用比较运算符、逻辑运算符和其他操作符来指定搜索条件,以获取满足特定条件的记录。

不同的数据库系统使用不同的检索语言。

一些常见的检索语言包括结构化查询
语言(SQL)和XQuery。

SQL是一种广泛使用的关系型数据库语言,用于管理和
操作关系型数据库。

XQuery则是一种用于XML数据查询和转换的标准查询语言。

除了数据库系统,文件系统中的搜索工具也可以使用检索语言来提供高级搜索
功能。

这些工具在文件中搜索特定的文本字符串或者根据文件属性来搜索文件。

总之,检索语言是一种重要的工具,使用户能够准确、高效地从数据库或文件
系统中检索所需的信息。

它提供了一种灵活和强大的方式来定义搜索条件,以便满足用户的需求。

无论是在数据库管理还是文件管理领域,检索语言都扮演着至关重要的角色。

检索语言的名词解释

检索语言的名词解释
检索语言,也称为信息检索语言或信息检索词汇,是一种专门设计的语言,用于描述和表示文献主题和内容特征,以便计算机进行信息检索。

检索语言的主要作用是将自然语言中任意性的文本转化为规范化的、可比较的、可操作的检索工具,从而能够高效地检索出所需要的文献。

常见的检索语言包括关键词语言、分类语言和主题语言等。

其中,关键词语言是基于文献中出现的词汇进行检索的语言;分类语言则是根据文献的内容和主题,将其划分到不同的知识类别中,然后通过类别的关系进行检索;主题语言则是将文献的主题进行规范化的描述,形成一个标准化的主题词表,然后通过主题词进行检索。

检索语言在图书馆、情报中心、档案馆、网络搜索引擎等领域广泛应用,是实现信息高效检索的重要工具之一。

检索语言名词解释

检索语言名词解释检索语言就是用来存储和检索信息的计算机程序。

它主要包括三方面的内容:一是作为“目标”的信息,二是由其实现的机器或计算机程序,三是对机器或计算机程序进行有效控制和管理的算法。

在实际应用中,检索语言分两种类型,一种称为“记录检索语言”,另一种称为“过程性检索语言”。

1。

记录检索语言指的是专门针对数据库而设计的程序语言,这些程序语言采用一种表格形式将数据库中的相关信息集中到一个固定位置上。

这样使用者只需要选择他们需要的记录即可。

2。

过程性检索语言是针对数据库中每一条记录的某个特定的字段进行检索,常用的是记录内检索和关键字段检索。

记录内检索通过限制检索范围来实现,关键字段检索则通过确定检索关键字来实现。

3。

数据挖掘3。

数据挖掘(data-mining,简称: dba)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

4。

事务检索语言的最主要特点是能够直接调用存储于数据库系统中的事务数据,因此,这种检索语言主要用于检索数据库中已有的事务记录,这种检索语言称为事务检索语言。

事务检索语言的基本组成部分是事务数据表。

5。

触发式检索语言的输入与输出必须有一个规律性的控制信号,以便进行数据库的控制操作。

这种控制信号通常由计算机外部提供。

触发式检索语言的典型代表是Windows环境下的SQL语句。

6。

存储过程是一个由SQL语句构成的功能模块,它实际上是一组可执行的语句。

存储过程允许你把一个数据库的大部分操作都写成一个过程,并让这个过程自动执行。

7。

视图(View),是一种图形化显示控制台,它被集成到开发环境中。

视图是一种对象,是一种数据透明的查询手段,它以“快照”形式返回数据库中的数据,并且是动态生成的。

7。

视图是一种对象,是一种数据透明的查询手段,它以“快照”形式返回数据库中的数据,并且是动态生成的。

8。

第四章 检索语言


4、聚类法
在对检索词进行统计的基础上,将有关的索引次进行聚类,可以查出更多 的文献,从而改善查全性。 例如:“枯萎” 是与 “庄稼”、“植物生长” 联系在一起的,如果 “锈菌”也是常与 “植物生长”等词联系在一起的话,我们就可以推断 “枯萎” 与 “锈菌” 之 间存在某种联系。
二、索引语言
5、组 配
2、唯一性
指一个词只应有一种概念,一种概念,一种概念只应由一个词来表达,即 不能模棱两可、一词多义或者多词一义。
3、简洁性
也可以称为压缩性或致密性。这是指表达一定情报含量所要求的一个索引 词的长度与大小。
4、经济性
这里主要指: A、标引一个或多个索引词来表达文献主题内容是做出决策所花的时间代价; B、选择合适的检索词来表达自己情报需求的时间; C、培训人们使用这种语言的花费、辞典的编制与维护、改错的费用等。
二、索引语言
(二)索引语言的结构与种类
结构
反映文献内容特征的索引语言由两部分组成: 词汇 和 句法。 词汇,是索引记录中用来表达文献内容的词的集合。 例如:分类号码的集合,就是分类法这种语言的词汇。 句法,是将词汇中的单元(词)组成语言单元的一套规则。这种语言单 元(句法单元)可能是基本词汇所不能表达的,因而它是扩展词 汇表达能力的手段。 例如:由句法组成的 “学校实验室” 这种概念是基本词汇所不能表达的。
第四章 检索语言
检索语言概述 索引语言 索引Байду номын сангаас言的举例 计算机检索语言
一、检索语言概述
文献存贮时,文献的内外特征按照一定的语言来加以描述,而检索 时情报提问也是按照一定的语言来加以表达。所以这种把文献的存贮与 检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实 现交流的语言,就叫做情报检索语言。 检索语言,就其描述文献的有关特征而言,可分为: 描述文献外表特征的语言和描述文献内容特征的语言两大范畴。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

33 电子数字计算机 34 电子模拟计算机
317 程序包 319 各种专用程序
35 混合电子计算机
36 微型计算机 38 其它计算机
3R95151 信造息血处系理疾病
类目之间的关系: ❖从属关系 ❖并列关系
39 计算机的应用
-
392 各种专用数据库 393 计算机网络 399 在其他各方面的应用
《中图法》类目表等级关系
例:“网络浏览器”类号、类目展开示例: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 ……. TP39 计算机的应用
…… TP393 计算机网络
…… TP393.0 一般性问题
…… TP393.09 计算机网络应用程序
…… TP393.092 网络浏览器
信息检索语言和方法 1. 概念
检索语言(Retrieval language) 是用来描 述文献特征和表达检索提问的一种专门语言。不 同的检索语言构成不同的检索标识和索引系统, 提供不同的检索点和检索途径。
-
2. 检索语言的类型
检索语言
描述文献内 容特征的语言
分类语言 主题语言 代码语言
描述文献外 表特征的语言
TP1 自动化基础理论 2 自动化技术及设备 3 计算技术、计算机 6 射流技术(流控技术) 7 遥控技术 8 远动技术
30 一般性问题
312 程序语言、算法语言 313 汇编程序
31 计算机软件
314 编译程序、解释程序
315 管理程序、管理系统
32 一般计算器和计算机 316 操作系统
-
❖论述两个具有从属关系的主题,按较大的概念的 主题入类。即多级主题涉及上下位概念则入上位类。
例:“论软件需求分析方法和工具的选用” 软件需求分析方法 TP311.5 软件工程 工具的选用 TP311.56 软件工具 入TP311.5
-
❖凡涉及一个主题在另一个主题方面的应用的,入 应用类。
例: “基于网络的教务管理系统的设计与实现” TP311.52 软件开发 G473 教务管理 入G473
分类语言是用符号来标引文献,主题语言则用语 词来标引文献。
主题词语言包括标题词语言、单元词语言、叙词 语言和关键词语言。
-
关键词语言
关键词(keyword)语言是自然语言,直接取 自文献的题名、文摘等,或者取自全文的非规范 化词。除了一些冠词、介词、副词或连词外,凡 在概念上有意义的词都可用作关键词,它确保检 索用词与文献记录中的词汇一致。
例: “机械手与机器人” TP241 机械手 TP242 机械人 上位类:TP24 机器人技术
-
例: 基于VFP和SQL2000开发C/S数据库系统
VFP
TP311.132.3 关系数据库
SQL2000开发 TP311.132.3 关系数据库
C/S数据库系统 TP311.133.1 分布式数据库
入TP311.132 数据库系统
中国图书馆图书分类法(中图法):全国公共图书 馆和信息研究所等机构所采用,是我国通用的综合 性书资料分类法。
-
中图法22个基本大类(一级类目)
A、马克思主义、列宁主义、 毛泽东思想
B、哲学
C、社会科学总论
基本大类
D、政治、法律 E、军事
F、经济
G、文化科学、教育、体育
H、语言
I、文学
-
中图法22个基本大类(一级类目)
一级类目 二级类目 三级类目 四级类目
-
分类途径(分类法)
利用分类途径检索文献,检索者一定要熟悉 分类法体系,否则不易找到合适的类目。
例: 机器人足球赛 机器人 TP242 足球 G843 人工智能 TP18-分Fra bibliotek标引的一般规则
❖论述两个及以上并列主题或相关性主题,一般 依在前的或重点内容的主题入类;或入上位类。
书/刊/篇名 著者姓名 引文 代码/序号
单元词语言 关键词语言 标题词语言 叙词语言
-
例:查找“计算机模式识别装置”方面的文献。 分类语言:TP391.4 (分类体系——模式识别与装置)
关键词语言:计算机 模式识别 图象识别 (自由词)
-
标引:
标引就是将文献和提问的内容用检索语言的形 式表达出来的过程。最常见的有分类标引和主题 标引。
思考: “会计电算化”中图分类?
-
分类标引思考与练习:
统计技术在信息检索中的应用 分类标引?——中图分类号
G250 图书馆学 G250.73 网络资源开发与利用
G354 情报检索 G354.4 计算机情报检索系统
TP391.3 检索机
总结:对于一个课题,允许对其标引的分 类号为多个。
-
主题语言
它揭示事物对象及特征为出发点,是用词语表达 各种概念,用自然语言中的名词、名词性词组或句 子描述文献所论述或研究的事物的概念。
-
例:
完美 完美世界 完美主义
…… 胃
胃溃疡 胃炎 胃癌
-
❖单级标题:由一个标题词构成 单词标题: 如Romances、物质财富等; 词组标题:如Japanese literature、国家财富; 短语标题: 如反对自由主义
J、艺术
K、历史、地理
基本大类
N、自然科学总论 O、数学科学和化学
P、天文学
Q、生物科学
R、 医药、卫生
S 、农业科学
-
中图法22个基本大类(一级类目)
基本大类
T、工业技术 U、交通运输
V、航空、航天
X、环境科学
Z、综合性图书
-
《中图法》层层隶属、逐级展开的逻辑体系
311 程序设计、软件工程
TP自动 化技术、 计算技术
-
分类语言
分类语言是按照一定的观点,以学科分类为基础, 用逻辑分类的原理,结合信息的内容特征,运用概念 划分的方法,按知识门类从总到分,从上到下,层层 划分,逐级展开组成分类表,并以分类表来标引、存 储信息和检索信息。
-
目前,国际上通用的体系分类表有《国际十进分 类法》,杜威十进制分类法,国内通用的体系分类 表有《中国图书馆图书分类法》(简称《中图 法》),中国科学院图书馆分类法。
关键词选择原则: 一、反映检索课题内容实质的核心概念(实 词),排除非核心概念和泛指的语词; 二、排除介词、副词、连词等虚词。
-
例: 统计技术在信息检索中的应用 关键词:信息检索 统计
-
标题词语言
它是用规范化的科技名词标引文献的主题概念, 是受控式、先组式语言。词之间的关系早已有词 表规范表达,词表按字顺编排,也有参照指向, 实现相关概念的连接。标题词除了单级标题外, 还采用大量多级标题,标题词作标目的索引有标 题词索引。
相关文档
最新文档