信息检索05-主题语言
信息检索之检索语言

布尔逻辑检索有哪几种,其功能是什么?
常用的布尔逻辑算符有三种,分别是:
结果:增加检索专指,提高差准率。
描述文献外表特征的检索语言可简要概述为:题名、著者、文献编号等索引。
(一)表达文献外部特征的检索语言
表达文献内部特征的检索语言
分类语言 分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。 以知识属性来描述和表达信息内容的信息处理方法称为分类法。
文字型数据库是指以文字字符为主要记录内容的数据库,包括书目型、事实型、百科全书型、词库型和全文型数据库。这类数据库主要用于查找相关文献信息。
数值型数据库包括来自科学研究,原始文献或者调查研究的各种数值型或图表型数据库。这类数据库主要用于查找确定对象的特定数值信息。
数据库的成
从使用者观点观察,数据库主要由“-----记录-----字段----”三个层次构成。
文档从数据库的内部来看,文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档
记录是文档的基本单元。他是对某一实体的全部属性进行描述的结果。在全文数据库中,一个记录相当于一篇完整的文献:在书目数据库中,一个记录相当于一条文摘或题录。
字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在书目数据库中,记录含有的题名、作者、出版年、主题词、文摘等字段。
基本字段包括题名、文摘、关键词等,是与文献内容相关的字段。辅助字段包括作者、着这单位和期刊名称等,是与文献内容基本相关的字段。
信息检索语言.

中国
《中国图书馆图书分类法》 《中国科学院图书馆图书分类法》 《中国人民大学图书馆图书分类法》
印度 《冒号分书馆分类法》
五大部类:
22个基本大类: A 马克思主义、列宁主义、毛泽东思想、邓小平理论; B 哲学、宗 教; C 社会科学总论; D 政治、法律; E 军事; F 经济; G 文 化、科学、教育、体育;; H 语言、文字; I 文学; J 艺术; K 历史、地理; N 自然科学总论; O 数理科学和化学; P 天文学、地球科学; Q 生物科学; R 医药、卫生; S 农业科 学; T 工业技术; U 交通运输; V 航空、航天; X 环境科 学、安全科学; Z 综合性图书
2.分类语言的局限性: 间接性。使用分类语言进行信息检索,检索者需要两重转换。 分类语言不能按主题集中信息。 从实际需要看,大量的检索课题需 要按主题进行特性检索,体系分类语言不适合这种多维性的专题概念的 特性检索。 3.分类语言的类型: • 按照编制方法分: – 等级列举式分类法 – 分面组配分类法 – 列举-组配分类法
信息检索语言
张 行
检索语言概述 主题检索语言 分类检索语言 分类主题一体化检索语言
一、检索语言概述
1.信息检索语言的基本功用
信息检索语言是根据信息检索需求所使用的一种专门的人工语言,这 种人工语言是在自然语言基础上形成的,能够描述和组织信息特征的 一种语言。 表达信息 组织信息
字符 基本词汇 语法规则
时代分面
C1 古代 C2 近代 C3现代 C4当代 ……
4.分类语言的标记符号 标记符号:文献分类法中用以表示类目的代号,又称分类号。 作用:它具有固定类目的位置,明确各个类目的先后次序,在一定程度 上显示类目之间的隶属、并列关系以及描述某个类目的含义。 标记符号的要求 :
第二章 检索语言

(一)分类检索语言的类型
1.体系分类法 2.组配分类法
(二)分类检索语言的特点
分类检索语言是信息管理领域经典的 检索语言之一,以1876年《杜威十进分类法》 的问世为标志,已走过了一个多世纪的历 程,形成了自成体系的一套信息组织和检 索方法。
二、分类检索语言结构
(一)类目 1.类目的划分 2.引用次序 3.类目的排列 4.类名的确定 5.类目之间相互关系的处理
一、检索语言的概念 传统意义上的检索语言仅指根据信息
检索需要而创制的人工语言,又称情报语 言、情报存储与检索语言、文献语言、文 献工作语言、索引语言、标引语言、标引 符号、标识系统等。
二、检索语言的基础
(一)概念逻辑 概念逻辑,是一种科学思维方法,通
过明确各种概念及其相互关系而揭示事物 的本质属性及各种事物之间的联系与区别。
词为基础,以概念组配为基本原理,对文 献主题进行描述的后组式检索语言。
(二)叙词表的编制
叙词表是叙词法的核心体现。目前, 国内的叙词表已有七八十种之多。常用的 有《汉语主题词表》、《化工汉语主题词 表》、《机械工程主题词表》、《电子技 术汉语主题词表》、《国防科学技术叙词 表》等。
五、主要主题词表介绍
(一)《汉语主题词表》 《汉语主题词表》是我国第一部大型的
综合性的叙词表,由中国科技信息研究所 和北京图书馆负责主持,1975年开始编制, 1980年正式出版。
(二)《中国分类主题词表》
《中国分类主题词表》是在《中图法》 编委会主持下,经全国40个单位160位专家 学者的共同努力,历时8年编制而成的,于 1994年6月正式出版。
(二)单元词法
单元词又称元词,是从自然语言中选 取,经过规范化处理,表达主题最小的、 最基本的、字面上不能再分的名词术语。
信息检索语言

中图法分类简表
(/view.do?id=516)
A B C D E F G H I J K 马克思主义、列宁主义、毛泽东思想、邓小平理论 哲学、宗教 社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
中国情报检索语言之近代阶段的特点
①从分类体系来看,冲破了四部分类法的束缚,提出了 新的分类理论,能尽量建立在科学的基础之上,为新 旧书籍、中外图书的统一分类开辟了可行的途径; ②从类目设臵与标记制度来看,比较简单、科学、准确、 便于利用,是中国图书分类法史上的一次重大变革; ③从类分表的结构来看,分类法已经形成为一个完整的 系统,并且有一定的科学理论作为其指导依据及一 定的使用范围作为其实践基础; ④从编制技术上看,既继承了古代分类法的优良传统与 经验,更吸收了国外的先进技术,具有科学性;
信息检索语言的类型
分类语言
分类语言是用分类号和相应分类款目来表达 各种概念的,它以学科体系为基础将各种概 念按学科性质和逻辑层次结构进行分类和系 统排序。分类语言能反映事物的从属派生关 系,便于按学科门类进行族性检索。按照分 类方式的不同,分类语言又分为体系分类语 言、组配分类语言和混合分类语言。
中国情报检索语言之近代阶段的特点(续)
⑤受杜威分类法带来的局限与影响,在类目体系的确立 上表现有机械、呆板、生硬的一面; ⑥对分类法理论中的一些重大问题与实践中出现的情 况未能展开充分的讨论并科学的加以解决,从而在 实际操作中各行其是,影响了图书分类法理论研究 的整体性进展; 在主题法方面:我国近代图书馆的主题编目技术也是于 20世纪初由西方传入的。继而从30年代到50年代, 我国虽然有三、四部中文标题表问世,但是都未能 得到实际的应用。
信息检索语言、分类法、主题词和主题词表

信 息 检 索语 言 、 类 法 、 题 词 和 主 题 词 表 分 主
滕彦 霞
1 信 息 检 索 语 言
上篇 讲 到计算机 检索 的基 本原 理是 将用 户的检 索 提 问 词 与 数 据 库 文 献 记 录 中 的 标 引 ( 文 献 进 行 对 主题 分析 , 自然语 言 转 换 成 规范 化 检 索 语 言 的过 从 程) 词进行 对 比, 当提 问 词与 标 引 词 匹 配一 致 时 , 信 息 即为命 中 。由此 可 见 , 否 准确 地 检 索 出所 需 要 能 的 信息 , 个很 重要 的 因素 在 于能 否 准 确 地 选择 检 一 索词 , 这就 涉及 到信 息检索 语 言的 问题 。 1 1 信息 检索 语 言 的概 念 信 息 检 索语 言是 . 应 信息存储 和信 息检 索 的共 同需 要 而编制 的专 门语 言, 是连接 信息 存储 和 信 息 检索 两 个 过 程 中标 引者 与检 索者 双方 思路 的桥 梁 。因为 在 实 际工 作 中 , 信 息标 引者 与信息 检索 者在 绝大 多数情 况下 是不 可能 直 接进行 交流 沟通 的 , 因而 会造 成 信 息 存储 者 与信 息检 索者所 依据 的 规 则不 一 致 , 致 存 入 的信 息 无 导 法 检 出 。 为 了 避 免 这 种 情 况 的 发 生 , 息 标 引 者 与 信 信息 检索者 必须 遵 守 一个 共 同的 规则 , 这个 规 则 被 称作 信息检 索语 言 。 1 2 信息检索 语 言的作 用 信息 存储 时 , . 需要 用规范化 的检索 语言描述所标引 的信息 特征 , 成标 形 引标识 , 输入检索系统 ; 信息检索 时 , 同样需 要用 规范 化的检索语言描述所需要 的信息特 征 , 成提 问检索 形 标识 , 入检索系统 。当提 问检索标 识与 先前存 人 的 输 标 引标识 相匹配时 , 信息 即为命 中。如果 没有信 息检 索语 言作 为标引者 和检 索者 的共 同语言 , 就很难 使 得 标 引人员对文献 信 息 内容 的 表达 和检 索 人员 对 相 同 文献信息 内容需求时 的表达取得 一致 , 息检 索也 就 信 不可 能顺 利实现 。凶此 , 信息检索语 言不 但能够 保证 不同的标 引人员描述文 献特征 的一致性 , 而且 能够保 证检索提 问词与文献标 引词 的一 致性 。 13 信息检索语 言 的类型 检索语 言 的种 类很 . 多, 按其 规范化程度划分 可分为规 范化检 索语 言和 非 规 范化 检 索 语 言 。非 规 范 化 检 索 语 言 即 自然 检 索 语 言, 比较 容易掌握 , 而规 范 化检 索语 言 需 要学 习才 能 随意使用 。规范 化检 索语 言 按其 构成 原 理 大致 可 分 为分类检索语言 、 主题 检索语言 和代码 检索语 言 。分 类号、 主题词 、 码 都可 作 为检 索 词 , 代 而分 类 表 、 题 主 词表 、 代码 表就是 这些 检索 语 言 的词典 。例 如《 国 中 图 书分 类 法 ( 图 法 ) 、 医 学 主 题 词 表 》 Me H) 中 》《 ( S 和 《 科 分 类 与 代 码 》 。分 类 和 主 题 检 索 语 言 下 面 专 学 等 门讲解 , 在此 先简要介绍 一下代码检索语 言 。 代码 检索语 言 是用 字母或 数字 代表 文献 类别 的 种检索 语 言 。例 如《 科分 类与 代码 表 》《 AI S 学 、C I 学 位 论 文 学 科 代 码 表 》《 献 类 别 代 码 》 。 、文 等
文献检索主题语言

文献检索主题语言
文献检索主题语言是指用于描述文献主题内容的语言。
这种语言主要用于文献检索系统中,帮助用户准确、快速地找到他们所需的文献。
以下是一些常见的文献检索主题语言的类型:
1.关键词语言:这是最简单、最常用的主题语言之一。
在文献检索
系统中,关键词语言通常用于描述文献的主题内容,以便用户可以通过输入关键词来搜索相关文献。
2.主题词语言:主题词语言是指一组经过规范化的词语,用于描述
文献的主题内容。
在文献检索系统中,主题词语言通常用于精确匹配用户查询和文献内容。
3.自然语言:自然语言是指人类日常使用的语言,如中文、英文等。
在文献检索系统中,自然语言通常用于对文献进行全文检索,以便用户可以通过输入自然语言句子或段落来搜索相关文献。
4.元数据语言:元数据语言是指用于描述文献的元数据的语言,如
作者、出版日期、期刊名称等。
在文献检索系统中,元数据语言通常用于对文献进行分类和排序,以便用户可以按照特定标准(如出版时间、重要性等)筛选相关文献。
5.受控词汇表语言:受控词汇表语言是指一组经过规范化的词语,
用于描述文献的主题内容,并具有一定的上下文关系。
在文献检索系统中,受控词汇表语言通常用于精确匹配用户查询和文献内容,并可避免同义词、近义词等问题。
总之,选择合适的文献检索主题语言可以提高文献检索的准确性和效率,帮助用户快速找到所需文献。
主题检索语言的特点

主题检索语言的特点(叙词法的特点):直接性:即直接用自然语言名词术语作为标识符号,最直观、最方便,一目了然。
专指性:是指解释和查找文献主题的深度而言。
集中性:主题检索语言对反映同一主题的各个方面的文献可以达到高度集中的效果。
多元性:是指对文献主题内容采用多个主题词进行组配标引和检索,揭示与查找该文献的途径多,从而提高对文献的揭示能力和利用率。
适应性:通过增补新的主题词或通过组配,主题检索语言在表达新概念的文献和新的研究课题的资料时具有很强的适应能力。
标引就是对文献主题分析的结果赋予检索标识的过程。
主题标引:是一种将文献主题的自然语言形态,转换为主题法语言形态(叙词、标题词、关键词、单元词)的标引,这是建立主题检索系统的依据。
分类标引:是一种将文献主题的自然语言形态,转换为分类语言形态的标引,即转换成分类号码的一种标引,这是建立分类检索系统的依据。
浅标引:是一种标引深度较浅的主题标引,主要用于手工检索系统,即把文献中最重要的概念作为主题标识的标引。
深标引:是一种标引深度较深的主题标引,主要用于计算机检索系统,它反应文献中主要的和次要的概念。
标引深度是指对一片文献所赋予的全部检索标识的数量。
就主题标引而言,则指标引一篇文献平均所给予的主题词的数量。
标引等级是指将文献中的概念根据主次按等级划分,分为三个等级,一级概念标引1.一级概念标引,也称主要标引。
仅仅揭示文献的主要论点。
2.二级概念标引,也称次要标引。
3.三级概念标引,也称不要标引。
2.加权标引:是指一种采用打星号的方式区分主要、次要标引的方法。
既为所标引主题词确定IM和NIM词的过程。
加权标引的目的是突出文献重点,划分标引等级。
主题分析概念:是指根据文献存储与检索的要求,对文献内容进行分析,从中提炼主题概念,确定主题类型、剖析主题结构和确定概念间关系的过程主题分析的意义在于使标引者尽可能的掌握一定的分析方法,遵循共同的分析步骤,客服因分析不一致造成的标引不一致,保证标引的初始环节达到较高的一致性主题标引的原则一、基本原则(一)真实性(二)客观性(三)全面性(四)准确性(五)专指性(六)一致性二、选词原则(一)首选专指词(二)次选组配词(三)选择上位词或靠近义词(四)标引自由词三、选词注意事项(一)随时注意主题词的增删,尽量使用新词表。
信息检索基础 检索语言及其分类

《中国图书馆图书分类法》
R91下分为R911药物数学、R912药物物理学、R913 药物物理化学、R914药物化学、R915药物生物学。 R914下又分为{R914.1}药物分析、R914.2药物设 计 、 R914.3 无 机 药 学 化 学 、 R914.4 有 机 药 物 化 学 、 R914.5有机合成药物化学。
医学信息检索
检索语言及其分类
教 学
目 标
1
了解检索语言的分类
2
熟悉《中国图书馆图书分类法》
3
熟悉《医学主题词表》(MeSH)
了解检索语言的分类
检索语言是信息检索中用来描述文献特征和表达检索提问内容的一种专门性的人工语言,是一组有规则 的、能够反映出信息内容及特征的标识符,用于联系文献信息与用户需求的“语言括主题词和关键词语言。主题词语言与关键词语言的区别在于规范化程度不同。 ○关键词又名自由词,中选取的具有实质意义的名词,这种词不受主题词表限制,一般是未经规是从文献范
化或略规范化的词,常用于一般检索或精度要求不高的检索。 ○主题词是规范化词汇,最大的优点是概念准确、专指度高。它对文献中出现的同义词、近义词、多义词以
思 考 题
1
简述检索语言的分类及其特点
2
《中国图书馆图书分类法》分类体系是怎样的
3
主题词与关键词的区别是什么
图1主题:氟哌酸*胃肠炎 图2 主题:诺氟沙星*胃肠炎
《医学主题词表》(MeSH)
主题检索语言是信息检索语言中检索效率较高、使用频率较多的一种语言。人们为了更快更 好地检索文献,将概念更准确、专指度更高的反映文献内容的主题词编制成专门的主题词表, 供大家使用。目前国内最常用的主题词表是《医学主题词表》(MeSH)、《中医药学主题 词表》和《汉语主题词表》。 《医学主题词表》(MeSH)是美国国家医学图书馆从1960年起编制,并于1963年正式使 用的一部规范化的可扩充的动态性叙词表,是生物医学领域具有权威性的主题词表。MeSH 主要包括主题词表和树状结构表两个部分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
=卡车
≈承载式车体
≈非承载式车体
上下位关系
轻型载重汽车
重型载重汽车
使用主题词的基本要求
应使用单词、固定词组或缩略词 必须有检索意义 查找国外文献时要注意国外用词习惯 与我国的差异 要尽可能利用机内主题词表
概念转换的方法
适用于固定词组表示的概念
概念比较单一的文献需求 适于单字段检索
2.3 主题检索
请过来签到
补签无效
检索语言
检索语言是用于标识文献内容特征的一套规 则和体系 由检索标识符和标引规则组成 用于标识用户检索的需求特征。
文献标识 & 检索标识
文献标识是揭示文献主题内容的特征词,又 称标引词 检索标识是概括检索需求的特征词,又称检 索词
内容特征 & 外表特征
专指词、通用词与泛指词
专指词 = 专业名词
表示具体事物名称的名词术语 表示事物的状态或现象的名词术语 表示科学分类的名词术语 表示研究方法、技术方法的名词术语 表示工艺方法、加工技术的名词术语 表示化学元素、化合物、金属材料与合金的名词术语
通用词
表示国家名称、地名、组织机构名称及人名的专有名词
由形容词性物主代词“我的”或“我们的”加上名词“国家”组成的短语 不是单词和固定词组,不能作检索词
结构性的语句具有引导或框架作用
的含义
可以找到名词解释
翻译
可以得到英文词汇
吗
可以得到其他网民的回贴
语义网的三种关系 & 主题词替换
车辆 上下位关系
货车 等同关系 相关关系
载重汽车
将省略的叙述完整化
用空格代替虚词抽取两边的概念
划分出交叉概念
对抽出的关键词进行整理,划分出专指概念和通用概念
去掉相对不重要的词和重叠概念
补充隐含概念(上下位概念,可替换概念,递推概念)
合著网络 论文产出 模式 拓扑属性
主题概括注意事项
正确分析课题内容,补充隐念概念
废旧电池的回收处理与利用 → 循环 利用,稀土金属,稀有金属,提炼
有些复杂的概念可以拆分成可 替换的概念和不可替换的概念 两部分,可以替换的词之间用 逻辑或组配,并将其与不可替 换的概念进行逻辑与组配。
风险控制,风险管理,风险防范 → (控制 + 管理 + 防范)* 风险
09-有几个知心朋友 08-学会宽恕他人
适用于逻辑组配表示的概念
大多数情况适用于组配检索
单词* 单词 单词*词组
主题概括的步骤——从课题名称中提取关键词
掐头去尾
合著网络模式与论文产出数量及质量的相关性研究——以中国催化剂领域期刊论文合著网络为例 合著网络模式与论文产出数量及论文产出质量的相关性——中国催化剂领域期刊论文合著网络 合著网络模式 论文产出数量 论文产出质量 相关性 中国催化剂领域期刊论文合著网络 合著网络模式 论文产出 论文数量 论文质量 相关性——中国 催化剂领域 期刊合著网络 论文合著网 络 合著网络 期刊合著网络 论文合著网络 论文产出 论文数量 论文质量——中国 催化剂领域 模式 相关性 合著网络 论文产出 模式
美国,WTO,世界知识产权组织
文献类型、文献载体和其他通用的的名词术语
专利,标准,百科全书,手稿,模型、模式Biblioteka 不能用作检索词的情况
词性比较复杂的词
爱国
动宾短语,相当于动词,不能作检索词用
全国
在“全国上下”中是名词,在“全国人民”中是形容词 词性不确定,不能作检索词用
我国
2007年度伦敦进出口贸易数据 案例分析
2007年度伦敦进出口贸易数据 信息来源
可供参考的检索表达式
London
Government data Office for London
检索结果页中有用的信息
Government
关键词与分类组配检索实例一 遗传元胞自动机模型及其沪深股市复杂性中的应用研究(P27)
近两年上海进口和出口货运量(吨位数)
关键词并不是越多越好,只保留最能表达课题 内容,具有实际检索意义的核心概念。
利用稻米皮糠提取天然食品色素
概括出的词:稻米、皮糠、提取、天然、食品、色素 最终保留的词:稻米、色素
加强我国对跨境资本流动监管的研究(P27)
资本流动
第一组:跨境资本,跨国资本,国际资本,监管 第二组:资本流动,监管,跨
课间 休息
10-要有目标和追求
11-常和别人保持合作,并从中获得乐趣
内容特征是文献外表上没有标明、需要通过 分析得出的标引特征
文献主题、学科属性等
外表特征是标识文献外表上具有的,一眼能 识别的特征
题名、责任者、出版者、出版年、国际标准号、
馆藏号等
文献信息检索的实质
实现检索标识与文献标识的匹配
主题检索标识的类型
广义的主题检索标识指概括主题内容的自然语言词汇, 包括叙词和关键词 狭义的主题检索标识仅指叙词 叙词
以主题词表(或称叙词表)为基础的检索语言词汇 属于规范词或受控词 属于自由词
关键词
主题词的构词形式
单词
语言中可以独立运用的最小单位 宏观,调控,节能,减排
固定词组
习惯上固定搭配使用的词组或短语 宏观调控,节能减排,经济危机,环境保护,闭路电视 ,剩余价值,燃料电池
缩略词
最后形成的检索词:遗传元胞,元胞自动机,F83
课题分析小结
明确研究目的,确定文献类型
查潘序伦的生平事迹
具有计时等功能的磁疗表 一种具有计时功能的表形磁疗器
要从总体上把握课题概念。
采用加词法:增加同义词或上 下位概念词,必要时增加上位 概念词和下位概念词。
水果 → 梨
揭示出课题中隐含的,但在字 面上没有直接表示出来的概念, 可以提高查全率。