3-1检索语言概述
信息检索语言.

中国
《中国图书馆图书分类法》 《中国科学院图书馆图书分类法》 《中国人民大学图书馆图书分类法》
印度 《冒号分书馆分类法》
五大部类:
22个基本大类: A 马克思主义、列宁主义、毛泽东思想、邓小平理论; B 哲学、宗 教; C 社会科学总论; D 政治、法律; E 军事; F 经济; G 文 化、科学、教育、体育;; H 语言、文字; I 文学; J 艺术; K 历史、地理; N 自然科学总论; O 数理科学和化学; P 天文学、地球科学; Q 生物科学; R 医药、卫生; S 农业科 学; T 工业技术; U 交通运输; V 航空、航天; X 环境科 学、安全科学; Z 综合性图书
2.分类语言的局限性: 间接性。使用分类语言进行信息检索,检索者需要两重转换。 分类语言不能按主题集中信息。 从实际需要看,大量的检索课题需 要按主题进行特性检索,体系分类语言不适合这种多维性的专题概念的 特性检索。 3.分类语言的类型: • 按照编制方法分: – 等级列举式分类法 – 分面组配分类法 – 列举-组配分类法
信息检索语言
张 行
检索语言概述 主题检索语言 分类检索语言 分类主题一体化检索语言
一、检索语言概述
1.信息检索语言的基本功用
信息检索语言是根据信息检索需求所使用的一种专门的人工语言,这 种人工语言是在自然语言基础上形成的,能够描述和组织信息特征的 一种语言。 表达信息 组织信息
字符 基本词汇 语法规则
时代分面
C1 古代 C2 近代 C3现代 C4当代 ……
4.分类语言的标记符号 标记符号:文献分类法中用以表示类目的代号,又称分类号。 作用:它具有固定类目的位置,明确各个类目的先后次序,在一定程度 上显示类目之间的隶属、并列关系以及描述某个类目的含义。 标记符号的要求 :
检索语言

一部分类法实质上就是一套概念标识系统。
体系分类法采取对文献论述的事物概念进行层层 划分、层层隶属的办法来形成一系列专指的分类 标识,按照科学体系将分类标识组织成具有隶属、 并列关系的概念等级标识系统。分类法虽然比较 具有学科的系统性,但它所能反映的这种科学系 统性,只是在一定的限度之内。现代科学由于边 缘学科、交叉学科的出现,各门学科互相渗透, 互相结合,日益使直线序列的分类法难以反映多 元性的知识空间,因而不能确切地代表科学体系。
为了使检索的过程,即文献标识和信息提问的对 比进行得顺利,二者都需要用一定的语言来加以表达。 只有借助于这种语言,文献的标引人员与检索人员才 能有一个共同的约定,彼此才能沟通思想。也就是说, 文献存储时,文献的内外特征按照一定的语言来加以 描述,而检索时信息提问也按照一定的语言来加以表 达。这种把文献的存储与检索联系起来、把标引人员 与检索人员联系起来以便取得共同理解、实现交流的 语言,就叫做检索语言。检索语言是用来描述文献特 征和表达检索提问的一种专门语言。检索效率的高低, 在很大程度上取决于所采用的检索语言的质量以及对 它的使用是否正确。下图展示了检索语言在信息存储 和检索过程中的作用。
《中国图书馆分类法》
(五)评价
不足: (1)部分类目体系仍存在进一步完善的 问题。 (2)通用复分表需要完善改进。 (3)分类法系列中不同类表之间的协调 。
例:层层展开
T 工业技术
TP 自动化技术、计算机技术
TP3
计算技术、计算机技术
TP31
计算机软件
TP311
程序设计、软件工程
《美国国会图书馆图书分类法》
(三)标记符号
类号采用字母和数字混合标记, 大类用一个字母,小类用二至三个 字母,然后加序数1—9999,以区 分各级子目。
第2章 检索语言

广义上的检索语言,指信息检索过程中涉及的人工语言 和自然语言。
人工语言是根据一定的规则人为编制而成的检索语言,有严格的使用规则,可用 于表述文献主要内容,建立信息检索系统。 自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。
2.1 2.2 2.3 2.4 2.5 2.6
检索语言概述 检索语言的理论基础 分类检索语言 主题检索语言 分类主题一体化检索语言 网络信息检索语言
2.1 检索语言基本知识
2.1.1 检索语言概述 2.1.2 检索语言的功能 2.1.3 检索语言的类型
2.1.1 检索语言概述
3.代表类事物特征的一套代码;
世界常见的检索语言主要有:
《杜威十进制分类法》 《国际十进制分类法》 《冒号分类法》 《中国图书馆分类法》 《中国人民大学图书馆分类法》 《汉语主题词表》
2.1.2检索语言所具备的功能
(1) 对文献的信息内容及其外表特征加以规范化 的标引; (2) 对内容相同及相关的文献信息加以集中或揭 示其相关性; (3) 可使文献信息的存贮集中化、系统化、组织 化,便于检索者按一定的排列次序进行有序化检 索; (4) 便于将标引用语和检索用语进行相符性比较。
狭义上的检索语言,仅指根据信息检索的需要,按照一 定的规则对自然语言进行规范,并专门用于信息标引和用户 检索的人工语言。
2.1.1 检索语言概述
检索语言又称情报语言、情报存储与检索语 言、文献语言、索引语言、标引语言、标示系 统等。 1.从自然语言中精选出来并加以规范化的词汇;
第二章信息检索语言

分面组配分类法
地区分面 E1 中国 E2 朝鲜 E3 韩国 E4 日本 …… 体裁分面 D1 诗歌 D2 戏剧 D3 小说 D4 散文 …… 时代分面 C1 古代 C2 近代 C3现代 C4当代 ……
• 著名的分类表: 著名的分类表:
杜威十进分类法》 国际十进分类法》 《 杜威十进分类法 》 、 《 国际十进分类法 》 、 美国国会图书馆图书分类法》 《美国国会图书馆图书分类法》、《中国图 书馆图书分类法》 书馆图书分类法》、《中国科学院图书馆图 书分类法》 书分类法》、《中国人民大学图书馆图书分 类法》 国际专利分类法》 类法》、 《国际专利分类法》等。
• 优点: 优点:
组配准确,标引能力强;结构完备, 组配准确,标引能力强;结构完备,词汇控制严格 适合多途径检索,检索效率高; 适合多途径检索,检索效率高;对检索系统的适应性高
• 缺点: 缺点:
词表编制和管理的难度大;标引难度大。 词表编制和管理的难度大;标引难度大。
叙词语言的词汇控制
• • • • • • 词量控制 词类控制 词形控制 词义控制 词间关系控制 先组度控制
–
–
表达信息 组织信息
2.检索语言的组成要素 检索语言的组成要素 – 字符 – 基本词汇 – 语法规则 3.检索语言的特点:严密性、可控性、系统性 检索语言的特点: 检索语言的特点 严密性、可控性、
4.检索语言的类型 检索语言的类型
• 内容特征语言
– 分类语言 – 主题语言
• 外部特征语言
– 名称语言 – 著者语言 – 序号语言
关键词语言
• 关键词:是指从文献信息的题名、摘要或正文中抽取出来 关键词:是指从文献信息的题名、
能揭示信息内容特征的词语。 能揭示信息内容特征的词语。
信息检索教程(第三版)PPT6

3.2.1 概念逻辑
2.概念逻辑方法 检索语言在表达各种概念及其相互关系时,普遍地应用了概念逻辑的原理,有效地利 用了
“概念的划分与概括”和 “概念的分析与综合”这两种逻辑方法来建立自己的结构 体系。 (1)概念的划分与概括 (分类) 即利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形 成新的
之间相互交叉渗透和综合而形成的新知识领域很困难,也难以反映客观实际中多维的知 识 空间结构。
3.3.2 体系分类法
(三)主要体系分类法介绍 目前,国内常见的体系分类法有 《中国人民大学图书馆图书分类法》,简称 《人大
法》,初版于1953年; 《中国图书馆分类法》,简称 《中图法》,初版于1975年,名为 《中 国图书馆图
1.标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性 2.对内容相同及相关的文献信息加以集中或揭示其相关性 3.使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行 有
序化检索 检索语言将表达成千上万个信息主题概念的全部信息标识排列成一个有序的系统。排 列
信息标识的方法主要有三种: ①分类排列法,用于号码标识系统; ②字顺排列法,用于 语词标识系统和代码标识系统; ③分类和字顺结合的排列法,即先按照分类排,再按字顺 排,用于语词标识系统 (如分
3.1.3 检索语言的分类
2.描述文献内容特征的检索语言 描述文献内容特征的语言指主要依据文献内容特 征而形成的检索语言,这是检索语言 研究的核心部分,具体有分类语言、主题语言 和代码语言。
3.1.3 检索语言的分类
(二)按结构或原理,可分为分类语言、主题语言、代码语言和引文语言 分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统编排。分
文献信息检索实用教程 第三版 第3章 文献信息检索的类型、语言及工具

文 献 信 息 检 索 实 用 教 程 (第三版)
目录
CONTENTS
第3章 文献信息检索的类型、语言及工具
3. 1 文献信息检索的类型 3. 2 文献信息检索的语言 3. 3 文献信息的检索工具 3. 4 文献信息检索的意义和作用 3. 5 文献信息检索的发展趋势
第3章 文献信息检索的 类型、语言及工具
3.检索工具的类型
3. 3 文献信息的检索工具
01 控制一检索性工具
02 资料一参考性工具
03
文献一全文型检索 工具
第3章 文献信息检索的 类型、语言及工具
4.检索工具的结构
3. 3 文献信息的检索工具
文前栏目
主体部分
附属部分
第3章 文献信息检索的 类型、语言及工具
第3章 文献信息检索的 类型、语言及工具
3. 1 文献信息检索的类型
1.按检索对象 划分
文献检索 数据检索 事实检索
2.按检索手段 划分
手工检索 机械检索 计算机检索
3.按检索途径 划分
直接检索 间接检索
4.按检索载体 划分
文献信息检索 非文献信息检索
第3章 文献信息检索的 类型、语言工具3. 2 文献信息检索的语言
第3章 文献信息检索的 类型、语言及工具
3.2.2.检索语言的类型
3. 2 文献信息检索的语言
第3章 文献信息检索的 类型、语言及工具
3. 2 文献信息检索的语言
3.2.3.检索语言的功能
(1) (2) (3)
对信息的内容特征及某些外在特征加以标引.赋子其检索标识.保证不同的标 引者表述信息特征的一致性。
一般情况下.检索工具必须具备以下四个基本条件: (1)必须详细记录文献的外在特征和内容特征。 (2)必须具有既定的检索标识.如主题词、分类号、作者姓名和文献序号等。 (3)必须根据标识的顺序.系统地、科学地排列文献.使其成为一个有机的整体。 (4)能够提供多种检索途径。
第四章 检索语言
4、聚类法
在对检索词进行统计的基础上,将有关的索引次进行聚类,可以查出更多 的文献,从而改善查全性。 例如:“枯萎” 是与 “庄稼”、“植物生长” 联系在一起的,如果 “锈菌”也是常与 “植物生长”等词联系在一起的话,我们就可以推断 “枯萎” 与 “锈菌” 之 间存在某种联系。
二、索引语言
5、组 配
2、唯一性
指一个词只应有一种概念,一种概念,一种概念只应由一个词来表达,即 不能模棱两可、一词多义或者多词一义。
3、简洁性
也可以称为压缩性或致密性。这是指表达一定情报含量所要求的一个索引 词的长度与大小。
4、经济性
这里主要指: A、标引一个或多个索引词来表达文献主题内容是做出决策所花的时间代价; B、选择合适的检索词来表达自己情报需求的时间; C、培训人们使用这种语言的花费、辞典的编制与维护、改错的费用等。
二、索引语言
(二)索引语言的结构与种类
结构
反映文献内容特征的索引语言由两部分组成: 词汇 和 句法。 词汇,是索引记录中用来表达文献内容的词的集合。 例如:分类号码的集合,就是分类法这种语言的词汇。 句法,是将词汇中的单元(词)组成语言单元的一套规则。这种语言单 元(句法单元)可能是基本词汇所不能表达的,因而它是扩展词 汇表达能力的手段。 例如:由句法组成的 “学校实验室” 这种概念是基本词汇所不能表达的。
第四章 检索语言
检索语言概述 索引语言 索引Байду номын сангаас言的举例 计算机检索语言
一、检索语言概述
文献存贮时,文献的内外特征按照一定的语言来加以描述,而检索 时情报提问也是按照一定的语言来加以表达。所以这种把文献的存贮与 检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实 现交流的语言,就叫做情报检索语言。 检索语言,就其描述文献的有关特征而言,可分为: 描述文献外表特征的语言和描述文献内容特征的语言两大范畴。
文献检索笔记总结(1)
文献检索导学1.文献信息检索课的意义“文献检索课”正是“关于哪儿可以获得这些知识的知识”的一门课程。
高校开设《文献检索与利用》课的目的是使学生了解文献和文献检索的基本知识,训练学生检索与利用文献的技能,以提高学生的自学能力和独立研究的能力。
提高信息素养是新型人才的必备能力、终身教育的需要、科学研究工作者的基本素质。
2.信息素养“信息素养(素质)”的本质是全球信息化需要人们具备的一种基本能力。
信息素养的内涵信息意识、信息知识、信息能力、信息道德。
3.平台的使用交作业提醒:作业提交完后,一定要打开浏览一下,以免将附件粘贴错误;在老师未批改之前,可以自行删除作业,并重新提交;作业要保持原题的格式;作业要一次性提交,不能分次交。
4.有关本课的几点说明本课为选修课,学分2分综合成绩为:30%平时成绩+70%期末测验平时成绩:出勤+作业+发言期末测验:笔试、开卷奖励第一讲绪论1.1文献信息检索的重要意义提高信息素养(素质)(见导学)1.2信息、知识、文献1.2.1信息的概念信息是物质的一种属性,是物质存在方式或运动状态的显示或反映,是由物质发出的消息、指令和数据。
信息这一概念应用非常广泛。
不同学科、不同领域的人们分别从各自的角度研究信息、描述信息,因此,有关信息的概念就有众多不同的表述。
据统计,目前关于信息的定义已有百余种之多。
信息的基本性质:普遍性、客观性、中介性、无限性、传递性、时效性、依附性、共享性。
1.2.2知识“知识是人类认识的成果或结晶”,是人类在认识和改造世界的社会实践中获得的对客观事物本质和运动规律的认识。
从不同角度分类。
如按成熟程度可分为经验知识、理论知识;按知识内容的学科性质将知识划分为哲学知识、自然科学知识和社会科学知识等。
1.2.3文献“文献是记录有知识的一切载体”。
这个定义明确了构成文献的三要素,即:知识、记录手段和载体。
知识是文献的内容,载体是文献的形式,记录手段则是联系文献内容与形式的桥梁。
3课检索语言与主题标引(4、5章)
的形式:(所有词按字顺排列)
1) 单词: neoplasms、 heart、 smoking、 liver、 eye、……
2) 代号: A-23187(卡西霉素) 3) 词组: 顺置词组:liver neoplasms、stomach neoplasms,……
主题语言包括:关键词语言、单元词语言、标题词语言、
叙词语言等,它们有不同的主题词表。主题词表达概念本 身,在主题词表中通过参照系统来指示词汇之间的关系。
8
其他需要注意的检索语言类型划分方式:
按规范程度:自然语言(非规范语言) 、人工语言 (规范语言)
natural language :自然语言是取其自然形态,不受控,使用非 规范词(uncontrolled term)或称自由词(free term)。自然 语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交 叉的现象。常见的有同义词、近义词、同型异义词等。 artificial language:受信息检索的控制,使用控制、规范词 (controlled term)。人工语言的规范处理重在两个方面:一是 使一个概念只用一个词汇来表达,这样就避免了多词一义的情况; 二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。
历史注释信息说明:“Family Planning”从1968年起用作主题词,但在1963~1967年用 “BIRTHCONTROL”作主题词。在1968~1974年“BIRTH CONTROL”不做主题词,它是属 于主题词FAMILY PLANNING下的次要叙词,到1975年它又属于主题词 CONTRACEPTION(避孕)的次要叙词。 换句话说,欲用《IM》检索计划生育方面的文献,在不同的时期要用不同的主题词检索, 1967年前须用主题词“BIRTH CONTROL”,1968~1974年须用主题词“FAMILY PLANNING”,1975年还须用主题词“CONTRACEPTION”。目前“Family Planning”和 23 “Contraception”这两个词都作主题词,可以相互参照。
检索语言
单元词语言
它是从文献内容中抽取出来的,以不能再分解 的概念单元的规范化名词作为文献主题概念的标 识。 单元词也称元词,元词语言是后组语言,它将 一些元词在检索执行时组合起来使用。 元词的组配仅限字面组配。单元词检索具有灵 活、自由的组配方式。
思考: 课题的分类标引和主题标引
1、统计技术在信息检索中的应用 2、电子商务的安全性问题研究 3、大量数据的备份与恢复 4、ADO与SQL在VC中共同实现数据库操作 5、在C语言中如何实现数据库的访问 6、教务管理系统的设计与实现 7、网络技术在社区医疗服务的应用 8、单片机与液晶显示器的接口及应用
3、大量数据的备份与恢复 TP309.3 数据备份与恢复 数据备份 数据恢复
J、艺术 K、历史、地理
基本大类
N、自然科学总论
O、数学科学和化学 P、天文学
Q、生物科学
R、 医药、卫生 S 、农业科学
中图法22个基本大类(一级类目)
T、工业技术
基本大类
U、交通运输
V、航空、航天 X、环境科学 Z、综合性图书
《中图法》层层隶属、逐级展开的逻辑体系
30
一般性问题
例:
完美 完美世界 完美主义 …… 胃 胃溃疡 胃炎 胃癌
单级标题:由一个标题词构成 单词标题: 如Romances、物质财富等; 词组标题:如Japanese literature、国家财 富; 短语标题: 如反对自由主义 多级标题(复合标题):由两个或两个以上的 标题词,采用组配符号联接所构成。 多级标题: 如“哲学-手册” 限定标题: 如“红楼梦(越剧)” 带说明语的标题: 如: Sports-England, London Metropolitan area
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
2、3 检索语言的谱系
一般地,可以将检索语言类型按亲属关系划分为4个层次,从而构成 检索语言的谱系。
10
9
五、信息检索语言的基本要求
1、保证较高的检全率和检准率。 2、能满足多种检索要求。从学科、专业出发的族性检索,
从事物出发的特性检索,多途径、多因素检索以及检 索范围的自由改变。 3、易于标引,易于检索,减少标引和检索误差。这就需 要语词或符号的明确性,语法的严谨性,标识的直观 性,排序的易理解性,查词查号手段的多样性以及整 个语言包含概念的丰富和完备性等。 4、多方面的适应性。 5、具有与其它检索语言的兼容性和通用性。 6、具有不断进行现代化改造的可能性。
3
二、检索语言的类型与谱系
2、1 依据检索语言的构成原理,把检索语言划分为分类检索语言、 主题检索语言、分类-主题一体化语言、代码语言和引文语言等 类型。
2、2 依据检索语言的受控情况,把检索语言分为Artificial Language 和Natural Language。
此外,可以按检索语言的学科或专业范围、适用范围、检索标识的 组合使用方法以及对信息特征的描述等标准,对检索语言进行划 分。
维方式,它反映概念之间的关系,确定概念的类型、内涵和外延 等。检索语言就是运用概念之间的各种关系,对文献内容和外部 特征进行标引。具体而言,概念的划分与概括,侧重于概念的隶 属关系和并列关系,并据此建立检索语言的概念等级体系。概念 的分析与综合,主要是利用概念的交叉关系,依此建立检索语言 的概念组配体系。 2、基本原理与机制之二:知识分类 知识分类是指以各门科学所研究的运动形态的固有特征及其互相关 联与转变的次序为依据,对整个科学知识领域所做的分类。目的 是考察各门科学之间的区别与联系,确定各门科学的内部结构, 建立相应的分类体系,以反映当代科技水平并指导科学的发展。
2
一、信息检索语言的概念和特点
信息检索语言是根据信息检索的需要而创制的人工语言,其实质是表 达一系列概括文献信息内容的概念及其相互关系的概念标识系统。 它可以是从自然语言中精选出来并加以规范化的一套词汇,也可 以是代表某种分类体系的一套分类号码,还可以是代表某一类事 物的某一方面特征的一套代码,用以对文献内容和信息需要进行 主题标引、逻辑分类或特征描述。
5
2、2 按语言受控情况对检索语言进行划分
Artificial Language是指采用Controlled term并进行人工控制的语 言,或称受控语言。所谓规范词是指采用特定的词汇来专指或 网罗相应的概念,它们能够对同义词、近义词、相关词、多义 词及缩略语等进行规范。使用规范词能够提高检索效率。单元 词语言、标题词语言、叙词语言等都是规范语言。
Chap3 Retrieval Language
3-1 检索语言概述 3-2 分类检索语言 3-3 主题检索语言
思考题 课题4:经济管理网络信息分类的基本特征
1
3-1 检索语言概述
一、检索语言的概念和特点 二、检索语言的类型与谱系 三、检索语言的构成和基本功能 四、检索语言的基本原理 五、 检索语言的基本要求
⑴ 简明扼要地表达文献及其检索课题的主题概念,使词语和概念一 一对应,排除一词多义、多词一义或词义含糊等现象。
⑵ 科学准确地匹配概念,即将检索时的标引用语和检索用语进行相 符性比较。பைடு நூலகம்
⑶ 全面有效地显示概念之间的相互关系。采用等级结构、参照系统、 轮排聚类法、范畴聚类法和图示法等各种显示概念之间关系的方 法,来实现对内容相同或相关的信息加以集中或揭示其相关性。
2、检索语言的基本功能。 对文献的信息知识内容及某些外部特征加以标引; 对内容相同或相关的信息加以集中或揭示其相关性; 对大量信息加以系统化或组织化; 便于对标引用语和检索用语进行相符性比较。
8
四、检索语言的基本原理
1、基本原理与机制之一:概念逻辑 概念逻辑是揭示事物本质属性及各种事物之间联系与区别的科学思
检索语言语系 检索语言语族 检索语言语支 检索语言语种
描述文献内容 分类检索语言 标题词法
特征的检索语言 主题检索语言 元词法
分类主题一体 叙词法 汉语主题词表
描述文献外在
化语言 键词法
特征的检索语言
7
三、检索语言的构成和基本功能
1、检索语言的构成。检索语言包括两个部分:一是检索语言词汇, 即登录在分类表、词表中的全部标识。一个标识(分类号、检索 词、代码)就是它的一个语词,而分类表、词表、代码表则是它 的词典。二是检索语言语法,它是指如何创造和运用那些标识 来正确表达文献内容和信息需要,以有效地实现信息检索的一 整套规则。检索语言语法可以进一步分为词法和句法两个方面。
2、3 检索语言的谱系
4
2、1 按构成原理对检索语言进行划分
分类检索语言是指使用分类号码表达文献主题标识,并按照知识 分类的原理加以排列的一类信息检索语言。 主题检索语言则是指使用名词术语表达文献主题标识,并照按字 顺加以排列的一类信息检索语言。 分类检索语言和主题检索语言相互影响、渗透、补充和结合,从 而出现了分类主题一体化语言,即分类语言和叙词语言在术语系 统、参照系统、标识系统和索引系统等方面完全实现兼容所组成 的统一体。如分面叙词表、叙词表式字顺索引、分类表-叙词表对 照索引及集成词表等等。 代码检索语言是指用来标引、检索特定专业文献的某种代码系统。 引文检索语言则是基于文献之间的引证关系而形成的一种检索语 言。它以引文为检索词,根据引证关系将有关文献自然地耦合在 一起。