主题语言

第一章、主题语言概述(陈薇莹)
什么是主题语言
所谓主题语言,是以自然语言的语词为字符以规范化或未规范化的名词术语为基本词汇,以概念之间的形式逻辑为语法或构词法,用语词字顺排列,主题概念以参照系统显示概念之间关系的一类检索语言。
检索标识的含义
所谓检索标识,是以简练的语言形式表示文献信息特征,目的是用以区分和辨识文献内容,作为有序存储和检索文献信息的依据。这种特殊的语言就称为情报检索语言或检索语言。
什么是引用次序
引用次序亦称组配次序,是指对复合主题进行标引和检索时,各个主题因素的组合或排列的次序。主题语言的引用次序是指字顺标题中各个主题因素的排列次序,是主题语言重要句法手段之一,它决定主题检索工具中主题款目的排检位置。
常见的轮排形式
1. 简单轮排 在标引词语中,依次将每一个语词置于入口位置,不保留或不维护标引语句的句法关系,这种形式对文献主题的揭示较浅,适用于建立后组式检索系统。
2. 词对轮排 是将标引语句中的入口词进行两两组合,构成一对,然后将每个词对进行有序排列,一个作为主题标引,另一个作为副标题,使标识较为专指。
3. 转动轮排 也称循环轮排,是一种能够保持检索语句原有句法关系的轮排,即当某一具有检索意义的词语轮排至入口位置时,入口词左右两方其他词语仍然保留,以起修饰和限定作用。
4. 结构轮排 亦称换轨轮排,即是亦种能保留原检索语句中句法结构的轮排,在其编制过程中尤其重视检索语句的句法结构,并根据其结构特性轮排后生成款目,其易读性好,但编制较为复杂。
主题语言的作用
1. 揭示信息内容
在信息存储时,首先需要文献标引人员对各种文献进行主题分析,即把文献中所包含的信息内容分析出来,使之形成若干能代表文献主题的概念,然后用主题语言的语词把分析出来的主题概念标识出来,直接表达文献信息的主题内容。
2. 建立信息检索工具或检索系统
用主题语言揭示文献,一般不用来组织文献,只用来组织各种检索工具或建立检索系统。
主题语言的词汇控制与信息检索效率的关系
主题语言的词汇控制方法与信息检索的效率密切相关。检索效率主要是指检全率与检准率。所谓检全率是指对文献信息用检索语言标引并纳入检索系统之后,在需要时能将其中载有有关信息的文献全部检出比率;所谓检准率是指检出的文献全部与信息需求之比。一般说来,词量控制、词形控制、同义词控制及词间关系控制可以提高检全率;而词义控制、专指度控制和先组度控制则可以提高检

准率。
检全率和检准率之间存在着互相制约的现象,提高检全率会使检准率下降,提高检准率会使检全率下降。
词汇控制的目的
主题语言的词汇控制的目的是使标引者和检索者对主题事物表达一致,避免相关信息的分散,并通过将纵聚合和横组合关系的词连接起来,促进对某一主题进行全面的检索。
第二章 标题语言(赵玮)
概念一:多级标题 P38
即在标题下再加标题。多级标题实质上是对主标题的复分,一般用短横“—”符号将主标题再细分下去,成为一组串连的标题,即多级标题。

概念二:倒置标题 P39
将词组标题中起限定作用的词置于被限定词之后。
倒置标题有两个作用:一是可以使类称词在前,增加族性检索的性能;二是可以使定型词在前,方便检索。(课件上的)
倒置标题有两个作用:意识将重要的、通用的、定型的词置于标题的最前端;二是尽可能利用字面成族的机会。(书上的)

概念三:自由浮动复分标题 P60
是指在主表中没有列出或仅在个别主标题下列出,标引人员可视其需要对特定标题进行形式或内容复分。简言之,自由浮动复分就是内容或形式复分的自由化,可以压缩标题表的篇幅、增加标题表的灵活性。

标题词之间有什么关系?(掌握)P44
早期,标题语言采用4种符号来显示标题词间相关关系,其参照符号及含义列表如下:

符号 英文涵义 中文符号及涵义 显示关系
See
X
SA
XX See
See from
See also
See also from 见
见 自
参见
参见自 非标题词与标题词
标题词与非标题词
标题词之间的等级、相关关系
标题词之间的等级、相关关系

现在,标题语言所采用参照符号与叙词语言的参照符号基本相同。美国《国会图书馆标题表》新款目格式所用参照符号:

新格式所用符号
英文涵义
中文涵义 相当于LCSH的符号 相当于《汉表》的 符号
USE
UF
BT
RT
SA
NT Use
Use for
Broader terms
Related terms
See also
Narrower terms 用(标题)
代(非标题)
属(上位标题)
参(相关标题)
参见
分(下位标题) See
X
XX
XX SA
SA
SA Y
D
S
C

F


标题词在选择时应注意的原则要求?P40
选定标题词的原则有四:
1 检索意义。选择用户或读者可以用来作为标引和检索标识,并能直接表达文献主题的词作为标题词。
2专指性。标题词必须符合直接地、确切地表达文献所论及或所涉及的主题的要求,不用含义比文献主题概念泛指的主题词进行标引。
3 通用性和精确性。通用性是指应该选择能够被用户普遍接收的词作为标题词。准确性是指标题的字面

形式与其表达的概念应当吻合。
4唯一性。唯一性是选择标题的主要目的,因为达到唯一性,能保证标题法有较高的检索效率。


标题语言的特点 P46
① 按主题(文献所论及或涉及的事物)集中文献;
② 用经过规范化的语词直接标引文献主题;
⑶ 用参照系统间接地显示主题之间的相互关系;
⑷ 用字顺序列直接提供检索途径。
此外,标题语言还具有较高的专指度和较强的适应能力。

标题表的作用 P47
标题表是标题语言的词汇表,是一部标题词典,是对文献进行主题标引和主题检索的依据。标题表的主要作用是:
① 对标题(正是标题)或非标题(非正式标题)进行登录,并不断地予以更新和完善;
② 按字顺组织标题和非标题,并利用参照系统揭示标题词与非标题词之间的关系;
③ 提供主题标引和主题检索的方法指示,为标引人员和用户正确查词和选词提供保证;
④ 依据标题表组织检索工具,建立检索系统,提供按字顺查找主题的途径。


美国《国会图书馆标题表》
三种版本:印刷版、机读版、缩微平片版。
四种辅助工具:
① 《主题编目手册:标题表》 ② 机读版的“名称规范档”
③ 《编目服务通报》 ④ 《自由浮动复分标题字顺索引》
美国《国会图书馆标题表》的特点与不足 P54~P56

第三章 叙词语言(杨艳)
基本概念:
概念组配:是在概念分解的基础上,根据概念的分析和综合原理,用以揭示概念本质的一种组配方式。即将一个专指、复杂的概念按其语义分解为两个或两个以上较为宽泛的概念;标引(检索)时同样按其语义将两个或两个以上的较为泛指的概念组合,表示一个专指、复杂的概念。
词族索引:又称等级索引或族系索引,是将字顺表中具有等级关系的叙词汇集起来,按照叙词族系关系进行系统显示的索引
叙词表(Thesaurus):我国称为主题词表。它是将文献、标引人员和用户的自然语言,转换成规范化的系统语言的一种术语控制工具,是概括由自然语言优选出的语义相关、族性相关的学科术语所组成的一种规范化动态词典
关联比:与参照度相同用来测试词表中词汇之间的连接性能
等同率:指叙词表中非正式叙词与正式叙词的比率,实际上是入口词多少的测试度
理解题:
叙词轮排索引的功能:
1 加强族性检索 。 可以将具有同一词素的叙词汇集在一起,利用汉字构词特点和双向排序法的技术,显示相关叙词之间的等级关系,将安字顺显示分散的具有族性关系的词组叙词集中,使其具有族性检索的功能。
2 增加检索途径。 由于采用轮排,使构词词组叙词的每个词素(单一

词)都可以作为排检点,这样用户可以从不同角度查得所需叙词。
3 提高查词速度。 由于轮排索引款目只保留了用代参照,省略了其他参照及注释内容,充当了一种提供多个检索入口,按词素排列的字顺索引,从而可以帮助用户判断词表中有无所需的词组叙词,提高查词速度
叙词组配的作用:
叙词组配,对发挥叙词语言的性能具有重要作用:
1 在编制叙词表时,可以控制词量、缩小词表篇幅
2 标引时,可通过组配来保证标识来表达主题概念的专指度。一般说来,只有词表收入足够的基本词汇,就可以应用相应的叙词,充分揭示复杂的主题概念,达到很高的专指度和标引深度
3 能提供多途径检索 参加组配的叙词,只有具有独立检索意义,都能作为检索入口,满足多途径检索的需求
4 有助于自由扩大或缩小检索范围。由于是用多个叙词来标识一篇文献,检索时就可以根据需要,随时增加或减少作为检索标识的叙词,扩大或缩小检索范围,直到满足检索要求为止
5 能比较及时地反映新事物、新学科。由于可以使用组配方法表达新出现的主题,因而一些新的事物、新的学科就可以利用基本词汇的组配予以及时地反映
叙词表的组成部分:详见叙词表的宏观结构p88 叙词表的微观结构 p95
(叙词表的宏观结构是指叙词表的整体结构,一般包括字顺显示和系统显示两个部分。)

叙词表的特点:(叙词表的含义)
含义:叙词表(Thesaurus)我国称为主题词表,是将文献、标引人员和用户的自然语言,转换成规范化的系统语言的一种术语控制工具,是概括由自然语言优选出的语义相关、族性相关的学科术语所组成的一种规范化动态词典。
可从四个分面进一步理解:
? 叙词表是叙词的集合
? 叙词表是一种术语控制工具
? 叙词表是一种规范化的词典
? 叙词表是一种动态的术语系统

叙词表的功能:
①叙词表是一种按特殊方式组织、显示的叙词词典,对众多的叙词起登录的作用。
②为叙词标引和检索提供依据,也可以为自然语言检索提供控制工具。
③具有沟通标引人员、检索人员思想、规范标引用语和检索用语的作用。
④叙词表,尤其是电子叙词表,以其精巧的结构、优异的性能为叙词语言的使用和管理提供极大的方便
⑤叙词语言来自自然语言,和自然语言一样具有动态性

汉语主题词表的结构及特点:p99
用计算机编制叙词表的优越性体现在那些方面:
1 便于原始数据的收集整理,检查数据中的问题,保证编制的质量和速度
2 可自动生成各种结构和显示方式,节省人力和物力,降低编制成本
3 可快速生成各种版本和各种载

体的词表,方便用户选择
4 便于词表的管理维护,增强词表的使用功能和效果
5 为词表与联机检索系统和网络信息检索的连接提供可能

优质的情报检索语言应具备的特点:
1 保证较高的检全率和检准率
2 能满足多种检索要求
3 易于标引和易于检索
4 能适应先进的检索方式和检索设备,适应多种检索方式和检索设备
5 能适应多种学科和多种类型的文献
6 能适应图书馆和信息机构各个工作环节
7 具兼容性和通用性,以及进行现代化改造的可能性

第四章、一体化检索语言(王添 、王艳妮)
检索语言的兼容:是指一种检索语言对信息主题概念的标识可直接适用于,或通过转换适用于另一种或多种检索语言。
叙词表式索引:20世纪70年代初,比利时学者阿德内纳斯和洛勒菲弗雷用UDC的经济学大类编成了世界上第一部叙词表式索引。这种叙词表式索引与分类表相配合,就构成了一种新颖的分类主题一体化词表。这种叙词表式索引的特点是把分类表的字顺索引款目改造为叙词款目。一般分类表的索引款目仅由类名和相应的类号组成,没有其他成分。经过改造的叙词表式索引是在索引款目中增加类名的用、代、属、分、参等项参照及各自相应的分类号,以加强词间关系(即主题概念之间的关系)的显示。通过对分类表类目进行严格的词汇控制以及对分类表索引的改造,实现了由一般分类表向一体化词表的过渡。
分类主题词表:即分类表——叙词表双向对照索引,如《中国分类主题词表》。这种双向对照索引是分类检索语言和主题检索语言兼容互换的工具,由分类号与主题词对应表、主题词与分类号对应表两部分组成,其形式与标题表的主题标准档十分相似,通常为每个类目列出其对应的一个或多个主题词或主题词的组配形式(主题词集),为每个主题词列出其对应的一个或多个分类号。这种双向对照索引入股在其类名(分类号)和主题词下加上原有的注释项和参照项,就构成了分类表和叙词表的有机结合。这样,它不仅可以用来选词和选类,还可以同时用于分类即主题标引和检索,成为真正意义上的一体化词表。

《社会科学检索词表》的结构与特点
结构:(1)宏观结构:包括分类表、字顺表、英汉译名对照表。附表包括人物名称,机构名称,英汉对照索引,轮排索引。
主体结构是分类表和字顺表
分类表 全表共分为17个学科大类,27个专业类目,基本上包容了我国社会科学传统学科及新兴学科。分类表采用传统分类法和分面分类法相结合的半分面分类法。在一级类目中采用传统体系分类法设类,列出社会科学传统科学、专业

和惯用类,在基本类下,组成分面类表,将学科分为:历史面、学派面、方法论面、学科面、理论面、结构面、管理面、时间面、空间面等9个方面,其中时间、空间为通用面。
分类表中,每个类名都叙词化,即对分类表中的每一个类名实行严格的词形、词义控制和词间关系控制,要求一个类名代表一个主题概念,一个主题概念只用一个类名表示。通过软件控制,一次检索即可自动生成两种检索标识,并收到两种语言兼容互换的效果。该表分类表类目的标记符号由汉语拼音和阿拉伯数字混合组成,标记方法采用的是层累制。分类表中,三级类以下的同级类目之间,以单行加括号的形式注明组面划分标准。
字顺表 《社会科学检索词表》的字顺表共收词23000条,其中正式叙词18874条目,非正式叙词4126条目。
整个词表的结构比一般词表简单,但概念却强于一般叙词表。
叙词表+分类表>叙词表+范畴表+词族表

(2)微观结构:
分类表 其款目结构由类目标记符号、级点、分面标头、类名、类目参照(含注释)组成。
字顺表 包含了有关叙词的所有信息,它仍然按传统叙词表的格式进行单级显示。
《社会科学检索词表》的特点:
⑴在分类表部分加强了词间关系的联系。⑵分类表的注释内容比传统分类表的注释内容更加条理化、具体化。⑶字顺表将叙词概念通过一定的符号联结成语义关系网,清晰地显示了词间关系。⑷为解决分类表中的部分先组词与叙词表中后组词兼容的困难,在分类表和字顺表中用组代形式列出,同时设置了逆向参照。
⑸通过统一的词汇控制,在分类表与字顺表之间实现了等值兼容,计算机可以在此基础上进行自动生成和转换。
不足:结构过于复杂,分类表和字顺表的微观结构近乎相同。
5.中国分类主题词表的特点:(书上说的是功能,没有写特点,这里就附上功能的内容~)
①使分类标引和主题标引可在同时完成,降低标引难度,提高标引质量,节省标引人员的劳动;②在检索中,使分类检索系统和主题检索系统密切联系,实现有效的互补,方便检索,并提高检索效率;③为在图书馆现有分类目录的基础上补编主题目录或分类目录字顺主题索引提供捷径;④在条件不足时,它可直接作为分类目录或主题目录的辅助工具(充当其索引),省去其中一种目录的编制;⑤当建立各学科或专业检索语言的兼容互换工具,包括建立各学科的分类主题词表或集成词表奠定了基础;⑥为术语学研究和术语库的建立提供参考工具。

受控语言和自然语言的优缺点(结合第六章p220-p226)
(1)受控语言,是指人

们根据检索的需要,依据一定的规则对自然语言进行事先规范而形成的语言,如分类语言和主题语言。 自然语言是区别于受控语言的一个概念,一般来说,是指人们日常说话、写文章和思想所用的各种语言。
(2)自然语言有很大的发展前景,它突破了传统受控语言的某些局限,在网络环境下发挥出了良好的性能:1.自然语言符合客观需要,可以不受限制地随时输入新词,因而可以跟踪科发展,加速机检数据库的建设;2.易用性好,检索方便、简单,只要不脱离信息中原有的主要自然语言语词,便可任意检索,既不受词表控制,也不需要培训,用户掌握较快;3.标引简便快速,易于实现自动化;4.标引一致性好,一般在较小范围内采用“现成词”;5.专指度高,可以具体到文摘,索引或文献正文中出现的任何一个有实际意义的语词,还可以指定检索用词的出现位置等。

分类语言的优点:能够将同一学科性质的文献信息集中,以满足人们从学科门类对事物对象与问题进行“族性检索”的需要,便于检全某一学科或专业的文献信息,具有较强的系统性;分类语言的缺点:将同一主题的文献信息分散在各个学科中,检索专深课题的直接性较差,标识不直观,不易为用户掌握;

主题语言的优点:能够将同一主题的文献加以集中,适应人们对事物对象与问题进行“特性检索”的需要,检索专深课题的直接性较强,标识直观;
主题语言的缺点:不能很好地体现知识内容之间的学科性质区分割学科之间的连续,将同一学科性质的文献分散于各个主题之间;

自然语言的优点:自然语言标识更加专指,更加符号用户的语言习惯,特别适合检索专深课题和最新出现的概念词汇,检索直接性更强;
自然语言的缺点:由于不加规范,不能显示语词之间的关系,难以进行族性检索,特性检索的检索效率也不高;
第五章 主题标引(党婉玉)
名词解释:
1. 分类标引:一般而言,以分类法为工具,赋予文献码号标识的过程,称为分类标引。
2. 多主题文献:一篇文章同时论述两个或两个以上的主题。
3. 隐性主题:指在文章中没有显现出来,而是隐含在不同的字面形式中,需要通过深入分析才能揭示的主题。
4. 整体标引:亦称浅标引,是指针对文献的整体主题或整体事物进行的概括性标引,一般不揭示文献的从属主题、局部主题。
5. 全面标引:亦称深标引,是把文献中全部价值、符合检索系统要求的主题内容都都予以揭示的标引方式。
6. 主题概念转换:用标引语言(标题表、叙词表)的标识(标题词、叙词)表达主题的过程称为主题概念转换。
7

. 多主题:指一篇文献同时研究两个或两个以上的事物或问题,即研究多个主题。多主题包括同时论述多个独立的问题。
8. 自由词标引:称为非控标引,是指直接使用未经规范化处理的自然语言词汇,作为描述和表达文献内容主题的一种标引。
问答题:
1. 标引方式的选择:
(1) 检索系统的类型
(2) 文献类型
(3) 人力、物力、及成本——效益
(4) 专业特点与服务对象
2. 影响主题标引质量的主要因素
(1) 标引人员的素质
(2) 规章制度的制定
(3) 词表的质量
3. 主题概念分解转换的方法p185
(1) 交叉关系概念分解法,是将一个复杂概念分解成若干个具有交叉关系的概念成分,这些概念成分的外延有部分重合的关系。
(2) 种属关系概念成分分解法,是当用交叉关系概念分解法无法表达复杂主题概念时,而采用的一种方法。
4. 自由词的标引规则 5点 p191
5. 从书,多卷书,论文集的标引规则p200
(1) 从书的主题标引
集中与分散两种方式
凡有明确出版计划,内容上有密切联系,一次性刊行的从书,可在采用整体标引的同时,采用分析表因的方式。
对于单学科性、专业性较强的从书,或内容广泛,没有明确的出版计划,且单书之间缺少联系的丛书,可采用分散标引,即直接按单书标引。
(2) 多卷书 在以全书主题做整体标引的同时,还应以各分卷为单位进行分析标引。
(3) 文集 主要采取整体标引,必要时,对个别单篇进行分析标引,以提高标引深度。
6. 工具书的主题标引p202
(1) 百科全书、手册、年鉴的主题标引
综合性
专科性
(2) 字典、词典的主题标引
语言词典
专科词典
综合性词典
(3) 目录、索引的主题标引
综合性目录索引
专科性目录索引
专书索引
产品目录、金石目录、商品目录

第六章 自然语言标引与检索(赵静)
1、自然语言:所谓自然语言是指文献作者或文摘、题要的作者原来所使用的语言,其中包括有:关键词、自由词和出现在文献题名、摘要或正文中的语词。
2、关键词:所谓关键词,是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题 内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可以作为检索用语的)那些语词。
3、后控词表:也称为词间关系词表,它是利用受控语言的基本原理和方法编制的自然语言检索用词表。
4、后控制词表的四种模式:
(1)标引控制+检索控制 同时在标引和检索阶段使用词表;
(2)标引控制+检索不控制 只在标引阶段使用词表,检索阶段直接使用自然语言检索;
(3

)标引不控制+检索控制 用自然语言标引,但通过控制词表检索,具体检索用词即可以是自然语言,也可以是词表中的词;
(4)标引不控制+检索不控制 标引和检索时都使用自然语言,不使用任何词表。
这四种方式中,第一、二种方式为先控系统模式,第四种为纯自然语言检索模式,而所谓后控制检索就是上面所提到的第三种模式。
5、自动赋词标引:是指由计算机根据自然语言语词与检索词的对应表,自动完成将计算机自动抽取的关键词转换成检索词,并建立倒排索引文档的过程。
6、自动抽词标引:是指用计算机自动抽取文本资源中表达文献主题的语词作为检索标识。
7、汉语分词技术的分词方法有哪几种?
(1)、机械分词法。机械分词法主要有最大匹配法、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法等。
(2)、语义分词法。语义分词法是在汉语分词中引入了语义分析,对自然语言自身的语言信息进行更多的处理。
(3)、人工智能分词法。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:其一,基于心理学的符号处理方法;其二,基于生理学的模拟方法。从这两种思路出发,产生的汉语分词方法对应有专家系统分词法和神经网络分此法。
8、网络信息组织全文检索技术的优点:
(1)、检全率相当高;
(2)、能实现计算机自动标引,且标引速度快;
(3)、网络环境下的全文检索将成熟的数据库技术与WEB界面相结合;
(4)、能够提供强大的检索功能;
(5)、允许自然语言提问。
9、后控制技术:后控制技术是指检索系统在标引阶段使用自然语言,不对标引进行严格控制,而在检索阶段才对检索词进行控制的一种自然语言检索优化技术。
10、自然语言与受控语言的比较:
分类语言 优点:能够将同一学科性质的文献信息集中,以满足人们从学科门类对事物对象与问题进行“族性检索”的需要,便于检全某一学科或专业的文献信息,具有较强的系统性;缺点:将同一主题的文献信息分散在各个学科中,检索专深课题的直接性较差,标识不直观,不易为用户掌握;

主题语言 优点:能够将同一主题的文献加以集中,适应人们对事物对象与问题进行“特性检索”的需要,检索专深课题的直接性较强,标识直观;缺点:不能很好地体现知识内容之间的学科性质区分割学科之间的连续,将同一学科性质的文献分散于各个主题之间;

自然语言 优点:自然语言标识更加专指,更加符号用户的语言习惯,特别适合检索专深课题和最新出现的概念词汇,检索直接性更强;缺点:由于不

加规范,不能显示语词之间的关系,难以进行族性检索,特性检索的检索效率也不高;
对应实例:
自然语言:微型计算机,微机,微电脑,个人电脑
受控语言:微型计算机

相关文档
最新文档