检索语言的分类
检索语言的分类

检索语言的分类:按照揭示和反映信息内外部特征的不同,检索语言可划分为:分类语言:以数字、字母(或字母与数字结合)为检索标识,作为有关类目的代号。
主题语言:分为标题词语言、叙词语言和关键词语言;名称语言:以人名、地名、机构名、篇名、书名等为检索标识;代号语言:以文献特有的顺序号(如专利号、标准号、合同号等)为检索标识邻近位置算符(W)W是with的缩写。
(W)算符也可以简写为()算符,A(W)B,表示A紧挨着B,顺序不能颠倒。
A和B之间除允许有一个空格、一个标志符号或一个连接号以外,不得插入任何单位或字母。
邻词位置算符(nw)A(nw)B,表示两个词的次序不变,其间可以插入n个词。
句子位置算符(S)S是sentence的缩写。
A(s)B表A和B必须同时出现在记录的同一个句子或短语中,但次序可能随意改变,A与B之间可以有若干个其他的词。
字段位置符(F)F是field的缩写。
A(F)B,表示A和B 必须同时出现在记录的同一个字段之中,但位置和次序不限,两者之间还可以任意加词。
如Rice(F)Genetics/Ti 要求Rice和Genetics必在同时出现在篇名之中。
记录位置算符(C)C是citation的缩写。
A(C)B 其作用等同于A and B,均表示A和B 同时出现在同一记录内,但词序不限,也不要求在同一字段内。
截词符号常用的有“?”、“$”和“*”等,绝大部分数据库无限截词符用“*”,少数用“?”或者“$”截词类型(1)后截断,前方一致。
如:“comput*”表示computer、computers、computing等。
(2)前截断,后方一致。
如:“*computer”表示minicomputer、microcomputer等。
(3)中截断,中间一致。
如:“*comput*”表示minicomputer、microcomputers等。
1 .括号改变运算顺序。
2 .引号引号内的检索项以整体形式出现。
档案检索语言主要包括()分类语言专题语言著录语言主题语言标引

档案检索语言主要包括()分类语言专题语言著录语言主题语言标引档案是人类文明长河中的一份重要遗产,是人民群众记忆的载体,也是研究历史的基础。
而档案的管理就离不开档案检索语言,这是档案管理非常重要的一环。
本文将对档案检索语言的分类语言、专题语言、著录语言、主题语言和标引进行详细解析。
一、分类语言分类语言是根据档案的种类、性质、内容等方面的特点,把档案按照一定的规则、标准和原则划分为若干类别的语言。
分类语言用于整理档案,把同类型的档案归为一类,方便档案管理者在需要时快速找到相关档案。
例如,按档案性质划分为行政档案、法律档案、财务档案等;按档案内容划分为地方史料档案、人事档案、科研档案等。
二、专题语言专题语言是针对某一具体问题或任务,在分类语言基础上,在档案馆或机构内部进行划分整理,按照主题或内容关联程度将档案加以组织的语言。
专题语言用于深入挖掘档案信息,为相关领域的科研人员提供有价值的研究素材。
例如,针对某一事件或人物,将相关档案整理为专题档案;针对某一领域的研究,将相关档案整理为专题研究档案。
三、著录语言著录语言是对档案馆或机构所收集的档案进行文字记录、编目和登记的语言。
著录语言是档案信息的基础,也是档案管理的重要手段。
著录语言需要遵循一定的规则和标准,保证档案的准确记录和信息检索的方便。
例如,中国档案馆目录著录规则中规定的档案著录要素有:档案名称、档号、文件数、起止日期、档案类型、保存时间、保管单位等。
四、主题语言主题语言是将档案中的主体、内容、特点等方面的信息进行归纳、概括性描写和编制分类表或索引的语言。
主题语言是档案馆或机构面向用户提供的档案检索方式之一,可以帮助用户快速、准确地找到所需档案。
例如,对于一份关于某事件的档案,主题语言可以是“某事件”、“某地历史”、“社会运动”等。
五、标引标引是档案馆或机构为了便于用户查找所需档案而编制的一种目录,以一定的标识符号表示档案种类和内容,并加以说明和索引的方法。
文献检索语言-1

标题词语言的特点
• 标题词表中的主、副标题词已事先固定组配, 标引和检索时,只能选用已“定型”的标题 词作为标引词和检索词,所反映的主题概念 必然受到限制。尤其是代表现代科技主题的 内涵与外延越来越复杂,几乎不可能用一对 主、副标题词完全 、确切地表达出来,就需 要补充其他的主、副标题词,结果不仅增加 了标引和检索的工作量,而且还降低了标引 和检索的准确性,直接影响到检索系统存储 和检索的质量和效率 。
文献检索语言-1
§2.6.2 文献检索语言的功能
2. 检索语言的功能 ① 标引功能。 ② 集中相关文献信息的功能。
③ 组织功能。 ④ 匹配功能。 3. 检索语言的分类 ⑴ 按结构原理划分:① 分类检索语言 ② 主题检索
语言 ③代码检索语言 ④ 引文检索语言。 ⑵ 按组配形式划分:① 先组式语言② 后组式语言。 ⑶ 按照表达文献的特征分:① 表述文献外表特征的
关键词语言
关键词法:是从科学技术文献的篇名、摘要、 正文中选出具有实质性意义并能表达文献 主题内容的科技名词术语来作为检索标识 的。
关键词:具有实质性意义的科技名词,对揭示 和描述文献主题内容来说是重要的,带关 键性的词语被称为关键词。
分为:普通关键词索引(Keyword Index);题 内关键词索引(Keyword In Context Index);题外关键词索引(Keyword Out Contex Index)。
中图法五大部类
社会科学
马列毛泽东 邓小平理论
综合科学
中图法 五大部类
自然科学 哲学
2.《中国图书馆图书分类法》22大类:
T 工业技术又分为16个二级类
体系分类法的特点
• 优点 : (1). 分类体系语言能较好地体现学科的系统性,反映事物 的平行、隶属和派生的关系,适合人们认识事物的习 惯,有利于从学科或专业的角度进行族性检索,能达到 较高的查全率。 (2). 采用国际上广泛使用的拉丁字母和阿拉伯数字作为概念 标识的分类号,比较简明,便于组织目录系统。
属于规范化检索语言

属于规范化检索语言
信息检索规范化语言包括:分类法语言、主题法语言、代码语言三大类。
1、分类法语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
2、主题法语言是指以自然语言的字符为字符,以名词术语为基本词汇,用组名词术语作为检索标识的一类检索语言。
3、代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。
2.主要体系分类检索语言

社会科学各大类的排列主要根据大类间关 系密切的程度以及与其他部类的关系来确 定,大体按“上层建筑→经济基础→意识形 态”,即“政治→经济→文化”的次序排列 自然科学各大类则按照学科之间的内在联 系,遵循从简单到复杂,从一般到特殊, 从低级到高级,从理论到应用的次序排 列,形成“基础理论—技术科学--应用科学” 三个层次
《中图法》的类目结构即是按照学 科之间的内在联系,从总到分,从 一般到具体逐级展开,从而构成一 个纲目分明的体系
自然科学
综合性图书
Z 综合性图书
《中图法》(第四版)主表类目展开示意
基本部类
马列宁主义 毛泽东思想 哲学
基本大类 (一级类目)
A 马克思主义、列宁主义、 毛泽东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济
《中国图书馆分类法(第四版)》封面
1、《中图法》宏观结构
《中图法》由以下部分组成:
编制说明 基本大类表 基本类目表(简表) 主表(详表) 通用复分表(辅助表) 字顺索引(单独出版) 使用手册(单独出版)
1、《中图法》宏观结构
编制说明
包括第一版编制说明和第四版编制说明。主要说明编制原则,体系 结构,分类体系,标记符号,修订原则、特点和重点等有关事项的 说明
字顺索引(单独出版)
是按类目名称查找类目的工具
使用手册(单独出版)
是详细阐述分类法编制的理论与技术、各类文献的分类规则与方法 的指南
2、《中图法》类目结构
2、《中图法》类目结构
《中图法》分为五个基本部类,22个基本大类
五个基本部类序列为:马克思主义列宁主义毛泽东思想、哲 学、社会科学、自然科学、综合性图书
其中:“C社会科学总论”和“N自然科 学总论”不属于独立的学科,是根据文 献资料的特点和分类的需要设置,以 概括这两个科学领域综合性知识
检索语言分类

检索语言分类嘿,朋友们!咱今天来聊聊检索语言分类这档子事儿。
你说检索语言就像是一把钥匙,能打开知识宝库的大门,那分类不就是给这把钥匙分分类嘛。
咱就好比去一个超级大超市买东西,要是没有货架分类,那不得找得晕头转向呀!比如说主题词检索语言,这就好像是超市里按照商品种类划分的区域,你想买啥,直接奔那个区域去就准没错。
它能让你快速准确地找到你想要的信息,就像你知道自己要买苹果,直接去水果区就行啦。
还有分类检索语言呢,这不就是把超市里的东西按照大类别分好嘛。
书有书的类别,衣服有衣服的类别,清晰明了。
它能帮你从宏观上把握信息,就好像你能一下子知道超市里都有哪些大类的商品。
再说说关键词检索语言呀,这就像是你在超市里找东西时,脑海里蹦出来的关键词。
可能不是那么精确,但也能给你个大致方向。
有时候你可能记不太清具体要买啥了,但是关键词一出来,嘿,说不定就能想起来啦。
咱平时找东西不也这样嘛,有时候模模糊糊知道个大概,通过这些检索语言就能慢慢找到准确的啦。
这多有意思呀!你想想,要是没有这些分类,那找信息不就跟大海捞针似的,难死啦!而且呀,不同的检索语言还有不同的用处呢。
就像你去超市买东西,有时候需要按类别找,有时候需要凭关键词回忆。
这检索语言也是呀,根据不同的需求选择不同的,那找起信息来可就高效多啦。
咱再打个比方,你要写篇论文,那主题词检索语言就能帮你快速锁定相关领域的资料;要是你只是想随便看看,了解个大概,那关键词检索语言说不定更适合你呢。
哎呀呀,这检索语言分类可真是太重要啦!它就像给我们的知识探索之旅点亮了一盏盏明灯,让我们能在信息的海洋里不迷路呀!难道不是吗?咱可得好好利用这些分类,让我们找信息变得更容易、更快捷。
这样我们就能在知识的世界里畅游啦,多棒呀!反正我是觉得这检索语言分类太有用啦,你们说呢?。
《信息检索》 第2讲 信息检索的基本知识2

19
2013-8-1
(2)自然语言和受控语言的一体化发展趋势
在网络环境下自然语言和受控语言的融合或称一体化是检索
语言未来发展的必然趋势。这方面比较前沿的、有代表性的 理论研究和实践是国内张琪玉先生提出的学科——事物概念 组配型检索语言和美国国家医学图书馆所创建的UMLS系统 。 学科——事物概念组配型检索语言具有的特点是:通过学 科聚类和事物聚类的结合、号码标识和词语标识的结合以及 系统序列和字顺序列的结合,实现分类系统和主题系统的完 全一体化。用户从自然语言词汇、分类号和主题词任一途径 入口检索,都能获得相应的文献。这种检索语言具有开放性 ,可不断增补新概念。目前该模式正处于理论研究阶段。 UMLS模式即一体化医学语言系统。UMLS由超级叙词表、语 义网络、情报源图谱和专家词典四个相互联系的部分组成。
13
2013-8-1
用主题法查找文献,要注意以下几点:
注意利用词表
选择主题词要把握概念的含义 要利用概念之间的属种关系和相关关系增加检索线索
14
2013-8-1
注意利用词表
主题词是检索系统使用的专门的规范化语言,用这
种语言表述的概念,只有一种解释,不允许一词多 义、多词一义,这是规范化检索语言的单义性所规 定的。而一般用户的提问用的是自然语言,自然语 言并不遵守特定事物具有特定概念用特定语言表达 这一原则。
10
2.2 关键词语言
关键词语言是适应目录索引编制过程自动化的需要而产
生的。关键词是文献的篇名、摘要、正文中出现的具有 实质意义并能表达文献主题内容的词语。以关键词作为 标识的检索系统就叫做关键词语言。 由于关键词是未经规范的自然语言,一个概念可以用几 个词义相同或相近的词来表达,因此关键词语言没有固 定的词表,只有一个停用词词表,用以识别词语的词性 ,方便计算机自动抽取实质性语词。 关键词语言十分适于计算机编制索引,检索入口多,编 制速度快,但缺点是容易造成漏检。 例如:“国际联机检索概论”中的“国际联机检索”、 “国际联机”、“联机”、“检索”都是能描述这篇文 献主题的关键词,都可以作为检索词。
检索语言

3.靠词标引 某些文献主题过于专指,词表中既无专指主题 词,又无法组配标引则可采用靠词标引。 上位词标引:选用最直接的上位主题词标引。 甲基莲心碱——→生物碱类 近义词标引:选择含义相近的主题词标引。 上消化道出血 ——→胃肠出血 自由词标引
4
.组配标引
主题词——主题词交叉组配
胃溃疡出血 肛温 贲门肿瘤 孢子虫感染 ——→消化的溃疡出血+胃溃疡 ——→体温+直肠 ——→胃肿瘤+贲门 ——→原虫感染+孢子虫纲
中图法二十二个大类
A 马克思主义、列宁主义、 毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N O P Q R S T U V X Z 自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学 综合性图书
④特征词(Check Tags)
人类、动物、病headings)
副主题词是限定主题概念的规范化词汇,对主题词起 细分作用或揭示多个主题词之间的关系。 副主题词没有独立的检索意义,其作用是增加主题概 念的专指性,提高检索效率 。 副主题词现有82个,使用范围详见37页。
⑴
Acquired Immunodeficiency Syndrome ⑵ C2.782.815.616.400.40 C2.800.801.400.40 ⑶ 83 ⑷ see related AIDS Arteritis, Central Nervous System HIV Seroprevalence ⑸ X AIDS X Immunodeficiency Syndrome, Acquired ⑹XR CD4-Positive T-Lymphocytes XR HIV-1