网络信息组织中的分类法与主题法
我国网络信息组织概述

收 稿 日期 :0 10 - 9 21-42
我 国网络信 息组 织概述
范 敏
( 西南 大学计算机与信 息科学学院 , 重庆 ,0 7 5 40 1 ) 摘 要: 随着 It t ne 的发展 , me 网络信 息惊人的增长速度 已经超越 了人们 的处理 能力 。
对 网络信息资源进行有效组织成 为满足用户信 息需求的现实需要。从 网络信息组织的
通和组合” 。而网络信息组织则是为了满足用户的信息需求 , 通
过一定 的方法, 网络上大量分散、 将 无序 的信息进行筛选 、 加工、 整 理、 优化、 储存等 , 使之有序化 、 系统化, 形成便于用户理解 、 查询的 检索系统。其 内容包括信息搜集与选择 、 信息分析与揭示 、 描 信. 述与加工 、 信息整理与存储。 目标是为 了方便人们检索获取 网络 其 信息 , 将零散、 无序的网络信息予 以系统化和有序化。 关 于网络信 息组织 的含义 , 甜在 其撰 写的《 朱 网络环境下 的 信息组织》 一文 中是这样表述的 : 网络信息组 织有两层含义 , “ 一 是某种特定网络 服务器 ( 网站 ) 的信息组织 , 网络局部 、 是 节点 的
息, 进行学习, 推动经济发展 。人们对信息也越来越重视了 , 然而,
随着 It nt ne e 的发展 ,网络信息环境也变得十分复杂 ,主要表现 r
在: 现代 网络信息资源数量多而庞杂、 变化速度快且不稳定、 类型
目前网络信息组织 方法 种类 繁多 , 划分途径也多 。例如 : 分
为思维领域的组织方法和实践领 域的组织方法 、宏观领域的组 织方法和微观领域的组织方 法、内容 特征的组织方法和形式特
征 的组织方法等 。传统的信 息组 织方法有 分类 法 、 主题法 、 引文 法等 , 这些方法 是信息组织 的核心方法 , 目前 已经 比较成 熟 , 且 随着时代 的发展 ,传统的分类法 与主题法已被广泛用于网络信
网络信息资源组织方式

网络信息资源组织方式网络信息资源组织方式分为一次网络信息资源组织方式、二次网络信息资源组织方式和三次网络信息资源组织方式。
一次网络信息资源是指网上传输的原始信息资源是未经过加工处理的第一手信息资源;二次网络信息资源是指将一次网络信息资源进行描述、揭示、分析和存储后,形成了有序化、系统化的网络信息资源;三次网络信息资源是指对二次网络信息资源进行组织而形成的网络信息资源。
一次网络信息资源组织方式有:文件方式(以文件名标识信息内容,用文件夹组织信息资源)、数据库方式(将搜索引擎的巡视软件采集和标引的网络信息资源以固定的记录格式存储,用户通过关键词及其组配查询)、主题树方式(将信息资源按照某种概念体系分门别类地逐层加以组织,用户通过浏览的方式层层遍历)、超文本方式(以节点和链接在网上相关信息间建立关联,将众多的网络文本信息组织成某种网状结构,可从任一节点开始随机、自然地浏览查找自己所需信息)、超媒体方式(将文字、图表、声音、图像、视频等多媒体信息以超文本方式组织)、自由文本方式(全文数据库的全文检索)。
二次网络信息资源组织方式有:机器人搜索引擎方式、指示数据库方式(贮存的是有关网上一次信息的网址以及相关信息的描述信息)、元数据库方式(对特定网络资源的总体管理和记录)、浏览器书签方式。
三次网络信息资源组织方式有:网络数字图书馆组织方式(对虚拟图书馆和数字图书馆中的二次网络信息资源进行的再组织)、网络信息资源评价网站组织方式、元搜索引擎目录组织方式。
未来网络信息资源组织方式的发展趋势主要是两方面:1.主题指南与分类法的结合利用主题指南和分类法对网络资源进行组织,有助于为网络资源构造基本结构和框架,从而使信息分布有序化。
虽然现在有些网站已经使用分类主题一体化方式来组织信息,但是现有的主题指南和分类法在涵盖网络信息的数量和规模上还是有限的,但它反映了网络信息组织的一个重要趋势,而且分类主题一体化方式在现有的基础上也将不断得到完善。
信息组织知识点

主题法的含义主题,主要指信息资源论述的主题对象,包括事物、问题、现象等。
经过选择,用来表达信息资源主题的语词,称为主题词。
所谓主题法,一般是指直接以表达主题内容的语词作检索标识、以字顺为主要检索途径、并通过参照系统等方法揭示词间关系的标引和检索信息资源的方法。
主题法一般都具有下述特征:1、直接以语词作为检索标识。
主题法不像分类法那样,以一种抽象的号码系统作检索标识,而是直接选用自然语言中的语词进行标引和检索。
2、以字顺作为主要检索途径。
虽然主题法往往也采用按范畴、词族等方式组织主题词,但字顺方式始终是它的主要排检依据。
我国的主题检索系统通常是根据汉字特点,按照拼音或笔画笔顺进行排检的;因此在使用主题法检索时,只要知道检索对象的名称,就可以按相应的排检方式进行查找。
在机检系统中,一般可以直接输入语词,由计算机进行查找,通用性好。
以特定的事物、问题、现象,即主题为中心集中信息资源。
分类法由于受学科体系的限制,从不同学科角度研究,同一对象的信息资源是分散在各知识门类中的,主题法则是直接从主题对象的角度揭示信息资源。
4、往往是通过详尽的参照系统等方式揭示主题词之间关系。
按照字顺排列不能必然揭示主题概念之间的联系,为了克服这一局限,主题法发展了完备的参照系统,通过在主题词下设置用、代、属、分、参等多种参照项,建立起“隐蔽的分类体系”。
与分类法相比,主题法的特点是可以集中与一个主题有关的各个方面的信息资源,检索的直接性、通用性好,适合于进行各种专指检索,在性能上具有与分类法相互补充的特点。
主题法通常不用于组织图书,只广泛用于组织各种检索工具,不仅可以利用它编制各类供手检使用的书目索引,同时也可以用来建立计算机检索系统,进行机检。
按照主题法的选词方式,可以分为标题法、元词法、叙词法、关键词法;1、标题法标题词,亦称标题,并非指文献“标题”中的词,是指经过词汇控制,用来标引文献的词或词组,通常为比较定型的事物名称。
网络信息分类法_信息组织_[共2页]
![网络信息分类法_信息组织_[共2页]](https://img.taocdn.com/s3/m/1829fab148d7c1c709a14521.png)
第十四章 网络信息组织网络信息数量巨大而繁杂,内容广泛;信息类型众多,动态性强,常出现超文本链接。
网络信息用户范围广,受教育程度差别极大,利用网络信息的目的和类型存在明显差异,用户使用的网络服务不同。
网络信息组织就是采用一定的方式,将Internet 中某一方面大量的、分散的、杂乱的信息(网站或网页中可索引的公共信息,不包括各种专门数据库的信息)经过整序、优化,形成一个便于有效利用的系统的过程。
分类法与主题法是网络信息组织的两种最主要的方法,网络信息组织的工具还有学科信息门户、机构知识库等。
第一节网络信息分类法网络信息分类法主要满足对互联网上各种类型信息组织的需要,充分揭示信息内容的相关性,能对信息进行有效的控制和过滤,能与主题检索相互配合。
目前,各大网站和大型搜索引擎的分类导航系统就运用了网络信息分类法,它们通常多是将几种分类法融合使用,这些分类法主要有主题分类法、学科分类法、分面组配分类法、体系分类法等。
目前的网络信息分类侧重人们日常生活需要,类名措辞通俗,多角度重复列类并设置镜像类目,体系力求新颖,应变及时;但同时具有分类体系覆盖能力较差、列类五花八门、缺乏严密性和逻辑性、类名措辞随意、类名一味强调吸引力等缺点。
一、网络信息分类法与传统分类法的区别网络信息分类法与传统分类法主要有以下几点区别。
1.传统分类法以学科为基本的分类基础,网络分类法以网络资源为分类的基本对象。
2.传统分类法通过对文献进行标引,编制分类检索工具,组织分类排架,分类标引基本是手工的。
网络分类法通过对网络信息的标引,建立网络信息分类导航系统,提供浏览式检索手段,分类导航系统的建立和维护主要是手工的,也有人机结合。
网络分类的对象类型多种多样,包括文本、聊天室、新闻组、多媒体对象、网站地址等。
3.传统分类法强调类目之间的内容联系和逻辑关系,科学性、规律性强。
网络分类法为了方便、快速、自动地排列众多同位类,也广泛使用字顺、重要性排列法。
信息组织重点

第一章1.信息组织的驱动力-信息检索工具的变化(AltaVista)混合型(例如:yahoo、intute等)专题型(例如:博客检索、专业检索)特殊型(图片、地图、ftp等)集合型检索工具(例如dogpile、)2.信息组织(1)概念:信息组织,也叫信息整序,是利用一定的规则、方法和技术对信息的外部特征和内容特征进行揭示和描述,并按给定的参数和序列公式排列,使信息从无序集合转换为有序集合的过程。
(2)外部特征:信息的物理载体直接反映的信息对象,构成信息的外在的、形式的特征(题名、作者、出版社、日期等)内部特征:信息包含的内容,由主题词、关键词或其它知识单元表达(3)按信息表现形式划分:文字信息组织、图像信息组织、声音信息组织、视频信息组织按信息加工程度划分:一次信息组织、二次信息组织、三次信息组织按信息的传播载体划分:文献信息组织、非文献信息组织3.信息组织的两大思想(两种思想的内容及比较分析)(1)分类方法:根据信息的学科体系特征来序列信息的一种方法体系、类目关系。
如《中国图书馆分类法》Yahoo分类目录门户网站分类频道——分类搜索浏览(2)主题方法:根据文献主题特征来组织排列信息的一种方法,由受控的自然语言语词直接表达主题概念。
百度,Google ——搜索引擎(3)比较分析:分类法系统性强,满足族性检索,符合人们的思维与检索习惯,分类目录浏览主题法直观,满足特性检索,提供了一种直接面向对象、事实或概念的信息组织方法第二章PPT11.分类:是指以事物的本质属性或非本质属性为根据,将属性相同的事物集合成类,将属性不同的事物区别开来的过程。
是人们认识事物、区别事物,并在此基础上组织事物的一种科学方法2.分类法的类型(构成原理是重点)(1)体系分类法概念:它是主要依据概念划分与概括原理,将绝大多数表达信息内容及形式特征的概念列举为类目,通过概念的层层划分和隶属,构成一个类目等级体系,一般为每个类目配上相应号码(分类号)作标识的分类工具。
试述分类法和主题法的异同

试述分类法和主题法的异同
分类法和主题法的异同主要有以下几点:
(1)揭示对象方面:
分类法揭示的是信息的学科属性,处理和检索的信息都必须对其学科属性作出判断;
主题法揭示信息论述的具体事物或主题概念,一般不涉及学科类别的判断。
(2)使用标识方面:
分类法以抽象化的类目代号——分类号作为文献内容标识和检索标识,比较简洁,但也较费解。
主题法直接用词语表示信息的主题,即用事物名称或概念词语做描述信息主题的标识和检索标识,直观易懂。
(3)排列方式方面:
分类法按分类号(学科或专业门类的代号)排列,系统性较强,但不熟悉有关分类表则难以有效地利用它;
主题法按词语字顺排列,如同词典,易学易査。
(4)用途方面:分类法比较适合于图书或文集的组织和检索,既可用于编制分类目录和分类索引,还可用于文摘编排、文献报道、藏书排架与统计,提供的是从学科或专业角度查找文献信息的途径,族性检索功能强;主题法较适合于期刊论文、研究报告、会议论文等单、篇文献的组织和检索,且更适于计算机组织和检索,主要适用于编制主题索引和主题目录,提供了从具体事物人手査找文献信息的途径,专指性强。
信息组织的两种重要方法——分类法与主题法——尤世民 2014103565

分类法与主题法一、分类法分类系统分为聚类和归类两个子系统:聚类是指按照信息资源的特点和使用需要,通过区分和类聚建立起类目体系的过程;归类是指依据建立的分类体系进行类分信息资源的过程。
聚类的结果是建立科学、合理的、类目体系,如各种文献分类法等,聚类是归类的前提条件,是分类组织的重要依据和工具;而归类系统则是聚类系统的具体应用,它体现了聚类过程的实际存在意义。
信息资源分类法的类型按照编制方式分为:等级列举式、分面组配式、列举——组配式。
(一)等级列举组配式等级列举式分类法是一种将所有的类目组织成一个等级系统,并且采用尽量列举的方式编制的分类法。
类目体系组成一个树状结构,按照划分的层次,列举详细类目,以缩格表示类目等级关系,最后形成一个等级链。
常见的有《杜威十进制分类法》(DDC)、《中图法》等。
(1)杜威十进分类法(Dewey Decimal Classification,DDC)杜威十进分类法是广为全球各地图书馆使用的分类法。
这个分类系统最早在1873年时Melvil Dewey有此分类构想,而于1876年正式出版。
负责DDC出版的是Forest Press,而它于1988年成为OCLC下的一个部门。
DDC已被全球超过135个国家的图书馆使用,并且被翻译逾30种语言,包括阿拉伯文、中文、法文、希腊文、希伯来文、意大利文、波斯文、俄文、西班牙文及土耳其文等。
在美国,有95%的公共图书馆及学校图书馆、25%的学院及大学图书馆及20%的专门图书馆使用DDC。
此外,DDC更能用来组织网际网络上的各种资源。
杜威十进制图书分类法于1876年首次发表,历经22次的大改版后,内容已有相当程度的修改与扩充。
最新的版本为2004年版。
该分类法以三位数字代表分类码,共可分为10个大分类、100个中分类及1000个小分类。
除了三位数分类外,一般会有两位数字的附加码,以代表不同的地区、时间、材料或其他特性的论述,分类码与附加码之间则以小数点“.”隔开。
分类法与主题法的异同

分类法与主题法的异同一、分类法的特点分类法是一种基于类别的信息组织方法,它将信息按照一定的标准进行分类,以便于管理和检索。
分类法通常采用等级结构,从总类到子类,逐级细分,形成一个层次结构。
分类法的特点如下:1.标准化:分类法通常采用统一的分类标准,使得信息能够按照一致的方式进行归类。
2.层级性:分类法具有明显的层级结构,从上到下,从总到细,形成一个清晰的层次体系。
3.稳定性:分类法一旦确定,通常不会轻易改变,以保证信息的稳定性。
4.人工干预:分类法的制定通常需要人工干预,根据专业知识和经验进行分类。
5.适用于大量信息:分类法适用于大量信息的组织和检索,能够提高信息检索的效率和准确性。
二、主题法的特点主题法是一种基于关键词的信息组织方法,它将信息按照主题进行组织,便于用户按照主题进行检索和获取信息。
主题法的特点如下:1.灵活性:主题法具有较强的灵活性,可以根据需要随时添加新的主题。
2.面向用户:主题法的制定通常需要考虑用户的需求和使用习惯,以便于用户快速找到所需信息。
3.适用于多媒体信息:主题法适用于多媒体信息的组织,如图片、音频、视频等。
4.语义关联:主题法注重信息的语义关联,能够将相关的信息聚类在一起。
5.技术依赖:主题法的实现通常需要借助相应的技术和工具,如语义分析、聚类算法等。
三、分类法与主题法的异同比较分类法和主题法是两种不同的信息组织方法,它们在某些方面存在共同点,但在其他方面则存在明显的差异。
具体来说,两者的异同比较如下:1.基础理念:分类法和主题法都以提高信息检索效率和准确性为目的,但它们的基础理念略有不同。
分类法注重信息的逻辑层次和分类标准,而主题法则更注重信息的语义关联和用户需求。
2.适用范围:分类法适用于大量信息的组织和检索,特别是在图书馆、档案馆等领域得到了广泛应用。
而主题法适用于多种媒体信息的组织,如网络搜索引擎、多媒体数据库等。
3.制定方式:分类法的制定通常需要人工干预,需要专业人员根据专业知识和经验进行分类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【标题】网络信息组织中的分类法与主题法【内容提要】分类法与主题法是网络信息组织的两种主要方法。
文章综述了分类法与主题法在网络信息组织中的应用现状、存在问题及进一步完善的办法,并指出分类主题一体化是网络信息组织的发展趋势。
【摘要题】信息化与网络化建设【关键词】网络信息组织/ 分类法/ 主题法/ 分类主题一体化/ 关键词/ 搜索引擎【正文】网络信息组织就是采用一定的方式,将Internet 中某一方面大量的、分散的、杂乱的信息(网站或网页中可索引的公共信息,不包括各种专门数据库的信息)经过整序、优化,形成一个便于有效利用的系统过程。
分类法与主题法是网络信息组织的两种最主要的方法。
本文拟分析分类法与主题法在网络信息组织中的应用情况,并探讨应用中存在的问题及解决的办法。
1 分类法在网络信息组织中的运用1.1 分类法在网络信息组织中的应用现状目前,分类法在网络信息组织中的应用主要有两种方式:一是采用传统的分类法,主要用于学术性信息资源的组织与查询。
如利用杜威十进制法(DDC) ,比较成功的综合性网络目录有加拿大国家图书馆的“ CanadianInformationbySubject ”。
较好的专题性网络目录有加拿大多伦多参考图书馆的“ ExpandingUniverse ”,主要面向天文学资源。
另有一些特色站点是“ GNOSIS ”、“ CyberDewey ”、“ Sized ”、“ WWLIB ”等;使用国际十进制分类法(UDC) 的网络目录有“ BUBLESubjectTree ”,它覆盖了英国国内综合性网上资源。
“ NISS ”,综合性网络目录,类目前标有UDC 分类号。
“ SOSIG ”,它选用了UDC 的社会科学部分的分类号,共有26 个类号;使用美国国会图书馆分类法(LLC) 的网络目录如“ CYBERSTACKS ”,由美国依阿华大学开发,主要提供6 大部类的资源。
国内分类法在网络信息组织中的应用较少,《中图法》作为容量最大,使用面最广的中文图书分类法,只有在中文搜索引擎“网络指南针”中得到了应用,目前只有两级类目框架。
应该说真正意义上的《中图法》的网络版还没有出现。
二是采用自编的分类体系,其设计从普通用户出发,主要用于通用性网络信息资源的组织与查询。
网络信息组织的自编分类体系大都是主题分类法,主题分类法基本上采用等级结构,以主题为中心,按事物而不是按学科划分类目。
大多数中文搜索引擎就是采用这种分类体系来组织信息,如著名的中文搜索引擎雅虎中国(Yahoo!) 。
1.2 利用分类法组织网络信息的优势(1) 分类法具有较强的系统性。
分类法采用划分范畴的树状结构按事物或学科分类组织网上信息资源,具有层次清晰、体系稳定等优点。
(2) 分类法便于浏览检索。
分类法的等级结构便于用户在查找时进行浏览。
当用户的检索目的不明确或检索词不确定时,分类浏览方式更有效率,它引导着用户按照初始的目标一步一步接近需求的信息。
(3) 分类法提供对非文本信息的组织。
当前,网络信息资源中非文本信息占的比重越来越大,如:图形、图像、声音、动画等,分类法独有的聚类功能和代码标识在组织和揭示多媒体信息中占有极大的优势。
(4) 检索语言的通用性。
分类法以知识分类为基础,以符号为标识,具备成为不同语言转换中介的条件。
1.3 分类法在网络信息组织中存在的问题大多数中文搜索引擎都采用自编的分类体系组织网络信息,这种自编的分类体系主要存在以下问题:(1) 分类体系不严密。
一些搜索引擎在划分类目时,并未真正从知识领域、知识体系的角度来分类,而仅仅从商业角度考虑,因而使得分类体系漏掉了许多重要的知识领域,体系的系统性和完整性受到很大的影响。
如雅虎中国(Yahoo!) 的基本大类中没有设置工业类、农业类等基础性类目,而把它们作为二级类目、三级类目,或是分散到其它类目中。
(2) 类目之间缺乏逻辑性,隶属关系混乱。
部分中文搜索引擎分类体系的类目之间缺乏逻辑性,类目归属关系不尽合理。
表现在某些上、下位类之间隶属关系模糊,缺乏合理的知识联系。
如“东方网景”把教育列于自然科学类下,“网易”在文学类下列出入文历史和宗教等。
(3) 类目名称不规范。
主要表现为类名不统一,类名用语不准确,类名不能确切概括类目的内涵。
如搜狐称“计算机与互联网”,中文雅虎称“电脑与因特网”,网易中热门查询的“另类”等。
(4) 类目划分标准模糊。
由于类目设置采用多元标准划分,一些类下往往使用两个或多个分类标准,有的甚至在同一层次上列出不同等级的类目,致使同位类设置显得混乱。
1.4 分类法在网络信息组织中的进一步完善——建立统一的网络信息分类体系现有的网络信息分类体系,无论是体系的完整性、类目的划分和设置,还是类名的内涵、外延都各不相同,这对网络信息资源的组织、检索造成困难。
针对上述问题,建立统一的网络信息分类体系势在必行。
建立统一的网络信息分类体系,必须遵循面向网络信息资源,面向网络技术环境,面向用户的原则,突出其实用性和易用性,充分借鉴网上已编制的分类体系的经验和传统分类法理论、技术和成果。
在具体实施过程中,应注意以下几点:(1) 以主题作为聚类标准。
网络分类法聚类的标准不是传统分类法的学科,而是以主题作为聚类的主要依据。
(2) 从类目的划分与设置来看,应突出重点类目,减少划分的层次。
网络分类法的编制应根据多数用户查询的需要,把信息量大、用户感兴趣的知识范畴突出列类,而不必考虑它在科学体系中所处的层次如何。
在类目设置和划分时,将大多数类目的层次控制在 3 、4 层为宜。
为了减少划分层次,划分过程可以不十分严格地按等级层次进行,而是采用多重列类法,使用若干标准同时对某一上级类目进行划分,建立若干从属上级类目的平行子类目,满足网络用户多途径、多角度检索的需求。
(3) 充分揭示信息知识内容的相关性。
揭示事物的相关性和根据事物的相关性整序,是信息组织的基本手段。
对于知识的多重从属关系可采取交替列类的方法揭示,知识之间的相关关系可大量使用类目参见的方法揭示,通过超文本链接,用户便可透过不同的窗口,浏览被参见的类目。
(4) 能与主题词表相结合。
在网络信息检索系统中,分类的宽泛浏览检索与使用自然语言的专指检索,应是不可分割的完整统一体。
网络信息分类法的着眼点不应只集中在分类法本身,而应顺应分类主题一体化的发展趋势。
因此,在编制网络信息分类法时,应考虑到分类法与主题词表的结合,将标引语言纳入分类体系,建立对应关系。
2 主题法在网络信息组织中的运用2.1 主题法在网络信息组织中的应用现状主题法在网络信息组织中的使用主要表现为两种方式,一是使用现有词表(叙词表、标题表)组织网络信息。
目前,使用现有词表组织网络信息的还不多,主要是美国《国会图书馆标题法》(LCSH) 和《医学标题表》(MeSH) 被一些网络信息检索系统采用。
采用LCSH 的系统有:CyberHoundExpertSearch,ElectronicJournalSubjectIndex 等。
采用MeSH 的系统有:CliniWebBrowse,AlphabeticalListofNLMSections 等。
二是广泛采用关键词法。
关键词法是将信息原来所用的能描述其主题概念的关键词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。
由于关键词法具有种种优点,关键词的抽取可以完全自动化,因此关键词检索在网络中的应用相当广泛。
目前,大部分搜索引擎的索引数据库几乎都采用关键词法进行信息组织,如AhaVista 是关键词型搜索引擎的典型代表。
2.2 利用主题法组织网络信息的优势主题法包括标题法、单元词法、叙词法和关键词法。
鉴于关键词法的广泛使用,本文将重点讨论关键词法在网络信息组织中的应用。
关键词法是直接使用自然语言的一种方法,关键词法的优点概述如下:①关键词是信息中使用的自然语词,依事物聚类,表达主题直观、专指,便于特性检索,可以保证有较高的检准率。
②关键词具有较强的组配性。
搜索引擎的布尔逻辑检索就是通过布尔逻辑算符把一些具有简单概念的关键词组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。
③采用关键词法,不存在词汇滞后问题。
④在联机网络环境下,关键词语言具有广泛的用户基础,它的检索习惯和技巧容易被用户所接受。
⑤关键词的抽取可以完全自动化,用它来组织揭示信息速度快、成本低。
以上优点是关键词法在网络信息组织中得到广泛应用的主要原因。
2.3 主题法在网络信息组织中存在的缺陷关键词属于自然语言,不作词汇规范和词间关系显示是它的最大特点亦是它最大的缺陷。
由于概念与语词不能一一对应,容易造成检索内容的分散,由于不能显示概念间的关系,难以进行族性检索。
在网络环境下,采用简单的关键词检索,检索效率都很低,普遍存在着检索结果过多尤其是不相关内容过多的问题。
2.4 主题法在网络信息组织中的进一步完善——后控词表技术关键词固有的缺陷,使关键词检索方法在网络信息检索中难以得到令人满意的检索效果。
虽然大多数搜索引擎都采用了增强关键词检索功能的基本措施,如:布尔逻辑检索、搜寻范围限定检索、二次检索、检索结果相关度排序等,但这些措施还不可能彻底消除关键词检索的缺陷。
要提高关键词的检索效率,就必须介入人工语言的因素,在保留自然语言易用性优点的基础上,充分发挥人工语言对信息进行系统组织和对自然语言进行规范控制的作用。
目前,较一致的看法是采用后控词表的方法。
使用后控词表是改善关键词法性能的有效措施之一。
后控词表采取的是“标引不控制——检索控制”的模式。
张琪玉教授指出,后控词表中的控制词并非直接用于标引,而是对作为信息检索标识的自然语言进行控制,建立等级、等同、相关关系。
因此,在后控词表中,标引——检索用词是自然语言,非标引——检索用词却是人工语言。
后控词表作为一种用户接口,它成功地实现了自然语言与人工语言的转换,克服自然语言由于不规范和缺乏语义关联性而对检索不利的问题。
随着机读词表的进一步发展及语言处理技术的突破,实现对关键词的后控制是完全可能的。
3 网络信息组织的发展方向——分类主题一体化分类法与主题法是网络信息组织的两种基本方法,但分类检索与主题检索是完全独立的两个系统,两者没有内在的联系。
单纯使用分类和语词的方法组织信息,都满足不了网上用户的查询需求,面对Internet 上浩如烟海的信息,用户更需要多种多样的检索方法、功能更完备的检索方法和更加智能化的检索方法。
分类法的族性检索与主题法的特性检索反映了人类思维的两个不同侧面,分类主题一体化是网络信息组织的发展趋势,是自然语言与人工语言的一体化,两者的结合是功能上的互补与增强,它能克服分类法单纯以学科聚类,主题法单纯以事物聚类的局限性。