信息存储与数据库结构

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.2 信息存储与数据库结构

计算机信息存储是指对信息进行收集、加工、著录标引,并按一定顺序存储起来形成数据库的过程。

1.2.1 信息源收集

计算机信息检索系统向用户提供检索的各种信息记录均来自各种信息源。各检索系统根据本系统的服务目的选择不同的信息源,并以此为基础建立数据库。在信息源收集阶段主要进行以下的确定工作:

1) 确定入选信息的专业范围。信息的专业性体现了数据库的特色与权威性。

2) 确定信息的文献类型。如期刊、会议录、学位论文、标准等。

3) 确定信息的载体。如印刷品、缩微制品、光盘、磁带、磁盘、网络下载的信息。

4) 确定信息的加工深度。对于文献数据库而言,加工深度表现为三个层次:题录、文摘、全文。

5) 确定信息的起始时间。收集的信息时间跨越范围需要根据信息的特点合理选择,回溯年限长,信息时效性就差,但历史性就越强。

1.2.2 标引与著录

所谓“标引”,就是指对信息内容特征进行分析,赋予信息以检索标识的过程。标引一般包括主题标引和分类标引。

所谓“著录”,就是对信息外部特征(如文献的篇名、著者、出处、出版时间等)进行分析、选择与记录的过程。

对信息内容特征进行标引和对信息外部特征进行著录,形成一条信息题录,并根据信息内容作出摘要,然后将上述检索标识与著录项目一并填入工作单,就完成了数据库建设的“数据前处理”工作。

标引工作可分为人工标引、计算机辅助标引和自动标引三种方式。

人工标引是指文献标引人员根据自身的专业知识水平、信息处理能力,对文献进行分析判断后给出主题词的过程。一般步骤为:分析主题、主题概念提取、选择主题词。标引人员通过阅读、浏览文献全文,形成主题概念,按照标引规则,进行主题概念的转换,选取叙词表中给定的主题词,并填入书面工作单中相应的项目(如主题词项)中。一篇文献一般给出3至5个主题词。

计算机辅助标引是指文献标引人员借助计算机对文献进行主题概念分析,选定反映主要主题概念的检索标识的过程。计算机辅助标引是在保留人工标引中人工参与的基础上,将计算机的快速、准确和人脑的智慧结合起来进行的标引。其实现的基本方法是:在

计算机中存放规范的、具有一定结构的叙词库,词库主要是用来帮助标引人员寻找合适的叙词进行标引,只起到帮助寻找、提供显示选择的作用,由标引人员判断选定。

自动标引的方式主要有两种:自动抽词标引和自动赋词标引。

自动抽词标引,是指利用计算机直接从文献全文、文摘或标题中抽出能表达文献主题的关键词作为标引词,并自动生成关键词索引或倒排文档。

自动赋词标引,是指计算机根据某种特定的标准,从预选编制的词表中选取标引词,用于表示某一文献的主题概念。

著录工作是按照相关数据著录方法,对信息外部特征进行提取,确定数据格式,在数据著录工作单中填写具体内容。数据著录工作单有两种:书面工作单和电子工作单。书面工作单适用于标引、著录各种类型的信息,适合于计算机操作能力较差的信息处理人员。电子工作单设置比较灵活,可根据需要设置全部或部分著录项,可采用双屏显示方式实现各个著录项以及著录提示说明。

1.2.3 数据库及其编排结构

数据库是计算机检索的对象,要掌握检索的原理和技巧,首先必须清楚数据库的编排结构。

1.数据库的定义

将信息标引、著录后形成的信息记录,按一定格式依次录入计算机,并存储在磁带或磁盘上,形成供计算机检索用的数据库。数据库是被收集在一起的一组有序的信息单元,每个信息单元由若干个独立的结构单元组成,数据元存储在字段中,每个数据元描述信息单元的一个特性。每个信息单元将由诸如著者、标题、出版日期等数据元组成。

文献数据库大多是书目型数据库,这类数据库里存储的并非是原始文献的全文,而是经过加工过的二次文献,即文献的题录或摘要。数据库是一个包含大量反映文献外表特征的著录项目的集合。随着电子技术的日益发展和信息资源的数字化,也逐渐出现了一些全文数据库,例如AIAA Meeting Paper全文数据库、中国学术期刊全文数据库等等。

2.数据库的类型

按照数据库所含信息的内容可以划分为以下类型:

(1)文献书目数据库(Bibliographic Databases)

文献书目数据库是存储某个领域原始文献的书目,即二次文献数据库,记录内容包括文献的题目、著者、原文出处、文摘、主题词等。大多数是印刷本检索工具的机读版,如美国工程索引数据库(Ei Compendex),英国科学文摘数据库(INSPEC),美国化学文摘数据库(CA Search)等。

(2)信息指南数据库(Dictionary Databases)

信息指南数据库主要是记录一些机构、人物、产品、项目简述等事实数据,通过该类数据库可以查到公司、机构的地址、电话、产品目录、研究项目或名人简历等信息。这类数据库也称为事实数据库。

(3)数值型数据库(Numeric Databases)

数值数据库是专门提供以数据形式表示信息的一种源数据库。主要记录科学研究中试验、测量、计算、工程设计、经济分析和工业规划等方面的数据。这类数据库主要包含数值数据,有的也包含文字,文字是用来定义数据所需的最小量的文字,有时称为文本-数值数据库(Textual-numeric Databases)。

(4)全文数据库(Complete Text Databases)

全文数据库是存储文献内容全文或其中主要部分的数据库,简称全文库。它是将经典著作、学术期刊、重要的会议录、法律法规、新闻报道以及百科全书、手册、年鉴等的全部文字和非文字内容转换成计算机可读形式。全文数据库可以解决用户获取一次文献所遇到的困难,能向用户提供一步到位的查找原始文献的信息服务。近年来,全文数据库发展很快,在各类数据库建设中异军突起。据统计,在美国,全文数据库从1985年的28%增加到1995年的52%,其数量是书目型数据库的一倍,而书目型数据库则从57%下降到24%。在我国,已有《中国学术期刊全文数据库》、《书生之家数字图书馆》和《超星数字图书馆》等图书、期刊全文数据库建成投入使用。

除了上述四种基本的数据库类型之外,还有多种混合型的数据库形式,如“数值-全文型”数据库,“书目-数值-全文型”数据库等。特别是随着多媒体技术的迅速发展和广泛应用,将图形、图像、文字、动画、声音等多媒体数据结构结合为一体,并统一进行存取、管理和应用的多媒体数据库已经问世,并受到人们的普遍欢迎。随着超文本、多媒体和光盘驱动器技术的发展和普及,多媒体数据库的数量会越来越多。

3.数据库的记录格式

数据库的记录是构成数据库顺排文档(主文档)的基本单元,是对某一实体属性进行描述的结果。在书目数据库中,被描述的实体是某一特定的文献,这类记录通常被称作文献记录。一个数据库可能包含几千条甚至几十万条记录,一条记录又包含若干个数据字段。这些数据字段就是手工检索工具正文部分的文摘款目中的若干著录项目,例如原始文献的篇名、著者、文献出处、出版时间、文摘、主题词、语种等。它们是构成记录的最小信息单元。为了方便计算和检索,每一个字段都有自己特定的标识符,称为字段名,如AB代表文摘字段、TI代表篇名字段、AU代表著者字段等。数据库记录的著录项目(字段)往往比手工检索多得多,这就决定了计算机检索能够提供比手工检索更丰富的检索途径。

下面以DIALOG书目数据库Ei Compendex Plus为例介绍数据库的记录格式。

AN= DIALOG NO:05985973 EIMonthly NO: EIP020********

/TI Title: On improving modeling of enterprise information system

AU= Author: Li, Y.; Liu, M.; Shao, Y.; Yang, H.C.

CS= Corporate Source: Northwestern Polytechnical Univ., Xi'an 710072, China SO= Source: Xibei Gongye Daxue Xuebao/Journal of Northwestern Polytechnical University v 19 n 3 August 2001. p 372-375

PY= Publication Year: 2001

CO,SN= CODEN: XGDUE2 ISSN: 1000-2758

LA= Language: Chinese

相关文档
最新文档