资料数字化与命名原则规范

资料数字化与命名原则规范
资料数字化与命名原则规范

图书馆法项目

国家图书馆

中华民国九十年十月

一、前言

就主题而言,各种数字图书馆、数字博物馆或文化数据库所包括的数据类型可能有:音乐、戏剧、舞蹈、美术、文学、电影、建筑、传统文化等各种主题;然而就媒体类型而言,则可分为:文字、影像、声音、视讯等四种型态。由于原始数据之来源不同,因此也需要不同的数字化方式。

各种数据数字化时,必须考虑到使用者的设备、使用的便利性、信息检索的需求、网络上数据的传输速度、数据的永久保存等问题,以分别建立几个不同使用目的的档案。各种数据数字化的处理原则、档案格式及验收规范,详细说明如下,以供各单位数字化时之参考。

二、处理原则

1.数字化方式依照原件之媒体类别及下列档案格式处理。

2.原件为电子文件之文献,除将原档储存外,建议转成RTF、PDF或HTML

三种档案格式。

3.原件内容为影像者,建议扫瞄一永久档,永久文件以原型数据大小进行

数字化,以不压缩方式贮存(1:1模式),并于需要时,再以此永久

档转成其它目的之档案。

4.原件若无法直接扫描,可成拍成光学透射正片,建议尺寸为:4in*5in

或8in* 10in。

5.分辨率之选择以原件之质量及数字化之目的为依据。如一般印刷品及照

片的质量为250dpi至300dpi,若为重制使用,则需要依原件尺寸取

300dpi以上来计算作为数字化扫描的各种参数依据(即若原件为

8in*10in拍成4in*5in,则分辨率须设为600dpi或放大两倍后之分辨率

为300dpi)。

6.原件为声音及视讯数据者,需输出两种型式之数字档案:一则供永久存

盘,一则提供实时播放使用。

7.对于各输入设备必须做色彩校正,校正之规范采IT8规范色彩导表7.1、

7.2、7.3版之规范处理。

三、档案格式

(一)文字数据

1.原始数据为电子文件

若原始数据是以计算机打字的电子文件,除存一份原始档外,建议转成HTML、PDF或RTF三种档案格式。

2.原始资料为印刷品或手稿

原始数据为手稿或印刷数据,如果要做全文检索,则需重新打字,其余处理方式同上;若不做全文检索,则只须建立诠释数据,并将原件扫瞄,并以不压缩格式,储存一份永久档,再视须求转成其它目的之格式,如网络下载格式及预览格式,此三种格式之规格建议如下:

(二)影像数据

若原始数据为照片、图片、地图等,则需以扫瞄器扫成影像文件,并以不压缩格式储存一份永久档,再视需求以永久档转存成其它目的之格式,如网络下载格式及预览格式,此三种格式之规格建议如下:

(三)声音数据

若原始数据为录音带、CD或LP等有声数据媒体,则需将该媒体转成数字档案,并储存一份不压缩之永久档,再视需要转成其它目的之档案,如下表所建议:

(四)视讯数据

若原始数据为录像带,则需以视讯撷取软件将之转为数字视讯文件,并存成下列五种档案格式。

四、对象数字化验收规范

1.雇主(以下简称甲方)于接获厂商(以下简称乙方)交付之工作项目与产品

后,除核对交付清单所列数量及项目是否相符外,就数字化档案之质量,依中国国家标准(CNS)2779 Z4006(数值检验抽样程序及抽样表)之规

定,采用III级一般检验水平,正常检验单次抽样计划型式,允收上限

AQL=1.0。

2.文件影像质量验收基准

(1)符合各数据数字档案规格

(2)在原稿清楚的前提下,影像文字清楚。本项所称之「清楚」系以激光

打印机在300dpi分辨率下所印出之原件影像为判断依据。

(3)影像去除因扫瞄引起的黑边、污点。

(4)影像歪斜不可超过1度。

(5)文件名称编码符合甲方指定之档案命名方式。

3.声音、影片验收基准

(1)符合各数据数字档案规格。

(2)原对象与数字化永久保存级档案同时播放比较,无明显差别。

(3)文件名称编码符合本契约中档案命名方式。

4.甲方验收本工作时,若认为本工作之内容、质量或数量有未符合规定时,

得要求乙方于一定之工作天内,就不合格之项目重新制作,并完成相关交付作业,再行验收。

5.验收所需之器材及设备由乙方准备。

五、数字档案命名原则

近几年来,国内相关数字计划正如火如涂的展开,为使数字资源也有唯一的文件名,在数据数字化前即需就档案命名方式加以规范,此命名原则需能满足下列目的:

1.数据数字化过程与Metadata的建立可分开执行。

2.依文件名可回溯找到数字化对象。

3.未来加入国际暨有之命名系统时,如URN、DOI等,能直接由此档名

加上国家识别码,而成为国际间唯一的号码。

数字资源由各单位分别数字化后,可能会个自储存在本机构之服务器,或集中储存到某一服务器。换言之,大部份的数字资源都会以分散及集中的方式各存两套以上,所以,必需能由文件名称辨识出这份数据是由那一单位所建立的;此外,每一原始对象为不同之目的,也会转换成不同的档案格式,因此由档名必需能知道该档案是那一对象的那一种档案格式。简而言之,数字资源的命名原则主要包括:

1.可以由文件名中辨识此资料是由那一个单位所提供

2.此命名方式可支持同一对象之多种档案格式及其使用目的

3.依命名方式在整个系统中,每一数字资源皆有唯一之档名。

4.文件名称与Metadata 结合

5.符合各种网络资源之命名规则:

(1)使用ASCII code命名

(2)文件名称英文字大小写不作区分

(3)不使用%、/、?、#、*、- 字符

六、与国际命名方式的结合

资源命名是一项复杂的议题,网络资源永久名称的指定,将是网络资源管理重要的一环,而国内代表中华文化的数字资源未来也必定要往国际化发展。未来将各机关的命名与国际上各种命名方式加以结合其方式主要如下:

命名方式+注册机关代码+注册资源代码

命名方式如以URN方式则为urn,DOI则为doi。

注册机关代码如为URN informal方式,则由申请机关向注册中心(IANA)申请分发为urn-d(d为数字),若为DOI,则向注册中心(FDI

或CrossRef)申请分发一代码。

注册资源代码则由注册单位内部自编,无一定格式但要内部为唯一代号。如URN则需要提出内部编码方式给IANA协会审查,而DOI只要

资源识别码注册时不与现有重复即可。

+为区分码,如URN为“:”,DOI为”/”等。

由上分析,不管加入那一个网络资源组织,其注册资源代码都是要由注册机关自订,因此目前我们设计的档案命名方式,未来只要再加上注册机关代码即可为国际间唯一的识别码,如注册单位是台湾,则就再加上台湾的代码。故在未来不管国际间盛行那一种网络资源组织,都可以快速简单的转换成该组织命名方式,使其符合系统扩充性及未来性。

参考数据

RFC1737, 2288 ,2168 ,2169, 2276, 2141, 2276

相关文档
最新文档