电子文件元数据自动采集的原则与实施路径研究

电子文件元数据自动采集的原则与实施路径研究
电子文件元数据自动采集的原则与实施路径研究

电子文件元数据自动采集的原则与实施路径研究

摘要:本文通过理论研究与实证分析,进一步论证了元数据是电子文件管理的命脉,是电子文件真实性、可靠性、完整性与可用性的重要保障,是对电子文件实施前端控制和全程管理的关键,是实现自动化管理和智能分析的重要基础;同时展示了对《文书类电子文件元数据方案》的实施与拓展,对元数据实现自动采集的需求分析、原则与思路以及具有可操作性的研究成果。

关键词:电子文件元数据自动采集

本文系“电子文件元数据自动采集与智能分析实证研究”的项目成果。通过探讨理论架构并系统实施电子文件元数据自动采集,实现标准化、自动化管理,全面提升机构电子文件管理水平,同时为电子文件内容信息智能分析奠定基础;通过智能分析研究,充分挖掘隐含在电子文件内容信息中的知识关联,深度开发,支持决策。

一、元数据自动采集需求分析

元数据是描述文件背景、内容、结构及其整个管理过程的数据。不同于传统意义上的著录,元数据内涵更丰富,功能更全面,要求更严格,不可能由档案管理人员在文件归档后进行著录,更不可能由形成机构文件管理人员或业务人员手工录入。元数据需要全程规划,需要嵌入系统,需要实时自动采集,需要真实、动态地再现电子文件管理的背景信息及过程信息。实现元数据自动采集,是元数据自身管理的要求,也是形成机构实际业务的需求。

(1)元数据管理要求

国际标准《信息与文献电子办公环境中文件管理原则与功能要求》(ISO 16175 1-3)一再强调,文件管理元数据(metadata)包括“识别、认证文件和文件背景关联等信息以及生成、管理、维护和使用文件的人员、流程和系统的信息,文件管理政策”。只有伴有界定了关键特征元数据的文件才是真实有效的文件,这些特征必须被清晰地记录下来。元数据在文件捕获点上对文件进行详细说明,固化文件与其业务背景的关联,对文件实施管理控制。在整个生命周期中,新的元数据不断伴随业务的开展、提供利用而持续增加,以长期保证真实性、完整性、可靠性、可用性,使得对文件的管理成为可能。

在电子文件管理系统中必须实现元数据的有效管理。电子文件管理系统(ERMS)作为专门用于对文件的维护和处置予以管理的系统,具有如下属性:在背景中生成文件;管理和维护文件;依据要求的时间长度维护文件;文件管理元数据要可以设定。

作为描述文件背景、内容、结构及其整个管理过程的数据,元数据最大的特征是动态性,动态地再现文件生成、流转、管理的全过程,在整个生命周期中为电子文件(包括由

此转化而成的电子档案)的真实、完整、可靠、可用保驾护航。元数据的重要价值在于还

原文件的背景信息,反映其所生成的政策法规和技术环境,显示与其他文件以及业务行为责任者等的各种关系,克服电子文件虚拟存在的局限。可见,元数据记录和反映的这些错综复杂、动态变化的信息已经无法仅仅依靠手工进行记录,必须嵌入系统,由系统自动判断、计算与识别,实现系统自动采集元数据是元数据自身管理的要求。

(2)机构业务需求

电子文件的特点决定了对元数据的采集必须前置,由前端形成机构伴随业务活动的开展和其间文件的形成进行采集与管理。《文书类电子文件元数据方案》(以下简称《元数

据方案》)给出了88项元数据元素,其中80%需要形成机构进行采集,而且过程性元数

据需要反复著录,侧重记录电子文件生成的技术环境与业务过程信息,所涉问题难度大且较复杂。特别是《元数据方案》中规定的一些元数据项存在“宏观”或“笼统”的情况,比如

元数据中“日期”项,如不结合文件生成、运转、处置的流程予以细化,则无法确定采集节

点和采集方式;仅从文件生成流程来看,面临着起草、会商、审核、签发等诸多“日期”,

哪些日期最为关键、哪些应作为元数据予以采集、在文件生命周期中是否重复元数据以及如何采集等,都需要结合机构业务流程和相关规范深入研究,并实施精细化管理。对文件形成机构(即业务机构)而言,因为元数据管理而徒增繁重手工著录工作量,造成人力物力

财力的巨大浪费,进而影响机构工作效率与绩效。需要指出的是,元数据并不是独立的,而是与机构自身电子文件管理基础密不可分。没有科学的电子文件、档案一体化全程管理流程,没有完备的电子文件元数据管理功能要求,便无法构建完善的元数据管理方案。因此,本文的研究内容是综合性的,从狭义来讲是电子公文元数据自动采集方案;从广义来

讲是机构电子文件管理方案。

二、元数据自动采集原则

(1)基于档案管理的基本原则

1.来源原则。元数据采集虽然通过对电子文件信息加以采集、提炼、分析和组织,揭

示文件、档案的内容及其产生规律,但是仍然以尊重档案的本质属性和规律为前提,在采集时注重体现电子文件来源,使机构中同一来源的电子文件通过元数据采集得到集中反映,使元数据与档案的来源相联系,以此通过元数据揭示同一来源的档案、文件之间的各种联系,为档案、文件的理解与利用提供来源方面的背景信息。

2.有机联系原则。有机联系原则也是档案管理的基本原则,是指系统中文件及组成系

统的诸要素之间需保持时空上的相互联系。由于电子文件是以二进制代码的形式分散存在

于计算机之中,因此保持文件之间的有机联系显得尤为重要,而要保持这种有机联系,必须依赖于元数据。以此原则为导向的元数据采集实质上就是电子文件信息的系统化增值过程,其目的是把分散的文件信息转化为互相联系、系统的信息流,形成更高级的信息产品,满足用户的特定利用需求。通过元数据采集与管理过程,使大量文件特征信息加以系统化和组织化,有效控制档案、文件信息揭示的数量和质量,克服档案、文件查询和利用的困难,提高检索效率,节省查询成本和精力耗费,实现价值增益。

(2)基于电子文件管理的原则

1.前端控制原则。就元数据采集来说,在已经建立了电子文件管理系统的机构,电子

文件在系统中生成、运转,电子文件元数据采集的前端“超前”至系统的设计阶段,前端控

制的形式也部分转移到系统功能的设计之中,即尽可能地把文件生命周期各个阶段的元数据需求设计在系统之中,以功能合理的OA系统作为管好电子文件的先决条件。

电子文件元数据规范

电子文件元数据规范 1 范围 本规范适用于九省区各级国家档案馆、各级党政机关、社会团体、企事业单位对电子文件进行以保证凭证性为目的的管理活动。其他社会组织可参照执行 在电子文件管理过程中使用元数据可实现以下目的: ——确保并证明归档电子文件的真实性、完整性与有效性,从而保证其凭证价值; ——有利于归档电子文件的保护,实现长期保存; ——在异构的信息系统中对归档电子文件进行规范、有效的管理,保证归档电子文件的可捕获、可收集、查长期利用; ——对归档电子文件及馆(室)藏档案数字化资源进行集成管理,实现有效、方便地查询、检索与利用。 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本规范的条款。凡是注明日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范,然而,鼓励根据本规范达成协议的各方研究是否可使用这些文件的最新版本。 GB 2312-1980 信息交换用汉字编码字符集基本集 GB/T 3760-1995 文献叙词标引规则 GB/T 3792.1-1983 文献著录总则 GB/T 7156-2003 文献保密等级代码 GB/T 7408-2005 数据元和交换格式信息交换日期和时间表示法 GB/T 9704-1999 国家行政机关公文格式 GB/T 11714-1997 全国组织机构代码编制规则 GB/T 11821-2002 照片档案管理规范 GB/T 13959-1992 文件格式与代码编制方法 GB/T 13967-1992 全宗单 GB/T 15418-1994 档案分类标引规则 GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充 GB/T 18894-2002 电子文件归档与管理规范 DA/T 1-2000 档案工作基本术语 DA/T 12-1994 全宗卷规范 DA/T 13-1994 档号编制规则 DA/T 18-1999 档案著录规则 DA/T 19-1999 档案主题标引规则 DA/T 22-2000 归档文件整理规则 DA/T 31-2005 纸质档案数字化技术规范 《中华人民共和国电子签名法》 中办发[1996]14号中国共产党机关公文处理条例 国发﹝2000﹞23号关于发布《国家行政机关公文处理办法》的通知 国档发[1987]4号关于颁发《编制全国档案馆名称代码实施细则》的通知 国家档案局第6号令《电子公文归档管理暂行办法》,2003年7月28日 国家档案局第8号令《机关文件材料归档范围和文书档案保管期限规定》,2006年12月19日ISO 15489 Information and documentation—Records management ISO 23081-1 Information and documentation – Records Management Processes – Metadata for Records—Part 1: Principles

电子档案元数据的管理方案

龙源期刊网 https://www.360docs.net/doc/8e9816474.html, 电子档案元数据的管理方案 作者:陈兰 来源:《经营者》2018年第06期 摘要随着社会的进步和信息技术的不断发展,越来越多的电子文件在其归档后就形成了电子档案,这种电子档案是保存各种电子文件的重要工具。其中,元数据是这种电子档案的基础,它又被叫作“关于数据的数据”,是记录各种电子文件全部信息的重要工具,通过元数据可以实现对各种重要的电子文件的完整性、真实性的保护。 关键词电子档案元数据管理方案 元数据的准确定义为:对各种信息资源进行结构化的描述,提供关于信息资源或数据的一种结构化数据。它可以对各种电子数据本身的特征和属性进行描述,具有发现、检索、管理、描述等功能。目前基于元数据的电子档案管理已经广泛应用于各行各业。本文对元数据在电子档案管理中的功能、电子档案元数据管理方案等几个方面进行研究和探讨。 一、元数据在电子档案管理中的作用 (一)保证电子档案的真实性和完整性 因为电子档案与实体分离,并且可以通过相关的操作进行变更,所以它的真实性往往会受到怀疑。但是,如果电子档案有了元数据,就可以将整个电子档案的形成、利用、处理的过程记录下来,从而保证整个电子档案的真实性和完整性。 (二)确保电子档案的长期可读性 我们知道,电子档案的生成和保存主要是依靠电脑和一些软件,一旦电脑或者是软件运行出现问题,电子档案就无法识别。在这种情况下,就可以利用元数据建立相应的模型对电子档案的格式信息、制作信息、转换方式等进行详细的记录与描述,这样就可以在电子档案迁移过程中保证其完整性和可读性。 (三)具有发现、检索、管理、描述等基本功能 元数据最基本的功能就是描述功能,它可以对档案信息对象的属性和位置进行详细的描述,从而将所找对象的基本信息呈现在人们面前。此外,因为元数据将主要信息展示出来了,所以就便于人们快速查找所需信息。同时,元数据还可以对各种资源对象的各个部件之间的结构和关联模式进行管理。 二、电子档案元数据的管理方案

元数据管理方案

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。经过元数据自动抽取,用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针正确对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: ●整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,因此对于需要共享的数据要进行安全方面的限制,限制的手段能够有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理

第三章 电子文件

第三章电子文件 第一节电子文件概述第二节电子文件管理概述第三节电子文件形成、办理和归档 第一节电子文件概述 1.1电子文件的含义 1.2电子文件与相关概念的辨析 1.3电子文件的基本特点 1.4电子文件的种类 1.5电子文件与元数据 1.1电子文件的含义 学术界、档案管理层从不同视角看到了其不同的特征,并出于不同的目的做出或具体、或抽象、或严谨、或深刻的定义,其中较有影响的定义有两个来源: 《电子文件归档与管理规范》( GB/T18894-2002) : 《电子文件管理暂行办法》(中办国办厅字2009,39号) 1.1电子文件的含义 电子文件指在数字设备及环境中生成,以数码形式存储于磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件。(《电子文件归档与管理规范( GB/T18894-2002)》) 理解电子文件的含义主要把握以下内涵: ★来源主要从三个方面:公务活动、社会活动和传统载体转换; ★“数字信息”和“文件”的交集:是具有文件功能的数字信息,又是以数字信息为技术特征的文件; ★电子文件由内容信息、背景信息、结构信息三要素构成。 1.2电子文件与相关概念的辨析 机读文件虚拟文件数字文件电子档案 1.3电子文件的基本特点 ·电子文件的技术特点:主要包括非人工识读性、生成环境依赖性、信息与载体的可分离性、信息的易变性、多种媒体的集成性、信息存储的高密度性、信息的可操作性等。 ·电子文件的形成特点:是指电子文件从制作到生成过程中所表现出来的内在规定性。特点主要包括电子文件与机构活动的伴生性、电子文件之间的有机联系性、电子文件内容和结构以及背景信息的分散性、电子文件技术状态的多样性等。两个影响因素:即技术要素和机构职能与文件类型要素。 1.4电子文件的种类 ·按电子文件的适用范围分为通用电子文件、专用电子文件、私人电子文件等; ·按文件功能可划分为主文件、支持文件; ·按文件组成方式可划分为简单文件、复合文件、复杂文件; ·按信息存储载体可划分为磁盘文件、磁带文件、光盘文件; ·按文件来源途径可划分为原生电子文件、数字化电子文件。 ·按电子文件的信息存在形式分为文本文件、数据文件、图形文件、图像文件、音频文件、视频文件、命令文件等 1.5电子文件与元数据 ·元数据是电子文件不可分割的的组成部分,是电子文件管理不可或缺的重要工具之一。只有在掌握元数据的基础上,才能对电子文件进行有效而安全的控制,保证电子文件的完整性、真实性、可靠性和有效性,同时元数据也是电子文件信息组织、维护和检索的重要依据。 1.5.1元数据概念 ·元数据(metadata)是信息技术出现后才出现的概念,其一般性解释为“关于数据的数据”,

电子证照数据标准

电子证照数据标准

ICS13.220.10 点击此处添加中国标准文献分类号DB35 福建省地方标准 DB 35/ T XXXX—2015 电子证照数据标准 点击此处添加标准英文译名 点击此处添加与国际标准一致性程度的标识 (工作组讨论稿) XXXX-XX-XX发布XXXX-XX-XX实施

目次 前言....................................... II 1 范围 (1) 2 规范性引用文件 (1) 3 术语和定义 (1) 4 证照目录组成 (2) 4.1 证照名称 (2) 4.2 证照目录信息 (2) 5 电子证照编号 (2) 6 电子证照文件组成 (3) 6.1 电子证照元数据 (3) 6.1.1 基本元数据 (3) 6.1.2 扩展元数据 (3) 6.1.3 元数据要求 (3) 6.2 电子证照照面内容 (3) 6.2.1 电子证照模版 (4) 6.2.2 电子证照照面信息 (4) 6.3 签发单位电子印章 (4)

6.4 数字签名 (4) 7 电子证照文件封装 (4) 7.1 封装内容 (4) 7.2 封装方法 (4) 7.3 逻辑结构 (4) 附录A(资料性附录)电子证照目录信息 (5) 附录B(规范性附录)照面信息元数据字典XML结构 (6) 附录C(规范性附录)颁证单位/持证者代码类型编码 (11) 附录D(规范性附录)基本元数据的信息结构.. 12附录E(规范性附录)扩展元数据的信息结构.. 13附录F(规范性附录)电子证照XML数据文件.. 14

前言 本标准按GB/T 1.1-2009《标准化工作导则第1部分:标准的结构和编写》给出的规则起草。 本标准由福建省数字福建建设领导小组办公室提出。 本标准由福建省信息化标准化技术委员会归口。 本标准起草单位:福建省空间信息工程研究中心、福建省数字福建建设领导小组办公室、福建省经济信息中心、福建凯特信息安全技术有限公司。 本标准主要起草人:朱勤东、郑彦翎、李鹏伟、涂平、林丽、郑剑平。

何为档案中的元数据

元数据 元数据,英文拼写为Metadata,目前已被广泛应用于各种信息资源的管理领域中。在档案界,最早使用“元数据”的是美国的电子文件管理专家戴维?比尔曼,他在20世纪90年代初发表的有关电子文件管理方面的论文中首先使用了元数据这一术语。元数据的概念目前在档案界还没有一个统一的定论,目前比较有代表性的描述有:1.元数据是“关于数据的数据(Data about Data)”,其中,后一个Data是指被描述的信息资源,前一个Data则是指为理解该信息资源而存储的有关信息,即元数据。这是元数据目前公认最为经典、通俗和简洁的定义。2.国际档案理事会《电子文件管理指南》(1997)认为“元数据是关于文件的背景信息和结构的数据,是有关电子文件的技术性信息。”3.《澳大利亚联邦机构电子文件保管元数据标准》(1999)认为“文件保管元数据是关于电子文件背景的描述信息。”4.英国国家档案馆《电子文件管理指南》(1999)认为“元数据是关于文件和文件集合的背景及其相互关系的结构化描述和编目数据。”5.冯惠玲主编的《电子文件管理教程》认为元数据是“由电子文件系统自动记录的关于文件形成时间、地点、人员、活动、文件系统、结构及内容方面的具体数据。”6.“元数据可以理解为用来描述资源的属性与特征的信息。”-刘家真《电子文件管理理论与实践》,科学出版社2003年版。7.“元数据是对数据对象规范描述所形成的数据集合,通过计算机可读的开放语言来标记元数据,就能在系统间发现、交换、转换和理解相应的数字对象,支持系统间互操作。”-张晓林《开放元数据机制:理念与原则》,《中国图书馆学报》2003年3期。以上描述虽然表述各不相同,但我们可以发现一个共同点,即元数据主要是动态地描述电子文档各种特征的信息数据集合,并且它能为分散的、由多种数字化资源有机构成的档案信息体系提供整合的工具与纽带。随着研究的深入,我们对元数据的认识在逐步深化。档案工作人员为便于理解,可以简单把电子文档的元数据视为两方面:一是“著录信息或著录数据”。其中,“元数据元素就是著录项目,元数据格式就是著录项目之间关系的结构化表示,元数据编码就是著录信息的编制。”(刘越南《对电子文件管理元数据的再认识》,《档案学通讯》2005年2期);二是电子文档的内容、背景和结构等方面的信息。国外学者将元数据喻为电子文件管理系统中的“血液”,足见元数据在数字档案馆电子文件管理中发挥着举足轻重的作用。元数据的作用主要可以概括为以下几方面:1.元数据能协助数字档案馆构建信息检索机制。元数据具有动态跟踪功能,能够即时动态地获取电子文件管理的各项信息。在数字档案馆的海量信息库中,借助元数据,可以快速发现并获取特定的信息单元。 2.元数据能维护信息的识别与读取。电子文件所携带的元数据信息可以完整地记录电子文件的原始状态,能够系统地映射出电子文件的信息内容、背景和结构等;还能够映射出电子文件的生成环境和行政管理环境。只有在获取数据对象的同时也获取这些元数据信息,被检索到的数据单元才是可理解的、可读的。 3.元数据能保障电子文件的真实性与凭证性。元数据系统能够跟踪记录电子文件从产生那一刻起的载体、设备及所用技术的变迁史以及使用干预该文件的整个历史过程,即不论载体、设备、技术如何更新换代,不论使用者、使用人数的多少都全部作为历史数据保存下来,记录备案。这些为数字信息单元真实性和凭证性提供了重要的佐证。

元数据方案分析实验报告

武汉大学教学实验报告 信息管理学院信息管理与信息系统专业2011年1 月1 日 实验名称元数据方案分析指导教师Loly 姓名hrvy 年级2008 学号2008302330000 成绩 一、预习部分 1.实验目的 2.实验基本原理 3.主要仪器设备(含必要的元器件、工具) 1 2 3 实验目的: 通过自学包括DC在内的多种元数据方案,对其进行一定程度的分析,加深对元数据的理解,体会元素据方案的具体应用及其作用——如何实现机器与客户之间的接口,进一步感受信息组织的涵义作用,加深对本课程的理解与认识。 实验基本原理: 从网络上寻找任一种元数据方案(DC除外),对其进行简单介绍并仔细分析其元素涵义,最后通过一个具体的实例将自己所了解的知识贯通。 主要仪器设备: 一台连接到因特网的电脑。 二、实验操作部分 1.实验数据、表格及数据处理 2.实验操作过程(可用图表示) 3.结论 1 实验数据、表格及数据处理: 本实验采用的是LDIF元数据方案。 LDIF:LDIF 全称是 LDAP(Lightweight Directory Access Protocol,轻量级目录访问协议) Data Interchange Format ,轻量级目录访问格式数据交换文本。LDIF中传达的一组记录目录的内容,每一个对象(或项目)的纪录。它代表了一组记录的更新请求,如添加,修改,删除,重命名,为每个更新请求的记录。LDIF 是一种普遍使用的文件格式,用来描述目录信息或可对目录执行的修改操作。LDIF 完全独立于在所有特定目录中使用的储存格式,LDIF 通常用于从LDAP 服务器导出目录信息或将数据导入LDAP 服务器。 LDIF 一般很容易生成。因此,可以借助于一些工具(如awk 或perl)将专有格式的数据移入LDAP 目录。也可以编写脚本来生成LDIF 格式的测试数据。 LDIF 由两部分组成,第一部分是前两行,版本和 dn ,后面是属性和值。有两种类型的 LDIF 文件:第一种是描述 Directory 条目数据的,第二种是描述更新条目的。 第一种: version: 1 #定义版本 dn: uid=bjensen, ou=people, dc=example, dc=com #定义判别名:用户UID,组织

电子文件管理考题

电子文件管理 一、单选题 1.电子文件中,一般用于描述图像文件的分辨率的是( C )P52 A.DPI B.DBF C.PPI 2.电子文件归档移交前其真实性、完整性、安全性及可识别性,由(B)部门负责,归档移交后由(A)负责。P101 A.档案 B.形成 C.系统软件 3.电子文件归档“双轨制”是指(C)P102 A.制定电子文件归档制度,并认真实施。 B.将归档的纸质文件扫描成图片归档。 C.将生成的电子文件同时打印一份纸质文件,与其一并归档。 4.在销毁电子文件时,对属于涉密的归档电子文件,(B) A.可以用逻辑删除的方法 B.必须连同存储载体一起销毁 P111 C.送纸厂销毁 5.《电子文件管理条例》归档电子文件的形成部门和档案保管部门应当对归档电子文件集中拷贝至耐久性好的载体上,一式(C)套,其中一套异地保管。P109-110 A.一 B.二 C.三

6.草稿性电子文件的归档时,应该(A) A.保留其修改痕迹 B.不用留其修改痕迹 C.无所谓 7.归档电子文件刻录光盘后,其光盘标签按要求应(B) A.写上光盘档号 B.用黑色油性软笔在归档光盘的标签面上写上光盘档号 C.在归档光盘的标签面上贴上标签 二.多选题 1.在电子文件管理中,下列关于TIFF与JPEG说法正确的是(ABCD)P54-56 A.TIFF格式图片质量高,文件体积大,用于保存高质量的图片。 B.JPEG格式压缩比例较高,图片质量不及TIFF格式,文件体积较小,适合保存图像要求质量不高的图片,或用于普通网页浏览使用。 C.TIFF支持多页模式,JPEG不支持多页模式。 D.JPEG2000颠覆了JPEG只能是有损压缩的传统。 2.在电子文件管理中,下列格式中属于电子公文存储通用格式的是(ABD)P96

国内外元数据

元数据格式汇总iii 1. DC(都柏林核心元数据) 2. CDWA(艺术作品描述目录) 3. V AR Core(可视资源委员会核心元数据) 4. CDF(频道定义格式) 5. ROADS元数据(主题信息服务的资源组织和发现) 6. IEEE LOM(IEEE学习对象元数据) 7. BibTex(科技文献书目资源格式) 8. GEM(教育资源网关) 9. CIMI(博物馆信息计算机交换标准框架) 10. REACH元数据格式 11. EAD(编码文档描述) 12. ONIX(在线信息交换) 13. EELS(工程电子化图书馆) 14. EEVL(爱丁堡工程虚拟图书馆) 15. FGDC(联邦地理数据委员会) 16. GILS(政府信息定位服务) 17. MARC(机读目录格式) 18. MOA2(美国的创建II) 19. MCF(元内容框架) 20. PICA+(荷兰图书馆自动化中心) 21. PICS(网络内容选择平台) 22. TEI Header(文本编码先导计划) 23. SOIF(概略对象交换格式) 24. IAFA/WHIOS++Templates(因特网匿名FTP文件库版式) 25. ICPSR SGML Codebook(政治和社会研究方面的校际联盟) 26. LDAP DIF(轻便型目录获取协议) 27. RFC 1807(书目记录格式) 28. URCs(统一资源特征) 29. SGML(通用标准标记语言) 30. Warwick Framework(Warwick框架) 31. Web Collections(网站集合) 32. XML(可扩展标记语言) 33. RDF(资源描述框架) 1.DC(都柏林核心元数据) 名称:Dublin Core Metadata,DC

元数据管理方案

元数据管理方案 元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word PDF XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。

元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/ 密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 编目处理 现阶段,主流格式的电子文档,主要包含:word、excel 、ppt 、pdf 等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。

4电子文件通用元数据规范

电子文件元数据标准 (征求意见稿) 1.范围 本标准适用于各级机关、团体、企事业单位、社会组织。本标准规定了电子文件元数据的结构、定义、编码体系。 本标准描述的数字对象为通用的电子文件核心元数据,主要为原生电子文件与数字化文件(文本、图像)元数据。根据发展需要,扩展编制图形、影像、声音等文件类型的元数据标准。 2.编制目的 2.1 对文件及相关实体进行标准化描述; 2.2 实现不同机构、不同系统之间文件及信息的互操作; 2.3 为电子文件在不同时间、不同空间、不同应用软件中的再利用提供统一的元数据; 2.4 为电子政务、办公自动化、电子文件中心、文档管理、档案管理等系统提供成熟的电子文件全过程管理的设计模式。 3.规范性引用文件 下列文件中的条款,通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。 GB/T 2659-2000 世界各国和地区名称代码 GB/T 2260-2002 中华人民共和国行政区划代码 GB/T 11714-1997 全国组织机构代码编制规则 GB/T 9704-1999 国家行政机关代码编制规则 GB 2312-1980 信息交换用汉字编码字符集基本集 GB/T 4880-1991 语种名称代码 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 4881-1985 中国语种代码 GB/T 3792.1-1983 文献著录总则 GB/T 13959-1992 文件格式与代码编制方法 GB/T 15418-1994 档案分类标引规则 GB/T 3760-1995 文献叙词标引规则 GB/T 9704-1999 国家行政机关公文格式 GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充 GB/T 18894-2002 电子文件归档与管理规范 GB/T 7156-2003 文献保密等级代码 GB/T 19667 基于XML电子公文格式规范 DA/T12-1994 全宗卷规范 DA/T13-1994 档号编制规则 DA/T18-1999 档案著录规则 DA/T 19-1999 档案主题标引规则 DA/T 22-2000 归档文件整理规则 DA/T 1-2000 档案工作基本术语

元数据管理实施方案

元数据管理实施方案

————————————————————————————————作者:————————————————————————————————日期:

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统

一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理 现阶段,主流格式的电子文档,主要包含:word、excel、ppt、pdf等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。 ●保存元数据 采集后的数据要放到数据库或者保存到硬盘上,另外要根据目录体系标准,把数据分解为元数据,然后进行存储 1.1.4数据库元数据抽取 数据中心需要抽取的数据库类型主要为Sql server,首先利用ETL工具从源数据库中将所需数据抽取至中心数据库基础业务库中,在利用元数据著录工具对抽取出来的数据进行元数据著录。

进馆电子档案元数据规范

进馆电子档案元数据规范 (一)基本描述信息(约束:必选) 按照《文书档案目录数据规范第1部分:数据元》(DB31/T386.1-2006)、《照片档案管理规范》(GB/T 11821—2002)以及国家和本市专门档案管理的有关规定确定元数据。 (二)电子特征信息(约束:可选) 1、电子档案名称(标识:name of electronic record;数据类型:字符型;著录规则:主名.扩展名,主名中不能包含“半角空格符”、“.”(半角点),例:N543.PDF;约束:必选),用于记录计算机存储的电子档案名称。此项由处理人员人工选择或由计算机自动生成。 2、稿本(标识:version of electronic record;数据类型:字符型;指定值:草稿、第n次修改稿(n代表阿拉伯数字1、2、3……,例如:“第2次修改稿”表示某电子文件的第二次修改稿)、底稿(也称留真稿,指保留电子文件历次修改痕迹的稿本)、送审稿、定稿、发文稿、文件处理单、抄告单、领导批示……;约束:必选),用于记录重要电子文件草稿、历次修改稿或定稿等的版本说明。此项由计算机自动生成。 3、室编电子档案号(标识:reference code of

electronic record use in file office;数据类型:字符型;约束:必选),用于记录立档单位在管理电子档案时,赋予电子档案的一组符号代码。 4、馆编电子档案号(标识:reference code of electronic record;数据类型:字符型;约束:可选),用于记录立档单位在管理电子档案时,按照进馆要求赋予电子档案的一组唯一符号代码。以“件”方式整理的该号由“全宗号-年度-保管期限代码-件号-电子流水号”组成。立卷方式整理的以“全宗号-目录号-案卷号-件号-电子流水号”组成。件号即纸质文件的排列顺序号;电子流水号即电子档案的排列顺序号,一般由计算机自动生成。此项由处理人员人工选择或由计算机自动生成。 保管期限代码编码规则如下: 1—永久 2—长期 3—短期 4—30年 5—10年 5、容量(标识:size;数据类型:数字型;著录规则:直接著录数字,单位为字节(B);约束:可选),用于记录电子档案所占的计算机存储空间大小。此项由计算机自动生成。

网页电子文件元数据XML Schema

附录A网页电子文件元数据XML Schema A.1 网页电子文件元数据的XML Schema结构图。 网页电子文件元数据的XML Schema结构图见图A.1-1、图A.1-2。 因为纸张幅面的限制,故将结构图分成两页进行显示。

图A.1-1 网页电子文件元数据的XML Schema结构图(上半部分)

图A.1-2 网页电子文件元数据的XML Schema结构图(下半部分)

A.2 网页电子文件元数据的XML Schema

大亚湾核电站电子文档元数据著录研究

大亚湾核电站电子文档元数据著录研究 作者:廉旭姣 来源:《办公室业务(上半月)》 2019年第12期 文/生态环境部核与辐射安全中心廉旭姣 【摘要】元数据在核电站电子文档管理中占据着重要地位,电子文档元数据描述了电子文 档的内容、属性、背景和结构等信息,较全面地反映描述对象的全过程,便于电子文档的检索、存取、利用以及信息共享等。大亚湾核电站电子文档的元数据,能够较好地解决电子文件的真 实性、完整性和长期可用性,提升电子文档管理和开发利用的效率,是实现电子文档凭证价值 和参考价值的重要工具。 【关键词】电子文档;元数据;著录 大亚湾核电站的文档管理贯穿于核电生产活动中的各个方面,根据HAF040《核电厂质量保 证安全规定》的要求,必须按照书面程序和指令建立和执行有关质量保证记录的产生、鉴别、 收集、标引、立卷、存放和处理的制度,必须在质量保证大纲实施过程中编写质量保证记录, 以证实核电厂已经按照特定要求完成影响质量的各项活动。为此,大亚湾核电站制定出了严格 的文档管理体系,具体的工作大致分为文档控制、文档管理和文档服务,从文件的产生、生效、分发、使用、记录报告的收集等各个环节进行了文件控制管理。为了有效地运作文件管理体系,依据《核电电子文件元数据》NB/T20418-2017的要求,分析大亚湾核电站文档管理元数据著录 的规范。 一、元数据标准体系 元数据标准体系由元数据标准框架、根据元数据标准框架扩展出来的专门元数据标准以及 对应的元数据标准管理系统和元数据著录系统构成。其中,元数据标准框架又由核心元数据标 准和它的扩展原则构成。它们之间的相互关系如图所示。 二、元数据元素定义方法 元数据表中各个元素都用13个属性进行描述:1.编号:按一定规则排列的元数据的顺序号。 2.中文名称:元数据元素的中文标识。 3.英文名称:元数据元素的英文标识。 4.定义:元数据 元素含义的描述。元数据的一般定义是关于数据的数据(data?about?data)。详细来讲,元数据是指提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用是 描述信息资源或数据本身的特征和属性,规定数字化组织,具有定位、发现、证明、评估、选 择等功能。标识信息是指:根据文档的来源信息,为科学、有序地管理文件及档案而赋予文档

软件工程标准规范

CreatMap 地理信息共享服务云平台软件工程标准规范 河北省制图院 2015年1月30日

1.前言 1.1项目背景 当前,我国国家信息化建设与应用不断深入,网络化地理信息应用如同雨后春笋,政府部门和社会大众使用地理信息的方式与频率正发生翻天覆地的变化。针对这一重大应用需求,国家测绘局认真学习和贯彻落实科学发展观,做出了建设国家地理信息公共服务平台(以下简称“公共服务平台”)的战略性决策。 CreatMap 地理信息共享服务云平台是河北省地理信息局下属的河北省制图院自主研发的并拥有自主知识产权的新一代地理信息公共服务平台,平台以促进地理信息服务大局、服务社会、服务民生为目标,为政府、企事业单位、社会公众提供统一、高效的基础地理信息服务。 1.1.1软件系统名称 CreatMap 地理信息共享服务云平台,是依托地理信息数据,通过在线方式满足政府部门、企事业单位和社会公众对地理信息和空间定位、分析的基本需求,具备个性化应用的二次开发接口和可扩展空间,是实现地理信息应用服务功能的数据、软件及其支撑环境的总称。 1.1.2政策依据 1) 《国务院关于加强测绘工作的意见》(国发[2007]30号):要切实提高测绘保障能力和服务水平,构建基础地理信息公共平台,更好地满足政府、企业及人民生活等方面对基础地理信息公共产品服务的迫切需要。

2) 《全国基础测绘中长期规划纲要》(2006年国务院批准发布):到2010年,我国形成一批具有影响力的基础测绘公共产品;到2020年,要实现服务网络化社会化。国家测绘局在《测绘事业发展第十一个五年规划纲要》中指出要以地理信息为基础平台整合社会、经济和人文等信息,促进各类信息资源的共享和高效开发利用,到2010年初步实现基础地理信息服务网络化。 3) 国务院办公厅“关于促进我国国家空间信息基础设施建设和应用若干意见”(国办发2001-53号):要求各级测绘部门与当地发展计划等有关部门配合,共同推进本地区地理空间信息协调机制的建设,解决好地理空间信息资源条块分割、封闭管理等问题。注重发挥测绘部门的整体优势,实现与同级政府部门的网上适时数据传输与服务,促进地理空间信息设施的合理布局和高效利用,避免盲目投资和重复建设。 4) 《中办国办公转发<国家信息化领导小组关于推进国家电子政务网络建设的意见>的通知》(中办发[2006]18号):要求各部门建设基于广域网络的信息系统,应首先使用国家统一建设的电子政务网络,不得独自新建或租用商用广域网络链路。 5) 《国家地理信息公共服务平台建设专项规划》(国家测绘局2010年10月):要求各级测绘部门全力做好“公共服务平台”的建设工作,到2015年初步完成国家级节点和有条件省、市节点的建设,到2020年在全国范围内推广和应用。 6) 国家测绘局《关于推进国家综合减灾和风险管理信息共享平台建设建议的函》(国测函[2008]100号):向国务院应急办、国家减灾委办公室提出把地理信息公共平台作为国家综合减灾和风险管理信息共享平台建设的重要内容,加快推进地理信息公共平台建设。

电子文件元数据自动采集的原则与实施路径研究

电子文件元数据自动采集的原则与实施路径研究 摘要:本文通过理论研究与实证分析,进一步论证了元数据是电子文件管理的命脉,是电子文件真实性、可靠性、完整性与可用性的重要保障,是对电子文件实施前端控制和全程管理的关键,是实现自动化管理和智能分析的重要基础;同时展示了对《文书类电子文件元数据方案》的实施与拓展,对元数据实现自动采集的需求分析、原则与思路以及具有可操作性的研究成果。 关键词:电子文件元数据自动采集 本文系“电子文件元数据自动采集与智能分析实证研究”的项目成果。通过探讨理论架构并系统实施电子文件元数据自动采集,实现标准化、自动化管理,全面提升机构电子文件管理水平,同时为电子文件内容信息智能分析奠定基础;通过智能分析研究,充分挖掘隐含在电子文件内容信息中的知识关联,深度开发,支持决策。 一、元数据自动采集需求分析 元数据是描述文件背景、内容、结构及其整个管理过程的数据。不同于传统意义上的著录,元数据内涵更丰富,功能更全面,要求更严格,不可能由档案管理人员在文件归档后进行著录,更不可能由形成机构文件管理人员或业务人员手工录入。元数据需要全程规划,需要嵌入系统,需要实时自动采集,需要真实、动态地再现电子文件管理的背景信息及过程信息。实现元数据自动采集,是元数据自身管理的要求,也是形成机构实际业务的需求。 (1)元数据管理要求 国际标准《信息与文献电子办公环境中文件管理原则与功能要求》(ISO 16175 1-3)一再强调,文件管理元数据(metadata)包括“识别、认证文件和文件背景关联等信息以及生成、管理、维护和使用文件的人员、流程和系统的信息,文件管理政策”。只有伴有界定了关键特征元数据的文件才是真实有效的文件,这些特征必须被清晰地记录下来。元数据在文件捕获点上对文件进行详细说明,固化文件与其业务背景的关联,对文件实施管理控制。在整个生命周期中,新的元数据不断伴随业务的开展、提供利用而持续增加,以长期保证真实性、完整性、可靠性、可用性,使得对文件的管理成为可能。 在电子文件管理系统中必须实现元数据的有效管理。电子文件管理系统(ERMS)作为专门用于对文件的维护和处置予以管理的系统,具有如下属性:在背景中生成文件;管理和维护文件;依据要求的时间长度维护文件;文件管理元数据要可以设定。

CJJT 187-2012 建设电子档案元数据标准

刖B 根据住房和城乡建设部《关于印发〈2008年工程建设标准规范制订、修订计划(第一批)〉的通知》(建标[2008]102号)的要求,标准编制组经过深入的调查研究,认真分析总结国内外科研成果,结合实践经验,并在广泛征求意见的基础上,编制本标准。 本标准的主要技术内容是:1.总则;2.术语;3.基本规定;4.元数据内容;5.元数据扩展;6.元数据管理。 本标准由住房和城乡建设部负责管理,由住房和城乡建设部城建档案工作办公室负责具体技术内容的解释。执行过程中如有意见或建议,请寄送住房和城乡建设部城建档案工作办公室(地址:北京市海淀区三里河路9号,邮政编码:100835)0本标准主编单位:住房和城乡建设部城建档案工作办 公室 珠海市城市建设档案馆 本标准参编单位:深圳市世纪伟图科技开发有限公司 珠海市建设工程质量监督检测站 南京市城市建设档案馆 大连市城市建设档案馆 上海市城市建设档案馆 本标准主要起草人员:蒋仕鹊姜中桥李琦张志敏 周健民黄春晓陈澈沆崔丽梅 王策高雅刘静 本标准主要审查人员:王毅刘越男刘家真潘世萍 冯丽伟蔡学美张斌秦屹梅 权进立李宗波赵淑芳 4

目次 1总则 (1) 2术语 (2) 3基本规定 (4) 4元数据内容 (6) 4.1元数据元素集 (6) 4.2文件实体 (6) 4.3业务实体 (18) 4.4责任者实体 (23) 4.5关系实体 (29) 5元数据扩展 (32) 6元数据管理 (33) 附录A元数据元素表 (34) 本标准用词说明 (37) 引用标准名录 (38) 5

Contents 1General Provisions (1) 2Terms (2) 3Basic Requirements (4) 4Contents of Metadata (6) 4.1Element Set of Metadata (6) 4.2Record Entity (6) 4.3Business Entity (18) 4.4Agent Entity (23) 4.5Relationship Entity (29) 5Extension of Metadata (32) 6Management of Metadata (33) Appendix A Form of Metadata Elements (34) Explanation of Wording in This Standard (37) List of Quoted Standards (38) 6

相关文档
最新文档