数据元的规范与标准化框架

数据元的规范与标准化框架
数据元的规范与标准化框架

数据元的规范与标准化框架

数据表示和管理的基本概念

.数据元

数据元是称之为数据的一个广义概念的特殊成员。总而言之,数据是事实、想法或命令的一种表示数据被收集、组织、记录、处理和存放在一个可检索的表中。数据还必须适用于以人工或自动方式进行交换、解释及加工处理。

有许多结构用于数据组织与管理,如数据合成、实体、文件、对象类、对象、记录、关联、关系、行、段、主体域、表以及元组。它们与数据元并不具有相似性,但可以包括或通过一些数据库实现或逻辑建模来等同于数据元的支持。

字节和位也是数据的构件,尽管它们被用于电子媒体中数据元的注册,但并不等同于数据元。在数据库中,数据元可以作为信息组(符号组、域)或字符列来处理。在的数据模型中,它是一个属性(见图)。在某特定的相关环境中被视为不可分割时,一个数据元则被作为一个单独的数据单位在自然界中,它是数据的单位,表示关于对象类的单独事实。(如:一个被赋值“”和“”的字符码表示了“雇员”这一对象类的婚姻状态的属性)。在其使用范围内,它不可能被分解为更多且具有有用含义的基本信息组。因而,数据元可被定义为在用户论述领域内是与用户相关的。数据元是自然界中对象类特性以电子或书面形式的表示。

表示

一个特性可由能够被人们解释的某一符号集来体现。一个单独的特性可由几个交替的数据元甚至数据元组(通常称之为数据合成,有时也称之为数据元集或数据元链)来表示。这样,一个特性可以由数据元组构成的数据合成或一个单独的数据元表征。

常用法

所有数据从业者和理论家都会涉及数据元的概念。无论用什么方法或技术,数据元都是整个软件开发生命周期()的公用纽带。在的早期阶段,它们曾被视为实体(或对象类)的属性在的后期,具体的数据值被赋予它们的实例作为符号组或字符列。在的任一阶段,对于软件的生产者和用户来说,数据元是可识别的数据元是数据共享和共同持有的最小单元。一些数据元得以共享的信息系统成分有)企业信息模型)数据模型)数据流程图)数据库设计(模式、文件、表格))接口规范)计算机程序

1.2.1数据模型中的数据元

在数据建模出现之前,“数据元”这个术语已被普遍使用。用于表示指导企业商务信息的数据单元传统上被称之为数据元。数据建模的演进就是为捕捉这些数据表示的语义提供一种有效的方法。图描述了用于中的数据元结构和术语与一些更为传统数据建模术语的关联在一个

数据模型中,一个实体(实体类型、对象类等)的某个特性的属性会被企业选择记录为数据。对每个实体,通常有许多属性会引起企业的兴趣。数据模型和对象模型(面向对象定向范例中)用于识别兴趣体(实体或对象)应用相关环境中的诸多事物。属性提供关干这些实体和对象使用所需的信息。用于整个自动化信息系统环境的数据元是面向对象范例中这些实体或对象以及它们属性的表示。产生于数据模型的数据元的名称的典型形式是实体

名称和实体属性名称的合成(图).

数据元名称大体上是以同样方式产生的。在对象模型中,类或对象名称与类或对象属性混合使用以形成数据元名称(图)。对象模型不同于数据模型的地方在于:前者可包含有关对象或类的附加信息,如行为或运行

在数据模型或对象模型中,一个属性经常等同于一个数据元(见图)。它是自然界中对象某个类单个特性的表示。而另一类思路是将对象类特性的概念与特性的表示分隔开来。由于数据元包含了示,人们不必依靠其在数据库、屏幕和纸张等中的表示就可以了解其隐含的思想,因而将其隐含思想隔开来是合理而又明智的。这与那些将属性看作与值域有关,而不是属性具有值域的数据建模技术是一致的。

在某些情况下,如度量单位,属性与数据元间存在着明显的差异。例如:‘旧期”是时间连续区上用来度量最近一天的一个点。这样,它可以被看作一个单独的事实并用一个单独的属性表示在一个数据模型中。但是,有好几种方式来表示一个日期。在美国,最常用的是:月的名称、一月中的天数和年数。它们是三个数据元。然而,同样的日期事实可以过去某确定日期后所流逝的天数这样一个单独的数据元来表示(如天文学家就使用儒略历)。许多单独事实可以用多于一种度量衡单位来表示,既可用英制表示,也可用公制来表示一个数据元概念上的等同体被称之为:属性、特性、数据元概念、逻辑数据元和商务事实。在此,它是作为一个特性来论及的,以区别于人们通常所说的属性(一般包括其表示形式)。这样,特性就成了某个对象类所有成员共有的特征。特性可以用一个例子来解释。假设一棵树是自然界中我们感兴趣的对象。但是,我们关心的是任一棵树,而不是某棵具体的树。树的特征中我们感兴趣的是其高度。树高就是一个对象类加上一个特性(数据兀概念),但还不是一个数据元,因为合适的表示形式尚未阐明。我们可以从多个度量高度的方式中选择一个来表示树高

相对于特性,人们更倾向于用特性类这个术语来命名数据元那个方面。对象中的一类如:人

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

银监会监管数据标准化报送系统EAST30

附件1: 监管数据标准化报送系统升级(EAST3.0)需求说明书 广西北部湾银行股份有限公司 2017年4月

1.系统建设背景 为了更规范的进行金融机构进行监管数据标准化的报送工作,并对国内的银行业金融机构在监管数据标准化报送规范层面进行统一,银监会于2017年3月发布了《中国银监会办公厅关于印发银行业金融机构监管数据标准化规范的通知》及相关说明附件,将国内银行业金融机构的监管数据标准化工作进行统一与规范,通知要求国内各银行业金融机构需要按照该发文的要求,进行数据的全面梳理、映射、采集、检核和上报。 2.系统建设价值 根据银监会通知要求,该系统将于2017年7月在全国范围内正式上线运行,能否在规定的时间内完成银监会监管数据标准化报送系统及相关业务系统的改造,建立一个功能完善、高效率的监管数据标准化报送系统,将直接影响到我行日后与银监会之间日常报备工作的顺利开展。 3.系统建设目标 根据《中国银监会办公厅关于印发银行业金融机构监管数据标准化规范的通知》的有关要求以及我行的接口要求,建设EAST数据采集

报送系统,帮助我行(包括我行的所有村镇银行)及时、完整、准确地完成监管数据标准化的报送要求,保证报送质量,提升管理水平,并促进行内业务数据改良以及监管统计分析工作。 建成后系统报送表单如下:

4.我行相关系统描述 我行应用系统总体架构主要分为:业务支撑应用、客户服务渠道、企业管理应用等几大部分。目前已实现的应用系统有: 业务支撑系统:包括核心业务系统、信贷业务系统、综合前置及多渠道接入系统、资金业务系统、理财系统、国际结算系统、贷记卡系统、中间业务平台等;

中文数字化期刊的dc 元数据标准设计实例情报科学vol1 21no1 6

中文数字化期刊的DC 元数据标准设计实例 刘廷元 (西南石油学院图书馆,成都610500) 摘 要 文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论 述。研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的 DC 元数据定义与限定;最后,提供了一个用DC 111元数据和H TM L 410语法设计的中文数字化期刊元数据 标准实例。 关键词 元数据 标准 数字化期刊 中文期刊 设计 中图分类号 G 35311 文献标识码 A 文章编号 100727634(2003)0620609204 An Exam ple of the DC M etada ta Standard D esign for Ch i nese D ig ita l Journa ls L iu T ingyuan (L ib rary of Sou thw est Petro leum In stitu te ,Chengdu 610500) Abstract T h is article deseribes the u se of m etadata standards as a viab le m ean s fo r shared resou rces among vari ou s differen t digital j ou rnalw arehou ses .O u r study concen trates on th ree con ten ts :F irst ,the article discu ssed under the necessity of u sing the m etadata standard in digital j ou rnals .Second ,the article discu ssed the sem an tic defin iti on and li m itati on of the DC elem en t set fo r digital j ou rnals .F inally ,w e p rovided the m etadata standard of the Ch inese digital j ou rnals and an examp le of the design w ith the DC 1.1m etadata and H TM L 4.0syn tax . Keywords M etadata Standard D igital Jou rnal Ch inese Jou rnal D esign 收稿日期:2002-09-09 数字化信息的结构化存储、有序化组织和高效、准确的 检索,是数字化图书馆与商业数据库共同面临的一个问题。由于WWW 空间的无限扩大,使得解决全球信息资源的无组织问题更加迫切。目前,因特网上既有OCL C 、U nCover 那样庞大的数字化期刊服务,也有BaderL ine 、EBSCO ho st 、P roQ uest D irect 、Sp ringer 数字化期刊、CN K I 中国学术期刊网、维普中文科技期刊、万方中国数字化期刊网这样新兴的数字化全文期刊数据库服务,以及不断增加的上千种的网上出版期刊。然而,这样巨大的期刊信息资源仓储却是以异构方式存在的,它们提供各自不同的信息存储、组织、检索与浏览方法,不能实现跨仓储的统一查找利用,造成了极大的信息资源浪费。 因特网上分布式的异构数字化期刊仓储如同一个没有索引卡片的传统图书馆。但是,如果我们为这些数字化期刊的信息存储、组织、检索与浏览加上一个无形的统一索引目录——元数据标准,网上数字化期刊就会成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找,使期刊文献检索的查全率和查准率大大提高,从而极大地方便广大读者和用户。 1 数字化期刊采用DC 元数据标 准的必要性 大多数数字化期刊(尤其是全文期刊数据库)都习惯采用自己特有的数字信息储存、检索技术,人为地使自己的产品在使用方式、字段、接口设计等方面造成差异和封闭。强调产品的差异性而又不遵守统一的制作标准与规范,谋求利润最大化而又自我封闭,这就是数字化期刊制作与出版过程中普遍存在的二律悖反现象。正是由于这种分布式的异构与封闭,才阻碍了当今信息资源的透明、公开、可扩展、互操作性、组织性和规模化建设,使数字化期刊在当今知识经济时代难以受到人们更多的喜爱。 具体地说,数字化期刊采用元数据标准的必要性主要有以下四个方面。 (1)元数据描述能够为数字化期刊建立一种计算机普遍 可以理解的框架体系,使数字化期刊资源得以透明、公开。因为元数据描述了数字化信息的内容、权利和外部环境这些基本特征,使得计算机系统可以自动辨识、抽取、分析和整合,进而使得数字化期刊信息简单、有效的被其它信息资源仓储利用。 (2)元数据的描述、标识和语法能够融入因特网通用的 语言中,被迅速地装载或转换进各种索引数据库,使数字化期刊资源具有可扩展和互操作性。一方面,建立在通用标记语言(SG M L )和扩展标记语言(X M L )之上的元数据语言,是国际互联网的通用语言,能够非常方便地被相同的元数据语言装载。另一方面,即使是对于各种不同数字化期刊仓储类型的元数据体系,只要我们以W F 和RD F 为基础,通过语 第21卷第6期 2003年6月     情 报 科 学   V o l 121,N o 16June, 2003

数据标准化处理

在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。 步骤如下: 1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; 2.进行标准化处理: zij=(xij-xi)/si 其中:zij为标准化后的变量值;xij为实际变量值。 3.将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 三、Decimal scaling小数定标标准化 这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A

CELTS-42基础教育教学资源元数据规范1

基础教育教学资源元数据应用规范 (CELTS-41) 教 育信息化技术标准 CELTS-42 基础教育教学资源元数据规范 CELTS-42 CD1.6 教育部教育信息化技术标准委员会 发布

目录 1 概述 (2) 1.1 目的 (2) 1.2 范围 (2) 2 规范性引用文件 (2) 3 术语定义与缩略语 (3) 3.1 本应用规范使用的基础术语 (3) 3.2 缩略语 (5) 4 元数据元素属性定义 (6) 4.1 元数据元素的属性描述 (6) 4.2 数据元素定义的规定 (7) 5 元数据结构 (7) 5.1 元数据的基本结构 (7) 5.2 元数据元素及定义 (7) 6 限定词汇与编目词汇表 (11) 6.1 限定词汇 (11) 6.2 本规范的限定词与编目方式定义 (14) 6.3 受控词汇和编目方案 (22) 6.4 一致性 (29) 7 参考文献 (31) 附录 A 供参考的部分教育学科课程分类第三级词汇表(课程内容) (33) A.1 语文课程内容分类 (33) A.2 数学课程内容分类 (34) A.3 英语课程内容分类 (37) A.4 地理课程内容分类 (38) A.5 历史课程内容分类 (39) A.6 化学课程内容分类 (40) A.7 物理课程内容分类 (43) A.8 生物课程内容分类 (48) A.9 信息技术课程内容分类 (49) A.10 音乐课程内容分类 (50) A.11 美术课程内容分类 (50)

CELTS-42基础教育教学资源元数据规范 1 概述 1.1 目的 本规范提供一个面向基础教育的教学资源数据模型。制定本规范旨在对希望在学校、企业、其他机构和个人的教学资源中使用元数据的用户提供一套资源编目准则,以使读者能快速、有效地在国家基础教育资源库及门户网站中检索到所需的教学资源,广泛地实现资源共享。 1.2 范围 本规范在《CELTS-3学习对象元数据:信息模型规范》(以下简称《学习对象元数据规范》)的基础上,结合我国基础教育的实际,定义了一组面向基础教育的教学资源元数据元素。 本规范依照教育部颁布的《义务教育课程设置实验方案》、《义务教育各学科课程标准(实验稿)》以及《学习对象元数据规范》,同时参考《都柏林核心集元数据(DCMES)》、《中国图书馆图书分类法》、美国GEM项目及澳大利亚EdNA项目的词汇分类方法,定义了一组用于元数据元素编目的受控词汇及相应的词汇表。 本规范通过与《学习对象元数据规范》的元素间映射来实现与CELTS的一致性。 本规范包括﹕ ?概述 ?规范性引用文件 ?术语定义与缩略语 ?元数据元素属性定义 ?元数据结构 ?限定词汇及编目词汇表 ?一致性 ?参考文献 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本应用规范的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本应用规范。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本应用规范。 ?ISO 639:规定人类语言表示方法的国际标准。 ?ISO 646:规定ASCII字符集的国际标准。 ?ISO 8601:规定日期和时间表示方法的国际标准。 ?ISO 3166:规定国家名称表示方法的国际标准。

《公用数据元目录》标准

科学数据共享通用标准培训系列教材 《公用数据元目录》标准 培训教材 科学数据共享工程办公室 2005年12月

目录 目录.................................................................................................................................- 2 - 一、编制背景.....................................................................................................................- 3 - 二、编制思路.....................................................................................................................- 3 - (一)、国内外数据元标准化情况............................................................................- 4 - (二)、本标准的解决思路........................................................................................- 4 - (三)、本标准的解决方案........................................................................................- 5 - (四)、本标准与其他标准的关系............................................................................- 5 - (五)、本标准的适用范围........................................................................................- 6 - 三、标准总体结构.............................................................................................................- 6 - 四、标准内容要点解析......................................................................................................- 7 - (一)、范围...............................................................................................................- 7 - (二)、术语和定义....................................................................................................- 7 - (三)、数据元的表达格式........................................................................................- 8 - (四)、数据元值的表示方法....................................................................................- 8 - (五)、数据元分组..................................................................................................- 10 - (六)、数据元目录..................................................................................................- 11 - (七)、数据元维护与管理......................................................................................- 11 - (八)、数据元索引..................................................................................................- 11 - 五、标准使用...................................................................................................................- 12 - (一)、数据元目录系统的建立..............................................................................- 12 - (二)、数据元注册系统的建立..............................................................................- 13 - (三)、领域公用数据元目录的制定......................................................................- 13 - (四)、常见问题.........................................................................................................- 19 -

企业数据标准化

1.1 企业级数据标准化 1.1.1 建立企业级数据标准化原则 企业数据标准化的建立是企业信息化的基础工作,提高了数据的共享性,为广东电网公司提供了统一的信息视图、数据规范及符合电力行业标准的编码标准。建立广东电网公司数据信息资源的统一标准化管理的原则可以包括: ?统一标准的数据定义:减少数据定义的二义性; ?统一标准的企业数据模型:该企业数据模型必须是一个全企业范围的定义库,能适跨应用、跨业务地完整表述企业数据的统一的完整数据视图; ?统一标准的存储管理:统一规划使用存储资源,提高存储资源使用效率; ?统一标准的性能管理:根据实际业务需求,合理分配资源,确保对数据的访问性能能够满足业务的需要; ?统一标准的数据质量管理:数据管理需要通过应用标准方法论和原则,实现对有价值的商业信息和数据进行完整的生命周期的管理,从而支持广东电网公司的业 务。 ?其它管理:提供对数据的其他统一标准化管理,包括统一编码标准; 企业级数据标准的制定是一个系统工程,涉及到多方面的原因,成功的因素主要包括如下几点: ?高层领导参与:为了实施跨部门、跨功能的企业数据标准,驱动企业高层领导的支持是势在必行的; ?清晰的范围界定:大规模的企业数据标准化工作往往因为人为因素和组织冲突而宣告失败。而范围界定清晰的、分步走的、具有可测量结果的企业数据标准化实 现方案能在短期内提供业务价值; ?企业数据模型设计的稳定性:稳定性并不意味着企业数据模型的一成不变;相反,大多数的变化应该不需要任何人去重写应用系统; ?数据小组的能力:跨业务的数据整合体现了企业数据模型的主要价值,需要有小规模的、训练良好的、灵活的建模小组和事务专家。

元数据与元数据标准现状

元数据与元数据标准现状 福建省空间工程研究中心黄瑞垠 目前国内外研究领域对元数据含义的理解虽然存在认识深浅的区别,但总体上达成了共识[[i]]。学者们大都认可“元数据是关于数据的数据”或“描述数据的数据”的观点,但对于其具体含义,又有不同阐述。张晓林等[[ii]]认为“元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源、评价资源、追踪资源在使用过程中的变化,实现简单高效地管理大量网络化数据,实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理”。肖珑[[iii]]认为元数据“是用于提供某种资料的有关信息的结构化数据(Structured data)”。张智雄[[iv]]将元数据定义为“描述任何Internet数据和资源,促进Internet信息资源的组织和发现的数据”。李郎达[[v]]引用国际图联对元数据的定义:“Metadata即描述资料的资料,可用来协助对网络电子资源的辨识、描述、指示其位置的任何资料”。 根据以上定义,参考其他学者的观点,关于元数据,可小结如下: (1)元数据的目标:元数据的根本目标是使数据库更易于使用,或为计算机辅助软件工程(CASE)服务。 (2)元数据的内容:元数据包括对数据集的描述;对数据集中各数据项(来源、数据所有者、数据生产历史)等的说明;数据质量的描述,如:数据精度、分辨率、源数据的比例尺等;数据处理信息,如量纲的转换等;数据转换方法;数据库更新、集成的方法等等。 (3)元数据的性质:元数据是数据的描述性数据;对不同领域的数据库,元数据的内容有很大差异;元数据应尽可能反映数据的特征及规律。 (4)元数据的作用:通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。 在此基础上,我们将元数据概括为以数据高效利用和交换为目的的数据集说明性数据,它主要包括对数据集、与数据集相关信息、数据集各数据项说明以及数据用户访问、检索、更新数据库的方法,同时元数据也包括基于不同数据领域,如何尽可能全面反映基本数据的信息。

国家基础地理信息系统元数据标准(草案)

国家基础地理信息系统(NFGIS)元数据标准草案(初稿) 1. 主题内容与适用范围 本标准提供国家基础地理信息系统(NFGIS)元数据的内容,包括NFGIS数据的标识、内容、质量、状况及其他有关特征。本标准可用于对NFGIS数据集的全面描述、数据集编目及信息交换网络服务。 2. 参考标准 ISO 15046-15地理信息--元数据(CD 2.0) FGDC 地理空间数据元数据内容标准(CSDGM)v.2.0 3. 术语 3.1 元数据 是关于数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据。 3.2 元数据元素(元数据Element) 元数据最基本的信息单元。 3.3 元数据实体(元数据Entity) 同类元数据元素的集合。 3.4 元数据子集(元数据Section) 相互关联的元数据实体和元素的集合。 3.5 信息交换网络(Clearinghouse) 数据生产者、管理者和用户之间的分布式、电子连接的网络。 3.6 数据志(Lineage) 数据继承信息,包括获取或生产数据使用的原始资料说明、数据处理中的参数、步骤等情况及负责单位的有关信息等。 3.7 引用文献(Citation) 数据集引用或参考使用的资料、数据集、模型、文献等。 4. NFGIS 元数据层次结构和性质 4.1 元数据层次结构 本标准规定NFGIS元数据分为三层:元数据子集、元数据实体和元数据元素。 元数据元素是元数据的最基本的信息单元,元数据实体是同类元数据元素的集合,元数据子

集是相互关联的元数据实体和元素的集合。在同一个子集中,实体可以有两类即简单实体和复合实体,简单实体只包含元素,复合实体既包含简单实体又包含元素,同时复合实体与简单实体及构成这两种实体的元素之间具有继承关系。 4.2 元数据性质 本标准定义三种性质的元数据子集、实体和元素: 必选(Mandatory)──元数据的核心内容,适用于各种被描述对象,是元数据文件必须包含的子集、实体或元素。 一定条件下必选(Conditional )──针对不同的被描述对象特征元数据文件所必须提供的子集、实体或元素。 可选(Optional)──该子集、实体或元素是可选的,由用户决定是否将其包含在元数据文件中。 5. NFGIS 元数据分级和特征 5.1 元数据分级 本标准规定元数据分为两级,即: 基本元数据──提供地理数据源基本文档所需要的最少的元数据元素集。它包括回答下列问题的元数据元素: "是否有特定主题的数据集('什么')?"、"是否有特定地区的数据集('何处')?"、"是否有特定时段的数据集('何时')?" 以及"订购或了解数据集更多情况的联系人('谁')? 完全元数据──提供完整的地理数据源(单独的数据集、数据集系列、各种地理要素)文档所需要的必选的和可选的元数据元素集。它完整地定义全部元数据,以便标识、评价、摘录、使用和管理地理信息。 5.2 元数据特征 本元数据标准定义了8种特征: 5.2.1 名称 赋给元数据实体或元素的标记。 5.2.2 标识码 计算机中使用的定义每个元数据实体和元素的唯一代码。代码结构为: xx xx xx 前两位为元数据子集,两位数字码 中间两位为元数据实体/独立元素,两位数字码 后两位为元数据实体包含的元素,两位数字码

科学数据规范化分析与管理

科学数据规范化分析与管理
中国科学院计算机网络信息中心 胡良霖 2008年05月

提纲
1. 2. 3.
基本概念 科学数据的特点 科学数据规范化
规范化分析 3.2 规范化管理
3.1
4. 5.
示例模型 科学数据规范化工作模式

1. 基本概念
数据(data) 对事实、概念或指令的一种形式化表示,适用于以人 工或自动方式进行通信、解释或处理。 数据集(dataset) 可以标识的数据集合。 注:数据集可以是一个数据库或一个或多个数据文件。 元数据 (metadata)
定义和描述其他数据的数据。
数据模型(data model) 以反应信息结构的某种方式对数据组织的描述。 描述数据、数据关系、数据语义以及一致性约束的概 念工具的集合。[《数据库系统概念》(第三版)]
注:以上概念除特殊注明外均摘自GB/T18391.1-2002《信息技术的规范化与标准化 第一部分:数据 元的规范化与标准化框架》

1. 基本概念
数据元(data element)
用一组属性描述其定义、标识、表示和允许值的数据单元,在 一定语境下,通常用于构建一个语义正确、独立且无歧义的特 定概念语义的信息单元。
注:数据元也是构建元数据和元数据实体的基本单元。
数据元目录(data element directory)
列出并定义了全部相关数据元的一种信息资源。
注:数据元目录可有不同层级,例如,ISO/IEC委员会级、国际协会 级、行业部门级、公司级、应用系统级。
数据元值(data element value)
数据元允许值集合中的一个值。
数据元值的长度(data element value length)
数据元值中字符的数目。
注:按ASCII字符数目计算数据元值的长度,一个汉字相当于2个字符。
注:以上概念释义均出自GB/T18391.1-2002。

元数据的构成方式

元数据的构成方式 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。 元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。

元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可

建立GSD数据标准化中规范要求(持续补充改善)

1工序名名标准化按照主语+谓语+宾语的主体结构内补充定语补语(必须按照规范语法结构,统一标准,按标准条件可以精准定位提高检索效率,其中主语一定不可以省略,谓语要 按做工类型规范标准) 2:工序尺寸按照:一.1CM2CM 共用1CM的,二 .3CM4CM5CM6CM7CM 共用5CM, 三.8CM9CM10CM11CM12CM 共用10CM 以此类推此类规范,避免近似尺寸相同工序数据 重复建库增加数据库数量降低检索效率,(车缝1CM的时间基本就在3TMU左右,极差 6CM的长度时间差异是18TUM不到1秒钟,整个差异值在5%管控范围内,注:GSD的管 控标准是5%) 3;在分析过程中固定开始结束动作动作代码。车缝尺寸及熨烫划线尺寸根据MTM-2距离跳裆,或者取5的倍数,这样数据更规整修,当工序长度尺寸更改可以提高修改效率(注:参考动 作经济动作经济原则肢体活动半径)规范分析过程,减少变异。 4:非常规工序一定不能放到工序词库中(非常规工序使用频率太低),每年统计工序词库工 序使用评率使用评率在5%一下建议删除,预防词库容量过大增加检索信息量 5:常规工序建议每个分析配两个视频,一个是对应分析视屏(常规) ,一个是目标视屏(非 常快的视屏)可以作为后期改善目标,不断优化改善工序做法提高效率优化成本。改善后的 动作分析审核入库后不能立刻删除改善前的工序(注:改善前的工序按季度删除同时导出备份,统计GSD工序改善成果) 6:在分析规则表里面需要链接对应的规则视频同时分析规则及视频需要对应编码,分成三段:移至压角前车缝中(检查)及放裁片,一般情况下A级别工序给检查动作,确定好的规则不能频繁更改,但是需要定期讨论维护更新,不断更新改善分析规则表。 7;面料等级的划份/品质系数建议参考工序等级划份统一定义ABCD四个级别(或5个级别)8;在GST系统分析出来的工序需要导出来归类整理备份

元数据的标准

元数据的标准 1、数字图书馆资源组织框架 2. 元数据开发应用框架 元数据的基本意义Metadata(元数据)是“关于数据的数据”; 元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。 离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。 3. 元数据应用环境 3.1 Metadata的应用目的 (1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。 (3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。 (4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。 3.2 Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现 例如: 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 3.3 Metadata格式的应用程度 不同领域的Metadata处于不同的标准化阶段: 在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经

林业科学数据元数据标准

林业科学数据元数据标准(V3.10版) 1 主题容与适应围 本标准规定了用来描述林业科学数据集及提供信息服务所需要的信息,包括林业科学数据共享元数据容框架和林业科学数据共享元数据标准。提供了有关林业科学数据集的标识、容、分发、数据质量、数据表现、参照系和元数据参考信息等容。 本标准适用于林业科学数据集元数据整理、建库、汇编、发布及共享服务。 本标准的元数据分为两级,即核心元数据和详细元数据。核心元数据规定了描述数据集最关键的信息容。在核心元数据的基础上,考虑林业科学研究的特点,建立满足林业科学数据共享建设的详细元数据。用户可以在核心元数据的基础上,根据具体需求和数据的实际情况选用、扩充详细元数据容,建立相应级别的元数据库。 2 规性引用文件 下列规性引用文件通过本部分的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的容)或修订版均不适用于本标准。但是,鼓励根据本标准达成协议的各方,研究是否可使用这些文件的最新版本。但是不注日期的引用文件,其最新版本适用于本标准。ISO和IEC成员维护目前有效国际标准的注册。 科学数据共享工程技术标准—科学数据共享元数据标准容1.4 SDS/T 2112—2004 科学数据共享工程技术标准 GB/T 1.1—2000 标准化工作导则 GB/T 7408-1994 数据元和交换格式信息交换日期和时间表示方法 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 2260-2002 中华人民国行政区划代码 GB/T 7156-1987 文献等级代码 SDS/T 2111—2004 元数据标准化原则与方法 SDS/T 2122—2004 科学数据共享工程数据分类编码 ISO 19115 地理信息—元数据(Geographic information—Metadata) 3 术语和定义 3.1 数据集dataset 数据集是可以表示的数据集合,数据集可以是数据库,也可以是数据库中的一个(逻辑组成)部分。本标准所指的数据集是指不可再细分的数据集,即可以用一个数据字典能够唯一描述的数据集合。3.2 数据集系列dataset series 数据集系列是同一主题的多个数据集的组合,都符合相同产品规。 3.3 元数据metadata 元数据是关于数据的数据,用来描述数据的容、覆盖围、质量、管理方式、数据的所有者、数据的提供方式等有关信息。 3.4 元数据元素 metadata element

数据元的规范与标准化框架

数据元的规范与标准化框架 数据表示和管理的基本概念 .数据元 数据元是称之为数据的一个广义概念的特殊成员。总而言之,数据是事实、想法或命令的一种表示数据被收集、组织、记录、处理和存放在一个可检索的表中。数据还必须适用于以人工或自动方式进行交换、解释及加工处理。 有许多结构用于数据组织与管理,如数据合成、实体、文件、对象类、对象、记录、关联、关系、行、段、主体域、表以及元组。它们与数据元并不具有相似性,但可以包括或通过一些数据库实现或逻辑建模来等同于数据元的支持。 字节和位也是数据的构件,尽管它们被用于电子媒体中数据元的注册,但并不等同于数据元。在数据库中,数据元可以作为信息组(符号组、域)或字符列来处理。在的数据模型中,它是一个属性(见图)。在某特定的相关环境中被视为不可分割时,一个数据元则被作为一个单独的数据单位在自然界中,它是数据的单位,表示关于对象类的单独事实。(如:一个被赋值“”和“”的字符码表示了“雇员”这一对象类的婚姻状态的属性)。在其使用范围内,它不可能被分解为更多且具有有用含义的基本信息组。因而,数据元可被定义为在用户论述领域内是与用户相关的。数据元是自然界中对象类特性以电子或书面形式的表示。 表示 一个特性可由能够被人们解释的某一符号集来体现。一个单独的特性可由几个交替的数据元甚至数据元组(通常称之为数据合成,有时也称之为数据元集或数据元链)来表示。这样,一个特性可以由数据元组构成的数据合成或一个单独的数据元表征。 常用法 所有数据从业者和理论家都会涉及数据元的概念。无论用什么方法或技术,数据元都是整个软件开发生命周期()的公用纽带。在的早期阶段,它们曾被视为实体(或对象类)的属性在的后期,具体的数据值被赋予它们的实例作为符号组或字符列。在的任一阶段,对于软件的生产者和用户来说,数据元是可识别的数据元是数据共享和共同持有的最小单元。一些数据元得以共享的信息系统成分有)企业信息模型)数据模型)数据流程图)数据库设计(模式、文件、表格))接口规范)计算机程序 1.2.1数据模型中的数据元 在数据建模出现之前,“数据元”这个术语已被普遍使用。用于表示指导企业商务信息的数据单元传统上被称之为数据元。数据建模的演进就是为捕捉这些数据表示的语义提供一种有效的方法。图描述了用于中的数据元结构和术语与一些更为传统数据建模术语的关联在一个

浅谈信息数据标准化工作

浅谈信息数据标准化工作 随着信息系统在行业推广实施规模的不断扩大,应用系统之间需要上传下达、信息共享、集成整合、协同工作,信息数据就越来越需要标准化、规范化的管理。现就如何做好信息数据标准化工作做如下探讨。 整合规范业务流程,在各工作岗位制定工作标准,建立完善的标准化体系。 企业的运作需要各个部门的协调来完成,这种协调应该有标准,这就是业务标准化流程。标准化流程的严格执行,必须建立在一个统一的信息化软件中,这个软件就是人们常说的一体化协同办公软件。软件必须把企业的一整套管理思想与管理标准融入其中,能够确保工作不会偏离标准化轨道。任何人在实际工作中,都不能脱离这个软件进行工作,确保了各项工作按设定的流程与标准实施。所以,标准化与信息化是管理思想与实际操作的关系。只有在信息化的平台基础上,标准化才能得到充分与完全的落实。 业务流程的整合只是第一步,第二步就是在各个岗位制定并贯彻工作标准,建立一整套完善的标准化体系,使每一个岗位、每一个部门都有可对照的工作标准,确保工作质量。需要重点说明的是,在岗位职责指定与管理过程中,应清晰描述岗位和岗位之间的关系、业务和业务之间的协作关系、流程和流程之间的互动关系,清晰展现物流、资金流、信息流,为信息系统软件开发提供全面准确的业务支持。 数据编码是建立企业信息系统的基础,应不断完善数据标准化体系 数据编码是建立企业信息系统的基础,也是关系到信息系统整体效果和成败的关键因素。在数据标准化体系建设中,一方面要自上而下分析企业数据类别,另一方面要借助系统规划和业务流程优化思想,梳理各部分的业务流程,自下而上提取基础数据。一般情况下,数据标准化体系建设应采取渐进式的策略,数据标准化进程与信息化项目建设进程同步,在保证速度的同时坚持标准化原则,以支持企业信息资源的充分共享与各子系统的整合,实现速度与标准并重,同时确保数据标准的实用性,防止数据标准化流于形式。 在信息系统项目开发、管理过程中严格落实标准化工作 信息系统集成是一项具有知识密集、资料密集、工作量大等特点的系统工程,信息系统项目中的需求调研、立项、招标、实施、验收、维护等工作必须严格按照国家有关法律法规和烟草行业相关的政策制度进行。此外,企业应在推进信息系统项目时做好以下几方面的标准化工作。 信息指标体系标准化。信息指标体系是指一定范围内所有信息的标准,按其内在联系组成的、科学的有机整体。在管理层次和管理部门众多的情况下,只有统一和规范指标体系,才能使各系统和各个层次开发和实施的信息系统能够实现数据和信息的兼容与共享。 信息系统开发标准化。信息系统开发标准化主要指在系统开发中遵守统一的系统设计规范、程序开发规范和项目管理规范。系统设计规范规定字段、数据库、程序和文档的命名规则及编制方法,以及应用程序界面的标准和风格等。程序开发规范要对应用程序的模块划分、标准程序流程的编写、对象或变量命名、数据校验及出错处理等作出规定。项目管理规范规

相关文档
最新文档