对象存储系统的元数据管理

对象存储系统的元数据管理
对象存储系统的元数据管理

分 类 号 __________ 学号

______________

学校代码 __________

硕士学位论文

对象存储系统的元数据管理

学位申请人

:张顺达 学科专业

:计算机系统结构 指导教师

:王芳 副教授 答辩日期

:2006年5月

10487 2003612100113

A Thesis Submitted in Fulfillment of the Requirements

For the Degree of Master of Engineering Metadata Management in Object-Based Storage System

Candidate : Zhang Shunda

Architecture

Computer

Major :

Supervisor : Associate Prof. Wang Fang

Huazhong University of Science and Technology

Wuhan, Hubei 430074, P. R. China

May, 2006

摘要*

随着网络技术和信息数字化的快速发展,面向海量数据的大型应用纷纷涌现,进一步对存储系统性能提出更为苛刻的要求。尽管磁存储技术仍在不断发展中,但受到块级存储访问接口制约,无法改变I/O性能远落后于CPU和内存速度的状况。对象存储系统(Object-Based Storage System)以对象为接口,将有望解决这些问题。容纳海量用户数据的对象存储系统中高效的元数据管理成为了新的挑战和研究课题。

对象存储系统由客户端、元数据服务器和各个对象存储节点三部分组成。用户数据存放在直接联网访问的智能存储节点上。元数据服务器在对象存储系统中的位置非常重要,是整个系统潜在的瓶颈。在这种具有分布式体系结构特征的对象存储系统中,文件被映射到一个或多个对象存储节点上。合理的对象分布策略对系统性能显得尤为重要。针对常用对象分布策略哈希 (Hashing) 算法和分片(Fragment-Mapping) 算法存在的优缺点,提出一种能够结合两者优点、又尽量避免其缺点的柔性对象分布算法,同时分析了影响对象存储系统性能的主要因素。

元数据服务器的设计及元数据的组织和存储是面向对象系统中元数据管理的重要组成部分。元数据服务器使用了轻量级目录访问协议(Lightweight Directory Access Protocol,LDAP)作为存放元数据的平台,针对这个平台设计了相应的数据分配算法和数据转换模块,针对元数据访问特征,构建缓冲机制优化元数据访问性能。通过测试验证了柔性对象分布算法和元数据组织管理模式在对象系统中是行之有效的,并对系统性能的提升起到了重要作用。

关键词:网络存储,对象存储系统,元数据管理,对象分布策略,

轻量级的目录访问协议

*本文的研究工作受国家重点基础研究发展计划(973计划)资助项目(2004CB318201)和中国国家自然科学基金资助项目(60303032) 资助

Abstract*

The rapid development of network technology and digital information has stimulated the emergence of mass information applications. The current storage architecture becomes the performance bottleneck. The rapid development of magnetic store technology leads to the situation that the I/O performance falls behind the speed of CUP and memory. However, the traditional block access interface can not change this situation. The Object-Based Storage (OBS) providing object-based access interface is expected to change the situation. And its metadata management becomes new challenges and research topics.

The object-based storage system contains three major components, namely are clients, Metadata Server (MDS) and object-based storage nodes. Data is stored on the nodes that can be directly accessed through the network, while metadata is managed separately by one or more specialized metadata servers.The position of the MDS in the object-based storage system is very important, and it can be a potential bottleneck of the system. In the object-based storage system files are mapped onto one or more data objects stored on the nodes. The policy for object allocation is a critical aspect affecting the overall system performance. Hashing and fragment-strip are two common techniques used for managing objects, but both have their disadvantages and advantages. We present an efficient algorithm that combines the advantages of these two approaches while avoiding their shortcomings. The key factors which can impact the performance in the objects allocation are also be discussed.

The design of MDS in object-based storage system and the organizing and management of metadata are also very important. The MDS in our system uses Lightweight Directory Access Protocol (LDAP) to store the metadata. And we design data allocation and data conversion modules especially for it. We also build buffers to optimize the performance. We test the system and prove that our object allocation algorithm is effective and the buffers optimize the performance.

Keywords: Network Storage, Object-Based Storage, Metadata Management,

Object Allocation, Lightweight Directory Access Protocol * The research is supported by National Basic Research Program of China (973 Program) under Grant No. 2004CB318201 and the National Science Foundation of China under Grant No.60303032.

目录

摘要*................................................................................................................I ABSTRACT*.........................................................................................................II 1 绪论 (1)

1.1 课题背景 (1)

1.2 面向对象的存储技术简介 (2)

1.3 面向对象的存储技术的历史和发展 (5)

1.4 元数据分配算法的相关研究工作 (7)

1.5 本文研究的主要内容 (9)

2 元数据管理的功能设计与实现 (10)

2.1 对象存储系统的体系结构和各主要部分 (10)

2.2 元数据服务器软件设计 (13)

2.3 本章小结 (22)

3 元数据的组织与存储 (23)

3.1 LDAP 简介 (23)

3.2 在对象系统中使用LDAP (24)

3.3 性能分析及优化 (25)

3.4 本章小结 (28)

4 柔性对象分布算法的研究 (29)

4.1 对象系统中的对象分布策略 (29)

4.2 柔性对象分布算法的设计 (31)

4.3 仿真结果 (35)

4.4 本章小结 (38)

5 系统测试与性能分析 (39)

5.1 测试环境 (39)

5.2 测试结果及分析 (39)

5.3 本章小结 (41)

6 全文总结 (42)

致谢 (43)

参考文献 (44)

附录(攻读学位期间发表论文目录) (48)

1 绪论

1.1 课题背景

随着信息社会的发展,越来越多的信息被数字化,尤其是伴随着Internet的发展,数据量呈现出爆炸式增长。因而在未来几年内,存储技术将成为令人瞩目的一个市场。1999年,世界范围的存储服务市场为210亿美元;到2003年,已超过400亿美元。而在今后的几年内,存储服务市场将进入飞速发展期。基于Internet的应用,比如电子商务、电子邮件和企业数据信息,将成为存储服务的主要市场,这些应用都要求快速的数据访问。从存储服务的发展趋势来看,一方面,是对数据存储量的需求越来越大,另一方面,是对数据的有效管理提出了更高的要求[1]。

目前存储系统除了传统以服务器为中心的直接存储(Direct Access Storage, DAS)外,例如附网存储(Network Attached Storage, NAS)[2]、存储区域网(Storage Area Network, SAN)[3-5]等网络存储占据主导地位。NAS采用“文件”数据组织,通过网络接口把存储设备直接连入到网络中,是一种特制的网络文件系统“瘦”服务器,支持NFS和CIFS的网络文件协议,实现细粒度数据共享以及跨平台文件共享,具有系统易用性和可管理性,但同时存在系统扩展性差的缺陷,这包括存储容量的扩展性和性能的扩展性[6,7]。

SAN采用“块”数据组织,通过可伸缩的高速专用存储网络互连不同类型的存储设备与服务器,提供内部任意节点间多路可选择的数据交换,方便地共享存储设备,向外界提供服务,从而提高存储系统的可用性和性能[8,9]。SAN很大程度地解决了集中存储、存储管理和存储空间共享的问题,特别是在数据的可用性、系统容量和系统性能的动态可扩展性方面明显优于NAS系统,但它存在使用复杂、数据共享的颗粒度过大,以及难于直接支持文件级的数据共享。基于对象存储技术(Object-Based Storage, OBS)是采用了“对象”数据组织,克服了NAS 与SAN中不足,它既有“块”接口的快速,又有“文件”接口的便于共享。对象

使文件数据和存储元数据管理进行分离,突破了SAN的文件共享限制和NAS系统中常见的数据路径瓶颈。对象由数据、属性及操作组成,在安全性、跨平台数据共享、高性能和可扩展性特性中更胜一筹。为满足文件服务、事务处理、流媒体服务等不同类型的应用需求,存储对象应是可变长的,并可以包含任何类型的数据,如文件、数据库记录、图像以及多媒体视频音频等。与基于固定的块大小访问的块存储设备不同,对象可动态地扩大和缩小,即数据的种类、属性不同,操作方法应简繁有别。对象的属性用于描述对象的特征,如多媒体数据对象的服务质量(Quality of Service, QoS)属性描述该对象的网络延迟要求;文件对象的属性描述文件的访问权限等。对象的操作类型应多种多样,既有基本的文件访问时对存储设备的操作,也有数据库、流媒体等访问时对存储设备的操作,同时操作类型还应能根据应用需求进行调整和扩充。

1.2 面向对象的存储技术简介

对象存储文件系统的核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备[10](Object-based Storage Device,OSD)构建存储系统,每个对象存储设备具有一定的智能,能够自动管理其上的数据分布,对象存储文件系统通常有以下几部分组成[11]。

1.2.1 对象

对象是系统中数据存储的基本单位,一个对象实际上就是文件的数据和一组属性的组合,这些属性可以定义基于文件的磁盘阵列(Redundant Arrays of Independent Disks, RAID)参数、数据分布和QoS等,而传统的存储系统中用文件或块作为基本的存储单位,在块存储系统中还需要始终追踪系统中每个块的属性,对象通过与存储系统通信维护自己的属性[12]。在存储设备中,所有对象都有一个对象标识,通过对象标识 OSD 命令访问该对象。通常有多种类型的对象,存储设备上的根对象标识存储设备和该设备的各种属性,组对象是存储设备上共享资源管理策略的对象集合等。

对象由数据、属性及相应操作代码组成,由对象ID(OID)号标识。也就是

说,存储对象中既包含数据,也包含了数据的操作代码,是一个具有标识“接口”、“状态”和“操作”的三元组,是一个封装为一体的一般概念上的对象。将对象分类赋予不同的属性,并构成层次结构,使之服务于不同的用户,如分成根对象(Root Object),分区对象(Partition Object),集合对象(Collection Object)和用户对象(User Object),并以Partition_ID和User_ID标枳[13]。

而用户对象又由数据和两种相关的属性组成:

(1)应用数据:应用数据本质上与传统系统中的普通文件等价。它可以用类似文件的操作命令如open, close, read和write访问。

(2)存储属性:这些属性被存储设备用来管理数据。它包括对象D;、块指针、逻辑长度等。它与传统文件系统中的节点级别的属性类似。

(3)用户属性:用户属性对存储设备而言是透明的,用来描述对象的服务质量需求、选用何种RAID、容量配额的大小等。

1.2.2 对象存储设备

对象存储设备(OSD)是具有一定的智能设备,包括处理器、RAM内存、网络接口、存储介质如磁盘等以及运行在其中的控制软件,目前国际上通常采用刀片式结构实现对象存储设备。OSD提供物理视图(inode层),将数据访问的负担分布到对象存储系统的不同部分,以避免类似NAS系统中元数据瓶颈问题。inode 工作分布到各个智能OSD设备中,因此90%的元数据管理是分布到实际存储数据的OSD当中。OSD提供四个主要功能:

(1)数据存储。OSD管理对象数据,并将它们放置在标准的磁盘系统上,OSD不提供块接口访问方式,Client请求数据时用对象ID、偏移进行数据读写。

(2)智能分布。OSD用其自身的CPU和内存优化数据分布,并支持数据的预取。由于 OSD 可以智能地支持对象的预取,从而可以优化磁盘的性能。

(3)每个对象元数据的管理。OSD管理存储在其上对象的元数据,该元数据与传统的inode元数据相似,通常包括对象的数据块和对象的长度。而在传统的NAS系统中,这些元数据是由文件服务器维护的,对象存储架构将系统中主要的元数据管理工作由OSD来完成,降低了主机的开销。

(4)保证安全。OSD存储系统中的每一条命令或者传输的数据,都必须伴随对发送方和操作的认证。OSD检查每个接入的连接是否相应的授权,拒绝非法、无效和过期的连接。

1.2.3 元数据服务器

元数据服务器(Metadata Server, MDS)协调客户机与OSD之间的交互,管理与上层文件系统有关的元数据,它提供下列功能:

(1)安全策略

包括身份验证、授权证书管理、访问控制等。新的OSD加入到网络中时,由元数据服务器对OSD的身份进行验证,并向新加入的OSD颁发证书,元数据服务器周期的更新证书,确保每个OSD都是合法的。同样,当客户机请求访问OSD 时,先由元数据服务器进行身份验证,然后才向客户发送证书授权访问。

对文件的每一对Open(Create)/Close操作,客户只须在Open(Create)时向元数据服务器发请求取得授权(证书),此后,客户将用该证书访问OSD,直到文件被关闭。元数据服务器用访问控制位(Access Control Bit)描述客户的访问权限,包含在证书中返回给用户。客户机访问OSD时,OSD检查访问控制位,给予客户机相应的权限。

(2)Cache一致性维护

在OBS系统中,Cache一致性是至关重要的,因为Cache存在于客户机,OSD 和元数据服务器中,必须保证三者的统一。而数据与元数据在系统中是分开存放的,这使一致性的维护变得复杂起来。

根据OBS的访问模式,可按如下方法实现Cache的一致性。当多个客户机访问相同文件时,每个客户机在元数据服务器注册一个“回调事件”(CallBack)。当另外的客户机修改了该共享文件时,元数据服务器将产生一个回调事件,通知所有打开该文件的客户机更新本地Cache。客户机收到回调事件通知后,将本地Cache置为无效,重新向元数据服务器获取新的元数据,然后再从OSD读取最新数据。

(3)文件目录的元数据管理

由于与块/扇区有关的元数据管理(大约有90%的负载)已交由OSD负责,元数据服务器只管理与文件目录有关的元数据(10%的负载),即将文件目录映射为对象。

采用哈希(Hashing)的方法把文件或一段文件映射为对象,但采用哈希的方法不利于系统的扩展。因为哈希函数与OSD的数目有关,当系统中加入新OSD 设备时,哈希方法将不能适应这种变化。采用线性映射表可避免这个问题。元数据服务器维护文件名或一段文件与OSD的IP地址、对象ID的对照表。当客户机请求打开文件时,元数据服务器返回文件或文件段所在OSD的IP地址及对应对象ID,客户机据此访问OSD。当客户机创建新文件或对文件写入新数据时,元数据将根据OSD的负载情况、分配策略、是否对文件进件分条(RAID功能)等因素找到一个合适的OSD,并指定一个对象ID。元数据据服务器将新的映射信息插入线性表,同时也将这些信息返回给客户机。

1.2.4 对象存储文件系统的客户端

为了有效支持 Client 支持访问 OSD 上的对象,需要在计算结点实现对象存储文件系统的 Client,通常提供 POSIX 文件系统接口,允许应用程序像执行标准的文件系统操作一样[14]。

1.3 面向对象的存储技术的历史和发展

OBS的最早研究可追溯到1980的两个面向对象操作系统,一个是卡内基梅隆大学的Hydra OS,另一个是Intel的Imax-432 OS。这两个操作系统最先用可变长的对象来存储文件、进程状态等多种数据。1980年,麻省理工大学第一次在他们的SWALLOW项目中实现了分布式对象存储,成为该领域的先驱。

OBS获得的实质性进展源于卡内基梅隆大学并行数据实验室(Parallel Data Lab)的NASD(Network-Attached Security Disks)项目[15]。NASD着眼于开发低成本高效的存储系统,系统中采用基于对象接口的附网磁盘,运用加密技术和基于证书的认证机制加强系统的安全性。以NASD为基础,在NSIC(National Storage Industry Consortium)的赞助下,存储业界几个公司合作将NASD发展为

Network-Attached Storage Devices(NASD),充分利用了基于对象的接口。在NSIC/NASD的基础上,存储网络工业协会(SNIA)成立了OSD工作组(OSD TWG),起草定义了OSD的命令集,并提交给T10。T10着手进行基于对象存储命令的标准化(SCSI Object-Based Storage Device Commands)[13],并将之纳入SCSI-3协议框架中,目前已进行第十一次修订。

加州大学圣克鲁斯分校的存储系统研究中心也致力于OBS的研究工作,已开发了OBFS(Object-Based File System)。OBFS的目标是支持10,000个客户机的并发访问,100GB/sec的吞吐量,2 P字节的系统总容量。该系统在元数据管理方面采用了一种独到方法,该法基于LH3(Lazy Hybrid Hashed Hierarchical)目录管理,将元数据进行分区管理[16-18]。元数据服务器组成集群方式,以支持的高效、灵活、可扩展的元数据管理。

EMC的Centera是一种基于内容寻址(Content Addressed)的存储系统,也具有基于对象存储的特征。Centera中的对象也包含数据和元数据,Centera根据对象的内容(包括元数据)产生一个Key返回给用户。Key有几个用途:在Centera 中维护一个Key到对象的一维平坦映射,Key充当ID号进行快速检索;由于Key 由对象内容计算出来,用户可根据Key对返回的对象进行验证;通过计算Key,Centera可去掉重复对象。Centera的这种方案有缺点,即对象在建立时其内容必须可得到,计算Key也会影响性能,因此,Centera的这种方法只适用于定长大小数据。

IBM Haifa Research Lab实现了一个独立的控制器形式的OSD,称为Antara。Antara用自已开发的协议(Antara Protocol)进行通讯,该协议类似于T10制定的SCSI OSD命令集标准[13]。Antara的输入输出的通讯模块是可更换的独立模块,因此Antara可运行于多种网络之上[19,20],包括IP网络和Fibre Channel。

已有多家公司在他们的存储系统中应用了OSD。有IBM的Storage Tank,National Laboratories和Hewlett-Packard的Lustre File System,Panasas的Active Scale File System[21],IBM Haifa Research Laboratories开发的zFS。

早期的NASD建立在两种流行的经改装的分布式文件系统NFS和AFS之上,

分别称为NFS-NASD和AFS-NASD。在这两种系统中,文件与对象的映射采用了一种简单的方式:一个文件对应一个NASD对象,文件的偏移地址就是对象的偏移地址。普通文件属性相应的变为对象属性,这样上层的文件系统需要获得文件属性时可从对象中查获。由客户机发出的读写数据及读属性等常用请求由OSD 处理,而其余不常用的请求则由元数据服务器处理。NASD的OSD原型运行在Digital UNIX系统之上,用UDP/IP之上的DCE RPC作为接口的通信层。用修改过的UFS文件系统管理在磁盘上的对象。

Lustre[22]原是一个SAN File System,为提高系统的可扩展性引入了OSD。但Lustre将一组OSD由一个OST(Object Storage Target)管理,OST的对外接口与T10正在标准化的OSD命令类似。Lustre把存储设备分为OST与OSD两个层次,使得整个系统独立于OSD,系统引入新的OSD而不影响原有系统。

1.4 元数据分配算法的相关研究工作

1.4.1 现有的元数据分配算法

在元数据分配算法方面,已经有很多成熟的算法值得借鉴。原先,元数据的分配策略通常有两种。第一种,目录子树划分法,根据目录子树来划分名字空间。在目录子树划分法中,完整目录树的元数据由单独的元数据服务器来管理。但当单个的文件、目录或是目录子树的情况比较多时,这种策略会出现严重的瓶颈。而且,必须研究目录层次来决定是否允许对某个文件进行存取。有时在客户端前置cache的帮助下这种情况能得到一定程度的缓解,但当大量的客户同时存取同一文件或同一目录时,前置cache也不能起任何作用。

第二种,纯哈希算法,用哈希算法来分配元数据服务器中的名字空间。纯哈希算法根据文件标识符、文件名或是其他相关值的哈希序列将元数据分配到元数据服务器,这与目录子树划分法相比工作量分布更为均衡。但是仍然需要研究目录层次来决定是否允许对某个文件进行存取。如果哈希序列是根据完整路径名得到的,那这可能是用户拥有的关于这个文件的唯一信息,一个目录名字的改变会导致大量元数据移动。如果哈希函数使用文件名代替完整路径名(例如Lustre),

在不同目录下,但名字相同的文件将会被映射到同一位置。从而当对不同目录下但名字相同的文件进行大量并行存取时会产生瓶颈。

上述两种算法在将元数据服务器添加或是移出群时都会遇到困难,因为会有大量的元数据需要移动。目录子树划分法中,因为子树被存储在每个元数据服务器上,因此需要重新划分整个名字空间来保持工作量的均衡。而纯哈希算法中,哈希算法本身需要改变来产生不同范围的输出,也许需要根据新的哈希函数将几乎所有的元数据移至新的服务器。

现在有种新的算法叫LH(Lazy Hybrid)算法,结合了前面两种算法的优点并避免了他们的缺点。LH是建立在路径名哈希映射基础上的可升级的元数据管理机制。LH通过结合目录子树划分法和纯哈希算法的优点消除了他们的瓶颈,改善了系统性能并分散了这些潜在的昂贵操作的耗费。LH通过消除服务器群中的热点以及将磁盘存取和服务器交流的耗费最小化实现了高性能的管理。

目录子树划分法的一个优点是可以通过联系相关的元数据服务器来存取文件的元数据,因为某个元数据服务器可以存储给定文件路径中的某些或所有目录。带前置cache的目录子树划分法则考虑到了同一客户反复存取同一目录情况下的相关有效元数据存取。目录子树划分法的最大缺点是元数据服务器的工作量可能不是很均衡,这会导致系统瓶颈并将第性能。当一个目录子树上的文件组被频繁存取时,存放这个目录子树的服务器会异常忙碌,从而导致相应时间变长甚至丢失请求。

哈希法消除了服务器间工作量不均衡的问题。Lustre使用文件名尾和父目录标识符作序列的哈希函数来决定元数据的存储,但必须贯穿分层目录来找回元数据。

1.4.2 对象系统对现有策略的改进

在分布策略方面,为了改进哈希策略的可扩展性,出现了自适应哈希算法(Self-Adaptive Hashing) [23]。其主要思想有两方面。第一,为每个文件的元数据保持不同版本的哈希函数;第二,按需要重分配已存在文件的数据。

在面向对象的存储系统方面,当前一种非常成功的面向对象系统是Panasas

存储集群[24]。在Panasas 存储集群中,其对象分布策略可描述为:如果一个文件小于64KB,将会被以RAID1的形式境象地放置到前两个组件对象中。如果一个文件大于64KB,将会被以RAID5的形式放置到所有组件对象中。也就是说64KB是区分文件大小的边界值,单个对象不大于64KB。另一种面向对象存储系统是卡内基·梅隆大学的Lustre 集群文件系统[22]。Lustre 集群文件系统中对象分布策略对应的是逻辑卷管理。在Lustre的逻辑卷管理中以RAID的形式组织和管理对象。文件被分割成对象,以类似RAID的形式分布在各设备中。

在对象文件系统方面,加州大学圣克鲁斯分校的研究人员开发了一种用于对象存储设备的文件系统——OBFS[25]。在OBFS中,大小文件的分界是512KB。研究人员将一种高性能分布式文件系统:LLNL (Lawrence Livermore National Laboratory) [26]作为大规模分布式文件系统的一个实例。通过对LLNL负载数据特征值的分析,得出了以上结果。OBFS 的研究表明对象文件系统也应该适应小文件频繁出现的情况。Roselli等跟踪过类似的系统,在他们研究的系统中有很多小文件,60-70%的数据为小于512KB的文件[25]。

1.5 本文研究的主要内容

在基于对象存储的海量信息存储系统元数据服务器中管理与上层文件系统有关的元数据。提供一种在基于OBS的PB(Peta Bytes)级环境中放置、添加、删除、修改、查找元数据的方法,完成对元数据的高效管理。主要工作包括一下几个方面:

1. 实现了用户文件到对象的映射。

2. 在PB级环境中维持文件目录结构并对用户呈现传统树形结构。

3. 实现了用户认证,用户管理。

4. 实现了对OSD的管理,保持了各OSD间负载均衡。

5. 在多用户高负载情况下快速响应请求。

6. 保证向用户和设备发送的命令格式符合T10的标准OSD命令。

2 元数据管理的功能设计与实现

2.1 对象存储系统的体系结构和各主要部分

基于对象存储系统OBSS(Object-Based Storage Systems)的体系结构如图2.1所示。它包括元数据服务器集群(MDS cluster)、基于对象存储设备(OSD)和客户端(Client),并通过高速网络相互连接。

图 2.1基于对象存储系统OBSS的体系结构

基于对象存储系统的模块结构如图2.2所示。该系统由元数据服务器MDS、基于对象存储设备OSD、客户端管理模块和安全管理模块组成。

图 2.2基于对象存储系统得模块结构

元数据服务器、基于对象存储设备和客户端之间的交互关系如图2.3所示。

图 2.3MDS、OSD与客户端之间的交互关系

2.1.1 MDS软件模块

元数据服务器MDS的软件模块组成和之间的关系如图2.4所示。

元数据服务器由文件管理模块、资源管理模块组成和轻量级目录访问协议(Lightweight Directory Access Protocol, LDAP)数据库组成。文件管理模块负责文件命名管理,将文件转换为对象。资源管理模块负责存储资源的管理。LDAP 数据库负责存储元数据及资源信息。

图 2.4MDS的软件模块结构及模块之间的关系

客户端发出的文件请求,通过网络通道传递给文件系统管理模块。在文件管理模块中将文件转换为对象并经过相应的存储策略、并发控制和负载平衡处理,然后将用户请求传递给OSD或客户端。

2.1.2 OSD软件模块

基于对象存储设备OSD的软件模块结构和处理流程如图2.5所示。

OSD由对象存储控制器、文件系统地址映射模块和块设备管理模块组成。

图 2.5基于对象存储设备OSD的软件模块结构

启动模块负责系统初始化工作;对象存储控制器负责存储空间管理、命令管理、对象映射;文件系统地址映射模块负责访问请求的逻辑地址到物理地址的转换;块设备管理模块负责块设备的驱动。

客户端或元数据服务器发来的请求通过网络通道传至对象存储控制器。经过对象存储控制器的存储空间管理、命令处理和对象映射后,转入文件系统的地址转换处理。设备命令和地址经设备管理模块驱动设备工作。

2.1.3 CLIENT软件模块

Client的软件模块组成和处理流程如图2.6所示。该软件模块由OSD Client、MDS Client和本地文件系统信息处理及显示模块组成。

图 2.6Client的模块结构

OSD Client负责与基于对象存储设备OSD的命令处理与封装; MDS Client 负责与元数据服务器MDS的命令处理;本地文件系统信息处理及显示模块负责本地文件信息的处理与显示。

客户端命令请求通过网络发给MDS,经过MDS的管理与解析,返回与请求相关的OSD信息,再将此信息封装成为基于对象的命令,通过OSD Client经iSCSI 通道与相应的基于对象的存储设备OSD联系。MDS Client将请求命令处理后发给元数据服务器MDS,然后从MDS处获取数据信息。OSD Client模块通过命令处理与封装传递给OSD。

2.2 元数据服务器软件设计

在以往的DAS、NAS、SAN中,由于块设备不能管理元数据,使得服务器/元数据服务器成为瓶颈。而在基于对象存储(OBS)系统中,由于与块/扇区有关的元数据管理(大约有90%的负载)已交由OSD负责,元数据服务器只管理与文件目录有关的元数据(10%的负载);使系统瓶颈得到极大的缓解。良好的元数据管理将减少不必要开销,加快访问速度,均衡负载,提高系统性能。

对象存储模型显现出分布式存储系统的体系结构特征。对象存储系统由客户端、元数据服务器和对象设备三大部分组成,它采用三方通讯方式提供存储服务,即:客户端向元数据服务器发送读写文件请求,元数据服务器返回文件对应的对象信息和权限,客户端根据对象信息以赋予的权限访问相应的设备。传统系统中元数据和数据在同一台设备,同一个机器和同一个文件系统中[27]。基于对效率的考虑,元数据通常被单独存放在距离其描述的数据较近的物理位置上[28]。在一些分布式文件系统中,数据被存放在可以通过网络直接访问的智能设备上,而元数据由专门的元数据服务器管理[29]。不难发现元数据服务器在对象存储系统中的位置非常重要,是整个系统潜在的瓶颈。元数据服务器的中心任务就是元数据的组织和管理。

OBS带来的一个明显好处是把存储空间分配交由OSD管理。传统的基于块的文件系统由两部分组成:用户相关部分和存储相关部分。用户相关部分通过逻

辑数据结构(如目录和文件)向用户提供用户调用接口;存储相关部分则将这些目录和文件映射到底层物理设备的逻辑块上[30]。在OSD构成的存储系统中,上层的用户相关部分不变,而下层的存储相关部分下移到OSD中,相应的设备接口也从基于块的接口变为基于对象接口。这样,文件系统的上层只负责把文件名等逻辑名称映射为对象ID,这部分工作仍由元数据服务器完成,比传统的元数据服务器,负载大为减小,对象ID与磁盘块的映射在各OSD内完成。

2.2.1 元数据服务器的功能分析

对象存储系统中元数据服务器的主要任务是:完成元数据管理功能,如文件目录结构维持,通过文件系统调用向用户提供与传统文件系统相同的文件服务。完成对象到文件的映射,管理系统内的对象分布。完成资源管理,包括用户管理、命名、权限管理,对设备进行有效管理,保证系统负载均衡及备份。主要功能可归纳为:

元数据的存储、访问和管理:将元数据存放到数据库或文件系统中,方便高效地对元数据进行存储,访问和管理。由于LDAP针对目录访问进

行了优化,在元数据管理方面具有一定优势。加之封装了较多常用功能,

使开发和维护更加方便。其可扩展性和安全性也十分优异。

文件到对象的映射:映射通过策略库调出一定的算法,根据OSD的负载情况,空闲空间的大小,文件本身的特点及QoS的要求等因素决定对

象ID的分配。

对象在OSD间的分布:根据文件的大小决定如何放置到具体的OSD设备中。当文件大小超过一定阈值就采用分片的方式,即将文件平均分成

若干份,散列在OSD中;否则使用哈希的方法,将文件全路径名哈希成

一个整型数,根据这个数字确定放置对象的设备。分片和哈希各有自身

的优势,将它们分别应用的大文件和小文件中可以最大限度的发挥算法

的特点,使系统性能达到最优。

缓冲区管理:针对元数据访问的特点,在系统中特制一个缓冲区,将最近访问过的元数据缓存到该缓冲区中,以便下次访问命中时直接从缓冲

实验空间数据库管理及属性编辑实验报告

实验报告 一、实验名称 二、实验目的 三、实验准备 四、实验内容及步骤 五、实验后思考题 班级:资工(基)10901 姓名:魏文风 序号:28 实验二、空间数据库管理及属性编辑 一、实验目的 1.利用ArcCatalog管理地理空间数据库,理解Personal Geodatabse空间数据库模型的有关概念。 2.掌握在ArcMap中编辑属性数据的基本操作。 3.掌握根据GPS数据文件生成矢量图层的方法和过程。 4.理解图层属性表间的连接(Join)或关联(Link)关系。 二、实验准备 预备知识: ArcCatalog 用于组织和管理所有GIS 数据。它包含一组工具用于浏览和查找地理数据、记录和浏览元数据、快速显示数据集及为地理数据定义数据结构。 ArcCatalog 应用模块帮助你组织和管理你所有的GIS 信息,比如地图,数据集,模型,元数据,服务等。它包括了下面的工具: ●浏览和查找地理信息。 ●记录、查看和管理元数据。 ●创建、编辑图层和数据库 ●导入和导出geodatabase 结构和设计。 ●在局域网和广域网上搜索和查找的GIS 数据。

管理ArcGIS Server。 ArcGIS 具有表达要素、栅格等空间信息的高级地理数据模型,ArcGIS支持基于文件和DBMS(数据库管理系统)的两种数据模型。基于文件的数据模型包括Coverage、Shape文件、Grids、影像、不规则三角网(TIN)等GIS数据集。 Geodatabase 数据模型实现矢量数据和栅格数据的一体化存储,有两种格式,一种是基于Access文件的格式-称为Personal Geodatabase,另一种是基于Oracle或SQL Server等RDBMS关系数据库管理系统的数据模型。 GeoDatabase是geographic database 的简写,Geodatabase 是一种采用标准关系数据库技术来表现地理信息的数据模型。Geodatabase是ArcGIS软件中最主要的数据库模型。 Geodatabase 支持在标准的数据库管理系统(DBMS)表中存储和管理地理信息。 在Geodatabase数据库模型中,可以将图形数据和属性数据同时存储在一个数据表中,每一个图层对应这样一个数据表。 Geodatabase可以表达复杂的地理要素(如,河流网络、电线杆等)。比如:水系可以同时表示线状和面状的水系。 基本概念:要素数据集、要素类 数据准备: 数据文件:National.mdb ,GPS.txt (GPS野外采集数据)。 软件准备: ArcGIS Desktop 9.x ---ArcCatalog 三、实验内容及步骤 第1步启动ArcCatalog打开一个地理数据库 当ArcCatalog打开后,点击, 按钮(连接到文件夹). 建立到包含练习数据的连接(比如 “E:\ARCGIS\EXEC2”), 在ArcCatalog窗口左边的目录树中, 点击上面创建的文件夹的连接图标旁的(+)号,双击个人空间数据库-National.mdb。打开它。. 在National.mdb中包含有2个要素数据集、1个关系类和1个属性表第2步预览地理数据库中的要素类 在ArcCatalog窗口右边的数据显示区内,点击“预览”选项页切换到“预览”视图界面。在目录树中,双击数据集要素集-“WorldContainer”,点击要素类-“Countries94”激活它。 在此窗口的下方,“预览”下拉列表中,选择“表格”。现在,你可以看到Countries94的属性表。查看它的属性字段信息。 花几分钟,以同样的方法查看一下National.mdb地理数据库中的其它数据。

基于对象存储的新型元数据管理策略

基于对象存储的新型元数据管理策略 方 圆1,杜祝平1,周功业2 (1. 解放军信息工程大学信息工程学院,郑州 450002;2. 华中科技大学武汉光电国家实验室,武汉 430074) 摘 要:在对已有对象存储元数据管理策略进行研究的基础上,提出一种基于对象存储的新型元数据管理策略。该策略将命名空间的目录子树分割为等粒度的中子树,将中子树的根目录名和文件名的组合作为哈希参数进行哈希运算,元数据服务器根据其所得哈希值确定存储路径。实验结果表明,该策略在处理元数据重命名操作和修改文件名时,可以避免大量元数据迁移及网络开销问题。 关键关键词词:元数据;对象存储;元数据管理;元数据服务器;负载均衡;热点 New Kind of Metadata Management Strategy Based on Object Storage FANG Yuan 1, DU Zhu-ping 1, ZHOU Gong-ye 2 (1. Institute of Information Engineering, PLA Information Engineering University, Zhengzhou 450002, China; 2. Wuhan National Laboratory for Optoelectronics, Huazhong University of Science and Technology, Wuhan 430074, China) 【Abstract 】On the basis of the research of previous object storage metadata management strategies, this paper puts forward a new kind of metadata management strategy. The method is to divide namespace directory into neutron trees, and compute with hash function using the combination of the root directory name and file name. Metadata Server(MDS) determines its storage path according to the hash value. Experimental result shows that this new kind of metadata management tactics can avoid the massive metadata migration problems and network overhead problems in dealing with metadata rename operation and modify filename. 【Key words 】metadata; object storage; metadata management; Metadata Server(MDS); load balance; hot spot DOI: 10.3969/j.issn.1000-3428.2012.03.009 计 算 机 工 程 Computer Engineering 第38卷 第3期 V ol.38 No.3 2012年2月 February 2012 ·软件技术与数据库软件技术与数据库·· 文章编号文章编号::1000—3428(2012)03—0025—03 文献标识码文献标识码::A 中图分类号中图分类号::TP311 1 概述 目前,对象存储系统元数据服务器主要是对文件级元数据进行存储管理,而元数据具有本身数据小而数量多的特点, 操作系统中50%~80%[1] 的文件操作与元数据息息相关,因此,元数据管理高效与否在一定程度上决定着存储系统性能的高低。本文对对象存储元数据管理策略进行研究,提出一种新型的元数据管理策略方法。 2 传统元数据分配策略 元数据作为数据索引信息,存放在元数据服务器上。元数据本身是很小的,但随着系统的增大,系统内的元数据会逐渐增多,怎样来提高元数据的检索速度,这就需要对元数据服务器(Metadata Server, MDS)中元数据的分配策略进行研究。只有元数据分配更加平均,才能使得集群资源得到充分利用,元数据服务器之间的负载达到均衡,从而提高系统的性能。 2.1 子树分割法 子树分割法分为静态子树分割法和动态子树分割法。静态子树分割法[2]需要管理员参与,预先把名字空间分割成不同的目录子树,然后再根据目录子树的结构来对元数据进行分布,在MDS 集群中每个MDS 单独管理各自负责的完整目录子树。 动态子树分割法是能够动态的将负载均衡分配到命名空间各个目录子树之间,并允许MDS 之间对目录层次权限和元数据分区进行修改。缺点在于:在访问层次较深的元数据时,需要对整个层次树进行遍历,开销较大。重命名时产生大量的元数据迁移;子树重命名后很难实现元数据之间的动 态平衡。 2.2 静态哈希静态哈希算算法 静态哈希算法[3]主要是以文件的全路径名或者目录路径节点作为哈希函数参量进行哈希运算来将文件元数据直接分布到不同的MDS 上。其缺点是:无法很好处理目录重命名操作,因为当目录重命名后,MDS 集群间会有大量的元数据被重新分配,而且对一个目录下的文件进行访问时也会产生一些路径遍历和网络开销。 2.3 Lazy Hybrid 法 Lazy Hybrid(LH)法[4]是一种建立在路径名哈希映射基础上的可升级的元数据管理机制。其具体方法是使路径名生成散列值,以散列值为索引在元数据查找表(Metadata Lookup Table, MLT)中来查找元数据存放的位置。当MDS 集群中有MDS 增加或移除时,只需修改MLT 上个别条目就可完成操作。其缺点在于:并没有真正做到分散目录重命名,链接和访问许可所带来的网络开销没有从根本上减少或消除,而且由于目录重命名操作带来大量的文件元数据迁移,导致系统需要的开销并没有减少,反而增加。 3 目录元数据分层管理策略 根据存储管理的机制可知,数据的访问需知道其文件属性,而文件属性又须先知道其目录路径属性,因为文件的访问不仅与根目录的元数据信息有关,还与目录路径中目录层 基金项目基金项目::国家“863”计划基金资助项目(2009AA01A402) 作者简介作者简介::方 圆(1980-),男,硕士研究生,主研方向:元数据管理策略,网络与信息安全;杜祝平,副教授;周功业,教授 收稿日期收稿日期::2011-07-05 E-mail :heeroyui01@https://www.360docs.net/doc/4b3684020.html,

数字航道空间数据库管理系统

长江空间数据库管理系统 1、项目介绍 建设长江航道数据库管理软件,包括元数据管理、数据预处理、数据管理、空间分析、测绘成果管理、区域局空间数据发布、空间数据应用接口等模块,同时接合各区域局业务需求,定制相关业务功能处理模块。要满足6个区域局和长江航道局、长江航道测量中心、长江规划研究院9个用户的需求。 2、系统功能模块 系统分为数据入库、数据管理、业务应用、系统设置、数据交换及建库工具等功能模块。 数据入库模块:包括数据质检检查、数据预处理和数据入库三大模块;主要用于数据入库及入库数据的准备工作。

数据入库:完成全要素数据、水深、DEM、DRG、DOM数据的入库工作。 数据质检:对入库数据进行质量检查,并将检查结果与清华山维进行对接,以在清华山维中显质检结果。 数据处理工具:对入库前数据进行相应处理,如果坐标转换、格式转换、DEM生成等。

数据编辑:对ESRI格式的数据进行简单的图形和属性编辑。 数据管理模块:包括数据数据浏览、基础数据管理、测绘成果管理、查询分析、制图与输出、测绘成果管理、DEM基础分析、工具箱等模块,主要完成对入库数据的管理和浏览工作,是数据管理系统的的核心。 数据制图输出:对当前分析结果进行制图成图,并打印输出等,以及对数据库中进行数据输出。

工具箱:提供数据处理的常用工具。 查询分析:查询统计模块主要是针对图层数据属性的查询与统计,这是对数据信息展示,方便用户随时了解数据成果的详细详细,整个“查询统计”功能模块包含以下功能点。 测绘成果管理:对工程测图成果、维护性测图成果、专项测图成果、ENC测图成果及整治建筑物测量成果等专题测绘成果进行管理,包括测量项目信息、成果入果、成果管理等。

元数据管理平台

元数据管理平台 技术白皮书 北京亿信华辰软件责任有限公司 2018年4月

目录 1.前言 (1) 1.1.关于本白皮书 (1) 1.2.背景介绍 (1) 1.3.产品定位 (1) 2.产品架构 (2) 2.1.概述 (2) 2.2.数据源层 (2) 2.3.采集层 (2) 2.4.数据层 (3) 2.5.功能层 (3) 2.6.访问层 (3) 3.产品功能特色 (4) 3.1.规范的元模型管理 (4) 3.2.端到端的自动化采集 (5) 3.3.全面的采集适配器 (5) 3.4.可灵活定制的采集模板 (6) 3.5.便捷的元数据检索 (7) 3.6.完善的元数据管理 (7) 3.7.强大的元数据版本管理 (8) 3.8.实时的元数据变更监控 (8) 3.9.数据地图鸟瞰全局 (9) 3.10.丰富的元数据分析应用 (9) 3.10.1.血缘分析 (9) 3.10.2.影响分析 (10) 3.10.3.全链分析 (10) 3.10.4.关联度分析 (11) 3.10.5.属性差异分析 (11) 3.11.出色的元数据检核机制 (12) 3.11.1.一致性检核 (12) 3.11.2.属性填充率检核 (12) 3.11.3.组合关系检核 (12) 3.12.自助式门户 (13) 3.13.丰富的服务接口 (13) 4.产品技术优势 (13)

4.1.系统设计原则 (13) 4.1.1.先进性 (14) 4.1.2.可维护性 (14) 4.1.3.可靠性 (14) 4.1.4.易用性 (15) 4.1.5.安全性 (15) 4.1.6.扩展性 (15) 4.2.可扩展采集适配器设计 (16) 4.3.采用MOF规范 (16) 4.4.支持基于XMI的数据交换 (17) 4.5.运用REST FUL架构 (18) 5.软硬软件环境 (19) 5.1.服务器配置推荐 (19) 5.2.客户端配置 (20) 5.2.1.客户端(建议配置) (20) 5.2.2.客户端浏览器 (20)

空间数据管理平台解决方案

空间数据管理平台解决方案

1.引言 1.1方案概述 空间数据管理平台解决方案主要是针对我国各级测绘院、信息中心建设区域地理信息基础框架的迫切需求,开发的一套专业性强、具有高可扩展性的基础地理信息数据库管理平台。 整个方案从管理多源、多尺度、多类型的基础地理信息数据的角度出发,开发了一些列软件系统,包括空间数据入库更新子系统、空间数据质量检查子系统以及空间数据管理平台等,可以实现对现有基础地理信息数据的整合、转换与集成管理,为政府、企业、公众等提供空间信息服务。 1.2系统特点 ●“多源、多尺度、多时相”基础地理数据的集成管理 由于基础地理数据具有多源、多尺度、多时相的特点,基础地理数据管理平台必须具有集成不同数据类型、不同比例尺、不同时间的各种基础地理数据的能力。 ●多比例尺数据集成 对于不同尺度的基础地理数据,其集成通过统一空间参考系(WGS84、西安80、北京54)或动态投影技术来实现。不同比例尺的

基础地理数据可以叠加一起显示,通过控制其显示比例实现地图的逐层显示效果。 ●多类型数据集成 对于不同类型的数据(如DLG与DRG)的集成采用按空间坐标范围或图幅索引实现。 ●多时序数据集成 对于不同时间段的基础地理数据,采用历史数据库来实现。根据数据更新周期的不同,采用按数据集、图幅、对象级别的历史数据库机制。 ●基础地理数据管理全过程支持 SuperMap D-Manager特别针对我国各级测绘院、信息中心设计开发,系统支持数据加工、数据入库管理、数据共享、数据发布的整个业务过程,可以快速为用户打造完备的基础地理数据中心,满足各种用户对基础地理信息的需求,为数字城市建设服务。 ●基础性与平台性 SuperMap D-Manager从设计到实现,充分考虑了其作为基础性、平台性等支撑性要求。SuperMap D-Manager在设计思路、软件开发实现上都具有高可扩展性的特点。

元数据管理平台的建立

元数据管理平台的建立 1.1 元数据简介 元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。 元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。 元数据的基本特点主要有: 1、元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要; 2、元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。 元数据体系构建了企业业务的逻辑框架和基本模型,从而决定了企业业务的功能特征、运行模式和系统运行的总体性能。企业业务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。 由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。

在数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能: (1)描述哪些数据在数据仓库中; (2)定义要进入数据仓库中的数据和从数据仓库中产生的数据; (3)记录根据业务事件发生而随之进行的数据抽取工作时间安排; (4)记录并检测系统数据一致性的要求和执行情况; (5)衡量数据质量。 1.2 元数据管理平台体系结构 图1 元数据管理平台体系结构 关键特性

空间数据库管理模式

空间数据管理模式 1.文件管理——ArcInfo中Coverage文件管理 ARC/INFO7.X以前版本以Coverage作为矢量数据的基本存储单元。一个Coverage存储指定区域内地理要素的位置、拓扑关系及其专题属性。每个Coverage一般只描述一种类型的地理要素(一个专题Theme)。位置信息用X,Y表示,相互关系用拓扑结构表示,属性信息用二维关系表存储。 ?Coverage的优点 空间数据与属性数据关联 空间数据放在建立了索引的二进制文件中,属性数据则放在DBMS表(TABLES)里面,二者以公共的标识编码关连。 矢量数据间的拓扑关系得以保存 由此拓扑关系信息,我们可以得知多边形是哪些弧段(线)组成、弧段(线)由哪些点组成、两条弧段(线)是否相连以及一条弧段(线)的左 或右多边形是谁?这就是通常所说的“平面拓扑”。 ?新技术条件下Coverage的缺陷 Coverage模型可取的方面,有的已经可以不再继续作为强调的因素; 拓扑关系的建立可以由面向对象技术解决(记录在对象中) 硬件的发展,不再将存储空间的节省与否作为考虑问题的重心 计算机运算能力的提高,已经可以实时地通过计算直接获得分析结果。 空间数据不能很好地与其行为相对应; 以文件方式保存空间数据,而将属性数据放在另外的DBMS系统中。这种方式对于日益趋向企业级和社会级的GIS应用而言,已很难适应(如海量数据、 并发等) Coverage模型拓扑结构不够灵活,局部的变动必须对全局的拓扑关系重新建立(Build) “牵一发而动全身”,且费时 在不同的Coverage之间无法建立拓扑关系; 河流与国界 人井与管道 2.文件-关系数据库混合型管理——ArcInfo、ArcView GIS的Shape文件和Mapinfo中的Tab文件管理 用文件系统管理几何图形数据,用商用关系型数据库管理属性数据,两者之间通过目标标识或内部连接码进行连接。在这一管理模式中,除通过OID(object,ID)连接之外,图形数据和属性数据几乎是完全独立组织、管理与检索的。当前GIS ODBC(Open Database Consortium,开放性数据库连接协议)

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

cStor 对象存储方案【云创大数据】

1. cStor对象存储简介 (2) 2. 访问接口 (3) 2.1. 用户 (3) 2.2. 容器 (4) 2.3. 对象 (5) 3. 数据标签 (7) 3.1. 操作接口 (7) 3.2. 检索接口 (7) 4. 前端消重 (8) 5. 数据加密 (9) 1

1.c Stor对象存储简介 cStor对象存储系统包含用户、容器和对象三类角色。 用户(Account):用户即数据访问者,cStor对象存储系统通过用户认证体系向特定用户提供数据存储服务。 容器(Container):容器是cStor对象存储系统的数据组织方式,所有对象都存储在容器中。 对象(Object):对象是cStor对象存储系统的基本单元,本质上是文件数据和文件属性的组合。 cStor对象存储系统的数据模型如下图所示: 2

2.访问接口 cStor对象存储系统提供REST(Representational State Transfer)风格接口以及多种SDK。 2.1.用户 方法URI 描述 GET /v1/{account}{?limit,marker,end_marker,format,prefix,de limiter} 显示用户细节及其容器列表 POST /v1/{account} 创建、更新、删除用户元数据 HEA D /v1/{account} 显示用户元数据信息示例:展示以json方式返回的用户容器列表 3

2.2.容器 方法URI 描述 GET /v1/{account}/{container}{?limit,marker,end_marker,prefix ,format,delimiter,path} 显示容器细节及其对象列表 PUT /v1/{account}/{container} 创建容器 DELET E /v1/{account}/{container} 删除空容器 POST /v1/{account} 创建、更新、删除容器元数据HEAD /v1/{account} 显示容器元数据信息 4

元数据管理方案

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。经过元数据自动抽取,用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针正确对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: ●整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,因此对于需要共享的数据要进行安全方面的限制,限制的手段能够有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理

2018年系统元数据管理系统分析

2018年系统元数据管理系统分析 1. 现状分析 随着经营分析系统规模不断扩大,系统所积累数据量也越来越大,收集到的海量数据背后隐藏着大量珍贵重要的信息,但也同时提高了系统的数据管理难度:一方面难以对这些数据进行有效解释,缺乏对业务流程执行的实时监控和管理;另一方面各部门数据与数据整合的难度也不断加大,影响到了经营分析系统中的数据质量。 如何对现有数据进行深层发掘,并揭示出埋藏在元数据中的趋势、因果关系、关联模式等核心信息?这是下一步深化经营分析系统应用的电信运营商需要解决的头等大事。构建BI,首先要保证的是数据质量。元数据管理解决的问题就是如何把业务系统中的数据分门别类地进行管理,并建立数据与数据之间的关系,为数据仓库的数据质量监控提供基础素材。 1.1 目前的困境 使用者(决策层、业务分析人员): 1) 经营分析系统中存在有很多报表,不同报表中存在一些相同的指标,这些指标往往不一致,给业务分析和决策工作造成很多困惑,必须花费很大的精力去检查核实。 2) 对于很多指标,不清楚其具体含义,不清楚其反映的问题,不清楚其具体算法和来龙去脉。

数据仓库项目开发维护者: 1) 不同报表中的同一指标不一致,必须花费很大的精力去检查,目前基本上是通过手工检查表和存储过程的方式,效率较低。 2) 没有完善的开发、维护规范。比如,新增一张分析报表,开发人员根据业务人员的需求制作完成之后,往往没有整理完善相应的数据指标解释和元数据管理,造成日后检查困难。 3) 开发、维护规范的执行力较低,没有行之有效的管控手段。不严格按照规范执行,随着项目的发展和时间的推移,导致数据仓库项目的健壮性和可维护性呈几何级数下降,给数据仓库的建设带来大量的重复工作。 1.2 什么是元数据管理 元数据最本质,最抽象的定义为:data about data (关于数据的数据)。而对于经营分析数据仓库而言,形象的定义为:元数据就是数据仓库的规范。这些规范包括对各种指标的定义、解释;包括对各表中数据的来龙去脉、数据的大小和格式的定义。 元数据管理,就是要建立一套行之有效的规范以及该规范的管控体系,实现从管理到查询到综合分析的全面管控,管理层次从接口到ETL处理、业务逻辑处理、结果展现处理和指标分析的方方面面,构成数据仓库应用系统的核心和基础。做到开发者能严格遵守规范,维护者和使用者有规范可查,有力的保障数据仓库项目的健壮性和可维护性。

华为对象存储服务

华为对象存储服务 产品技术白皮书 文档版本 1.2 发布日期2012-12-10 华为技术有限公司

版权所有? 华为技术有限公司2012。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明 和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 华为技术有限公司 地址:深圳市龙岗区坂田华为总部办公楼邮编:518129 网址:https://www.360docs.net/doc/4b3684020.html, 客户服务邮箱:support@https://www.360docs.net/doc/4b3684020.html, 客户服务电话:4008302118

前言 概述 本文档主要描述了华为对象存储服务的简单说明、应用场景和客户价值。为客户呈现了华为对象存储服务产品功能全貌,便于客户理解。 符号约定 在本文中可能出现下列标志,它们所代表的含义如下。 表示有高度潜在危险,如果不能避免,会导致人员死亡或严重伤害。 表示有中度或低度潜在危险,如果不能避免,可能导致人员轻微或中等伤害。 表示有潜在风险, 数据丢失、设备性能降低或不可预知的结果。 表示能帮助您解决某个问题或节省您的时间。 表示是正文的附加信息,是对正文的强调和补充。

对象存储系统

什么是对象存储? 存储局域网(SAN)和网络附加存储(NAS)是我们比较熟悉的两种主流网络存储架构,而对象存储(Object-based Storage)是一种新的网络存储架构,基于对象存储技术的设备就是对象存储设备(Object-based Storage Device)简称OSD。 对象存储的发展历史: 1999年成立的全球网络存储工业协会(SNIA)的对象存储设备(Object Storage Device)工作组发布了ANSI的X3T10标准。 对象存储的优点: 总体上来讲,对象存储同兼具SAN高速直接访问磁盘特点及NAS的分布式共享特点。 SAN(Storage Area Network)结构 采用SCSI 块I/O的命令集,通过在磁盘或FC(Fiber Channel)级的数据访问提供高性能的随机I/O和数据吞吐率,它具有高带宽、低延迟的优势,在高性能计算中占有一席之地,如SGI的CXFS文件系统就是基于SAN实现高性能文件存储的,但是由于SAN系统的价格较高,且可扩展性较差,已不能满足成千上万个CPU规模的系统。 来自中国存储网https://www.360docs.net/doc/4b3684020.html, NAS(Network Attached Storage)结构 它采用NFS或CIFS命令集访问数据,以文件为传输协议,通过TCP/IP实现网络化存储,可扩展性好、价格便宜、用户易管理,如目前在集群计算中应用

较多的NFS文件系统,但由于NAS的协议开销高、带宽低、延迟大,不利于在高性能集群中应用。 对象存储结构 核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(Object-based Storage Device,OSD)构建存储系统,每个对象存储设备具有一定的智能,能够自动管理其上的数据分布。 对象存储结构组成部分(对象、对象存储设备、元数据服务器、对象存储系统的客户端): 对象存储架构 1、对象 对象是系统中数据存储的基本单位,一个对象实际上就是文件的数据和一组属性信息(Meta Data)的组合,这些属性信息可以定义基于文件的RAID参数、

(整理)数据仓库与元数据管理

数据仓库与元数据管理 1. 前言 在事务处理系统中的数据,主要用于记录和查询业务情况。随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。 本文首先介绍了元数据的定义、作用和意义;然后讨论了数据仓库系统中元数据管理的现状和关于元数据的标准化情况;最后提出了建立元数据管理系统的步骤和实施方法。 2. 元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: ●数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义, 以及数据集市的位置和内容; ●业务系统、数据仓库和数据集市的体系结构和模式 ●汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、 预定义的查询与报告; ●由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数 据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统

华为云对象存储服务第三方客户端用户指南(crossFTP)(2017年10月30日)

华为对象存储服务 第三方客户端用户指南(crossFTP) 文档版本01 发布日期2015-05-30

版权所有? 华为技术有限公司2015。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明 和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 华为技术有限公司 地址:深圳市龙岗区坂田华为总部办公楼邮编:518129 网址:https://www.360docs.net/doc/4b3684020.html,

目录 1 关于crossFTP (3) 1.1 crossFTP简介 (3) 1.2 下载crossFTP (3) 1.3 安装crossFTP (4) 2 使用crossFTP (5) 2.1 连接FTP站点 (5) 2.1.1 使用快速连接 (5) 2.1.2 使用新连接 (5) 2.1.3 断开当前的站点 (6) 2.1.4 重新连接上次站点 (6) 2.2 传输文件和目录 (6) 2.2.1 上传文件对象 (6) 2.2.2 中断队列操作 (7) 2.2.3 开始队列传输 (7) 2.2.4 当前项目传输后暂停队列 (7) 2.3 移动对象 (7) 2.4 设置对象属性 (7) 2.4.1 设置访问控制权限 (8) 2.4.2 设置元数据信息 (9) 2.4.3 生成访问对象的URL (9) 2.5 其它操作 (10)

空间数据库复习重点答案完整)

1、举例说明什么是空间数据、非空间数据?如何理解空间查询和非空间查询的区别?常用的空间数据库管理方式有哪几种及其各自特点。 数据:是指客观事务的属性、数量、位置及其相互关系等的符号描述。空间数据:是对现实世界中空间对象(事物)的描述,其实质是指以地球表面空间位置为参照,用来描述空间实体的位置、形状、大小及其分布特征等诸多方面信息的数据。河流的泛洪区,卫星影像数据、气象气候数据等都可以是空间数据书店名称店员人数,去年的销售量,电话号码等是非空间数据 空间查询是对空间数据的查询或命令 人工管理阶段 文件管理阶段缺点: 1)程序依赖于数据文件的存储结构,数据文件修改时,应用程序也随之改变。 2)以文件形式共享,当多个程序共享一数据文件时,文件的修改,需得到所有应用的许可。不能达到真正的共享,即数据项、记录项的共享。 常用: 文件与数据库系统混合管理阶段优点:由于一部分建立在标准的RDBMS上,存储和检索数据比较有效、可靠。 缺点:1)由于使用了两个子系统,它们各自有自己的规则,查询操作难以优化,存储在RDBMS外的数据有时会丢失数据项的语义。 2)数据完整性的约束条件可能遭破坏,如在几何空间数据系统中目标实体仍存在,但在RDBMS中却已删除。 3)几何数据采用图形文件管理,功能较弱,特别是在数据的安全性、一致性、完整性、并发控制方面,比商用数据库要逊色得多 全关系型空间数据库管理系统 ◆属性数据、几何数据同时采用关系式数据库进行管理 ◆空间数据和属性数据不必进行烦琐的连接,数据存取较快 ◆属性间接存取,效率比DBMS的直接存取慢,特别是涉及空间查询、对象嵌套等复杂的空间操作 ◆GIS软件:System9,Small World、GeoView等 本质:GIS软件商在标准DBMS顶层开发一个能容纳、管理空间数据的系统功能。 对象关系数据库管理系统 优点:在核心DBMS中进行数据类型的直接操作很方便、有效,并且用户还可以开发自己的空间存取算法。缺点:用户须在DBMS环境中实施自己的数据类型,对有些应用相当困难。 面向对象的数据库系统。 采用面向对象方法建立的数据库系统; 对问题领域进行自然的分割,以更接近人类通常思维的方式建立问题领域的模型。 目前面向对象数据库管理系统还不够成熟,价格昂贵,在空间数据管理领域还不太适用; 基于对象关系的空间数据库管理系统可能成为空间数据管理的主流 2、什么是GIS,什么是SDBMS?请阐述二者的区别和联系。 GIS是一个利用空间分析功能进行可视化和空间数据分析的软件。它的主要功能有:搜索、定位分析、地形分析、流分析、分布、空间分析/统计、度量GIS 可以利用SDBMS来存储、搜索、查询、分享大量的空间数据集 改:地理信息系统是以地理空间数据库为基础,在计算机软硬件的支持下,运用系统工 科学管理和综合分析具有空间内涵的地理数据,以提供管理、决策等所需信息的技术系统。简单的说,地理信息系统就是综合处理和分析地理空间数据的一种技术系统。

元数据管理

1.元数据管理技术及应用现状 朋友老朱在最近惊喜地发现,在营业部的每周例会上,原先各部门针对每日用户数的争吵声,现在逐渐销声匿迹了。原来,老朱所在的这家电信运营商,最近刚刚验收并启用了一个元数据管理平台工具。通过这一平台,IT部门可以在那些曾经引发激烈争吵的数字后面加上详细的注解。这样,即便各部门得出的当日用户数数值不一样,也能在注解中清楚地看到具体的差异在哪里。如此,自然再没有了吵来吵去的必要。 元数据,最常见的定义是:“关于数据的数据”。更准确一点说:元数据是描述流程、信息和对象的数据。这些描述涉及像技术属性(例如,结构和行为)这样的特征、业务定义(包括字典和分类法)以及操作特征(如活动指标和使用历史)。早在上世纪末,元数据的概念和相关工具就已经出现,但限于当时的数据量还不够大,而元数据本身又包含太多的内容,以至于它并未得到充分利用。而在今天看来,元数据正在成为解决诸多数据问题时必须要抓住的一个“精髓”要素。 消弭争吵 在此前一年中,老朱所在的那家电信运营商,各部门之间经常就每日用户数这类问题的指标数值不一致而吵得面红耳赤。其实,在其他电信公司或者其他行业中也都存在着类似问题。简单来讲,这些公司通过各个时期的IT建设,形成了很多个独立分开的系统。以电信运营商为例,就有计费系统、网络系统、OA系统、财会系统和客服系统等等。在这些系统中,存有不同的客户信息,具体体现就是不同格式的表。 两年前,公司的数据仓库项目建设完成,本以为这会大步提升IT系统的“智能性”,没想到,基层的反映却是根本没法用。而其中的原因就在于,数据质量没法保证,也即:在业务逻辑上并不准确,各部门对于指标的定义不能统一。 以当日用户数为例。对于这一指标,市场部、网络部、计费部等部门给出的定义并不一样。按照元数据技术的术语来讲,就是在业务元数据上,大家对于业务的认识并不统一。比如:计费部门认为,一个用户当天曾拨打电话,就可以计入到当日用户数;而财务部门则认定,只有在发生费用之后才能计入;至于网络部,则认为当天开机的用户就可以算作当日用户。如此一来,各部门的当日用户数数值自然就不一样:计费中心的系统显示,当日用户数有6000;市场部的系统显示却只有4000;到了财务部门的系统中,显示仅有3000个。在这种情况下,担负着业务压力的业务人员很可能谁也说服不了对方来接受自己的数字,导致大家对数据仓库系统本身的可信度也就打了折扣。 事实上,类似问题在目前已经建成的数据仓库项目中还有很多。其中的一大难题就是,原先未能统一的定义导致了某种指标的不一致,而要搞清楚为什么不一致,就得反查数据仓库中的这些表在一开始的时候是如何定义的,表与表之间的联络关系是怎样的。这种反查工作自然要求IT部门的人员就得详细查阅原先软件的设计。但问题是,现在的软件开发一般都是迭代式开发,每个阶段都有不同的人在做。回查一个表,很可能需要涉及到这个过程中的每一个开发人员。事实上,很少有人能做到这一点。即便费尽心机终于查到了,一个月的时间也过去了。

相关文档
最新文档