存储技术白皮书

存储技术白皮书
存储技术白皮书

存储技术白皮书

目录

第1章网络存储主要技术 (8)

1.1概述 (8)

1.2 DAS:直接附加存储 (8)

1.3 SAN:存储区域网络 (9)

1.3.1什么是SAN? (10)

1.3.2 SAN的误区 (10)

1.3.3 SAN的组成 (10)

1.3.4 FC SAN的问题 (11)

1.3.5 IP SAN (12)

1.4 NAS:网络附加存储 (14)

1.5 SAN和NAS (15)

第2章主要协议和相关技术 (16)

2.1 SCSI (16)

2.2 FC(光纤通道) (17)

2.3 iSCSI (19)

2.4 iSCSI与光纤通道的比较 (20)

第3章文件系统相关知识 (22)

3.1什么是文件系统 (22)

3.2主流文件系统和特点 (23)

3.3 NFS和CIFS网络文件系统工作原理和特点 (27)

3.4存储系统与文件系统的关系 (28)

第4章RAID技术 (29)

4.1 RAID概述 (29)

4.2 RAID级别 (29)

4.2.1 RAID0 (30)

4.2.2 RAID1 (31)

4.2.3 RAID2 (32)

4.2.4 RAID3 (32)

4.2.5 RAID4 (33)

4.2.6 RAID5 (33)

4.2.7 RAID6 (34)

4.2.8 RAID10 (35)

4.2.9 RAID01 (36)

4.2.10 JBOD (37)

4.3不同RAID级别对比 (38)

第5章主机系统高可用技术 (41)

5.1概述 (41)

5.1.1双机热备份方式 (43)

5.1.2双机互备份方式 (49)

5.1.3群集并发存取方式 (51)

5.2工作模式 (53)

5.2.1双机热备份方式 (53)

5.2.2双机互备方式 (54)

5.2.3群集并发存取方式 (54)

5.3适用场合 (54)

5.4对存储系统的要求 (55)

第6章数据一致性 (58)

6.1数据一致性概述 (58)

6.2 Cache引起的数据一致性问题 (58)

6.3时间不同步引起的数据一致性问题 (60)

6.4文件共享中的数据一致性问题 (60)

第7章数据复制与容灾 (61)

7.1灾难恢复/业务连续性 (61)

7.2数据备份系统 (65)

7.2.1数据备份 (66)

7.2.2数据复制 (68)

7.3数据一致性 (71)

7.4总结 (73)

第8章备份技术 (73)

8.1什么是备份 (73)

8.2备份与拷贝、归档的区别 (74)

8.3常规备份的实现方式 (74)

8.4 LAN Free和Serverless备份 (76)

8.5主流备份软件和介质 (77)

8.6备份技术新趋势 (83)

9.1 HBA卡介绍 (86)

9.1.1 FC HBA相关知识: (86)

9.1.2主要HBA卡厂商 (87)

9.1.3 iSCSI HBA相关知识: (87)

9.1.4 iSCSI HBA和TOE网卡主要厂商 (88)

9.2 FC连接设备介绍 (88)

9.2.1 FC HUB相关知识: (88)

9.2.2 FC Switch相关知识: (89)

9.2.3 FC Director相关知识: (89)

9.2.4 iSCSI-FC存储路由器 (89)

9.2.5 FC Switch和FC Director主要厂商 (90)

第10章信息生命周期 (90)

10.1什么是信息生命周期 (90)

10.2信息生命周期的实现 (91)

10.3实现ILM的技术保障和面临的挑战 (92)

10.4信息生命周期管理现状 (92)

10.5法规遵从与信息生命周期管理 (93)

10.6与信息生命周期相关的存储技术 (93)

10.6.1固定内容管理: (93)

10.6.2 WORM: (94)

10.7怎样看待信息生命周期管理 (94)

11.1 SMI-S (95)

11.2 CDP(持续数据保护) (96)

11.3虚拟存储 (96)

11.4网格计算 (97)

11.5高性能计算 (97)

11.6负载均衡 (98)

第12章常见主机及操作系统 (99)

12.1主机架构及操作系统概述 (99)

12.1.1主机架构 (99)

12.1.2操作系统 (99)

12.1.3操作系统比较 (100)

12.2常见主机厂商及常见产品介绍 (100)

12.2.1 IBM: (100)

12.2.2 SUN: (101)

12.2.3 Fujitsu: (102)

12.2.4 HP: (103)

12.3操作系统应用特点 (105)

第13章常见数据库及应用系统 (105)

13.1数据库厂商介绍 (105)

13.1.1 Oracle (106)

13.1.2 DB2 (111)

13.1.4 MS SQL Server (116)

第1章网络存储主要技术

1.1 概述

存储系统是整个IT系统的基石,是IT技术赖以存在和发挥效能的基础平台。

早先的存储形式是存储设备(通常是磁盘)与应用服务器其他硬件直接安装于同一个机箱之内,并且该存储设备是给本台应用服务器独占使用的。

随着服务器数量的增多,磁盘数量也在增加,且分散在不同的服务器上,查看每一个磁盘的运行状况都需要到不同的应用服务器上去查看。更换磁盘也需要拆开服务器,中断应用。于是,一种希望将磁盘从服务器中脱离出来,集中到一起管理的需求出现了。不过,一个问题:如何将服务器和盘阵连接起来?

面临这样的问题,有厂商提出了SCSI协议,通过专用的线缆将服务器的总线和存储设备连接起来,通过专门的SCSI指令来实现数据的存储。后来发展到FC协议。这样,多个服务器可以通过SCSI线缆或光纤建立与存储系统的连接。这样的方式,我们称之为直接附加存储(DAS)。

1.2 DAS:直接附加存储

DAS(Direct Attached Storage—直接附加存储)是指将存储设备通过SCSI线缆或光纤通道直接连接到服务器上。

一个SCSI环路或称为SCSI通道可以挂载最多16台设备;

FC可以在仲裁环的方式下支持126个设备;

DAS方式实现了机内存储到存储子系统的跨越,但是缺点依然有很多:

◆扩展性差,服务器与存储设备直接连接的方式导致出现新的应用需求时,只能为新

增的服务器单独配置存储设备,造成重复投资。

◆资源利用率低,DAS方式的存储长期来看存储空间无法充分利用,存在浪费。不同

的应用服务器面对的存储数据量是不一致的,同时业务发展的状况也决定这存储数

据量的变化。因此,出现了部分应用对应的存储空间不够用,另一些却有大量的存

储空间闲置。

◆可管理性差,DAS方式数据依然是分散的,不同的应用各有一套存储设备。管理分

散,无法集中。

异构化严重,DAS方式使得企业在不同阶段采购了不同型号不同厂商的存储设备,设备之间异构化现象严重,导致维护成本据高不下。

1.3 SAN:存储区域网络

1.3.1 什么是SAN?

SAN(Storage Aera Network )存储区域网络,是一种通过网络方式连接存储设备和应用服务器的存储构架,这个网络专用于主机和存储设备之间的访问。当有数据的存取需求时,数据可以通过存储区域网络在服务器和后台存储设备之间高速传输。

1.3.2 SAN的误区

SAN的发展历程较短,从90年代后期兴起,由于当时以太网的带宽有限,而FC协议在当时就可以支持1Gb的带宽,因此早期的SAN存储系统多数由FC存储设备构成,导致很多用户误以为SAN就是光纤通道设备,其实SAN代表的是一种专用于存储的网络架构,与协议和设备类型无关,随着千兆以太网的普及和万兆以太网的实现,人们对于SAN的理解将更为全面。

1.3.3 SAN的组成

SAN由服务器,后端存储系统,SAN连接设备组成;

后端存储系统由SAN控制器和磁盘系统构成,控制器是后端存储系统的关键,它提供存储接入,数据操作及备份,数据共享、数据快照等数据安全管理,及系统管理等一系列功能。

后端存储系统为SAN解决方案提供了存储空间。使用磁盘阵列和RAID策略为数据提供

存储空间和安全保护措施。

连接设备包括交换机,HBA卡和各种介质的连接线。

SAN的优点:

◆设备整合,多台服务器可以通过存储网络同时访问后端存储系统,不必为每台服务

器单独购买存储设备,降低存储设备异构化程度,减轻维护工作量,降低维护费用;

◆数据集中,不同应用和服务器的数据实现了物理上的集中,空间调整和数据复制等

工作可以在一台设备上完成,大大提高了存储资源利用率;

◆高扩展性,存储网络架构使得服务器可以方便的接入现有SAN环境,较好的适应

应用变化的需求;

总体拥有成本低,存储设备的整合和数据集中管理,大大降低了重复投资率和长期管理维护成本;

1.3.4 FC SAN的问题

◆兼容性差,FC协议发展时间短,开发和产品化的大厂商较少,而且厂商之间各自

遵循内部标准,导致不同厂商的FC产品之间兼容性和互操作差,即使同一厂商的

不同版本不同型号的FC产品也存在类似的问题;

◆成本高昂,FC SAN的成本包括先期设备成本和长期维护成本,由于FC协议在成熟

度和互联性上无法与以太网相比,导致FC协议只能局限于存储系统应用,无法实

现大规模推广,这直接导致了FC产品价格的昂贵;同样与FC-SAN相关的所有产品

都身价高昂,无论是备份软件的FC-SAN模块,甚至SCSI硬盘简单更换连接口成为

FC硬盘,都要翻上几倍的价钱;另外兼容性差也导致了用户无法自己维护FC设备,必须购买昂贵的厂商服务,如果用户的环境中包括多种FC存储设备,用户每年花

在FC-SAN的系统保修服务的费用占当年采购成本的15%左右。如果再算上系统安

装部署阶段的专业服务费用支出,以5年计算,整个服务费用支出与系统采购达到

1:1!

◆扩展能力差,FC-SAN高昂的成本和协议封闭,使得产品的开发、升级、扩容代价

高昂。从2000年以来,存储市场中最大的中端部分就一直5年不变地维持着前端两

个存储控制器,后端两个(最多四个)光纤环路的结构。不仅产品本身无法进行性

能和处理能力扩展,产品型号向上的升级付出的代价几乎相当于购买一套新的设

备;

◆异构化严重,各厂商按照自有标准开发各种功能,如快照、复制、镜像等,导致不

同厂商存储设备之间功能无法互通,结果又出现的DAS方式的各种问题,重复投资、难以管理的局面

SAN的出现,从根本上是要建立一个开放、高性能、高可靠、高可扩展性的存储资源平台,从而能够应对快速的业务变化和数据增长,然而以上问题使得用户使用网络存储的目标产生了严重的偏离,很多用户甚至开始质疑为什么要放弃DAS而使用昂贵复杂的

FC-SAN。

1.3.5 IP SAN

IP网络是一个开放,高性能,高可扩展,可靠性高的网络平台。

◆IP网是国际互连网,企业内部网络的主要形式。经过多年发展,IP网络实现了最高

的可管理性和互操作性。

◆TCP/IP协议弹性强,适应网络的各种变化,无需停止服务即可实网络变更。

◆1G的以太网已经普及,2006年会扩展到10G。FC在2008年才能到4G。

◆不同厂家的IP网设备兼容性好。网络设备采购成本低廉。

◆以太网知识普及,以太网多年的发展培养了无数的网络管理人员。

IP SAN的基本想法是通过高速以太网络连接服务器和后端存储系统。将SCSI指令和数据块经过高速以太网传输,继承以太网的优点,实现建立一个开放、高性能、高可靠性,高可扩展的存储资源平台。

IP SAN

将数据块和SCSI指令通过TCP/IP协议承载,通过千兆/万兆专用的以太网络连接应用服务器和存储设备,这样的解决方案称为IP SAN。

IP SAN遵循IETF的iSCSI标准,通过以太网实现对存储空间的块级访问,由于早先以太网速度,数据安全性以及系统级高容错要求等问题,这一标准经历了三年的认证过程,在包括IBM、HP、SUN、COMPAQ、DELL、Intel、Microsoft、EMC、HDS、Brocade等众多家厂商的努力,和万兆/千兆以太网10GBit Ethernet支撑下,IP SAN/iSCSI已解决了网络瓶颈,数据安全和容错等问题,进入了实用阶段。

IP SAN继承了IP网络的优点:

◆实现弹性扩展的存储网络,能自适应应用的改变。

◆已经验证的传输设备保证运行的可靠性

◆以太网从1G向10G及更高速过渡,只需通过简单的升级便可得到极大的性能提升,

并保护投资

◆IP跨长距离扩展能力,轻松实现远程数据复制和灾难恢复

◆大量熟悉的网络技术和管理的人才减少培训和人力成本

将以太网的经济性引入存储降低用户总体拥有成本。

1.4 NAS:网络附加存储

NAS(Network Attached Storage—网络附加存储),是一种文件共享服务。拥有自己的文件系统,通过NFS或CIFS对外提供文件访问服务。

NAS包括存储器件(例如硬盘驱动器阵列、CD或DVD驱动器、磁带驱动器或可移动的存储介质)和专用服务器。专用服务器上装有专门的操作系统,通常是简化的unix/linux 操作系统,或者是一个特殊的win2000内核。它为文件系统管理和访问做了专门的优化。专用服务器利用NFS或CIFS,充当远程文件服务器,对外提供文件级的访问。

NAS的优点:

◆NAS可以即插即用。

◆NAS通过TCP/IP网络连接到应用服务器,因此可以基于已有的企业网络方便连接。

◆专用的操作系统支持不同的文件系统,提供不同操作系统的文件共享。

◆经过优化的文件系统提高了文件的访问效率,也支持相应的网络协议。即使应用服

务器不再工作了,仍然可以读出数据。

NAS的缺点:

1、NAS设备与客户机通过企业网进行连接,因此数据备份或存储过程中会占用网络的带宽。这必然会影响企业内部网络上的其他网络应用。共用网络带宽成为限制NAS性能的主要问题。

2、NAS的可扩展性受到设备大小的限制。增加另一台NAS设备非常容易,但是要想将两个NAS设备的存储空间无缝合并并不容易,因为NAS设备通常具有独特的网络标识符,存储空间的扩大上有限。

3、NAS访问需要经过文件系统格式转换,所以是以文件一级来访问。不适和Block级的应用,尤其是要求使用裸设备的数据库系统。

1.5 SAN和NAS

SAN和NAS经常被视为两种竞争技术,实际上,二者能够很好地相互补充,以提供对不同类型数据的访问。SAN针对海量、面向数据块的数据传输,而NAS则提供文件级的数据访问和共享服务。

尽管这两种技术类似,但严格意义上讲NAS其实只是一种文件服务。

NAS和SAN不仅各有应用场合,也相互结合,许多SAN部署于NAS后台,为NAS设备提供高性能海量存储空间。

数据库审计系统_技术白皮书V1.0

此处是Logo 数据库审计系统 技术白皮书 地址: 电话: 传真: 邮编:

■版权声明 本文中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属北京所有,受到有关产权及版权法保护。任何个人、机构未经北京的书面授权许可,不得以任何方式复制或引用本文的任何内容。 ■适用性声明 文档用于撰写XX公司产品介绍、项目方案、解决方案、商业计划书等。

目录 一.产品概述 (1) 二.应用背景 (1) 2.1现状与问题 (1) 2.1.1现状 (1) 2.1.2问题 (1) 2.2需求分析 (3) 2.2.1政策需求 (3) 2.2.1.1《信息系统安全等级保护基本要求》 (3) 2.2.1.2《商业银行信息科技风险管理指引》 (3) 2.2.2技术需求 (4) 2.2.3管理需求 (4) 2.2.4性能需求 (4) 2.2.5环境与兼容性需求 (5) 2.2.6需求汇总 (5) 三.产品介绍 (5) 3.1目标 (5) 3.2产品功能 (6) 3.2.1数据库访问行为记录 (6) 3.2.2违规操作告警响应 (6) 3.2.3集中存储访问记录 (6) 3.2.4访问记录查询 (7) 3.2.5数据库安全审计报表 (7) 3.3产品部署 (7) 3.3.1旁路部署 (7) 3.3.2分布式部署 (8) 3.4产品特性 (9) 3.4.1安全便捷的部署方式 (9) 3.4.2日志检索能力 (9) 3.4.3灵活的日志查询条件 (10) 3.4.4灵活的数据库审计配置策略 (10) 3.4.5数据库入侵检测能力 (10) 3.4.6符合审计需求设计 (11) 四.用户收益 (11) 4.1对企业带来的价值 (11) 4.2全生命周期日志管理 (12) 4.3日常安全运维工作的有力工具 (12)

大数据存储技术研究

大数据存储技术研究 3013218099 软工二班张敬喆 1.背景介绍 大数据已成为当前社会各界关注的焦点。从一般意义上讲,大数据是指无法在可容忍的时间内,用现有信息技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。近年来,大数据的飙升主要来自人们的日常生活,特别是互联网公司的服务。据著名的国际数据公司(IDC)的统计,2011年全球被创建和复制的数据总量为1.8ZB(1ZB=1021B),其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB,1PB=1015B)。 然而,与大数据计算相关的基础研究,诸如大数据的感知与表示、组织与存储、计算架构与体系、模式发现与效应分析等,目前还没有成体系的理论成果。对于大数据计算体系的研究,一方面,需要关注大数据如何存储,提供一种高效的数据存储平台;另一方面,为了应对快速并高效可靠地处理大数据的挑战,需要建立大数据的计算模式以及相关的优化机制。 2.相关工作 为了应对数据处理的压力,过去十年间在数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的OLTP内存数据库外(Altibase,Timesten),其他的技术创新和产品都是面向数据分析的,而且是大规模数据分析的,也可以说是大数据分析的。 在这些面向数据分析的创新和产品中,除了基于Hadoop环境下的各种NoSQL外,还有一类是基于Shared Nothing架构的面向结构化数据分析的新型数据库产品(可以叫做NewSQL),如:Greenplum(EMC收购),Vertica(HP 收购),Asterdata(TD 收购),以及南大通用在国内开发的GBase 8a MPP Cluster等。目前可以看到的类似开源和

数据库的存储结构(文件、记录的组织和索引技术)

数据库的存储结构(文件、记录的组织和索引技术) by 沈燕然0124141 利用课余时间自学了第6章《数据库存储结构》,对于数据 库不同层次的存储结构,文件记录组织和索引技术有了一定的 了解,在这篇札记中将会结合一些具体应用中涉及到的数据存 储和索引知识,以及通过与过去学习过的一些数据结构比较来 记录自己学习的心得体会。这些实例涉及不同的数据库系统, 如Oracle, DB2和Mysql等等,它们之间会有一些差异。不过 本文旨在探讨数据存储方面的问题,因而兼容并包地将其一并收入,凡是可能需要说明之处都会加上相应的注解。:) 1、数据库(DBS)由什么组成?——逻辑、物理和性能特征 1、什么是数据库系统(DBS)——DBS用文件系统实现 在关系模型中,我们把DBS看成关系的汇集。DBS存在的目的就是为了使用户能够简单、方便、容易地存取数据库中的数据。因此在用户的眼中,数据库也就是以某种方式相关的表的集合。用户并不需要去关心表之间关系,更不需要了解这些表是怎样存储的。但是我们现在从DBA(数据库管理员)的角度来看,情况就比那稍稍复杂一点。 实际的数据库包含许多下面列出的物理和逻辑对象: ?表、视图、索引和模式(确定数据如何组织) ?锁、触发器、存储过程和包(引用数据库的物理实现) ?缓冲池、日志文件和表空间(仅处理如何管理数据库性能) 2、什么是表空间?——表空间相当于文件系统中的文件夹。 表空间被用作数据库和包含实际表数据的容器对象之间的一层,表空间可以包含多个不同的表。用户处理的实际数据位于表中,他们并不知道数据的物理表示,这种情况有时被称为数据的物理无关性。

上图描述了一个ORACLE数据库大致的表空间组织,USER中存放主要的数据表,TEMP存放临时数据表,INDX存放索引,TOOLS存放回退段(RBS). 表空间在DB2数据库系统中是比较典型的说法,在Mysql等系统中也直接使用文件系统中文件夹的概念。新建一个表的时候可以指定它所在的表空间,至于用文件具体存储数据时如何存储这可能就是各个数据库系统的商业机密了,至少DB2是这样。另外值得关注的一点是不同于oracles对表空间的严格要求,Mysql的数据库形式相对比较简单,以文件夹的形式存放在安装目录的/data/下面,该数据库的每一个表对应两个文件,一个存放表中数据,另一个存放元数据信息,也就是建表时指明的列属性等等信息。 3、文件中的记录在物理上如何实现?——文件组织形式 在外存中,DB以文件形式组织,而文件由记录组成。文件结构由OS的文件系统提供和管理。文件组织有两种方式——定长记录格式和变长记录格式。 那种格式更好? 定长记录格式——优点是插入操作较简单。 缺点是对记录长度有硬性要求,而且有的记录可能横跨多个快,降低读写效率。 变长记录格式——优点是记录长度自由方便 缺点是记录长度差异导致删除后产生大量“碎片”,记录很难伸长,尤其“被拴记录”移动代价相当大。 中庸之道——预留空间和指针方式 记录长度大多相近——采用预留空间方法,取最大记录长为统一标准,在短记录多于空间处填特定空值或记录尾标志符。 记录长度相差很大——采用指针形式(每纪录后的指针字段把相同属性值记录链接起来)。文件中使用两种块——固定块(存放每条链中第一条记录)和溢出块(存放其 余纪录)。 3、记录在文件中怎样组织?

云存储服务技术白皮书(终)

HUAWEI TECHNOLOGIES CO.,LTD. 华为云存储服务技术白皮书 huawei 2012/6/26

目录 1华为云存储服务介绍 (5) 1.1简介 (5) 1.2服务定位 (5) 2华为云存储应用场景 (6) 2.1网盘服务 (6) 2.2互联网海量数据存储 (7) 2.3数据备份/容灾 (7) 2.4数据归档 (8) 2.5BigData/HPC (9) 3华为云存储服务概念及功能介绍 (10) 3.1云存储基本概念 (10) 3.1.1对象(Objects) (10) 3.1.2存储空间 (10) 3.1.3REST接口 (11) 3.2云存储功能 (11) 3.3访问权限控制 (12) 3.4线下大数据量导入/导出服务 (13) 3.5对象的版本化管理 (13) 3.6可定制的日志服务 (14) 4华为云存储服务特点 (14) 4.1易用性 (14) 4.2高扩展性 (14) 4.3高可靠性 (15) 4.3.1数据可靠性 (15) 4.3.2数据校验 (16)

4.3.3数据自动修复 (16) 4.4高可用性 (16) 4.4.1网络级可靠性设计.........................................错误!未定义书签。 4.4.2节点可靠性设计 (17) 4.4.3进程可靠性设计 (17) 4.5高性能 (17) 4.5.1并发访问性能 (17) 4.5.2吞吐能力 (17) 4.6安全性 (18) 4.6.1软件控制安全 (18) 4.6.2数据分块存储(暂未实现) (18) 4.7易管理性 (18) 4.8按需计费 (19) 5华为云存储服务结构简介 (19) 5.1华为云存储服务框架简介 (19) 5.2UDS结构简介 (20) 5.2.1UDS系统结构描述..........................................错误!未定义书签。 5.2.2多网络平面简介.............................................错误!未定义书签。6华为云存储服务使用说明. (20) 6.1API接口介绍 (21) 6.1.1服务操作 (21) 6.1.2存储空间操作 (21) 6.1.3对象操作 (21) 6.2多种语言的SDK (22)

图像数据存储技术

图像数据存储技术

————————————————————————————————作者:————————————————————————————————日期: 1

图像数据存储技术 摘要:,将多媒体信息引入到系统当中,随着数据库应用技术的发展,已经成为人们对现代数据库应用系统的要求之一。本文通过对图像数据的不同存储方式的分析,提出在学生信息系统中以数据库方式存储学生照片的方法,并且使用VB 6.0 中的ADO 数据控件实现了图像数据入库操作及照片的浏览。 关键词:信息系统;图像; 概述:随着数据库应用技术的发展,将多媒体信息引入到系统当中,使管理系统功能更强大,界面更美观,信息更丰富,已经成为人们对现代数据库应用系统的要求之一。在学生信息系统中,除了需要将每一名学生的基本数据信息存入系统,还需要将该学生的照片以图像信息的形式存入系统。这样可以随时查看学生的照片,或用来制作学生证等证件,以提高证件的可信度并减少证件照片处理的工作量。 图像的数据量要远远大于数据库中存储的普通数据的数据量。因此,组织与管理好图像数据与数据库应用系统的结构、效率、安全性、完整性息息相关。本文给出了一种在学生信息系统中组织与管理图像信息的方法,并利用ADO 技术设计实现了图像信息的入库及浏览等操作。 1.存储图像数据的策略 1.1 以文件方式存储图像数据 图像信息通常是通过扫描或摄像的方法进入系统的,并且一般的多媒体系统中都采用文件形式存放数据。所以在数据库应用系统中,可以采用文件形式存放图像数据。首先,将每一幅图像组织成一个文件,众多的图像文件形成图像文件集。在学生基础信息表中设置一个存放照片图像文件物理文件名的字段(pFileName),在该字段中存放每一名学生照片文件的存储路径及文件名。这样就建立起了学生基础信息表与照片文件集之间的关联(如图1 所示)。

AS3000技术白皮书

AS3000技术白皮书 1. 产品简介 AS3000是浪潮面向金融电信、勘探勘测、空天信息、生物工程、气象、能源等海量数据业务的广大客户,自主研发的拥有完全自主知识产权的海量存储系统平台。AS3000同时支持NAS、IPSAN、FCSAN功能,融合iSCSI、FC、Infiniband 及10Gb万兆主机接口,囊括了目前主流的存储网络架构及主机连接方式。AS3000海量存储系统平台能高效、合理整合用户目前的存储网络架构,统一部署和集中管理,降低能耗,降低整体拥有成本(TCO)。在提供网络存储系统各项功能的基础上,融合数据保护,是高可靠、高性能、智能化兼具的新一代存储系统平台。 2. 产品优势 海量存储,融合创新 ◆多控制器体系架构,各控制器间可实现负载均衡,避免单控制器故障带来的 风险和性能的瓶颈 ◆支持NFS/CIFS等多种文件共享协议,可安装部署于Windows、Linux、Unix 等多种操作系统并存的复杂网络环境中,无需为各种文件协议单独设置存储,可轻松实现跨操作系统的数据存储与共享 ◆支持NAS/IPSAN/FCSAN,支持IP/FC-SAN和NAS同时运行,满足客户在 不同时间、不同地点、不同业务对存储的不同需求 ◆支持丰富的主机连接接口,支持iSCSI、FC、InfiniBand及万兆主机连接, 无缝接入用户现有环境,同时可以为用户提供高带宽的IB及万兆网络连接,满足客户对高带宽及高性能的差异化需求

◆全面支持SSD/FC/SAS/SATA磁盘,模块化的容量扩展模式 数据持续保护,业务运行无忧 ◆支持数据卷隔离映射功能、数据快照功能、快照回滚、远程卷复制(同步/ 异步)、远程数据复制及恢复、逻辑分区动态扩容 ◆支持Active-Active、Active-Standby等控制器工作模式,保障整体系统的高 可用,确保数据存取及业务运行万无一失 ◆系统可用性达到99.999% 模块化设计,人性化管理 ◆AS3000各主要部件均采用模块设计,客户按需选择,维护、升级、管理简 单方便 ◆支持自动构建RAID、各RAID级别间可在线迁移不影响正常数据应用 ◆完备监控管理方式,当系统出现异常时,除了通过机器指示灯报警外,可通 过邮件方式将异常状况及时通知管理员 ◆集中部署,统一管理 绿色节能 ◆全系统选取节能降耗的处理器、芯片组、风扇和散热片等部件,提高系统的 能效利用率 ◆采用独特的机箱结构设计,优化散热,降低能耗 ◆支持Maid磁盘节能技术,降低磁盘能耗,节约开支 ◆支持自动精简技术,大大提高存储资源利用率 3. 产品技术规格

H3C ONEStor存储技术白皮书

H3C ONEStor存储 技术白皮书

目录 1 ONEStor概述 (1) 2 ONEStor存储系统介绍 (2) 2.1 技术特点 (2) 2.1.1 领先的分布式架构 (2) 2.1.2 线性扩展能力 (6) 2.1.3 高可靠性 (7) 2.1.4 良好的性能 (10) 2.1.5 统一的存储业务 (11) 2.2 典型应用场景 (12) 2.2.1 使用场景 (12) 2.2.2 典型组网架构 (15) 2.3 ONEStor对硬件设备要求 (16) 2.3.1 硬件要求 (16) 3 ONEStor管理系统 (18) 3.1 管理系统的特点 (18) 3.1.1 无中心管理架构设计 (18) 3.1.2 场景化设计 (19) 3.2 管理系统的主要功能 (20) 4 规格参数 (22) 5 缩略语表 (22) i

1 ONEStor概述 云计算、移动计算、社交媒体以及大数据的发展,使得数据爆炸式增长。一方面,企业要存储这些数据,以便对数据进行利用;另一方面,相比于数据中心的计算模块和网络模块,存储模块在近三十年虽然一直发展,但发展缓慢,并未出现技术革命带来存储领域的翻天覆地的变化。现实的情况是:传统的存储系统已经很难满足爆炸增长的数据需求,急需要新的存储技术进行变革。 数据的激增对存储的需求主要体现在: (1)可扩展性:存储集群可以根据用户需求线性扩展,并且数据会自动均衡,无需人工干预。 (2)低成本:和传统的SAN/NAS相比,在性价比上具有明显的优势。 (3)高性能:存储集群架构具有灵活的扩展能力,集群性能随着规模的增长线性增长。 (4)高可靠性:集群中的每个数据至少保存两份副本,且集群会自动将数据分布在不同的存储单元上,硬件损坏的情况下依然可以获取一份完整的数据,并且丢失的数据会自动重构。 (5)高可用性:存储集群提供多副本机制,当某个故障单元发生故障后,整个集群依然可以对外提供服务。 (6)易用性:提供方便易用的管理界面,实现存储集群的灵活部署和监控运维。可以灵活的增加和删除节点,集群的故障恢复、数据均衡等集群系统自动可以实现,不需要人工干预。 (7)业务灵活性:既可以以传统的存储集群形式为计算节点服务提供块存储或者文件存储甚至对象存储,又可以和计算节点紧密结合,提供计算存储的融合方案。 为满足以上需求,业界在近年提出了Server SAN存储解决方案。按照Wikibon的定义,Server SAN是由多个独立的服务器所带的存储组成的一个存储资源池。 H3C ONEStor Server SAN解决方案基于Ceph开发,并在Ceph的基础上做了二次开发和优化。 ONEStor系统由分布式存储软件(包括存储集群软件和存储集群管理软件)和x86服务器构成,x86服务器可以选择H3C自研服务器或者经过H3C认证的其他厂家的服务器。 1

OceanStor9000存储系统技术白皮书

OceanStor 9000 V5 华为OceanStor 9000 V5 横向扩展文件存储,采用全对称分布式架构,以其卓越性能、大规模横向扩展能力和超大单一文件系统为用户提供非结构化数据共享资源存储,能够应用于广电媒体、卫星测绘、基因测序、能源勘探、科研教育、视频监控、归档备份等多种业务应用及存储资源共享领域。 全对称分布式架构并行读写,性能领先 ?高性能的读写访问:单节点带宽最高可达2.8 GB/s,单盘性能业界领先 ?网络加速:支持10GE、25GE、40GE等多种组网形态,支持RDMA模式传输及TOE卸 载,提高系统传输性能 ?线性增长:系统性能随节点增加线性增长,最高可达700GB/s带宽 容量性能线性扩展,规模最大的单一文件系统 ?单一文件系统:140PB级存储容量,降低系统管理和维护的复杂度,并消除多个命名空 间带来的数据孤岛 ?超强扩展:3节点到288节点的平滑扩展,容量、性能随节点增加而线性增长 ?数据均匀分布:Share-nothing全对称分布式架构,系统的数据和元数据均匀分布在各 个节点上,消除单独的元数据节点访问瓶颈 ?超高利用率:高可靠性的同时,硬盘利用率最高可达95% 开放融合,承载多种应用 ?多种接口:支持NFS,CIFS,NDMP,FTP,HDFS等多种接口,一个系统承载多业务 应用,实现数据的全生命周期管理 ?多种节点类型:支持多种节点类型,支持不同应用承载 ?管理融合:实现对IT设备统一管理,提供分析报表,简化管理复杂度,提升运营效率

全方位可视化,简化资源管理 ?可靠性灵活配置:支持基于目录的冗余配比策略,提供不同的数据保护级别 ?自动统计和分析:自动化的性能统计及分析,辅助合理利用资源 ?自动部署:软件平台自动化部署和配置,“一键式”快速扩容,单节点扩容60秒之内 完成 ?权限管理:提供针对IP地址或用户/用户组的访问权限控制,创建安全、隔离的存储池 Info系列软件,智能存储管理 InfoEqualizer,客户端连接负载均衡 ?跨节点的客户端连接负载均衡,自动平衡容量和性能,优化集群资源 ?智能统一管理,支持节点故障切换(failover)和故障恢复(failback) ?基于DNS域名的负载均衡技术,支持多种负载均衡策略配置 InfoTier,动态分级存储 ?不同节点间动态分级存储,热点数据智能迁移,让不同性价比的存储发挥最大效益,降 低TCO ?支持多种数据迁移策略和优先级设置,无缝适应业务需求及变更 InfoAllocator,空间配额管理 ?在目录、用户、用户组的级别对存储进行精简资源调配,满足不同客户所需 ?支持配额项的多层嵌套关系管理,为客户提供易用,弹性灵活的空间访问 InfoProtector,高可靠数据保护 ?应用Erasure Code专利技术实现N+M数据保护–InfoProtector,业界最高水平的数据可靠 性和可用性保护机制,可支持4个节点同时故障的数据保护 ?系统能够自动重构,多节点并行重构数据,重构速度高达2TB/小时 InfoStamper,快照功能 ?目录级别快照,快速数据恢复 ?支持手动快照、定时快照(以天/周/月为粒度) InfoLocker,WORM功能 ?保护数据免遭意外、恶意更改和删除 ?支持设置WORM时钟,设置保护期 InfoReplicator,异步远程复制 ?减少系统恢复时间,应用于灾难恢复,数据备份或远距离数据迁移 ?支持不同目录1:N复制,N:1复制

OceanStor18000系列高端存储技术白皮书

OceanStor OceanStor 18500/18800 V5高端存储系统 OceanStor 18500/18800 V5高端存储是华为最新一代的高端存储系统,为企业核心业务提供最高水平的数据服务。 凭借业界领先的SmartMatrix 2.0系统架构、HyperMetro 免网关A-A 双活、闪存优化技术、持续领先一代的硬件平台以及丰富的效率提升和数据保护方案,OceanStor 18500/18800 V5高端存储在可靠性、性能和解决方案方面都达到业界领先水平,满足了大型数据库OLTP/OLAP 、云计算等各种应用的数据存储需求,广泛适用于政府、金融、运营商、能源、交通、制造等行业,是企业核心应用的最佳选择。 领先的SmartMatrix 2.0系统架构 ·4控制器全对称引擎:革命性的在引擎6U 空间内集成4个控制器,并在无源背板互连基础上融合了Cache 持续镜像和后端硬盘控制器全互连技术,实现业界领先的4控全冗余特性。引擎内4个控制器互为热备,即使在3个控制器故障的情况下也依然能够保证业务稳定运行,完全避免了传统高端存储在系统升级或者控制单元故障时的单点运行状态,最大程度保证关键应用的业务连续性。 ·负载均衡:支持控制器间负载均衡,应用可通过多个控制器并发加速,消除性能瓶颈,实现业务的压力均衡。 产品特点 稳定可靠 OceanStor 18500/18800 V5 高端存储系统 产品规格 OceanStor OceanStor 18500/18800 V5高端存储系统 最大处理器数 OceanStor 18800 V5 OceanStor 18500 V5 SmartMatrix 2.0 32TB FC 、iSCSI 、NFS 、CIFS 、HTTP 、FTP 8/16/32Gbps FC 、1/10/25/40/100Gbps Ethernet 、SAS3.0(后端端口,单端口4*12Gbps) 2.5”: SSD,SAS ; 3.5”: SSD,NL-SAS AC: 100V~240V ,380V DC:192V~288V 或–48V~–60V 768 65,53665,536 768 32TB 9,600(2.5”)/ 4,608(3.5”) 6,400(2.5”)/ 3,072(3.5”)32 快照(HyperSnap) 克隆(HyperClone)支持 多核多处理器 拷贝(HyperCopy) 卷镜像(HyperMirror)阵列双活(HyperMetro)远程复制(HyperReplication) WORM(HyperLock )一体化备份(HyperVault)智能服务质量控制(SmartQoS)智能缓存分区(SmartPartition) 智能精简配置(SmartThin)智能数据迅移(SmartMotion)智能数据分级(SmartTier)智能数据销毁(SmartErase) 智能LUN 迁移(SmartMigration)智能SSD 缓存(SmartCache)智能异构虚拟化(SmartVirtualization)智能多租户(SmartMulti-tenant)智能重删压缩(SmartDedupe & SmartCompression) SmartQuota (配额管理)主机多路径(UltraPath) 容灾管理(BCManager)单设备管理软件(DeviceManager)远程维护管理软件(eService) 机柜 尺寸/重量 集中运维管理软件(eSight)机柜最大外形尺寸(包括机柜外部滑轮、地脚等的外形尺寸): 600mm (宽)*1232mm (深)*2000mm (高) 整柜满配重量:系统柜680 kg ;硬盘柜540 kg 独立网关形态最大主机数量最大LUN数量

浪擎实时备份技术白皮书

实时备份技术白皮书
1
浪擎 DataBackup 实时备份系统
V4 技术白皮书
网址:https://www.360docs.net/doc/8411554775.html,

实时备份技术白皮书
2
版权声明
版权所有? 2014 上海浪擎信息科技有限公司 未经本公司许可,任何单位或个人不得以任何形式,复制、传播、摘抄本内容的部分或 全部。 本书内容上可能会有增删和修改, 上海浪擎信息科技有限公司会定期将修订后的内容纳 入新版本中,如有更改恕不另行通知。
网址:https://www.360docs.net/doc/8411554775.html,

实时备份技术白皮书
3
公司申明
浪擎科技是国内最大的备份容灾软件厂商, 在备份容灾领域具备一流品牌影响力。 公司 产品和解决方案分为 D(数据级灾备) 、A(应用级灾备) 、Y(区域级云灾备平台) 、S(备份 存储柜)四大系列,涵盖了从桌面到服务器、从备份到容灾、从本地综合备份管理到异地数 据中心建设等各个方面,构建完整的备份、容灾、存储解决方案。 浪擎科技已为众多高端用户建设了大型的灾备中心或灾备系统。客户遍及政府、金融、 医疗、能源、电信、媒体、制造、教育等各行各业,有超过 10000 家用户,承建了最多的区 域级灾备中心建设案例。 所获成绩或荣誉:荣获 2012 年度上海科技小巨人;荣获 2012 年度全国电子政务十大 IT 创新品牌; 荣获 2012 中国信息安全最具影响力企业奖; 荣获 2009 年度科技部中小企业技 术创新奖。
网址:https://www.360docs.net/doc/8411554775.html,

大数据存储技术.docx

大数据存储技术 刘雷1,杜鹏程2,贺俊铭3,孔庆春4,张莉莉5 1,2,3,4,5(清华大学计算机科学与技术系,北京100084) Abstract:Big data analysis compared with the traditional data warehouse applications, with a large amount of data and complex query analysis, etc. Big data storage because of its itself exists 4 v characteristics, the traditional storage technology can not meet the needs of large data storage, data resources through the ETL technology was extracted from the source system, and is converted into a standard format, then using NoSQL database for database access management, make full use of the network cloud storage technology enterprise storage cost saving, efficiency advantage, through a distributed network file system to store data information in the Internet network resources, using visual operating interface to satisfy the user's data processing requirements at any time. Key words: Data acquisition (ETL), data access (NoSQL), cloud storage, distributed file systems, visualization 摘要:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,充分利用网络云存储技术节约企业存储成本,提高效率的优势,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。 关键词: 数据采集(ETL)、数据存取(NoSQL)、云存储、分布式文件系统、可视化 1引言 在学术界,Nature早在2008年就推出了Big Data专刊[1]。计算社区联盟(Computing Community Consortium)在2008年发表了报告《Big9Data Computing: Creating revolutionary breakthroughs in commerce, science, and society》[2],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。Science 在2011年2月推出专刊《Dealing with Data》[3],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《Challenges and Opportunities with Big Data》[4]。该白皮书从学术的角度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。 业界通常用V olume、Variety、Value和Velocity(简称为―4V‖,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四个特征来显著区分大数据与传统数据。 大数据技术是一个整体,没有统一的解决方案,本文从大数据生命周期过程的角度讨论了ETL技术、NoSQL、云存储、分布式系统、数据可视化等5个部分。 2ETL技术 随着信息化进程的推进,人们对数据资源整合的需求越来越明显。但面对分散在不同地区、种类繁多的异构数据库进行数据整合并非易事,要解决冗余、歧义等脏数据的清洗问题,仅靠手工进行不但费时费力,质量也难以保证;另外,数据的定期更新也存在困难。如何实现业务系统数据整合,是摆在大数据面前的难题。ETL数据转换系统为数据整合提供了可靠的解决方案。 ETL是Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。它可以批量完成数据抽取、清

D-JET存储技术白皮书

谷数科技D-JET 6000光纤SAN存储系统 技术白皮书 谷数科技(中国)有限公司 https://www.360docs.net/doc/8411554775.html, 版本号:CDMS-WP1010-0120

目录 1.简介 (1) 2.系统架构 (2) 3.D-JET 6000系统性能分析 (3) 3.1IOPS性能 (4) 3.2带宽性能 (4) 4.D-JET存储操作系统 (6) 4.1双活动控制器模式 (6) 4.1.1Failover (6) 4.1.2动态数据路径 (6) 4.2带电池Write-Back 写Cache和写缓存镜像 (8) 4.3动态缓存技术(Dynamic Cache T echnique) (8) 4.4存储资源虚拟化 (9) 4.5自动精简配置(Thin Provisioning) (11) 4.6数据保护 (12) 4.6.1数据一致性 (12) 4.6.2RAID保护 (12) 4.6.3快照 (13) 4.6.4热备存储块 (14) 4.6.5多路径I/O通道 (14) 5.D-JET 6000硬件平台 (15) 5.1.1处理器 (15) 5.1.2I/O通道 (15) 5.1.3Cache (16) 5.1.4磁盘扩展单元 (16) 6.总结 (17)

1. 简介 近年来,信息及数字革命使得企业数据量呈爆炸式增长。以企业数据中心大规模数据库和联机事务处理(OLTP)为代表的交互密集型应用,以计算仿真、气象预报、石油勘探、动漫渲染等高性能计算和富媒体为代表的吞吐密集型应用,使得企业需要更高性能、更大容量的集中在线存储系统以满足多种业务需求。 据IDC预测,到2012年,企业80%的数据将为“非结构化”数据,“非结构化”数据主要是以文档、图片、视频等为代表的各类型数据文件,这些数据尺寸较大,对数据的访问通常是大块数据连续的读写操作,需要集中存储系统提供很高的带宽。同时,企业仍存在着大量“结构化”数据,如企业订单处理系统、预定系统、数据库系统、产品管理系统、作业批处理系统等,这些系统处理大量的“结构化”数据。“结构化”数据尺寸较小,以小块数据存储为主,通常主机端对此类数据的访问多为随机性访问,需要存储系统提供很高的IOPS性能。 现有的存储系统能提供较好IOPS性能或者带宽性能,但目前还没有两者俱佳的存储系统。目前,在大规模业务应用中,以集群系统为例,顶级的计算集群有超过20万颗CPU核,在系统写入过程中会产生数万并发的写操作。大型的数据系统拥有数以百亿计的文件,在任何时间都会产生每秒数十万的文件访问操作。随着处理器内核数量的增长,多线程并行处理技术的成熟,允许主机端发起并发I/O访问的数量越来越多。大规模多线程I/O访问会产生越来越多的随机访问,并且需要对系统元数据进行频繁的访问。同时,存储系统往往用于多种业务存储,这些业务可能包括大量的“结构化”数据和“非结构化”数据。据此,就需要存储系统提供足够的带宽资源以满足海量并发I/O访问的数据传输需求;同时提供很高的IOPS性能满足大规模随即I/O访问、元数据和其他“结构化”数据的访问需求。 本文所述的D-JET 6000存储系统是谷数科技针对各种交互密集型应用和吞吐密集型应用所推出的高性能光纤SAN系统。D-JET 6000是面向大规模多核计算环境而设计开发的海量数据存储系统,采用多种技术进行优化,支持混合工作负载模式,提供无与伦比的IOPS和带宽性能。同时其卓越的扩展性和前所未有的投资保护为其提供了无可比拟的适应性,可以满足各种不断变化的需求。

2019年H3C大数据产品技术白皮书

H3C大数据产品技术白皮书 杭州华三通信技术有限公司 2020年7月

目录 1 H3C大数据产品介绍................................................................... 错误!未定义书签。 产品简介........................................................................ 错误!未定义书签。 产品架构........................................................................ 错误!未定义书签。 数据处理 ............................................................................ 错误!未定义书签。 数据分层 ............................................................................ 错误!未定义书签。 产品技术特点............................................................... 错误!未定义书签。 先进的混合计算架构........................................................ 错误!未定义书签。 高性价比的分布式集群................................................... 错误!未定义书签。 云化ETL ................................................................................ 错误!未定义书签。 数据分层和分级存储........................................................ 错误!未定义书签。 数据分析挖掘...................................................................... 错误!未定义书签。 数据服务接口...................................................................... 错误!未定义书签。 可视化运维管理................................................................. 错误!未定义书签。 产品功能简介............................................................... 错误!未定义书签。 管理平面功能:................................................................. 错误!未定义书签。 业务平面功能:................................................................. 错误!未定义书签。 2 DataEngine HDP核心技术......................................................... 错误!未定义书签。 3 DataEngine MPP Cluster核心技术 ......................................... 错误!未定义书签。 MPP + Shared Nothing架构 .................................. 错误!未定义书签。 核心组件........................................................................ 错误!未定义书签。 高可用............................................................................. 错误!未定义书签。 高性能扩展能力 .......................................................... 错误!未定义书签。 高性能数据加载 .......................................................... 错误!未定义书签。 OLAP函数..................................................................... 错误!未定义书签。 行列混合存储............................................................... 错误!未定义书签。

列存储数据库关键技术综述

第37卷 第12期2010年12月计算机科学Computer Science V ol.37No.12Dec 2010 到稿日期:2010 01 08 返修日期:2010 03 22 本文受国家863计划(编号2009AA01Z143),铁道部 清华大学科技研究基金(编号:J2008X 009)资助。 李 超(1978-),女,博士,讲师,主要研究方向为存储技术、数据库技术等,E mail:li chao@https://www.360docs.net/doc/8411554775.html,;张明博(1982-),男,工程师,主要研究方向为W eb 信息管理、数据库技术等;邢春晓(1967-),男,博士,教授,主要研究方向为数据库技术、数字图书馆等。 列存储数据库关键技术综述 李 超 张明博 邢春晓 胡劲松(清华大学信息技术研究院 北京100084) 摘 要 随着互联网技术的发展、硬件的不断更新、企业及政府信息化的不断深入,应用的复杂性要求越来越高,推动着数据存储技术向着海量数据、分析数据、智能数据的方向发展,以便为数据仓库、在线分析提供高效实时的技术支持。基于行存储的数据库技术面临新的问题,已经出现了技术瓶颈。近些年来,一种新的数据存储理念,即基于列存储的关系型数据库(简称列数据库,下同)应运而生。列数据库能够快速发展,主要原因是其复杂查询效率高,读磁盘少,存储空间少,以及由此带来的技术、管理和应用优势。对列数据库技术的基本现状、关键支撑技术以及应用优势进行了介绍和分析。 关键词 列数据库,列存储,数据压缩,延时物化,成组迭代,不可见连接,数据仓库,商业智能,T PCH 中图法分类号 T P391 文献标识码 A Survey and Review on Key Technologies of C olumn Oriented Database Systems L I Chao ZH A N G M ing bo XIN G Chun x iao H U Jin song (Research In stitute of Inform ation Techn ology,Tsin ghua U nivers ity,Beijing 100084,China) Abstract Co lumn o riented database is a kind of new database sto rag e technolog y that sto res dat a acco rding t o column (not tr aditio nally ro w).T he database pioneers such as Dr.M ichael Stonebr aker ar e advocating and ex plor ing the new theo ry and techno log y fo r co lumn o riented database.T he main featur es o f it are g oo d query efficiency,less disk access,less st orag e,and significant impro vement o f database perfo rmance.Column or iented dat abase is an ideal ar chit ecture fo r data w arehouse nat ively,and thus sho ws a goo d potential in suppo rting hig hly eff icient business intellig ence applica t ions.T his new technolo gy is promising in both academic and business,ther efo re attracting lots of high tech co rpora t ions and research institutes to devote in it.T his paper intr oduced and analysed the main featur es,key techno log ies and cur rent R&D situat ions of column or iented database. Keywords Column or iented database,Compressio n,Block it er atio n,L at e mater ialization,Invisible join,D ata w arehouse,Business intellig ence,T PCH 1 引言 列数据库是基于列存储的、主要面向企业决策分析领域的关系型数据库。在SIGM O D85,论文 A Deco mpo sitio n St orag e M odel [1]提出了一种新的存储概念,简称DSM ,这就是列数据库的雏形,但是这种技术在当时并没有得到足够的重视。近些年来在以M ichael Stonebr aker ,Daniel J.Abadi,Peter Boncz 为首的一批专家的大力提倡下,列数据库相关技术及应用快速发展,在企业决策领域已经开辟了一条新道路(参考网址w w w.databasecolumn.co m)。这种技术的特点是复杂数据查询效率高,读磁盘少,存储空间少。这些特点使其成为构建数据仓库的理想架构,因而引起数据库学术前沿和相关高新科技企业投入大量的人力和物力研发。 1.1 列数据库基本概念 列数据库是对应并区别于行数据库的概念。行数据库就 是我们所熟知的传统关系型数据库,即数据按记录存储,每一条记录的所有属性都存储在一起,如果要查询一条记录的一个属性值,需要先读取整条记录的数据。而列数据库是按数据库记录的列来组织和存储数据的,数据库中每个表由一组页链的集合组成,每条页链对应表中的一个存储列,而该页链中每一页存储的是该列的一个或多个值。 1.2 列数据库的学术价值与应用价值 列数据库技术有它独有的学术价值,近些年来在国际一流的数据库会议上频频有关于这个领域的优秀论文出现[1 3,5 17],他们主要围绕其商业价值以及主要关键技术,包括基于其主要存储原理的存储压缩、延时物化、成组叠代、查询优化、索引、及加密等进行研发。 列数据库的应用价值来自它对复杂查询的灵活快速以及压缩所带来的存储优势,这使其在数据仓库和商务智能方面具有良好的发展前景。已经有许多列数据库在企业决策分析

相关文档
最新文档