NetApp_MetroCluster_Proposal.V2

?2010 NetApp

All rights reserved

The information contained in this document is to be treated as confidential and should not be disclosed to any third party without the prior written consent of

NetApp.

To the best of NetApp's knowledge and belief, all information supplied is accurate

and complete. However , we can not guarantee that our response is entirely free from errors and/or omissions and we there advise you to seek clarification of any

material matters, upon which you may have placed reliance, prior to entering into contract.

XXXX 数据中心

XX 业务系统高可用性存储系统技术方案

Document V1.00

目录

一、项目背景及需求分析 (4)

1.1 项目背景简述 (4)

1.2 存储系统需求 (4)

1.2.1 用户设计要求 (4)

1.2.2 技术设计响应 (4)

二、存储系统解决方案 (6)

2.1 存储解决方案的选择 (6)

2.2 推荐:MetroCluster方案 (9)

2.2.2 MetroCluster方案组成 (9)

2.2.3 MetroCluster方案原理 (10)

2.2.4 MetroCluster保障能力 (12)

2.2.5 MetroCluster距离配置 (16)

2.2.6 MetroCluster同类方案 (17)

2.3 参考: SnapMirror方案以及MetroCluster方案的扩展 (17)

2.3.1 SnapMirror配置方式 (17)

2.3.2 SnapMirror方案组成 (18)

2.3.3 SnapMirror+MetroCluster (19)

一、项目背景及需求分析

1.1 项目背景简述

XXXX全国XXXX业务系统运行在单套NetApp FAS3140A上,现配置12.8TB(28x450GB 15krpm FC 磁盘),需实现高可用性扩容:

?本地高可靠性存储

?实现数据异地容灾

?对RPO、RTO、系统数据可用性、管理便利性均有较高要求

数据存储高可用性的宗旨

根据用户进行自我分析的结果,信息系统将来都要进行集中运行维护,数据中心将会承担越来越多的信息系统运行维护工作。做好每一个信息系统的备份,保证数据安全,将是数据中心未来最重要的工作之一。而要做好这项工作,就需要建设集中的数据存储、复制中心,采用先进的存储设备和软件,制定相应的复制策略,集中高效地完成各个数据中心的工作。

1.2 存储系统需求

1.2.1 用户设计要求

此次设计的数据存储、复制系统是用户由传统FC SAN存储向智能性容灾以及统一存储的技术过渡,将对XXXX业务,乃至整个存储、复制业务产生技术推动。

该存储系统建成后将同时负担生产数据存储以及数据容灾两种任务,也将支持后续系统的建设,还将成为前端主机与其它低成本备份设备,如磁带库之间的桥梁。

这就需要根据不同的应用分别提供优化后的存储功能,保证数据存储、运算的高性能,并且保证关键数据在线硬盘存储的安全性。同时由于本次项目涉及众多平台、应用、产品,需要在线存储系统部分保证最高的管理、使用简便性。

1.2.2 技术设计响应

数据的可靠性设计

?存储系统假想故障状况下,可以能够通过SnapShot恢复整体文件系统。

?提供业界最高水平的数据有用性指标。

?在线存储系统中磁盘阵列支持高性能RAID方式,并且能够以经济简便的方式,支持RAID DP(RAID 6)双校验配置方式,提供比RAID 0+1高出2000倍的的数据保护能力。

?构建RAID组的时候,不限定RAID组的构成。

?存储支持浮动热备盘,热备盘不限位置、不限数目。

?考虑到本次系统是对数据存储的首次大规模建设,各个子系统情况相对繁杂,需要根据实际应用效果,提供在线扩充RAID组扩充、数据卷volume扩充以及减小功能,以利于更好

的适应不同业务系统的并存关系。

?除硬件外,存储系统具备功能完善的管理软件。该软件应具有存储容量划分、管理功能;

能对存储系统的各种性能进行监视和统计,系统出现严重故障时,能够及时报警。

?支持数据本地镜像副本,数据要求同步镜像?支持数据异地镜像副本,数据要求同步镜像?支持故障状态下镜像副本切换过程自动完成

二、存储系统解决方案

2.1 存储解决方案的选择

根据对用户现有生产环境的初步了解,参考用户对数据安全保护能力预期。NetApp 可以提供若干种方案供用户选择,这些方案的RPO 指标、RTO 指标、管理便利性、数据可用性各不相同。根据NetApp 长期以来对数据生产环境的数据实践,我们推荐用户采用其中性能优良、安全可靠,同时简便易维护的MetroCluster 方式进行数据系统的容灾保护。同时,我们也对其它几种方案简要说明其技术原理及实现方式,供用户参考。

首先,对本次项目在数据容灾方面的要求我们明确如下:

? RPO ,Recovery Point Objective 数据恢复点指标,在采用容灾系统进行数据及文件系统恢

复时,该指标表明此过程中所发生的数据损失量。RPO=0意味着该过程中没有数据损失。

? RTO ,

Recovery Time Objective 数据恢复点指标,在采用容灾系统进行数据及文件系统恢

复时,该指标表明此过程中所耗用的时间。RTO=0意味着该过程中没有等待,即该过程不

耗费时间。

? 管理便利性,与RTO 和RPO 指标相比,管理便利性是较难量化,但同时又是极为重要的一

个指标。在一个复杂的数据容灾系统中,从数据灾难发生开始,到数据恢复、应用恢复,

一般需要一系列较为复杂的应用层、主机层、网络层和存储层操作,操作便利与否,不仅

决定了数据能否顺利恢复,也决定了整体容灾方案是否具备足够的实用性。

?

数据可用性,在数据系统日常运营中,存储系统的强壮性可以用数据可用性这一指标来加

以衡量。与通常采用的硬件系统MTBF(平均无故障时间)相比,数据可用性这一指标从应用

角度着眼,更为严格和苛刻。如果存储系统达到99.999%的数据可用性,意味着这一系统

在全年24x7x365的服务过程中,最多只有5)分钟非计划宕机时间,整体系统安全性达到

非常高的水平。高数据可用性,是系统容灾解决方案的基础,只有具备高数据可用性,才

能够保证尽少调用容灾数据恢复流程,从根本上实现对数据的安全保护。 RTO 、RPO 、数据可用性指标比较容易量化,对不同的应用系统应提供不同的RTO 、RPO 级别。如SNIA, Storage network industry association 即提供了以下标准可供参考:

管理便利性指标则可以通过存储系统容灾机制对应用是否透明,数据恢复、应用恢复过程是否需要人为干预以及干预程度等差异来进行比较。

以下为针对此次应用环境情况,各种方案的安全、性能指标比较:

Schedule设置,最短1分钟(min)

Sync SnapMirror代表同步SnapMirror 数据镜像

Async SnapMirror代表异步SnapMirror 数据镜像

RPO 0 分钟级=Sync

SnapMirror

1min~Xmin=Async

SnapMirror 0=MetroCluster

分钟级=Sync

SnapMirror

1min~Xmin=Async

SnapMirror

分钟级=Sync

SnapMirror

1min~Xmin=Async

SnapMirror

光纤交换机

FAS3140

光纤交换机for FAS3140A

FAS3140A或

FAS31401套作为容

灾中心

FCP光纤通道协议

license for

FAS3140A或

FAS3140

SnapMirror license

for FAS3140A或

FAS3140

光纤交换机

license for FAS3140A

或FAS3140

SnapMirror license for

FAS3140A或FAS3140

光纤交换机

容灾模式同步Sync SnapMirror同

MetroCluster 同步

Sync SnapMirror同Sync SnapMirror Async SnapMirror

从上表可以看出MetroCluster解决方案在RTO、RPO、数据可用性、管理便利性以及投资构成方面都具备突出的优势,可以提供同步数据容灾的功能,下文将详细说明MetroCluster在数据保护方面能够提供其它中端系统无以匹敌的安全可靠能力。

从未来的发展着眼,MetroCluster方案还具备进一步配置SnapMirror数据镜像站点,将由MetroCluster保护的数据再一次进行数据镜像的扩展空间。

2.2 推荐:MetroCluster方案

数据系统是用户信息系统中最可宝贵的资产,因此确保数据系统的安全和可用性是优先考虑的重要任务。在核心数据保护方式中,如Oracle、SAP以及其它ERP数据保护上,数据安全级别往往被提高到战略的高度加以重视,以SAP系统为例,约有60-70%架构在Oracle数据之上,为对Oracle数据进行保护,,众多此类系统采用了NetApp的MetroCluster解决方案来进行本地或者异地的数据保护。

?NetApp目前为超过1000家用户提供了SAP/Oracle MetroCluster容灾存储解决方案。采用该方案后,不仅为为客户带来高可靠的存储系统,同时年平均节省维护开支为34。

?SAP Hosting已经采用了超过500 TB NetApp存储设备,支持超过4000名SAP开发人员和30,000名Portal用户。并采用了超过96 TB NetApp二级(SATA)设备对这些数据加以进一步备份。

?某总部位于日本的全球计算行业公司采用NetApp设备进行Oracle/SAP存储后,因NetApp 设备支持FC SAN+iSCSI+NAS的统一存储模式,得以采用FC连接DB服务器,采用NFS连接SAP Adaptive Computing System,节省了50%的成本。对XXXX而言,同时存在大量的数据(FC SAN)和文件共享需求(NAS),该用户的成功经验值得借鉴。

?某德国制造业公司在经过一系列的SAP/Oracle的备份、恢复、开发、测试和容灾系统测评后,采用NetApp存储解决方案替代了原有的4套SAP HDS存储系统。

?中国军事科学研究院、Seagate希捷(中国)公司、韩国金融服务机构KFTC均采用NetApp MetroCluster解决方案实现SAN环境或者SAN+NAS统一存储环境下的数据安全保护。下面将就MetroCluster的方案拓扑、工作原理、系统配置、安全保护、性能评价等逐一进行说明。

2.2.2 MetroCluster方案组成

为在XXXX数据中心实现可靠的MetroCluster系统,需要配置如下部件:

?NetApp FAS主存储系统1套,必须是Cluster(Active-Active)系统。在一套FAS3140A存储系统上,A代表Cluster(两套FAS3140存储控制器),配置了28只15krpm 450Gb FC磁盘,由两套相对独立的FAS3140控制器构成。两套FAS3140之间通过NVRAM卡+铜缆或者光纤

连接(30公里以内),采用InfiniBand链路实现互相的心跳检测。根据容量需求,需要双倍的物理磁盘组成两份物理镜像,具体需求视最终用户需求而定。

?远程Cluster许可证,供两个控制器之间进行互相Take over和give back使用。

?升级购买Cluster Remote许可证,实现MetroCluster,需要将Cluster许可证扩展为远程切换许可证。

?SyncMirror_local许可证(免费提供)。采用该许可证后,系统可以按照用户指定,有选择的将数据存储单元加以镜像。对一份数据形成两份完全一致的数据副本,从存储空间的角度,成为plex0和plex1。

?分别对Local和Partner节点提供冗余的光纤交换机连接。Local节点可以采用原有光纤交换机,或者采用新交换机。

2.2.3 MetroCluster方案原理

NetApp MetroCluster是以NetApp SyncMirror配合Cluster+Cluster_remote功能实现的。SyncMirror 功能可以实现于单控制器系统之上,MetroCluster则需要双控制器支持。即MetroCluster在SyncMirror数据镜像的基础上,又添加了控制器Cluster Failover的功能。

MetroCluster在镜像数据的两个副本之间保持严格的物理分隔。在出现无论是由磁盘问题、缆线断线还是主机总线适配器(HBA)引而发的故障时,MetroCluster都可以即时访问镜像的数据,而操作员不必干扰或中断客户端应用程序的运行。业务连续性得以确保,使得在找到造成问题原因并解决问题的过程中不必中断运营,避免代价高昂的停机时间。

MetroCluster:SyncMirror 与Clustered Failover

根据上文所述,MetroCluster 由以下软件组建构成:

?Clustered Failover——在主Filer和远程Filer间提供高可用性失败恢复能力,故障接管的决策是由管理员通过单一命令行决定的。

?SyncMirror –为远端存储提供即时的数据拷贝,当故障接管时,数据可以仅通过远端的Filer 进行访问。

?ClusterRemote –提供管理机制用以判断灾难的发生并初始远端存储进行接管。

?另外,如果主存储与远程存储之间的距离超过500米,那么在节点间需要独立的FC交换机用以远距离连接,距离小于500米时,不需要FC交换机。

集成了上述所有功能后,MetroCluster的优势在于通过在单个解决方案中集成高可用性和业务连续性功能,可以显著降低复杂度、简化管理并提高投资回报。它可用于同时保护所有关键应用程序和提高可用性。MetroCluster 十分适合于XXXX办公区域以及更大的和城市容灾环境。在这些环境中,主数据中心和远程数据中心之间的距离不妨碍进行数据的同步复制。

在出现故障的情况下(无论是出自孤立的硬件问题还是整个站点灾难情况),MetroCluster 会将集群服务器技术的优点扩展到距离远端的站点。MetroCluster 即时访问远程服务器上的复制数据,而不需要任何操作员干预或中断客户端应用程序。这样就确保了业务的连续性,而您则可避免成本高昂的宕机时间,并可不必中断操作就可以查明问题的源头并解决问题。

在系统配置过程中,需要通过固定的线缆连接方式实现存储系统的完全冗余。如下图所示:

通过以上的线缆连接方式,人为将存储系统划分为pool 0和pool 1,每个pool中均包含该pool专用的数据盘、校验盘和系统热备盘。两个pool之间做到完全隔离,不互相影响。

2.2.4 MetroCluster保障能力

MetroCluster集成了NetApp Cluster/SyncMirror/RAID等多重数据保护能力,但是这些数据保护功能在整体方案中负责保障的安全级别各不相同。以下图为例:

可以看到:

?Custer Fail Over,CFO的防范故障

1.存储处理器故障,当XXXX双存储节点之间任意一节点处理器故障(存储处理节点故障),MetroCluster系统将首先调用CFO功能将该节点业务处理能力转移到另一节点上。

2.单链路故障,该故障状态下存储处理节点将无法连接存储盘架,MetroCluster系统将首先调用CFO功能将该节点业务处理能力转移到另一节点上。

3.单磁盘架控制模块故障,该故障状态下存储处理节点连接的存储盘架失效,MetroCluster 系统将首先调用CFO功能将该节点业务处理能力转移到另一节点上。

4.单端口/HBA故障,该故障状态下存储处理节点的1个或者几个网络端口(FC/IP)将无法工作,如果无法通过MultiPath软件做到端口切换,MetroCluster系统将首先调用CFO

功能将该节点业务处理能力转移到另一节点上。

?RAID-DP防范故障,除了在NetApp存储系统中采用传统的单校验RAID防范同一RAID组中1块磁盘故障,NetApp还提供双校验RAID DP方式(RAID Double Parity),实现在同一RAID 组中同时防范两块硬盘故障。该方式可以与MetroCluster等其它解决方案并行使用,更进一步提高系统安全性。

1.单磁盘故障,由单RAID校验即可负责防范。

2.同RAID组中双磁盘故障,由NetApp RAID DP校验即可负责防范。该方式最大的好处在于用与NetApp RAID4同样的数据利用率,实现高于RAID 4/5 4000倍,高于RAID 1

2000倍的数据安全保护能力。该方式为免费提供。

3.单磁盘损坏和单磁盘读写错误,由NetApp RAID DP校验即可负责防范,在发生概率上,该故障比同时双硬盘故障或者硬盘重构过程中发生第二块硬盘故障常见。

?SyncMirror防范的故障级别,即MetroCluster实现的功能。

1.盘架背板故障

2.双盘架控制模块故障

3.双盘架电力单元PSU故障

4.盘架操作面板故障

5.双盘架光纤线缆故障

6.双FC-loop故障

可见,上述超出CFO和RAID DP防范能力的故障发生时,MetroCluster将使用数据写入时同步创建的数据副本来响应用户的数据访问请求。实现透明的,不需要干预的用户数据安全容灾。

为便于参考,假设以下系统配置:

举例:XXXX存储系统节点配置情况

我们假设XXXX采用FAS3140A/MetroCluster作为双存储节点,分别成为节点A和节点B,相应的,数据中心逻辑上称作Site A和Site B。那么在采用MetroCluster+Cluster+SyncMirror+RAID DP后,

可以防范的故障现象有:

这样,通过集成化的MetroCluster系统,XXXX用户可以抵御的最高安全故障为:?本地Site A数据存储系统节点A全部损毁,包括控制器、全部硬盘架

?异地Site B数据存储系统节点B重大损毁,每个RAID组均同时损坏两块硬盘

与RAID 1不同的是,MetroCluster提供更多的安全保障能力,并提供一体化的切换能力。所以不能用RAID 1替代MetroCluster,关于RAID 1与MetroCluster+Cluster+SyncMirror+RAID DP的对比,如下表:

2.2.5 MetroCluster 距离配置

MetroCluster 方案中,采用标准NetApp cluster 铜缆连接方式时,距离限制为30m ,通过

Copper-Optical 转换模块,可以将这一距离扩展到500m 。此两种方式下,控制器直接与磁盘架之间通过光纤进行连接。

MetroCluster 距离配置

在此基础上,如果在控制器和磁盘架之间添加光线交换机进行存储系统搭建,并使用额外的DWDM 设备,Cluster 中两个节点之间的距离可以延展到30Km 甚至更远。此种情况下,可以通过FC ISL 干路合并技术实现节点之间连接距离的扩展。在标准配置的基础上需要添加的配置为:

VI-MC 连接HBA 卡。

本次项目中视存储设备放置位置而决定是否需要该设备。

如果均放置在现有XXXX 数据中心或者距离两个存储节点之间距离不超过500m ,暂不需要添加VI-MC 连接HBA 卡和连接磁盘架所需的光纤交换机。

2.2.6 MetroCluster同类方案

在存储行业中,NetApp MetroCluster是在SAP/ORACLE环境下应用最为广泛的集成化数据容灾解决方案,其它厂商的类似软件解决方案仅随他们的最高端存储系统一道实施。只有NetApp的MetroCluster解决方案可以同时实现于低、中、高各档产品线中。并且还能够与其它的NetApp容灾、备份解决方案做到有机融合,实现进一步的安全扩展。

行业内类似的方案有:

HP MetroCluster。从1999年开始发售。它是一个通过使用MC/ServiceGuard以及EMC SRDF或HP Continuous Access XP的HP-UX服务器端的商务连续性方案,它进行数据传送的的性能比较类似于NetApp的MetroCluster,但它的价格远高于后者,主要原因是由于EMC SRDF和HP Continuous Access XP高昂的价格所致。

Veritas通过使用Veritas Cluster Server和Veritas Volume Replicator致力于校园集群方案的提供,它被期待能够达到类似于NetApp MetroCluster的商务持续性的能力,然而当前该产品在国内没有成功实施案例。

几乎所有其它的主要存储厂商都提供价格更昂贵的同步数据复制的方案,但是没有自动失效接管的功能。这些方案包括EMC SRDF、HDS TrueCopy、HP Continuous Access、Veritas Volume Replicator 和Sun Remote Mirror。与之相反的是,NetApp MetroCluster 不但提供了基本的同步复制功能,同时也结合了快速失效接管的功能,整体拥有成本比其它公司的只提供复制功能的方案还具有优势。

2.3 参考: SnapMirror方案以及MetroCluster方案的扩展

与MetroCluster类似,NetApp SnapMirror同样可以提高RTO/RPO指标的同步容灾解决方案。与MetroCluster不同之处在于该解决方案在故障发生、故障接触时,需要较多管理员干预,RTO、RPO 指标取决于故障恢复过程的进行程度。

该解决方案的特点是通过LAN/WAN/Fabric高速复制数据,SnapMirror 软件将尽可能地为关键应用程序提供最高的数据可用性和最快的恢复速度。

SnapMirror 技术将数据从一台Filer镜像到一个或多个Filer 上。SnapMirror 不断地更新镜像数据,以确保数据是最新的,并且能够用于进行灾难恢复、减少磁带备份、发布只读数据、在非生产性Filer 上进行测试、执行联机数据迁移等等。当XXXX业务分布在距离较远的不同的地点时,或者对MetroCluster解决方案进行进一步的安全提升时,适合采用此种方式。

SnapMirror 软件具有节省带宽的功能,可以降低数据复制和灾难恢复的基础设施成本。通过网络对新的数据块和更改的块进行增量更新。由于只需复制所有Filer 数据的一小部分,SnapMirror降低了对网络带宽的需求。此外,SnapMirror 在数据传输过程中会设置检查点。如果系统出现故障,传输会从最近的检查点重新开始。SnapMirror 还会执行智能的重新同步过程,这样,在从镜像损坏的状态或不同步的状态进行恢复时,无需传输整卷数据。如果在应用程序测试期间修改了镜像副本上的数据,可以将生产系统上的新数据块和更改的数据块复制到镜像副本,使镜像副本快速实现与生产数据的重新同步。

2.3.1 SnapMirror配置方式

NetApp SnapMirror 可以部署到任何具有足够的带宽来处理数据传输的网络基础设施中。它支持多种传输方式(FC 和IP)。

在SnapMirror系统配置中:

首先,需要明确的是SnapMirror数据复制、镜像方案的适用环境在于:

1. SnapMirror适用于需要即时、短时数据恢复解决方案的情况

2. SnapMirror在正常状态下,镜像目标卷数据为只读数据。只有当镜像关系因故障或

者认为因素被终止后,目标卷才能够予以读写。如果基于FC SAN实现,将涉及到

LUN、主机mapping的操作,这一点与XXXX用户对系统管理便利性最佳的要求有

所出入。

3. SnapMirror是双向关系,当数据源出现故障时,可将原有数据目的端改为可写可读,

待源数据存储系统修复后可将原有镜像关系逆转。

4. Async异步SnapMirror间隔可以小至每分钟,在本项目中,设计到Filer A镜像到

Filer B和Filer B镜像到Filer A的同时实现,建议合理安排数据镜像策略,做到交

叉分布。

?其次,SnapMirror数据镜像方案可以建设在不同NetApp存储系统之间,鉴于本次项目为初次建议NetApp系统,需要同时使用两套Filer实现。鉴于数据系统的安全要求,主存储应采用Cluster,即FAS3140A,副存储可以采用FAS3140A或者FAS3140。两地存储系统需要分别加载SnapMirror, Sync,Over FC的license。

?第三,SnapMirror的软件特点如下所述,考虑到用户应用要求,我们选择同步over FC方式进行数据镜像:

1. NetApp SnapMirror 可以方便地部署到任何具有足够的带宽来处理数据传输的网络

基础设施中。它能够支持多种传输方式(FC 和IP),这一点确保可以更好地利用

现有设备,并且还因能够实现路径间的容错而提高了可用性。

2. SnapMirror 允许客户选择适当的同步级别(同步、半同步和异步),从而实现了较

高的灾难恢复保护级别。例如,如果选择“同步”选项的话,远程站点的复制数据

将始终是最新的,并能在发生故障后随时提供。这一方式简化了灾难恢复过程,降

低了系统宕机时间。而“半同步”允许客户根据站点的需要,确定有多少I/O 操作

可以失去同步,或者是复制站点可以在多长时间内与数据源失去同步。而“异步”

选项则允许您根据需要(每分钟、每小时或每天)任意安排传输过程。您可以设置

最适合每一站点的频率。时间安排很容易修改,而且修改后可以立即生效。您还可

以为源系统和镜像系统选择不同的Filer 配置。源系统可以是具有6TB 存储空间

的集群Filer,它将2TB 的关键数据镜像到另一种型号的Filer 上。

3. 使用SnapMirror,可以将数据高效和经济合算地复制到远程站点,以便进行灾难恢

复或数据分布。用户在几分钟内就可以设置好SnapMirror,并能通过易于使用的

DataFabric? Manager (DFM) 图形用户界面进行管理和操作。Filer 支持

SnapMirror 软件,您不需要再安装其他软件。通过内置的SNMP 支持功能,可以

方便地与SNMP 框架进行集成。

4. 此外,得益于级联和多跃点镜像方式,NetApp SnapMirror 目标卷可以作为其他目

标的源卷,而且每个“镜像对”都可以有自己的时间安排以满足各个站点的特定需

求。如果需要远距离复制数据,级联镜像是非常理想的解决方案。例如,如果是从

北京将数据复制到天津、上海和广州,您可以将数据从北京复制到天津,然后使用

低成本链接将数据从天津复制到上海和广州。

2.3.2 SnapMirror方案组成

为在XXXX数据中心实现可靠的SnapMirror系统,需要配置如下部件:

?NetApp Filer主存储系统2套。XXXX现有一套FAS3140A,A代表Cluster,配置了168只10krpm 300Gb FC磁盘。需要另外购买一套NetApp存储作远程数据容灾,存储型号可以选择一台低端的FAS存储,配置一定容量的物理磁盘。

?SnapMirror许可证,主、备两套存储需要购买SnapMirror软件使用许可认证。

2.3.3 SnapMirror+MetroCluster

鉴于在本次环境中MetroCluster方案更加简便、高效,我们予以推荐使用。上面描述的SnapMirror 方案可用于未来扩展。

本次推荐的存储系统解决方案具备的底层数据保护机制有:

磁盘损坏防范

增强型RAID-4

在存储设备的数据保护中,通常都采用RAID的方式来增强数据的可用性和提升存储的读写性能。RAID技术一般分为0;1;2;3;4;5几种方式,也有厂商发展出0+1和1+0等变种方式。每种RAID技术都有自己的优势和劣势。常见的RAID 级别为0、1、4、5。这些RAID 类型的定义如下:

级别0 — RAID 级别0,经常被称作“分条”,它是面向性能的分条数据映射技术。这意味着被写入阵列的数据被分割成条,然后被写入阵列中的其它磁盘成员,从而允许低费用的高度I/O 性能,但是它不提供冗余性。级别0 阵列的贮存能力等于硬件RAID 所有成员磁盘的总能力或软件RAID 中所有成员分区的总能力。

级别 1 — RAID 级别1,或“镜像”。级别 1 通过在阵列中的每个成员磁盘上写入相同的数据(在磁盘上留一个“镜像”副本)来提供冗余性。由于镜像的简单性和高度的数据可用性,它目前仍然在使用。使用两个以上磁盘操作的级别 1 可能会在读取时使用并行访问来获得高速数据传输,但是它更常用的是独立操作以提供高速I/O 传输率。级别 1 提供了较高的数据可靠性,并提高了读取任务繁重的程序的执行性能,但是它相对的费用也较高。级别 1 阵列的贮存能力与硬件RAID 中镜像的硬盘之一或软件RAID 中镜像的分区之一的储存能力相同。

级别 4 —级别 4 使用集中到单个磁盘驱动器上的奇偶校验来保护数据。级别 4 的贮存能力相对于所有成员磁盘去掉一个后的贮存能力。RAID-4的优势在于扩充非常方便,可以快速的在线增加磁盘。

级别 5 —这是最普通的RAID 类型。通过在某些或全部阵列成员磁盘驱动器中分布奇偶校验,RAID 级别 5 避免了级别 4 中固有的写入瓶颈。与级别 4 一样,其结果是非对称性能,读取大大地超过了写入性能。级别 5 经常与写回缓存一起使用来减低这种非对称性。硬件级别 5 的贮存能力相当于所有成员磁盘去掉一个后的贮存能力。

普通的RAID-4的瓶颈在于校验盘,由于校验盘是热点盘,因此导致在写入数据时成为整个的系统瓶颈。NetApp设计了增强型RAID-4,提供独特的批次条带化读写算法,消除了RAID-4的热点盘,同时又保留了RAID-4灵活扩充的特点,从而达到了最佳的设计平衡。

RAID-DP

在目前的RAID技术中存在着这样的矛盾,较低的成本只能提供较低的数据可用性,如RAID3/4/5,而采用较高成本的RAID1技术也只能提供一定程度上的数据可用性。这里存在着一个较大的差距。人们显然需要更好的一种解决方案。

NetApp提供了基于专利技术的RAID-DP(Dual Parity双校验盘)技术,既提供了较高的数据可用性,又能保持RAID-4技术的低成本特性,为客户提供了一个最优的方案。

RAID-DP在NetApp增强型RAID-4的基础上提供了2个校验盘,用于保护1个或者2个磁盘同时失效的情况,提供了非常高的数据可用性。一个RAID-DP组包括至少1个数据磁盘,一个普通校验盘和一个DP校验盘。如果一个数据磁盘失效,NetApp存储设备会使用普通校验盘将丢失的数据恢复到热备盘上,如果一个组内的任意2个数据磁盘失效,NetApp存储设备会使用普通校验盘和DP校验盘协同计算,将丢失的数据恢复到2个热备盘上。从而提供了比RAID-4更高的数据可用性。

RAID-DP的普通校验盘采用了NetApp原有的增强RAID-4保护算法,DP校验盘则采用了专利保护的算法。原理如下图所示:

相关主题
相关文档
最新文档