数据容灾架构中的数据复制技术

1.背景及综述

在金融行业内，众所周知其对业务连续性的要求以及对各种IT风险的应对能力的要求都是非常高，尤其是对容灾能力的要求，这是由它的业务特殊性以及集中式架构所决定的。

在金融企业容灾架构中，所谓的数据复制技术主要是指能够将结构化数据进行复制，从而保证数据具备双副本或者多副本的技术。

目前业界发展来看，可以实现数据复制的技术多种多样，有基于数据库层面的数据复制技术，例如Oracle公司的Active Data Gurad、IBM公司的db2 HADR等；有基于系统层面的数据复制技术，例如赛门铁克的vxvm、传统的逻辑卷管理（LVM）、Oracle公司的自动存储管理（ASM）冗余技术、IBM公司的GPFS等；有基于存储虚拟化实现的数据复制技术，例如EMC公司Vplex Stretch Cluster、IBM公司SVC Split Cluster、NetAPP公司Metro Cluster等；也有基于存储底层实现的数据复制技术，例如IBM公司的DS8000 PPRC技术、EMC公司的SRDF技术、HP公司的CA技术等等。

每一种技术都有其实现的前提条件，也有各自的技术特点和实现的不同效果。本文将从复制技术的原理、特点、复杂程度以及复制效果等多方面展开分析及论述，并从多个维度进行对比分析，将业界主流数据复制技术的发展现状以及技术优劣给予一个清晰的展示，并就数据复制技术发展的未来以及趋势予以展望。

2.数据复制技术价值分析

2.1 数据复制在容灾中的必要性

一、RPO保障

如果没有数据复制技术，那么容灾也就无从谈起。当面临站点及故障时，由于没有数据复制技术的支撑，我们的数据无法在其他站点再现，这将意味着RPO将无法保障。对于一个金融企业来讲，最重要的就是客户的数据，它是企业的生命。从这个意义上来讲，金融企业不能没有容灾体系，容灾体系的前提条件是能够实现数据复制。那么数据复制的效率如何，复制的效果如何，复制技术的先进与否也就决定了金融企业生命线的稳固与否。

二、RTO保障

所谓RTO就是在容灾系统在面临站点级故障时，多长时间能够恢复业务。假设站点故障恢复的时间不可容忍或者根本没有可能，那么业务必须能够切到另外一个数据中心，从数据、应用以及网络层都需要具备这个切换能力。但是最终的目的就是要保障业务能正常恢复，而业务恢复的前提条件就是数据，没有数据的应用切换和网络切换没有任何意义。也就是说数据恢复是应用切换以及网络切换的前提条件，从这个意义上讲，数据复制效率和效果直接决定了一些列切换，也就是它使得RTO成为可能。

2.2 评价数据复制技术的维度分析

对于数据复制来讲，我们可以从多个层面、多种技术去实现。各有各的特点，那么究竟哪一种数据复制技术更适合我们？活着说哪一种复制技术更科学合理？这需要一系列从不同纬度进行的科学评估。本文认为应该从以下几个方面来展开分析，并结合我们自己的需求来选择合理的数据复制方案。

一、投资成本分析

建设任何一个项目，投资成本的分析都是必不可少的分析维度。对数据复制技术的投资成本分析来讲，我们需要从它的首次建设成本、持续维护成本以及容灾管理成本等多方面去考虑。

二、技术成熟度及健壮性分析

对于数据复制技术的成熟度和健壮性分析来讲，一方面我们要从技术本身的原理上来分析，另外我们还需要从技术的发展以及应用范围以及应用的持久稳定性等方面来考虑。

三、风险评估分析

数据复制技术本身来讲是要帮助我们解决站点级故障带给我们的IT风险，但是对于技术应用本身来讲，它也会存在一些技术风险。比如说特殊场合下的一些技术风险、容灾管理过程中的一些风险、极端场合下的一些技术风险等等。

四、功能拓展性分析

对于数据复制技术本身来讲，其主要功能就是完成数据的复制。但是在完成数据复制的同时，由于其架构的特点以及技术特点等因素有可能对于我们的应用产生积极的拓展性作用，也有可能限制了我们的应用架构模式，还有可能对我们的基础架构扩展性以及灵活性造成一定的限制。

3.数据复制技术原理分析

3.1 基于应用事务日志回放技术

图3.1是Oracle数据库层面的数据复制技术（ADG）的架构原理图。

对于该架构原理图，本文从其实现的基本条件、数据复制原理、数据复制的模式以及数据复制的关键因素等几个方面来进行深度剖析。

图3.1-1 Oracle Active Data Guard

3.1.1前提条件

容灾站点之间需要有三层以太网连通，软件层面需要数据库的集群软件模块（Oracle Active Data Gurard）或者是db2 purscalehadr。服务器层面需要至少两套服务器系统分别部署于两个数据中心。存储层面需要两套存储空间分别部署于两个站点作为主库存储和备库存储，他们互相之间独立。

3.1.2复制原理

对于主站点的数据库来讲，客户端的数据更新请求首先要由日志写入进程写到重做日志当中，然后由数据写进程再周期性地写入数据文件当中。重做日志当中以SCN 为数据库独有的时间搓序列来记录所有数据库更新的先后顺序，从而保障数据库恢复能够按照正确的顺序执行保障数据一致性和完整性。那么对于配置了Active Data Guard的数据库读写的完成在以上所述过程中，日志写进程在本地日志文件写入过

程的同时，日志传输进程会将缓存里面的重做日志通过ADG传输给灾备站点的备库实例，备库实例的日志接收进程根据接受到的重做日志在备库上重新执行数据库的更新操作，从而保证主库和备库的事务性更新行为一致性，最终保证数据的一致。当然也有一个前提条件，那就是在ADG作用之前，必须保证备库的数据保持与主库的某一固定时间点的完整副本，这需要靠传统数据备份技术来实现备库的初始数据复制。因为事务复制的本质是行为复制，那么行为作用的初始数据副本必须保持一致，才能保证最终两副本的一致性。

对于事务日志的复制技术，本文根据主库IO周期特点可以分为绝对同步模式、近似同步模式和异步模式三种。绝对同步模式是指主库的一个完整更新事务的结束既要包括主库的重做日志落盘也要包括备库的重做日志落盘，也就是说备库重做日志落盘之后返回给主库，主库才能执行下一个事务。近似同步模式是指在传输正常情况下保持与绝对同步模式一样的模式，在网络传输超时的情况下，就会剥离备库重做日志的过程，只要保证主库重做日志落盘就可以了。异步模式是指主库只保证本地重做日志落盘，并不会等待备库重做日志落盘的返回信号。在后两种模式下，当主备库传输管理剥离之后，主库会主动通过以下两种方式探测并尝试重新和备库建立联系，第一是归档日志进程会周期性ping备库，成功情况下，它会根据获得的备库控制文件的记录的最后归档点和自己的归档日志决定向备库推送哪些归档日志。第二是日志发送进程会在重做日志准备发生归档的时刻点主动去ping备库日志接受进程并把剩余的重做条目发送给备库接受进程。

3.1.3关键因素

基于事务日志回放技术的数据复制架构，从技术规划上以及运维管理层面上有几个关键因素需要把握才能将这种数据复制技术运用自如，才能帮我们真正实现高标准的容灾体系建设。

一、重做日志管理策略设计

我们知道对于数据库来讲，我们是靠其在线重做日志和离线重做日志来进行数据恢复的。对于离线重做日志也就是归档日志，我们是需要周期性备份并删除的，否则离线重做日志就会无限占用数据库有限的存储资源。那么对于事务日志型数据复制架构来讲，无论是主库还是备库，都需要有合理的日志管理策略来配合才能正常运行。策略的规划和设计需要把握以下几个原则：

1．完成应用的日志要及时转储，包括主库传输完毕的归档日志和备库应用完毕的归档日志。

2．没有完成应用的日志必须能够保留，主库没有传输到备库的归档日志如果被提前转储会造成备库数据丢失，备库没有被应用的日志如果转储，备库同样会丢失数据。

3．存储资源的科学规划，如果主备库暂时中断，又因为原则2导致归档日志堆积，那么势必造成存储资源的需求超过正常时刻的存储需求量，如果存储资源不够，又会造成数据库发生宕机事故。

以上各个原则的科学设计既需要依赖于数据库参数的合理设置，又需要依赖于备份工具的转储策略合理配合，同时更需要根据不同的业务系统以及负载特点，通过历史数据评估以及仿真测试数据来设计合理的数值并进行动态评估和优化。

二、架构扩展性及灵活性

在今天的互联网线上时代，系统架构的扩展性和灵活性显得尤为重要。对于容灾架构来讲，它的扩展性和灵活性同样非常重要。对于业务型的数据复制架构来讲，它有两种基本架构：级联架构和串联架构。级联架构是指一点为主多点为备，串联架构是指主备模式依次类推。级联架构更有利于主库的多点保障，串联架构更有利于主库的性能保障。具体采用什么样的架构组合，是要根据主库数据的具体业务需求进行合理评估和设计。

三、容灾切换管理

主备库的切换，包括两种类型的切换：Fail Over & Switch Over。

Fail Over是指故障情况下的强制切换，Switch Over是指计划性的切换。无论是哪种切换首先是要保障备库数据和主库数据一致或者可容忍范围内的近似一致。其次当数据发生切换时，实际上主库的服务IP地址就会转化成备库的服务地址，无论是通过域名转换还是通过应用重连的方式都需要保障上层的服务地址能够无缝切换。最后切换之后，原来的主库如果没有时间戳恢复功能的话，那么原主库里面的数据就会变成无效数据，需要重新初始化数据副本。但是如果保持时间戳恢复功能的化，就会巨大的存储空间消耗。

3.2 基于系统级逻辑卷镜像技术

下面三张图都是基于系统级逻辑卷镜像技术实现的数据双重复制。图3.2-1是基于ORACLE自动存储卷管理技术实现的ASM磁盘卷镜像复制技术；图3.2-2是基于UNIX存储卷管理（LVM）实现的逻辑卷镜像技术；图3.2-3是基于IBM GPFS分布式文件系统底层逻辑磁盘镜像实现的数据复制。三种技术虽然依赖的具体技术不同，但是其底层原理都是基于系统层面的双写实现的数据复制。

图3.2-1 ORACLE ASM复制镜像架构

图3.2-2 LVM镜像复制架构

图3.2-3分布式文件系统GPFS镜像复制架构

3.2.1 前提条件

容灾站点之间需要SAN环境联通。软件层面，架构一需要具备ORACLE集群软件当中的自动存储卷管理模块，架构二需要借助UNIX操作系统层的逻辑卷管理器，架构三需要借助GPFS或者类似的分布式文件系统软件。存储层面需要两套存储空间分别部署于两个站点作为主库存储和备库存储，他们互相之间独立。

3.2.2 复制原理

对于ASM和LVM模式来讲，都是将底层来自不同站点的两个物理存储卷作为镜像对组合成一个可用的逻辑存储卷提供给上层应用来存放数据，本地物理卷和远程物理卷分别是由存储经过本地SAN环境以及跨数据中心SAN环境提供给服务器操作系统层。LVM是对操作系统的PP写入进行实时双向复制，而ASM是对Oracle数据文件AU写入进行实时双向复制。本地写完并且远端写完才能算是一个完整的写入，假设远端存储卷写入超时就会被标为故障或者是离线状态，当远端存储写入恢复之后，对于LVM来讲需要重新进行手动同步实现镜像副本完全一致。而对于ASM 来讲，会有一个短时间内的日志记录会帮助恢复离线镜像恢复数据，但是如果超过这个时间，同样需要一个全新的同步来保证数据的一致性。二者的区别在于LVM的逻辑卷与物理卷的映射关系在创建逻辑卷的时候就已经定义好了，所以对于坏块儿问题，LVM无法完成块儿指针的动态转移。而ASM是在数据写入时才会分配具体的AU，完全可以做到通过指针转移的方式避免坏块儿导致的数据写入失败问题。对于GPFS模式来讲，它是通过将底层来自不同站点的两个物理存储卷归属到不同的Failure Group当中，然后由这些物理存储卷经过文件系统格式化形成分布式文件系统，提供给上层应用以文件的形式写入数据。文件本身会被GPFS文件系统打散形成若干文件碎片，这些碎片在落盘时分别落入不同Failure Group当中的物理

磁盘，从而保证底层数据的双副本。这种模式与前两种模式的最大区别在于它的数据落盘是根据NSD磁盘定义的服务实例顺序来决定的，正常情况下我们需要定义本站点的服务节点为磁盘的主服务节点，这样的话两个镜像写入的时候是靠GPFS位于不同中心的两个服务实例节点分别写入，两个服务实例之间也需要私有协议的交互，相当于数据的双写多了一个环节。

3.2.3 关键因素

基于系统级逻辑卷镜像技术实现的数据复制，相对于其他类型的数据复制技术来讲风险性较高，主要表现为以下几个方面：

一、性能方面的问题

对于LVM和GPFS方式来讲，对于数据库的结构化数据复制性能会有较大损耗。因为数据库的读写需要经过数据库本身的存储映射以及操作系统层的存储映射之后才能真正写入存储缓存。纵向的路劲很长，性能损耗会比较大。而ASM本身是将数据库的映射和系统级的映射做到了一起，相对性能损耗会低很多。所以如果利用这类型数据复制技术的话，数据库层的存储块儿参数和操作系统层的存储块儿参数设置要经过一系列优化。

二、容错性问题

如果我们用做本地存储高可用实现这种方式的镜像，那么容错性就不会有问题。因为两个镜像副本的链路指标可以认为是同质的，镜像之前的IO读写不会有差异。但是如果用在容灾场合下，由于两个镜像副本的链路指标完全不同，那么就要求系统层能对正常场合下、故障场合下以及故障恢复后场合下的读写差异有很好的容错性。比如说故障场合下的IO超时反馈速度、故障恢复之后的数据再同步问题。再有就是关于应用数据的容错性，对于纯粹操作系统层面的复制，完全无法避免应用逻辑错误。

三、负担过载问题

其实这种技术在设计之初并没有过多考虑过其在容灾中的数据复制问题，设计初衷还是系统层的存储卷的虚拟化管理。所以其灵活性以及扩展性优于其在容灾数据复制中的作用。如果非要把这类技术应用到容灾场合的数据复制当中，那么操作系统层一方面要完成应用功能载体作用，另外一方面要完成本地存储卷虚拟化作用，还要一个重量级的容灾数据复制作用。这种负担会直接影响到其承载的数据库应用。

3.3 基于存储网关双写复制技术

所谓存储网关双写复制技术，就是在物理存储层之上增加一层网关技术用以实现存储底层的虚拟化以及高可用镜像，并且由存储网关来控制镜像写入的策略和模式。

IBM、EMC、NETAPP等公司都有相应技术的产品方案。基于写入原理及策略的不同，又各有区别。图3.3-1、图3.3-2、图3.3-3分别是IBM SVC Split Cluster、EMC Vplex Stretch Cluster、Netapp Metro Cluster。下面我们就其图示、从原理上分别进行分析和论述。

图3.3-1 IBM SVC Split Cluster

图3.3-2 EMC Vplex Stretch Cluster

图3.3-3 NetaApp Metro Cluster

3.3.1 前提条件

容灾站点之间需要SAN环境联通，TCP/IP实现三层可达。两个站点分别要部署各自的存储集群节点，共同组成存储网关集群。假设要实现双中心的自动化仲裁及切换，那么第三个仲裁站点以及站点中承载仲裁软件的计算及存储载体也是必须的。

3.3.2 复制原理

对于Vplex Stretch Cluster来讲，首先两个存储网关节点是一对类似ORACLE RAC 模式的AA模式集群节点。如图3.3.2-2所示，两个节点都可以接受来自上层应用的读写请求。假设来A和B分别是来自底层存储的两个物理卷，那么经过Vplex集群化之后，这两个物理卷被虚拟化集成为一个分布式共享卷C，对于C来讲，两边的应用节点都可以看得到，都可以读写，它的底层又是有A和B两个物理镜像组成。两个站点在写请求到来时，首先要完成本地A或B的写入，然后需要把写入请求传送给另外一个VPLEX节点来完成镜像盘B或A的写入。很显然，两边同时写入就有可能带来同一个数据块儿的访问竞争，这个时候Vplex节点靠他们共同维护的分布式一致性缓存目录来对竞争数据块儿进行加锁以及释放等协同操作，最终完成对数据块儿的最后更新。当发生链路故障而导致一边节点无法写入时，那么节点会保存相应存储日志用以故障恢复之后的数据同步。我们可以理解该同步模式类似于Oracle的最大可用模式，正常情况下保证镜像数据写入的同步完成，当故障时刻会有timeout时间阈值来决定是否暂时切断其中一个镜像的写。

对于IBM SVC和NETAPP MCC架构来讲，它们同样在存储网关节点上实现对底层两个物理卷的镜像绑定，但是这个卷并不是一个分布式共享卷的模式，仅仅是一个实现了镜像绑定的虚拟卷，对于卷的读写只能以其中一侧节点为主，另外一侧节点为备。节点发生故障场合下实现节点主备切换，它比传统HA模式的切换先进在哪里呢？它的备节点是要从主节点上同步缓存的，所以一旦切换发生，时间仅仅耗费在虚拟卷的Ownership转换上，缓存不需要重新读入，从切换的时间上来讲要比传统HA快很多，从而保障了容灾的RTO。

那么MCC和SVC的区别在于什么地方呢？对于SVC的Split Cluster的两个节点

来讲，它们是两个控制器节点组成的一个IO组，这个IO组意味着故障切换只能发生在这两个控制器节点之间，而且对于一个物理卷来讲只能归属于一个IO组，当这个IO组不可用时，那么这个卷也就无法读写了。对于MCC来讲，承载虚拟卷读写的载体是SVM虚拟机，这个虚拟机是一个资源的组合体，可以动态组合网络、存

储以及存储操作系统等资源，所以它能在组成集群的四个控制器节点上进行动态切换，理论上可以切换到任何一个控制器节点上，只不过其切换本身有一个故障优先级控制其切换的顺序。如图，SVM可以首先切换到A2节点上，当A2节点也发生

故障时，可以切换到B1节点上，当B1节点也发生故障时可以切换到B2节点上。

3.3.3 关键因素

基于存储网关双写技术实现的容灾数据复制，可以将数据容灾管理功能从应用及系统层剥离，从而对上层影响相对很小，而且容灾针对性设计保障其功能实现上会更优。但是其实施的复杂度相对较高，而且对于以上不同架构来讲，其所承担的风险也是不一样的，所以在这类技术的应用上，我们需要特别关注以下几个方面：

一、架构复杂性

无论是以上哪种存储网关复制技术，那么从硬件条件上来讲，存储这一层需要通过硬件节点组成一层统一存储集群。要想实现自动切换的话，那需要仲裁站点的参与。也就是说从存储这一层来讲，其实两个站点就是一个系统的整体了，底层的复杂性就很高了。如果数据库层、网络层以及应用层的架构再稍微复杂一些的话，那么整个容灾架构的复杂度就会直线上升。

二、架构扩展性问题

在这种容灾架构下，其实存储层不仅仅是作了一层虚拟化和集群化，更重要的是作了一层存储的集中化，存储网关成为存储的统一出口。那么存储网关集群的横向拉伸能力制约了整个存储系统的可扩展能力。当我们的业务出现快速膨胀的场合下，存储网关集群的最大扩展能力以及其本身的纵向性能扩展性就会是一个关键性问题，我们必须考虑。

3.4 基于存储底层块儿复制技术

基于物理存储层之间的软件复制技术是相对比较传统的存储复制技术，应用的时间也比较长。几乎每一个存储厂商都会有针对性的解决方案。图3.4-1是基于存储软

件复制技术的基本原理图。

图3.4-1 存储层软件复制

3.4.1 前提条件

对于物理存储底层的块儿复制技术来讲，对于环境要求主要是存储层的要求。容灾站点之间需要SAN环境联通，两边的存储一般要求型号一致并且配置有专门的存储复制软件以及相关许可。

3.4.2 复制原理

其实对于存储存储底层的块儿复制技术来讲，它跟上层的应用层关系不大，主要是依靠存储层两个节点来完成源到目标的复制。当上层应用将数据写入存储的时候，那么由存储将这一IO请求再以块儿的方式传输到另外一个存储上，从而保证存储设备在块儿级别上的一致性副本。对于同步复制来讲，需要应用端的IO请求等到存储层的复制完毕之后才会正常返回，对于异步复制来讲，应用IO请求跟底层复制没有任何关系，不需要等待复制结果。对于这种复制技术来讲，两个数据副本仅仅是数据内容相同，在上层没有任何逻辑捆绑或者是虚拟化，所以上层应用也是完全隔离的两套应用，一旦存储发生故障，无论上层应用节点及网络节点是否可用都需要发生站点级切换实现业务连续性，存储本身不能隔离开应用发生切换。

3.4.3 关键因素

对于物理存储层面的块儿复制技术，它剥离了对上层应用的依赖，直接靠存储来完成数据复制。好的地方在于它的架构相对简单、相关影响面较小，不好的地方在于它的功能狭窄，功能仅仅在于数据的拷贝，对于上层应用的支撑面儿很窄。所以对于这种复制技术的把握需要注意以下几个点：

一、容灾的切换管理

对于容灾的切换管理，我们需要决定好几个问题：

1.切换的决策问题。如果故障集中在存储层面，而其他层面不受任何影响的场合下，那么是不是一定要执行容灾切换？这需要一个完善的决策体系来支撑各种场合下的故障应对。

2.切换的流程以及技术管理体系建设。由于这种数据复制技术对上层依赖的耦合性非常低，那么单纯的存储切换无法实现，这就需要从上到下的一系列技术措施和管理流程来应对容灾切换。

3.回切的流程及技术管理体系建设。同样当故障恢复之后，我们需要回切的时候，这个过程虽然是个计划内的事件，但是可能相对比容灾切换更要复杂、更需要关注。

二、技术兼容性

基于存储底层的块儿复制技术，其中最重要的软件依赖就是存储复制软件，但是这个存储复制软件一般都是基于特定的存储设备实现的，具有厂家或者设备壁垒。当我们的存储呈现五花八样的时候，那么这个核心的复制软件可能也会呈现五花八门。对于存储的升级换代或者更换品牌等事件更是有诸多限制。所以我们在应用此类技术的时候要充分考虑到这一点。

4.数据复制技术对比分析

4.1 关键维度的对比分析

4.1.1 投资成本对比分析

对于投资成本的分析，我们不仅仅要看建设成本更需要关注运维成本，不仅仅需要关注设备成本更需要关注管理成本。本文首先将成本划分为几个部分，然后根据每一个部分成本按照定性分为高中低三个指标，最终得出的综合分析如表4.1.1所示：表4.1.1-1 成本分析表

A = 基于数据库事务日志回放技术。

B.1 = 基于系统级逻辑卷镜像技术（数据库管理存储卷镜像）。

B.2 = 基于系统级逻辑卷镜像技术（系统层管理存储卷镜像）。

C.1 = 基于存储网关双写复制技术（Vplex模式）。

C.2 = 基于存储网关双写复制技术（SVC&MCC模式）。

D = 基于存储底层块儿复制技术。

对于以上成本分析，有几个需要说明的地方。

对于网络成本，以太网三层可达我们认为成本属于低指标，对于二层可达或者是需要FC协议环境的我们认为成本属于中指标，对于二层可达或者是FC环境的，而且对带宽要求非常苛刻的我们认为是高；对于设备成本，对于存储兼容性没有任何要求的而且不需要购置硬件设备的，我们认为属于低指标。对存储设备型号有关联性要求的我们认为属于中指标，对需要购置网关设备的我们认为是高指标；对于软件成本，如果有在数据库层、系统层以及存储层没有任何附带软件许可的我们认为属于低指标，如果既有附带软件模块儿而且还有容量许可等我们认为属于高指标；对于运维管理，不需要数据库层面做特殊运维的我们认为属于低指标，需要数据库维护的属于中指标，需要存储高度支持而且需要数据库应用等熟练实施整套切换的属于高指标；对于容灾管理来讲，可以实现自动化切换或半自动切换的我们认为低指标，需要人工切换的我们认为是中指标；需要组成专门的容灾决策管理体系并实施专家级切换的我们认为是高指标；对于风险管理成本完全取决于架构本身的风险程度高低。

4.1.2 技术健壮性对比分析

单就数据库层面的数据来讲，从复制有效性上来讲基于事务日志回放技术可以有效避开底层物理存储卷的物理视图，就数据库逻辑层面组成很好的逻辑视图，数据的复制可以很好避开底层发生的逻辑块儿错误等问题。而其他任何一项技术都无法避免存储块儿逻辑错误问题，因为它们在复制数据的过程中跟上层应用没有任何校验过程，那么当存储块儿上发生的配置性逻辑错误就会导致上层应用数据出现校验错误。

从技术的专有属性上来讲，基于系统级逻辑卷镜像技术的初衷在于数据的本地保护，并不是基于容灾需求所生的技术，所以在跨地域链路的容错技术上要弱于其他的专用容灾数据复制技术。

从数据传输的复杂性上来讲，除了上述C.1属于双向同步技术，其他技术全部属于单向同步技术，双向同步技术的稳定性和技术可靠性相对会低于单向同步技术。

4.1.3 技术风险对比分析

一、应用数据有效性风险

举一个极端的案例，假设一个系统层面的误操作把数据库卷的元数据清除掉了，那么主库在下次要访问到这个卷上数据的时候可能就要发生宕机。这个时候如果我们是基于事务回放技术做的数据复制，那么这部分误操作就不会被复制到备库，备库数据依然可用。但是如果从操作系统层或者是存储层做的数据复制，它是无法感知这一误操作的无效性，所以逻辑错误依然会被复制到灾备中心，那么最终的结果就是两个数据中心的数据库都无法工作。

二、远程链路抖动风险

容灾必然会涉及到远程链路，那么远程链路相对于本地链路来讲，抖动问题就是一个很难解决掉的问题。既然不能解决这个问题，那么就应该看到一旦这个问题发生了，带给我们的风险是什么：

首先我们来看事务日志回放技术，假设我们使用的是近似同步模式，那么链路一旦发生抖动，直接影响就是日志同步会随着发生不间断超时，主库缓存里的日志条目无法及时同步到备库。当链路恢复稳定之后，归档日志和在线日志分别发起同步请求将主备库数据追为同步，这期间主库不受任何影响。

接着我们来看系统级镜像技术，远程链路抖动导致远程镜像写入失败，当然这个失败会有一个从底层存储、光纤链路以及操作系统等多层的超时的传递效应，每一层都会有自己的超时策略，反应到数据库层之后，这就是一个不小的应用等待。当链路恢复稳定之后，会有一系列的镜像同步过程，这个镜像同步过程需要对主镜像进行扫描分析，会有很高的性能消耗。

然后我们再来看存储网关双写技术，链路抖动一旦超过仲裁阀值就会引起存储网关集群的仲裁，这个仲裁结果不确定，有可能会发生切换而且会频繁切换，一旦发生切换不仅仅要面对两边数据主备同步模式频繁变化，而且还会面对上层应用在面临链路抖动情况下的跨数据中心的频繁访问，相当于将不稳定问题又向上转嫁了一层。这样的复杂问题组合到一起，风险性相对较高。

最后我们再看物理存储层的块儿复制技术，其实他和事务日志回放技术面临的风险几乎相当，影响的仅仅是远程数据副本的继续同步，本地存储写入不受任何影响。链路稳定后，同样面临存储层底层数据追平问题，当然这个策略和模式根据不同厂商的设计原理会有优劣之分，这里就不再详细讨论。

三、容灾切换技术复杂度风险

探讨这个问题的前提条件是抛开一切其他类似链路抖动之类问题，仅仅探讨当发生站点级故障并且短时间无法恢复故障时刻，不同数据复制技术带给我们整个容灾切换的复杂度。基于存储网关双写技术基本上会有一套完善的存储层切换机制，依靠仲裁站点能够实现自动化切换，只要双中心之间的SAN环境相通，数据库应用层自

然也是无缝切换。基于应用事务日志回放技术就完全要靠人工来实现数据库的切换以及应用访问的切换了，需要依靠数据库专家来判断主备库状态以及具体的切换策略。这个不仅仅是技术上的风险而且是管理决策上的风险。基于系统级镜像技术的切换需要依靠操作系统层的共享卷组或者共享文件系统或者是ORACLE集群来完成切换，属于自动化或者半自动化切换。而基于物理存储块儿复制技术的切换则是一系列的冷切换，数据库是一个全新数据库的重新初始化，只不过底层存储卷上的数据是主站点上的副本而已。

四、性能上的风险

对于性能上风险主要是指数据复制过程本身消耗的存储资源以及计算资源的性能对业务上的性能影响如何。我们希望的是数据复制过程本身对主业务没有任何性能影响，但是由于这两者的高度关联性，尤其是同步模式或者近似同步模式的场合。对此我们可以描述为下表（近似同步模式）：

表4.1.3-1 性能影响程度及范围

A = 基于数据库事务日志回放技术。

B.1 = 基于系统级逻辑卷镜像技术（ASM模式）。

B.2 = 基于系统级逻辑卷镜像技术（LVM模式）。

B.2 = 基于系统级逻辑卷镜像技术（GPFS模式）。

C.1 = 基于存储网关双写复制技术（Vplex模式）。

C.2 = 基于存储网关双写复制技术（SVC&MCC模式）。

D = 基于存储底层块儿复制技术。

4.1.4 功能扩展性对比分析

这一项的对比分析在于我们应用的数据复制技术对于应用层以及整个架构的扩展性和灵活性的影响程度，容灾架构固然重要，但是对于真个基础架构来讲，容灾指标是其中很重要的衡量指标之一，我们还有对架构扩展性、灵活性以及性能评估等多个方面。所以容灾架构的设计不能制约其他指标的发展。详细对比分析参照表

4.1.4-1。

表4.1.4-1 功能扩展性对比分析汇总表

5.总结及展望

本文对企业容灾过程当中涉及到的各种数据复制技术进行深入调研分析，并且根据其实现的技术原理进行剖析，从原理底层来分析其在实际容灾应用过程中的技术优势和面临的风险劣势，同时根据企业容灾应用过程中所面临的具体需求来对比分析几类复制技术的差异，旨在为同行选型及实施提供技术参考。同时也希望有更多同业基于此提出更优化更科学的思路和想法。

信息安全及其前沿技术综述

信息安全及其前沿技术综述一、信息安全基本概念 1、定义（1）国内的回答 ●可以把信息安全保密内容分为：实体安全、运行安全、数据安全和管理安全四个方面。（沈昌祥） ●计算机安全包括：实体安全；软件安全；运行安全；数据安全；（教科书）●计算机信息人机系统安全的目标是着力于实体安全、运行安全、信息安全和人员安全维护。安全保护的直接对象是计算机信息系统，实现安全保护的关键因素是人。（等级保护条例）（2）国外的回答 ●信息安全是使信息避免一系列威胁，保障商务的连续性，最大限度地减少商务的损失，最大限度地获取投资和商务的回报，涉及的是机密性、完整性、可用性。（BS7799） ●信息安全就是对信息的机密性、完整性、可用性的保护。（教科书） ●信息安全涉及到信息的保密（3）信息安全的发展渊源来看 1）通信保密阶段（40—70年代） ●以密码学研究为主 ●重在数据安全层面 2）计算机系统安全阶段（70—80年代） ●开始针对信息系统的安全进行研究 ●重在物理安全层与运行安全层，兼顾数据安全层 3）网络信息系统安全阶段（>90年代） ●开始针对信息安全体系进行研究 ●重在运行安全与数据安全层，兼顾内容安全层 2、信息安全两种主要论点

●机密性（保密性）：就是对抗对手的被动攻击，保证信息不泄漏给未经授权的人。 ●完整性：就是对抗对手主动攻击，防止信息被未经授权的篡改。 ●可用性：就是保证信息及信息系统确实为授权使用者所用。（可控性：就是对信息及信息系统实施安全监控。）二、为什么需要信息安全信息、信息处理过程及对信息起支持作用的信息系统和信息网络都是重要的商务资产。信息的保密性、完整性和可用性对保持竞争优势、资金流动、效益、法律符合性和商业形象都是至关重要的。然而，越来越多的组织及其信息系统和网络面临着包括计算机诈骗、间谍、蓄意破坏、火灾、水灾等大范围的安全威胁，诸如计算机病毒、计算机入侵、DoS 攻击等手段造成的信息灾难已变得更加普遍,有计划而不易被察觉。组织对信息系统和信息服务的依赖意味着更易受到安全威胁的破坏，公共和私人网络的互连及信息资源的共享增大了实现访问控制的难度。

数据镜像复制技术

数据镜像复制技术大型的业务系统中，数据库中的各类数据，如市场数据，客户数据，交易历史数据，财务管理数据、社会综合数据、生产研发数据等，都是公司至关重要的资产，它不仅关系着整个业务系统的稳定和正常运行，还可能关系着巨大的经济利益。数据系统中，存储设备的安全和高可用性与数据库软件系统一样，都至关重要的一旦数据丢失，就有可能面临着百万、千万元的经济损失。正因为如此，一个大型数据库系统要具有高安全、高可用性，就必须具有以下几个方面的特点：高可用性HA（High Availability） l有遭受失败的能力 l有单独的服务和资源管理的能力 l通过一种类型的Cluster进行操作 l关键概念是失败转移(takeover) l与容错不同(容错失败是不可见的) 持续可用性CA( Continuous Availability) l一对或Cluster系统，支持100%联机运行 l高度分布式系统 l设计有多层冗余 l设计有客户端自动失败转移 l为非单点失败而设计 l为非计划停机事件而设计在数据库系统设计中，常用到的系统结构图如：（图2）如图所示中，数据库软件、主机、HBA卡和网络交换机一般都采用双机方式，通过多台设备间的Active-Active工作方式来保障系统中的高可用性。不过从上图我们也可以看到，整个系统中，只有存储是单台设备。虽然存储设备内部可通过双控制器、双电源和RAID组来实现内部的冗余，但从存储设备整体而言，仍然存在许多单点故障，比如控制器的背板，

磁盘扩展柜等；这与主机和网络层的高可用工作方式是不匹配的。一旦存储设备发生整体故障，将会直接引起整个系统瘫痪，甚至造成数据丢失，给使用者带来具大的损失。 1.1 卷镜像复制和RAID镜像卷为了提供存储设备的高可用性，保障数据的安全性，常用的一种解决方案是再增加一台备用存储设备，由两台存储设备负责数据库系统的数据存储服务，保障数据库的安全和数据存储服务器稳定。根据两个存储设备之间工作方式的不同，数据同步和复制机制的不同，可分为两种方式，第一种是卷镜像复制方式，第二种是RAID镜像卷方式。卷镜像复制工作方式的系统结构图如下：（图3）左侧存储为主存储设备设备，右侧为备用存储设备，再通过卷镜像复制软件、数据备份软件、网络层的存储虚拟化设备、存储设备自带的卷镜像复制功能等多种方式来实现主、备两个存储之间的卷镜像复制，以此来保障数据的安全性，同时备份存储设备也可以作为数据库系统中的数据存储服务功能的一种后备方式，一旦主存储设备发生故障，就需要自动或手动的切换到备份存储设备上，这种切换实际上是主存储设备生产卷到备份存储设备的镜像卷的切换，经常会导致数据库不一致，数据库重起，切换时间过长等问题。。 RAID镜像卷工作方式的系统结构图下：

Oracle数据库同步技术

基于Oracle数据库的数据同步技术大体上可分为两类：Oracle自己提供的数据同步技术和第三方厂商提供的数据同步技术。Oracle自己的同步技术有DataGuard，Streams，Advanced Replication和今年刚收购的一款叫做GoldenGate的数据同步软件。第三方厂商的数据同步技术有Quest公司的SharePlex 和DSG的RealSync。下面对这些技术逐一进行介绍。一、DataGuard数据同步技术 DataGuard是Oracle数据库自带的数据同步功能，基本原理是将日志文件从原数据库传输到目标数据库，然后在目标数据库上应用（Apply）这些日志文件，从而使目标数据库与源数据库保持同步。DataGuard 提供了三种日志传输（Redo Transport）方式，分别是ARCH传输、LGWR同步传输和LGWR异步传输。在上述三种日志传输方式的基础上，提供了三种数据保护模式，即最大性能（Maximum Performance Mode）、最大保护（Maximum Protection Mode）和最大可用（Maximum Availability Mode），其中最大保护模式和最大可用模式要求日志传输必须用LGWR同步传输方式，最大性能模式下可用任何一种日志传输方式。最大性能模式：这种模式是默认的数据保护模式，在不影响源数据库性能的条件下提供尽可能高的数据保护等级。在该种模式下，一旦日志数据写到源数据库的联机日志文件，事务即可提交，不必等待日志写到目标数据库，如果网络带宽充足，该种模式可提供类似于最大可用模式的数据保护等级。最大保护模式：在这种模式下，日志数据必须同时写到源数据库的联机日志文件和至少一个目标库的备用日志文件（standby redo log），事务才能提交。这种模式可确保数据零丢失，但代价是源数据库的可用性，一旦日志数据不能写到至少一个目标库的备用日志文件（standby redo log），源数据库将会被关闭。这也是目前市场上唯一的一种可确保数据零丢失的数据同步解决方案。最大可用模式：这种模式在不牺牲源数据库可用性的条件下提供了尽可能高的数据保护等级。与最大保护模式一样，日志数据需同时写到源数据库的联机日志文件和至少一个目标库的备用日志文件（standby redo log），事务才能提交，与最大保护模式不同的是，如果日志数据不能写到至少一个目标库的备用日志文件（standby redo log），源数据库不会被关闭，而是运行在最大性能模式下，待故障解决并将延迟的日志成功应用在目标库上以后，源数据库将会自动回到最大可用模式下。根据在目标库上日志应用（Log Apply）方式的不同，DataGuard可分为Physical Standby（Redo Apply）和Logical Standby（SQL Apply）两种。 Physical Standby数据库，在这种方式下，目标库通过介质恢复的方式保持与源数据库同步，这种方式支持任何类型的数据对象和数据类型，一些对数据库物理结构的操作如数据文件的添加，删除等也可支持。如果需要，Physical Standby数据库可以只读方式打开，用于报表查询、数据校验等操作，待这些操作完成后再将数据库置于日志应用模式下。 Logical Standby数据库，在这种方式下，目标库处于打开状态，通过LogMiner挖掘从源数据库传输过来的日志，构造成SQL语句，然后在目标库上执行这些SQL，使之与源数据库保持同步。由于数据库处于打开状态，因此可以在SQL Apply更新数据库的同时将原来在源数据库上执行的一些查询、报表等操作放到目标库上来执行，以减轻源数据库的压力，提高其性能。 DataGuard数据同步技术有以下优势： 1）Oracle数据库自身内置的功能，与每个Oracle新版本的新特性（如ASM）都完全兼容，且不需要另外付费； 2）配置管理较简单，不需要熟悉其他第三方的软件产品； 3）Physical Standby数据库支持任何类型的数据对象和数据类型；

两地三中心容灾方案

Xx项目存储方案介绍

目录 1. 现状综述 (4) 2. 总体建设方案 (4) 2.1. 建设原则和策略 (4) 2.1.1. 建设原则 (4) 2.1.2. 建设策略 (5) 2.2. 建设目标 (7) 2.2.1. 总体目标 (7) 2.2.2. 分期目标 (7) 2.3. 建设内容 (7) 2.4. 总体设计方案 (8) 3. 容灾的核心技术及选择 (9) 3.1. 容灾系统衡量指标 (9) 3.2. 容灾级别 (10) 3.3. 常见容灾建设模式 (11) 3.3.1. 同城容灾 (11) 3.3.2. 异地容灾 (11) 3.3.3. 两地三中心 (11) 3.3.4. 双活数据中心 (11) 3.4. 常用的数据复制技术 (12) 3.4.1. 基于存储层的容灾复制方案 (13) 3.4.2. 基于主机数据复制技术的灾备方案 (18) 3.4.3. 基于数据库的数据复制技术构建灾备方案 (20) 3.5. 如何选择最优的容灾方案 (28) 3.5.1. 数据容灾技术选择原理 (28) 3.5.2. 数据容灾技术选择度量标准 (29) 3.6. 本项目容灾模式及技术的选择 (29) 3.6.1. 容灾模式选择 (29) 3.6.2. 容灾中心选址 (30) 3.6.3. 数据复制技术的选择 (32) 4. 推荐方案概述 (33) 4.1. 技术路线选择 (33) 4.2. 总体方案架构 (33) 4.3. 数据库容灾系统设计 (35) 4.3.1. Golden Gate技术原理 (36) 4.3.2. 各委办局和同城容灾中心之间的数据库复制 (37) 4.3.3. 同城容灾中心和异地容灾中心之间的数据库复制 (40) 4.4. 非结构化数据容灾系统设计 (40) 4.4.1. 同城容灾中心和生产中心之间的数据容灾 (41) 4.4.2. 同城容灾中心和远程容灾中心的数据容灾 (43) 4.4.3. 应用级容灾几种实现方式 (44) 4.5. 一体化集中备份系统 (45) 4.6. 容灾网络建设方案设计 (46)

认识数据备份和容灾的重要性

认识数据备份和容灾的重要性现在无论企业网络规模大小，我们都建议有一个完善、适用的数据备份和容灾方案，因为现在的网络安全形式太严峻了，网络安全威胁无时无刻都存在着，数据备份和容灾也就显着尤为重要。但是，对于国内许多企业老总和网管员来说，对数据备份和容灾的认识还相当不够，这可以从几百位网管员经常说他们的数据损坏或丢失了无法修复的现象中得到证明。 1.数据备份的意义目前，从国际上来看，以美国为首的发达国家都非常重视数据存储备份技术，而且将其充分利用，服务器与磁带机的连接已经达到60%以上。而在国内，据专业调查机构调查显示，只有不到15%的服务器连有备份设备，这就意味着85%以上的服务器中的数据面临着随时有可能遭到全部破坏的危险。而且这15%中绝大部分是属于金融、电信、证券等大型企业领域或事业单位。由此可见，国内用户对备份的认识与国外相比存在着相当大的差距。这种巨大的差距，也就体现了国内与国内经济实力和观念上的巨大差距。一方面，因为国内的企业通常比较小，信息化程度比较低，因此对网络的依赖程度也就小许多。另一方面，国内的企业大多数是属于刚起步的中小型企业，它们还没有像国内一些著名企业那样丰富的经历，更少有国外公司那样因数据丢失或毁坏而遭受重大损失的亲身体验。其实这都是错误的，因为现在的经济环境与几年前都有着天壤之别，更别说与之前的十几年，甚至几十年相比了。在现在的社会网络大环境中，即使是小型企业也可能有许多的工作通过网络来完成，也必将有许多企业信息以数据的形式而保存在服务器或计算机上。它们对计算机和网络的依赖程度必将一天天加重。由此可见，无论是国内的大型企业，还是占有绝大多数的中小型企业，都必须从现在起重视数据备份这一项我们以前总认为“无用”的工作。一旦等到重大损失出现，再来补救就为时已晚了。前车之鉴，希望我们能够吸取。根据3M公司的调查显示，对于市场营销部门来说，恢复数据至少需要19天，耗资17000美圆；对于财务部门来说，这一过程至少需要21天，耗资19000美圆；而对于工程部门来说，这一过程将延至42天，耗资达98000美圆。而且在恢复过程中，整个部门实际上是处在瘫痪状态。在今天，长达42天的瘫痪足以导致任何一家公司破产，而唯一可以将损失降至最小的行之有效的办法莫过于数据的存储备份。其实数据备份并不是“无用”，而是有相当大的作用，它可以在一定程度上决定了一个企业的生死。 2.数据破坏的主要原因了解了数据备份的意义后，我们再来了解一下可能性造成数据被破坏的一些主要因素。虽然我们不可能全面避免这些不利因素的发生，但至少我们可以做到有针对性的预防。而且有些主观上的因素还是可以尽量减少的。目前造成网络数据破坏的原因主要有以下几个方面：(1)自然灾害，如水灾、火灾、雷击、地震等造成计算机系统的破坏，导致存储数据被破坏或丢失，这属于客观因素我们无能为力。(2)计算机设备故障，其中包括存储介质的老化、失效，这也属于客观原因，但可以提前预防，只需经常做到维护，就可以及时发现问题，避免灾难的发生。(3)系统管理员及维护人员的误操作，这属于主观因素，虽然不可能完全避免，但至少可以尽量减少。(4)病毒感染造成的数据破坏和网络上的“黑客”攻击，这虽然也可归属于客观因素，但其实我们还是可以做好预防的，而且还有可能完全避免这类灾难的发生。 3.有关数据备份的几种错误认识在一般人脑海里，往往把备份和拷贝等同起来，把备份单纯看做是更换磁带、为磁带编号等一个完全程式化的、单调的操作过程。其实不然，因为除了拷贝外，还包括更重要的内容，如备份管理和数据恢复。备份管理包括备份计划的制订，自动备份活动程序的编写、备份日志记录的管理等。事实上，备份管理是一个全面的概念，它不仅包含制度的制定和磁带

几种容灾数据复制技术的比较

一、概述近几年来，容灾已经成为信息数据中心建设的热门课题。很多容灾技术也快速发展起来，对用户来说也有很广阔的选择余地。但由于容灾方案的技术复杂性和多样性，一般用户很难搞清其中的优劣以确定如何选择最适合自己状况的容灾解决方案。本文我们就容灾建设中的备份及复制技术做一个初步探讨，希望能对客户的数据中心容灾建设提供一些参考。目前有很多种容灾技术，分类也比较复杂。但总体上可以区分为离线式容灾（冷容灾）和在线容灾（热容灾）两种类型。二、离线式容灾所谓的离线式容灾主要依靠备份技术来实现。其重要步骤是将数据通过备份系统备份到磁带上面，而后将磁带运送到异地保存管理。离线式容灾具有实时性低、可备份多个副本、备份范围广、长期保存、投资较少等特点，由于是备份一般是压缩后存放到磁带的方式所以数据恢复较慢，而且备份窗口内的数据都会丢失，因此一般用于数据恢复的RTO（目标恢复时间）和RPO（目标恢复点）要求较低的容灾。也有很多客户将离线式容灾和在线容灾结合起来增加系统容灾的完整性和安全性。目前主流的备份软件主要有： l Symantec Veritas NetBackup l EMC Legato NetWorker l IBM Tivoli Storage Manager l Quest BakBone NetVault 三、在线容灾在线容灾要求生产中心和灾备中心同时工作，生产中心和灾备中心之间有传输链路连接。数据自生产中心实时复制传送到灾备中心。在此基础上，可以在应用层进行集群管理，当生产中心遭受灾难出现故障时可由灾备中心接管并继续提供服务。因此实现在线容灾的关键是数据的复制。和数据备份相比，数据复制技术具有实时性高、数据丢失少或零丢失、容灾恢复快、投资较高等特点。根据数据复制的层次，数据复制技术的实现可以分为三种：存储系统层数据复制、操作系统数据复制和数据库数据复制。

数据库实时同步技术解决方案

数据库实时同步技术解决方案一、前言随着企业的不断发展，企业信息化的不断深入，企业内部存在着各种各样的异构软、硬件平台，形成了分布式异构数据源。当企业各应用系统间需要进行数据交流时，其效率及准确性、及时性必然受到影响。为了便于信息资源的统一管理及综合利用，保障各业务部门的业务需求及协调工作，常常涉及到相关数据库数据实时同步处理。基于数据库的各类应用系统层出不穷，可能涉及到包括ACCESS、SQLSERVER、ORACLE、DB2、MYSQL等数据库。目前国内外几家大型的数据库厂商提出的异构数据库复制方案主要有：Oracle的透明网关技术，IBM的CCD表（一致变化数据表）方案，微软公司的出版者/订阅等方案。但由于上述系统致力于解决异构数据库间复杂的交互操作，过于大而全而且费用较高，并不符合一些中小企业的实际需求。本文结合企业的实际应用实践经验，根据不同的应用类型，给出了相应的数据库实时同步应用的具体解决方案，主要包括： (1) SQLSERVER 到SQLSERVER 同步方案 (2) ORACLE 到SQLSERVER 同步方案 (3) ACCESS 到SQLSERVER/ORACLE 同步方案

二、异构数据库异构数据库系统是相关的多个数据库系统的集合，可以实现数据的共享和透明访问，每个数据库系统在加入异构数据库系统之前本身就已经存在，拥有自己的DMBS。异构数据库的各个组成部分具有自身的自治性，实现数据共享的同时，每个数据库系统仍保有自己的应用特性、完整性控制和安全性控制。异构数据库的异构性主要体现在以下几个方面： 1、计算机体系结构的异构各数据库可以分别运行在大型机、小型机、工作站、PC嵌入式系统中。 2、基础操作系统的异构各个数据库系统的基础操作系统可以是Unix、Windows NT、Linux等。 3、DMBS本身的异构可以是同为关系型数据库系统的Oracle、SQL Server等，也可以是不同数据模型的数据库，如关系、模式、层次、网络、面向对象，函数型数据库共同组成一个异构数据库系统。三、数据库同步技术

数据容灾备份的等级及关键技术.

数据容灾备份的等级及关键技术数据容灾备份的等级容灾备份是通过在异地建立和维护一个备份存储系统，利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。根据容灾系统对灾难的抵抗程度，可分为数据容灾和应用容灾。数据容灾是指建立一个异地的数据系统，该系统是对本地系统关键应用数据实时复制。当出现灾难时，可由异地系统迅速接替本地系统而保证业务的连续性。应用容灾比数据容灾层次更高，即在异地建立一套完整的、与本地数据系统相当的备份应用系统数据容灾备份的等级容灾备份是通过在异地建立和维护一个备份存储系统，利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。根据容灾系统对灾难的抵抗程度，可分为数据容灾和应用容灾。数据容灾是指建立一个异地的数据系统，该系统是对本地系统关键应用数据实时复制。当出现灾难时，可由异地系统迅速接替本地系统而保证业务的连续性。应用容灾比数据容灾层次更高，即在异地建立一套完整的、与本地数据系统相当的备份应用系统(可以同本地应用系统互为备份，也可与本地应用系统共同工作)。在灾难出现后，远程应用系统迅速接管或承担本地应用系统的业务运行。设计一个容灾备份系统，需要考虑多方面的因素，如备份/恢复数据量大小、应用数据中心和备援数据中心之间的距离和数据传输方式、灾难发生时所要求的恢复速度、备援中心的管理及投入资金等。根据这些因素和不同的应用场合，通常可将容灾备份分为四个等级。第0级：没有备援中心这一级容灾备份，实际上没有灾难恢复能力，它只在本地进行数据备份，并且被备份的数据只在本地保存，没有送往异地。第1级：本地磁带备份，异地保存在本地将关键数据备份，然后送到异地保存。灾难发生后，按预定数据恢复程序恢复系统和数据。这种方案成本低、易于配置。但当数据量增大时，存在存储介质难管理的问题，并且当灾难发生时存在大量数据难以及时恢复的问题。为了解决此问题，灾难发生时，先恢复关键数据，后恢复非关键数据。第2级：热备份站点备份在异地建立一个热备份点，通过网络进行数据备份。也就是通过网络以同步或异步方式，把主站点的数据备份到备份站点，备份站点一般只备份数据，不承

容灾需求分析及方案建议

中国联通XX分公司综合电信业务支撑系统容灾一期工程需求分析及方案建议书

目录 1.项目综述 (4) 1.1项目概述 (4) 1.2项目整体建设思想 (5) 1.3需求分析 (6) 1.3.1XX联通现有综合电信业务支撑系统状况 (6) 1.3.1.1总体架构 (6) 1.3.1.2系统组织及设备构成 (7) 1.3.1.2.1 综合营帐系统介绍 (7) 1.3.1.2.2专业计费系统现状 (9) 1.3.1.3 数据构成 (10) 2.系统容灾方案 (11) 2.1容灾系统的整体思想 (12) 2.1.1XX联通容灾系统实现功能目标 (13) 2.1.2XX联通容灾实施服务内容 (14) 2.1.3XX联通容灾方案实施阶段与步骤 (15) 2.2XX联通综合电信业务支撑系统的容灾方案的设计原则 (18) 2.3XX联通综合电信业务支撑系统的容灾方案的取定 (19) 2.4数据复制技术的选择 (20) 2.5系统容灾方案的总体设计 (23) 2.5.1 存储资源规划 (23) 2.5.2 容灾中心主机系统方案 (25) 2.5.2.1服务器的选型 (26) 2.5.2.2服务器的配置 (26) 2.5.2.3 Oracle数据库的升级 (27) 2.5.3.4容灾中心的备份方案 (28) 2.5.4 网络系统方案 (28) 2.5.4.1用于数据传输的TCP/IP网络 (29) 2.5.4.2基于数据远程同步的SAN网络 (30) 2.5.5 EMC总体方案描述 (32) 2.5.5.1 EMC容灾方案 (33) 2.5.5.2 日后应用系统切换 (34) 2.5.5.3 本期系统总体资源描述 (37) 2.5.5.4 具体实施步骤 (39) 2.5.5.5 灾难处理 (40) 3.容灾系统监控 (42)

容灾备份的等级和技术

容灾备份的等级和技术容灾备份: 容灾备份是通过在异地建立和维护一个备份存储系统，利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。根据容灾系统对灾难的抵抗程度，可分为数据容灾和应用容灾。数据容灾是指建立一个异地的数据系统，该系统是对本地系统关键应用数据实时复制。当出现灾难时，可由异地系统迅速接替本地系统而保证业务的连续性。应用容灾比数据容灾层次更高，即在异地建立一套完整的、与本地数据系统相当的备份应用系统（可以同本地应用系统互为备份，也可与本地应用系统共同工作）。在灾难出现后，远程应用系统迅速接管或承担本地应用系统的业务运行。容灾备份的等级: 设计一个容灾备份系统，需要考虑多方面的因素，如备份/恢复数据量大小、应用数据中心和备援数据中心之间的距离和数据传输方式、灾难发生时所要求的恢复速度、备援中心的管理及投入资金等。根据这些因素和不同的应用场合，通常可将容灾备份分为四个等级。第0级：没有备援中心这一级容灾备份，实际上没有灾难恢复能力，它只在本地进行数据备份，并且被备份的数据只在本地保存，没有送往异地。第1级：本地磁带备份，异地保存在本地将关键数据备份，然后送到异地保存。灾难发生后，按预定数据恢复程序恢复系统和数据。这种方案成本低、易于配置。但当数据量增大时，存在存储介质难管理的问题，并且当灾难发生时存在大量数据难以及时恢复的问题。为了解决此问题，灾难发生时，先恢复关键数据，后恢复非关键数据。第2级：热备份站点备份在异地建立一个热备份点，通过网络进行数据备份。也就是通过网络以同步或异步方式，把主站点的数据备份到备份站点，备份站点一般只备份数据，不承担业务。当出现灾难时，备份站点接替主站点的业务，从而维护业务运行的连续性。第3级：活动备援中心在相隔较远的地方分别建立两个数据中心，它们都处于工作状态，并进行相互数据备份。当某个

数据库容灾、复制解决方案全分析(绝对精品)要点

数据库容灾、复制解决方案全分析（绝对精品）目前，针对oracle数据库的远程复制、容灾主要有以下几种技术或解决方案：（1）基于存储层的容灾复制方案这种技术的复制机制是通过基于SAN的存储局域网进行复制，复制针对每个IO进行，复制的数据量比较大;系统可以实现数据的同步或异步两种方式的复制.对大数据量的系统来说有很大的优势（每天日志量在60G以上）,但是对主机、操作系统、数据库版本等要求一致，且对络环境的要求比较高。目标系统不需要有主机，只要有存储设备就可以，如果需要目标系统可读，需要额外的配置和设备，比较麻烦。（2）基于逻辑卷的容灾复制方案这种技术的机制是通过基于TCP/IP的网络环境进行复制，由操作系统进程捕捉逻辑卷的变化进行复制。其特点与基于存储设备的复制方案比较类似，也可以选择同步或异步两种方式，对主机的软、硬件环境的一致性要求也比较高，对大数据量的应用比较有优势。其目标系统如果要实现可读，需要创建第三方镜像。个人认为这种技术和上面提到的基于存储的复制技术比较适合于超大数据量的系统，或者是应用系统的容灾复制。我一直有一个困惑，存储级的复制，假如是同步的，能保证数据库所有文件一致吗？或者说是保证在异常发生的那一刻有足够的缓冲来保障？也就是说，复制的时候起文件写入顺序和oracle的顺序一致吗？如果不一致就可能有问题，那么是通过什么机制来实现的呢？上次一个存储厂商来讲产品，我问技术工程师这个问题，没有能给出答案我对存储级的复制没有深入的研究过，主要是我自己的一些理解，你们帮我看一下吧…… 我觉得基于存储的复制应该是捕捉原系统存储上的每一个变化，而不是每隔一段时间去复制一下原系统存储上文件内容的改变结果，所以在任意时刻，如果原系统的文件是一致的，那么目标端也应该是一致的，如果原系统没有一致，那目标端也会一样的。形象一点说它的原理可能有点像raid 0，就是说它的写入顺序应该和原系统是一样的。不知道我的理解对不对。另外，在发生故障的那一刻，如果是类似断电的情况，那么肯定会有缓存中数据的损失，也不能100%保证数据文件的一致。一般来说是用这种方式做oracle的容灾备份，在发生灾难以后目标系统的数据库一般是只有2/3的机会是可以正常启动的（这是我接触过的很多这方面的技术人员的一种说法，我没有实际测试过）。我在一个移动运营商那里看到过实际的情况，他们的数据库没有归档，虽然使用了存储级的备份，但是白天却是不做同步的，只有在晚上再将存储同步，到第二天早上，再把存储的同步断掉，然后由另外一台主机来启动目标端存储上的数据库，而且基本上是有1/3的机会目标端数据库是起不来的，需要重新同步。所以我觉得如果不是数据量大的惊人，其他方式没办法做到同步，或者要同时对数据库和应用进行容灾，存储级的方案是没有什么优势的，尤其是它对网络的环境要求是非常高的，在异地环境中几乎不可能实现。

大数据存储方式概述

大数据存储方式概述随着信息社会的发展，越来越多的信息被数据化，尤其是伴随着Internet的发展，数据呈爆炸式增长。从存储服务的发展趋势来看，一方面，是对数据的存储量的需求越来越大，另一方面，是对数据的有效管理提出了更高的要求。首先是存储容量的急剧膨胀，从而对于存储服务器提出了更大的需求；其次是数据持续时间的增加。最后，对数据存储的管理提出了更高的要求。数据的多样化、地理上的分散性、对重要数据的保护等等都对数据管理提出了更高的要求。随着数字图书馆、电子商务、多媒体传输等用的不断发展，数据从GB、TB 到PB量级海量急速增长。存储产品已不再是附属于服务器的辅助设备，而成为互联网中最主要的花费所在。海量存储技术已成为继计算机浪潮和互联网浪潮之后的第三次浪潮,磁盘阵列与网络存储成为先锋。一、海量数据存储简介海量存储的含义在于，其在数据存储中的容量增长是没有止境的。因此，用户需要不断地扩张存储空间。但是，存储容量的增长往往同存储性能并不成正比。这也就造成了数据存储上的误区和障碍。海量存储技术的概念已经不仅仅是单台的存储设备。而多个存储设备的连接使得数据管理成为一大难题。因此，统一平台的数据管理产品近年来受到了广大用户的欢迎。这一类型产品能够整合不同平台的存储设备在一个单一的控制界面上，结合虚拟化软件对存储资源进行管理。这样的产品无疑简化了用户的管理。数据容量的增长是无限的，如果只是一味的添加存储设备，那么无疑会大幅增加存储成本。因此，海量存储对于数据的精简也提出了要求。同时，不同应用对于存储容量的需求也有所不同，而应用所要求的存储空间往往并不能得到充分利用，这也造成了浪费。针对以上的问题，重复数据删除和自动精简配置两项技术在近年来受到了广泛的关注和追捧。重复数据删除通过文件块级的比对，将重复的数据块删除而只留下单一实例。这一做法使得冗余的存储空间得到释放，从客观上增加了存储容量。二、企业在处理海量数据存储中存在的问题目前企业存储面临几个问题，一是存储数据的成本在不断地增加，如何削减开支节约成本以保证高可用性；二是数据存储容量爆炸性增长且难以预估；三是越来越复杂的环境使得存储的数据无法管理。企业信息架构如何适应现状去提供一个较为理想的解决方案，目前业界有几个发展方向。 1.存储虚拟化对于存储面临的难题，业界采用的解决手段之一就是存储虚拟化。虚拟存储的概念实际上在早期的计算机虚拟存储器中就已经很好地得以体现，常说的网络存储虚拟化只不过是在更大规模范围内体现存储虚拟化的思想。该技术通过聚合多个存储设备的空间，灵活部署存储空间的分配，从而实现现有存储空间高利用率，避免了不必要的设备开支。存储虚拟化的好处显而易见，可实现存储系统的整合，提高存储空间的利用率，简化系统的管理，保护原有投资等。越来越多的厂商正积极投身于存储虚拟化领域，比如数据复制、自动精简配置等技术也用到了虚拟化技术。虚拟化并不是一个单独的产品，而是存储系统的一项基本功能。它对于整合异构存储环境、降低系统整体拥有成本是十分有效的。在存储系统的各个层面和不同应用领域都广泛使用虚拟化这个概念。考虑整个存储层次大体分为应用、文件和块设备三个层次，相应的虚拟化技术也大致可以按这三个层次分类。目前大部分设备提供商和服务提供商都在自己的产品中包含存储虚拟化技术，使得用户能够方便地使用。 2.容量扩展目前而言，在发展趋势上，存储管理的重点已经从对存储资源的管理转变到对数据资源

数据存储容灾技术浅析

容灾技术浅析本帖最后由爱如潮水于2009-10-29 10:42 编辑 1．概念篇 1.1 容灾的定义在给出容灾的概念之前，有必要先给出灾难的定义。从一个计算机系统的角度讲，一切引起系统非正常停机的事件都可以称为灾难。大致可以分成以下三个类型：自然灾害，包括地震、火灾、洪水、雷电等，这种灾难破坏性大，影响面广；设备故障，包括主机的CPU、硬盘等损坏，电源中断以及网络故障等，这类灾难影响范围比较小，破坏性小。人为操作破坏，包括误操作、人为蓄意破坏等等。容灾（Disaster Tolerance），就是在上述的灾难发生时，在保证生产系统的数据尽量少丢失的情况下，保持生存系统的业务不间断地运行。一个和容灾易混淆的概念是容错（FaultTolerance），容错指在计算机系统的软件、硬件发生故障时，保证计算机系统中仍能工作的能力。容错和容灾最大的区别是，容错可以通过硬件冗余、错误检查和热交换再加上特殊的软件来实现，而容灾必须通过系统冗余、灾难检测和系统迁移等技术来实现。当设备故障不能通过容错机制解决而导致系统宕机时，这种故障的解决就属于容灾的范畴。另外一个容易和容灾混淆的概念是灾难恢复（DisasterRecovery）,灾难恢复指的是在灾难发生后，将系统恢复到正常运作的能力。灾难恢复和容灾的区别是，容灾强调的是在灾难发生时，保证系统业务持续不间断地运行的能力，而灾难恢复强调的灾难之后，系统的恢复能力。现在的容灾系统都包含着灾难恢复的功能，所以本文的讨论除了包括容灾方面的内容，还包括了灾难恢复的部分内容。 1.2 容灾的评价指标现在工业界都以数据丢失量和系统恢复时间作为标准，对某个容灾系统进行评价，公认的评价标准是RPO和RTO。 RPO（Recovery Point Objective）: 恢复点目标，以时间为单位，即在灾难发生时，系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小，RPO的值越小。 RTO（Recovery Time Objective）: 恢复时间目标，以时间为单位，即在灾难发生后，信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高，RTO的值越小。

HDS 同步数据复制多对一复制

TCMD -数据容灾解决方案 TrueCopy Modular Distributed (“TCMD”)是HUS专有软件扩大TC能力允许在HUS各存储之间远程copy模式：8:1 (fan-in) or 8:1 (fan-out). TCMD数据容灾解决方案是HDS公司在全面分析各种操作系统、各种容灾技术、仔细研究客户对容灾的需求和理念之后，结合HDS Freedom 智能存储系统的特点推出的数据远程容灾解决方案；彻底解决长期困绕用户的、难于进行容灾方案的真实演练、真实数据测试的问题，最大限度的减少数据丢失问题；TCMD是基于磁盘存储系统运行的软件包，不依赖任何的主机操作系统和其他第三方厂商软件，为用户提供了最安全、最开放、最经济、最实用的远程容灾解决方案。 HDS公司作为全球最大的独立的磁盘存储生产厂商，专注于单一化产品生产的优势，拥有熟悉IBM、HP、SUN、Compaq、SGI、Dell、Window NT/2000以及Linux等平台和远程灾备实施的经验丰富的服务工程师，向用户提供全方位的灾备方案设计、技术咨询和实施服务。 TCMD是对TrueCopy软件的一个扩展功能目前，HDS的TrueCopy软件其独有的时间戳（Timestamp）和一致性组（Consistency Group）技术，是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案，保证异步处理方式下的数据一致性和完整性，最大程度的减少数据的丢失，并被广大用户采用。 1.主要功能 - TrueCopy Async异步数据拷贝软件，是HDS公司独有的创新技术，是世界第一也是唯一的在开放环境中基于存储硬件系统的、无需主机系统的、异步处理方式的、能够保证数据一致性的远程拷贝软件，它可以在重复发生的灾难中保护数据，在任何远的距离保持数据库记录被修改顺序的完整性； - TrueCopy可以在在任何距离下，提供完整的、可靠的异地或同城灾难数据恢复和应用系统快速重新启动的解决方案，先进的处理技术能够最大程度的减少灾难时的数据丢失，提升企业对事故和灾难的应变能力和快速反应能力； - 通过与HDS ShadowImage（本地数据镜像拷贝软件）配合，可以用PIT拷贝获得真实的生产环境数据，不必中止生产系统的运行，能够频繁的启动

数据容灾备份设计方案

数据容灾备份设计方案 1.1数据备份的主要方式目前比较实用的的数据备份方式可分为本地备份异地保存、远程磁带库与光盘库、远程关键数据+定期备份、远程数据库复制、网络数据镜像、远程镜像磁盘等六种。（1）本地备份异地保存是指按一定的时间间隔（如一天）将系统某一时刻的数据备份到磁带、磁盘、光盘等介质上，然后及时地传递到远离运行中心的、安全的地方保存起来。（2）远程磁带库、光盘库是指通过网络将数据传送到远离生产中心的磁带库或光盘库系统。本方式要求在生产系统与磁带库或光盘库系统之间建立通信线路。 — （3）远程关键数据+定期备份本方式定期备份全部数据，同时生产系统实时向备份系统传送数据库日志或应用系统交易流水等关键数据。（4）远程数据库复制生产系统相分离的备份系统上建立生产系统上重要数据库的一个镜像拷贝，通过通信线路将生产系统的数据库日志传送到备份系统，使备份系统的数据库与生产系统的数据库数据变化保持同步。（5）网络数据镜像是指对生产系统的数据库数据和重要的数据与目标文件进行监控与跟踪，并将对这些数据及目标文件的操作日志通过网络实时传送到备份系统，备份系统则根据操作日志对磁盘中数据进行更新，以保证生产系统与备份系统数据同步。（6）远程镜像磁盘利用高速光纤通信线路和特殊的磁盘控制技术将镜像磁盘安放到远 …

离生产系统的地方，镜像磁盘的数据与主磁盘数据以实时同步或实时异步方式保持一致。磁盘镜像可备份所有类型的数据。备份拓扑网络结构1.2（即东风东路院区中心机广州市第八人民医院具有两个不同地点的中心机房房和嘉禾院区中心机房），在这基础上是可以构建一个异地容灾的数据备份系统，以确保本单位的系统正常运营及对关键业务数据进行有效地保护，以下设计方案仅提供参考。嘉禾院区数据中心东风东院区数据中心本方案中，我们采用EMC的CDP保护技术来实现数据的连续保护和容灾系统。 1.在东风东院区数据中心部署一台EMC 480统一存储平台，配置一个大容量光纤磁盘存储设备，作为整个系统数据集中存储平台。 2.在嘉禾院区数据中心部署一台EMC 480统一存储系统，配置一个大容量光纤磁盘存储设备，作为整个平台的灾备存储平台。） 3.两地各部署两台EMC RecoverPoint/SE RPA，采用CLR技术，即CDP（持续数据保护）+CRR（持续远程复制），实现并发的本地和远程数据保护。 4.在东风东院区数据中心本地采用EMC RecoverPoint/SE CDP（持续数据保护）技术实现本地的数据保护。． 5.两地采用EMC RecoverPoint/SE CRR（持续远程复制）技术，实现远程的数据保护。由于两地之间专线的带宽有限，可以采用EMC Recoverpoint/SE异步复制技术，将东风东院区数据中心EMC480上的数据定时复制到嘉禾院区数据中心。根据带宽的大小，如果后期专线带宽有所增加，RecoverPoint会自动切换同步、异步、快照时间点三种复制方式，尽最大可能保证数据的零丢失。 1.3本地数据数据保护（CDP）设计

数据容灾架构中的数据复制技术

随着全球IT产业的飞速发展，金融行业的IT建设逐步成为主导金融企业业务发展的核心驱动力，基于金融行业IT系统容灾建设的各种行业标准以及监管标准也相应提高。而决定容灾架构健壮与否的最关键因素就是数据复制技术，它是实现高标准RTO和RPO的前提条件。本文基于业界主流数据复制技术的原理、复杂度、关键因素以及复制效果等多个维度进行分析及论述，旨在为同业在此类项目规划和建设过程中提供一些启示和帮助。 1.背景及综述在金融行业内，众所周知其对业务连续性的要求以及对各种IT风险的应对能力的要求都是非常高，尤其是对容灾能力的要求，这是由它的业务特殊性以及集中式架构所决定的。在金融企业容灾架构中，所谓的数据复制技术主要是指能够将结构化数据进行复制，从而保证数据具备双副本或者多副本的技术。目前业界发展来看，可以实现数据复制的技术多种多样，有基于数据库层面的数据复制技术，例如Oracle公司的Active Data Gurad、IBM公司的db2 HADR等；有基于系统层面的数据复制技术，例如赛门铁克的vxvm、传统的逻辑卷管理（LVM）、Oracle公司的自动存储管理（ASM）冗余技术、IBM公司的GPFS等；有基于存储虚拟化实现的数据复制技术，例如EMC公司Vplex Stretch Cluster、IBM公司SVC Split Cluster、NetAPP公司Metro Cluster等；也有基于存储底层实现的数据复制技术，例如IBM公司的DS8000 PPRC技术、EMC公司的SRDF技术、HP公司的CA技术等等。每一种技术都有其实现的前提条件，也有各自的技术特点和实现的不同效果。本文将从复制技术的原理、特点、复杂程度以及复制效果等多方面展开分析及论述，并从多个维度进行对比分析，将业界主流数据复制技术的发展现状以及技术优劣给予一个清晰的展示，并就数据复制技术发展的未来以及趋势予以展望。 2.数据复制技术价值分析 2.1 数据复制在容灾中的必要性一、RPO保障

4种容灾技术对比解析

美创科技关于不同容灾技术对比解析文初，我们先来看两组数据：业务中断造成的损失：证券业：6,450,000美元/小时金融信用卡：2,600,000美元/小时银行数据中心：2,500,000美元/小时在线拍卖交易：225,000 美元/小时 1GB数据丢失的损失：市场营销数据：870,000美元财务数据：972,800美元工程数据：5,017,600美元从上述数据可以清晰地看出，不论是业务中断还是数据丢失，都会造成严重的经济损失。除直接的经济损失外，还有隐性的损失，比如声誉受损、客户信心和忠诚度丢失、竞争地位受损，甚至还包括监管合规风险。相比于以上的损失，容灾建设就具有十分重要的现实意义。容灾系统建设是一个涉及面广、专业性强的系统工程，如何选择合理的容灾架构？

接下来对市面上的各种容灾可用技术进行分析和对比，给大家做参考。一、基于应用层容灾技术 ?实现原理生产中心的应用程序通过应用层交易分发的模式，将交易数据传送到部署于容灾中心的灾备系统。由生产中心和容灾中心共同处理相同的交易数据，以确保两边数据的一致性。 ?优缺点分析优点：实现双活的数据中心，容灾端随时可提供服务，通过网络漂移可以实现无缝接管。缺点：如果采用同步方式会影响前台的响应速度。需要对应用进行大量改造，实现难度大。数据一致性完全需要有应用软件控制，可能会有数据不一致的情况。二、基于卷管理层的容灾技术

?实现原理运行在物理的存储设备或逻辑的卷管理器上，甚至也可以运行在数据传输层上。当数据块写入生产数据的存储设备时，卷复制系统可以捕获数据的拷贝并将其存放在另外一个存储设备中，实现数据同步。当生产中心发生灾难的时候时，可以在容灾服务器上激活相应的卷组和逻辑卷，进而启动数据和应用系统，实现业务系统快速恢复。 ?优缺点分析优点：可以对操作系统级别实现容灾，对应用透明性，兼容各类应用、数据库等；能够实现切换过程中IP地址、MAC地址的克隆；对于存储之系统透明，生产和容灾可以采用不同的磁盘阵列。缺点： IO捕获进程在高并发环境下会对生产系统造成较大的资源消耗；在内存型应用的情况下，如数据库的延迟缓存刷新，会经常出现备端数据库无法启动的情况；通常采用异步模式，RPO的值一般在分钟级别。