双活数据中心与灾备解决方案-技术部分

合集下载

双活数据中心技术架构解决方案

内存库集群部署主要有HA模式，双活模式，线性拆分和分布式集群四种模式。
HA模式线性拆分模式
双活模式分布式集群模式
数据层双活技术比较
物理库内存库
技术种类
技术特征
数据一致性
双活读写
数据延迟
可维护性
可靠性
适用模式
基于数据逻 DSG、gg、辑复制软件 shareplex等
逻辑错误会导致不一致，无法稽核
支持支持
较差较差
支持异构
成本较低
支持异构
较高
组网复杂，可靠性差，数据同步性能差
基于存储卷镜像（存储自身虚拟化
HDS GAD Huawei OceanStor V3
RPO=0
支持
较好 RTO=0
不支持
组网简单，维护
较低
方便，但技术较
新，实用经验少
基亍存储HA机制
IBM powerHA HyperSwap 、日立的 HAM
1、故障下需要定位+决策+ 切换流程，超过0.5小时 2、劢态资源管理技术，容灾资源闲置
3、 SRDF、PPRC等技术
传统方案：“主备”模式或“互备”双中心模式
两个中心平时均可承担业务，同时对外服务，坏掉任何一方丌影响。
“双活并行处理”模式，做到准0切换
双活应用架构
接入层：借劣DNS、全局负载均衡等技术实现双活接入和智能路由，流量调配
− DNS、全局负载均衡等 − 智能路由，流量调配
− 数据层连接自劢重连
− Ebus服务总线，分布式集群架构
数据层
数据库层技术改造
− 如Oracle extend rac − 分布式内存库

双活数据中心及灾备解决方案技术部分

requirements and their environment
NSX利用层叠网络实现双活数据中心
站点A
三层网络
站点A 边界网关
上联网络A
VM1
VM 2
vCenter Server
分布式逻辑路由器
逻辑交换机A 172.16.10.0/24
VM
4
逻辑交换机B
172.16.20.0/24
数据存储1
which also aligns with vMotion using Enterprise Plus
• vMSC enables disaster avoidance and basic Disaster Recovery (without the orchestration or testing
• VMotion an数d S据to保ra护ge VMotion
• 高效的数据备份与恢复 • 可通过运行计划与脚本实现自动化操作
灾难恢复
• 基于虚拟化层的异步复制 • 基于硬件设备的同异步复制 • 自动化应用切换管理 • 城域集群
方案特点
• 与应用程序和操作系统无关 • 与硬件设备无关 • 完善的保护 • 简单，经济
9
Fault Tolerance vs. High Availability
• Fault tolerance
– Ability to recover from component loss – Example: Hard drive failure
• High avail percentage in one year 99 99.9 99.99 99.999 “five nines”
Downtime in one year 3.65 days 8.76 hours 52 minutes 5 minutes

双活灾备方案

双活灾备方案方案一双活灾备方案在当今数字化高速发展的时代，数据和业务的连续性成为了企业生存和发展的关键。

时不时出现的自然灾害、硬件故障、人为失误等，都可能给企业带来致命的打击。

这就是我们制定双活灾备方案的背景，目的很简单，就是要确保在各种“幺蛾子”出现时，企业能够稳如泰山，业务不中断，数据不丢失。

其意义嘛，那可大了去了，不仅能保护企业的“钱袋子”，还能保住企业的声誉和客户的信任，不然一旦出问题，那可真是“凉凉”了。

咱们先定个小目标，方案实施后，在遇到灾难事件时，业务恢复时间要控制在 30 分钟以内，数据丢失量不超过 10 分钟的数据，系统可用性要达到 99.99%以上。

来看看现状，内部情况是咱们的业务系统越来越复杂，数据量也与日俱增，现有的备份手段有点跟不上节奏啦。

外部呢，竞争对手们都在加强灾备能力，市场对企业的服务连续性要求越来越高，客户可不会容忍咱们动不动就“掉链子”。

具体方案内容如下：首先，搭建双活数据中心，实现数据实时同步。

这就像是给数据找了两个“家”，一个“家”出问题，另一个“家”立马顶上。

然后，优化网络架构，确保数据传输的高效稳定，别让数据在“路上”堵着。

还有，建立完善的监控和预警系统，让咱们能提前发现问题，别等出了事才傻眼。

风险评估与应对这一块，可能会出现网络延迟导致数据同步不及时，那咱就多弄几条备用网络线路呗。

要是数据中心出现故障，得有快速切换的应急预案，平时多演练，关键时刻才不慌。

效果评估方面，用业务恢复时间、数据丢失量、系统可用性这些指标来衡量。

每季度进行一次评估，通过模拟灾难事件来测试方案的有效性。

怎么样，这方案是不是还挺靠谱？方案二双活灾备方案哎呀，如今这世界变化快，各种意外情况防不胜防。

要是企业因为没做好灾备，一下子业务中断、数据丢失，那可真是哭都没地方哭去。

所以咱得搞个双活灾备方案，这就是背景啦。

目的就是让企业在灾难面前也能昂首挺胸，继续赚钱，意义嘛，那就是给企业穿上一层“金钟罩铁布衫”，让它不怕风吹雨打。

双活数据中心项目解决方案

实时同步主备数据中心的数据，确保数据一致性。
灾难恢复计划
制定应对灾难事件的策略和流程，确保业务连续性。
数据同步机制
数据实时同步
通过数据同步引擎，实现主备数据中心数据实时同步。
数据校验
定期对数据进行校验，确保数据一致性和完整性。
数据备份
定期备份数据，以应对意外数据丢失或损坏的情况。
03
实施步骤与计划
双活数据中心项目解决方案
汇报人： 202X-01-08
目录
• 项目背景介绍 • 双活数据中心架构设计 • 实施步骤与计划 • 效益分析 • 技术风险与应对措施 • 项目成功要素与建议
01
项目背景介绍
业务需求
实现跨地域的数据同步和备份
01
双活数据中心能够满足业务在多个地域的需求，保证数据实时
同步，避免单点故障。
1 2 3
数据同步延迟
双活数据中心要求数据实时同步，但网络延迟、系统负载等因素可能导致数据同步出现延迟，影响业务连续性。
数据冲突
在双活数据中心中，由于数据实时同步，可能导致数据冲突，如两个数据中心同时更新同一数据项。
数据完整性问题
数据传输过程中可能出现数据丢失、损坏等情况，影响数据完整性。
网络稳定性挑战
网络设备故障
双活数据中心依赖于高可靠性的网络设备，任何设备的故障都可能导致数据传输中断。
网络带宽限制
双活数据中心需要大量数据传输，如果网络带宽不足，可能影响数据同步速度和业务连续性。
网络延迟与抖动
网络延迟和抖动可能导致数据同步延迟和业务性能下降。
高可用性保障
负载均衡
通过负载均衡技术，将业务流量分散到两个数据中心，确保任一数据中心故障时，业务仍能正常运行。

“两地三中心”和“双活”简介--容灾技术方案

“两地三中⼼”和“双活”简介--容灾技术⽅案当前市场上常见的容灾模式可分为同城容灾、异地容灾、双活数据中⼼、两地三中⼼⼏种。

1、同城容灾同城容灾是在同城或相近区域内（ ≤ 200K M ）建⽴两个数据中⼼ : ⼀个为数据中⼼，负责⽇常⽣产运⾏ ; 另⼀个为灾难备份中⼼，负责在灾难发⽣后的应⽤系统运⾏。

同城灾难备份的数据中⼼与灾难备份中⼼的距离⽐较近，通信线路质量较好，⽐较容易实现数据的同步复制，保证⾼度的数据完整性和数据零丢失。

同城灾难备份⼀般⽤于防范⽕灾、建筑物破坏、供电故障、计算机系统及⼈为破坏引起的灾难。

2、异地容灾异地容灾主备中⼼之间的距离较远（＞ 200KM ) ，因此⼀般采⽤异步镜像，会有少量的数据丢失。

异地灾难备份不仅可以防范⽕灾、建筑物破坏等可能遇到的风险隐患，还能够防范战争、地震、⽔灾等风险。

由于同城灾难备份和异地灾难备份各有所长，为达到最理想的防灾效果，数据中⼼应考虑采⽤同城和异地各建⽴⼀个灾难备份中⼼的⽅式解决。

本地容灾是指在本地机房建⽴容灾系统，⽇常情况下可同时分担业务及管理系统的运⾏，并可切换运⾏；灾难情况下可在基本不丢失数据的情况下进⾏灾备应急切换，保持业务连续运⾏。

与异地灾备模式相⽐较，本地双中⼼具有投资成本低、建设速度快、运维管理相对简单、可靠性更⾼等优点；异地灾备中⼼是指在异地建⽴⼀个备份的灾备中⼼，⽤于双中⼼的数据备份，当双中⼼出现⾃然灾害等原因⽽发⽣故障时，异地灾备中⼼可以⽤备份数据进⾏业务的恢复。

本地机房的容灾主要是⽤于防范⽣产服务器发⽣的故障，异地灾备中⼼⽤于防范⼤规模区域性灾难。

本地机房的容灾由于其与⽣产中⼼处于同⼀个机房，可通过局域⽹进⾏连接，因此数据复制和应⽤切换⽐较容易实现，可实现⽣产与灾备服务器之间数据的实时复制和应⽤的快速切换。

异地灾备中⼼由于其与⽣产中⼼不在同⼀机房，灾备端与⽣产端连接的⽹络线路带宽和质量存在⼀定的限制，应⽤系统的切换也需要⼀定的时间，因此异地灾备中⼼可以实现在业务限定的时间内进⾏恢复和可容忍丢失范围内的数据恢复。

数据双活解决方案

数据双活解决方案
《数据双活解决方案：实现高可用性和容灾备份》
数据双活是指在两个地理位置的数据中心之间实时同步数据，实现高可用性和容灾备份的解决方案。

在当今信息化时代，数据是企业最重要的资产之一，因此如何保障数据的安全和稳定运行成为了企业亟需解决的问题。

数据双活解决方案应运而生，为企业提供了一种可靠的数据保障机制。

数据双活解决方案采用了多种技术手段来确保数据的高可用性和容灾备份。

首先，通过实时数据同步技术，可以确保在两个地理位置的数据中心之间进行数据备份和同步，实现了数据的实时同步和共享。

其次，采用了负载均衡和故障转移技术，可以在一个数据中心发生故障时，自动切换至另一个数据中心，确保系统的稳定运行。

另外，数据双活解决方案还提供了数据的自动备份和恢复功能，确保了数据的安全性和可靠性。

数据双活解决方案在保障数据安全和稳定运行方面具有明显的优势。

首先，它可以实现数据的实时同步和共享，保证了数据的实时性和一致性。

其次，采用了负载均衡和故障转移技术，可以自动切换至备用数据中心，确保了系统的稳定运行。

此外，数据双活解决方案还提供了数据的自动备份和恢复功能，确保了数据的安全性和可靠性。

综上所述，数据双活解决方案在实现高可用性和容灾备份方面具有明显的优势，是企业保障数据安全和稳定运行的重要手段。

随着信息化程度的不断提高，数据双活解决方案将会得到更广泛的应用，为企业的发展提供可靠的数据保障。

Oracle双活数据中心及灾备解决方案

各种维护工作会影响到整张表不能使用
只需要访问数据所在分区即可
各种维护工作以分区为单位进行，其他分区仍可访问
24
数据压缩
• 不同的压缩级别
• 在表空间，表和分区级可具体指定压缩级别
• 典型压缩比率从 3:1到 50:1
• 压缩由实际数据决定 • 压缩规则基于数据冗余
• 主要好处是节省开销
• 节省 TB级的存储而不影响性能或功能
34
容灾关键要素
周天时分秒
秒分时天周
数据恢复时间点
应用恢复时间
• 数据恢复时间点(RPO)
故障时间
应用恢复时间（RTO）
• RPO (Recovery Point Objective): • 以数据为出发点 • 能够容忍的数据丢失量
RTO (Recovery Time Objective): 以应用为出发点
灾备系统不仅仅要考虑主备切换，也需要考虑备主切换
容灾系统不仅仅需要考虑当前需求，同时要考虑将来3-5年或者更长时间需求
3636
备份及灾难恢复的主流模式
• 基于存储的数据块或文件复制
• 存储镜像复制 • 操作系统卷复制 • SAN网络复制
整合
战术层面: 技术
虚拟化
业务持续性
高性能
信息安全 IT集中管理
27
高效的管理平台
集中管理数据遮蔽
集中监控
事件管理数据
配置变更管理
策略业务服务与
SLA管理
性能诊断与优化
ORACLE
28
企业管理器 EM12C—真正的IT中心
性能
可管理性
安全性
集成的技术体系
可靠性支持
29

银行双活容灾建设方案技术手册-分析篇

银行双活容灾建设方案技术手册——分析篇目录1、双活数据中心的驱动力 (3)2、定义符合自己的双活模式 (4)3、实现双活需要考虑的关键因素 (14)随着全球IT产业的飞速发展，金融行业的IT建设逐步成为主导金融企业业务发展的核心驱动力，基于金融行业IT系统建设的各种行业标准以及监管标准也相应提高。

IT系统架构的扩展性、灵活性以及容灾能力就成为衡量企业IT建设很重要的标准。

本手册以某银行同城双数据中心建设过程为背景，详细从系统架构集成、资源云化、存储整合以及数据容灾等多个关键方面阐述其规划思路以及建设过程，旨在为同业在此类项目规划和建设过程中提供一些启示和帮助。

1、双活数据中心的驱动力近年来，随着互联网金融的快速发展，金融企业数据中心建设面临着新的挑战。

那就是对RTO和RPO的极限追求。

从而也就诞生了近年来的热点话题——双活数据中心建设。

那么我们为什么要建设双活数据中心，它能给我们带来什么样的价值？什么样的数据中心架构叫做双活数据中心？如何认识适合自己业务模式的双活模式？建设阶段我们应该以什么样的原则来指导我们的建设工作？具体的建设思路以及具体的建设方案应该如何把握？基于这些问题，本文将进行深入研究并展开探讨。

从科技工作层面来讲，其实双活数据中心并不是一个行业标准或者规范。

行业的标准是对RTO和RPO约束，银监局和中国人民银行对商业银行业最严格的要求标准是5级容灾标准，RPO=15分钟，RTO=30分钟。

而根据国际标准share78，六级容灾标准是RPO=0，RTO=分钟级；七级容灾标准是RPO=0，RTO近似为0。

双活的概念也就由此而来，为了达到国际最高标准。

那么决策是否建设双活数据中心的依据也就在于此，首先确定自己企业合适的目标，是不是要必须追求7级标准？是不是所有业务都必须追求这个目标？如果不是，那么首先要对企业业务进行细分并详细规划每一个业务的容灾目标。

这将决定要不要建设双活数据中心以及建设什么样的双活数据中心。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. VXLAN with Stretched Clusters (vSphere Metro Storage Cluster) 2. VXLAN with Separate Clusters 3. L2 VPN
All solutions provide L2 extension over an L3 network, enabling
VMware ESXi VMware ESXi VMware ESXi
Site B
VMware ESXi
Components run in a Site A and are protected by vSphere HA
• They are automatically restarted at Site B in the
X
Downtime in one year
Uptime percentage in one year
99
99.9 99.99 99.999 “five nines”
3.65 days
8.76 hours 52 minutes 5 minutes
10
支持多vCPU的容错技术
Overview
Instantaneous Failover
6
计算资源设计
Making an Application Service Highly Available
• vSphere HA • vSphere App HA
8
vSphere App HA
Protect off-the-shelf apps
VMware vFabric™ tc Server
站点A
物理二层 (裸光纤) 逻辑二层层叠网络 / VPN 二层网络
站点B
二层网络
VM VM VM
二层分段
扩展的二层网络 (二层内容在数据中心互连链路上传递)
VM VM VM
二层分段
15
NSX vSphere Multi-Site Use Cases
NSX for vSphere supports 3 different Multi-Site Deployment Models
• In an NSX deployment Management, Edge and
Stretched Management Cluster
Workload clusters are all stretched
• Under normal conditions all Management
Site A
逻辑交换机B 172.16.20.0/24
VM5
双活存储 vSphere城域存储集群பைடு நூலகம்
数据存储1
数据存储2 17
VMware NSX Multi-Site Single VC, Stretched Cluster
Solution Detail
• Requires a supported vSphere Metro Storage Cluster configuration • In a vMSC deployment, storage is Active/Active and spans both sites. Examples of Active/Active storage
11
长距离vMotion
功能简介
• Targeting cross-continental distances –up to 100 ms RTTs • Maintain standard vMotion guarantees • Leader in VM flexibility
Benefits
• Permanent migrations between data centers • Disaster avoidance (DA)
which also aligns with vMotion using Enterprise Plus
• vMSC enables disaster avoidance and basic Disaster Recovery (without the orchestration or testing
组件
服务器
存储
数据
站点
5
双活数据中心总体架构
站点A 延伸的vSphere集群站点B
双活存储集群
> 200 km
• • • •
行为与单个vSphere相同延伸距离最大200KM，通常小于50KM 通过VMware HA与vMotion实现自动的DR保护需要双活存储集群，如EMC的vPlex，NetApp的MetroCluster等
requirements and their environment
NSX利用层叠网络实现双活数据中心
三层网络站点A 站点B
vCenter Server
站点A 边界网关上联网络A 上联网络B
站点B 边界网关
分布式逻辑路由器
VM1 VM 2 VM3
逻辑交换机A 172.16.10.0/24
VM 4
• Protect with vSphere HA
– vCenter and DB VM restart priority set to High – Enable guest OS and App monitoring – App HA can protect SQL Server database
workload & IP mobility without the need to stretch VLANs
Local egress is supported, however it does add complexity The appropriate deployment model will depend on customer
方案特点
• 与应用程序和操作系统无关 • 与硬件设备无关 • 完善的保护 • 简单，经济
资源池
vSphere vSphere vSphere vSphere
资源池
vSphere
本地高可用
• 应用感知的高可用性 • 关键应用零停机保护 • 在线迁移虚拟机，动态调配计算与存储资源 • VMotion and Storage VMotion 数据保护 • 高效的数据备份与恢复 • 可通过运行计划与脚本实现自动化操作
Policy-based
9
Fault Tolerance vs. High Availability
• Fault tolerance
– Ability to recover from component loss – Example: Hard drive failure
• High availability
4 vCPU Secondary
Fast Checkpointing
4 vCPU Primary
Benefits vSphere • Protect mission-critical, high-performance applications regardless of OS • Continuous availability: zero downtime, zero data loss for infrastructure failures • Fully automated response
Cluster Configuration
vCenter Server
Site A
VMware ESXi VMware ESXi
Site B
VMware ESXi
• vMSC enables stretched clusters across two
VMware ESXi
physical sites
Stretched Edge Cluster
Site A
VMware ESXi VMware ESXi VMware ESXi
Site B
VMware ESXi
event of a site outage. The management network is not stretched and must be enabled on Site B as part of the recovery run book
• DR/DA testing
• Multi-site load balancing • Follow the sun
vSphere 6.0支持跨三层网络和跨vCenter Server的vMotions
12
vCenter Availability
• Run vCenter Server application in a VM • Run vCenter Server database in a VM • Run both in same VM?
• NSX and vMSC are complimentary technologies that fit a sweet spot for NSX (Single vCenter Server)
VMware NSX Multi-Site Single VC, Stretched Cluster
•
灾难恢复
基于虚拟化层的异步复制 • 基于硬件设备的同异步复制 • 自动化应用切换管理 • 城域集群
3
议程
1
2
同城双活技术方案
异地灾备技术方案
4
双活数据中心在各个级别上全面保障可用性
Storage vMotion， Storage DRS
Metro Cluster vMotion&DRS HA & FT 硬件热添加多网卡绑定存储多路径 Data Replication