EMC MirrorView演练方案

EMC MirrorView演练方案
EMC MirrorView演练方案

2

CMB 分行 MirrorView 演练方案

2008年12月5日

易安信电脑系统(中国)有限公司广州分公司 技术解决方案部

广州市天河北路233号中信广场7401室

电话:(86-20) 38771938

EMC Technical Solution Group

文档信息

项目名称:招商银行分行容灾项目文档版本号: 1.5

文档作者:方天舒生成日期:2008年9月8日文档审核者:审核日期:

文档维护记录

版本号维护日期作者/维护人描述

1.0 2008年9月10日方天舒创建

1.1 2008年11月21日方天舒完善文档内容

1.2 2008年11月27日方天舒完善文档内容

1.3 2008年12月05日方天舒完善文档内容

1.4 2009年2月3日樊军修改文档为通用版本

1.5 2009年2月4日韩震调整格式

版权说明

本文件中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属广东发展银行和美国EMC公司所有,受到有关产权

及版权法保护。任何个人、机构未经广东发展银行和美国EMC公司的书面授权许可,不得复制、引用或传播本文件的任何片断,无论通过电子形式或非电子形式。

CMB分行MirrorView/S演练方案

目录

1 前言 (4)

2 MirrorView灾备切换演练步骤 (5)

2.1 演练前的环境准备 (5)

2.2 计划性(planned)的灾备切换演练 (5)

2.3 非计划性(unplanned)的容灾切换演练 (6)

3 MirrorView/S灾备切换演练详细步骤示例(武汉分行) (8)

3.1 演练前的环境准备 (8)

3.1.1 主机环境准备 (8)

3.1.2 应用系统数据备份 (8)

3.1.3 VG信息保存 (9)

3.1.4 LV裸设备的用户权限设置保存 (9)

3.1.5 数据库关键表的记录总数和表占用空间记录 (9)

3.1.6 备份操作系统 (11)

3.1.7 主机系统环境要求 (11)

3.1.8 SAN Switch环境准备 (12)

3.1.9 存储环境准备 (12)

3.2 计划性(planned)的灾备切换演练 (12)

3.2.1 演练前的系统环境检查 (12)

3.2.2 在生产端主机(mbfe)上停止应用系统 (13)

3.2.3 将生产数据由生产端切换到容灾端 (14)

3.2.4 检查容灾端的数据的可用性和完整性 (14)

3.2.5 在容灾端主机(mbfe)上停止应用系统 (16)

3.2.6 将生产数据由容灾端切换到生产端 (16)

3.2.7 检查生产端的数据的可用性和完整性,恢复生产环境 (17)

3.3 非计划性(unplanned)的容灾切换演练 (20)

3.3.1 演练前的系统环境检查 (20)

3.3.2 灾难发生模拟 (21)

3.3.3 在生产端主机(mbfe)上恢复演练环境 (21)

3.3.4 将生产数据由生产端切换到容灾端 (21)

3.3.5 检查容灾端的数据的可用性和完整性 (22)

3.3.6 删除容灾端存储系统(SECONDARY ARRAY)上的MirrorView/S配置 (24)

3.3.7 删除生产端存储系统(PRIMARY ARRAY)上的MirrorView/S配置 (24)

3.3.8 灾难解除模拟 (25)

3.3.9 在容灾端存储系统(SECONDARY ARRAY)重新创建MirrorView/S配置 (25)

3.3.10 在容灾端主机(mbfe)上停止应用系统 (26)

3.3.11 将生产数据由容灾端切换到生产端 (27)

3.3.12 检查生产端的数据的可用性和完整性,恢复生产环境 (27)

3.4 异常处理步骤 (29)

3.4.1 数据库数据恢复 (29)

3.4.2 手工启动应用系统 (30)

第3页

1前言

招商银行各分行陆续将进行MirrorView实施,实现存储数据的本地高可用。本文描述了MirrorView/S灾备切换演练的步骤,并以武汉分行的演练为例进行了详细说明。

由于目前系统环境中没有专用的演练主机,因此容灾演练将在生产主机上进行。

●为什么要进行灾备演练

定期进行MirrorView/S灾备切换演练,可以熟悉系统环境及MirrorView切换的条件,步骤

●MirrorView容灾可以为系统管理带来那些好处

1.在主阵列出现严重故障时,可以将生产切换到备阵列。

2.在主阵列需要进行某些长时间的维护操作时,可以将生产切换到备阵列,

减少系统停机时间

3.进行某些系统操作,(例如:数据库升级,数据库的调整),在进行操作

前可以Fracture Mirror, 从而获得第二份数据,可用于快速数据恢复。

●MirrorView演练类型

1.计划性的(planned)灾备切换演练

有计划,有目的进行的MirrorView切换操作演练

2.非计划性(unplanned)灾备切换演练

为了模拟由于设备故障,或者不可预计灾难导致的主阵列损坏,而进行的MirrorView切换演练

2MirrorView灾备切换演练步骤

2.1 演练前的环境准备

序号演练内容停应用时间备注

4.1 主机环境准备N

4.1.2 VG信息保存N < 1分钟

4.1.3 LV裸设备的用户权限设置保存N < 1分钟User/Group: sybase/sybase 4.1.4 数据库关键表的记录总数和表占用空间记录N 8分钟

4.1.5 备份操作系统N 30分钟

4.1.6 主机系统环境要求N 已经准备好

4.2 SAN Switch环境准备N 已经准备好

4.3 存储环境准备N 已经准备好

2.2 计划性(planned)的灾备切换演练

序号演练内容停应用预计时间备注

5.1 计划性(planned)的灾备切换演练

5.1.1 演练前的系统环境检查N < 1分钟

5.1.1.1 生产端主机系统环境检查N < 1分钟

5.1.1.2 生产端存储系统环境检查N < 1分钟

5.1.1.3 容灾端主机系统环境检查N < 1分钟

5.1.1.4 容灾端存储系统环境检查N < 1分钟

5.1.1.5 目标系统的MirrorView/S状态检查N < 1分钟Synchronized

5.1.2 在生产端主机上停止应用系统Y 8分钟1)停HACMP

2)删除磁盘设备

3)取消PRIMARY ARRAY上LUN的使用授权

5.1.3 将生产数据由生产端切换到容灾端Y 5分钟1)MirrorView promte

2)增加SECONDARY ARRAY上LUN的使用授

3)主机添加设备

5.1.4 检查容灾端的数据的可用性和完整性N 15分钟1)启动HACMP

2)检查应用数据库中的记录

3)检查应用数据库的大小

5.1.5 在容灾端主机上停止应用系统Y 8分钟1)停HACMP

2)删除磁盘设备

3)取消SECONDARY ARRAY上LUN的使用授

5.1.6 将生产数据由容灾端切换到生产端Y 5分钟1)MirrorView promte

2)增加PRIMARY ARRAY上LUN的使用授权

3)主机添加设备

5.1.7

检查生产端的数据的可用性和完整性,恢复生产环

境N 15分钟1)启动HACMP

2)检查应用数据库中的记录

3)检查应用数据库的大小

2.3 非计划性(unplanned)的容灾切换演练

序号演练内容停应用预计时间备注

5.2 非计划性(unplanned)的容灾切换演练

5.2.1 演练前的系统环境检查N < 1分钟

5.2.1.1 生产端主机系统环境检查N < 1分钟

5.2.1.2 生产端存储系统(PRIMARY ARRAY)环境检查N < 1分钟

5.2.1.3 容灾端主机系统环境检查N < 1分钟

5.2.1.4 容灾端存储系统环境检查N < 1分钟

5.2.1.5 目标系统的MirrorView/S状态检查N < 1分钟

5.2.2 灾难发生模拟Y 3分钟

5.2.3 在生产端主机上恢复主机操作环境Y 20分钟1)重启主机

2)删除磁盘设备

3)取消PRIMARY ARRAY上LUN的使用授权

5.2.4 将生产数据由生产端切换到容灾端Y 5分钟1)MirrorView promte

2)增加SECONDARY ARRAY上LUN的使用授

3)主机添加设备

5.2.5 检查容灾端的数据的可用性和完整性N 15分钟1)启动HACMP

2)检查应用数据库中的记录

3)检查应用数据库的大小

5.2.6

删除容灾端存储系统(SECONDARY ARRAY)上

的MirrorView/S配置

Y 3分钟5.2.7

删除生产端存储系统(PRIMARY ARRAY)上的

MirrorView/S配置

Y 3分钟5.2.8 灾难解除模拟Y 3分钟

5.2.9

在容灾端存储系统(SECONDARY ARRAY)重新

创建MirrorView/S配置Y 45分钟1)重建MirrorView/S

2)数据同步

5.2.10 在容灾端主机(mbfe)上停止应用系统Y 8分钟1)停HACMP

2)删除磁盘设备

3)取消PRIMARY ARRAY上LUN的使用授权

5.2.11 将生产数据由容灾端切换到生产端Y 5分钟1)MirrorView promte

2)增加PRIMARY ARRAY上LUN的使用授权

3)主机添加设备

5.2.12

检查生产端的数据的可用性和完整性,恢复生产环

境N 15分钟1)启动HACMP

2)检查应用数据库中的记录

3)检查应用数据库的大小

3MirrorView/S灾备切换演练详细步骤示例(武汉分行)

MirrorView/S演练计划分为计划性(planned)和非计划性(unplanned)演练。因为目前CMB系统环境中没有专用的演练主机,因此容灾演练将在生产端主机上进行,容灾端主机和生产端主机均为mbfe主机。(以mbfe系统为例)

3.1 演练前的环境准备

3.1.1主机环境准备

3.1.2应用系统数据备份

做MBFE应用系统的数据备份是很重要的一个环节。现代化支付系统涉及到几个比较重要的数据库:Master、MBFEWKDB、MBFEHISDB、DIRWAYSDB、DISWAYSDB。

注意:/usr文件系统的空间利用率

# isql -Usa -P

# go

# dump database Master to ‘/usr/sybasebak/master20081205.dat’

# go

# dump database MBFEWKDB to ‘/usr/sybasebak/mbfewkdb20081205.dat’

# go

# dump database MBFEHISDB to ‘/usr/sybasebak/mbfehisdb20081205.dat’

# go

# dump database DIRWAYSDB to ‘/usr/sybasebak/dirwaysdb20081205.dat’

# go

# dump database DISWAYSDB to ‘/usr/sybasebak/diswaysdb20081205.dat’

# go

3.1.3VG信息保存

# lsvg -o | lsvg -ip > /tmp/lsvg_p.log

# lsvg -o | lsvg -il > /tmp/lsvg_l.log

# lspv > /tmp/lspv.log

3.1.4LV裸设备的用户权限设置保存

# ( cd /dev; grep raw /tmp/lsvg_l.log | cut -f1 -d’’| xargs -n1 ls -l ) > /tmp/rawlv.log

3.1.5数据库关键表的记录总数和表占用空间记录

在生产端主机(mbfe)上记录数据库关键表的记录总数和表占用空间

a)大额数据库(MBFEWKDB)关键表的记录总数

# isql -Usa -P

# use MBFEWKDB

# go

# select count(*) from mbfesysctl ;系统控制表

# go

# select count(*) from mbfebankpar ;系统参数表

# go

# select count(*) from mbfesabk ;清算行行号表

# go

# select count(*) from mbfenetbank ;行名行号表

# go

b)查看大额(MBFEWKDB)数据库表占用空间

# sp_spaceused mbfesysctl ;系统控制表

# go

# sp_spaceused mbfebankpar ;系统参数表

# go

# sp_spaceused mbfesabk ;清算行行号表

# go

# sp_spaceused mbfenetbank ;行名行号表

# go

# sp_helpdb MBFEWKDB

# go

c)对小额(DIRWAYSDB)关键表的记录总数

# isql -Usa -P

# use DIRWAYSDB

# go

# select count(*) from MBFEPMDT2101 ; 系统控制参数表# go

# select count(*) from MBFEBPDT2301 ; 贷记类业务汇总表# go

# select count(*) from MBFEBPDT2304 ; 借记类业务汇总表# go

# select count(*) from MBFEBPDT2401 ; 业务信息汇总表# go

d)查看小额(DIRW AYSDB)数据库表占用空间

# sp_spaceused MBFEPMDT2101 ; 系统控制参数表

# go

# sp_spaceused MBFEBPDT2301 ; 贷记类业务汇总表

# go

# sp_spaceused MBFEBPDT2304 ; 借记类业务汇总表

# go

# sp_spaceused MBFEBPDT2401 ; 业务信息汇总表

# go

# sp_helpdb DIRWAYSDB

# go

3.1.6 备份操作系统

# mksysb

;备份主机操作系统

3.1.7 主机系统环境要求

目前MBFE 主机系统存在以下问题,为了减小出现故障的风险,事先解决这些问题是必要的。

a) WARNING : The installed AIX version 5.3, TL 07, SP 01 is UNSUPPORTED by EMC

for installing or running any EMC software.

Question:

ETA emc178626: EMC ControlCenter: Recent IBM patches to AIX may result in system crash when using

ControlCenter, Solutions Enabler or inq.

Environment: E MC Technical Advisory Environment: O S: IBM AIX 5.2 TL10 SP4 Environment: O S: IBM AIX 5.3 TL7 SP1 Environment: O S: IBM AIX 5.3 TL6 SP4 Environment: O S: IBM AIX 6.1 SP2

Environment: D oes not affect MPIO attached storage. Problem:

Host may crash when using ControlCenter, Solutions Enabler or inq utility (Including EMC GRAB). Root Cause: On certain SCSI commands used by the EMC products mentioned above, if the command receives an illegal request

status, illegal access to an MPIO data structure could result in a system crash due to a defect on the

AIX driver. Contact IBM for more information.

Fix:

Customers should not upgrade to the above OS versions until the fixes listed below are available and released.

IBM fix title: CRASH IN SCSIDISK_PROCESS_SENSE WITH NON-MPIO DISK Contact IBM to obtain the following fixes and additional details:

AIX 5.2 TL10 SP4 (IBM has not yet announced the defect number for 5.2 TL10 SP4. Referencing the fixes for 5.3 will enable IBM to give status on the 5.2 release status and date).

AIX5.3 TL6 SP4 - IZ11999, AIX5.3 TL7 SP1 - IZ11908 (Only one fix will be required depending on current OS release. Contact IBM for release date and details.)

AIX6.1 SP2 - IZ13376 (Contact IBM for release date and details.)

These fixes are not specific to EMC software but may affect any application.

Notes:

Also other versions of AIX 5.2 and AIX 5.3 have seen this problem,beyond what is listed here in this Primus

b)WARNING : Firmware Level: 210X8 - this is NOT at latest recommended IBM 5758

firmware 271X4.

c)WARNING : Latest Maintenance Level 5300-08 is not installed.

d)WARNING : PowerPath version 5.1.0-b176 is NOT the latest version of EMC

PowerPath for AIX. The latest version of PowerPath for AIX 5.3.0.0 is

5.1.1-b013.

3.1.8SAN Switch环境准备

因为目前的Fabric Zone配置中存在mbfe主机与生产端存储系统(PRIMARY ARRAY)和容灾端存储系统(SECONDARY ARRAY)之间的Zone,因此SAN Switch上不需要做变更。

3.1.9存储环境准备

1)在容灾端存储系统(SECONDARY ARRAY)上已经存在包含MirrorView/S目标LUN的

Storage Group(MBFE_STG),可以在演练中使用。

2)确认mbfe主机的HBA卡已经登陆到容灾端存储系统SECONDARY ARRAY上,并且在容灾

端存储系统(SECONDARY ARRAY)上的注册信息正确。

3)在容灾端存储系统(SECONDARY ARRAY)上将LUN 605、705、610、710加入到Storage

Group(MBFE_STG)中。

3.2 计划性(planned)的灾备切换演练

3.2.1演练前的系统环境检查

3.2.1.1生产端主机系统环境检查

1)查看‘errpt’命令的输出,确认生产端主机(mbfe)上没有相关的硬件报错

2)确认支付系统运行正常

3.2.1.2生产端存储系统环境检查

3)登陆到生产端存储系统(PRIMARY ARRAY)的Navisphere Manager Console上,确认

没有发现故障报警

3.2.1.3容灾端主机系统环境检查

4)查看‘errpt’命令的输出,确认容灾端主机(mbfe)上没有相关的硬件报错

3.2.1.4容灾端存储系统环境检查

5)登陆到容灾端存储系统(SECONDARY ARRAY)的Navisphere Manager Console上,确

认没有发现故障报警

3.2.1.5支付系统的MirrorView/S状态检查

6)登陆到生产端存储系统(PRIMARY ARRAY)的Navisphere Manager Console上,确认

支付系统的Consistency Groups(CG_MBFE)的状态为Synchronized

3.2.2在生产端主机(mbfe)上停止应用系统

7)停止HACMP的运行

# smitty clstop

注:因为容灾端主机和生产端主机均为mbfe主机,因此在mbfe主机上需要做以下操作8)解除PowerPath对支付系统使用的磁盘设备的控制

# powermt remove dev=all

9)删除支付系统使用的PowerPath设备

# lsdev -Ccdisk -Fname -tpower | xargs -n1 rmdev -dl

10)删除支付系统使用的磁盘设备

# lsdev -Ccdisk -Fname -tCLAR* | xargs -n1 rmdev -dl

11)在生产端存储系统(PRIMARY ARRAY)上删除mbfe主机对支付系统数据LUN的控

制权限

登陆到生产端存储系统(PRIMARY ARRAY)的Navisphere Manager Console上,从

Storage Group(MBFE)的Connect Hosts中删除mbfe主机

3.2.3将生产数据由生产端切换到容灾端

12)登陆到容灾端存储系统(SECONDARY ARRAY)的Navisphere Manager Console上

13)确认支付系统的Consistency Groups(CG_MBFE)的状态为Synchronized

14)从Consistency Groups中选择CG_MBFE,右键点击选择Promte,当前的primary image

会降级为secondary image ,当前的secondary image会晋升为primary image。

3.2.4检查容灾端的数据的可用性和完整性

15)登陆到容灾端存储系统(SECONDARY ARRAY)的Navisphere Manager Console上,在

Storage Group(MBFE_STG)的Connect Hosts中加入将容灾端主机(mbfe)。

16)在容灾端主机(mbfe)上添加容灾端存储系统(SECONDARY ARRAY)的磁盘设备

# cfgmgr –vl fcs0

# cfgmgr –vl fcs1

17)在容灾端主机(mbfe)上配置PowerPath设备

# powermt config

18)确认PowerPath设备配置正常

# lspv

19)启动HACMP

# smitty clstart

20)在容灾端主机(mbfe)上验证数据的可用性和完整性

a)对大额数据库(MBFEWKDB)关键表的记录总数进行比较是否一致

# isql -Usa -P

# use MBFEWKDB

# go

# select count(*) from mbfesysctl ;系统控制表

# go

# select count(*) from mbfebankpar ;系统参数表

# select count(*) from mbfesabk ;清算行行号表

# go

# select count(*) from mbfenetbank ;行名行号表

# go

b)查看大额(MBFEWKDB)数据库表占用空间

# sp_spaceused mbfesysctl ;系统控制表

# go

# sp_spaceused mbfebankpar ;系统参数表

# go

# sp_spaceused mbfesabk ;清算行行号表

# go

# sp_spaceused mbfenetbank ;行名行号表

# go

# sp_helpdb MBFEWKDB

# go

c)对小额(DIRWAYSDB)关键表的记录总数进行比较是否一致

# isql -Usa -P

# use DIRWAYSDB

# go

# select count(*) from MBFEPMDT2101 ; 系统控制参数表# go

# select count(*) from MBFEBPDT2301 ; 贷记类业务汇总表# go

# select count(*) from MBFEBPDT2304 ; 借记类业务汇总表# go

# select count(*) from MBFEBPDT2401 ; 业务信息汇总表# go

d)查看小额(DIRW AYSDB)数据库表占用空间

# sp_spaceused MBFEPMDT2101 ; 系统控制参数表

# sp_spaceused MBFEBPDT2301 ; 贷记类业务汇总表

# go

# sp_spaceused MBFEBPDT2304 ; 借记类业务汇总表

# go

# sp_spaceused MBFEBPDT2401 ; 业务信息汇总表

# go

# sp_helpdb DIRWAYSDB

# go

3.2.5在容灾端主机(mbfe)上停止应用系统

21)停HACMP

# smitty clstop

注:因为容灾端主机和生产端主机均为mbfe主机,因此在mbfe主机上需要做以下操作22)解除PowerPath对支付系统使用的磁盘设备的控制

# powermt remove dev=all

23)删除支付系统使用的PowerPath设备

# lsdev -Ccdisk -Fname -tpower | xargs -n1 rmdev -dl

24)删除支付系统使用的磁盘设备

# lsdev -Ccdisk -Fname -tCLAR* | xargs -n1 rmdev -dl

25)在容灾端存储系统(SECONDARY ARRAY)上删除mbfe主机对支付系统数据LUN的

控制权限

登陆到容灾端存储系统(SECONDARY ARRAY)的Navisphere Manager Console上,从Storage Group(MBFE_STG)的Connect Hosts中删除mbfe主机

3.2.6将生产数据由容灾端切换到生产端

26)登陆到生产端存储系统(PRIMARY ARRAY)的Navisphere Manager Console上

27)确认支付系统的Consistency Groups(CG_MBFE)的状态为Synchronized

28)从Consistency Group中选择CG_MBFE,右键点击选择Promte,当前的primary image

会降级为secondary image ,当前的secondary image会晋升为primary image

3.2.7检查生产端的数据的可用性和完整性,恢复生产环境

29)登陆到生产端存储系统(PRIMARY ARRAY)的Navisphere Manager Console上,在

Storage Group(MBFE)的Connect Hosts中加入将生产端主机(mbfe)

30)在生产端主机(mbfe)上添加生产端存储系统(PRIMARY ARRAY)的磁盘设备

# cfgmgr –vl fcs0;cfgmgr –vl fcs1

31)在生产端主机(mbfe)上配置PowerPath设备

# powermt config

32)确认PowerPath设备配置正常

# lspv

33)在生产端主机(mbfe)上启动HACMP

# smitty clstart

34)在生产端主机(mbfe)上验证数据的可用性和完整性

e)对大额数据库(MBFEWKDB)关键表的记录总数进行比较是否一致

# isql -Usa -P

# use MBFEWKDB

# go

# select count(*) from mbfesysctl ;系统控制表

# go

# select count(*) from mbfebankpar ;系统参数表

# go

# select count(*) from mbfesabk ;清算行行号表

# go

# select count(*) from mbfenetbank ;行名行号表

# go

f)查看大额(MBFEWKDB)数据库表占用空间

# sp_spaceused mbfesysctl ;系统控制表

# go

# sp_spaceused mbfebankpar ;系统参数表

# go

# sp_spaceused mbfesabk ;清算行行号表

# go

# sp_spaceused mbfenetbank ;行名行号表

# go

# sp_helpdb MBFEWKDB

# go

g)对小额(DIRWAYSDB)关键表的记录总数进行比较是否一致

# isql -Usa -P

# use DIRWAYSDB

# go

# select count(*) from MBFEPMDT2101 ; 系统控制参数表# go

# select count(*) from MBFEBPDT2301 ; 贷记类业务汇总表# go

# select count(*) from MBFEBPDT2304 ; 借记类业务汇总表# go

# select count(*) from MBFEBPDT2401 ; 业务信息汇总表# go

h)查看小额(DIRW AYSDB)数据库表占用空间

# sp_spaceused MBFEPMDT2101 ; 系统控制参数表

# go

# sp_spaceused MBFEBPDT2301 ; 贷记类业务汇总表

# go

# sp_spaceused MBFEBPDT2304 ; 借记类业务汇总表

# go

# sp_spaceused MBFEBPDT2401 ; 业务信息汇总表

# go

# sp_helpdb DIRWAYSDB # go

3.3 非计划性(unplanned)的容灾切换演练

非计划性(Unplaned)的MirrorView/S的容灾切换演练更加模拟真实的灾难环境,但进行本演练会破坏目前已经建立的MirrorView/S配置。在演练完成后,我们需要将MirrorView/S重新配置。

3.3.1演练前的系统环境检查

3.3.1.1生产端主机系统环境检查

1)查看‘errpt’命令的输出,确认生产端主机(mbfe)上没有相关的硬件报错

2)确认支付系统运行正常

3.3.1.2生产端存储系统(PRIMARY ARRAY)环境检查

3)登陆到生产端存储系统(PRIMARY ARRAY)的Navisphere Manager Console上,确认

没有发现故障报警

3.3.1.3容灾端主机系统环境检查

4)查看‘errpt’命令的输出,确认容灾端主机(mbfe)上没有相关的硬件报错

3.3.1.4容灾端存储系统环境检查

5)登陆到容灾端存储系统(SECONDARY ARRAY)的Navisphere Manager Console上,确

认没有发现故障报警

3.3.1.5支付系统的MirrorView/S状态检查

6)登陆到生产端存储系统(PRIMARY ARRAY)的Navisphere Manager Console上,确认

支付系统的Consistency Groups(CG_MBFE)的状态为Synchronized

系统容灾解决方案

系统容灾解决方案 容灾基本概念 容灾是一个范畴比较广泛的概念,广义上,我们可以把所有与业务连续性相关的内容都纳入容灾。容灾是一个系统工程,它包括支持用户业务的方方面面。而容灾对于IT而言,就是提供一个能防止用户业务系统遭受各种灾难影响及破坏的计算机系统。容灾还表现为一种未雨绸缪的主动性,而不是在灾难发生后的“亡羊补牢”。 从狭义的角度,我们平常所谈论的容灾是指:除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点受到破坏时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达到更高的可用性,许多用户甚至建立多个冗余站点。 容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。 要实现容灾,首先要了解哪些事件可以定义为灾难?典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等;还有其它如原提供给业务运营所需的服务中断,出现设备故障、软件错误、网络中断和电力故障等等;此外,人为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和病毒袭击等。现阶段,由于信息技术正处在高速发展的阶段,很多生产流程和制度仍不完善,加之缺乏经验,这方面的损失屡见不鲜。 容灾的七个层次 等级1: 被定义为没有信息存储的需求,没有建立备援硬件平台的需求,也没有发展应急计划的需求,数据仅在本地进行备份恢复,没有数据送往异地。这种方式是成本最低的灾难恢复解决方案,但事实上这种恢复并没有真正达到灾难恢复的能力。 一种典型等级1方式就是采用本地磁带库自动备份方案,通过制定相关的备份策略,可以实现系统等级1备份。 等级2: 是一种为许多站点采用的备份标准方式。数据在完成写操作之后,将会送到远离本地的地方,同时具备有数据恢复的程序。在灾难发生后,在一台未启动的计算机上重新完成。系统和数据将被恢复并重新与网络相连。这种灾难恢复方案相对来说成本较低,但同时有难以管理的问题,即很难知道什么样的数据在什么样的地方。这种情况下,恢复时间长短依赖于何时硬件平台能够被提供和准备好。

EMC MirrorView演练方案

2 CMB 分行 MirrorView 演练方案 2008年12月5日 易安信电脑系统(中国)有限公司广州分公司 技术解决方案部 广州市天河北路233号中信广场7401室 电话:(86-20) 38771938 EMC Technical Solution Group

文档信息 项目名称:招商银行分行容灾项目文档版本号: 1.5 文档作者:方天舒生成日期:2008年9月8日文档审核者:审核日期: 文档维护记录 版本号维护日期作者/维护人描述 1.0 2008年9月10日方天舒创建 1.1 2008年11月21日方天舒完善文档内容 1.2 2008年11月27日方天舒完善文档内容 1.3 2008年12月05日方天舒完善文档内容 1.4 2009年2月3日樊军修改文档为通用版本 1.5 2009年2月4日韩震调整格式 版权说明 本文件中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属广东发展银行和美国EMC公司所有,受到有关产权 及版权法保护。任何个人、机构未经广东发展银行和美国EMC公司的书面授权许可,不得复制、引用或传播本文件的任何片断,无论通过电子形式或非电子形式。

CMB分行MirrorView/S演练方案 目录 1 前言 (4) 2 MirrorView灾备切换演练步骤 (5) 2.1 演练前的环境准备 (5) 2.2 计划性(planned)的灾备切换演练 (5) 2.3 非计划性(unplanned)的容灾切换演练 (6) 3 MirrorView/S灾备切换演练详细步骤示例(武汉分行) (8) 3.1 演练前的环境准备 (8) 3.1.1 主机环境准备 (8) 3.1.2 应用系统数据备份 (8) 3.1.3 VG信息保存 (9) 3.1.4 LV裸设备的用户权限设置保存 (9) 3.1.5 数据库关键表的记录总数和表占用空间记录 (9) 3.1.6 备份操作系统 (11) 3.1.7 主机系统环境要求 (11) 3.1.8 SAN Switch环境准备 (12) 3.1.9 存储环境准备 (12) 3.2 计划性(planned)的灾备切换演练 (12) 3.2.1 演练前的系统环境检查 (12) 3.2.2 在生产端主机(mbfe)上停止应用系统 (13) 3.2.3 将生产数据由生产端切换到容灾端 (14) 3.2.4 检查容灾端的数据的可用性和完整性 (14) 3.2.5 在容灾端主机(mbfe)上停止应用系统 (16) 3.2.6 将生产数据由容灾端切换到生产端 (16) 3.2.7 检查生产端的数据的可用性和完整性,恢复生产环境 (17) 3.3 非计划性(unplanned)的容灾切换演练 (20) 3.3.1 演练前的系统环境检查 (20) 3.3.2 灾难发生模拟 (21) 3.3.3 在生产端主机(mbfe)上恢复演练环境 (21) 3.3.4 将生产数据由生产端切换到容灾端 (21) 3.3.5 检查容灾端的数据的可用性和完整性 (22) 3.3.6 删除容灾端存储系统(SECONDARY ARRAY)上的MirrorView/S配置 (24) 3.3.7 删除生产端存储系统(PRIMARY ARRAY)上的MirrorView/S配置 (24) 3.3.8 灾难解除模拟 (25) 3.3.9 在容灾端存储系统(SECONDARY ARRAY)重新创建MirrorView/S配置 (25) 3.3.10 在容灾端主机(mbfe)上停止应用系统 (26) 3.3.11 将生产数据由容灾端切换到生产端 (27) 3.3.12 检查生产端的数据的可用性和完整性,恢复生产环境 (27) 3.4 异常处理步骤 (29) 3.4.1 数据库数据恢复 (29) 3.4.2 手工启动应用系统 (30) 第3页

DSG SuperSync平台容灾演练方案

DSG SuperSync平台容灾演练方案

目录 第一章文档介绍 (3) 1.1摘要 (3) 1.2客户的受益 (3) 1.3责任人............................................................................................................................ 错误!未定义书签。第二章灾备前搭建测试环境进行演练 (4) 第三章灾备演练计划和安排 (6) 2

第一章文档介绍 1.1 摘要 此文档主要阐述了本次软件灾备演练的目的、计划、步骤、分工,以及评测方法,便于医院信息管理部各位领导了解整个演练进程,并做相应检验。 本次在医院处进行的灾备演练评测,是希望通过在实际生产环境中的部署与试用,使医院信息管理部各位领导和专家能够全面了解并评估DSG公司的SuperSync数据库复制软件及其应用技术,为医院未来的企业业务容灾系统建设提供有益的探索。我们精心设计了整个演练过程,力求以医院业务应用的视角来评测该软件。 1.2 客户的受益 通过此文档,客户方信息管理部相关人员将能够更加清晰地了解测试的全部细节,从而便于安排相关检测。 3

第二章灾备前搭建测试环境进行演练 本次评测在医院搭建的测试拓扑图如下 具体模拟灾备测试环境的相关参数列表如下(实际灾备演练过程和此次测试过程一致): 4

目标端软件测试情况: 测试用DSG用户在源端和目标端分别做了insert,update,delete测试,数据均完全一致,两边可以随意切换。下面就是联系应用和用户确定方案和时间,做正式灾备演练测试。 5

容灾演练方案

xxxxxxxxxxxxxxxxxxxxxxxx项目 容 灾 演 练 方 案

目录 第一章、总拓扑图 (4) 第二章、网络容灾演练方案 (5) 2.1 核心交换机 (5) 2.1.1 参加演练人员 (6) 2.1.2 演练流程 (6) 2.1.3 准备工作 (6) 2.1.4 演练步骤 (8) 2.1.5 预期演练结果 (9) 2.2 radware负载均衡器 (9) 2.2.1 参加演练人员 (9) 2.2.2 演练流程 (10) 2.2.3 准备工作 (10) 2.2.4 演练步骤 (13) 2.2.5 预期演练结果 (14) 第三章、应用服务器容灾演练方案 (14) 3.1 Vmware HA (14) 3.1.1 参加演练人员 (15) 3.1.2 演练流程 (15) 3.1.3 准备工作 (15) 3.1.4 模拟JJESX1故障 (16) 3.1.5 模拟JJESX2故障 (17) 3.1.6 预期演练结果 (17) 3.2 websphere (18) 3.2.1 参加演练人员 (18) 3.2.2 演练流程 (19) 3.2.3 准备工作 (20) 3.2.4 WAS故障 (24) 3.2.5 DMGR故障 (24)

3.2.6 ODR故障 (25) 3.2.7 WVE故障 (25) 3.2.8 预期演练结果 (25) 第四章、数据库系统容灾演练方案 (26) 4.1小型机故障切换 (26) 4.1.1 参加演练人员 (26) 4.1.2 演练流程 (26) 4.1.3 准备工作 (27) 4.1.4 演练步骤 (32) 4.1.5 预期演练结果 (32) 4.2生产端数据库平台整体故障切换 (33) 4.2.1 参加演练人员 (33) 4.2.2 切换流程 (34) 4.2.3 演练步骤 (35) 4.2.4 还原流程 (42) 4.2.5 演练步骤 (43) 4.2.6 预期演练结果 (46)

某公司系统容灾解决建设方案

某公司软件容灾方案 1容灾软件 Symantec 的存储管理软件VERITAS Storage Foundation(简称SF)适用于企业存储管理的标准化平台,它不仅提供比操作系统本身逻辑卷管理器更加强大的在线卷管理功能,还提供许多高级的存储管理功能,其中包括用于容灾的数据镜像、数据复制等功能。是目前市场上广泛使用的容灾软件。 Symantec VERITAS Cluster Server(简称VCS)是一个用于容灾演练、应用级容灾的软件。它是在基本的HA软件功能的基础上发展而来的。 Veritas Storage Foundation 软件可以根据企业不同需求,提供不同的容灾解决方案,小到同城数据镜像,大到两地三中心数据容灾。SF与VCS紧密集成,可以提供完整的、从数据到应用、并自动实时演练的企业容灾方案。 铁道部高铁指挥实验系统采用了SF/VCS实现了容灾。

2数据同城镜像方式 利用灾备中信和主中心之间或者同机房内的裸光纤线路构成SAN环境,直接采用Storage Foundation在两个存储之间实现存储镜像。即所有数据都将同时写入两边的磁盘整列中。 如上图所示,主中心的服务器将应用的每个写i/o数据同时写入到两个中心的存储中。由于镜像的实现是依托于底层的Volume,所有数据存取的过程对于应用来说都是透明的。我们可以通过设臵Volume Manager的读取策略来指定主中心的服务器从本地的磁盘阵列上读取数据,加快数据查询的速度。 在这个场景中,数据发生物理错误的可能性基本上分为两种,生产中心的存储系统出现物理错误,如硬盘问题、光纤卡问题、光纤连接问题或光纤交换机问题等,另外一种就是整个数据中心出现故障。

医院容灾演练方案

河池XX县人民医院存储容灾演练方案 2011年11月

目录 第1章实施步骤、效果说明和测试方案 (2) 1.1整个EMC Recoverpoint实施步骤和时间预估 (2) 1.2效果说明 (2) 1.3测试目的 (2) 1.4测试环境说明 (3) 1.5服务器系统 (4) 3.5.1常见系统故障 (4) 3.5.2常见系统维护 (4) 1.6测试项目设置 (5) 1.7具体测试内容 (6) 3.7.1数据一致性测试 (8) 3.7.2数据容灾故障恢复测试 (9) 3.7.3容灾:任意时间点回滚测试 (10) 3.7.4容灾: 容灾存储恢复至主存储数据测试 (11) 3.7.5容灾:主存储误操作数据恢复测试 (11)

第1章实施步骤、效果说明和测试方案 1.1 整个EMC Recoverpoint实施步骤和时间预估 1.2 效果说明 1,实现存储间的数据互联互通、相互流动的功能。 2,实现主备存储间数据实时同步,主备存储的数据一致、高可用的功能。 3,实现当主存储发生逻辑错误后,可以通过备用存储对主存储的数据追回、不丢失数据的功能。 4,实现存储上的数据任意时间点回滚功能,有效地避免主数据库的逻辑错误或突然断电导致数据库无法正常运行的故障。并将数据丢失率降低至最小。 5,实现备用存储的在线使用功能,当备用存储的数据修改后,能够直接恢复到主存储。该功能可以在备用存储上打开数据库,实现报表、测试、升级、培训 等操作,分流用户的业务,降低生产系统的负载。 6,完成备用存储的报表、测试、升级、培训功能后,可以通过主存储将其变化的数据继续同步到备用存储,恢复存储间的数据实时同步,保持数据一致、高 可用状态。 1.3 测试目的 为了检验是否可以达到客户的要求,在首次完成recoverpoint后,需要按

XXX市商业银行灾备切换演练总体方案

XX市商业银行 灾难备份系统 切换演练总体方案 XX市商业银行 2016年1月

目录 一、本次演练目的和原则 (1) 1. 演练目的 (1) 2. 演练要求 (1) 二、演练时间及参演部门 (3) 三、演练组织架构及名单 (4) 四、演练方案 (7) 1. 演练内容 (7) 2. 演练总体安排 (7) 3. 本次演练涉及的主要服务器 (8) 4. 演练步骤 (8) 五、演练风险控制 (10) 六、演练后的总结及修订情况 (11)

一、本次演练目的和原则 1.演练目的 为保障XX市商业银行信息系统安全、可靠、稳定运行,提高应对各类信息系统突发事件对能力,有效防范重要信息系统风险,根据中国银监会关于《银行业重要信息系统突发事件应急管理规范》对通知,结合我行自身情况,特制定本次灾备切换演练计划。 本次灾备切换演练主要目的: ●论证我行重要信息系统突发事件应急预案对可行性; ●验证核心系统切换到灾备中心后,灾备核心系统接管生产的可用 性; ●验证灾备中心DELL SharePlex数据库同步的可用性; ●检验系统切换手册和文档的可用性,并在演练过程中发现信息系 统应急管理体系存在的问题和不足,以便演练后进行改进和完善; ●验证网点接入灾备中心网络能力; ●使参演人员熟悉应急管理和灾难恢复/切换的流程; ●提高参演人员的应急处理能力和系统的风险防控能力。 2.演练要求 1.切换演练实施前按照监管单位要求,向上级报备; 2.切换演练中要做好回退方案,防范切换演练过程中对风险;

3.演练后不影响生产系统数据和对外服务; 4.演练后不影响全行生产环境其它各系统的正常运行; 5.演练后不影响灾备中心数据复制的正常运行; 6.演练后不影响灾备中心接管生产系统能力; 7.演练后向上级单位汇报演练情况。

网络应急演练预案

计算机网络突发事件应急预案 为切实做好网络突发事件的防范和应急处理工作,进一步提高预防和控制网络突发事件的能力和水平,减轻或消除突发事件的危害和影响,确保我局网络与信息安全,根据《中华人民共和国计算机信息系统安全保护条例》、《计算机病毒防治管理办法》(以下简称预案)。 一、指导思想 认真落实“教育在先,预防在前,积极处置”的工作原则,牢固树立安全意识,提高防范和救护能力,以维护正常的工作秩序和营造绿色健康的网络环境为中心,进一步完善网络管理机制,提高突发事件的应急处置能力。 二、组织领导及职责 成立计算机信息系统安全保护工作领导小组 组长:xx 副组长:xx 成员:xx 主要职责:负责召集领导小组会议,部署工作,安排、检查落实计算机网络系统重大事宜。副组长负责计算机网络系统应急预案的落实情况,处理突发事故,完成局领导交办的各项任务。

三、安全保护工作职能部门 1. 负责人: xx 2. 信息安全技术人员:xx 四、应急措施及要求 1. 各处室要加强对本部门人员进行及时、全面地教育和引导,提高安全防范意识。 2. 网站配备信息审核员和安全管理人员,严格执行有关计算机网络安全管理制度,规范办公室、计算机机房等上网场所的管理,落实上网电脑专人专用和日志留存。 3. 信息所要建立健全重要数据及时备份和灾难性数据恢 复机制。 4. 采取多层次的有害信息、恶意攻击防范与处理措施。各处室信息员为第一层防线,发现有害信息保留原始数据后及时删除;信息所为第二层防线,负责对所有信息进行监视及信息审核,发现有害信息及时处理。 5. 切实做好计算机网络设备的防火、防盗、防雷和防信号非法接入。 6.所有涉密计算机一律不许接入国际互联网,做到专网、专机、专人、专用,做好物理隔离。连接国际互联网的计算机绝对不能存储涉及国家秘密、工作秘密、商业秘密的文件。 附:

容灾整体解决方案

XX 容灾整体解决方案

第1章

前言................................................................................................................................................2

容灾整体解决方案 第2章 2.1 2.2 2.2.1 2.2.2 2.3 2.4 容灾概述........................................................................................................................................3
概述 ...........................................................................................................................................................3 业务连续性管理简介................................................................................................................................5 《规范》简介 .........................................................................................................................................5 恢复时间目标(RTO)与恢复点目标(RPO)...................................................................................8 容灾系统建设的流程..............................................................................................................................10 容灾系统中的人员组织安排..................................................................................................................12 第3章 容灾建设中 IT 技术的选择 ........................................................................................................14
3.1.1
容灾中 IT 技术的选择..........................................................................................................................14 主流厂商解决方案简介 ..............................................................................................................23
第4章 4.1.1 4.1.2 4.1.3
EMC 容灾解决方案简介 .....................................................................................................................23 SYMMENTEC|VERITAS 整体解决方案简介.....................................................................................26 HDS 容灾解决方案简介.......................................................................................................................29 京北方公司容灾解决方案 ..........................................................................................................32
第5章 5.1.1 5.1.2
京北方公司容灾建设分阶段论............................................................................................................32 京北方公司容灾体系各阶段推荐的产品及产品优势 ........................................................................32 附件..............................................................................................................................................35
第6章
1-

网络应急演练预案

杭州盛炬网络技术有限公司计算机网络突 发事件应急预案 为切实做好网络突发事件得防范与应急处理工作,进一步提高预防与控制网络突发事件得能力与水平,减轻或消除突发事件得危害与影响,确保我局网络与信息安全,根据《中华人民共与国计算机信息系统安全保护条例》、《计算机病毒防治管理办法》及《杭州盛炬网络技术有限公司突发公共事件总体应急预案》及杭州盛炬网络技术有限公司相关管理规定等,制定《杭州盛炬网络技术有限公司突发信息网络事故应急预案》(以下简称预案)。 一、指导思想 认真落实“教育在先,预防在前,积极处置”得工作原则,牢固树立安全意识,提高防范与救护能力,以维护正常得工作秩序与营造绿色健康得网络环境为中心,进一步完善网络管理机制,提高突发事件得应急处置能力。 二、组织领导及职责

成立计算机信息系统安全保护工作领导小组 组长:xx 副组长:xx 成员:xx 主要职责:负责召集领导小组会议,部署工作,安排、检查落实计算机网络系统重大事宜。副组长负责计算机网络系统应急预案得落实情况,处理突发事故,完成局领导交办得各项任务。 三、安全保护工作职能部门 1、负责人: xx 2、信息安全技术人员:xx 四、应急措施及要求 1、各处室要加强对本部门人员进行及时、全面地教育与引导,提高安全防范意识。 2、网站配备信息审核员与安全管理人员,严格执行有关计算机网络安全管理制度,规范办公室、计算机机房等上网场所得管理,落实上网电脑专人专用与日志留存。

3、信息所要建立健全重要数据及时备份与灾难性数据恢复机制。 4、采取多层次得有害信息、恶意攻击防范与处理措施。各处室信息员为第一层防线,发现有害信息保留原始数据后及时删除;信息所为第二层防线,负责对所有信息进行监视及信息审核,发现有害信息及时处理。 5、切实做好计算机网络设备得防火、防盗、防雷与防信号非法接入。 6、所有涉密计算机一律不许接入国际互联网,做到专网、专机、专人、专用,做好物理隔离。连接国际互联网得计算机绝对不能存储涉及国家秘密、工作秘密、商业秘密得文件。附: 应急处理措施指南 (一)当人为、病毒破坏或设备损坏得灾害发生时,具体按以下顺序进行:判断破坏得来源与性质,断开影响安全与稳定得信息网络设备,断开与破坏来源得网络物理连接,跟踪并锁定

信息系统容灾演练实施方案

信息系统容灾咨询服务项目 信息系统容灾演练 实施方案

目录 1演练背景 (4) 2演练目标与原则 (5) 2.1演练目标 (5) 2.2演练原则 (5) 3演练组织 (7) 3.1演练组织结构 (7) 3.2演练岗位人员安排 (8) 4演练方案设计 (10) 4.1灾难恢复演练场景 (10) 4.2演练假设条件 (10) 4.3演练系统范围 (10) 4.4演练方式 (10) 4.5演练方案技术要点说明 (11) 4.6灾备系统技术方案概述 (13) 5演练计划 (15) 5.1演练时间 (15) 5.2演练地点 (15) 5.3演练总体流程 (15) 5.4灾备演练流程大纲 (16) 5.5灾备演练流程控制图 (16) 5.6演练信息沟通方式 (16) 6演练准备工作 (18) 6.1灾备演练总体工作计划 (18) 6.2人员准备 (18) 6.3人员培训 (18) 6.4业务验证准备 (18) 6.5场地资源准备 (18) 6.6演练风险分析 (19) 7演练相关附件 (20) 7.1附件1演练方案模板 (20)

7.2附件2灾难恢复演练签到表 (20) 7.3附件3灾难恢复演练切换记录表 (21) 7.4附件4灾难恢复演练业务测试记录表 (22) 7.5附件5灾难恢复演练业务部门问题与建议表 (22)

1演练背景 信息系统及服务在xx公司生产经营和业务创新中越来越重要,信息系统灾难直接威胁公司战略目标实现,为提高xx公司信息系统的风险抵御能力,减少灾难打击和重大事故发生时造成的损失,保障业务持续稳定运行,2017年8月xx公司启动了灾备体系建设专项工作,2017年12月完成灾备咨询规划,2018年5月完成灾备系统实施方案设计和软硬件资源采购,2018年12月中旬实施并完成同城灾备系统集成建设与系统联调测试,初步完成重要信息系统的应用级灾备体系建设。灾备建设是xx公司信息系统安全运行保障体系的基础性工作,是保障信息服务业务连续性的必要手段,是适应当前IT建设和未来业务发展趋势的重大战略部署,是xx公司信息安全保障体系的重要组成部分。 灾难恢复演练是IT服务业务连续性建设的重要工作内容。通过演练可检验应急响应和灾难恢复体系的完整有效性,使相关人员了解信息系统应急响应及灾难恢复目标和流程;全面验证技术及业务管理指挥、流程操作、协调配合等方面的综合能力;完成灾难恢复相关人员意识和知识技能培训;验证应急响应及灾难恢复能力。 本文档为灾备咨询服务商H3C在本项目中的文档交付物,为xx公司信息系统灾难恢复演练提供规划和指导。本恢复演练规划方案对本项目中的灾难恢复演练的演练范围、演练方式、演练方案设计和演练计划进行了说明。灾难恢复演练是一项持续性的、常态化的体系建设和维护工作,本规划方案做为演练范例,指导近期项目中的灾难恢复演练;后续演练需结合具体演练目标和内容不断修订和完善。

公司灾备方案

公司灾备方案 The latest revision on November 22, 2020

企业灾备需求 某企业众多的业务系统中,由于前期都是分批进行搭建,每年产品选型也都有变化,业务系统的主机包括windows、linux、unix系统,存储产品也包括了IBM、EMC、HDS等,在面临众多产品及不同的生产环境时,灾备的需求需要进行细致的分析,其中包括以下几个步骤: 1、灾备咨询 2、容灾技术选型 3、生产系统整合 4、灾备系统投产 5、演练 1.1.1 灾备咨询 建设初期需要对生产系统进行全面的调研,不仅仅包括硬件信息的收集,更包括业务风险分析,业务关联性分析等。 通过对现有系统数据的收集,充分分析现有生产系统面临的挑战,以及生产中心所处位置的地理、天气、社会环境进行充分的分析,最终对同城灾备中心及异地灾备中心的选址给出合理的咨询交付物。 业务关联性分析方面需要跟业务部门进行沟通,梳理出关联业务的数据流向和数据依赖性,用来确认容灾最终的范围及重要程度,避免因为某些特定关联业务的梳理不到位,导致核心应用因为关联性问题,容灾级别降低或灾备项目建设失败情况的发生。 1.1.2 关键技术的选型 近几年来,容灾已经成为信息数据中心建设的热门课题。很多容灾技术也快速发展起来,对用户来说也有很广阔的选择余地。由于容灾方案的技术复杂性和多样性,一般用户很难搞清其中的优劣以确定如何选择最适合自己状况的容灾解决方案。下面就容灾建设中的备份及复制技术做一个深入探讨,最终为本次容灾中的各系统选择适合的容灾方式。

容灾系统要求生产中心和灾备中心同时工作,生产中心和灾备中心之间有传输链路连接。数据自生产中心实时复制传送到灾备中心。在此基础上,可以在应用层进行集群管理,当生产中心遭受灾难出现故障时可由灾备中心接管并继续提供服务。 和数据备份相比,数据复制技术具有实时性高、数据丢失少或零丢失、容灾恢复快、投资较高等特点。 但是数据复制技术不能代替数据备份技术,因为数据复制技术保证的是两地的数据一致及完整,但是他不能避免因为人员误操作、病毒或其他方式带来的数据丢失或破坏,所以就算有了完整的数据复制技术,也不能放弃数据备份。 根据数据复制的层次,数据复制技术的实现可以分为三种:存储系统层数据复制、操作系统数据复制和数据库数据复制。 数据复制技术的比较 下面对数据复制的三种技术做一个简单比较:

HDS容灾方案

国内灾备业的发展 随着国内各行业信息系统的快速发展,特别是银行、证券、保险和政府等行业业务大集中速度的加快,企业的技术风险也相对集中。一旦发生灾难,则将导致政府和企业所有分支机构、营业网点和全 部的业务处理停顿,或造成企业客户数据的丢失。如何防范技术风险,确保数据安全和业务连续性,已成为企业急需面对的课题。 国家相关部门对加强信息安全保障工作十分重视,先后出台了多项有关信息安全保障措施。如中国人民银行于2002年8月下发了《关于加强银行数据集中安全工作的指导意见》,指出:"为保障银行业务的连续性,确保银行稳健运行,实施数据集中的银行必须建立相应的灾难备份中心。" "业务连续性计划应报中国人民银行备案。"。 2003年9月,中共中央办公厅、国务院办公厅转发了《国家信息化领导小组关于加强信息安全保障工作的意见》,明确提出要重点保障重要信息系统的安全,强调重要信息系统的建设要充分考虑灾难发生后的抗毁性与灾难恢复能力。 从以上资料可以看出,信息系统安全和灾难备份已经引起了国家、社会、企业的高度重视,灾难备份业务的发展是客户保持业务连续运作的需要,同时也是社会的需要和政策法规的要求,是市场发展的必然。 中国国际电子商务中心的数据容灾要求及选择 隶属于中国商务部、成立于1996年的中国国际电子商务中心(China International Electronic Commerce Center,简称C IE CC),肩负着国家信息化建设重点工程(金关工程)主干网的建设、维护和运营,是中国国际电子商务权威、稳定、安全的第三方服务平台。近几年,随着业务电子化平台的逐步建立和完善,CIECC服务的企业不断增加,数量近百万家,同时提供的服务种类也日益丰富。为了提升对数据的保护水平并确保业务连续性,CIECC从2005年初开始酝酿建设一套安全可靠以及高效的容灾系统:以北京亦庄的数据中心为主生产中心,在同城的东单建立同城容灾系统,并在广州建立异地容灾系统,以此构成三数据中心容灾备份系统来实现最高级别的灾难恢复能力和业务连续性。 经过对多家主流厂商容灾方案进行谨慎和严格的评估,CIECC最终于2006年底选择了由日立数据系统公司(HDS)提供的采用了Delta Resync技术的三数据中心容灾解决方案来为其核心业务应用提供最强大的数据保护。 事实上,CIECC的核心业务系统早在三年前就采用了HDS公司的存储产品(9980V),双方从此开始了良好的合作。从2005年初一直到2006年底的前后约一年半时间。HDS 团队全程参与了为CIECC进行业务影响分析、容灾计划定制、容灾架构设计、SAN架构

容灾方案(模板)

XXX容灾方案

正文目录 1简介 (1) 1.1容灾方案设计原则 (1) 1.2考虑的灾难情形 (1) 2容灾整体架构设计 (1) 3容灾资源要素需求分析 (3) 3.1数据备份系统 (3) 3.2备份数据处理系统 (3) 3.3备用网络系统 (3) 3.4备用基础设施 (3) 3.5专业技术能力 (3) 3.6运行维护管理能力 (3) 3.7灾难恢复预案 (4) 4实现容灾资源要素需求的建议方案 (4) 4.1容灾系统技术方案 (4) 4.2备用基础设施选择方案 (4) 4.3运行能力建议方案 (4)

图表目录 图表 1 灾难恢复等级 (2)

1简介 1.1容灾方案设计原则 容灾设计所考虑的主要原则作简要描述。可以参考以下内容: 1)以高层访谈结果作为灾备策略选择的指导原则; 2)以业务影响分析作为灾备策略选择的重要依据; 3)以应用影响分析整理灾备方案的需求; 4)以“由分至合”的方式来设计灾难备份的整体方案。 同时,我们也将遵循以下通用的IT架构设计原则: 1)开放性原则:系统符合开放性设计原则,具备优良的可扩展性、可升级性和灵活 性,对现有技术具有普适能力,可以广泛支持开放系统平台,运行于现有或即将 成为标准的各种相关技术标准上。 2)兼容性原则:与现有系统需要完全兼容,各个构成子系统必须紧密衔接,高度集 成,构成有机的整体,同时大大降低系统维护的复杂性。 3)安全性原则:确保应用系统的安全运行和故障恢复机制。 4)稳定性原则:要保证系统的稳定性和可行性,使系统的运行风险降至最低。 5)可管理性原则:可以对系统进行集中管理和监控。 6)保护原有投资原则:本地备份与同城灾备系统建设必须充分利用原有的资源,如 中心机房升级后置换下来的服务器,从而避免重复原有投资。 7)经济性原则:在满足所有需求的前提下,选择最合适的设备及管理软件,使系统 具有较好的性能价格比。 1.2考虑的灾难情形 描述该容灾方案所应对的主要灾难情形,这将影响后续的容灾方案的选择。如不考虑区域性灾难,如区域地震等,将可以采用同城灾备的方式。如果考虑区域灾难,则只能选用异城灾备。可以参考以下内容: 本容灾方案所考虑考虑的灾难场景包括: 1)机房内灾难; 2)办公区域大楼灾难; 3)区域性灾难不在本次项目范围之内。 2容灾整体架构设计 对容灾所采用的总体架构作具体描述,可以从下面所描述的6个级别中选择一个级别作为

公司灾备方案

企业灾备需求 某企业众多的业务系统中,由于前期都是分批进行搭建,每年产品选型也都有变化,业务系统的主机包括windows、linux、unix系统,存储产品也包括了IBM、EMC、HDS等,在面临众多产品及不同的生产环境时,灾备的需求需要进行细致的分析,其中包括以下几个步骤: 1、灾备咨询 2、容灾技术选型 3、生产系统整合 4、灾备系统投产 5、演练 1.1.1 灾备咨询 建设初期需要对生产系统进行全面的调研,不仅仅包括硬件信息的收集,更包括业务风险分析,业务关联性分析等。 通过对现有系统数据的收集,充分分析现有生产系统面临的挑战,以及生产中心所处位置的地理、天气、社会环境进行充分的分析,最终对同城灾备中心及异地灾备中心的选址给出合理的咨询交付物。 业务关联性分析方面需要跟业务部门进行沟通,梳理出关联业务的数据流向和数据依赖性,用来确认容灾最终的范围及重要程度,避免因为某些特定关联业务的梳理不到位,导致核心应用因为关联性问题,容灾级别降低或灾备项目建设失败情况的发生。 1.1.2 关键技术的选型 近几年来,容灾已经成为信息数据中心建设的热门课题。很多容灾技术也快速发展起来,对用户来说也有很广阔的选择余地。由于容灾方案的技术复杂性和多样性,一般用户很难搞清其中的优劣以确定如何选择最适合自己状况的容灾解决方案。下面就容灾建设中的备份及复制技术做一个深入探讨,最终为本次容灾中的各系统选择适合的容灾方式。

容灾系统要求生产中心和灾备中心同时工作,生产中心和灾备中心之间有传输链路连接。数据自生产中心实时复制传送到灾备中心。在此基础上,可以在应用层进行集群管理,当生产中心遭受灾难出现故障时可由灾备中心接管并继续提供服务。 和数据备份相比,数据复制技术具有实时性高、数据丢失少或零丢失、容灾恢复快、投资较高等特点。 但是数据复制技术不能代替数据备份技术,因为数据复制技术保证的是两地的数据一致及完整,但是他不能避免因为人员误操作、病毒或其他方式带来的数据丢失或破坏,所以就算有了完整的数据复制技术,也不能放弃数据备份。 根据数据复制的层次,数据复制技术的实现可以分为三种:存储系统层数据复制、操作系统数据复制和数据库数据复制。 数据复制技术的比较 下面对数据复制的三种技术做一个简单比较:

模板3_系统容灾解决方案

容灾基本概念 容灾是一个范畴比较广泛的概念,广义上,我们可以把所有与业务连续性相关的内容都纳入容灾。容灾是一个系统工程,它包括支持用户业务的方方面面。而容灾对于IT而言,就是提供一个能防止用户业务系统遭受各种灾难影响及破坏的计算机系统。容灾还表现为一种未雨绸缪的主动性,而不是在灾难发生后的“亡羊补牢”。 从狭义的角度,我们平常所谈论的容灾是指:除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点受到破坏时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达到更高的可用性,许多用户甚至建立多个冗余站点。 容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。 要实现容灾,首先要了解哪些事件可以定义为灾难?典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等;还有其它如原提供给业务运营所需的服务中断,出现设备故障、软件错误、网络中断和电力故障等等;此外,人为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和病毒袭击等。现阶段,由于信息技术正处在高速发展的阶段,很多生产流程和制度仍不完善,加之缺乏经验,这方面的损失屡见不鲜。 容灾的七个层次 等级1: 被定义为没有信息存储的需求,没有建立备援硬件平台的需求,也没有发展应急计划的需求,数据仅在本地进行备份恢复,没有数据送往异地。这种方式是成本最低的灾难恢复解决方案,但事实上这种恢复并没有真正达到灾难恢复的能力。 一种典型等级1方式就是采用本地磁带库自动备份方案,通过制定相关的备份策略,可以实现系统等级1备份。 等级2: 是一种为许多站点采用的备份标准方式。数据在完成写操作之后,将会送到远离本地的地方,同时具备有数据恢复的程序。在灾难发生后,在一台未启动的计算机上重新完成。系统和数据将被恢复并重新与网络相连。这种灾难恢复方案相对来说成本较低,但同时有难以管理的问题,即很难知道什么样的数据在什么样的地方。这种情况下,恢复时间长短依赖于何时硬件平台能够被提供和准备好。 典型方式就是将数据备份到本地磁带介质上,然后通过运输方式(如“卡车”)将备份介质送往异地保存,而异地没有主机系统。当灾难发生时,再使用新的主机,利用数据备份介质(磁带)将数据恢复起来。 等级3: 相当于等级2再加上具有热备份能力站点的灾难恢复。热备份站点拥有足够的硬件和网络设备去支持关键应

陕西BSC容灾备份及无线专业红橙黄_蓝应急预案现_场演练总结报告

陕西BSC容灾备份及无线网红橙黄蓝应急预案现场 演练总结报告 一、检查组成员 组长:王粟(集团公司网络部网络监控处) 无线专业专家:王玉国(浙江公司网络优化中心) 传输专业专家:张晓琳(辽宁公司网络管理中心) 二、BSC容灾备份演练 演练时间:2011年7月13日00:00-4:30 抽查网元:陕西西安BSC102 网元信息:西安BSC102覆盖西安市长安区大学城区域,下挂基站16个,均为被容灾基站,载波345套,其中VVIP基站3个,VIP基站3个,普通容灾基站10个。被容灾基站主要覆盖财经学院和培华学院等话务密集的区域,符合集团关于被容灾基站选择原则的要求。 演练内容:西安BSC102出现故障宕机,按照该BSC既定的容灾备份方案,紧急将其下辖的被容灾基站割接至西安BSC151下。 演练过程: 00:00,现场演练检查组长通知监控人员西安BSC102发生“宕机” 故障,陕西公司网管中心监控组值班长将该演练故障按照省内重大故障级别上报,并通知应急人员到场。 0:25,网络部、网管中心主管领导到场、西安分公司应急人员到现场,省内正式启动容灾备份应急倒换方案。 0:25,开始进行BSC102网管数据备份输出,并开始目标BSC网管

数据制作和交换侧数据制作;同时,依照VVIP-VIP-普通基站顺序进行传输跳线布放。 0:55,利用机房应急跳线完成预定应急电路割接。 1:03,首个VIP基站激活。 1:20,全部VIP及VVIP基站激活。 1:30,开始VIP及VVIP基站下的拨打测试;经验证,语音及数据业务均正常。 2:20,另外10个普通基站激活成功。 2:25,开始普通基站下的DT及CQT拨打测试,经验证,语音及数据业务均正常。 2:55,启动被容灾基站的倒回操作。 4:30,完成所有被容灾基站的倒回操作,业务验证正常。 演练小结: 按照既定的“容灾备份”现场演练检查方案,检查组在审核完陕西公司的BSC容灾备份应急预案后,首先对BSC核心机房进行了检查,机房内具备一定比例的应急跳线,应急DDF端口有醒目标识,符合检查办法中的相关要求。 演练当晚在规定时限内完成了VIP及普通被容灾基站的应急割接,从BSC模拟宕机到被容灾基站完全割接至容灾BSC,共割接基站16个,历时1小时55分钟,其中VVIP、VIP基站6个,历时55分钟;并于4点30分前完成了被容灾基站及业务的正常倒回。演练共历时4小时30分,基本实现了BSC容灾备份的演练目标。

相关主题
相关文档
最新文档