数据中心与信息系统灾难恢复
服务器系统备份与灾难恢复方案

服务器系统备份与灾难恢复方案在当今数字化的时代,服务器系统对于企业和组织的正常运营至关重要。
然而,服务器系统面临着各种各样的风险,如硬件故障、软件错误、病毒攻击、自然灾害等。
为了保障服务器系统的稳定运行,保护数据的安全和完整性,制定一套完善的服务器系统备份与灾难恢复方案是必不可少的。
一、备份策略1、全量备份全量备份是将服务器系统的所有数据,包括操作系统、应用程序、数据库、配置文件等,进行完整的备份。
全量备份的优点是恢复速度快,操作简单,缺点是备份时间长,占用存储空间大。
建议定期进行全量备份,如每周一次。
2、增量备份增量备份是只备份自上次备份以来更改的数据。
增量备份的优点是备份时间短,占用存储空间小,缺点是恢复时需要依赖之前的备份,恢复过程相对复杂。
建议每天进行增量备份。
3、差异备份差异备份是备份自上次全量备份以来更改的数据。
差异备份的优点是恢复时只需要上次的全量备份和最近的一次差异备份,恢复速度较快,缺点是占用存储空间比增量备份大。
建议每隔几天进行一次差异备份。
二、备份介质1、磁带磁带是一种传统的备份介质,具有容量大、成本低、可离线保存等优点。
但磁带的读写速度较慢,可靠性相对较低。
2、硬盘硬盘作为备份介质具有读写速度快、可靠性高的优点。
可以使用内部硬盘、外部硬盘或网络存储(NAS)等。
3、光盘光盘的优点是保存时间长、成本低,但容量较小,不适合大规模数据备份。
4、云存储云存储是将备份数据存储在云端,具有高可用性、扩展性强等优点。
但需要注意数据隐私和网络带宽等问题。
三、备份时间备份时间的选择应尽量避免对服务器系统的正常运行造成影响。
一般来说,可以选择在业务低谷期,如夜间或周末进行备份。
同时,要确保备份任务能够在规定的时间内完成,以免影响下一次备份。
四、备份频率备份频率应根据数据的重要性和变更频率来确定。
对于关键数据,如财务数据、客户数据等,应每天进行备份;对于一般数据,可以每周或每月进行备份。
五、灾难恢复策略1、本地恢复在服务器系统出现故障时,如果数据损坏程度较小,可以在本地进行恢复。
数据湖的数据备份与灾难恢复策略(十)

数据湖的数据备份与灾难恢复策略导言如今,数据已经成为企业重要的资产之一。
为了有效地管理和利用数据,许多企业采用了数据湖的概念,将各种结构化和非结构化的数据聚集到一处,形成一个大规模的存储库。
然而,数据湖的数据备份与灾难恢复策略成为了一个非常重要的话题。
本文将分析数据湖的数据备份策略和灾难恢复策略,以帮助企业保护其宝贵的数据资产。
一、数据备份策略数据湖的数据备份策略是确保数据能够在灾难发生时进行恢复的重要一环。
以下是一些常见的数据备份策略:1. 定期全量备份:这是最常见的备份策略之一。
定期进行完全备份,将数据湖的所有数据复制到另一个存储设备中。
这样做的好处是在数据丢失或损坏时,可以通过还原备份来恢复数据。
然而,全量备份需要大量的存储空间和时间,尤其是对于大规模数据湖来说,这可能需要很长时间。
2. 增量备份:与全量备份相比,增量备份只备份自上次备份以来发生改变的数据。
这可以减少备份所需的存储空间和时间。
增量备份常与全量备份结合使用,以实现更有效的备份策略。
3. 异地备份:将备份数据存储到远程地点,以防止主数据中心的灾难。
这可以是物理备份到远程数据中心,也可以是通过云服务提供商进行虚拟备份。
异地备份是确保数据湖的数据在灾难情况下能够恢复的重要保障。
二、灾难恢复策略除了备份策略,数据湖还需要灾难恢复策略,以保证数据在灾难发生后能够尽快恢复。
以下是一些常见的灾难恢复策略:1. 灾难恢复计划:制定一个详细的灾难恢复计划是至关重要的,这包括备份数据的恢复顺序、恢复时间目标等。
灾难恢复计划应该经过测试和验证,以确保在发生灾难时能够顺利执行。
2. 冗余备份:除了主要的备份之外,还应该保留一些冗余备份。
这些备份可以分布在多个地点,并采用不同的备份策略。
这样可以确保即使某个备份出现问题,仍然有其他备份可供恢复。
3. 混合云方案:将数据湖分布在多个云服务提供商的环境中,可以提高灾难恢复的弹性和可靠性。
通过在不同的云环境中存储备份数据,可以减少单个云服务提供商发生故障的风险。
智慧城市数据中心容灾解决方案

智慧城市数据中心容灾解决方案在当今数字化快速发展的时代,智慧城市的建设已成为城市发展的重要趋势。
而智慧城市的核心支撑——数据中心,其稳定运行和数据安全至关重要。
一旦数据中心遭遇灾难,如火灾、水灾、电力故障、网络攻击等,可能导致城市的各项关键服务瘫痪,给居民生活和城市运行带来极大的困扰和损失。
因此,构建一套有效的智慧城市数据中心容灾解决方案是保障城市可持续发展的关键。
一、智慧城市数据中心面临的灾难风险1、自然灾害地震、洪水、飓风等自然灾害可能直接损坏数据中心的物理设施,导致电力中断、网络中断和设备损坏。
2、人为灾害火灾、爆炸、恐怖袭击等人为灾害也会对数据中心造成毁灭性的影响。
3、技术故障硬件故障、软件错误、系统崩溃等技术问题可能导致数据丢失或服务中断。
4、网络攻击黑客攻击、病毒感染、数据泄露等网络安全威胁日益严重,可能使数据中心陷入瘫痪。
二、容灾解决方案的目标和原则1、目标确保在发生灾难时,数据中心能够迅速恢复关键业务的运行,减少数据丢失和业务中断的时间,保障城市服务的连续性。
2、原则(1)全面性:考虑到各种可能的灾难场景,制定综合性的应对策略。
(2)及时性:在最短的时间内恢复业务运行,减少损失。
(3)可靠性:容灾方案要经过充分的测试和验证,确保其在关键时刻能够可靠运行。
(4)经济性:在满足容灾需求的前提下,控制成本,提高资源利用率。
三、容灾解决方案的技术手段1、数据备份与恢复(1)定期进行全量和增量数据备份,将数据存储在异地的备份设施中。
(2)采用磁带、磁盘、云端等多种备份介质,提高备份的灵活性和可靠性。
(3)建立快速的数据恢复机制,确保在灾难发生后能够迅速恢复数据。
2、冗余设计(1)网络冗余:构建多条网络链路,采用冗余的路由器和交换机,确保网络的可靠性。
(2)电力冗余:配备多路市电接入、UPS(不间断电源)和备用发电机,保证电力供应的连续性。
(3)服务器冗余:采用集群技术、负载均衡等手段,确保服务器的高可用性。
数据中心灾难恢复预案

数据中心灾难恢复预案第一章灾难恢复预案概述 (3)1.1 概述 (3)1.2 编写目的 (3)1.3 适用范围 (3)第二章灾难恢复组织架构 (4)2.1 组织架构 (4)2.2 职责划分 (4)2.3 沟通协调 (5)第三章灾难风险识别与评估 (5)3.1 风险识别 (5)3.1.1 目的 (5)3.1.2 方法 (5)3.1.3 内容 (6)3.2 风险评估 (6)3.2.1 目的 (6)3.2.2 方法 (6)3.2.3 内容 (6)3.3 风险等级划分 (6)第四章灾难恢复策略 (7)4.1 恢复目标 (7)4.2 恢复策略 (7)4.3 恢复时间要求 (8)第五章数据备份与恢复 (8)5.1 数据备份策略 (8)5.1.1 备份范围 (8)5.1.2 备份类型 (8)5.1.3 备份频率 (8)5.1.4 备份方式 (8)5.2 数据恢复流程 (9)5.2.1 数据恢复条件 (9)5.2.2 数据恢复步骤 (9)5.2.3 数据恢复优先级 (9)5.3 备份存储管理 (9)5.3.1 存储设备管理 (9)5.3.2 备份介质管理 (9)5.3.3 备份策略调整 (9)第六章硬件设备恢复 (9)6.1 硬件设备清单 (9)6.2 设备恢复流程 (10)6.3 设备维护保养 (11)第七章网络恢复 (11)7.1.1 网络拓扑结构 (11)7.1.2 网络设备 (11)7.1.3 网络协议 (11)7.2 网络恢复流程 (12)7.2.1 网络故障分类 (12)7.2.2 网络故障检测 (12)7.2.3 网络恢复步骤 (12)7.3 网络安全策略 (12)7.3.1 防火墙策略 (12)7.3.2 入侵检测与防御 (12)7.3.3 安全审计 (13)7.3.4 数据加密 (13)7.3.5 安全备份 (13)第八章应用系统恢复 (13)8.1 应用系统清单 (13)8.1.1 目的 (13)8.1.2 清单内容 (13)8.1.3 清单管理 (13)8.2 应用系统恢复流程 (13)8.2.1 恢复流程启动 (13)8.2.2 恢复流程步骤 (14)8.2.3 恢复流程监控 (14)8.3 应用系统测试与验证 (14)8.3.1 测试目的 (14)8.3.2 测试方法 (14)8.3.3 测试周期 (15)第九章人员培训与演练 (15)9.1 培训计划 (15)9.1.1 培训目的 (15)9.1.2 培训对象 (15)9.1.3 培训内容 (15)9.1.4 培训方式 (15)9.1.5 培训周期 (15)9.2 演练方案 (15)9.2.1 演练目的 (15)9.2.2 演练类型 (15)9.2.3 演练频率 (16)9.2.4 演练流程 (16)9.3 演练评估与改进 (16)9.3.1 评估内容 (16)9.3.2 评估方法 (16)9.3.3 改进措施 (16)第十章灾难恢复预案管理 (17)10.1.1 修订原则 (17)10.1.2 修订流程 (17)10.1.3 更新周期 (17)10.2 预案发布与宣传 (17)10.2.1 发布范围 (17)10.2.2 发布方式 (17)10.2.3 宣传培训 (18)10.3 预案实施与监督 (18)10.3.1 实施责任 (18)10.3.2 监督机制 (18)第一章灾难恢复预案概述1.1 概述灾难恢复预案是数据中心应对突发性灾难事件,保证业务连续性和数据安全的重要文件。
数据中心灾难恢复的重要参考指标:RTO和RPO

数据中⼼灾难恢复的重要参考指标:RTO和RPO⽤来描述和评价数据中⼼有很多专有参数和指标,通过这些数据可以反映出数据中⼼的各种运⾏状态,其中有两个关键指标必须有所了解:RTO和RPO。
⽤来描述和评价数据中⼼有很多专有参数和指标,通过这些数据可以反映出数据中⼼的各种运⾏状态,其中有两个关键指标必须有所了解:RTO和RPO。
RTO和RPO是数据中⼼灾难恢复⽅⾯的重要参考指标。
现在的数据中⼼对业务的连续性有苛刻要求,但是故障不可避免,⼀旦发⽣了故障就需要启动备份机制,确保业务的连续性,所以现在数据中⼼都有较为完善的容灾机制,RTO和RPO可以很好地反映出数据中⼼容灾性能如何。
这两个参数是数据中⼼在运维过程中,⼀定要重点关注的指标。
这个指标的好与差,是基于数据中⼼现有的各种综合运⾏情况评估得出的真实结果,反映当前数据中⼼在灾难恢复⽅⾯的修复能⼒。
下⾯让我们来详细认识⼀下这两个参数的真⾯⽬。
RTORTO(RecoveryTimeObjective,复原时间⽬标)是数据中⼼可容许服务中断的时间长度。
⽐如说服务发⽣后半天内便需要恢复,RTO数值就是⼗⼆⼩时。
RTO具体时间长短只是从故障发⽣后,从数据中⼼系统宕机导致应⽤停顿之刻开始,到数据中⼼系统恢复⾄可以⽀持各部门运作之时,此两点之间的时间段。
RTO是反映数据中⼼业务恢复的及时性指标,表⽰业务从中断到恢复正常所需的时间,RTO数值越⼩,代表容灾系统的数据恢复能⼒越强,数据中⼼可以部署很多容灾系统,来获取最⼩的RTO,但这意味着投⼊⼤量资⾦。
提升RTO的常⽤技术有:磁带恢复、⼈⼯迁移、应⽤系统远程切换,这⼏种技术的RTO的表现如表1所⽰:部署不同的容灾技术将获得不同的RTO值,从业务连续性⾓度考虑,肯定希望RTO数值越⼩越好,尤其是很多互联⽹数据中⼼,中断⼏分钟都会损失数百万的成交量,这些数据中⼼往往不惜⼀切代价要确保数据中⼼不中断运⾏。
应⽤系统的⾃动切换涉及到数据中⼼⽹络、、存储等多⽅⾯的技术,不管数据中⼼任何⼀个位置出现了故障,这些部分都会启动软件系统进⾏切换,可以是设备之间的切换,也可能是集群之间的切换,还可能是异地数据中⼼切换,通过应⽤系统⾃动切换将业务转移到其它正常的系统中,然后再对故障设备进⾏排查。
信息灾难恢复实验报告(3篇)

第1篇一、实验背景随着信息技术的飞速发展,信息系统的稳定性和安全性日益受到重视。
然而,由于自然灾害、人为错误、恶意攻击等原因,信息系统仍可能遭受灾难性破坏,导致数据丢失、系统瘫痪,从而对企业和个人的工作生活造成严重影响。
为了提高信息系统的抗灾能力,确保在灾难发生时能够迅速恢复,本实验旨在通过模拟信息灾难,测试和验证信息灾难恢复方案的有效性。
二、实验目的1. 理解信息灾难恢复的基本概念和原理。
2. 掌握信息灾难恢复方案的制定和实施方法。
3. 通过实验验证信息灾难恢复方案的有效性。
4. 提高对信息系统安全性的认识,增强灾难防范意识。
三、实验内容1. 信息灾难模拟- 模拟场景:选择一个典型的信息系统,如企业内部网络、数据中心等,模拟自然灾害(如地震、洪水)、人为错误(如误删除文件)、恶意攻击(如病毒感染)等灾难性事件。
- 模拟方法:利用网络攻击工具、虚拟机软件等手段,模拟上述灾难性事件。
2. 信息灾难恢复方案制定- 分析信息系统的关键业务和数据,确定恢复重点。
- 制定数据备份策略,包括备份频率、备份介质、备份存储位置等。
- 制定系统恢复策略,包括恢复顺序、恢复方法、恢复时间等。
- 制定人员职责和应急响应流程。
3. 信息灾难恢复方案实施- 按照恢复方案,进行数据备份和系统恢复操作。
- 监控恢复过程,确保恢复效果。
4. 信息灾难恢复效果评估- 评估恢复时间,与恢复方案中设定的目标时间进行对比。
- 评估恢复质量,确保关键业务和数据得到有效恢复。
- 分析恢复过程中存在的问题,为后续改进提供依据。
四、实验结果与分析1. 信息灾难模拟- 模拟过程中,成功模拟了自然灾害、人为错误、恶意攻击等灾难性事件,验证了实验场景的合理性。
2. 信息灾难恢复方案制定- 根据信息系统的实际情况,制定了合理的恢复方案,包括数据备份策略、系统恢复策略、人员职责和应急响应流程。
3. 信息灾难恢复方案实施- 按照恢复方案,成功进行了数据备份和系统恢复操作,验证了恢复方案的有效性。
数据中心管理中的灾难备份与紧急恢复方法(一)

数据中心是企业运营中至关重要的组成部分,负责存储和处理大量的敏感信息和业务数据。
然而,由于硬件故障、自然灾害、黑客攻击等不可预测的事件,数据中心的连续性和安全性面临着巨大挑战。
因此,灾难备份和紧急恢复方法成为数据中心管理中至关重要的一环。
1. 数据备份与灾难恢复的重要性在数据中心管理中,灾难备份与紧急恢复方法是确保业务连续性和数据安全性的关键措施。
数据备份是指将关键数据的副本存储在多个位置,以防止数据丢失。
紧急恢复则是指在发生灾难事件后,迅速恢复业务运行并恢复数据。
这两者相辅相成,为数据中心提供了可靠的保障。
2. 灾难备份策略灾难备份策略包括完整备份、增量备份和差异备份。
完整备份是指将整个数据集备份到外部存储设备,需要较大的存储容量和时间。
增量备份则是只备份自上次完整备份以来发生的数据变化,减少了备份时间和存储空间的占用。
差异备份则是备份自上次完整备份以来发生的数据差异,比增量备份更加灵活,但需要更多的计算资源。
3. 灾难恢复方法灾难恢复方法包括冷备份、热备份和温备份。
冷备份是指将备份数据存储在离线存储介质中,一旦发生灾难事件,需要将备份数据还原到主要服务器中才能恢复业务。
热备份则是在备份服务器上实时备份数据,当主要服务器故障时,可以立即切换到备份服务器,保证业务连续性。
温备份则是将备份数据存储在近线存储介质中,数据可以更快地还原到主要服务器中,提供更快速的灾难恢复。
4. 多点备份与异地备份为了进一步提高数据中心的可靠性和安全性,多点备份和异地备份是常用的策略。
多点备份是指将备份数据存储在不同的位置,以防止单点故障。
异地备份则是将备份数据存储在物理上分离的地理位置,一旦发生本地灾难,可以从异地还原数据。
这两种方法可以有效地减少数据丢失的风险和灾难对业务的影响。
5. 灾难演练和定期更新灾难备份与紧急恢复方法并非一成不变的,企业需要定期进行灾难演练和测试。
通过模拟真实的灾难情景,可以检验备份和恢复方案的可行性和有效性。
云计算在灾难恢复计划中的角色

云计算在灾难恢复计划中的角色在当今数字化的时代,企业和组织对于信息技术的依赖程度日益加深。
然而,各种自然灾害、人为失误、网络攻击等不可预见的灾难事件随时可能发生,给业务运营带来严重的破坏和中断。
为了应对这些潜在的威胁,制定有效的灾难恢复计划至关重要。
在这个过程中,云计算正逐渐成为一个不可或缺的角色,为企业提供了更强大、更灵活和更经济高效的灾难恢复解决方案。
首先,我们需要明确什么是灾难恢复计划。
简单来说,灾难恢复计划是一套预先制定的策略和流程,旨在当灾难发生时,能够迅速恢复关键业务功能和数据,将损失降到最低,并确保业务的连续性。
这个计划通常包括数据备份、备用设施的准备、人员的培训和协调等多个方面。
那么,云计算在灾难恢复计划中到底扮演了怎样的角色呢?其一,云计算提供了强大的数据备份和存储能力。
传统的数据备份方式往往受到物理存储设备容量和地理位置的限制,而且维护成本较高。
而云计算服务提供商通常拥有大规模的数据中心,可以提供几乎无限的存储空间。
企业可以将数据定期备份到云端,确保数据的安全性和完整性。
此外,云存储还支持自动备份和版本控制,方便在需要时快速恢复到特定的时间点。
其二,云计算实现了快速的资源扩展和弹性部署。
在灾难发生后,业务系统可能需要迅速增加计算资源、存储资源和网络带宽来应对激增的需求。
云计算的弹性计算服务能够在短时间内根据实际需求自动调配资源,避免了传统 IT 架构中因硬件采购和部署周期长而导致的恢复延误。
这种弹性使得企业能够在灾难发生后的最短时间内恢复关键业务系统的运行,减少业务中断的时间。
其三,云计算降低了灾难恢复的成本。
建立传统的灾难恢复设施需要投入大量的资金用于硬件设备采购、场地租赁、维护和人员管理等。
而采用云计算服务,企业只需按照实际使用的资源付费,无需前期的巨额投资。
这大大降低了企业的资金压力,特别是对于中小企业来说,云计算为他们提供了一个经济实惠的灾难恢复选项。
其四,云计算提高了灾难恢复的可靠性和可用性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据中心是集成化的IT应用环境,并且随着业务的整合以及新业务的不断涌现,数据中心变得愈加庞大和复杂,业务数据也变得愈加关键。
任何断电、系统故障和人为操作不当都有可能造成关键数据的丢失,继而造成企业业务的停滞和不可估量的经济损失。
如何应对数据大集中所带来的风险已成为人们关注的重点。
为了应对各种自然灾难(火灾、水灾、地震等)和人为灾难(误操作、病毒等)对企业数据中心的安全和正常运行带来的冲击,近年来,信息系统灾难恢复(通常也称为“灾备”)建设日益受到社会的关注和重视。
信息系统灾难恢复是指将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态而设计的活动和流程。
为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程称为灾难备份。
正常情况下,对生产系统运行进行数据处理和支持关键业务功能运作的场所被称为生产中心。
在灾难发生时接替生产系统运行进行数据处理和支持关键业务功能运作的场所被称为灾难备份中心(简称“灾备中心”),它包括备用的数据处理中心、备用的工作环境、备用的生活设施和技术支持及运行管理人员。
生产中心是信息系统灾难恢复的对象,而灾备中心是信息系统灾难恢复的基础,生产中心和灾备中心是数据中心的不同形态,而数据中心则是信息系统灾难恢复的载体。
对于那些高度依赖其信息系统运作的行业和企业而言,为保障信息系统安全稳定运行,人们采用了从技术、管理直至备份等诸方面的措施。
其中数据中心基础设施是保障信息系统安全运行最重要的基础。
从国际行业经验来看,大部分引发信息系统灾难的事件完全可以通过加强数据中心基础设施建设及运维管理来消除、或者减轻其不良影响。
因此,对于业务连续性要求较高的行业和企业来说,选择高可用性数据中心作为生产中心和灾备中心是抵御灾难风险,保障业务持续运行的前提和根本。
9.2?数据中心的灾难恢复策略信息系统灾难恢复起源于20世纪70年代,目前在政府、金融、电信、交通、能源、公共服务业以及大型制造、零售业等对信息化依存程度高的行业应用极其广泛。
在震惊世界的“9?11”恐怖事件发生以后,“灾难恢复”更是成为全球性的信息化课题,即在政府或企业的数据中心遭遇自然灾难或人为侵害时,启用同城或异地建立的备份数据中心提供不间断的数据信息服务,从而保证政府或企业的业务连续性。
根据战略与业务需求的不同,灾难恢复基础设施可采用同城或异地两种布局方式。
同城方式是指生产中心与灾备中心处于同一地理区域,面临同一区域性灾难风险,一般距离在20~100km以内。
异地方式是指生产中心与灾备中心处于不同地理区域,通常不会同时面临同一区域性灾难风险,一般距离在数百公里以上。
在同城方式下,用于数据保护及应用访问的网络使用费用相对较低,用户灾难恢复响应及业务恢复速度较快,但抵御灾难的能力有局限性。
异地方式下,对区域性灾难的防范能力较强,但用于数据保护及应用访问的网络使用费用较高,用户灾难恢复响应及业务恢复速度相对较慢。
数据中心的灾难恢复解决方案取决于对生产中心及业务的风险分析和业务影响分析,根据分析的结果确定灾难恢复目标,尤其是恢复时间目标(RTO)和恢复点目标(RPO),进而选择同城、异地或同城加异地的灾难恢复策略。
9.3?灾备中心对数据中心的特殊要求灾备中心是以最高的可靠性和可用性为标准建设的,具备数据实时备份、冗余处理能力和网络传输条件,能够在主数据中心(生产中心)面临灾难无法正常运作的时候提供替代服务,对业务系统进行紧急恢复。
灾备中心和生产中心(包含互联网数据中心)都属于数据中心,都是对数据设备集中存放和管理的场所,在基础设施的要求上很多相同之处,有时两者能够同时设置在同一建筑体中,但服务对象和业务内容不尽相同,特别是在辅助配套设施方面存在极大的差异。
数据中心在选址时通常需要远离加油站等易燃易爆场所,远离粉尘、强振动源和强电磁辐射源,选择交通通信方便、配套设施齐全、自然环境和地质条件良好的地方,从而有利于保证设备的安全运行,减少周围环境对其设备的危害,这是生产中心和灾备中心在选址时的共同点。
在选择或建设灾备中心时,应根据风险分析的结果,避免灾备中心与生产中心同时遭受同类风险。
灾备中心还应具有方便灾难恢复人员或设备到达的交通条件,以及数据备份和灾难恢复所需的通信和电力等资源。
灾备中心的选址应遵循以下主要原则。
1. 策略性首先,明确灾备中心的定位,即灾备中心的建设目的是防范什么样的灾难事件,在灾难发生时又能够提供何种服务。
根据定位的不同,在选址时应采取不同的策略,例如,灾备中心若想在局部战争条件下提供服务,在选址时就不能靠近军事目标或准军事目标等。
此外,应充分考虑物理安全性,避免建于闹市区,通常适宜建在郊区。
2. 风险性在选择或建设灾备中心时,应当充分考虑备选场址包含的风险是否在可容忍的范围之内,是否符合灾难恢复规划或业务连续计划的具体要求。
例如,生产中心与灾备中心之间应当保持一个安全距离,必须避免因同一灾难导致两个中心同时处于灾难事件当中的可能性。
又如,应选择独立的数据中心建筑物,有效隔离灾备中心与周边的建筑。
确保周边建筑发生火灾或其他紧急情况时,不会影响到灾备中心的安全。
此外,灾备中心应当确保与生产中心不在同一灾难风险区域,以规避灾难风险。
3. 科学性选择或建设灾备中心时,应对备选场址进行相关的场地风险评估,科学和全面地评价备选场址。
4. 适合性对于选定的场址而言,首先应符合《电子计算机场地通用规范》(GB/T 2887—2000)的要求;其次还要关注场址周边环境、地质地理条件、市政配套条件、电力供应条件以及通信服务商所能提供的服务能力等诸多因素,全面判断是否符合灾备中心的建设要求。
5. 便捷性对于灾备中心,其周边应有多条道路用于保证相关人员和物资能够顺利和快速到达。
例如,要求有2条或2条以上从机场到达灾备中心的道路,时间限制在1小时内。
确保主数据中心发生灾难时,相关业务专家和IT工程师能够迅速赶到灾备中心现场,实施恢复业务。
从基础设施功能分区的角度考虑,生产中心和灾备中心都应当配置IT设备区、监控室、UPS室、会议室、其他设备用房、客户接待区、客户操作区、客户测试室和客户休息室等。
由于灾备中心需要为客户提供灾难发生时进行紧急恢复的工作空间,还应包括指挥中心室、新闻发布厅、VIP办公室、介质储存室和问题解决室等。
指挥中心室作为灾备中心的总控中心,实时反映灾备中心的运营状况,采用多方位自动化信息集中处理及多媒体信息展示方式,对灾备中心进行集中监控管理。
在客户较多的情况下,可以单独设立问题解决室作为客户各自的总控中心,通过带内和带外两种方式连接客户设备区域。
而新闻发布厅则是客户在灾难发生时或者灾难恢复后的新闻发布场所。
下面将简要介绍灾备中心基础设施涵盖的范围和基础设施规划原则。
1. 灾备中心基础设施涵盖的范围灾备中心是灾难恢复所需的、支持灾难备份系统运行的场所,包括介质的场外存放场所、备用的机房及工作辅助设施,以及允许灾难恢复人员连续停留的生活设施。
按照工作性质可分为工作设施、辅助设施和生活设施三个部分见表9-1。
表9-1 灾备中心基础设施分类2. 灾备中心基础设施规划原则(1) 经济性。
根据灾难恢复或业务连续计划的需求不同,选择或建设灾备中心时应根据实际情况给出适当的基础设施规划,降低成本。
(2) 空间性。
根据灾难恢复或业务连续计划的需求和面临的风险不同,针对灾备中心的特点应当预留足够空间,避免由于预留空间不足影响到灾备中心的正常运行。
例如,由于货运通道过于狭窄导致某些特定设备不能顺利搬运。
(3) 可靠性。
根据灾备中心的特点,规划时应注重基础设施的可靠性,尽量避免由于单点故障造成的风险。
(4) 低调性。
应考虑周边环境,不宜采用比较醒目的方式强调灾备中心,避免在特定条件下成为公众普遍关注的焦点,应采用融入周边环境的方式。
(5) 合理性。
应充分考虑各类设施之间的相互关系,合理布置并预留足够的扩展空间。
(6) 管理性。
应注重采用易于管理的技术或方法,提高灾备中心的工作效率,增强管理能力。
维管理要求灾难恢复业务的特殊性为灾备中心的日常运营管理带来了与众不同的挑战,具体包括:1. 7×24×365的要求由于大多数灾难的发生是无法预知的,作为灾备中心必须能够提供7×24×365不间断的灾难恢复服务,确保灾难事件发生后有足够的能力支持业务恢复。
如何能使灾备中心的工作人员时刻保持高度的责任心和敏感度去面对每一项日常工作,使企业的服务水平在一年的每分每秒都能保持同样的水平,这是灾备中心管理层所关注的一个主要问题。
2. “小概率、高风险”的管理要求由于灾难事件的发生属于小概率事件,因而真正能够使用到灾备中心的概率很小。
如何在平时几乎不使用的情况下,仅依靠日常的严格管理就能确保所有服务的可用性,则是灾备中心管理的另一个难点。
3. “演练为主,实操为辅”的日常管理要求如前所述,灾备中心的启用本身就是一个小概率事件,兼之在业务连续管理中有一个重要的原则就是要对业务连续计划经常演练。
因此,日常管理中应当经常采用各种各样的方式,使灾备中心的人员投入到不同的场景当中。
通过这种经常性的演练,让他们熟悉每一项工作的步骤,而且能逐渐适应灾难场境中所带来的各项压力,确保当灾难真正来临时,灾备中心的人员均能按要求完成相关工作。
4. 工作重复性较强由于灾备中心另一个重要的职责就是要确保放置在灾备中心的灾备系统平常的可用性。
因此,灾备中心应习惯于制订详细的设备检查与维护工作计划,然后按每半个小时、1个小时或其他频率实施计划。
5. 质量控制难度较大灾备中心归根到底就是通过日常严格的管理与训练有素的演练,在必要时提供灾难切换服务,能够满足RPO(灾难恢复时间点目标:主要指灾备系统可以恢复至灾难发生前的具体时间点)与RTO(灾难恢复时间目标:主要指利用灾备系统接管生产系统恢复运营所需要的时间)的要求。
保证灾难恢复的有效性是一项非常专业的工作。
灾备中心的运营管理非常复杂,从日常的运维到灾难发生时的应急响应、恢复和回退,是一个专业的、持续运行的过程,如图9-1所示。
图9-1灾备中心运维管理9.4?灾难恢复国家和行业标准规范我国政府十分重视标准在信息系统灾难恢复建设中的规范性和指导性作用。
国务院信息化工作办公室于2005年4月份下发了《重要信息系统灾难恢复指南》(国信办〔2005〕8号),明确了灾难恢复工作的流程、灾难恢复能力的等级划分及灾难恢复预案的制订。
2007年6月14日,《重要信息系统灾难恢复指南》经修订完善后正式成为国家标准《信息安全技术信息系统灾难恢复规范》(GB/T 20988—2007)。