您的位置：360文档中心› 因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复

因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复

合集下载

服务器系统备份与灾难恢复方案

服务器系统备份与灾难恢复方案

服务器系统备份与灾难恢复方案在当今数字化的时代，服务器系统对于企业和组织的正常运营至关重要。

然而，服务器系统面临着各种各样的风险，如硬件故障、软件错误、病毒攻击、自然灾害等。

为了保障服务器系统的稳定运行，保护数据的安全和完整性，制定一套完善的服务器系统备份与灾难恢复方案是必不可少的。

一、备份策略1、全量备份全量备份是将服务器系统的所有数据，包括操作系统、应用程序、数据库、配置文件等，进行完整的备份。

全量备份的优点是恢复速度快，操作简单，缺点是备份时间长，占用存储空间大。

建议定期进行全量备份，如每周一次。

2、增量备份增量备份是只备份自上次备份以来更改的数据。

增量备份的优点是备份时间短，占用存储空间小，缺点是恢复时需要依赖之前的备份，恢复过程相对复杂。

建议每天进行增量备份。

3、差异备份差异备份是备份自上次全量备份以来更改的数据。

差异备份的优点是恢复时只需要上次的全量备份和最近的一次差异备份，恢复速度较快，缺点是占用存储空间比增量备份大。

建议每隔几天进行一次差异备份。

二、备份介质1、磁带磁带是一种传统的备份介质，具有容量大、成本低、可离线保存等优点。

但磁带的读写速度较慢，可靠性相对较低。

2、硬盘硬盘作为备份介质具有读写速度快、可靠性高的优点。

可以使用内部硬盘、外部硬盘或网络存储（NAS）等。

3、光盘光盘的优点是保存时间长、成本低，但容量较小，不适合大规模数据备份。

4、云存储云存储是将备份数据存储在云端，具有高可用性、扩展性强等优点。

但需要注意数据隐私和网络带宽等问题。

三、备份时间备份时间的选择应尽量避免对服务器系统的正常运行造成影响。

一般来说，可以选择在业务低谷期，如夜间或周末进行备份。

同时，要确保备份任务能够在规定的时间内完成，以免影响下一次备份。

四、备份频率备份频率应根据数据的重要性和变更频率来确定。

对于关键数据，如财务数据、客户数据等，应每天进行备份；对于一般数据，可以每周或每月进行备份。

五、灾难恢复策略1、本地恢复在服务器系统出现故障时，如果数据损坏程度较小，可以在本地进行恢复。

服务灾难恢复方案

服务灾难恢复方案

服务灾难恢复方案服务灾难恢复方案是指在出现服务中断、数据丢失、系统崩溃等突发情况下，采取一系列措施和步骤，及时快速地恢复服务正常运行，确保业务的连续性和可用性。

以下是一个比较完整的服务灾难恢复方案，包括预防、应急响应、恢复和后续评估等步骤。

一、预防措施1. 数据备份：定期对关键数据进行备份，并将备份数据存储在安全可靠的地方，如云存储或离线备份设备中。

2. 多机房部署：在多个地理位置建立机房，并将关键系统和数据部署在不同的机房中，避免单点故障。

3. 冗余设备：对关键设备进行冗余设计，如多台服务器、硬盘阵列等，确保一个设备出现故障时能够无缝切换到备用设备。

4. 定期维护：对服务器、网络设备等进行定期维护，包括系统更新、安全补丁安装、硬件检测等，确保系统处于最佳状态。

5. 防护措施：建立完善的防火墙、入侵检测和防护系统，及时发现和应对网络攻击、病毒、恶意软件等安全威胁。

6. 员工培训：对维护和管理系统的员工进行定期培训，提高其对服务灾难的应急处理能力。

二、应急响应步骤1. 事故报告和评估：一旦发生系统故障或服务中断，立即由相关人员报告，并进行初步评估判断事故的严重程度和影响范围。

2. 及时通知：通知相关人员和用户，告知服务中断的情况，并说明预计恢复时间。

3. 应急团队组织：根据事故的具体情况，组建应急团队，包括技术人员、运维人员、客服等，负责事故处理和服务恢复。

4. 故障追踪和诊断：通过日志分析、监控系统等手段，追踪故障原因，并进行全面的系统诊断和故障排查。

5. 临时应对措施：根据故障的具体情况，采取临时措施，如切换至备用系统、恢复备份数据等，以尽快恢复服务。

三、恢复流程1. 故障修复：根据故障原因，进行相应的修复和恢复操作，包括修复硬件故障、恢复被破坏的数据、修复中断的网络连接等。

2. 重建环境：在故障修复后，需要重新搭建正常的运行环境，包括安装操作系统、配置网络、恢复数据等。

3. 系统测试：对恢复后的系统进行全面的功能测试和性能测试，确保系统正常运行和稳定性。

系统崩溃后的故障恢复方法

系统崩溃后的故障恢复方法

系统崩溃后的故障恢复方法当电脑系统突然崩溃时，我们往往会感到慌乱和无助。

尤其是在重要的工作或紧急任务中，系统崩溃可能会导致数据丢失和工作中断，给我们带来巨大的困扰。

但是，不要惊慌，今天我将向大家介绍一些系统崩溃后的故障恢复方法，帮助您尽快从崩溃中恢复，提高工作效率。

1. 检查硬件连接在系统崩溃后，首先检查硬件连接是否松动或插头是否正确连接。

有时候，一个不良的物理连接可能导致系统崩溃。

确保所有的电缆都牢固连接，并且没有损坏或断裂的情况。

2. 重新启动系统如果系统崩溃后屏幕无法显示或没有响应，您可以尝试重新启动系统。

长按电源按钮或拔下电源插头等方法可以强制关机。

然后等待几秒钟，再重新启动电脑。

这种方法在大多数情况下可以解决系统崩溃导致的问题。

3. 进入安全模式如果重新启动后问题依旧存在，您可以尝试进入安全模式。

安全模式是一种只加载最基本驱动和系统服务的模式，可以帮助您排除一些软件或驱动程序冲突的问题。

按下F8或Shift键不放可以进入安全模式。

一旦进入安全模式，您可以尝试恢复系统或卸载最近安装的软件。

4. 使用系统恢复选项现代操作系统通常都提供了系统恢复选项，可以帮助您修复系统崩溃引起的问题。

例如，Windows操作系统提供了“系统还原”功能，可以将系统恢复到之前的某个时间点，以解决崩溃问题。

打开系统恢复选项，按照提示进行操作即可。

5. 备份和恢复数据在崩溃后，数据丢失是我们最担心的问题之一。

因此，在系统崩溃之前，请记得定期备份您的重要数据。

如果发生崩溃，您可以使用备份数据进行恢复，尽量减少数据丢失带来的影响。

6. 寻求专业帮助如果尝试了上述方法后依然无法解决系统崩溃的问题，那么我建议您寻求专业帮助。

请联系您所用电脑的制造商或专业维修服务商，他们会根据具体情况为您提供更准确的解决方案。

总结：当系统崩溃时切不可惊慌，我们可以尝试检查硬件连接、重新启动系统、进入安全模式、使用系统恢复选项或备份和恢复数据等方法来解决问题。

智慧城市数据中心容灾解决方案

智慧城市数据中心容灾解决方案

智慧城市数据中心容灾解决方案在当今数字化快速发展的时代，智慧城市的建设已成为城市发展的重要趋势。

而智慧城市的核心支撑——数据中心，其稳定运行和数据安全至关重要。

一旦数据中心遭遇灾难，如火灾、水灾、电力故障、网络攻击等，可能导致城市的各项关键服务瘫痪，给居民生活和城市运行带来极大的困扰和损失。

因此，构建一套有效的智慧城市数据中心容灾解决方案是保障城市可持续发展的关键。

一、智慧城市数据中心面临的灾难风险1、自然灾害地震、洪水、飓风等自然灾害可能直接损坏数据中心的物理设施，导致电力中断、网络中断和设备损坏。

2、人为灾害火灾、爆炸、恐怖袭击等人为灾害也会对数据中心造成毁灭性的影响。

3、技术故障硬件故障、软件错误、系统崩溃等技术问题可能导致数据丢失或服务中断。

4、网络攻击黑客攻击、病毒感染、数据泄露等网络安全威胁日益严重，可能使数据中心陷入瘫痪。

二、容灾解决方案的目标和原则1、目标确保在发生灾难时，数据中心能够迅速恢复关键业务的运行，减少数据丢失和业务中断的时间，保障城市服务的连续性。

2、原则（1）全面性：考虑到各种可能的灾难场景，制定综合性的应对策略。

（2）及时性：在最短的时间内恢复业务运行，减少损失。

（3）可靠性：容灾方案要经过充分的测试和验证，确保其在关键时刻能够可靠运行。

（4）经济性：在满足容灾需求的前提下，控制成本，提高资源利用率。

三、容灾解决方案的技术手段1、数据备份与恢复（1）定期进行全量和增量数据备份，将数据存储在异地的备份设施中。

（2）采用磁带、磁盘、云端等多种备份介质，提高备份的灵活性和可靠性。

（3）建立快速的数据恢复机制，确保在灾难发生后能够迅速恢复数据。

2、冗余设计（1）网络冗余：构建多条网络链路，采用冗余的路由器和交换机，确保网络的可靠性。

（2）电力冗余：配备多路市电接入、UPS（不间断电源）和备用发电机，保证电力供应的连续性。

（3）服务器冗余：采用集群技术、负载均衡等手段，确保服务器的高可用性。

虚拟化环境中的灾难恢复方案(Ⅰ)

虚拟化环境中的灾难恢复方案(Ⅰ)

在当今信息化时代，虚拟化技术已经成为企业和组织中不可或缺的一部分。

虚拟化环境可以帮助组织提高IT资源利用率、降低成本、简化管理、提高灵活性和可扩展性。

然而，与传统物理环境相比，虚拟化环境也面临着更多的灾难恢复挑战。

本文将探讨虚拟化环境中的灾难恢复方案。

首先，虚拟化环境中的灾难恢复方案需要考虑的是数据备份和恢复。

由于虚拟化环境中存在大量虚拟机，传统的备份和恢复方法可能无法满足需求。

因此，组织需要使用专门针对虚拟化环境的备份解决方案，以确保数据的完整性和可恢复性。

这种备份解决方案通常可以实现增量备份、快速恢复、虚拟机级备份等功能，帮助组织更好地应对灾难。

其次，虚拟化环境中的灾难恢复方案还需要考虑到虚拟化平台的高可用性。

虚拟化平台是支撑整个虚拟化环境的基础设施，一旦出现故障将会对整个环境造成严重影响。

因此，组织需要使用高可用性的虚拟化平台，并配置冗余的硬件和软件，以确保在发生故障时能够快速切换至备用节点，实现对虚拟机的持续运行和服务的可用性。

此外，虚拟化环境中的灾难恢复方案还需要考虑到灾难恢复的测试和演练。

对于虚拟化环境来说，灾难恢复的测试和演练至关重要。

组织需要定期进行灾难恢复演练，以验证备份数据的完整性、恢复过程的可行性和效率，以及整个恢复方案的可靠性。

通过定期的测试和演练，组织可以及时发现和解决潜在的问题，提高灾难恢复的成功率。

最后，虚拟化环境中的灾难恢复方案还需要考虑到跨数据中心的灾难恢复。

对于大型组织来说，单一数据中心的灾难恢复可能无法满足需求。

因此，组织需要在不同地理位置建立多个数据中心，并实现跨数据中心的灾难恢复方案。

这种方案通常需要借助虚拟化技术和网络技术，实现数据的复制和同步，以确保在发生跨数据中心故障时能够快速恢复服务。

总之，虚拟化环境中的灾难恢复方案需要综合考虑数据备份和恢复、虚拟化平台的高可用性、灾难恢复的测试和演练，以及跨数据中心的灾难恢复等方面。

只有做好这些方面的准备和规划，组织才能在发生灾难时快速、有效地恢复服务，最大限度地降低灾难对业务的影响。

服务器虚拟化技术与灾难恢复计划确保业务持续运行的重要步骤

服务器虚拟化技术与灾难恢复计划确保业务持续运行的重要步骤

服务器虚拟化技术与灾难恢复计划确保业务持续运行的重要步骤在现代商业环境中，服务器的安全和稳定运行对于保证业务的连续性和数据的保护至关重要。

服务器虚拟化技术和灾难恢复计划是确保业务持续运行的重要步骤。

本文将探讨服务器虚拟化技术以及如何制定灾难恢复计划来保护服务器和业务。

一、服务器虚拟化技术的应用服务器虚拟化技术是将物理服务器划分为多个虚拟服务器的过程。

每个虚拟服务器可以独立运行操作系统和应用程序，就像独立的物理服务器一样。

服务器虚拟化的一个主要好处是提高了服务器的利用率。

通过将多个虚拟服务器运行在一台物理服务器上，可以减少硬件成本和能源消耗。

另外，服务器虚拟化还提供了更好的灵活性和可伸缩性。

虚拟服务器可以根据需求进行动态调整，从而更好地适应业务的变化。

此外，服务器虚拟化还提供了更好的隔离性，各个虚拟服务器之间互相隔离，一个虚拟服务器的故障不会影响其他虚拟服务器的运行。

二、制定灾难恢复计划的重要性灾难恢复计划是一份详细的文档，规定了在服务器发生灾难性故障时的恢复步骤和措施。

制定灾难恢复计划对于保证业务的连续性和数据的完整性至关重要。

以下列举了制定灾难恢复计划的几个重要原因：1. 风险管理：灾难发生时，没有一个组织是免疫的。

制定灾难恢复计划可以帮助组织最小化潜在的风险和损失。

2. 业务连续性：灾难恢复计划确保业务在服务器故障后能够快速恢复，最大程度地减少停机时间。

3. 数据保护：灾难恢复计划包括了备份和恢复数据的步骤，确保数据的完整性和可靠性。

4. 客户信任：制定灾难恢复计划可以提高客户对组织的信任度。

在灾难发生时，组织能够迅速恢复业务，表明其对于客户数据和服务的承诺。

三、服务器虚拟化技术在灾难恢复计划中的应用服务器虚拟化技术在灾难恢复计划中发挥了关键作用。

以下是服务器虚拟化技术在灾难恢复计划中的应用：1. 虚拟机备份和恢复：利用服务器虚拟化技术，可以对虚拟机进行备份，并在灾难发生时快速恢复。

虚拟机备份可以在物理服务器上运行的虚拟机出现故障时，快速切换到备份虚拟机上，从而减少业务中断时间。

数据中心管理中的灾难备份与紧急恢复方法(一)

数据中心管理中的灾难备份与紧急恢复方法(一)

数据中心是企业运营中至关重要的组成部分，负责存储和处理大量的敏感信息和业务数据。

然而，由于硬件故障、自然灾害、黑客攻击等不可预测的事件，数据中心的连续性和安全性面临着巨大挑战。

因此，灾难备份和紧急恢复方法成为数据中心管理中至关重要的一环。

1. 数据备份与灾难恢复的重要性在数据中心管理中，灾难备份与紧急恢复方法是确保业务连续性和数据安全性的关键措施。

数据备份是指将关键数据的副本存储在多个位置，以防止数据丢失。

紧急恢复则是指在发生灾难事件后，迅速恢复业务运行并恢复数据。

这两者相辅相成，为数据中心提供了可靠的保障。

2. 灾难备份策略灾难备份策略包括完整备份、增量备份和差异备份。

完整备份是指将整个数据集备份到外部存储设备，需要较大的存储容量和时间。

增量备份则是只备份自上次完整备份以来发生的数据变化，减少了备份时间和存储空间的占用。

差异备份则是备份自上次完整备份以来发生的数据差异，比增量备份更加灵活，但需要更多的计算资源。

3. 灾难恢复方法灾难恢复方法包括冷备份、热备份和温备份。

冷备份是指将备份数据存储在离线存储介质中，一旦发生灾难事件，需要将备份数据还原到主要服务器中才能恢复业务。

热备份则是在备份服务器上实时备份数据，当主要服务器故障时，可以立即切换到备份服务器，保证业务连续性。

温备份则是将备份数据存储在近线存储介质中，数据可以更快地还原到主要服务器中，提供更快速的灾难恢复。

4. 多点备份与异地备份为了进一步提高数据中心的可靠性和安全性，多点备份和异地备份是常用的策略。

多点备份是指将备份数据存储在不同的位置，以防止单点故障。

异地备份则是将备份数据存储在物理上分离的地理位置，一旦发生本地灾难，可以从异地还原数据。

这两种方法可以有效地减少数据丢失的风险和灾难对业务的影响。

5. 灾难演练和定期更新灾难备份与紧急恢复方法并非一成不变的，企业需要定期进行灾难演练和测试。

通过模拟真实的灾难情景，可以检验备份和恢复方案的可行性和有效性。

数据中心管理中的灾难恢复与应急响应方法(二)

数据中心管理中的灾难恢复与应急响应方法(二)

数据中心管理中的灾难恢复与应急响应方法随着信息技术的发展，数据中心在现代社会中的重要性不断增加。

这些数据中心承载着企业和组织的关键信息和业务应用，因此，维护数据中心的运行正常和安全性就显得尤为重要。

然而，灾难常常无法预测，如火灾、地震、洪水等自然灾害，以及恶意攻击、系统故障等人为灾难可能会对数据中心造成重大破坏。

因此，灾难恢复和应急响应方法成为数据中心管理的关键环节。

一、备份和恢复计划数据中心的备份和恢复计划是数据中心管理中基础且至关重要的一环。

备份计划指的是定期将关键数据从数据中心复制到其他存储介质或位置，以防止数据丢失。

备份计划的设计需要考虑几个关键问题：备份数据频率、备份存储介质的选择、备份数据的加密和完整性校验等。

另外，还需要有明确的恢复计划，包括如何从备份介质恢复数据、恢复数据的时间预估、恢复过程的测试和验证等。

备份和恢复计划的制定需要充分考虑数据中心的规模、数据量和业务需求，以确保恢复过程高效而可靠。

二、物理安全和防火措施在数据中心的管理中，物理安全和防火措施同样重要。

对于数据中心的灾难恢复与应急响应，预防和减少灾难发生是首要任务。

物理安全包括门禁控制、监控设施、机房环境检测等。

门禁控制的设置可以限制非授权人员进入数据中心，保护数据和设备的安全。

监控设施如摄像头和报警系统可用于实时监测数据中心的运行状况，一旦有异常情况即时报警。

此外，机房环境检测可以监测温度、湿度、漏水等物理指标，当环境条件超出设定范围时能够及时采取措施，防止设备受损。

同样重要的是防火措施，通过设置灭火系统、定期检查电路维护和数据中心内部的火源等，可以减少火灾对数据中心带来的损失。

三、虚拟化技术和云跨地域备份虚拟化技术和云跨地域备份是现代数据中心管理中越来越常用的灾难恢复和应急响应方法。

虚拟化技术将物理资源转化为虚拟资源，可以实现更高的资源利用率和便捷的灾难恢复。

在发生灾难时，虚拟机可以快速从一个物理服务器迁移到另一个服务器，实现业务的快速恢复。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复
2015年07月19日
单位名称：XXXXXXXXXXXXXXX
部门：XXXXXXXXXXXX
报告人：XXXXXX
时间：2015年 07月 22日
以《XXXXXXXXXXXXXXXXXX信息安全工作总体方针和安全策略》
为依据，根据《5.10信息系统应急处理预案》为指导方针，完成此次XXX单位数据中心灾难恢复工作。

一、事故（故障）前运行方式及业务连续性情况
（一）运行环境及功能
中心机房位于XXXXXXXXXXXXXXXXXX（地点），负责XXX单位所有信息化业务及网络运行。

2013年6月开始，中心机房逐步向云计算数据中心转型。

于14年10月完全建成以虚拟化云计算为基础架构的智慧数据中心（下称数据中心），内配有UPS，防雷设备，核心交换机、应用服务器、数据存储服务器、带时控的空调设备等；数据中心外有防雷井，电力专供线路，能有效防止直接由雷击造成设备损坏，但不能完全消除电压不稳定造成的数据丢失故障。

消防、安保门禁、环境（温、湿度报警等）、供电系统探测、服务器监控等方面都没有相应的设备进行监测，日常运维中也只是靠人力巡查，可靠性不高。

在正常供电及普通天气环境情况下保障XXX单位数字化应用及其它相关的信息化业务的连续性。

（二）现数据中心运行情况
数据中心除最新的IBM刀片服务器外，其它90%的服务器已过保修期，使用时间多为5年以上，全面进入硬件的不稳定周期。

首先，为XXX单位信息化业务提供连续性服务的服务器为3台DELL R710及IBM刀片服务器，其中，DELL服务器均为09年12月购臵，10年启用，至今已达5年；硬件有不同程度的老化现象，会产生一些不知名
的故障。

其次，提供数据存储的设备为两台网络存储，分别为EMC VNX3150,H3C 1540S，其中H3C存储为10年启用，至今已达5年，然而硬盘类存储配件的在所有硬件中使用期间最短，使用时间过长容易造成数据丢失现象，且现储存容量无法满足XXX单位信息化数据的业务增长速度，全为满载运行，2014年初，该存储设备已更换过3块硬。

再有，尤其我校电力供应不稳定，经常无故停电，导致数据中心内所有设备非正常关闭，容易造成系统崩溃及数据丢失，难以保障系统业务的连续性。

二、事故（故障）现象
2015年7月18日晚上10：30分左右，收到服务器探测信号，短信通知，数据中心内有多台云服务器宕机，立刻作出判断，认为是XXX单位停电，马上通知主管领导及运维公司工程师，让工程师回XXX 单位确认情况。

当天晚上23时左右，运维工程师到达现场，确认为电力系统停止供电，数据中心所有设备非正常关闭，全部停止运行，所有信息化系统无法提供服务。

几分钟后，XXX单位突然恢复供电，数据中心内所有设备自主启动，运维工程师紧急处理，按顺序恢复服务器，直到所有服务器及存储设备全部正常启动后才离开现场。

00:30分左右，XXX单位物业公司来电通知，由于3号楼供电线路故障，整栋楼电力系统中断运行，无法为数据中心提供电力保障。

7月19日零时至4：30期间，物业公司抢修供电系统，电力系统时通时断，通过与物业公司电力工程师了解，期间有3次恢复通电与停电过程，最后在4:30分左右确立为线路故障，无法马上恢复。

在上述3次供电通断过程中，数据中心内服务器及存储设备在运维工程师离开现场后，经历了3次非正常关闭系统，造成无法预测硬件、系统文件及数据文件是否有损坏。

全部信息化系统（包括信息门户及税收系统）停止运行，无法支撑迎新工作。

三、事故处臵经过
（一）参与人员
组长： XXXXX
副组长：XXXXX、XXXXX、
实施人员：XXXXXX、XXXXXXX、XXXXXX
（二）工作职责
（三）信息系统恢复过程
7月19日7:30分运维工程师到达事故现场，7:45分信息中心管理人员到达，协助物业电力工程师检查电力系统，临时转接电缆，于10时20分恢复数据中心电力供应。

所有信息技术工程师到达现场，分工合作，从物理设备到逻辑云服务器进行精确检查。

实施计划：
根据虚拟化云计算系统结构要求，按顺序恢复所有物理设备，实施计划如下：
1、首先恢复所有物理链路，网络连通。

2、恢复存储服务器，正常运行，接入网络。

3、服务器集逐步恢复
1）最先需要恢复群集控制服务器，该服务器宿主于DELL R710里，IP：192.168.10.39；
2）恢复其它所有物理服务器，接入群集，让控制服务器智能调试各云端服务器，两台DELL R710，IBM刀片服务器；
3）针对信息门户需要运行的服务器，以最快速度，最短时
间，最小代价，以最小系统运行模式，恢复XX单位急需业
务，使其恢复连续性。

需恢复服务器列表及顺序如下表：
恢复实施过程：
至此，7月19日14:00分正常完成最小化系统恢复，信息门户及税收已能正常运行，信息门户已能顺利开启。

7月19日晚，信息中心管理人员晚上11：30分，检查信息门户及税收系统，状态正常。

于7月20日早上7:30，收到运维工程师通知，系统又出现故障，无法正常登录。

7:45分到达现场，查看服务器日志及状态，发现是不知名原因，物理服务器部分关键进程停止运行，导致云端服务器全部断开，失去联系。

处理办法：直接重启物理服务器，重新调整云端服务器，于9:00分全部恢复正常。

四、事故设备损坏影响范围及损失情况
事故造成XX小时信息化系统全面停止运行，影响信息门户提供
的XXXX服务，导致XXXXX无法使用，造成XXXXX不良效果，严重影响XXX单位形象；同时数据中心内部分物理设备损坏，具体损坏设备列表如下表：
五、事故原因分析
电力系统供电需要XXX单位XXXX部门及物业管理公司共同确保，所有信息化设备没有电，无法启动，信息技术人员也无能为力。

且电力供应的要求是稳定，稳压，够负载，需要备用线路。

服务器不知名故障大多数由于系统文件损坏导致，而文件损坏一般为多次非正常关闭系统（7月19日晚多次通断电，服务器经历3-4次无故关机），因此，信息管理中心技术员计划全面维护所有服务器，重新构建虚拟化云计算系统。

六、事故暴露出的问题
电力系统中断，线路故障为基础设施保障问题，信息网络管理中心对此只能提出要求，具体要求如下：1、XXX单位数据中心电力系统进线需增大容量；2、数据中心需独立开关控制；3、电力系统需有备份线路；4、电力系统维护期间，知会信息网络管理中心管理人员，若问题严重，切断数据中心电源，不要让检修时的通断电影响服务器；
5、若有停止，有预先通知的，需知会信息网络管理中心管理人员，及时处理服务器等相关设备；
6、定期检查线路，确保数据中心电力供应正常。

XXX单位数据中心设备过于老旧，网络设施大多数使用10年以上，服务器已达5年，进入老化期，硬件会多发性出现故障。

同时UPS需增加容量，最少能支撑数据中心使用6小时。

七、防范及整改措施
为防止事故重复发生，故拟采取的整改措施，要求重要设备存放地点定时专人巡视，全员学习，加强信息化设备使用的常识。

XXXX年计划信息化建设项目需针对数据中心升级改造，完成以下任务，1、数据中心门禁系统；2、环境系统监控；3、防火监控；4、温度控制；5、内部电力系统线路改造，增设备用线路；且按中XXXX 级别的环境保护规范完成。

相关文档

最新文档