IDC机房维护应急预案

数据中心服务应急预案手册

二O一0年三月

目录

一、市民卡机房部分应急预案 (3)

1机房系统故障处理通则 (3)

1.1 故障等级 (3)

1.2 故障处理与通报制度 (3)

2机房动力应急预案 (4)

2.1 机房停电故障: (4)

2.1.1 准备工作: (4)

2.1.2 停电情况下处理方式: (4)

2.1.3 市电恢复后的操作: (5)

2.2 UPS故障处理 (5)

2.3 开关电源整流模块故障的紧急处理方案 (6)

2.4 机房空调及局部过热故障的紧急处理方案 (6)

2.4.1 机房空调故障的应急处理步骤 (6)

2.4.2 机房局部设备温升过快或过热的处理步骤 (7)

2.5 应急方案处理过程中非常事件的处理 (7)

3机房防汛应急预案 (7)

3.1 防汛应急预案内容 (7)

3.1.1 第一预案 (7)

3.1.2 第二预案 (7)

3.1.3 第三预案 (7)

3.1.4 第四预案 (7)

4机房防火应急预案 (8)

4.1 应急保障原则 (8)

4.2 火灾事故应急处理流程及措施 (9)

一、市民卡机房部分应急预案

1 机房系统故障处理通则

凡系统发生故障时,网管运行监控负责人必须立即组织抢修,不得拖延。

运行监控人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。

运行监控管理人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。

重大故障和严重故障要报上级业务主管领导。对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。

故障处理基本原则:先重点后一般;先调通后维修。

1.1 故障等级

网管系统的故障等级共分三类:

1、重大故障

在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成所有网管业务中断超过24小时。

2、严重故障

在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成下列情况之一的系统故障:

(1)所有网管业务中断超过12小时但不超过24小时;

(2)网管个别业务中断超过24小时;

3、一般故障

除重大故障和严重故障外的其他故障。

1.2 故障处理与通报制度

网管中心应建立相关设备故障处理联系制度,并将联系人和联系方法张贴在醒目位置。

网管中心应建立设备操作手册和故障处理流程,并存放在固定地点。

网管中心应建立设备运行情况统计和登记表,并存放在固定地点。

故障处理:

1、在系统发生故障时,值班人员应对照运行维护手册进行简单的故障处理和准确定位,对无法处理的故障应立即通知系统维护主管工程师,并逐级上报。系统维护主管工程师组织相关人员现场处理,故障处理完毕后,马上通知故障发起点,并进行详细记录。当系统发生故障时,网管中心运行维护负责人必须立即组织抢修,不得拖延。

2、在处理故障时,应严格按照故障处理流程进行,整个流程强调闭环管理,按先重点后一般;先调通后维修的原则进行。

3、在系统和设备故障处理的过程中,若出现较为严重或一时无法解决的问题,及时通知故障发起点,并立即向主管领导汇报,同时与厂家联系,及时争取技术支持,填写故障报告。

4、在系统设备故障处理过程中,若使用了备件单元或备用电路板,应按规定分别详细登记故障发生的工作单元、故障现象或故障代码、换用备件名称、编号,有条件时应附上当时的打印记录,向主管报告,并及时与备件管理人员取得联系,按正确的手续

发送返修。

5、在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络进行监控。

6、在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络相关数据进行保存和统计。

7、网管中心在相关故障排除后48小时内提交故障分析报告。报告将视故障级别上报所在公司运行维护部和上级网管中心。

运行维护人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。

故障通报:

1. 发生严重故障和重大故障时,由地(市)级网管维护部门直接向省级分公司网管中心和运行维护部报告。

2. 对重大故障,分别由省级分公司网管中心和运行维护部上报至总部运行维护部网管中心。

3. 如遇特殊情况也可越级上报。各分公司必须严格按照规定时限执行。

4. 重大故障和通信事故,由总部运行维护部通报总部相关部门和各省级分公司。

当出现值班人员不能解决的故障时,值班人员应立即上报系统维护主管工程师和部门主管

故障处理完毕一天内,系统主管工程师写出故障报告,上报部门主管,重大故障和严重故障要报上级业务主管部门。

当发生故障时,机房当班人员应将故障发生经过详细填写进《值班日志》。

5、如果网管系统出现严重故障,在故障发生后应在第一时间向上一级网管中心通报相关情况。

6、出现故障后,由网管中心指定专人向相关部门通报故障影响范围和处理情况等。

运行维护负责人应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。

2 机房动力应急预案

2.1 机房停电故障:

2.1.1 准备工作:

1、停电后第一时间电话咨询供电公司(95598)询问停电原因及停电时长。

2、电话通知相关领导停电状况,如果在值班过程中停电需同事共同处理的也及时通知,在停电期间要保持通信畅通有问题及时联系。(领导电话:顾星:156********;石振:156********;张黎明:156********)

3. 准备扳手、六棱起、数字万用表、“+”字“—”字螺丝刀各两把(大、小)等常用电工工具,准备好高压绝缘手套、绝缘鞋、专用扳手。以及油机房钥匙.

4. 以上3点工作尽量在最短时间内结束,然后针对故障原因作出相应处理。

2.1.2 停电情况下处理方式:

由于永丰IDC机房为一路高压市电引入,如出现市电停电,变压器故障等原因造成停电现象出现,只能采用应急油机发电.现应急油机发电步骤如下:

1、维护人员赶至永丰IDC机房后,首先确认是否需要发电.若赶至现场后,发现市电已经恢复供应,只需要将低压配电系统中P1柜和P6柜的断路器合闸即可恢复机房市电

供应.

2、确认需要发电,首先前往一楼办公室内拿油机室钥匙(联系电话:156********).并将位于永丰大楼北侧的油机出风口打开.

3、打开出风口后,前往位于永丰地下车库的油机房,首先打开油机房玻璃移窗方便油机进风,检查油机油位,水位等.检查无误后,启动油机.

4、启动固定柴油发电机,观察油机工作状态,正常,运行5-10分钟后将油机负载开关合闸。此时,油机电送至机房低压P12发电机柜,由于断路器未合闸,机房尚未恢复供电.油机空载运行.

5、在油机空载运行期间,分别切断负载电流比较大的用电设备,以减小合闸电流对油机的冲击。依次切断:开关电源的主用,备用分路开关, 2楼空调配电箱和办公空调的电源开关,1#、2#UPS的市电输入开关,

6、摇出P1进线柜断路器,确认与市电网络断开后,将P12油机断路器摇至运行位置,将P11进线柜断路器摇至运行位置,合P12断路器,合P11断路器.合P6断路器.机房照明恢复.再分别合上:开关电源的主用,备用分路开关, 2楼空调配电箱和办公空调的电源开关,1#、2#UPS的市电输入开关等负载较大的开关。

7、此时所有负载由油机供电,油箱内200L柴油预计能带载运行7小时左右。如果停电时间超过4小时应联系供油车添加柴油,加油工作必须停柴油发电机后进行。电池放电时间估计在40分钟左右,加油工作必须在停机20分钟内结束,如果不能加满可等电池充满电后再次添加。

2.1.3 市电恢复后的操作:

1.当市电来电后,再依次切断:开关电源的主用,备用分路开关, 2楼空调配电箱和办公空调的电源开关,1#、2#UPS的市电输入开关。

2.断开P11柜的低压母联开关,断开P12柜的油机供电开关,油机退出带载运行。(油机空载运行5-10分钟后停机。)

3.分别将P1柜的市电总开关摇至运行位置并合闸,检查确已合上;合上P6柜联络开关,并检查确已合上。

4.无异常,再分别合上:开关电源的主用,备用分路开关, 2楼空调配电箱和办公空调的电源开关,1#、2#UPS的市电输入开关.

5.所有设备恢复市电供电,检查设备的供电运行情况。

6.确认设备运行正常后,至油机室分油机负载开关,关闭油机,关闭油机室玻璃窗,关闭北侧油机室出风口.

2.2 UPS故障处理

永丰核心机房UPS系统为2台梅兰日兰80KVA UPS 的并机系统.如80KVA UPS系统中一台UPS故障,系统自动将负载倒到另一台UPS上,如何关闭故障的UPS,如何再次开启UPS,如下:

关机:

1、先将旁路转换开关打到“ON”的位置:

2、将UPS输出开关打到“OFF”位置

3、分别关掉UPS的S1,F1和F2开关,这时UPS停止运行;

4、关掉UPS输入开关,系统关机完毕。

开机:

1、首先确认UPS的S1,F1和F2开关都打到“OFF”位置,配电柜的UPS输出开关也

在“OFF”位置。

2、先把旁路转换开关打到“ON”的位置

3、分别将UPS的F1,F2开关合闸,再将S1开关合闸;

4、当UPS面板指示为旁路供电状态时,再把旁路转换开关打到“OFF”位置这时,

UPS转到正常工作模式,启动完成。

5、最后合上UPS输出开关,系统供电正常。

当关掉其中一台UPS再启动的方法:

1、先把旁路转换开关打到“ON”的位置

2、再把已关掉的UPS的S1,F1,F2开关分别打到“ON”的位置;

3、当两台UPS面板指示为旁路供电状态时,再把旁路转换开关打到“OFF”位置这时,两台UPS转到正常工作模式,启动完成

2.3 开关电源整流模块故障的紧急处理方案

开关电源整流模块故障的更换操作步骤:

以永丰IDC机房的整流柜为例:

开关电源系统总共有10个整流模块,实际运行6个,4个备用。

假设第5个整流模块故障,无直流输出,现场检查后无法修复,需要更换备用的模块。

1、关闭该模块的交流输入开关,

2、将背面的交流输入电源线、直流输出电源线和通讯线依次拔下,

3、拧下前面板的固定螺丝,将故障模块抽出,

4、将备用模块插入故障模块原来的位置,拧紧固定螺丝,

5、然后将背面的交流输入电源线、直流输出电源线和通讯线依次插上,

6、调整此备用模块的地址编码为:4,

7、合上此模块对应的交流输入开关,

此时,备用模块更换完毕,查看模块输出是否正常。

注意:更换整流模块时要注模块前面板的地址码,必须要和故障模块的一致,否则会产生模块通讯中断告警。

2.4 机房空调及局部过热故障的紧急处理方案

2.4.1 机房空调故障的应急处理步骤

发生机房空调故障,会使机房的温度升高,危害设备正常运行。所以发生此类故障后,要积极维修,如果一时无法修复,必须采取应急措施,保障机房环境符合要求。

现在的机房空调都是2主1备份或一主一备,一台空调故障,其他空调可以正常工作。

1、首先判断机房空调什么故障,如果压缩机故障,送风机工作正常,

此时,要把邻近的空调的温度设定值调低1-2度即可。这样,故障空调的风机可以形成空气对流,对故障空调区域的设备影响不大。或者尽量将机房防静电地板掀开.增将出风口.

如果是空调的送风机故障,不能正常送风,

此时,就要把邻近的空调的温度设定值调低2-3度,然后把邻近空调的送风口的格栅尽量调整到故障空调前面的区域,这样才能的保障机房温度不至于上升。或者尽量将机房防静电地板掀开.增将出风口.

或者拿普通的电风扇在故障空调的影响区域吹风,打开机柜门,冰块局部降温等措施防止局部升温过快。

2.4.2 机房局部设备温升过快或过热的处理步骤

首先将此设备的机柜门打开,让热空气充分散出,

也可以用电风扇对此设备吹风,加快散热速度,

购买冰块,放在大盆里,置于局部过热部位,利用冰块融化吸收热量,

或者同时放置冰块并用电风扇吹。

2.5 应急方案处理过程中非常事件的处理

1、当倒闸过程中出现可尽快恢复的操作错误时,机房负责人要及时制止,并立刻安排恢复操作。

2、当停电倒闸或油机带载过程中发生不可预见的非常情况时,全体现场人员应采取适当的应急措施保护通信设备供电安全并立即报告相关领导,召开紧急会议,研究处理方案。

3 机房防汛应急预案

3.1 防汛应急预案内容

3.1.1 第一预案

当受台风或强热带风暴影响风力达8级以上,暴雨日雨量达50.1毫米以上或气象等有关部门发布暴雨将达起始标准后,各机房负责人、机房代维负责人必须到位,加强值班,严格执行报告制度,做到上情下达,下情上报。值班领导和人员遇到突发事件或灾情,及时下达临时紧急处置指令,并迅速向公司上级分管领导汇报。各值班人员要做好防汛值班记录,并检查机房防汛值班到岗到位情况。无锡防汛工作值班电话:88654444。

3.1.2 第二预案

当气象台发布暴雨警报时,防汛应急工作小组成员全部到位。并及时向公司分管领导通知防汛信息,通报风情、水情、雨情。各机房防汛应急工作小组成员要根据各自的职责,加强值班,进一步检查落实各项防汛应急措施,组建各类防汛抢险队伍,落实抢险物资。

3.1.3 第三预案

当暴雨袭击或县有关部门发布紧急警报时,防汛应急工作小组成员要按各自的职责进入指挥岗位。并立即进行紧急部署要把防汛作为压倒一切工作的头等大事来抓,并落实各项防汛应急措施。

3.1.4 第四预案

遇暴雨突发性灾害天气时,防汛应急工作小组成员要迅速组织人员及时检查疏通地下排水管道,做到排水畅通;要组织专门力量,对易积水的机房进行监测,及时报告灾情,小组领导要监督各校园有关人员到位、到岗,确保机房排涝设施全过程、满负荷运转,必要时及时组织足够的临时排涝设施进行强排。确保人员生命、公司财产安全。

当遇到暴风雨袭击时,各小组成员应及时把机房汛情在第一时间报告公司分管领导,公司根据灾情,联系有关部门及时赶赴现场,做好抢救、转移和安置工作。

4 机房防火应急预案

4.1 应急保障原则

一、当发生火灾事故时,抢险工作应遵循如下原则:

1.坚持“统一领导、分级负责、严密组织、密切配合、快速反应、保障有力”的原则。

2.坚持快速恢复生产、减少经济损失的原则。

3.坚持原则性与灵活性相结合的原则,注意讲究策略和方法。

二、消防安全管理基本原则:

1.坚持“预防为主,防消结合”的原则。

2.坚持“谁主管、谁负责”的“两谁”原则。

4.2 火灾事故应急处理流程及措施 永丰大厦机房消防操作流程

设备及系统复位

误报警 查原因

隔 离 报 修

复位 未复位 组织公司 灭火人员 真实火警 紧急疏散 备案

准备图纸 接消防车 通知所有值班人员 启

动 灭 火

拨119报警 报消防负责人 查明原因

接到火警报告

确认火警

若按钮无效,则进入钢瓶室内,找准相对应的钢瓶(钢瓶上标有机房名称),拔掉钢瓶顶端红色按钮下方的阻塞杆,按下红色按钮即可。

注意:必须先确认起火机房内已无任何人员

现场确认

误报警 起火机房门口FM-200

气体灭火报警控制盘

误报警

消音 SILENCE ALARM

复位LAMP TEST & RSET

打开黄色按钮 EXTINGUISHANT

灭火

复位 LAMP

TEST & REST

绿色急停按钮 EXTINGUISHANT HOLD OFF 紧急停止并延时30秒 (长按保持停止状态)

复位SYSTEM RESET

确认起火机房内无人

警卫室消防控制器告警

消音 ALARM SILENCE

IDC机房消防系统使用流程

值班人员发现消防

系统告警

判断是否误告警确认误告警原因,消除误告警

判断是否可以自灭自救切断着火点电源,并用手提式二氧化碳灭火器灭火

启动管网式气体灭火系统

疏散机房内人员,第一时间报告公司领导,拨打119火警当气体灭火系统电路损坏(此事启动按钮失效)可将消防钢瓶室内的驱动瓶(靠近门口的两个小钢瓶)瓶口电磁阀安全销拔下,将顶部按钮压下,气体将强行喷出.

机房门道口设有管网式气体灭火系统紧急启动和停止按钮,敲碎玻璃,按下紧急启动按钮(红色).喷洒系统启动,气体喷出,覆盖火情区域.如有其他情况出现,需要紧急停止气体喷洒时,按下紧急停止按钮(绿色),气体停止喷洒

相关文档
最新文档