春节假期值班表及应急救援预案

春节假期值班表及应急救援预案
春节假期值班表及应急救援预案

2018年春节假期值班表

二. 值班要求:东华公司负责大数据IDC机房的基础设施巡检工作,联通公司负

责大数据机房云平台设备的巡检工作,中心值班人员负责现场巡检的协调、沟通、统筹等工作,现场巡检时间为每小时一次,各值班人员需在值班大厅监测IDC机房动力环境监控系统的实时数据;

三. 注意事项:

(1)值班人员进入机房后,穿戴鞋套,保持机房环境卫生;

(2)禁陌生人和无关人员进出机房;其他人员出入机房应先进行登记。不得将易燃、易爆物品带入机房;

(3)如机房出现盗窃、破门、火警、停电、水浸等重事件时,值班人员应立即启动应急预案,协调处理相关事宜;

市大数据中心IDC机房值班

2018年春节应急预案

在市大数据IDC机房项目中,供配电、UPS、空调、列头柜系统对于机房各系统的运行占有举足轻重的作用,所以在春节期间,进行7*24小时的值班,每小时对机房的空调,配电等子系统巡检一次,具体安排如下:

一、组织架构:

1、大数据中心

总负责人:瑶光

值班负责人:量

2、监理公司

总负责人:贺

3、东华网络股份公司

(1)总负责人:相磊:

技术负责人:付:

系统集成工程师:贾浩晨:

系统集成工程师:子杰:

(2)电力系统保障(电工):

联系人:伟:

联系人:高峰:

联系人:任洪星:

联系人:田秋富:

(3)低压配电及UPS(施耐德):

联系人:孟宪国:

(4)水冷机组(克莱门特):

联系人:唐骏:

(5)列头柜(曙光):

联系人:春乐:?

二、应急预案

1、列头柜支路开关故障应急预案

目前数据机房的模块化机柜系统中,每台机柜为双路供电,即A路和B路,若某个支路开关断开,不会影响设备的突然断电而停止工作,此前已经对联通公司人员进行了交底,即服务器电源均需要连接,即A路和B路的电源线同时连接,确保设备的安全及正常使用。若出现故障,第一时间安排曙光工程师来现场进行排查故障并解决,同时通知现场值班的联通人员。

2、水冷机组故障应急预案

目前项目中,有两台冷水机组,一主一备,备用机未开机,若出现一台冷水机组的设备故障,立即开启备用冷水机组,确保机房的正常温度,同时安排克莱门特的厂家技术人员来现场排查并解决故障。

3、低压配电及UPS应急预案

低压配电及UPS系统中,电工对其进行巡检排查,若其中一台UPS、配电系统或者变压器等高压设备出现故障,立

即通知联通公司值班人员对服务器、存储设备等进行关机处理,然后责成厂家人员立即赶往现场排查解决问题,对于变压器等高压设备出现故障,造成市电停止供应,柴油发电机会自动启动进行发电,立即与管辖区大洼供电公司枣变、雁变供电所联系,查清此事故原因,分清责任,由机关值班人员立即处理。同时,确保柴油发电机的油料供应充足。

4、高压系统故障应急预案

高压系统的运维分为两种情形,若双路市电均中断的情形,柴油发电机自启动运行,以保证电力正常供应,同时安排电工对高压侧的设备进行排查,若发现为高压设备故障的情况,告知用户联系责任单位来处理,若高压设备无故障,则告知用户联系供电局进行外线抢修;若双路市电中的其中一路市电中断,这时低压侧通过母联切换,手动对低压母联柜进行触发信号合闸,保证机房各子系统的电力供应,同时安排电工对高压侧的设备进行排查,若发现为高压设备故障的情况,告知用户联系责任单位来处理,若高压设备无故障,则告知用户联系供电局进行外线抢修。

三、管理制度

1、工作人员日常行为准则

(1)禁止在机房、办公室吃食物、抽烟、随地吐痰。保持机房清洁干净,防尘防潮。

(2)机房值日人员负责机房的日常整理、卫生、检查门窗的关闭和行为督导。

(3)进入机房必须更换鞋套,雨具、鞋具等其他物品

要归位摆放整齐。

(4)机房部不得大声喧哗,保持安静的工作环境。拒绝陌生人进出机房。

(5)机房用品要各归其位,不能随意乱放。坚持每天交班之前将桌面收拾干净、物品摆放整齐。

(6)工作人员离开工作区域前,应保证工作区域保存的重要文件、资料、设备、数据处于安全保护状态。检查并锁上自己工作柜、锁定工作电脑、将桌面重要资料和数据妥善保存。

(7)出现机房盗窃、破门、火警、水浸、110报警等重事件时,工作人员立即上报主管领导,说明情况,启动相关应急预案。

2、机房人员进出管理制度

(1)禁止与机房工作无关的人员进出机房。

(2)进入机房人员不得将食品、饮料以及易燃、易爆物品带入机房。

(3)需携带物品出入机房,须接受机房维护人员检查,并填写《机房物品进出登记单》。

(4)非机房人员和外单位人员进入机房经信息中心负责人批准后,履行登记手续可进入。

(5)外来施工单位及相关施工人员进入机房施工,须递交《施工申请单》,经机房负责人批准,按规定登记后,可进入机房施工。每天施工结束后,施工人员应负责施工现场的清洁、整理,经值班人员同意后,可离开机房。

(6)执行网络抢修和设备维护的的技术人员可直接与机房负责人联系后进入,工作完毕后应签名登记,并负责现场的清洁、整理,经机房维护人员同意后,可离开机房。

(7)外单位人员进出机房,必须有我机房维护人员陪同。

(8)对违反上述规定者,机房维护人员有权拒绝其进入机房,强行进入的,应追究其相关责任,承担造成的一切后果。

(9)未经主管领导批准,禁止将涉及机房的钥匙、密码等物品和信息外借或透露给其它人员。对于遗失钥匙或其他原因造成密码泄露的,要立即上报主管领导,并采取主动保障措施,确保机房安全。

三、机房用电安全制度

1、机房维护人员应学习常规的用电安全操作和知识,了解机房部的供电、用电设施的操作规程。

2、机房维护人员需掌握机房用电应急处理步骤、措施。

3、应安排有专业资质的人员定期检查供电、用电设备、设施。

4、不得乱拉乱接电线,应选用安全、有保证的供电、用电器材。

5、在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。

6、禁随意对设备断电、更改设备供电线路,禁随意串

接、并接、搭接各种供电线路。

7、如发现用电安全隐患,应即时采取措施解决,不能解决的必须及时向相关负责人员提出解决。

8、机房人员对个人用电安全负责。外来人员需要用电的,必须得到机房管理人员允,并使用安全和对机房设备影响最少的供电式。

9、机房工作人员需要离开当前用电工作环境,应检查并保证工作环境的用电安全。

10、最后离开机房的工作人员,应检查所有用电设备,应关闭长时间带电运作可能会产生重后果的用电设备。

11、禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。

12、在使用功率超过特定瓦数的用电设备前,必须得到上级主管批准,并在保证线路保险的基础上使用。

13、在危险性高的位置应贴相应的安全操作法、警示以及指引,实际操作时应格执行。

14、在外部供电系统停电时,机房工作人员应全力配合完成UPS应急供电工作,在第一时间协调有关单位做好发电机到场发电。

四、机房消防安全制度

1、机房维护人员应熟悉机房部消防安全操作和规则,了解消防设备操作原理、掌握消防应急处理步骤、措施和要领。

2、任人不能随意更改消防系统工作状态、设备位置。

需要变更消防系统工作状态和设备位置的,必须取得主管领导批准。应保护消防设备不被破坏。

3、如发现消防安全隐患,应即时采取措施解决,不能解决的应及时向相关负责人员提出解决。

4、应格遵守贴于相应位置的操作和安全警示及指引。

5、最后离开的机房工作人员,应检查消防设备的工作状态,关闭将会带来消防隐患的设备,采取措施确保无人状态下的消防安全。

五、机房硬件设备维护和使用制度

1、机房人员必须熟知机房设备的基本安全操作和规则。

2、应定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯、仪表),定期调阅硬件运作自检报告,及时了解硬件运作状态。

3、禁止随意搬动设备、随意在设备上进行安装、拆卸硬件、或随意更改设备连线、禁止随意进行硬件复位。

4、禁止在服务器上进行试验性质的配置操作,需要对服务器进行配置,应在其它可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

5、绝不允与机房工作无关的人员直接或间接操纵机房任设备。

6、对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、案、人员准备,才能进行硬件设备的更改。

7、对重大设备配置的更改,必须首先形成案文件,经

过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备的更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。

8、不允任人在核心设备上进行与工作围无关的任操作。未经上级允,更不允他人操作机房部的设备,对于核心服务器和设备的调整配置,需要经过论证并经主管领导同意后才能进行。

9、要注意和落实硬件设备的维护保养措施。维修时按设备相应规说明书来进行,避免因人为因素而造成事故。

10、禁在设备的计算机终端上装入其他无关的软件或将计算机挪用。

11、每天须参照日常维护操作指导的相关容,进行常规检查和测试,并做好记录。

12、已经损坏的单板不能放在机柜,应装入防静电袋妥善保管,以免引起其他故障。对弱电设备硬件操作应预先戴好防静电手环。

13、发现问题须及时处理,处理不了的问题应立即上报主管领导。遇到紧急情况不要慌,切忌手忙脚乱。出现设备瘫痪等重大事故时,立即启动机关应急预案,按照重大问题处理顺序进行排除。

六、机房资料、文档和数据安全制度

1、资料、文档、数据等必须有效组织、整理和归档备案。

2、禁止任人员将机房的资料、文档、数据、配置参数等信息擅自以任形式提供给无关人员或向外随意传播。

3、对于牵涉到网络安全、数据安全的重要信息、密码、资料、文档等等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关数据的,须经信息中心负责人同意后,由机房工作人员代为查阅,并只能向其提供与其当前工作容相关的数据或资料。

4、重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据应保证其可还原性,防止遗失重要数据。

5、核心业务数据应按日备份,定期存档,并做好异地备份工作。

6、禁擅自改动中心数据。如果确需更改,要在更改之前做好数据备份,改动后一确认机器运行无误,再删除备份数据。

7、禁使用终端软件以外的其它软件直接对数据库进行查询和修改,以免导致不良后果。

8、计算机终端口令要按级别划分权限,定期更改,并只向维护责任人发放。管理级口令只有维护负责人掌握,做到格管理、责权分明。

七、机房设备管理制度

1、机房设备、耗材采购格按照设备采购流程和相关管

理制度执行。

2、机房的日常物品、设备、消耗品等必须有清晰的数量、型号登记记录,对于公共使用的物品和重要设备,必须建立台账和相应的借取和归还制度进行管理。

3、机房工作人员应有义务安全和小心使用机房的任设备、仪器等物品,在使用完毕后,应将物品归还并存放于原处,不应随意摆放。

4、对于使用过程中损坏、消耗、遗失的物品应汇报登记,并对责任人追究相关责任。

5、未经主管领导同意,不允向他人外借或提供机房设备和物品。

八、机房巡检制度

1、机房维护人员每小时对机房设备巡回检查一次,并做好相应记录。

2、如发现核心设备报警,应立即采取相应措施,作好记录并向领导汇报。

3、机房发现网络设备、传输线路等有不正常情况时应首先检查本端设备,维护人员必须立即通知相关单位,把障碍情况和本端初步检查结果告诉对,请对帮助检查。

4、接到相关部门反馈检查结果后,维护人员必须作好详细记录。

5、每季度对局域网进行全面测试。

市大数据中心云平台值班

2018年春节应急预案

针对市大数据中心云平台,联通公司在春节7天假期期间,进行7*9小时的现场值班、7*24小时的值班,具体安排如下:

一、组织架构:

总负责人:杰:

总协调人:建涛:

马天帅:

华三工程师:雷森:

曙光工程师:强:

360工程师:左彬:

天融信工程师:宗靖霖:

假期值班安排:

联系人:马天帅:(2月15日)

联系人:飞赫:(2月16日)

联系人:泊海涛:(2月17日)

联系人:席鹏:(2月18日)

联系人:爽:(2月19日)

联系人:雷:(2月20日)

联系人:媛媛:(2月21日)

二、相关应急预案

1、巡检预案

每天值班人员,对云平台基础设施运行情况进行巡查,每2小时一次,发现问题,及时告知联通公司总协调人,由总协调人负责协调各厂商及时处理,如远程无法处理,则立即派人到现场解决问题。

2、云平台虚拟机关闭应急预案

遭遇突发状况,云平台相关设备需要紧急关机处理时,需按照如下顺序处理。

(1)先关闭云平台虚拟机

(2)暂停共享存储

(3)服务器进入维护模式

(4)软关闭物理服务器

(5)软关闭存储主控制柜

(6)存储扩展柜,FC交换机直接下电

(7)网络设备,安全设备可直接下电

具体操作步骤见相关设备应急操作手册。

3、云平台故障处理应急预案

云平台租户上报问题由总协调人直接联系厂家技术远程处理。若遇重大故障,远程无法处理或无法远程操作则总协调人和厂家技术赶赴现场解决。

4、服务器,存储硬件设备处理预案

由云平台告警或值班巡检人员发现物理服务器、核心存储相关部件出现异常,第一时间通知总协调人。总协人调评估情况,若情况重,总协调人负责联系厂家技术到场处理。

5、网络设备和安全设备处理预案

(1)云平台网络配置变更由总协调人直接联系厂家技术配合远程操作。

(2)设备故障需要重启,直接下电几分钟后上电即可。

(3)遭遇重大网络攻击由总协调人联系厂家技术现场解决。

市大数据中心 2018年2月5日

相关主题
相关文档
最新文档