网络运行维护及机房应急方案计划

网络运行维护及机房应急方案计划
网络运行维护及机房应急方案计划

网络运维小组应急预案

随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。

本预案共分为应用系统故障应急流程和机房突发事件应急流程

系统故障应急流程

一、系统故障应急流程说明

1、故障发生

系统运维服务小组可从以下途径得知故障的发生:

1.1、运维服务中心通过网管告警发现故障

1.2、维护站点通过维护巡检发现故障

1.3、用户发现故障,报给呼叫中心

1.4、驻场工程师发现故障

2、报障受理

监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。

3、信息研判

运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。

4、预案启动

如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。

5、资源确认

系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:

我公司技术支持人员;

相关厂家技术支持人员;

我公司聘请的技术专家

6、预案执行

按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。

7、预案终止

预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。

8、结果上报

预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急领导小组。

二、系统故障应急处理流程图

机房突发事件应急流程

一、机房突发事件分类

1、自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。

2、事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。

3、人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。

二、应急处理人员组织机构

三、应急机构人员岗位职责

1、应急总指挥职责

1.1、保证在任何时间,及时协调应急行动所有涉及的岗位人员;

1.2、提供必须的紧急响应设备;

1.3、在紧急情况下全面负责紧急行动;

1.4、在必要时向外界求救,例如:119、110、120等。

2、应急副总指挥职责

2.1、在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;

2.2、根据获得的应急信息下达命令。

3、各相关设备负责人职责

3.1、负责尽快收集信息向应急总指挥汇报事故情况;

3.2、负责现场临时设备抢救和对事态的控制;

3.3、听从上级指挥人员的指挥。

四、突发事件处理原则

1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑安全保障体系。

2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。

3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。

4.以人为本。把保障人员以及公共利益的安全作为首要任务。

5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。

五、机房应急开关机具体措施

机房各设备关闭顺序如下:

六、机房日常维护

1、建立健全机房管理制度

1.1在正常工作日内,信息技术部人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除网络故障隐患。

1.2节假日期间技术人员轮流值班,负责处理有关异常情况。

1.3机房采取来人来访登记制度,未经允许,无关人员不得进入公司机房区域。

2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控

等措施。

3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。

4、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行。

七、服务器及存储设备故障处理

1、排错流程

2、应急处置具体措施

2.1 机房漏水应急预案

(1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应急领导小组。

(2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温。

(3)若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时清除积水,维修墙体或门窗,消除渗漏水隐患。

2.2 设备发生被盗或人为损害事件应急预案

(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导小组,同时保护好现场。

(2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

(3)事发单位和当事人应当积极配合公安部门进行调查,并将有关情况向系统突发故障应急领导小组汇报。

(4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事件进行调查。运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组。事态或后果严重的,应向相关领导汇报。

2.3 机房长时间停电应急预案

(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:

(2)当机房发生市电供电突然停电或是电源异常时。首先应和后勤部门联系确认正常停电以及预计停电时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS电源供电范围内的设

备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。

(3)当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。并及时通知各部门做好停电应急准备。然后通知机房电源维护人和设备的负责人到达现场,做好各设备的电源停电准备。在UPS供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。

(4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。对于恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准备

(5)恢复供电后,严格按照操作程序逐步恢复机房设备和UPS的供电,以防瞬间电流过大造成设备损坏。

2.4 通信网络故障应急预案

(1)发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组。

(2)运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

(3)事态或后果严重的,应向应急指挥办公室和相关领导汇报。

(4)应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突发故障应急领导小组。

2.5 不良信息和网络病毒事件应急预案

(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心运维服务小组和系统突发故障应

急领导小组。

(2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。

(3)事态或后果严重的,应向监控中心办公室和相关领导汇报。

(4)处置结束后 ,运维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告系统突发故障应急领导小组。

2.6 服务器软件系统故障应急预案

(1)发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告系统突发故障应急领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。

(2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。

(3)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。

(4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。

2.7 黑客攻击事件应急预案

(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突发故障应急领导小组。

(2)接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。

(3)运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正

常;情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援。

(4)处置结束后 ,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。

2.8 核心设备硬件故障应急预案

(1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。

(2)若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。

(3)运维服务小组故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。

(4)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。

2.9 业务数据损坏应急预案

(1)发生业务数据损坏时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备份业务系统当前数据。

(2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。

(3)业务数据损坏事件超过 2小时后,运维服务小组应及时报告系统突发故障应急领导小组,及时通知业务部门以手工方式开展业务。

(4)运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组。

2.10 雷击事故应急预案

(1)遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。

(2)雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。

(3)因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告系统突发故障应急领导小组。必要时,应向监控中心应急指挥办公室和相关领导汇报。

2.11 空调设备故障应急预案

若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。

2.12 火灾事故应急预案

(1)一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;

(2)人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;

(3)人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。

2.13 电源设备故障应急预案

机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机:

(1)确认所有负载均已安全关机。

(2)关闭UPS负载电源。

(3)将UPS的系统启用开关切换到off 的状态。

(4)将电池连接断路器切换到off的位置。

八、维护小组成员

1. 现场服务人员联系方式

2. 厂家协助服务人员联系方式

应用系统运维应急方案

应用系统运维应急方案(总7 页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

运维应急方案 目录 1前言 (3) 2目标 (3) 3组织结构 (3) 4应急预警 (3) 4.1应急预警级别 (3) 4.2应急预警处理流程 (4) 4.2.1一级预警处理 (5) 4.2.2二级预警处理 (5) 4.2.3三级预警处理 (6) 5附件 (6) 5.1.1故障报告单 (6)

1前言 重庆眯客信息技术有限公司运维支持部负责公司业务系统运行维护工作。 为了保障公司因业务系统的安全、平稳运行,运维支持部特此指定运维应急方案,通过此方案来保证系统的安全。 2目标 保障公司服务器的正常运行、网络的畅通。 严格岗位制度、明确工作职责,规范工作流程。 工作规范化,制度化,加强文档管理力度。 3组织结构 根据运维工作的范围和性质,下设三个小组: 系统维护组 应用维护组 技术值班组 4应急预警 4.1应急预警级别 预警级别预警标志警报内容预警级别介绍

4.2应急预警处理流程 运维过程中出现重要故障或紧急情况时,按以下规定流程进行处

理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下: 4.2.1一级预警处理 运维过程中,如果遇到一级预警,按以下流程进行处理: 1.当通过监控或得知系统出现故障时,首先在最短的时间查看故 障点状态,并分析故障原因。 2.运维工程师在排查出故障后,立即着手解决。 3.在故障排除后,对所发生故障的设备进行事后跟踪。 4.在故障排除后,运维工程师应对故障原因及解决办法进行详细 说明。 4.2.2二级预警处理 运维过程中,如果遇到二级预警,按以下流程进行处理: 1.当通过监控或得知系统出现故障时,首先在最短的时间内查看 故障点状态,并分析故障原因。 2.立即报告给组长,运维小组长应通过电话或当面把故障报告相 关部门领导,在故障完全排查清楚后以书面形式递交“故障报 告单”。 3.运维工程师在排查出故障后,如能够立即解决,则立刻解决故 障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商 的技术工程师联系电话,请求立即到现场进行故障排除。

机房的维护管理方案

机房管理方案 随着计算机技术的快速发展和员工对计算机使用操作步骤的日益增加,播出机房的地位和作用越来越重要。合理有效地对机房进行管理,将对设备的运行维护、快速处理设备故障、降低成本具有十分重要的意义。 一、机房环境的要求 1、机房空气环境 机房设备维护主要包括电气环境、温湿度、防尘、防鼠等方面。 (1)电气环境要求 电气环境的要求主要是指防静电要求和防电磁干扰等。 防静电要求播出设备内部电路采用大量的半导体、CMOS等器件。由于这类器件对静电的敏感范围为25~1000V,而静电产生的静电电压往往高达数千伏甚至上万伏,足以击穿各种类型的半导体器件,因此机房应铺设抗静电活动地板,地板支架要接地,墙壁也应做防静电处理,机房内不可铺设化纤类地毯。工作人员进入机房内要穿防静电服装和防静电鞋,避免穿着化

纤类服装进入机房。柜门平常应关闭,工作人员在机房内搬动设备和拿取备件时动作要轻,并尽量减少在机房内来回走动的次数,以免物体间运动摩擦产生静电。 对于长期运行但无法经常清洁的设备,专门对设备做一次清洁是很有必要的。在长期的维护工作中,有时会碰到电路板的告警,如果对该电路板重新插拔,清洁掉电路板插针周围的灰尘,电路板就会恢复正常。 电磁干扰对播出设备的硬件和软件都有可能造成损害,播出设备本身产生的电磁辐射也会对临近的电子设备产生影响。因此,设备在安装时,应与临近用电设备保持一定的距离,必要时机房应采取屏蔽措施,以免临近电子设备之间相互产生干扰。播出设备的机外布线最好与火线交叉通过,并尽量避免长距离靠近并行。 (2)温湿度要求 播出设备尤其是交换机和磁盘阵列等设备对机房的温度有着较高的要求。温度偏高,易使机器散热不畅,使晶体管的工作参数产生漂移,影响电路的稳定性和可靠性,严重时还可造成元器件的击穿损坏。播出设备在长期运行工作期间,机器温度控制在18℃~25℃之间较为适宜。湿度对通信设备的影响也很大。空气潮湿,易引起设备的金属部件和插接件管部件产生锈蚀,并引起电路板、插接件和布线的绝缘降低,严重时还可

数据中心运维服务方案

数据中心机房及信息化终端设备维护方案 一、概况 xxx客户数据中心机房于XX年投入使用,目前即将过保和需要续保运维的设备清单如下:

另外,全院网络交换机设备使用年限较长,已全部过保,存在一定的安全隐患。 二、维保的意义 通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。设备故障时,可提供快速的备件 供应,技术支持,故障处理等服务。 通过系统的维护可以提前发现问题,并解决问题。将故障消灭在萌芽状态, 提高系统的安全性,做到为客户排忧解难,减少客户人力、物力投入的成本。为 机房内各系统及设备的正常运行提供安全保障。可延迟客户设备的淘汰时间,使 可用价值最大化。 通过引入专业的维护公司,可以将客户管理人员从日常需要完成专业性很强 的维护保养工作中解放出来,提升客户的工作效率,更好的发挥信息或科技部门 的自身职能。 通过专业的维护,将机房内各设备的运行数据进行整理,进行数据分析,给

客户的机房基础设施建设、管理和投入提供依据。 三、维护范围 1、数据中心供配电系统 2、数据中心信息化系统 3、全院信息化终端设备 4、数据库及虚拟化系统 四、提供的服务 为更好的服务好客户,确实按质按量的对设备进行维护;我公司根据国家相关标准及厂商维护标准,结合自身多年经验积累和客户需求,制定了一套自有的服务内容: 1、我公司在本地储备相应设备的备品备件,确保在系统出现故障时,及时免费更换新的器件,保障设备使用安全。 2.我公司和客户建立24小时联络机制,同时指定一名负责人与使用方保持沟通,确保7*24小时都可靠联系到工程技术人员,所有节日都照此标准执行。 3.快速进行故障抢修:故障服务响应时间不多于30分钟,2小时内至少2人以上携带相关工具、仪器到达故障现场,直到设备恢复正常运行。 4.我公司对维修维护的设施设备的使用性能负责,在维修维护过程中严格执行技术规范,保证设施设备的性能符合相关技术标准要求。在维修维护间,我方应对设施设备可能存在的故障隐患做出评估,并进行恰当的预防性处理,以保证设

应用系统运维应急方案

应用系统运维应急 方案

运维应急方案

目录 1 前言 ............................................................................ 错误!未定义书签。 2 目标 ............................................................................ 错误!未定义书签。 3 组织结构 .................................................................... 错误!未定义书签。 4 应急预警 .................................................................... 错误!未定义书签。 4.1 应急预警级别 ................................................. 错误!未定义书签。 4.2 应急预警处理流程.......................................... 错误!未定义书签。 4.2.1 一级预警处理............................................ 错误!未定义书签。 4.2.2 二级预警处理............................................ 错误!未定义书签。 4.2.3 三级预警处理 ........................................... 错误!未定义书签。 5 附件 ............................................................................ 错误!未定义书签。 5.1.1 故障报告单 ............................................... 错误!未定义书签。

机房设备维护方案

机房设备维护方案 一、维护目的 保障机房设备正常运行,过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,通过保养延长设备生命周期,降低故障率。确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护人员的产品维修和技术支持,并快速解决故障。 二、维护内容 1、机房主机设备维护管理:计算机服务器(包括PC服务器及存储服务器);网络设备(交换设备等)。 2、机房监控设备维护管理:供配电监测系统、温度环境检测系统、门禁设备系统、保安监控设备。 3、机房空调与配电设备维护管理:空调设备、新风设备、UPS电池、主配电箱。 4、机房消防设备维护管理:烟感热感探测器、手动报警按钮和报警控制器、灭火器的控制装置。 5、机房供水水路、电路及照明维护管理:水电路管线及接口的检查维护。 6、机房基础维护管理:机柜线路的整理、标签检查更换、机房除尘清洁、防火地板、墙面、吊顶、门窗及相关配套的维护管理。 三、具体维护方案 1、机房主要设备维护及安全:

服务器维护及安全: ①关闭无用的端口: 网络连接都是通过开放的应用端口来实现的。尽可能少地开放端口,就会大大减少了攻击者成功的机会。关闭掉不会用到的服务。telnet使用更为安全的ssh来代替。下载端口扫描程序扫描系统,如果发现有未知的开放端口,马上找到正使用它的进程,从而判断是否关闭。 Windows主机可采用定义安全策略的方法关闭隐患端口;也可采用筛选tcp端口添加允许的端口,其余端口就被自动排除。 Linux主机可检查inetd.conf文件。在该文件中注释掉那些永不会用到的服务(如:echo、gopher、rsh、rlogin、rexec、ntalk、finger等)。 ②删除不用的软件包 将不需要的服务一律去掉,如果服务器运行了很多的服务。但有许多服务是不需要的,很容易引起安全风险;同时可以腾出空间运行必要的服务,既节省资源又能保证服务器安全。 ③不设置缺省路由 在服务器中,应该严格禁止设置缺省路由,建议为每一个子网或网段设置一个路由,否则其它机器就可能通过一定方式访问该服务器而造成安全隐患。 ④口令管理

中心机房维保方案申请报告V4.0

MOUMOU公司中心机房维保方案申请报告 尊敬的公司领导: 此申请主要针对硬件资源:服务器,展开阶段性维保申请报告,目前我司自搭建纵多平台,投入的硬件平台成之正比增加,且价格昂贵,服务器介质属于特种硬件设备,一般不具备代替性,即便同等配置和型号,更不容故障的发生和硬件的损坏,服务器运作的过程等同于资产的损耗和折旧,现状不更新或升级硬件组件的情况下,我们需要对服务器的正常运行、故障率、损坏率进行其基本的安全保障,特具此申请。以下进行关联性描述:一:我们为什么要维保 只针对已经过保修期内的重要、核心服务器进行维保,一旦在维保期内出现的任何硬件故障,便是无条件免费更换单部件或整机,一般费用的收取按照单台购入价格收取最低5%;最高10%进行收取。好比IPhome手机,均价5000/台只需要在过保后进行6%的缴费,以最低成本解决最大化投入 二:维保的重要性 机房所有服务器设备造价接近百万,服务器总数:21台、存储2台、总金额约计:170万左右,原金蝶服务器在内(30万左右),任何其中一台损坏造成的损失都将与之计划投入的维保费用持恒。尤其服务器数量越多,故障大概率事件随之越高。从长远考虑,一般在即将过保之时便已续保,防范于未然。 三:维保的效果 当设备或材料产生损坏或发生故障时,将无条件更换全新设备。服务商负责送设备至原厂进行更换,当更换设备所需要的时间超过5个工作日,则必须提供档次不低于更换设备的备件。在维保期间,提供保养保修服务不限报修、更换次数,直至维保合约到期。 四:现阶段状况分析 以下承载业务简称说明:该项内容具指服务器目前所安装使用的系统或运行的程序名

维保属于阶段性工作,不宜一次性投入,按照规划,将进行阶段性计划,阶段界定为:阶段计划《一》和阶段计划《二》,于2015年体现阶段计划《一》,2016年体现阶段计划《二》,此次报告将计划排列至2016年止 2015年体现阶段计划《一》

应用系统运维应急方案

运维应急方案

目录 1前言 (3) 2目标 (3) 3组织结构 (3) 4应急预警 (3) 4.1应急预警级别 (3) 4.2应急预警处理流程 (5) 4.2.1一级预警处理 (5) 4.2.2二级预警处理 (5) 4.2.3三级预警处理 (6) 5附件 (8) 5.1.1故障报告单 (8)

1前言 重庆眯客信息技术有限公司运维支持部负责公司业务系统运行维护工作。 为了保障公司因业务系统的安全、平稳运行,运维支持部特此指定运维应急方案,通过此方案来保证系统的安全。 2目标 ?保障公司服务器的正常运行、网络的畅通。 ?严格岗位制度、明确工作职责,规范工作流程。 ?工作规范化,制度化,加强文档管理力度。 3组织结构 根据运维工作的范围和性质,下设三个小组: ?系统维护组 ?应用维护组 ?技术值班组 4应急预警 4.1 应急预警级别

4.2应急预警处理流程 运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下: 4.2.1 一级预警处理 运维过程中,如果遇到一级预警,按以下流程进行处理: 1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障 点状态,并分析故障原因。 2.运维工程师在排查出故障后,立即着手解决。 3.在故障排除后,对所发生故障的设备进行事后跟踪。 4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说 明。 4.2.2 二级预警处理 运维过程中,如果遇到二级预警,按以下流程进行处理: 1.当通过监控或得知系统出现故障时,首先在最短的时间内查看故 障点状态,并分析故障原因。

机房维护方案总结

机房维护方案 一、维护目的 保障机房设备正常运行,过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,通过保养延长设备生命周期,降低故障率。确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护人员的产品维修和技术支持,并快速解决故障。 二、维护内容 1、机房主机设备维护管理:计算机服务器(包括PC服务器及存储服务器);网络设备(交换路由设备等)。 2、机房监控设备维护管理:供配电监测系统、温度环境检测系统、门禁设备系统、保安监控设备。 3、机房空调与配电设备维护管理:空调设备、新风设备、UPS电池、主配电箱。 4、机房消防设备维护管理:烟感热感探测器、手动报警按钮和报警控制器、灭火器的控制装置。 5、机房供水水路、电路及照明维护管理:水电路管线及接口的检查维护。 6、机房基础维护管理:机柜线路的整理、标签检查更换、机房除尘清洁、防火地板、墙面、吊顶、门窗及相关配套的维护管理。 三、具体维护方案

1、机房主要设备维护及安全: 服务器维护及安全: ①关闭无用的端口: 网络连接都是通过开放的应用端口来实现的。尽可能少地开放端口,就会大大减少了攻击者成功的机会。关闭掉不会用到的服务。telnet使用更为安全的ssh来代替。下载端口扫描程序扫描系统,如果发现有未知的开放端口,马上找到正使用它的进程,从而判断是否关闭。 Windows主机可采用定义安全策略的方法关闭隐患端口;也可采用筛选tcp端口添加允许的端口,其余端口就被自动排除。 Linux主机可检查inetd.conf文件。在该文件中注释掉那些永不会用到的服务(如:echo、gopher、rsh、rlogin、rexec、ntalk、finger等)。 ②删除不用的软件包 将不需要的服务一律去掉,如果服务器运行了很多的服务。但有许多服务是不需要的,很容易引起安全风险;同时可以腾出空间运行必要的服务,既节省资源又能保证服务器安全。 ③不设置缺省路由 在服务器中,应该严格禁止设置缺省路由,建议为每一个子网或网段设置一个路由,否则其它机器就可能通过一定方式访问该服务器而造成安全隐患。 ④口令管理

中心机房维保方案..

目录 第一章机房维护方案 (2) 第二章维护组织机构及职责 (3) 第三章日常维护方案及项目、应急保障方案 (5) 第四章机房维保报价 (9) 第五章公司简介及资质 (9) 1 公司概况 (9) 2 企业文化 (9) 3 主要优势 (10) 4 资质证明材料 (12) 4.1营业执照 (12) 4.2安防一级资质、ISO9001认证 (13)

第一章机房维护方案 1.1维护设备内容 本方案维护内容为中心机房内空调设施、UPS供电、发电机组、消防设施、防雷、布线、环境监测系统等。 1.2维护管理的工作内容 1.2.1保证全程全网安全、稳定、高效运行; 1.2.2保证运行质量达到网络技术指标和服务质量指标的要求; 1.2.3作好各项日常维护,保证维护文档和技术资料的完整、正确; 1.2.4做好客户端维护工作,定期组织巡检。 1.3维护分工界面 电力系统维护界面:我公司负责市电配电箱至UPS以下电源系统维护,包括电池组、空调、机房照明、机架电源维护工作。 材料界面:我公司负责网线、水晶头、标签、尾纤、机房设备电源线材料。机房管理部门负责自购服务器硬件材料、机房其它附属材料(门、窗、静电地板等)提供。 1.4故障和投诉处理 凡影响客户正常使用业务的情况,都称为故障。客户业务故障处理应遵循“先抢通、后修复”原则,即利用各种手段快速恢复客户业务、然后尽快找出故障点,恢复故障。

财 务部库房管理采配部售后服务办公室副总经理技术部各工程队工程部质管部培训部副总经理市场部 副总经理总经理董事会第二章 维护组织机构及职责 2.1组织机构 2.2人员配置表 2.2.1维护部门人员配置

机房维保方案

机房维保方案 随着计算机技术的快速发展和员工对计算机使用操作步骤的日益增加,机房的地位和作用越来越重要。合理有效地对机房进行管理,将对设备的运行维护、快速处理设备故障、降低成本具有十分重要的意义。 一、机房设备对环境的要求 1、机房空气环境 机房设备维护主要包括电气环境、温湿度、防尘、防鼠等方面。 (1)电气环境要求 电气环境的要求主要是指防静电要求和防电磁干扰等。 防静电要求播出设备内部电路采用大量的半导体、CMOS等器件。由于这类器件对静电的敏感范围为25~1000V,而静电产生的静电电压往往高达数千伏甚至上万伏,足以击穿各种类型的半导体器件,因此机房应铺设抗静电活动地板,地板支架要接地,墙壁也应做防静电处理,机房内不可铺设化纤类地毯。工作人员进入机房内要穿防静电服装和防静电鞋,避免穿着化

纤类服装进入机房。柜门平常应关闭,工作人员在机房内搬动设备和拿取备件时动作要轻,并尽量减少在机房内来回走动的次数,以免物体间运动摩擦产生静电。 对于长期运行但无法经常清洁的设备,专门对设备做一次清洁是很有必要的。在长期的维护工作中,有时会碰到电路板的告警,如果对该电路板重新插拔,清洁掉电路板插针周围的灰尘,电路板就会恢复正常。 电磁干扰对播出设备的硬件和软件都有可能造成损害,播出设备本身产生的电磁辐射也会对临近的电子设备产生影响。因此,设备在安装时,应与临近用电设备保持一定的距离,必要时机房应采取屏蔽措施,以免临近电子设备之间相互产生干扰。播出设备的机外布线最好与火线交叉通过,并尽量避免长距离靠近并行。 (2)温湿度要求 播出设备尤其是交换机和磁盘阵列等设备对机房的温度有着较高的要求。温度偏高,易使机器散热不畅,使晶体管的工作参数产生漂移,影响电路的稳定性和可靠性,严重时还可造成元器件的击穿损坏。播出设备在长期运行工作期间,机器温度控制在18℃~25℃之间较为适宜。湿度对通信设备的影响也很大。空气潮湿,易引起设备的金属部件和插接件管部件产生锈蚀,并引起电路板、插接件和布线的绝缘降低,严重时还可

机房及设备维护方案与计划

机房及设备维护方案与计划 一、预防性检查 1、巡检时间 每个工作日上午9点 2、巡检地点 计算机机房、精密空调、UPS 3、巡检目的 进行机房检查,对机房设备及供电系统、UPS系统、精密空调系统、录像系统等设备进行检查,及时发现设备隐患,排除故障。 4、巡检要求 4.1巡检期间,进行状态检查,若发现问题,如计算机机房物理环境异常、精密空调异常、UPS及配电系统异常等,应按照应急预案及操作流程进行处理。 (1)电源、UPS:检查机房供电状况,UPS工作情况、指示状态。检查UPS蓄电池使用状态,确保蓄电池无松动。并使用温度枪进行检测物理温度。确保配电柜及UPS、蓄电池无温度过高现象。 (2)机房环境:检查机房卫生状况及物理环境。 (3)机房温度:检查温湿度,将温湿度控制在一定范围内。温度:22℃±5℃,湿度≤60%. (4)机房空调:空调运行状态、空调内部有无漏水现象、空调噪音、空调风量等。 (5)机房照明:机房照明系统是否正常,有无异常状况。 (6)机房PDU:PDU市电或UPS是否正常,使用温度枪进行检测外部物理温度。 (7)机房整体:检查机房其余设备运行状态,有无报警及指示灯异常状态。 4.2如果故障按恢复规程无法有效恢复,特别是当发生机房环境(动力、空调)故障、关键的设备、网络、系统、服务如无法及时恢复时,应立即通知甲方相关领导,由相关领导协调资源进行故障处理。 4.3故障处理过程必须在机房日常巡检表的备注栏中详细记录,以备查阅。

5、计算机机房现场管理要求 5.1除工作人员外,其他工作人员进出机房,需签字后方可进入,同时计算机机房人员要在现场,检查监督其人员工作,避免其他人员未经授权擅自接触机房物理设备。 5.2机房的机柜、线缆、设备等的标签管理; 5.3机房环境清理。 6、每日检查内容列表 二、现场故障维修 每日巡检过程中,如有发现设备及环境系统有故障状态,需进行记录并恢复故障状态。如不能立即恢复故障状态,则需进行应急预案处理。具体如下: 1、环境故障:卫生、温湿度、照明。(四级故障)

机房维保方案_模板

网络机房系统年度维保项目 维 保 方 案

金茂达电子 2016年月 一、维保期服务容 1、巡检服务:本方案按合同载明的设备(系统)清单,分别提供不同标准的巡检服务。对所有的设备(系统)提供一年至少四次的巡检保养。 2、故障响应服务:本方案按故障等级提供不同的故障响应服务,力求在最短的时间恢复业务运行,并排除故障,月/季度及时提交故障排除报告,报告容包括:故障排除过程描述及故障分析、服务清单等。 3、培训服务:本方案提供现场培训和集中培训。 二、巡检服务流程及容 1、巡检服务流程: 1)我方提交巡检方案给用户; 2)用户通知巡检; 3)我方工程师进入现场巡检; 4)巡检完毕后,收拾好现场并于五个工作日提交巡检报告给用户。 2、巡检服务容: ⑴空调系统 环境检查 1)房间的清洁程度

2)房间的温度分布是否合理 3)房间的出风布置是否合理 4)检查新风系统 5)检查空调及空调周围是否有凝露并解决 ●过滤网 1)外观检查 2)清洁 3)更换(如果需要) ●皮带 1)外观 2)调整松紧度 3)更换(如果需要) ●风机电机 1)外观 2)轴承 3)噪音情况 4)运行电压 5)运行电流 6)气流开关 7)I/O板 ●压缩机 1)外观 2)清洁

4)管路 5)液镜 6)压缩机的运行压力 7)高压开关 8)低压开关 9)干燥过滤器 10)液体管路电磁阀 11)安全阀 12)膨胀阀 13)运行电压 14)运行电流 15)I/O板 16)压缩机过热保护器 ●蒸发器的清洗 1)蒸发器外观检查 2)所有翅片上的灰尘污垢清洗 3)冷凝器 4)外观 5)清洁(需用户提供水源) 6)冷凝风扇 ●加湿系统 1)外观

信息机房维保方案

信息机房精密空调及UPS系统维保 运维服务方案 1、前言 随着社会经济及科学技术的飞速发展,计算机网络的逐渐普及,现XX供电公司共有信息机房13个,是公司综合数据网核心设备以及业务应用、安全保障和工具类系统的关键支撑,然而所有机房的UPS和精密空调已经过了质保期,在其出现故障时无法得到原厂的技术支持和硬件的更换,极大的影响了信息设备的安全运行。 2、实施目标 针对该信息系统维护项目,XX利泰电力建设有限公司提供运行维护的服务范围包括:共计9个直属信息通信机房,13套UPS系统进行日常运行维护及保养,其中120kVA 2套(公司本部),10kVA 11套(客户服务中心1套、4个县级供电企业各1套、检修公司2套、4个县级控股供电企业各1套),保证设备在运期间状态良好,降低整体管理成本,提高网络信息系统的整体服务水平。 3、实施方案设计原则及依据 3.1 根据《国网XX供电公司信息机房精密空调及UPS系统维保合同》进行编制 4、实施组织

4.1施工管理组织机构图 4.2机房UPS 、精密空调动力环境运维服务 4.2.1接收服务请求和咨询 在7*24小时工作时间内设置专人值守的热线电话,用于解决内部的技术问题以及机房突发情况。 表示领导管理关系 表示任务转换关系 电力开发总公司 运维队 全体人员 项目经理

4.2.2我公司采用定期巡检结合故障现场服务。定期巡检结合故障现场运行维护服务的基本操作流程如下图所示: 现场巡检服务是我公司对客户的设备及系统进行全面检查的服务项目,通过该服务可使客户获得设备运行的第一手资料,最大可能地发现存在的隐患,保障设备稳定运行。同时,我公司将有针对性地提出预警及解决建议,是用户能够提早预防,最大限度降低运营风险。 4.3行为规范 (1)遵守用户的各项规章制度,严格按照用户相应的规章制度办事。

IT系统运维事故应急预案

1.编制目的 建立健全项目事故应急机制,提高XXXXXXXX应对项目实施过程中突发事故的能力,保持实施体系稳定,保障客户方权益和客户满意度,促进业务健康、可持续发展 1.1.编制依据 依据XXXXXXXXPMO发布《项目质量事故预防及处理制度》,制定本预案。 1.2.事故分级 按照突发事故严重性和紧急程度,突发质量事故分为特别重大质量事故、严重质量事故、一般质量事故和轻微质量事故四级。 a)重大:由于项目组的不规范操作、不规范管理,对系统生产环境造 成严重的数据丢失、系统崩溃、当机,以及造成重大经济损失,严 重影响客户满意的质量事故,定义为重大质量事故。 b)严重:由于项目组不规范的情况下对系统生产环境所做操作,而造 成对系统生产环境的严重影响(如造成数据丢失、数据混乱)、造 成一定程度经济损失,但能通过应急措施补救、挽回部分损失的事 故,定义为严重质量事故。 c)一般:由于项目组在未得到客户方授权的情况下对系统生产环境所 做操作,而造成对系统生产环境数据损坏或混乱,但未造成较大程 度经济损失,通过应急措施可以有效保证数据完备的事故,定义为 一般质量事故。 d)轻微:未对系统生产环境造成数据影响,但不符合规范化操作和管 理要求,对系统整理质量存在较大风险,且造成项目资产的不完整, 造成轻微经济损失的。如未对代码做及时定期的备份,导致代码版 本的不完整或代码版本管理混乱的,定义为轻微质量事故。 1.3.适用范围 本预案适用于XXXXXXXX负责实施、管理的全部项目。

2.组织指挥及职责 2.1.应急责任人 项目经理为项目应急责任人。 2.2.应急协调人 项目经理必须在发生质量事故后2小时内,向所在部门经理客观反馈问题,由项目经理初步判定项目事故等级。 级别在一般(包含)以下的事故,由项目经理作为应急处理协调人,负责总体监督、协调。 级别在严重(包含)以上的事故,由部门经理作为应急处理协调人,负责总体监督、协调。 2.3.专家组 实施支持中心作为实施专家团队,负责应急处理支持,由应急责任人在接到事故时,进行协调通报。 级别在严重(包含)以上的事故,实施专家团队必须指定专人参及事故应急处理,负责支持进行项目影响评估、损失弥补方案等工作。 2.4.涉及外包项目 整体或部分外包项目发生事故时,外包商必须指派项目经理的直属上级作为应急处理外包方协调人,外包方项目经理作为外包方负责人,由外包方负责人直接参及项目事故应急处理,协调人负责资源协调;涉及外包人员事故,该人员必须直接参及应急处理。事故应急处理完毕后再根据公司制度对上述公司或个人执行惩罚。 2.5.涉及第三方供应商 涉及第三方供应商的项目事故,第三方商必须指派专人负责,直接参及项目事故应急处理,事故应急处理完毕后再根据公司制度执行惩罚。3.事故处理程序 3.1.事故响应

机房保养、使用维护方案

机房保养、使用及维护方案 一、机房维护的必要性 机房内的设备对工作环境有着非同一般的要求。 1、机房设备十分爱干净,对灰尘特别“感冒”。如果设备长期处于灰尘漫舞的环境中工作,很容易发生故障,因为灰尘会不知不觉地渗入设备的控制框中,并直接覆盖到它的电子线路中。时间一长,设备内部的工作电路就会散热不良,长此以往自然就容易出现故障。 2、设备都害怕潮湿。设备内部有电子线路,如果电子线路中的各个元器件长期在潮湿环境中工作,其电气性能会逐步下降,而且还有可能产生漏电现象,引发火灾事故。 3、设备对环境温度十分敏感。高于40℃的环境或低于0℃的环境会降低设备的工作效率,使它的潜能得不到充分发挥,从而减少使用寿命。 4、机房的硬件设备品牌过多、产品供应商过多,厂家售后保障措施不到位等等原因,导致设备使用一段时间后,设备故障不断、损坏率不断攀升,最终不得不对原有设备进行大面积更新,出现重复投资、浪费严重的现象。 对于客户而言,往往因为专注于业务或者受成本所限,缺乏专业的机房维护人员以及充足的备件。如果说小故障尚可解决,那么,一旦机房发生突如其来的大故障,客户便会措手不及,或者无法找到症结所在,或者没有可更换的备件。此时,损失已经造成了。 为了做好机房设备的维护工作,我公司维修中心配备相应的人力、物力(工具、通讯设备等),确保中心机房正常运作,通过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,通过保养延长设备生命周期,降低故障率。 确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护公司的产品维修和技术支持,并快速解决故障。

机房维护方案71545

机房维护方案 一、机房维护的必要性 机房内的设备对工作环境有着非同一般的要求。 1、机房设备十分爱干净,对灰尘特别“感冒”。如果设备长期处于灰尘漫舞的环境中工作,很容易发生故障,因为灰尘会不知不觉地渗入设备的控制框中,并直接覆盖到它的电子线路中。时间一长,设备内部的工作电路就会散热不良,长此以往自然就容易出现故障。 2、设备都害怕潮湿。设备内部有电子线路,如果电子线路中的各个元器件长期在潮湿环境中工作,其电气性能会逐步下降,而且还有可能产生漏电现象,引发火灾事故。 3、设备对环境温度十分敏感。高于40℃的环境或低于0℃的环境会降低设备的工作效率,使它的潜能得不到充分发挥,从而减少使用寿命。 4、机房的硬件设备品牌过多、产品供应商过多,厂家售后保障措施不到位等等原因,导致设备使用一段时间后,设备故障不断、损坏率不断攀升,最终不得不对原有设备进行大面积更新,出现重复投资、浪费严重的现象。 对于客户而言,往往因为专注于业务或者受成本所限,缺乏专业的机房维护人员以及充足的备件。如果说小故障尚可解决,那么,一旦机房发生突如其来的大故障,客户便会措手不及,或者无法找到症结所在,或者没有可更换的备件。此时,损失已经造成了。 为了做好机房设备的维护工作,我公司维修中心配备相应的人力、物力(工具、通讯设备等),确保中心机房正常运作,通过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,通过保养延长设备生命周期,降低故障率。 确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护公司的产品维修和技术支持,并快速解决故障。 二、维护内容 1、机房监控设备维护管理:供配电监测系统、空调环境检测系统、门禁设备系统、漏水检测、保安监控设备(包含摄像头、硬盘录像机)、监控主机; 2、机房空调与配电设备维护管理:精密空调机组、新风设备;UPS及电池、主配电柜、UPS 配电柜; 3、机房消防设备维护管理:各种探测器、手动报警按钮和报警控制器,灭火剂的控制装置; 4、机房供水水路、电路及照明线路的维护管理:水、电路管线及接口的检查维修。 5、机房基础维护管理:机柜线路的整理、标签检查更换、机房除尘清洁、地板、墙面、吊顶、门窗及有关配套的维护管理 6、机房主机设备维护管理:计算机服务器(包括PC服务器、存储服务器);网络设备(路由及交换设备等);KVM系统; 7、机房运维管理体系建设:完善机房运维规范,优化机房运维体系; 三、维护具体需求 1、机房监控设备: 1)每季度一次设备的除尘、清理,扫净监控设备显露的尘土,对摄像机、防护罩、门禁、监控采集模块等部件要卸下彻底吹风除尘,之后用无水酒精棉将各个擦干净,调整摄像头清晰度,防止由于机器运转、静电等因素将尘土吸入监控设备机体内,确保机器正常运行。同时检查监控机房通风、散热、净尘、供电等设施。室外温度应在-20 ℃~+60℃,相对湿度应在10%~100%;室内温度应控制在+5℃~+35℃,相对湿度应控制在10%~80%,留给机房监控设备一个良好的运行环境。 2)根据监控系统各部份设备的使用说明,每月检测其各项技术参数及监控系统传输线路质量,处理故障隐患,协助监控主管设定使用级别等各种数据,确保各部份设备各项功能良好,能够正常运行。 3)对容易老化的监控设备部件每月一次进行全面检查,一旦发现老化现象应及时更换、维修,如视频头、采集模块等。

(完整word版)运维系统及中心机房应急预案

运维小组应急预案 随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。 本预案共分为应用系统故障应急流程和机房突发事件应急流程 系统故障应急流程 一、系统故障应急流程说明 1、故障发生 系统运维服务小组可从以下途径得知故障的发生: 1.1、运维服务中心通过网管告警发现故障 1.2、维护站点通过维护巡检发现故障 1.3、用户发现故障,报给呼叫中心 1.4、驻场工程师发现故障 2、报障受理 监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。 3、信息研判 运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。 4、预案启动 如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。 5、资源确认

系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源: 我公司技术支持人员; 相关厂家技术支持人员; 我公司聘请的技术专家 6、预案执行 按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。 7、预案终止 预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。 8、结果上报 预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急领导小组。

机房改造方案 (完整)

机房改造方案 一、总述 本方案为**公司中心机房整改方案,主要目的为:清理机房设备,优化网络结构,规范机房线缆,提高系统安全性及抵御风险能力。 二、网络现状及存在的隐患 1、布线年限较长,部分老化,线路过多,线路连接较混乱,没有线缆分类隔离,未使用或故障线缆和设备未拆除。容易出现断网,丢包延时过大,以及发生故障时维护困难等问题。 2、机房内防尘、防雷、温湿度保护措施欠缺,设备长期处于此环境会严重影响设备使用年限。 3、机柜容量已饱和,部分未使用或已淘汰的设备仍放置于机柜内,占用大量空间,并对设备放置、网络规划和布线造成影响。 4、操作系统密码设置简单随意,安全策略配置不到位,漏洞的检测和修复次数过少,使系统容易受到攻击,造成数据泄露。 5、在机房、网络、设备管理,以及各种维护方面没有完善的管理维护规章制度和流程,造成了管理维护稍显混乱。 三、整治解决方案 因机房环境复杂性最好安排停机进行操作,因此在机房改造前,需要做好系统备份、数据备份和配置备份。 根据机房的管理现状,此次整改将涉及四个方面: 1、软件方面 由于机房内的设备均处于生产运营状态,不能轻易进行变更网络状态、关闭

设备等操作,以免用户使用过程中出现问题,造成投诉。故建议首先从软件方面着手进行整改。 软件方面需要整改的问题如下: (1)操作系统密码修改 操作系统登录密码统一修改,并形成密码编写规范。 (2)操作系统安全策略配置和漏洞检测修复。 1)建议开启审核策略 2)建议开启密码策略 3)建议开启账户策略 4)不显示上次登录名 5)禁止建立空连接 6)建议可以使用360安全卫士或腾讯电脑管家等软件检测和修复系统漏洞 (3)关闭不必要的服务和端口 关闭操作系统的不必要的服务和端口,保证系统安全。 (4)数据库备份 在做各个操作前,首先进行一次数据库备份,以免数据丢失。并形成数据库备份的规章制度,规定备份的间隔时间,备份形式,以及备份 文档的名称编写。 2、硬件方面 (1)清理多余的服务器和网络设备 为了方便在使用的设备的放置,网络结构的规划,布线的更加规范

xx系统运维方案

系统运维方案 国网省电力公司 有限公司 20XX年X月

目录 1定义和解释 (3) 2运维服务范围及对象 (4) 2.1服务范围 (4) 2.2服务对象 (4) 2.3服务地点 (4) 3服务相关定义内容 (5) 3.1服务目录 (5) 3.2服务内容 (5) 3.3服务响应等级 (5) 4服务管理过程 (6) 4.1规划阶段 (6) 4.2部署阶段 (6) 4.3运维阶段 (6) 4.4验收阶段 (6) 4.5闭合管理交付 (6) 5服务承诺 (7) 6运维组织体系管理 (8) 6.1管理方式 (8) 6.2人员配备及职责要求 (8) 7运维质量管理指标 (9) 7.1运维质量考核 (9) 7.2重点工作 (9) 8服务双方责任 (10) 1)流程总体说明 (11) 2)现场运行管理 (11) 3)调度管理 (11) 4)后台检修管理 (12)

1定义和解释 甲方:国网省电力公司。 乙方:XXXXXXXXXXXXXXXXX”

2运维服务范围及对象 2.1服务范围 服务范围主要包括如下内容: 2.2服务对象 国网省电力公司本部及下属单位,乙方提供甲方本部、区域分公司等相关远程服务,并就甲方本部需求提供现场服务。 2.3服务地点 省电力公司本部

3服务相关定义内容3.1服务目录 3.2服务内容 3.3服务响应等级

4服务管理过程 4.1规划阶段 4.2部署阶段 4.3运维阶段 4.4验收阶段 4.5闭合管理交付 序号阶段关键交付物备注 1)规划阶段 2)部署阶段 3)运维阶段 4)验收阶段 说明:运维阶段交付物 序号支持类别服务交付成果提交频度1)远程支持每周 2)现场支持每月 每日3)系统健康度自 查 4)障碍处理按需 5)运维分析每月 6)应用分析每月 7)应急抢修按需 8)其他按需

计算机机房维护方案设计

XXXXXXXXXXXX公司 信息机房年度维保服务技术方案书

目录 第一章信息机房设备维护方案 (3) 一、机房对环境的要求: (3) 1.1电气环境要求 (3) 1.2温湿度要求 (4) 1.3防尘要求 (4) 二、维护容 (6) 三、维护方案 (7) 3.1机房基础维护 (7) 3.2动力配电柜及照明系统维护 (7) 3.3机房新风排气系统 (8) 3.4机房防雷接地系统 (8) 3.5机房动力环境监控系统 (8) 3.6机房空调系统 (9) 3.7UPS及电池维护 (11) 3.8消防设备的维护及检测 (11) 第二章质量服务承诺及具体质量服务保证措施 (13) 一、质量服务承诺 (13) 1.1培训 (13) 1.2技术支持及保修 (13) 二、质量服务保证措施 (16) 2.1项目质量管理体系及原则 (16) 2.2项目管理组织机构 (16) 2.3项目服务响应时间 (18) 三、维护服务质量 (20)

第一章信息机房设备维护方案 一、机房对环境的要求: 1.1电气环境要求 电气环境的要求主要是指防静电要求和防电磁干扰等。 防静电要求通信设备部电路采用大量的半导体MOS、CMOS等器件。由于这类器件对静电的敏感围为25~1000V,而静电产生的静电电压往往高达数千伏甚至上万伏,足以击穿各种类型的半导体器件,因此机房应铺设抗静电活动地板,地板支架要接地,墙壁也应做防静电处理,机房不可铺设化纤类地毯。工作人员进入机房要穿防静电服装和防静电鞋,避免穿着化纤类服装进入机房。柜门平常应关闭,工作人员在机房搬动设备和拿取备件时动作要轻,并尽量减少在机房来回走动的次数,以免物体间运动摩擦产生静电。 对于长期运行但无法经常清洁的设备,专门对设备做一次清洁是很有必要的。在长期的维护工作中,有时会碰到电路板的告警,如果对该电路板重新插拔,清洁掉电路板插针周围的灰尘,电路板就会恢复正常。 电磁干扰对通信设备的硬件和软件都有可能造成损害,通信设备本身产生的电磁辐射也会对临近的电子设备产生影响。因此,设备在安装时,应与临近用电设备保持一定的距离,必要时机房应采取屏蔽

系统运维事故应急预案

项目事故应急预案 1.编制目的 建立健全项目事故应急机制,提高XXXXXXXX应对项目实施过程中突发事故的能力,保持实施体系稳定,保障客户方权益和客户满意度,促进业务健康、可持续发展 1.1.编制依据 依据XXXXXXXXPMO发布《项目质量事故预防与处理制度》,制定本预案。 1.2.事故分级 按照突发事故严重性和紧急程度,突发质量事故分为特别重大质量事故、严重质量事故、一般质量事故和轻微质量事故四级。 a)重大:由于项目组的不规范操作、不规范管理,对系统生产环境造 成严重的数据丢失、系统崩溃、当机,以及造成重大经济损失,严 重影响客户满意的质量事故,定义为重大质量事故。 b)严重:由于项目组不规范的情况下对系统生产环境所做操作,而造 成对系统生产环境的严重影响(如造成数据丢失、数据混乱)、造 成一定程度经济损失,但能通过应急措施补救、挽回部分损失的事 故,定义为严重质量事故。 c)一般:由于项目组在未得到客户方授权的情况下对系统生产环境所 做操作,而造成对系统生产环境数据损坏或混乱,但未造成较大程 度经济损失,通过应急措施可以有效保证数据完备的事故,定义为 一般质量事故。

d)轻微:未对系统生产环境造成数据影响,但不符合规范化操作和管 理要求,对系统整理质量存在较大风险,且造成项目资产的不完整, 造成轻微经济损失的。如未对代码做及时定期的备份,导致代码版 本的不完整或代码版本管理混乱的,定义为轻微质量事故。 1.3.适用范围 本预案适用于XXXXXXXX负责实施、管理的全部项目。 2.组织指挥与职责 2.1.应急责任人 项目经理为项目应急责任人。 2.2.应急协调人 项目经理必须在发生质量事故后2小时内,向所在部门经理客观反馈问题,由项目经理初步判定项目事故等级。 级别在一般(包含)以下的事故,由项目经理作为应急处理协调人,负责总体监督、协调。 级别在严重(包含)以上的事故,由部门经理作为应急处理协调人,负责总体监督、协调。 2.3.专家组 实施支持中心作为实施专家团队,负责应急处理支持,由应急责任人在接到事故时,进行协调通报。 级别在严重(包含)以上的事故,实施专家团队必须指定专人参与事故应急处理,负责支持进行项目影响评估、损失弥补方案等工作。 2.4.涉及外包项目

相关文档
最新文档