公司服务应急响应规范V1.1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

编号:TSB/FW-YJXY03-001

主题:服务应急响应机制

保密级别:秘密

部门:售后实施部

主编:XXXX

审核:XXXX

批准:经管会

版本:V1

生效日期:2012/3/9

页数: 2

服务应急响应机制

在产品规划和开发时对业务关键环节进行了软件可靠性和冗余性的设计。在出现一般网络系统和模块故障的情况下,软件系统本身可以通过冗余设计继续提供服务。因此,本应急处理流程主要针对的是系统出现一些不可预测的异常情况时,如何建立一个有效的故障响应机制,对故障进行快速响应,并采用最有效和合适的措施处理应急生产问题,保障项目的正常运行。

凡不能在较短时间内现场处理,对生产造成一定影响的案例生产问题均属于应急生产问题,将立即启动应急处理流程进行应急处理。

一、系统应急预案

公司为客户提供软件实施服务、定制维保服务等专业系统技术服务的同时,建立了应急保障机制,提高对突发事件的组织指挥能力和应急处置能力,保证应急保障指挥调度工作迅速、高效、有序地进行,满足突发情况下,系统保障和业务恢复工作的需要。当项目系统设施遭受异常破坏、异常流量或其他特殊故障情况下,使用应急保障恢复该系统重点数据、重要局点等重要的软件模块,确保该项目平稳运行。

二、应急保障措施

针对软件交付项目,公司在项目交付期间,在项目组之外,将设立项目保障应急小组,负责领导、组织和协调服务资源,进行项目应急保障工作。

应急保障队伍,主要由公司技术服务产品专家和研发专家组成。我方拥有基于全球化的技术、人才、经验和质量管理的研发平台,通过IPD集成开发流程和CMM5,建立了路由器、交换机、安全、语音视讯、存储、业务软件、无线等产品专业研发团队。强大的本地化研发队,能够在紧急时刻,奔赴现场,集中研发专家力量,进行系统保障与恢复,满足项目紧急情况下系统恢复的需要。

公司已经建立了应急保障流程和机制,将不断的积累经验,提升应急保障能力。

三、应急技术工作流程

项目应急保障流程分为上报阶段、信息收集阶段、预案启动阶段、预案实施阶段、应急保障结束阶段和后期处置阶段等。

突发事件发生时,出现异常重大系统中断和异常网络设施损坏的局点项目支持小组,立即将情况按照该投标项目技术流程上报客户和我方,公司项目组根据严重程度上报客户保障应急小组。

保障应急小组根据公司800或客户上报,进行决策判断,必要情况下启动应急保障流程。需要客户进行协调的,立即上报客户。

预案实施阶段,公司保障应急小组协调应急保障队伍,建立现场应急保障指挥机构,并组织应急保障队伍迅速进行系统保障和业务恢复工作。遵循先核心、后区域,先重点、后一般的原则,通过备用资源的启用、应急保障措施的启用和应急故障专家紧急排除,完成系统应急故障处理。

应急保障工作任务完成后,由客户确定应急保障排除后,应急保障任务正式结束。

四、风险分类以及定义

根据各种运行故障可能对生产系统的正常运行造成的影响程度、波及范围,可将生产系统的全局性故障风险按照等级定义为三级:

一级风险

造成全国业务无法正常开通并时间中断(持续一天以上),产生的社会影响巨大,后果非常严重。造成一级风险的情况举例如下:

关键设备或系统的重大故障引起的业务中断,如关键设备的重大故障引起的业务中断,持续一天以上无法修复;

其他外界原因如断电、火灾等引起的导致业务中断一天以上无法恢复的;

二级风险

造成全网业务不能开通,持续时间一天以内;或部分业务不能开通,时间超过一天。造成二级风险的情况有:

业务系统故障,例如:核心交换机、骨干路由器同时发生故障;

附属设备故障引起的全网业务中断一天以内的或者部分业务中断一天以上的。

三级风险

单个系统出现故障,但可依靠备份系统接替运行,可能造成业务短暂中断;或部分业务中断,但若不能及时排除,极有可能引发重大故障,风险级别升级。造成三级风险的情况有:

业务系统故障,例如骨干核路由器故障、单条主干通信线路故障但不导致网络中断;

机房附属设备故障,如:单台UPS故障而不能正常供电。

风险分级的作用是针对不同级别的安全风险,制定不同的技术应急措施和业务应急措施,合理利用资源,及时解决问题

五、应急故障处理流程

按照三级风险级别,归纳三个工作流程如下:

一级风险:包括工作流程A;

二级风险:包括工作流程B ;

三级风险:包括工作流程C ;

A 一级风险故障处理工作流程:

问题现象

关键系统的重大故障引起的业务中断,如

1)全网核心设备路由器同时故障,持续一天以上无法修复;

2)系统供电系统故障、自然灾害、火灾等形成的重大故障导致

问题分析和处理

此类故障虽然发生概率很低,但影响的深度和广度巨大,所以通常都有专门的容灾中心接管所有生产业务,以便尽快恢复业务处理

针对这两类故障可以考虑临时租借其它容灾环境,并协调相关系统、网络、通讯等单位和部门搭建临时环境,争取在最短的时间内恢复全部或部分主要业务B二级风险故障处理工作流程:

问题现象

1)两台核心路由器同时发生故障

2)骨干网络传输线路中断

问题分析和处理

针对问题1)、故障,采取如下相应措施:

1)通过设备LOG信息或DEBUG命令输出信息,初步分析、判断问题是属于软件还是硬件问题,并记录相关输出信息;

2)根据问题类型采取如下相应措施:

如果判断为软件故障,则考虑先采取下电重启、软件升级或者配置规避的方式处理。如果重启后路由器工作正常,则维持现状尽量支撑到业务量最小的时候,进一步明确原因后晚上进行紧急变更;

如果判断为硬件故障,并短时间内无法判断问题原因,则马上通知H3C工程师到现场支持。

针对2)类故障,采取如下相应措施:

首先排除本端故障,如本段网络设备或系统、本端供电问题等,确认非本端自身原因导致故障,如果为本端自身设备和系统故障,先通过软件、硬件处理等

相关文档
最新文档