基础设施维护实施方案

基础设施维护实施方案
基础设施维护实施方案

基础设施维护方案

————————————————————————————————作者:————————————————————————————————日期:

基础设施维护方案

一、概述

运行维护,由维护及定检两部分内容组成。维护定检不仅是在问题出现时能迅速地定位、解决问题;而更重要的是在故障产生前,能够通过例行的巡检工作及时

发现故障隐患、消除故障隐患,使设备长期稳定地运行。对设备良好、有效的维护,不仅能够减少设备的故障率,并且可以延长设备的使用寿命。

维护定检的基本原则就是在例行维护定检工作中及时发现、解决问题,防患于未然。如果维护人员能在故障发生之前,在例行巡检之中,及时检测到故障的先兆,

将故障解决在萌芽期,这样不但可以避免故障发生后,由于抢修的慌乱、业务中断

所造成的经济损失;而且还可以避免故障严重化对整个设备所造成的损伤,从而降

低板件更换等维护费用,延长设备的使用寿命。而这一切,不但要求维护人员有深

厚的功底,丰富的维护经验,还要有洞察秋毫的高度敏感性。

二、总则

为基础设施的连续性和信息安全性,制定有效的运行维护策略来保证服务交付的质量,兼顾运行维护过程(及时和规范)和运行维护结果(可用和安全),实现

“事前防范,风险前移;事中控制,快速响应;事后改进,持续评估”的持续改进

原则。

2.1 可用性

采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合SLA的可用性要求。包括:

a)在服务实施时,建立相关的作业流程和响应机制,必要时按需方要求制定

系统冗余和备份规范,以满足需方对可用性的要求;

b)进行合理的人员岗位设置和职责定义,保证专人专岗并设置人员备份;

c)配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服

务可用性。人员能力具体要求;

d)选择适用的运行维护技术,以保证服务的可用性;

e)根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,

并配备相应的运行维护工具,以保证服务水平。运行维护工具等级;

f)根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。

2.2 安全性

采取各种安全手段或措施,有效控制数据中心运行维护服务的各个环节,保护数据中心运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括:

a)建立适当的信息安全管理机制,以规范数据中心运行维护服务人员的信息安全行为;

b)对运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议等;

c)对运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员了解并遵守数据中心安全、保密相关规定;

d)充分关注数据中心业务安全需求,结合信息安全技术与管理标准,进行适当的安全评估,提供相应的安全建议,并对服务对象进行适当的监控和保护;

e)对数据中心安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发生;

f)建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等。

2.3 及时性

采取适当的手段确保提供满足SLA时间指标要求的运行维护服务。包括:

a)对事件、问题、变更建立明确的分级策略,并与服务窗口时间、响应时间等指标相匹配;

b)建立可确保满足需方要求的沟通联络机制,保持沟通渠道通畅,以实现对服务需求的及时响应;

c)建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以提供及时的服务保障;

d)特殊时间段(如法定节假日或重大事件等),应提升响应级别,提供必要的现场支持;

e)建立有效机制,周期性对事件级别定义进行更新,以确保定义准确有效。

2.4 规范性

建立适当的服务管理流程、服务活动指导文件或实施规则,以保证服务过程的规范运作。包括:

a)建立有效的服务管理流程文件,以保证服务过程实施规范性;

b)建立或遵循需方的数据中心相关管理制度,如出入场管理制度、安保控制

制度等;

c)对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;

d)对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,

制定详细的实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手

段;

e)在服务过程中进行的任何活动,应建立服务档案,可形成服务报告,保留

完整的服务记录。

三、服务对象与交付说明

3.1 服务对象及内容

(1)定期对硬件设备进行巡检、保养,以保障设备运行正常(具体设备范围因合同而异,基本包括电力系统、空调系统、安防系统、网络系统、监控系统以及综合布线系统等);

(2)定期升级配套软件的版本;

(3)协助采购人制订安全策略,定期检查、排除风险,保障设备及网络环境安全;

(4)针对重要设备,实时监控运行状况,及时发现故障、排除故障;

(5)针对周期性巡检发现的安全隐患进行防范和处理;

(6)提供配件维修、更换服务

(7)系统重部署及调试:新机上架协助及系统移位协助。

(8)协助采购人,规范硬件管理维护标准化工作。

3.2 交付内容

服务交付内容包括调研评估、例行操作、响应支持和优化改善四类,其中:

a)调研评估服务:根据需方、服务相关方或系统运行的需求,对服务对象的运行状况、

运行环境进行现状调研、系统分析和评估并提出相应的建议和服务方案;

b)例行操作服务:按照约定条件触发或预先规定的常态服务,分为监控、预防性检查

和常规作业;

1)监控:指采用各类工具和技术,对服务对象的动态指标、静态指标、运行状况

和发展趋势等进行记录、分析和告警;

2)预防性检查:保证服务对象的持续正常运行,根据服务对象的监控记录、运行

条件和运行状况进行检查和趋势分析,发现其脆弱性,以便消除或改进;

3)常规作业:对数据中心服务对象进行的日常维护,包括定期保养、配置备份、

数据备份、恢复、定期重启等活动,以保证服务对象的稳定运行。

c)响应支持服务:根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响

应;

1)事件驱动响应:由于不可预测原因导致服务对象整体或部分性能下降、功能丧

失,触发将服务对象恢复到正常状态的服务活动。事件驱动响应的处理过程首先争取在最短的时间内恢复服务或启用备份资源,维持服务的持续提供,并应对事件做出分析、明确诱发事件的原因和影响的范围,采取有效的防控措施,减少类似事件的再次发生。事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;

2)服务请求响应:由于需方提出各类服务请求,引发的需要针对服务对象、服务

等级做出调整或修改的响应型服务。服务请求响应需要根据总体服务策略并参考已有的SLA/ SOW做出判断,对服务的实施进行影响评估,制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。变更型响应服务实施完成后,应进行总结,确认已达到预期的目标。此类响应可能涉及服务等级变更、服务范围变更、技术资源变更、服务提供方式变更等;

3)应急响应:指在出现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、

由于政府部门发出行政指令或需方提出要求时,应当启动应急处理程序。

d)优化改善服务:包括适应性改进、增强性改进和预防性改进三种类型;

1)适应性改进:为保持服务对象在已变化或正在变化的环境中可持续运行而实施

的改造;

2)增强性改进:根据运行需求或由于服务对象的缺陷,采取相应改进措施增强数

据中心的安全性、可用性和可靠性;

3)预防性改进:检测和纠正服务对象运行过程中潜在的问题或缺陷,以降低系统

风险,满足未来可靠运行的需求。

四、运行维护交付内容

4.1 服务对象

服务对象包括空调系统(精密空调系统、新风系统)、电力系统(供配电系统、UPS系统、发电机系统)、安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)、网络系统及设备、PC服务器、小型机等服务器以及综合布线系统。

4.2 调研评估

基础设施调研评估服务内容包含但不限于:

a) 空调系统(精密空调系统、新风系统):机房环境指标分析及改进建议、机房热点分析及布置改进建议、机房送风、回风方式改进建议,新风风量、风压指标分析及改进建议;辅助制冷单元配置建议等;

b) 电力系统(供配电系统、UPS系统、发电机系统):机柜供电分析及改进建议、机房回路调整分析调整建议、机房扩容建议等;发电机负荷分析及调整建议等;UPS运行分析及扩容建议,超过设计使用寿命的电池更换建议、整流直流电容、逆变交流电容等;

c) 安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统):防雷接地系统分析及改进建议、消防系统现状分析和改进建议(按照当地消防管理部门管理要求)、视频监控系统的分析和改进建议、门禁系统的分析和改进建议等;

d) 综合布线系统等:光纤、铜缆容量、使用效率分析;应用环境及性能分析;数量、路由改进或扩容建议;级别提升建议等。

e) 机房电源使用效率:通过对机房PUE连续监测分析,提供机房能效改进建议,包括但不限于:空调系统优化(消除机房热点、冷热通道遏制、改善送回风、使用节能型设备等)、电力系统优化(回路优化、使用节能型设备等)、实施容量管理(对机柜的电力容量、制冷容量及空间容量进行统筹管理,以充分利用资源)等。

f) 网络及网络设备调研评估:(整体或局部)网络实际负荷与承载能力分析;(整体或局部)网络预期负荷与承载能力分析与建议;(整体或局部)网络架构分析与建议;(整体或局部)网络路由策略分析与建议;(整体或局部)网络安全策略分析与建议;(整体或局部)网络配置调优分析与建议等。

g) 服务器调研评估:服务器负载情况分析;服务器安全策略分析;服务器的高可用性分析;服务器性能分析及调整建议。

4.3 例行操作

基础设施的例行操作服务包括:监控、预防性检查、常规作业。

4.3.1 监控

对基础设施的监控内容参见表1,包括但不限于:

表1 基础设施监控内容表

服务对象监控内容

空调系统(精密空

调系统、新风系统)

环境温度、环境湿度、出风温度、回风温度,告警情况等

电力系统(供配电系统、UPS系统、发电机系统)供配电系统:电流、电压、功率因数、有功功率、无功功率、谐波等

发电机:启停情况、电流、电压、负载率、控制系统供电情况等UPS:输入电流电压、输出电流电压、频率、负载率、温度、报警情况、电池充电/放电电压等

电源使用效率:PUE值(通过监控软件监测或计算得出)

安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)防雷接地系统:浪涌保护器、避雷器状态等

消防系统:消防控制系统状态、气体灭火钢瓶压力、灭火器有效期检查

视频监控系统: 告警情况、监控录像等

门禁系统:门禁状态、告警情况

网络及网络设备网络设备的健康状况、整体运行状态、各项硬件资源开销状况

链路健康状况如端到端时延变化、链路端口工作稳定性、链路负载百分比、部署路由策略情况下端到端选路变化、路由条目变化

管理权限用户的行为审计

设备软件配置变动审计

设备日志审计

安全事件审计

服务器服务器整体运行状态

服务器电源工作状态

服务器CPU工作状态

服务器内存工作状态

服务器硬盘工作状态

服务器网络端口工作状态

4.3.2 预防性检查

在监控服务的基础上对基础设施进行预防性检查。包括:性能检查和脆弱性检查。基础设施预防性检查内容参见表2,包括但不限于:

表2 基础设施预防性检查内容表

服务对象性能检查内容脆弱性检查内容

空调系统精密空调

高压压力、低压压力(风冷系统),冷冻

水压力、温度,冷却水压力、温度(水

冷系统),风机运行情况,灰尘情况等

机房热点情况、室内机漏水

检查、室外风机运转情况、

加湿罐阳极棒检查、过滤网

检查等

新风系统

风机运行情况、风速,预处理系统工作

状态,上下水情况等

过滤网检查、风压差检查

电力系统配电系统接地电阻、零序电流、器件发热情况等

导线、器件发热情况,防浪

涌器件情况等

发电机转速、发热情况等油位,吸气、排烟通道等UPS系统

器件发热情况、电池情况(外观、非免

维护电池检查液位、接线柱)、检查通风

情况(风扇、入气口、出气口)等

器件、导线发热情况,电池

放电时间、通风情况等

安防系统防雷接地系

接地电阻测试

引下线检查、接地汇接排检

消防系统钢瓶压力、有效期、探头污染等

启动瓶、管道开关、气体压

力等

视频监控系

画面清晰度(不同照度情况下)、录像硬

盘(磁带)容量、云台运行等

监控系统运行状态、监控死

角问题等

门禁系统

服务器、控制器、读卡器、门磁等工作

状态

门禁系统与消防系统和视

频监控系统的联动检查(如

果有此功能),异常情况报

警检查

综合布线系统光纤、铜缆链路测试,性能测试等线缆两端应贴有识别标签,

标志要与实际拓扑图完全一致

网络及网络设备设备机身、板卡或模块的工作情况

CPU使用峰值情况

内存使用峰值情况

主要端口的利用率

链路的健康状态,包括IP包传输时延、

IP包丢失率、IP包误差率、无效IP包

(包括攻击性IP包、欺骗性IP包、垃

圾IP包等)

检查其它的关键指标项,例如各类关键

表项、会话连接数等

是否需要升级系统微码

设备链路的冗余度要求

安全事件周期性整理分析

设备生命周期评估

备件可用性周期性检查

服务器服务器的资源分配情况和策略

CPU使用峰值情况

内存使用峰值情况

文件系统空间使用情况

IO读写情况

网络流量情况等

与存储的链路性能测试

服务器资源分配是否超过

预定阀值

服务器关键部件是否满足

运行冗余度要求

服务器关键部件的微码版

本是否需要升级

服务器关键部件链路的冗

余度要求

服务器硬盘是否RAID保护

服务器文件空间使用是否

达到预定阀值

4.3.3 常规作业

基础设施的常规作业包括基础类操作、测试类操作和数据类操作,其中:

a) 基础类操作:按服务管理手册的有关规定,执行设备的日常运行、维护和保养;

b) 测试类操作:按服务管理手册的有关规定,对基础设施各系统功能、性能进行测试;

c) 数据类操作:按事先规定的程序,对基础设施运行日志、记录等数据进行操作。

基础设施常规作业内容参见表3,包括但不限于:

表3 基础设施常规作业内容表

服务对象基础类操作测试类操作数据类操作

空调系统精密空调

启停机、清洗更换滤

网、清洗更换加湿系

统、清洁冷凝器等

漏水报警测试、周期性主

备切换/应急演练等

运行日志备份,报

警记录备份、清除

新风系统

启停机、清洗更换滤

网等

消防联动测试

运行记录备份(如

果有)

电力系统配电系统除尘、合闸、分闸等互投测试等运行记录备份

发电机更换三滤、清洁等

空载测试、带载测试、切

换演练等

运行日志备份,报

警记录备份、清除

UPS系统旁路、清洁等

旁路测试、电池放电测试、

周期性主备切换/应急演

练等

运行日志备份,报

警记录备份、清除

安防系统防雷接地

系统

接地端子、汇流排紧

固,浪涌、防雷保护

器复原等

接地电阻测试

运行记录备份(如

果有)

消防系统探头清洗等启动测试、探头测试等

报警记录备份、清

视频监控

系统

视频监控头清洁,云

台保养

器件灵敏度、画面清晰度

(不同照度情况下)、云台

运行等

出入记录导出、备

份,监控图像记录

备份、清除,报警

记录备份、清除等门禁系统门禁授权等

门禁系统与消防系统和视

频监控系统的联动检查测

试(如果有此功能),掉电

测试

运行日志备份,报

警记录备份、清除

综合布线系统线路跳接等链路测试、性能测试布线系统拓扑图数

服务对象基础类操作测试类操作数据类操作

据更新

网络及网络设备设备操作系统软件备份及存档

系统微码升级

设备软件配置备份及存档

监控系统日志备份及存档

监控系统日志数据分析与报告生成网络配置变更文件的审核

网络配置变更的操作

网络配置变更的记录

服务器

系统微码升级

配置文件备份

过期日志和文件系统空间清理

服务器硬盘RAID配置检查(如有RAID控制器)

更换控制器电池(如有RAID控制器)

4.4 响应支持

4.4.1 事件驱动响应

针对设备的软、硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:

a) 空调系统:故障排查、关闭部分机组以维持机房最低温湿度指标、关闭新风系统等;

b) 电力系统:配电系统包括故障排查、投入备用电源回路、关闭非重要回路等;发电机系统包括故障排查、启动发电机、油料补充等;UPS系统包括故障排查、旁路系统、关闭非重要输出等;

c) 安防系统:防雷接地系统包括浪涌保护器复原、更换,接地电阻降阻等;消防系统包括故障排查、系统启动、报警联动、疏散警示等;视频监控系统包括故障排查、监控头或硬盘更换、检查告警、数据恢复等;门禁系统包括故障排查、手动开启或关闭门禁系统、检查告警或监控记录等;

d) 综合布线系统:线缆更换等。

e) 网络及网络设备事件驱动响应

?故障定位;

?停止、启动进程;

?中断、连通网络连接;

?关闭、启动端口;

?网络备件更换;

?更改、恢复配置。

f) 服务器事件驱动响应

?服务器重启;

?更换故障部件,包括主板、电源、CPU、内存、硬盘等;

?服务器关键部件微码升级;

?服务器硬盘RAID配置修复。

4.4.2 服务请求响应

根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:

a) 空调系统:调整温度、湿度参数等,调整新风量等;

b) 电力系统:配电系统包括增减回路、增减供电类型(如直流、110V)等;分支回路相位调整等;发电机为指定负载供电等;UPS系统包括旁路操作、为指定负载供电等;

c) 安防系统:防雷接地系统包括新设备接地等;消防系统包括增减终端设备、检查及提供告警及监控记录、备份或清除记录等;视频监控系统包括调整摄像机位置、增加摄像机,增加录像机容量等;门禁系统包括增加、删减、变更门禁权限等;

d) 综合布线系统:链路跳接、跳线更换,布线扩容等。

e) 网络及网络设备服务请求响应

?增加、降低网络接入的数量或速度;

?更改网络设备配置;

?启动、关闭端口或服务;

?更换、更新或升级设备硬件或软件。

f) 服务器服务请求响应

?服务器设备搬迁;

?服务器设备停机演练;

?服务器设备清洁维护等。

4.5 优化改善

4.5.1 适应性改进

根据应用系统特点和运行需求,对基础设施进行调整,包括但不限于:

a) 空调系统:调整温湿度参数等、调整机组位置、增减新风风量等;

b) 电力系统:配电系统包括更换开关、导线以适配负载容量等,发电机包括调整启动方式等;

c) 安防系统:调整防雷接地系统、消防系统、视频监控系统和门禁系统,以适应应用系统的变化;

d) 综合布线系统:调整综合布线系统,以适应应用系统的变化。

e) 网络及网络设备适应性改进

?路由策略调整;

?设备或链路负载调整;

?安全策略调整;

?监控对象覆盖范围调整;

?局部交换优化;

?局部冗余优化。

f) 服务器适应性改进

?服务器硬盘RAID配置调整;

?服务器网络、光纤链路冗余调整;

?服务器电源供电接入冗余调整。

4.5.2 增强性改进

根据应用系统的特点和运行需求,通过对基础设施的运行记录、趋势的分析,对基础设施进行调整、扩容或升级,包括但不限于:

a) 空调系统:增减精密空调机组、增减APU单元,增加新风机组、预处理装置等;

b) 电力系统:配电系统包括增加回路、增加ATS设备等;UPS系统包括增加主机数量、增加电池数量等;

c) 安防系统:防雷接地系统包括增加冗余引下线、接地装置,降低接地电阻阻值等;消防系统包括增加传感器和喷头数量,更换高性能控制主机;视频监控和门禁系统包括增加

报警联动、增加终端数量、增加存储容量等;

d) 综合布线系统:线路扩容、更换高性能布线等。

e) 网络及网络设备增强性改进

?硬件容量变化,如网络设备硬件、软件升级、带宽升级等;

?整体网络架构变动;

?网络架构容量变化,如网络子系统的增减等;

?系统功能变化,如新增功能区、新增安全系统、新增审计系统等;

?路由协议应用及部署调整;

?整体安全策略收紧;

?交换优化;

?冗余优化。

f) 服务器增强性改进

?为本服务器从存储系统上分配更大空间;

?服务器CPU个数增加;

?服务器内存容量增加;

?服务器磁盘空间扩容;

?服务器网卡和HBA接口卡增加等。

4.5.3 预防性改进

根据对基础设施的运行记录、趋势的分析,结合应用系统的需求,发现基础设施的脆弱点,有针对性地进行改进性作业,包括但不限于:

a) 空调系统:调整机组位置,调整出回风方式等;

b) 电力系统:配电系统包括更换开关、更换导线、调整回路等;发电机包括更换或添加高标号油料等;

c) 安防系统:防雷接地系统包括焊接点加固、防腐处理等;消防系统包括消防系统预防性改进(按照当地消防管理部门管理要求);视频监控和门禁系统包括门禁系统支持与消防系统和视频监控系统的联动;

d) 综合布线系统:弱电线缆与强电线缆的物理隔离,鼠患排查等。

e) 网络及网络设备增强性改进

?配置参数优化,例如关闭不必要的服务、打开缺省的增强功能、加快三层网络

路由收敛速度、加快二层网络生成树收敛速度等;

?安全优化,例如密码加密,TELNET控制等;

?提高软件配置命令可读性。

f) 服务器预防性改进

?检查服务器硬盘RAID配置,及时修复或更换故障硬盘;

?增加服务器网卡、光纤卡以及链路冗余情况;

?增加服务器电源供电模块冗余。

五、服务管理制度规范

5.1服务时间

(1)接收服务请求和咨询:

在5*8 小时工作时间内设置由专人职守的热线电话,接听内部的服务请求,并记录

服务台事件处理结果。

(2)在非工作时间设置有专人7*24 小时接听的移动电话热线,用于解决内部的技术问

题以及接听7*24 小时机房监控人员的机房突发情况汇报。

(3)服务响应时间:

故障级别响应时间故障解决时间备注

I级:属于紧急问题;其具体现象为:系统崩溃导致业务停止、数据丢失。30分钟,2小时内

提交故障处理方案

12小时以内

具体时间因

项目而定

II级:属于严重问题;其具体现象为:出现

部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。30分钟,2小时内

提交故障处理方案

24小时以内

具体时间因

项目而定

III级:属于较严重问题;其具体现象为:

出现系统报错或警告,但业务系统能继续运行且性能不受影响。30分钟,2小时内

提交故障处理方案

48小时以内

具体时间因

项目而定

IV级:属于普通问题;其具体现象为:系统

技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。30分钟,2小时内

提交故障处理方案

5天内

具体时间因

项目而定

技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文档,力争恢复到故障点前的业务状态。对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于

12小时内解决故障,将在合同小时内提出应急方案,确保业务系统的运行。故障解决后24小时内,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。

5.2 行为规范

(1)遵守用户的各项规章制度,严格按照用户相应的规章制度办事。

(2)与用户运行维护体系其他部门和环节协同工作,密切配合,共同

开展技术支持工作。

(3)出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。

(4)现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄重。

接听电话时要文明礼貌,语言清晰明了,语气和善。

(5)遵守保密原则。对被支持单位的网络、主机、系统软件、应用软

件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。

5.3 现场服务支持规范

运维服务人员要做到耐心、细心、热心的服务。工作要做到事事有记录、事事有反馈、重大问题及时汇报。严格遵守工作作息时间,严格按照服务工作流程操作。

(1)现场支持工程师应着装整洁、言行礼貌大方,技术专业,操作熟练、严谨、规

范;现场支持时必须遵守用户单位的相关规章制度。

(2)现场支持工程师在进行现场支持工作时必须在保证数据和系统安全的前提下

开展工作。

(3)现场支持时出现暂时无法解决的故障或其他新的故障时,应告知用户并及时上

报负责人,寻找其他解决途径。

(4)故障解决后,现场支持工程师要详细记录问题的发生时间、地点、提出人和问

题描述,并形成书面文档,必要时应向用户介绍故障出现的原因及预防方法和

解决技巧。

5.4 问题记录规范

根据使用人员提出问题的类别,将问题分为咨询类问题和系统缺陷类问题二类:咨询类问题是指通过服务热线或现场解疑等方式能够当场解决用户提出的问题,具有问题解答直接、快速和实时的特点,该问题到现场支持人员处即可中止,对于该类问题的记录可使用咨询类问题记录模版进行记录。系统缺陷类问题是指使用人员提出的问题涉及到系统相应环节的确认修改,需要经过逐级提交、诊断、确认、处理和回复等环节,处理解决需要项目组的

分析确认,问题有解决方案后,将解决方案反馈给用户。具体提交流程如下:

(1)问题提交。应用信息系统的用户发现属于系统缺陷类的问题时,填写系统缺陷

类问题提交单,提交服务支持中心。

(2)问题分析。服务中心接到用户提交的问题单,要组织相应人员对问题单中描述

的问题进行分析研判,确定问题的类型(技术问题、业务问题或者操作问题)。

属于技术问题,提交服务中心技术人员对存在的问题提出具体的处理意见和建

议;属于业务问题,提交服务中心业务人员进行处理;属于操作问题,可安排

相关人员对问题提出人进行解释,并将系统缺陷类问题提交单转为系统咨询类

问题提交单。

(3)问题确认、解决。服务中心的技术人员和业务人员收到系统缺陷类问题提交单

后,对提交的问题进行归类汇总和分析、确认。可以解决的,明确问题解决的

具体处理建议和措施,经主管领导签字同意后,交实施人员进行解决方案的实

施。服务人员确认是否解决,并将解决方法附在系统缺陷类问题提交单上反馈

给问题提出人员。

(4)问题上报。服务人员收到经业务或技术人员确认的系统缺陷类问题提交单后,

上报服务中心。

问题回复。服务中心根据提交问题的进行分析,制定解决方案并进行实施的解决,同时做好变更记录。将解决方案汇总后及时向问题提交单位或问题交办单位作出回复,并将分析过程和问题产生原因一并提交

六、应急处理流程

流程说明:

1、系统出现故障,我公司接受故障,并确定为紧急情况。

2、启动应急处理服务流程。

3、紧急情况处理小组的领导(由用户和我公司人员共同组成)立刻调派我公司的资深专家和用户相关人员。首先尽最大可能收集事件相关信息,确定事件类别、事件来源,保护证据,以便缩短应急响应时间。

4、根据收集的信息,紧急情况处理小组立刻采取措施抑制事件的影响进一步扩大,限制潜在的损失与破坏。

5、根据实际情况,技术专家进行系统的恢复工作。

6、如果是应用软件故障,我公司保证合同小时内解决问题,恢复故障系统。

7、如果项目组难以短时间内解决故障,及时申请公司技术支持中心派专家,必要时申请相关软件厂家的技术专家到现场协助排除故障。

8、在问题得到解决、系统恢复工作后,回顾并整理该事件的各种相关信息,尽可能地把所有情况记录到文档中,并完成《紧急事件处理结果报告》。

9、提交《紧急事件处理结果报告》。

10、应急行动结束。

相关主题
相关文档
最新文档