运维体系建设方案

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

运维体系建设方案

一、体系建设目标

查阅了大量资料,也没有找到对“运维体系”的明确定义,大多数资料对运维体系的解读及建设方案都是基于ITIL认证体系与Google SRE,通过一系列的制度、标准、规范及流程,辅以高效的IT管理系统,向用户提供高质量的运维服务,保证系统的可靠运行。

基于对ITIL及Google SRE的理解,部门的运维体系建设目标可以确定为:以积极、负责、严谨的工作态度,正确、高效、规范的工作方法,保证系统7*24小时正常服务,全心全意为客户服务,让客户满意。

二、运维现状分析

随着部门研发的产品日趋成熟,系统的复杂度日益提升,主要体现在业务功能增多、业务流程复杂、业务组件多且依赖关系复杂、系统硬件数量多等,导致整个系统运维的工作量及难度均大幅度增加。运维做了很多的工作,却依然保证不了系统的可靠服务能力,并不能完全满足来自公司内外部“客户”的运维服务要求。通过运维团队内部的讨论与分析,发现运维工作提升困难的主要原因与其所处现状息息相关,主要存在如下亟待解决的痛点:

1)运维人员的技能参差不齐,深度不够,专业化不足;

2)运维人员分工及职责不明确,要求全栈运维,工作上出现相互推诿、拖延;

3)运维操作随意性强,容易出现疏忽与失误,导致系统事故;

4)运维服务接入点不单一,任何运维人员都可以接入服务;

5)运维工作范围繁杂琐碎,出了问题就有责任,有失公平,影响团队成员的积极性;

6)运维对问题的复盘分析不够深入,运维质量改进缓慢;

7)大量的硬件资产缺乏全面细致的管理,不能做到全生命周期管理;

8)大量的业务系统,全手工运维与巡检,耗时耗力;

9)缺乏全面的系统监控手段/系统,不能及时发现系统中的问题;

10)业务系统复杂度高,运维还没有完全了解业务系统的功能及依赖关系;

11)业务系统质量低、可靠性差,导致升级变更的工作量超大。

以上并不是全部的问题,这些问题均不是一天两天形成的,有很多历史原因,在此就不再详述了。但是如果不解决这些问题,运维团队将会继续维持低下的工作效率,运维工作质量也得不到改善。为此,我们需要对症下药,借鉴他人的优秀实践,结合我们自己的实际情况,建立科学、高效地运维体系,以解决所有上述的运维工作中的痛点,提升运维工作效率及服务质量。

三、体系建设规划

通过调研大量的资料,并根据运维现状、资源投入等实际情况,提出了“五化一库”的体系建设规划,即“分工专业化、工作精细化、服务流程化、操作规范化、运维自动化、运维知识库”,逐步提升运维工作的效率与质量。

3.1分工专业化

目前,运维人员就像是 “全能骑士”,即要懂业务,也要懂硬件、网络、安全、架构等多方面的知识与技能,人人都需要是全栈运维工程师。的确存在这样的能人,但是毕竟是少数,大多数的结果是“广而不精”,各方面都知道皮毛,遇到问题了找不到根本原因,对运维工作的质量及效率均有影响。因此,在本运维体系中,计划将运维人员按运维工作内容进行专业分组,分为基础设施组、网络组、平台组、业务组及安全组,如图 1所示。

图1 运维团队分工及职责

通过专业化分组,可以让运维人员在其所负责的专业上做全、做深、做强,各个专业小组有相对独立的、明确的工作内容、职责及标准,计划编制《岗位职责说明书》进行详细地定义与描述。各个专业小组的负责人要想尽一切办法保证自己所负责内容的质量。

在实际操作上,考虑到运维人员数量少的情况,可以一个人参加两个小组,形成主备关系,但是在同一时刻只存在一位负责人,只有当主负责人由于请假等原因不在岗的时候才由另一人临时顶替其工作。同时,为了扩大大家的技能广度,制定“轮岗计划”,计划每两个月进行一次专业小组(安全组除外)轮换,让所有运维人员都有机会负责所有专业小组。在日常工作期间,各个专业的负责人要进行培训分享,为其他团队伙伴进行轮岗提前做知识储备,也利于大家逐渐具备值班处理问题的能力。

在专业化的分组模式下,可以有效地让运维人员提升专注,减少琐事的消耗,提高工作效率及质量。各专业小组的工作内容相对独立,但是也需要相互协作,共同完成整个系统的运维,因此,将梳理各项工作的执行流程,将各专业的工作有效地组织起来,做到统筹高效。

3.2工作精细化

当前的运维大多时候可以说是“面向整体”的运维,关注最终结果是否正确,比如系统各项功能正常、各项指标正常即可,只有在出现异常的时候,才会去分析细节,找具体的原因。平时对系统的各个局部与细节的关注度不够,导致很多的问题不能及时发现,造成不必要的损失。因此,运维计划通过体系建设细化各专业的具体工作内容,将每一项工作内容都写到《岗位职责说明书》中,做到全面、无死角的运维。

运维的工作将不再仅是面向整体,还将面向局部、面向细节。通过专业化的分组,将整个系统运维拆分成不同的部分,各个专业小组还将就各自负责的部分进行更加细致的梳理,明确所有的配置项(需要关注并维护的对象),做好配置管理与变更管理,做好日常监控与维护,做好容量规划管理等各种精细化工作。

3.3服务流程化

目前,运维的工作范围有生产系统运维、开发测试协助、售前支持、售后支持、信息安全管理等方面的工作,除了生产系统运维外的工作,各类繁杂琐碎很多,公司外部客户、公司内部的同事均有可能提出运维服务需求,提出需求的渠道也很多(如QQ、微信、邮件、电话、当面沟通等),而且直接到运维人员,没有统一接入各类服务需求的“点”,因此,各类需求分散,没有根据工作安排及人力情况进行综合安排与调度,导致运维工作“杂乱”,运维人员成天“忙碌”,但是工作效率却非常低下,亟待进行改进。经过分析,计划通过“建立运维服务台及运维服务流程” 的方式对运维服务进行流程化。

1) 建立运维服务台

制定《运维服务管理规定》对运维服务进行规范化管理,统一运维服务入口,引进工单系统。所有的运维服务(如:问题处理、事务性工作等)均通过服务台统一接入,由服务台值班人员创建工单,如果是问题则派发给相应专业小组负责人员进行处理,如果是事务性工作,则转发给运维组长进行统一安排调度,如图 2所示。做到“不见工单不处理问题”,以便对运维服务工作进行全面的跟踪及有序地组织实施。

注意:运维服务不区分公司内外、部门内外,对于运维团队外的所有对运维的需求均视为运维服务,均需要通过运维服务台统一接入管理。

图 2 运维服务台主要服务流程

2) 建立事件/问题处理流程

前面提到了运维服务台的大致工作模式及流程,但是具体要把服务做完还需要更多的人参与,更多的流程与分工协作。为了保证整个过程有序开展、资源合理配置,需要协同开发组建服务团队,分层级逐步处理,一层一层上升,直至问题最终解决。大致的流程是:需求方提出需求 →服务台创建工单→分派给一线人员(值班人员)处理→转交给二线人员(各专业负责人)→转交给三线人员(相关开发人员)→管理者。任何一个环节将事件/问题处理掉就可关闭此工单,否则逐级流转与上报直至工单最终关闭,问题得到解决。

3) 建立事务性工作处理流程

除了事件(或问题)处理,还有各种事务性服务需求,这类需求将转交给运维团队的小组长统一安排调度。在专业分组过后,一件事务性工作,可能需要各个专业组相互协作才能最终完成,其协作流程并不能统一,运维团队将周期对各类事务性工作进行总结与分析,找出主要的(频次高且需要多专业协作)的事务,制定标准化的处理流程,以保证这些工作有序开展并保证质量及效率。

相关文档
最新文档