系统运维体系架构规划

系统运维体系架构规划
系统运维体系架构规划

系统运维体系架构规划

分享

本文主要介绍运维体系与架构的设计规划,这将引导我们从一个高屋建瓴的角度去考虑如何组织运维团队,如何规划运维架构,用什么构建起运维架构,以及如何开展运维工作。

图1-1本文将会引入很多简明的运维实践示例来形象直观的告诉大家如何构建起运维体系。通过学习本文内容将会使我们具备规划与构建整个IT运维体系架构的知识和能力。

运维体系是运维的基础和核心。通过运维体系的构建及完善,使我们的运维做到稳定可靠,准确完备,规范科学。从某种角度来看,系统运维体系可以用一个四面体来描述(如图1-1所示),包括四大方面:人、事、物、流程标准。

从人、事、物、流程这四个方面便可以很好地将运维体系进行解构,它们彼此互相作用,共同构建了一个完整实用的运维体系。下面列举了这四个方面各自的含义及相关内容。

人:例如完善岗位职责与职业发展、提高团队技术水平、完善技能分享与培训、完善团队绩效考核、规范工作行为规范等。目的是要建成一支工作高效、技术水平高、团结稳定、有职业素养的运维团队。

事:例如做好日常基础运维工作,保障好生产业务运行。不断探索新的运维理念与技术,探索优化系统架构。具体可以分为几大块,例如运维流程管理,资源架构规划,应急与故障处理,监控与优化,安全与防护,项目及日常工作,等等。目的是要明白运维做什么正确的事,怎么正确地做事,做事有章法,稳定高效能。

物:主要是如何管理好系统运维所涉及的各种资源。例如机房环境、办公设备、服务器、网络设备、操作系统、应用软件、工具等各种软硬件资源。目的要使各类资源配置管理妥当,清楚资源属性,知道从哪来,现在哪,要去哪。使得物尽其用,物有所值,安置妥当。

流程标准:运用流程标准将上述要素(人、事、物)有机地结合,有序科学地流转、高效稳定地运行。例如资源规划与采购,各种标准规范、项目规范、软硬件配置部署规范、安全制度、工作交接,等等。

就上述四大方面,下文继续展开论述,当然也仅是一些内容的列举,毕竟具体到每个企业组织,其运维工作内容可能会大同小异。

1.1团队人员规划

1.1.1岗位职责划分

一个优秀企业(组织团队)的核心竞争力其实说到底就是人。合适的人在合适岗位上正确地干正确的事情——这就是核心竞争力。一个好的运维团队也是如此,人在运维体系中就是核心,好的运维团队能够有效地、高质量地、相对低成本地发挥各个运维元素的功效,达到更完美的运维效能。

对于运维岗位划分,很多企业大同小异,一般都是以保障业务生产稳定高效运行为目的,根据自身企业发展需要划分岗位。小微企业可能没有专门的运维人员及岗位设置,稍大的一些企业也可能由其他岗位人员(如开发人员)兼职运维人员,发展到中小型企业后往往就会设置专门的运维岗位人员从事日常维护工作。对于中大型企业一般都会有专门的运维团队从事专业的运维工作,而且不仅仅是运维,还包括运维开发。

随着运维的发展,运维岗位也逐渐细分很多种,各个企业岗位设置与职责也不尽相同,但岗位工作内容大同小异。大致有如下岗位:系统管理员、数据库管理员、网络管理员、机房环境管理员、运维开发工程师、应用运维工程师、服务管理工程师、安全审计工程师、架构师等。

有了岗位设置及专职人员,然后就会产生人力职业发展、技能培训、绩效考核等一系列问题,这些问题往往即相互联系又各成一体。

如下是某企业的岗位职责划分示例:

?岗位(一级分类)通用职责要求是系统管理每个岗位都应履行的职责。

?岗位(二级分类)专项职责是针对每一项工作岗位的职责要求。

?岗位(三级分类)专人职责是针对每一个人设置的各自不同的具体职责。每个人在执行通用职责的基础上同时履行各自的专项专人职责。

岗位(一级分类)通用职责示例通用职责如表1-1所示。

表1-1

续表

岗位(二级分类)专项职责示例如下是系统管理岗位工作示例:

表1-2

续表

1.1.2岗位交接示例

因人员的短期离岗(以及离职)会给运维的稳定性、安全性、经验传承、资料留存、以及团队稳定等众多方面产生一系列影响,运维工作中的故障隐患很大比例来自于岗位交接。因此运维工作的岗位交接是个重要的事情,表1-3是岗位交接制度示例。

表1-3

续表

1.1.4技能培训

不同的企业,对人力的培训也各有方式,轻重不同,内容有别。有的企业注重以老带新,有的企业注重个人自学,有的企业注重内部交流,有的企业注重外部培训。培训往往也与岗位发展、财务状况、绩效考核、奖惩福利等相互关联。

从培训的途径来看,培训主要分为内训和外训两种方式。

内训:

由公司人力部门(或其他某部门)组织的培训,包括外请其他公司专家、公司内部讲师(一般都是有经验特长的内部员工)。

外训:

(1)由公司出资金为员工提供外部的培训(员工个人申请培训内容、培训机构、价格。经公司审批后即可外训)。

(2)公司签订的部分合同中附带有一些培训。

(3)由公司组织联系到其他单位参观交流。

(4)由其他厂商邀请的技术大会、峰会等。

(5)由公司组织选拔资助少量员工直接到其他单位实地锻炼学习。

(6)由公司选拔资助少量员工参加一些脱产或不脱产的继续教育学习。

1.1.5绩效考核示例

有人对应岗位做相应的工作,自然而然会有绩效问题,也因此也会产生绩效考核相关制度。

运维考核的难度在于如何定义KPI关键业绩指标、如何定性与量化,每个企业单位内部都不一样,需要根据自身环境定制基线。

考核的方式多种多样。可以按照时间分为周考核、月考核、季度考核、年终考核。也可以按照KPI等关键因素进行考核。也可以从上下级人为主观考核。也可以由评审委员会考核。

表1-6是某运维部门考核标准示例。

1.2体系架构相关事宜规划

运维要做的事情,实在太多了。说复杂,复杂得没有人能说明白,列举全面。说简单,倒也简单:运维工作就是支持生产运行,是成本中心,一般不直接产生利润。目的就是运行保障生产设备软硬件正常运行,让内外部用户满意度。

运维要做的事情与岗位职责内容密切联系,可能有了运维要做的事情需求,因此设置了岗位和人员,但也有因为有了这个岗位的人,因此创造了一些运维事情。这有点“鸡生蛋、蛋生鸡”的逻辑。

1.2.1 运维系统架构

每个公司的IT环境,不论大小复杂度,总会有个系统架构层次。有了这个架构体系,那所有的运维事情大体都围绕着这个系统架构上的每个元素及整体进行运维保障工作。运维架构从某种角度可以划分为如下两种:商业封闭式系统架构(IOE架构)与开源系统架构。

1. 商业封闭式系统架构(IOE架构)

典型的即以使用IOE(IBM、Oracle、EMC)产品软硬件为主要元素的系统架构。IOE架构以纵向扩展为特点,通过增加CPU、内存、扩展柜、冗余备件等方式来提高处理能力及稳定性。该架构的处理能力主要取决于单台(套)设备(系统)的最大扩展能力,很难通过增加设备(系统)数量来增加处理能力,换句话说该架构很难通过扩大集群规模的方式来解决问题。随着纵向扩展的规模增大,其实施技术难度、管理复杂度以及隐患风险都会正比例大幅上升。基于IOE架构的典型企业如:金融业、电信业,交通运输业。IOE典型的系统架构如图1-2所示。

图1-2

上述IOE型系统架构。其服务器多使用小型机、大型机(还有以往的中型机),数据库系统往往会使用Oracle,存储则多使用知名品牌的中高端存储阵列、带库等设备。服务器与存储之间多使用SAN存储网络。这些服务器、存储等硬件本身往往就是双冗余的,线路连线也都是双冗余的,而且设备性能指标往往非常好,例如一台普通中端的Power 7系列服务器可以轻松划分出若干个系统分区或者一二十个虚拟机系统。

2. 开源系统架构

典型的即以使用廉价PC服务器,开源产品技术为主要元素的系统架构。开源系统架构以横向扩展,分布式部署为特点。通常通过往集群中增加单机设备资源解决存储空间、性能以及稳定性问题,其集群规模可以小到两三台PC服务器组成,也可以大到上万台PC服务器集群。对于数据库,可以通过分布式集群方式解决数据库扩展性的问题。另外非结构化数据库及分布式文件系统在处理非结构化数据的存储与使用方面也很灵活方便。基于开源系统架构的典型企业如:以BAT(百度、阿里、腾讯)为代表的众多互联网企业,开源系统架构如图1-3所示。

图1-3

上述开源系统架构中使用了CDN和反向代理以提高网站性能。例如我们的服务器可能部署在北京,对于北京及周边用户来说访问是较快的,而对于远离北京的用户访问则感觉较慢,因为数据传输时间比较长。对于这种情况,常常使用CDN解决,CDN将数据内容缓存到运营商(或自建CDN)的机房,用户访问时先从最近的CDN机房获取数据,这样大大减少了网络访问的路径。

对于反向代理,当用户请求达到时首先访问反向代理,反向代理服务器将(Varnish)缓存的数据返回给用户,如果没有没有缓存数据才会继续走应用服务器获取,这也减少了获取数据的成本。当然对于海量访问请求,或者庞大集群架构,则就需要分多层、综合运用上述负载均衡以及代理(反代理),同时可能需要引入zookeeper等功能以协调(服务)任务调度。

关于去IOE问题,本文简单阐述如下。

近年来开源技术的迅猛发展,以及国内外政策环境共同作用,引发了一场去IOE的风潮。他们使用低廉的软硬件产品代替昂贵高门槛的IOE产品,搭建起自主开放的开源系统架构。之所以出现“去IOE”运动,其中原因总结概述如下几条:

(1)自“棱镜门事件”之后,国家强烈意识到数据安全的重要性,大力提倡产品设备国产化与自主研发,这正与“去IOE”观点不谋而合,上下一致。

(2)近年来,云计算、大数据等新兴IT技术的蓬勃发展,促使众多行业开始往更加开放灵活的开放系统架构转型。这对于传统的IOE架构而言,其定制与扩展灵活性有限,往往是擅长于集中式架构的管理,而很难应对大规模集群,分布式存储计算。

(3)在购买成本方面,以IOE为代表的商业产品价格昂贵(动辄上百万元),PC服务器相对廉价(通常几万元)。在部署与管理方面,IOE产品的学习掌握门槛偏高,而开源系统环境相对容易搭建与管理。另外IOE产品技术相对商业封闭,不易掌握。

基于上述一些原因,去IOE应时而生。当然具体到自身企业是否要去IOE,这需要慎重考虑,适合自身发展需要的系统架构就是好的架构。去IOE 过程,其实是系统架构的更新换代,产品的更新换代,运维理念的更新换代,运维人员的更新换代,知识体系的更新换代,等等。因此如果冒然去IOE,可能既不会降低成本,也不会提高效率,更不会稳定架构。如下列举几点“去IOE”要考虑的因素:

?自身业务是否真正需要大数据、云计算以及分布式这种海量运维体系。

?是否已经考虑好系统架构、运维理念、人员、知识更新换代的方案。

?自身的研发实力储备是否够解决大量开源产品的坑坑洼洼,并有实力搭建开源系统架构。

?是否有足够的资金应对“去IOE”转型中的成本,例如从硬件高成本转向人力技术高成本。

去IOE只是给予我们一些最佳实践与选择路子,但去IOE技术门槛较高,一般企业很难复制。从目前发展来看,IOE架构与非IOE架构仍将长期并存。一时间很难找到一些能够完美替代以IOE为代表的成熟(且普适)产品方案。

1.2.2运维工作层次分类示例

例如《海量运维、运营规划》(作者:唐文)一书,作者很有观点地概括了运维要做的事情,他以质量、效率、成本为核心,从运营规划、管理、流程/规范、系统/平台、监控、告警、安全、优化、考核等几个维度来阐述运维工作,如图1-4所示。

图1-4

另外也可以从逻辑框架的层次来分类运维工作要做的事情。如下借鉴美团的分享者(唐君毅、邱剑、朱晏)关于企业运维的观点,运维框架可以概括为五横三纵。

从横向来看,自底向上分为五个层次:

?物理层:包括机房网络、硬件设施相关工作。如采购招投标工作、机房实施工作、机房环境(强弱电、照明、通风、网络布线、温湿度等),各种设备上下电与维修工作等。

?系统层:包括操作系统、虚拟化、云计算等一系列系统环境所涉及的部署、配置、优化等工作。

?服务层:包括Webserver、缓存、代理、数据库等所涉及的软件应用的部署、配置、优化等工作。

?逻辑层:包括业务逻辑、数据流。这一层的主要工作是发布和变更。

?应用层:包括用户可见部分。所有前端平台,主要涉及与前端用户交互或提供信息(服务)的平台。比如前端网站、各种新媒体平台的维护与监控。

从纵向来看,有三部分工作,对上述五个层次是通用的:

?监控:从物理层到服务层的监控和报警都是运维来跟进、响应的。对于逻辑层和应用层,一般由运维提供监控API的规范,开发人员自己创建监控项、设定报警规则、进行增删改查。

?安全:建立部署统一的安全接入平台,所有线上的人工操作都需要登陆跳板机,每个人有独立的登陆帐号,所有线上操作都有审计日志。更多的安全工作由专门的信息安全组负责。

?流程:早期基于Jira做了一些简单的流程,但需要改进。现在正在针对比较集中的需求,开发相应的流程控制系统,方向也是自动化、自助化。

从业务部门申请VM资源,到业务扩容的整个流程,未来可以在Web界面上通过很简单的操作实现,也提供服务化的API,方便其他业务平台进行集成。以期实现虚拟化覆盖全业务线。

1.3基础设施相关物资规划

做饭要有材米油盐,打仗要有弹药武器。干运维,也要有一系列软硬工具。什么算是运维工作的工具,恐怕这个也没有明确定义。运维所涉及的工具物品,有看的见的,也有看不见的;有摸得着的,也有摸不着的。这里简单概括一下运维工作会用到的各种软硬件、工具、设施。

1.3.1机房基础设施环境示例

如下列举的是机房基础设施环境相关要素,如表1-7所示。机房不论大小,基本上都会涉及到如下几大主要工程(系统)。

续表

1.3.2服务器产品示例

对于大多数企业通常是采购现有品牌(也有些企业是定制设备),产品示例如表1-8所示。

1.3.3 存储设备示例

存储设备示例如表1-9所示。

1.3.4 操作系统示例

操作系统示例如表1-10所示。

1.3.5 常用软件示例

常用软件示例如表1-11所示。

续表

1.4运维流程标准规划

将上述要素(人、事、物)有机地结合,有序科学地流转、高效稳定地运行,就得靠科学合理的流程,如各种规章制度、流程标准。

流程就好比珠宝上的穿绳,就好比一个人的思想,就好比社会法律规范。流程是一个企业的流水线,是企业的行为规范,是企业制度与文化的组成部分。合理的流程规范像血液,能让部门稳定高效地运转,这是企业专业与否的重要组成部分。

运维工作到底有多少流程,这个无法穷举,就好比一个人的思想到底有多少,因人而异,因时而异。关于IT服务运营流程,ITIL流程在全球享有盛名,ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范,这在后续章节做专题介绍。本文主要列举运维工作中一些常见流程规范。

1.4.1商务流程

商务公开招标流程示例:

商务公开招投标大致流程如下所示:

采购启动→ 需求确认→ 委托招标上报→ 签订委托协议→ 标书准备(采购部门技术标书准备,商务部门组织商务标书准备,标书合并)→ 提交标书→ 专家评审意见反馈→ 公开招标上报→ 公开招标→ 招标结果上报→ 商务谈判→ 合同签订上报→ 签订采购合同

1.4.2运维制度流程

一、项目管理制度示例:

以下简要介绍项目开展与实施相关制度流程

1、执行集团和公司的项目管理规定。

2、项目范围为公司和部门下达的各类项目。

3、每年10月底之前,部门结合公司下达的任务和部门的生产需求,研究讨论制定部门下一年度的项目计划,完成项目建议书(含目标、范围、完成时间、费用估算等)

4、每年12月底之前,针对部门下一年度的项目计划,通过任命和竞聘相结合的方式产生各项目经理。部门和项目经理应根据项目建议书中项目目标、范围、时间要求等内容,并根据人员的实际情况,在10个工作日内,组建项目团队,提交可行的验收标准、项目计划、管理章程

5、项目的实施流程主要分为一、启动项目呈批件;二、可行性分析和技术方案形成阶段;三、方案完善阶段;四、提交启动商务呈批件;五、提交商务谈判说明和启动商务呈批件;六、商务谈判过程;七、提交合同签订呈批件阶段;八、到货验收阶段;九、试运行阶段;十、项目验收阶段。

6、原则上产品供应商的选择不少于3家,如果产品唯一那么集成商或代理商选择不少于3家。

二、需求处理流程规定示例

需求提出者在ITSM系统流程中向职责对应团队小组提出需求,承接团队对需求进行分析处理,处理流程示例如下图1-5。

图1-5

三、故障处理制度流程示例:

1. 故障来源于客户报告、值班人员巡查、监控系统监控、日常例行检查等。

2. 根据故障对用户的影响程度,对故障进行如下分类:

严重故障:生产系统、数据库、网络性能严重降低,应用系统运行缓慢,工具软件不可用,机房供配电系统发生故障等对生产安全运行存在严重隐患,开发、测试、灾备、应急系统不可用,或对用户使用产生严重影响的故障。

重大故障:生产系统(含子系统)、数据库、应用系统不可用、网络中断、机房供配电系统停止运行等影响生产安全、无法保障用户使用的故障。

一般故障:生产系统、数据库、网络、机房供配电系统、工具软件等告警或运行状态不正常,开发、测试、灾备、应急系统发生问题,且不影响用户正常使用的故障。

故障症候:生产系统(含子系统)、数据库、应用系统有故障症候,报故障代码或故障消息,或者对生产正常运行存在易患,并可在一定时限内解决的故障。

3. 当故障发生在工作时间内,由故障发现者通知岗位工程师,岗位工程师依据《工作上报批准规范》进行信息通报上级经理,将故障记录填写到ITSM 的事件流程中,并负责故障处理。各级经理决定通知相关岗位和客户的范围和方式。当故障发生在非工作时间,由值班人员按照《电话值班管理规定》通知电话值班工程师处理,并在随后的一个工作日内记录在ITSM服务管理系统中,电话值班工程师依据《工作上报批准规范》进行上报上级经理,由科室经理决定通知相关岗位和客户的范围和方式。

4. 故障受理人负责故障处理,当需要服务商工程师到现场时,故障受理人联系服务商工程师,并陪同服务商工程师进行故障处理。当故障持续时间较长需要轮换故障处理人员时,要做好故障处理交接工作,并将前期处理情况和过程以文字形式交接给接续人员,并通报科室经理,接续人员继续承担处理故障职责。

5. 上级经理跟踪下级故障处理过程。

6. 故障处理完毕后,由故障处理人员通知上级经理,告知故障已经解决,并由经理决定通知相关岗位和客户的范围和方式,最后故障处理人员或运维主管将ITSM中的事件流程中的故障记录填写完整。

7. 需要升级到问题的故障转入问题流程,后续按照《问题管理规定》处理。

四、应急(演练)管理流程示例:

制定应急管理流程的目的是为了在发生应急事件时,各相关生产部门能根据流程对应急事件进行通报、指挥、处理和协调,最大限度地降低事件所带来的不利影响,使得应急事件能够得到有效的管理应急管理流程示例如下图1-6:

图1-6 1.4.3安装配置标准

1.4.4 安全制度

随着物联网、云计算、大数据、移动网络等高新技术引领信息发展的新高潮,政治经济的复杂性,使得现在及未来信息安全愈发至关重要。也因此信息安全运维也至关重要。本小结仅作示例,后续章节将再单独介绍信息安全。

中国电信武汉分公司运维组织架构调整实施方案

中国电信武汉分公司运维组织架构调整实施方案

中国电信武汉分公司运维组织架构调整实施方案 一、调整目的 为深入推进本地网综合化集中维护,深化维护体制改革,实施运维精确化管理,从面向网络、面向产品、面向客户三个维度统筹考虑,明确职责定位、规范组织架构、再造关键流程、打造人才队伍,构建统一、清晰、高效、有弹性的运维体系,提高低成本运作的能力,进一步夯实集中维护基础,不断提高网络保障、服务支撑和资源优化配置能力,主动应对网络演进和技术发展,快速响应转型业务和融合产品,有效满足客户个性化和差异化需求,适应全业务经营的新形势,适应通信网络和技术的新发展,适应未来工作的新需要,巩固和扩大中国电信运行维护工作在行业内的比较优势,持续提升企业核心竞争力,全面支撑企业全业务运营,根据中国电信股份有限公司中电信[2009]275号《关于网络运行维护组织机构设置有关问题的通知》精神,结合武汉电信本地网的具体情况,梳理远程维护和现场维护两条工

作主线,强化提升维护服务能力。 二、调整方案 (一)运维组织架构调整的基本思路按集团公司调整意见,地市分公司按九大标准职能模块统一设置,同时可根据各分公司具体情况在不拆解和分割的前提下作机构合设,并要求设立相应的机构完整地承担一个或多个职责模块的工作。这九大标准职能模块分别为:我公司拟按照目标统一、分步实施、稳步推进的原则,总体框架目标上遵循集团公司要求,建立网络运行维护体系的模块化管理模式,统一各职责模块功能,规范各职责模块名称,与集团、省公司保持一致,具体实施中结合实际情况,分步稳步实施。 (二)运维组织架构设置方案 本次运维组织架构调整后为一部、七中心和十四个营维中心。一部为网络运行维护管理部,七个中心分别为:网络操作维护中心、网络资源中心、设备维护中心、政企客户支撑中心、客户服务调度中心、无线维护中心和接入维护中心,十四个营维中心分别是江岸、江汉、桥口、汉阳、武昌、洪山、青山、水果湖、东西湖、汉南、蔡甸、江夏、黄陂、新洲营维中心。此调整拟将运行维

系统运维体系架构规划

系统运维体系架构规划 分享 本文主要介绍运维体系与架构的设计规划,这将引导我们从一个高屋建瓴的角度去考虑如何组织运维团队,如何规划运维架构,用什么构建起运维架构,以及如何开展运维工作。 图1-1本文将会引入很多简明的运维实践示例来形象直观的告诉大家如何构建起运维体系。通过学习本文内容将会使我们具备规划与构建整个IT 运维体系架构的知识和能力。

运维体系是运维的基础和核心。通过运维体系的构建及完善,使我们的运维做到稳定可靠,准确完备,规范科学。从某种角度来看,系统运维体系可以用一个四面体来描述(如图1-1所示),包括四大方面:人、事、物、流程标准。 从人、事、物、流程这四个方面便可以很好地将运维体系进行解构,它们彼此互相作用,共同构建了一个完整实用的运维体系。下面列举了这四个方面各自的含义及相关内容。 人:例如完善岗位职责与职业发展、提高团队技术水平、完善技能分享与培训、完善团队绩效考核、规范工作行为规范等。目的是要建成一支工作高效、技术水平高、团结稳定、有职业素养的运维团队。 事:例如做好日常基础运维工作,保障好生产业务运行。不断探索新的运维理念与技术,探索优化系统架构。具体可以分为几大块,例如运维流程管理,资源架构规划,应急与故障处理,监控与优化,安全与防护,项目及日常工作,等等。目的是要明白运维做什么正确的事,怎么正确地做事,做事有章法,稳定高效能。 物:主要是如何管理好系统运维所涉及的各种资源。例如机房环境、办公设备、服务器、网络设备、操作系统、应用软件、工具等各种软硬件资源。目的要使各类资源配置管理妥当,清楚资源属性,知道从哪来,现在哪,要去哪。使得物尽其用,物有所值,安置妥当。 流程标准:运用流程标准将上述要素(人、事、物)有机地结合,有序科学地流转、高效稳定地运行。例如资源规划与采购,各种标准规范、项目规范、软硬件配置部署规范、安全制度、工作交接,等等。 就上述四大方面,下文继续展开论述,当然也仅是一些内容的列举,毕竟具体到每个企业组织,其运维工作内容可能会大同小异。 1.1 团队人员规划 1.1.1 岗位职责划分 一个优秀企业(组织团队)的核心竞争力其实说到底就是人。合适的人在合适岗位上正确地干正确的事情——这就是核心竞争力。一个好的运维团队也是如此,人在运维体系中就是核心,好的运维团队能够有效地、高质量地、相对低成本地发挥各个运维元素的功效,达到更完美的运维效能。 对于运维岗位划分,很多企业大同小异,一般都是以保障业务生产稳定高效运行为目的,根据自身企业发展需要划分岗位。小微企业可能没有专门的运维人员及岗位设置,稍大的一些企业也可能由其他岗位人员(如开发人员)兼职运维人员,发展到中小型企业后往往就会设置专门的运维岗位人员从事日常维护工作。对于中大型企业一般都会有专门的运维团队从事专业的运维工作,而且不仅仅是运维,还包括运维开发。 随着运维的发展,运维岗位也逐渐细分很多种,各个企业岗位设置与职责也不尽相同,但岗位工作内容大同小异。大致有如下岗位:系统管理员、数据库管理员、网络管理员、机房环境管理员、运维开发工程师、应用运维工程师、服务管理工程师、安全审计工程师、架构师等。 有了岗位设置及专职人员,然后就会产生人力职业发展、技能培训、绩效考核等一系列问题,这些问题往往即相互联系又各成一体。 如下是某企业的岗位职责划分示例: ?岗位(一级分类)通用职责要求是系统管理每个岗位都应履行的职责。 ?岗位(二级分类)专项职责是针对每一项工作岗位的职责要求。 ?岗位(三级分类)专人职责是针对每一个人设置的各自不同的具体职责。每个人在执行通用职责的基础上同时履行各自的专项专人职责。岗位(一级分类)通用职责示例通用职责如表1-1所示。 表1-1

运维组织架构及职责说明

组织架构及职责说明

版本说明 *变化状态:A——增加,M——修改,D——删除

目录 1 运维组织架构图 (1) 2、运行维护服务相关职责说明 (1) 2.1 技术副总经理职责 (1) 2.2 运行维护部 (1) 2.2.1服务台职责 (2) 2.2.2软件运行维护组职责 (2) 2.2.3 硬件运行维护组职责 (3) 2.3市场部职责 (4) 2.4.1 商务中心职责 (4) 2.4.2备件库职责: (5) 2.5 人力资源部职责: (5) 2.6 技术部职责 (6) 2.7财务部 (6)

1运维组织架构图 2、运行维护服务相关职责说明 2.1 技术副总经理职责 ●负责制定公司在运维服务方面的发展战略和发展方向; ●负责制定公司在运维服务的各项方针和目标,贯彻落实并确保目标的实 现; ●负责主持公司的运维服务团队建设,规范内部管理,确保运维服务各项 资源(包括人力资源、基础设施、财务资源等)的科学配置和落实; ●确保公司运维服务各项基本管理制度的建立,并贯彻实施; ●处理运维服务方面的重大突发事件; 2.2 运行维护部 运行维护部下设服务台、软件运行维护组、硬件运行维护组,部门总体职责如下:

●负责落实公司运维服务战略规划 ●负责运维服务体系的实施。 ●负责运行维护部的团队建设,拟定、调整岗位设置,设定各岗位职责。 ●负责协调运维服务活动需要的各种资源。 ●负责组织重大事件、重大问题的处理。 ●开发定制运维产品,负责维护公司的服务目录。 ●负责编制年度备品备件采购计划。 ●负责与其他职能部门完成与运维服务体系以及资质、合同等相关工作。 2.2.1服务台职责 ●接受用户和运维人员的事件申报; ●对受理的事件进行初步分类和优先级判断; ●与服务请求的提交者及相关用户进行沟通、跟踪、通报事件的处理情况; ●事件解决后,与用户沟通确认事件已解决并进行满意度调查; ●事件解决后,根据事件解决方案,监督更新配置信息。 2.2.2软件运行维护组职责 ●负责公司整体软件运维项目管理,包括现场勘察、出具运维方案、与客 户沟通ppt讲解; ●参与公司软件运维服务项目的合同评审工作,确定软件运维服务组投入 成本及工期; ●软件运维项目的维护和升级改造工作,控制运维成本和维护费用的收取 等; ●覆盖部门体系的落实与监督,树立良好公司形象,完善软件运维服务队 伍的素质和服务水平,更好的服务于客户,以专业的技术水平提高客户 的满意度; ●参与公司技术发展规划及公司总体规划,制定软件运维服务组的年度运 维计划任务; ●结合技术支持部部门的计划任务分解年度目标并监督执行;

运维服务方案(全)-10(框架)要点

第1章项目概况 1.1 项目背景 近年来为适应业务发展的需求,XX企业进行了大规模的电子商务建设,包括采购桌面PC约300台,打印机约100台,这些应用系统及硬件设备的投入使用极大的推动了XX企业信息化建设的进程。随着越秀工商局对整体IT系统(硬件、软件、网络通讯…)的可用性要求日益提高,系统运行保障和维护管理就成为确保业务系统安全稳定可靠运行的最有力的手段。 XX企业主要有一栋N层的办公环境,现阶段对设备维护主要采用自主维护的方式。由于人力有限,建设任务繁重,中心技术人员在接手新项目及日常工作的同时往往需要做大量的维护工作,不少技术人员长期处于满负荷,严重影响了工作效率。在当前有限的人力物力资源下,为了保障和提高IT服务质量,XX 企业有必要将计算机、外设及网络的运行维护进行外包,派驻2名工程师进行维护,以解决当前IT服务个方面日益增长的需求和有限的提供能力之间的矛盾,提高XX企业办公区域内的软、硬件、业务应用软件的运行维护效率,确保信息系统正常运行。 1.2 项目目标 结合XX企业业务工作及信息化建设实际,完善运维管理体系的建设,加强信息系统正常运行保障,“以流程为导向,以服务为核心”提高服务质量水平、转变服务理念、拓宽服务范围、提高服务效率、提升用户服务满意度。 1.3 需求分析 本次项目XX企业需求主要包括两个部分, 1、运维管理体系建设要求; 2、信息系统正常运行保障服务。

其中运维管理体系建设应完善服务内控制度即服务质量管理,逐步建立起一套符合XX企业自身实际的运维管理标准及应用制度;建设IT运营维护管理平台,采用标准的IT运维管理流程,提供准确、详尽、专业的报告制度,通过客观分析运维过中出现的各种障碍及问题,为XX企业信息化建设提供决策依据。 信息系统正常运行保障涵盖了 1、一般信息化设备及软件的运维管理; 2、、防病毒服务; 3、办公区域内设备及软件巡检普查; 4、提供符合XX企业实际的服务响应水平及质量保障; 5、信息化资产管理

运维部组织架构与工作流程图

运维部组织架构、岗位说明及工作流程附件一: 运维部组织架构 一、部门组织架构图

.附件二:运维部岗位设置 运维部下设传输交换室、基础网络室、综合调度室、业务支撑室四个机构,具体岗位设置和人员编制如下:

各室职责如下: 一、综合调度室 1、负责综合性管理工作,包括收发、文秘、内务、公关、接待等; 2、负责编制各种规章制度及本部门年度工作计划、总结、预算等; 3、协助制定、汇总运行维护考核指标,并参与实施; 4、负责补缺配套、大修、更新改造计划、维护成本管理及其配合实施工作; 5、负责网络资源数据的维护管理、资源调配管理、网络资源优化管理; 6、负责接收工程建设、维护生产、业务发展、网元出租等资源需求,并组织调 配; 7、负责全网具体网络组织、设备端口、传输电路、光纤等资源日常通信组织调 度工作; 8、负责全网光缆、传输、接入网、数据网、动力、管线等设备资源动态调整组 织工作; 9、负责网络资源数据的管理及资源使用情况的统计、分析和预警,参与网络规 划等相关工作,提出网络优化建议并负责组织实施。 二、基础网络室 1、负责光纤通信系统的线路、机房和用户机线的运行维护管理工作; 2、负责制订本专业运行维护考核指标,并参与实施; 3、配合做好本专业支撑系统的应用开发和组织实施工作; 4、配合做好本专业的业务支持、网络规划和工程验收工作; 5、负责管理、协调管线及机房代维单位的相关工作;监督、管理各分公司的代

维管理工作。 三、传输交换室 1、负责传输、数据多媒体交换、接入网的运行维护管理工作; 2、负责互联网的网络安全管理工作,做好信息安全管理工作; 3、负责动力电源、空调设备的运行维护管理工作; 4、负责制订本专业的运行维护考核指标,并参与实施; 5、配合做好本专业支撑系统的应用开发和组织实施工作; 6、配合做好本专业的业务支持、网络规划和工程验收工作。 四、业务支撑室 1、负责全网各类网络支撑系统(OSS)、各类业务支撑系统(BSS)的统一规划、 统一建设、维护管理,制订技术规范和技术标准; 2、负责利用支撑系统开放业务的支持工作,制订相应技术方案,并组织实施; 3、负责支撑系统的计算机系统的软件、硬件的升级、改造的管理工作,负责各 专业应用系统的软件版本管理; 4、负责制订本专业的管理办法和考核指标,并参与实施。 5、作为对内部客户的统一接口,负责公司内市场部等专业部门提出的综合性业 务的组织实施工作;对大客户和集团客户的综合性业务需求进行业务集成。 6、利用网络现有能力或者挖掘网络潜在能力策划出新的产品,主动推荐给市场 部门,由市场部门选择、包装后推向市场。

IT运维管理体系建设案例

IT运维管理体系建设案例

————————————————————————————————作者:————————————————————————————————日期:

某部IT运维管理体系建设案例 摘要: 某部委信息中心(以下简称中心)肩负着电子政务主干网建设、维护、运营的使命,致力于提供安全、高效、快捷的IT服务。近年来,随着信息化建设的深入,网上运行的业务应用逐步增加,计算机机房设备、网络基础设施,大型主机、服务器、客户端等硬件平台,政务应用系统、数据库、应用服务器、中间件等软件平台日益复杂,服务的用户(包括应用使用单位、人民银行、税务、海关、各代理银行等)越来越多,如何维护好日益增多的网络和系统等各类设备,保证各个应用系统安全顺畅地运行,为用户提供良好的服务,及时解决出现的问题和故障,做到网络和用户之所及,管理和服务之所及,是政务业务能否可靠运行的关键所在。 1.案例背景 某部委信息中心(以下简称中心)肩负着电子政务主干网建设、维护、运营的使命,致力于提供安全、高效、快捷的IT服务。近年来,随着信息化建设的深入,网上运行的业务应用逐步增加,计算机机房设备、网络基础设施,大型主机、服务器、客户端等硬件平台,政务应用系统、数据库、应用服务器、中间件等软件平台日益复杂,服务的用户(包括应用使用单位、人民银行、税务、海关、各代理银行等)越来越多,如何维护好日益增多的网络和系统等各类设备,保证各个应用系统安全顺畅地运行,为用户提供良好的服务,及时解决出现的问题和故障,做到网络和用户之所及,管理和服务之所及,是政务业务能否可靠运行的关键所在。 中心目前还处于初级的IT服务管理状态,在组织结构、管理规范、管理流程和技术支撑方面,还没有构建一个综合的IT服务管理体系。对网络、设备、系统、用户等的管理和服务是分散的、不关联的,没有实现数据、信息和知识库的共享,没有实现规范化和流程化,因此,管理和服务是粗粒度、低效率的,这种管理模式将越来越难以适应政务信息化的发展要求。 因此,需要梳理服务管理需求、规范服务管理流程,开发和建设一套科学有效的,融合组织、制度、流程、技术的IT服务管理体系,从粗放和分散型管理,逐步过渡到规范化、精细化和主动式IT服务管理,使IT服务管理体系成为中心日常工作的重要组成部分,这不仅对政务核心应用系统顺利运行和应用有重要意义,也将为支持和推进政务改革提供管理和服务保障。 中心决定启动运维系统建设项目系统化地解决以上难题,构建IT服务管理体系。在经过对众多国际知名及国内咨询公司的考察和比较后,最终选定ITGov专家和信诚致远?( )作为咨询合作伙伴,承担运维管理体系总体规划。

运维组织架构及职责说明t

组织架构及职责说明 版本说明 *变化状态:A——增加,M——修改,D——删除 目录 1 运维组织架构图................................................... 2、运行维护服务相关职责说明.......................................... 2.1 技术副总经理职责............................................ 2.2 运行维护部.................................................. ................................................................ 2.2.2软件运行维护组职责 ........................................ 2.2.3 硬件运行维护组职责........................................ 2.3市场部职责 .................................................. 2.4.1 商务中心职责.............................................. ................................................................

2.5 人力资源部职责:............................................ 2.6 技术部职责.................................................. 2.7财务部 ......................................................

基于ITIL的运维体系架构设计方案

1.1.运维架构设计 基于ITIL的运维管理体系的建立是企业在发展路程的一个阶段。而一个良好的运维管理系统,需要有一个清晰的运维流程来支撑。建设运维管理平台是一个长期的、持续的过程。 基于ITIL的运维服务体系建设应包含运维服务制度、流程、组织、队伍、技术和对象等方面的内容。同时结合业务特色,整合运维服务资源,规范运维行为,确保服务质效,形成统一管理、集约高效的一体化运维体系,从而保障数据集中条件下网络和应用系统安全、稳定、高效、持续运行。 1.1.1.基于ITIL运维服务管理机制 基于ITIL建立运维服务管理体系的过程分为以下7个步骤:理念导入、评估现状、确定目标及范围、流程设计、工具实施、上线试运行、持续改进。 理念导入 理念导入是ITSM项目实施的第一步,也是决定项目能够成功实施的关键一步。理念导入主要是学习、研讨、灌输基于ITIL最佳实践运维管理体系框架,包括ITIL的基本知识和实施理念,有共同的语言和目标,并明确运维服务管理的愿景,在组织内进行宣导。培训课程可以采用提问和研讨的方式,让运维人员成为主角。 评估现状 完成理念导入并建立愿景后,需要评估组织当前的服务管理流程成熟度及运维服务管理的现状,并查找分析差距,进一步明确

目标和范围。现状评估就是要通过定性和定量的分析、恰当的研究方法(包括调查问卷和现场访谈、观摩等)全面了解组织的运维服务状况,及其与理想状态之间的差距,并撰写评估报告。这是后面确定运维管理范围、工具实施的基础。 确定目标、范围 根据现状评估结果,制定近期运维服务管理的目标与范围。在不同评估现状下,制定的目标也不同,随着体系的不断改进完善,目标也在不断提升,迭代式地实现已制定的愿景。 梳理并固化服务流程,优化服务模式,通过系统实施和推广优化逐步提升运维服务管理能力,防范运维管理的风险,基于ITIL 构建初步的运维服务管理体系。包括: (1)基于ITIL思想梳理并固化运维服务管理流程; (2)实现统一的运维服务台,建立集中的运维知识库; (3)完成事件、问题、配置和变更发布流程的实施; (4)构建统一的配置数据库,为运维服务提供精确化的数据支持。 流程设计 有了目标与范围,就需要制定和实施运维服务管理方案,主要包括管理体系的梳理、流程设计的选型等环节。流程设计可以遵从先事件、服务台、问题、知识、服务级别后变更、发布、配置管理等顺序。

2016年IT自动化运维公司组织架构和部门职能

2016年IT自动化运维公司组织架构和 部门职能 一、公司组织架构 (2) 二、部门主要职能 (2) 2 1、行政部 ................................................................................................................ 2 2、办事处 ................................................................................................................ 3 3、商务部 ................................................................................................................ 3 4、财务部 ................................................................................................................ 5、行业销售部 ........................................................................................................ 3 3 6、研发部 ................................................................................................................ 4 7、系统软件运维服务部 ........................................................................................ 8、运维管理事业部 ................................................................................................ 4 4 9、运维分析事业部 ................................................................................................

系统运维体系架构规划

系统运维体系架构规划 本文主要介绍运维体系与架构的设计规划,这将引导我们从一个高屋建瓴的角度去考虑如何组织运维团队,如何规划运维架构,用什么构建起运维架构,以及如何开展运维工作。 图1-1本文将会引入很多简明的运维实践示例来形象直观的告诉大家如何构建起运维体系。通过学习本文内容将会使我们具备规划与构建整个IT运维体系架构的知识和能力。 运维体系是运维的基础和核心。通过运维体系的构建及完善,使我们的运维做到稳定可靠,准确完备,规范科学。从某种角度来看,系统运维体系可以用一个四面体来描述(如图1-1所示),包括四大方面:人、事、物、流程标准。 从人、事、物、流程这四个方面便可以很好地将运维体系进行解构,它们彼此互相作用,共同构建了一个完整实用的运维体系。下面列举了这四个方面各自的含义及相关内容。 人:例如完善岗位职责与职业发展、提高团队技术水平、完善技能分享与培训、完善团队绩效考核、规范工作行为规范等。目的是要建成一支工作高效、技术水平高、团结稳定、有职业素养的运维团队。 事:例如做好日常基础运维工作,保障好生产业务运行。不断探索新的运维理念与技术,探索优化系统架构。具体可以分为几大块,例如运维流程管理,资源架构规划,应急与故障处理,监控与优化,安全与防护,项目及日常工作,等等。目的是要明白运维做什么正确的事,怎么正确地做事,做事有章法,稳定高效能。 物:主要是如何管理好系统运维所涉及的各种资源。例如机房环境、办公设备、服务器、网络设备、操作系统、应用软件、工具等各种软硬件资源。目的要使各类资源配置管理妥当,清楚资源属性,知道从哪来,现在哪,要去哪。使得物尽其用,物有所值,安置妥当。 流程标准:运用流程标准将上述要素(人、事、物)有机地结合,有序科学地流转、高效稳定地运行。例如资源规划与采购,各种标准规范、项目规范、软硬件配置部署规范、安全制度、工作交接,等等。 就上述四大方面,下文继续展开论述,当然也仅是一些内容的列举,毕竟具体到每个企业组织,其运维工作内容可能会大同小异。 1.1团队人员规划 1.1.1岗位职责划分 一个优秀企业(组织团队)的核心竞争力其实说到底就是人。合适的人在合适岗位上正确地干正确的事情——这就是核心竞争力。一个好的运维团队也是如此,人在运维体系中就是核心,好的运维团队能够有效地、高质量地、相对低成本地发挥各个运维元素的功效,达到更完美的运维效能。 对于运维岗位划分,很多企业大同小异,一般都是以保障业务生产稳定高效运行为目的,根据自身企业发展需要划分岗位。小微企业可能没有专门的运维人员及岗位设置,稍大的一些企业也可能由其他岗位人员(如开发人员)兼职运维人员,发展到中小型企业后往往就会设置专门的运维岗位人员从事日常维护工作。对于中大型企业一般都会有专门的运维团队从事专业的运维工作,而且不仅仅是运维,还包括运维开发。 随着运维的发展,运维岗位也逐渐细分很多种,各个企业岗位设置与职责也不尽相同,但岗位工作内容大同小异。大致有如下岗位:系统管理员、数据库管理员、网络管理员、机房环境管理员、运维开发工程师、应用运维工程师、服务管理工程师、安全审计工程师、架构师等。 有了岗位设置及专职人员,然后就会产生人力职业发展、技能培训、绩效考核等一系列问题,这些问题往往即相互联系又各成一体。 如下是某企业的岗位职责划分示例:

运维部组织架构岗位说明及工作流样本

运维部组织架构岗位说明及工作流模 板

运维部组织架构、岗位说明及工作流程附件一: 运维部组织架构 一、部门组织架构图

.附件二: 运维部岗位设置 运维部下设传输交换室、基础网络室、综合调度室、业务支撑室四个机构, 具体岗位设置和人员编制如下: 各室职责如下: 一、综合调度室 1、负责综合性管理工作, 包括收发、文秘、内务、公关、接待等; 2、负责编制各种规章制度及本部门年度工作计划、总结、预算等;

3、协助制定、汇总运行维护考核指标, 并参与实施; 4、负责补缺配套、大修、更新改造计划、维护成本管理及其配合实施工作; 5、负责网络资源数据的维护管理、资源调配管理、网络资源优化管理; 6、负责接收工程建设、维护生产、业务发展、网元出租等资源 需求, 并组织调配; 7、负责全网具体网络组织、设备端口、传输电路、光纤等资源 日常通信组织调度工作; 8、负责全网光缆、传输、接入网、数据网、动力、管线等设 备资源动态调整组织工作; 9、负责网络资源数据的管理及资源使用情况的统计、分析和预 警, 参与网络规划等相关工作, 提出网络优化建议并负责组织实施。 二、基础网络室 1、负责光纤通信系统的线路、机房和用户机线的运行维护管理工作; 2、负责制订本专业运行维护考核指标, 并参与实施; 3、配合做好本专业支撑系统的应用开发和组织实施工作; 4、配合做好本专业的业务支持、网络规划和工程验收工作; 5、负责管理、协调管线及机房代维单位的相关工作; 监督、管

理各分公司的代维管理工作。 三、传输交换室 1、负责传输、数据多媒体交换、接入网的运行维护管理工作; 2、负责互联网的网络安全管理工作, 做好信息安全管理工作; 3、负责动力电源、空调设备的运行维护管理工作; 4、负责制订本专业的运行维护考核指标, 并参与实施; 5、配合做好本专业支撑系统的应用开发和组织实施工作; 6、配合做好本专业的业务支持、网络规划和工程验收工作。 四、业务支撑室 1、负责全网各类网络支撑系统( OSS) 、各类业务支撑系统(BSS) 的统一规划、统一建设、维护管理, 制订技术规范和技术标准; 2、负责利用支撑系统开放业务的支持工作, 制订相应技术方案, 并组织实施; 3、负责支撑系统的计算机系统的软件、硬件的升级、改造的管 理工作, 负责各专业应用系统的软件版本管理; 4、负责制订本专业的管理办法和考核指标, 并参与实施。 5、作为对内部客户的统一接口, 负责公司内市场部等专业部门提 出的综合性业务的组织实施工作; 对大客户和集团客户的综合性业务需求进行业务集成。 6、利用网络现有能力或者挖掘网络潜在能力策划出新的产品, 主

运维2.0理论体系之三大重点

运维2.0之三大重点 一、业务驱动运维 IT的使命是向业务交付价值,为了高效地服务于业务,运维2.0强调以一种新的途径来管理运维,即业务驱动运维。业务驱动运维的本质强调无论服务源自何处,IT运维总能主动规避、发现或解决问题,向业务提供统一标准地端到端交付,并以确保持续改进的最佳服务级别的目标加以管理。业务驱动运维可以从如下两个层面来解读。(一)自上而下——业务战略指导IT运维规划 运维规划从企业的业务战略入手,逐步将业务战略转化为运维管理系统与工具的功能目标和系统架构,通过分析业务战略识别运维目标、运维的交付过程和数据,对数据进行分析,自上而下地指导运维规划,并形成一体化运维平台。支撑企业业务战略的实现,满足企业管理层次的要求,引领企业业务创新。业务战略与愿景给IT运维体系和一体化运维平台提供总体架构与演进方向,同时也明确运维体系与相应落地工具组成与开发的先后顺序。 (二)自下而上——智能运维提升业务的敏捷性 业务的发展瞬息万变,移动化、虚拟化和云计算等技术使IT运维环境错综复杂,IT运维要想跨越分散独立的异构IT领域,深入分析业务服务并实现模块化。就需要将业务服

务级别提高到一个全新的智能级别。利用历史数据优化资源的使用情况,并规划未来业务发展。服务智能化旨在将各种IT数据转化为切实可行的知识,引领规划和指导实践。运维2.0工具体系提供能够提前预见IT问题和预判未来业务需求的分析引擎,支持IT部门更智能化地为业务交付价值。自下而上地将存储、监控、分析、展示、管理和规划全面整合在一起,提供全新的一站式和一体化服务,保证业务的敏捷性以及频繁变动时业务决策的科学化和智能化,减少耗时粗犷的手动操作。 运维2.0所提倡的业务驱动运维使得IT运维主动和业务建立强相关,运维愿景与规划来源于业务战略,运维活动反作用于业务创新与规划,IT的任何问题或故障都能量化成业务影响,业务不必了解复杂的IT技术仅需要了解和自身相关的服务。通过规范SLA评估服务质量,从而达到IT运维和部门之间相互依存、互利共赢的目的。

公司运维服务部门组织架构及职责

****公司运维服务部门 组织架构及部门职责 一、运维服务部门组织架构图 规制公司整体的组织架构图,以特殊色系标识与运维服务相关部门注:上述组织架构图中标注黄色部门为运维服务相关部门。 二、运维服务相关部门职责描述 **公司运维服务相关部门包括IT运维事业部、质量管理部、人力资源部。 IT运维事业部下设服务台、运维服务部、技术研发部。其中,运维服务部下设网络及安全组、系统组、视频及桌面组。 (一)IT运维事业部 负责为用户提供优质、高效的运维服务,满足用户需求。 1.服务台职责 负责运维服务过程中服务台管理工作及仓库备品备件出入库的管理工作。 主要工作职责: (1)负责运维服务过程中的服务台管理工作;

(2)负责公司运维服务客户回访、客户投诉受理和服务跟踪; (3)负责客户满意度调查工作; (4)负责公司的仓库备品备件出入库管理工作。 2.运维服务部职责: 负责运维服务项目的具体执行,为用户提供优质、高效的运维服务,满足用户的需求。运维服务部根据服务内容不同,又下设网络及安全组、系统组、视频及桌面组。 (1)网络及安全组职责: 负责计算机网络设备的运维服务。对信息系统提供安全巡检、安全加固、脆弱性检查、渗透性测试、安全风险评估、应急保障等服务。 ①针对核心交换机及楼层交换机的例行巡检、故障排除等专业服务; ②针对防火墙、路由器、负载均衡的例行巡检、故障排除等专业服务; ③针对信息系统进行例行巡检、分析,提出风险管理措施,对安全隐患、风险、漏洞提供系统加固服务; ④模拟黑客攻击来发现信息安全防御体系中的漏洞; ⑤根据用户需求开展信息系统应急演练,在重大事件期间做好信息系统安全保障服务。 (2)系统组职责

xxxx信息系统运维服务方案

XX局信息化系统运维服务方案 XX局 2013年6月

目录 1概述 (2) 1.1服务范围和服务内容 (2) 1.2服务目标 (2) 2系统现状 (2) 2.1网络架构 (2) 2.2设备清单 (5) 2.3应用系统 (6) 2.4存储系统 (10) 2.5备份系统 (11) 3服务方案 (11) 3.1系统日常维护 (11) 3.2信息系统安全服务 (21) 3.3系统设备维修及保养服务 (23) 3.4软件系统升级及维保服务 (25) 4服务要求 (25) 4.1基本要求 (25) 4.2服务队伍要求 (27) 4.3服务流程要求 (27) 4.4服务响应要求 (28) 4.5服务报告要求 (29) 4.6运维保障资源库建设要求 (30) 4.7项目管理要求 (31) 4.8质量管理要求 (31) 4.9技术交流及培训 (31)

5经费预算 (31)

1概述 1.1服务范围和服务内容 本次服务范围为XX局信息化系统硬件及应用系统,各类软硬件均位于XX局第一办公区内,主要包括计算机终端、打印机、服务器、存储设备、网络(安全)设备以及应用系统。服务内容包括日常运维服务(驻场服务)、专业安全服务、主要硬件设备维保服务、主要应用软件系统维保服务、信息化建设咨询服务等。 1.2服务目标 ●保障软硬件的稳定性和可靠性; ●保障软硬件的安全性和可恢复性; ●故障的及时响应与修复; ●硬件设备的维修服务; ●人员的技术培训服务; ●信息化建设规划、方案制定等咨询服务。 2系统现状 2.1网络系统 XX局计算机网络包括市电子政务外网(简称外网)、市电子政务内网(简称内网)以及全国政府系统电子政务专网(简称专网)三部分。内网、外网、专网所有硬件设备集中于XX局机房各个独立区域,互相物理隔离。 外网与互联网逻辑隔离,主要为市人大建议提案网上办理、XX

运维体系建设方案

运维体系建设方案 一、体系建设目标 查阅了大量资料,也没有找到对“运维体系”的明确定义,大多数资料对运维体系的解读及建设方案都是基于ITIL认证体系与Google SRE,通过一系列的制度、标准、规范及流程,辅以高效的IT管理系统,向用户提供高质量的运维服务,保证系统的可靠运行。 基于对ITIL及Google SRE的理解,部门的运维体系建设目标可以确定为:以积极、负责、严谨的工作态度,正确、高效、规范的工作方法,保证系统7*24小时正常服务,全心全意为客户服务,让客户满意。 二、运维现状分析 随着部门研发的产品日趋成熟,系统的复杂度日益提升,主要体现在业务功能增多、业务流程复杂、业务组件多且依赖关系复杂、系统硬件数量多等,导致整个系统运维的工作量及难度均大幅度增加。运维做了很多的工作,却依然保证不了系统的可靠服务能力,并不能完全满足来自公司内外部“客户”的运维服务要求。通过运维团队内部的讨论与分析,发现运维工作提升困难的主要原因与其所处现状息息相关,主要存在如下亟待解决的痛点: 1)运维人员的技能参差不齐,深度不够,专业化不足; 2)运维人员分工及职责不明确,要求全栈运维,工作上出现相互推诿、拖延; 3)运维操作随意性强,容易出现疏忽与失误,导致系统事故; 4)运维服务接入点不单一,任何运维人员都可以接入服务; 5)运维工作范围繁杂琐碎,出了问题就有责任,有失公平,影响团队成员的积极性; 6)运维对问题的复盘分析不够深入,运维质量改进缓慢; 7)大量的硬件资产缺乏全面细致的管理,不能做到全生命周期管理; 8)大量的业务系统,全手工运维与巡检,耗时耗力;

9)缺乏全面的系统监控手段/系统,不能及时发现系统中的问题; 10)业务系统复杂度高,运维还没有完全了解业务系统的功能及依赖关系; 11)业务系统质量低、可靠性差,导致升级变更的工作量超大。 以上并不是全部的问题,这些问题均不是一天两天形成的,有很多历史原因,在此就不再详述了。但是如果不解决这些问题,运维团队将会继续维持低下的工作效率,运维工作质量也得不到改善。为此,我们需要对症下药,借鉴他人的优秀实践,结合我们自己的实际情况,建立科学、高效地运维体系,以解决所有上述的运维工作中的痛点,提升运维工作效率及服务质量。 三、体系建设规划 通过调研大量的资料,并根据运维现状、资源投入等实际情况,提出了“五化一库”的体系建设规划,即“分工专业化、工作精细化、服务流程化、操作规范化、运维自动化、运维知识库”,逐步提升运维工作的效率与质量。 3.1分工专业化 目前,运维人员就像是 “全能骑士”,即要懂业务,也要懂硬件、网络、安全、架构等多方面的知识与技能,人人都需要是全栈运维工程师。的确存在这样的能人,但是毕竟是少数,大多数的结果是“广而不精”,各方面都知道皮毛,遇到问题了找不到根本原因,对运维工作的质量及效率均有影响。因此,在本运维体系中,计划将运维人员按运维工作内容进行专业分组,分为基础设施组、网络组、平台组、业务组及安全组,如图 1所示。 图1 运维团队分工及职责

06-运维组织架构

教材 d06认证题目 目录 一、单选题 二、多选题 三、判断题 一、单选题(30题) 1、四个维护主题各司其职,以(B)为驱动 A、工单 B、流程 2、维护部负责整体维护管理:谁负责系统管控(系统检查),提供基础数据用于管理、 决策。(C) A、代维队伍 B、区域经理 C、监控中心 3、(A)负责现场管理、监督检查 A、区域经理 B、监控中心 C、代维队伍 4、(C)负责内部管理,给予其一定的自我管理空间 A、区域经理 B、监控中心 C、代维队伍 5、(A)是面向区域实施管理,对维护质量、代维队伍、维护对接、运维成本、更新改造、 资源资产、应急保障、站址维系、物业电费等进行收口管理等,协助区域经理进行现场管理,并为一线代维提供技术支撑与指导 A、维护部 B、监控中心 C、区域经理 D、代维队伍 6、区域经理跟代维队伍之间的关系是?(D) A、区域经理向监控中心提出数据统计需求 B、代维队伍向监控中心提交任务执行情况反馈 C、代维队伍向区域经理反馈任务执行结果,提出现场支撑需求 D、区域经理对代维队伍进行现场管理 7、在“四位一体”生产维护体系架构中,维护部、监控中心、区域经理、代维队伍四个 维护主体可逐级细化为(A)项职能和()个岗位 A、8、13 B、13、8 C、12、4 8、(A)不仅给予代维单位自我管理的空间,充分调动代维单位的积极性,能够充分发挥 代维公司作用,实现代维为我所用,双方建立合作伙伴关系 A、代维嵌入式管理 B、自主管理 9、下列哪项是管理服务组(A) A、运维管理岗 B、塔房室分维护与资源管理岗 C、动环监控与系统支撑岗 D、动力配套专业 10、(C)是本区域维护生产的管理者,对区域维护生产质量负责 A、代维队伍 B、监控中心 C、区域经理 11、维护部与代维队伍生产关系是(B) A、维护部面向区域实施管理,为区域经理管理支撑 B、维护部对代维实施日常管理,为代维队伍提供技术支撑 C、监控中心为区域经理提供过程数据及支撑提醒

云平台下的运维体系建设工作内容

云平台下的运维体系建设工作容 一、系统运维 系统运维负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);负责资产管理,服务器选型、交付和维修。详细的工作职责如下: IDC数据中心建设 收集业务需求,预估未来数据中心的发展规模,从骨干网的分布,数据中心建筑,以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等方面评估选型数据中心。负责数据中心的建设、现场维护工作。

网络建设 设计及规划生产网络架构,这里面包括:数据中心网络架构、传输网架构、CDN网络架构等,以及网络调优等日常运维工作。 LVS负载均衡和SNAT建设 LVS是整个站点架构中的流量入口,根据网络规模和业务需求,构建负载均衡集群;完成网络与业务服务器的衔接,提供高性能、高可用的负载调度能力,以及统一的网络层防攻击 能力;SNAT集中提供数据中心的公网访问服务,通过集群化部署,保证出网服务的高性能与高可用。 CDN规划和建设 CDN工作划分为第三方和自建两部分。建立第三方CDN的选型和调度控制;根据业务发展趋势,规划CDN新节点建设布局;完善CDN业务及监控,保障CDN系统稳定、高效运行;分析业务加速频道的文件特性和数量,制定最优的加速策略和资源匹配;负责用户劫持等CDN日常故障排查工作。 服务器选型、交付和维护 负责服务器的测试选型,包含服务器整机、部件的基础性测试

和业务测试,降低整机功率,提升机架部署密度等。结合对公司业务的了解,推广新硬件、新方案减少业务的服务器投入规模。负责服务器硬件故障的诊断定位,服务器硬件监控、健康检查工具的开发和维护。 OS、核选型和OS相关维护工作 责整体平台的OS选型、定制和核优化,以及Patch的更新和部版本发布;建立基础的YUM包管理和分发中心,提供常用包版本库;跟进日常各类OS相关故障;针对不同的业务类型,提供定向的优化支持。 资产管理 记录和管理运维相关的基础物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息,制定有效的流程,确保信息的准确性;开放API接口,为自动化运维提供数据支持。 基础服务建设 业务对DNS、NTP、SYSLOG等基础服务的依赖非常高,需要设计高可用架构避免单点,提供稳定的基础服务。 二、应用运维 应用运维负责线上服务的变更、服务状态监控、服务容灾和数据

腾讯蓝鲸运维体系架构设计

腾讯蓝鲸运维体系架构设计

引子 蓝鲸是腾讯游戏应用运维(ARE)技术生态体系的代号,由正在逐步产品化的六大运维平台和众多应用运维(含devops)、运营规划等人员构成。 在应用运维这一领域,蓝鲸以“独特”的方式承载着半个腾讯,也承载着国内游戏行业半数份额。 出自应用运维团队的蓝鲸体系,最初的设计理念,是希望能武装运维,使其可以提供更高维度的服务。例如,为产品、策划、运营等岗位提供: 1.自助化的运营工具; 2.数据化决策支持; 3.直接的用户体验改善等。 我们受邀于7月16号晚上在高效运维1号群做一次专题分享(届时将有多个群转播,超过1500人在线收看、互动),本文是为保障群内分享效果而提前撰写的背景和概要介绍。 本文尝试以半叙事的方式,概述蓝鲸出现的背景,设计理念,和落地方式,希望业界广大应用运维同行们,在我们的发展历程中能找到自己现阶段的影子,共鸣共勉,共同努力,繁荣应用运维生态。 1. 蓝鲸的背景:运维转型 十年前,我们的业务运维忙于这些工作: 服务器、网络、OS、DB、发布、变更、监控、故障处理、运营环境信息维护提取等等。 这些工作大多是被动的,或者说是“需求驱动型的“,运维大多数时候在被动的为产品、策划、运营、开发等合作岗位的同学提供操作服务,而且很多是重复性的操作服务。 五年前,我们的一个运维小组发起了转型尝试,目标是使我们的运维团队从“操作服务输出”,转型为“解决方案服务输出”。 三年前,也就是2012年,依据这个先行试点团队的效果评估,整个腾讯游戏的十余个运维团队(目前200+运维)走上了艰难的转型之路,作为落地承载方案的蓝鲸体系同时开始构建。

相关文档
最新文档