商业银行数据中心运维自动化建设探讨

合集下载

银行数据中心自动化运维平台设计

银行数据中心自动化运维平台设计

银行数据中心自动化运维平台设计本文介绍银行数据中心自动化运维平台设计的背景和目的。

随着银行业务的扩张和数据量的增长,传统的手动运维方式已经无法满足业务运营的要求。

为了提高运维的效率和可靠性,银行决定设计一个自动化运维平台来管理数据中心的各项运维任务。

自动化运维平台设计的目的是实现对数据中心运维任务的全面自动化管理,减少人工干预,提高运维效率,降低运维成本,并确保数据中心的稳定性和安全性。

通过自动化运维平台,银行可以实现运维任务的快速响应、高效执行和实时监控。

本文将介绍自动化运维平台的设计原则、功能模块以及实施方案,以帮助银行了解和理解此平台的重要性和潜在好处。

本文旨在分析银行数据中心运维的需求,以及自动化运维的优势和目标。

银行数据中心运维需求分析银行作为金融行业的重要组成部分,数据中心扮演着关键的角色。

银行数据中心的运维需要满足以下需求:高可用性:银行数据中心需要保证24/7的稳定运行,以确保业务连续性和系统可用性。

高可用性:银行数据中心需要保证24/7的稳定运行,以确保业务连续性和系统可用性。

安全性:银行数据中心存储了大量的敏感客户信息和交易数据,因此必须具备严格的安全保护机制,包括访问权限控制、数据加密等。

安全性:银行数据中心存储了大量的敏感客户信息和交易数据,因此必须具备严格的安全保护机制,包括访问权限控制、数据加密等。

安全性:银行数据中心存储了大量的敏感客户信息和交易数据,因此必须具备严格的安全保护机制,包括访问权限控制、数据加密等。

安全性:银行数据中心存储了大量的敏感客户信息和交易数据,因此必须具备严格的安全保护机制,包括访问权限控制、数据加密等。

灵活性:由于业务需求的不断变化,银行数据中心需要具备灵活的运维能力,能够快速部署和调整系统资源,以适应不同的业务场景。

灵活性:由于业务需求的不断变化,银行数据中心需要具备灵活的运维能力,能够快速部署和调整系统资源,以适应不同的业务场景。

灵活性:由于业务需求的不断变化,银行数据中心需要具备灵活的运维能力,能够快速部署和调整系统资源,以适应不同的业务场景。

商业银行大型主机自动化运维架构研究

商业银行大型主机自动化运维架构研究

商业银行大型主机自动化运维架构研究中国农业银行数据中心贾卓大型主机在I/O能力、非数值计算能力、稳定性和安全性等方面具有得天独厚的优势,在银行、证券、保险、电信及航空等行业也有着广泛的应用。

然而,由于主机系统相对封闭,绝大多数主机操作都需要人工登录专有操作终端完成。

近几年,主机上新增了一系列接口或方法,使得运维人员能够从外部平台操作主机资源。

我们将上述接口进行整合和封装,对外提供统一的基于Web Service的服务,以此为核心可以构建大型主机自动化运维的基础框架。

一、大型主机自动化运维研究现状长期以来,大型主机的运维操作主要通过特定的TN3270终端完成,这种具有字符界面的终端对运维人员的专业性要求极强,而且一个终端只能操作单个系统,在需要同时操作多个系统时显得力不从心。

有学者尝试利用Web方式进行主机操作,例如西安电子科技大学的朱爱萍在其硕士毕业论文《基于Web技术封装大型主机操作逻辑的研究与实现》中提到,将JCL作业的生成和提交封装为功能模块,通过FTP协议与主机进行交互。

然而,由于FTP设计之初仅是用于在不同主机之间传输文件,并未考虑实时方式响应大量并发用户的需求,因此在高并发的场景下会出现访问失败的情况,通过此模块获取作业返回结果也极不方便。

大连理工大学的陆坤、李凤岐在《基于JAVA Web的大型主机资源管理平台》一文中阐述了如何解决获取作业结果的问题,但是方法略显笨拙。

其基本流程为:开放平台生成REXX/ JCL代码,通过FTP提交到主机端执行,将结果保存到分区数据集上,再通过FTP将数据集下载到开放平台供分析和反馈。

综上所述,受限于主机操作系统的封闭性和技术手段的局限性,国内目前对大型主机自动化运维架构研究得不多,在有限的研究成果中,与主机交互的方式多为FTP的方式,且仅限于通过JCL作业的方式与主机进行数据交互。

二、主机原生接口(1) z/OS Management Facility 即z/OSMF,是IBM最新推出的系统管理工具,它提供了一个B/S架构的管理页面,完全不同于以往的TN3270终端。

论银行数据中心自动化运维管理系统的设计与实现

论银行数据中心自动化运维管理系统的设计与实现

论银行数据中心自动化运维管理系统的设计与实现银行数据中心作为银行业务的核心基础设施,承载着银行众多的业务系统和数据。

为了保证数据中心的稳定运行和高效管理,银行需要引入自动化运维管理系统。

本文将围绕银行数据中心自动化运维管理系统的设计与实现展开讨论。

一、系统需求分析1.业务需求银行数据中心自动化运维管理系统应能实现系统的监控和报警、故障排查与修复、性能优化、资源管理等功能,以支持银行业务需求的稳定运行。

2.运维需求自动化运维管理系统应具备自动化配置管理、自动化巡检、自动化故障处理等功能,以提高运维效率和减少人为错误。

3.安全需求银行数据中心存储着大量的敏感数据,系统应具备严格的权限管理和安全防御机制,以确保数据的安全性和可靠性。

二、系统设计1.系统架构银行数据中心自动化运维管理系统的架构应为分布式架构,以实现高可用和高扩展性。

主要包括数据采集层、数据处理层和数据展示层。

数据采集层负责采集数据中心各种设备的性能指标、日志信息和配置信息等,并发送到数据处理层。

数据处理层负责接收、处理和分析来自数据采集层的数据,并生成相应的报告和警报等。

数据展示层则提供给运维人员数据中心的状态和各项指标的展示和管理界面。

2.功能模块设计数据中心自动化运维管理系统主要包括以下几个功能模块:(2)数据处理模块:负责接收和处理来自数据采集模块的数据,并进行分析和计算,生成相应的报告和警报等。

还能够与其他系统进行数据交互,以实现资源管理和自动化配置管理等功能。

(3)报警模块:负责根据预设的规则和阈值生成报警信息,并通过短信、邮件等方式及时通知运维人员。

(4)故障处理模块:负责对故障信息进行处理和修复,可以通过自动化脚本或手动操作完成。

(5)性能优化模块:负责对数据中心的性能进行监控和优化,可以根据不同的应用场景和需求进行调整和优化。

(6)资源管理模块:负责对数据中心的资源进行管理和分配,可以实现自动化的资源调度和负载均衡。

(7)权限管理模块:负责对系统的用户和角色进行管理和授权,以确保数据的安全性和可靠性。

银行数据中心自动化运维探索

银行数据中心自动化运维探索

银行数据中心自动化运维探索在当今数字化时代,银行业务对信息技术的依赖程度日益加深,银行数据中心作为支撑银行业务运行的核心基础设施,其稳定、高效的运维至关重要。

随着业务的不断扩展和技术的快速更新,传统的人工运维方式已经难以满足银行数据中心日益增长的需求,自动化运维逐渐成为银行数据中心运维的重要发展方向。

银行数据中心面临着诸多挑战。

首先,业务的复杂性和多样性使得数据中心的系统架构日益庞大,设备数量众多,人工管理难度大。

其次,业务的连续性要求极高,任何故障都可能导致严重的经济损失和声誉风险。

再者,随着新技术的不断涌现,如云计算、大数据、人工智能等,数据中心的技术更新换代速度加快,对运维人员的技术能力提出了更高的要求。

自动化运维的出现为解决这些问题提供了可能。

它能够通过一系列的技术手段和工具,实现对数据中心运维工作的自动化管理和控制,从而提高运维效率、降低运维成本、提升运维质量。

自动化运维的核心技术包括监控技术、配置管理技术、自动化部署技术和流程自动化技术等。

监控技术能够实时监测数据中心的各类设备和系统的运行状态,及时发现潜在的故障和问题。

配置管理技术则负责对数据中心的各类配置信息进行集中管理和版本控制,确保配置的准确性和一致性。

自动化部署技术可以实现软件和系统的快速部署和更新,大大缩短了部署时间。

流程自动化技术能够将一些重复性的运维工作流程进行自动化处理,提高工作效率。

在银行数据中心的实际应用中,自动化运维发挥着重要作用。

例如,在日常的巡检工作中,通过自动化的监控工具和脚本,可以实现对服务器、网络设备、存储设备等的自动巡检,及时收集设备的运行状态信息,并对异常情况进行报警。

在系统的升级和部署方面,利用自动化部署工具,可以实现快速、准确的部署,避免了人工操作可能带来的失误。

在故障处理方面,当出现故障时,自动化的故障诊断和恢复工具能够快速定位故障点,并自动执行一些恢复操作,缩短故障恢复时间。

然而,银行数据中心的自动化运维也并非一帆风顺,存在着一些问题和挑战。

招行数据中心建设及运维管理

招行数据中心建设及运维管理

招行数据中心建设及运维管理在当今数字化时代,银行业对于数据的依赖程度日益加深。

作为国内领先的商业银行之一,招商银行高度重视数据中心的建设与运维管理,以确保其业务的稳定运行和持续创新。

招行数据中心的建设是一个复杂而系统的工程,需要综合考虑多个方面的因素。

首先是选址问题。

为了保障数据中心的稳定性和安全性,招行通常会选择地质条件稳定、电力供应充足、网络通信便捷且远离自然灾害频发区域的地点。

同时,还会充分考虑当地的政策环境和成本因素。

在基础设施建设方面,招行数据中心采用了先进的技术和设备。

数据中心的机房环境要求极高,需要具备良好的通风、散热、防火、防潮等功能。

为此,招行配备了高效的空调系统、消防系统以及智能的监控系统,实时监测机房内的各项环境参数。

电力供应是数据中心运行的关键。

招行数据中心通常会接入多路市电,并配备大容量的 UPS(不间断电源)系统和备用发电机,以确保在市电出现故障时能够迅速切换,实现无缝供电,保障业务的连续性。

网络架构的设计也是至关重要的一环。

招行构建了高速、可靠、冗余的网络,采用了最新的网络技术和设备,以满足大量数据的传输和处理需求。

同时,通过与多家运营商合作,实现了网络的多线路接入,提高了网络的稳定性和可靠性。

在硬件设备方面,招行选用了性能强大、稳定性高的服务器、存储设备等。

为了应对不断增长的数据量和业务需求,还采用了云计算、虚拟化等技术,实现资源的灵活分配和高效利用。

而数据中心的运维管理更是保障其正常运行的关键。

招行建立了一套完善的运维管理体系,包括人员组织架构、流程规范、技术支持等方面。

运维团队由具备丰富经验和专业知识的人员组成,涵盖了网络工程师、系统管理员、数据库管理员、安全管理员等多个角色。

他们分工明确,协同工作,共同保障数据中心的稳定运行。

在流程规范方面,招行制定了详细的操作流程和应急预案。

对于日常的运维操作,如设备的巡检、维护、升级等,都有严格的流程和标准。

而在遇到突发情况时,能够迅速按照应急预案进行处理,将损失和影响降到最低。

商业银行it运维智能化方法与实践

商业银行it运维智能化方法与实践

商业银行it运维智能化方法与实践
一、商业银行IT运维智能化方法
1、首先,重视信息安全,增强安全管理,加强信息系统安全机制和
内部审计机制,实现及时发现和预防信息安全风险,保护重要信息安全,
保障商业银行业务安全运行。

2、其次,加强基础设施安全管理,建立网络安全防护体系,实施多
层防火墙、入侵检测系统、入侵防御系统、数据加密技术等技术管理,保
护网络安全,保护商业银行系统和资料安全。

3、再次,加强系统运维,如系统监控、系统备份、系统安全补丁管理、系统稳定性管理等,确保系统及时、准确管理和安全可靠运行,充分
提高信息系统的稳定性和可用性。

4、最后,投入技术资源实现IT运维智能化,引入自动化运维工具,
进行运维服务自动化,实现及时、准确的系统运维,加快运维效率,降低
运维成本,提升系统安全、稳定性及可靠性。

二、商业银行IT运维智能化实践
1、组建信息安全队伍,建立信息安全管理机制,实施安全审计制度,定期进行安全检查,实现商业银行安全管理可视化,确保信息安全,保护
重要信息,加强网络和信息安全防护。

论银行数据中心自动化运维管理系统的设计与实现

论银行数据中心自动化运维管理系统的设计与实现

论银行数据中心自动化运维管理系统的设计与实现银行作为社会经济运行的重要组成部分,其数据中心的安全稳定运行对整个金融系统至关重要。

为了保障银行数据中心的稳定运行,提高运维效率,实现运维自动化管理,需要建立一套完善的数据中心自动化运维管理系统。

本文将针对银行数据中心自动化运维管理系统的设计与实现进行分析和探讨。

一、系统需求分析1. 数据中心运维管理需求银行数据中心作为金融业务的核心基础设施之一,其运维管理具有以下特点:高可靠性、高安全性、高稳定性。

数据中心的设备繁多,包括服务器、网络设备、存储设备等,需要进行定期的巡检、维护和升级。

银行数据中心还需要进行实时监控、故障处理、日常运维等工作。

数据中心的运维管理工作量大,而且需要高效、及时、可靠地完成。

2. 自动化运维管理系统需求为了提高数据中心运维管理的效率和便利性,需要建立一套自动化运维管理系统。

这套系统需要具备以下功能:(1)设备监控:实时监控数据中心各类设备的运行状态,包括服务器运行状态、网络设备运行状态、存储设备运行状态等。

(2)故障处理:发现设备故障时能够自动发出报警信息并进行故障处理,包括自动切换故障设备、自动通知运维人员进行维修等。

(3)巡检维护:定期对数据中心设备进行巡检和维护,包括巡检设备运行状态、清理设备风扇、更换设备损坏的零部件等。

(4)自动化部署:对新设备进行快速部署和配置,自动完成系统安装、软件部署、网络配置等工作。

(5)数据分析:对数据中心运维过程中产生的各类数据进行收集、分析和报告,为运维决策提供支持。

二、系统设计与实现1. 技术选型针对银行数据中心自动化运维管理系统的设计与实现,我们选择采用开源技术和商业技术相结合的方式。

(1)设备监控:采用Zabbix进行设备监控,Zabbix是一款开源的网络监控系统,可以实时监控各类设备的运行状态,并根据预设的阈值进行报警。

(2)故障处理:采用Nagios进行故障处理,Nagios是一款开源的故障监控系统,可以自动发现设备故障并进行故障处理,并能够自动通知运维人员。

商业银行大型主机平台运维智能化转型探索与实践

商业银行大型主机平台运维智能化转型探索与实践

IT运维IT OPERATION AND商业银行大型主机平台运维智能化转型探索与实践中国农业银行数据中心 张相广商业银行大部分核心业务处理和数据信息都集中在大型主机平台,主机平台的稳健运行对于银行生产安全来说至关重要,牵一发而动全身。

近年来,互联网金融蓬勃发展,银行业务形态日益多样化,人民银行、银保监会等外部监管机构也对商业银行的监管提出更严格要求,因此主机核心系统需要具备7×24在线连续性服务能力。

此外,随着信息技术架构优化调整的深入推进,主机核心系统运维复杂度日益增加。

商业银行数据中心应积极践行“科技运维”理念,深入挖掘运维数据价值,努力实现核心业务系统从传统运维向智能运维的转型跨越。

一、面临的形势和挑战1. 金融科技当前,整个银行业的IT技术在飞速发展,以大数据、人工智能、区块链、云计算和生物识别为代表的金融科技(FinTech)正以前所未有的速度改变整个行业。

当前,中国农业银行(以下简称“农行”)高度重视数字化转型工作。

新兴技术加快落地应用转化,必将带动提升农行智能化水平,同时也对数据中心的运维模式、技术架构等方面产生直接或间接影响,主机核心业务系统也不例外。

2. 自身发展当前,我国金融业高速发展,农行核心业务系统,特别是基于互联网的各种网络金融业务蓬勃发展,每年的业务增量几乎全部来自电子渠道。

此外,一方面,核心银行业务的特征也急剧变化,小额高频交易占主流,交易量“潮涨潮落”现象日益明显,特别是快捷支付交易量逐年递增,瞬间冲高;另一方面,为适应业务发展的客观需求,有效应对新机遇和新挑战,农行全面推进信息技术架构优化转型,全力打造企业级“主机+开放”融合式和“两地三中心”技术架构,日常运维复杂度明显增大。

3. 外部压力当前,人民银行、银保监会等外部监管机构在审计和监管方面的要求越来越严格,对业务连续性提出了明IT运维IT Operation and Maintenance确的要求,监管内容也从传统的交易量监控到对交易性能容量的全面监控。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

栏目编辑:张磊磊 E-mail:1711945429@商业银行数据中心运维自动化建设探讨■ 中国农业银行数据中心 莫军辉摘要:数据中心是现代商业银行的“大脑”,其持续、稳定、高效运行至关重要。

本文针对数据中心运维现状、存在的问题及新趋势,提出了数据中心运维自动化建设工作的总体目标、思路及具体实施步骤,构建形成面向业务的一体化、自动化运维服务云平台,从而有效地提升了数据中心的运行效率和服务质量。

关键词:金融科技;数据中心;运维;自动化作者简介: 莫军辉(1982-),男,湖南邵阳人,工学硕士,高级工程师,供职于中国农业银行数据中心,高级专员,研究方向:银行 运维自动化建设。

内外部监管趋严、业务持续发展都对生产系统的稳定性、高可用提出越来越高的要求,应用系统业务逻辑随之日益复杂。

基础架构规模庞大的运维现状,是数据中心运维管理面临的巨大挑战。

为有效提升数据中心的运行效率和服务质量,促使数据中心由“成本中心”向“价值中心”转变,商用银行亟须开展运维自动化建设,以提升工作效率和降低运维风险。

本文从运维自动化的背景、建设思路及具体实施内容等方面分享了该领域的一些心得体会。

一、运维自动化的现状及内外部形势(一)IT运维管理的背景及发展趋势1.IT运维管理的背景FinTech是当今银行业最热门的词汇之一,其揭示了科技在银行业的重要地位。

信息系统的安全稳定运行已经成为银行经营与发展的生命线。

与此同时,银行业在信息技术发展的驱动下,纷纷建立了集约化、集成化的大型数据中心,逐步形成了以全国数据中心为核心、省域数据中心为支撑、覆盖所有基层网点的IT运维新格局。

数据集中和资源整合使信息系统的技术体系复杂度和运维风险成倍叠加。

IT运维如何应对数据大集中后运行规模庞大、管理层级繁多、技术应用复杂的新形势,如何加强对信息系统维护、基础设施设备运维、IT运行风险防控、应急处置、业务服务连续性等方面的统筹管理,已成为银行高管和科技人员必须深入思考、积极探索和亟待解决的重要课题。

目前,银行业必须建立一套符合自身IT特点、与数据中心发展模式相配套的IT运维一体化管理体系,明确运维管理的各项内容,统一运维管理的相关标准,规范运维管理的具体流程,切实转变传统的分散式、粗放式的运维管理模式。

2.传统运维管理存在的问题据第三方研究公司Coleman Parkes Research发布栏目编辑:张磊磊 E-mail:1711945429@的调查研究显示,企业的IT系统支出呈现出“70/30”规则,即企业70%的钱都花在对现有系统的运维上,而IT运维人员70%的精力和时间都花在了日常巡检、系统发布及配置等基础运维工作上。

尽管IT运维管理的技术在不断进步,但实际上,仍有很多IT运维人员并没有真正解脱出来,主要有以下3方面的原因。

一是大多数日常运维管理工作是手工操作的。

如变更一个简单的程序往往需要运维人员对逐台服务器进行操作,当服务器数量成百上千时,其工作量之大可想而知。

而类似的变更和检查操作在IT运维中每天都在进行,占用了大量的运维资源。

二是虽然能够及时获取IT设备、网络、应用等专业的告警信息,但成千上万条告警信息只是简单地堆积在一起,仍无法根据其快速判断出问题的根源,信息之间缺乏关联性分析。

三是IT运维人员日常大部分时间和精力都是用在处理一些简单重复的问题上,且故障预警机制不完善,往往是当事件已经发生并影响业务时才被发现和处理。

这种被动“救火”的工作方式不但使IT运维人员终日忙碌,也使IT运维质量难以提高,不但事倍功半而且常常会出现恶性连锁反应,最终导致业务部门对IT运维的服务满意度不高。

3.运维管理的新趋势(1)趋势一:支撑数据大集中管理的分析能力在大数据集中趋势越来越明显的今天,IT运维产品不仅需要具备海量运维数据的实时采集能力,还要实现管理数据共享,拥有对海量数据的分析能力,为运维工作提供有价值的管理和决策依据。

(2)趋势二:虚拟化监控管理同等对待当前,数据中心正处于由物理机向虚拟机替代的过程,从初期的少量物理机发展到现在数量庞大的虚拟机池,按需分配资源的理念已深入人心。

此趋势极大地提高了资源的利用率和灵活性,但也给运行维护工作带来了挑战。

IT运维产品需要消除虚拟化的“不可见”特殊性,以达到“同等对待”的能力,支撑数据中心升级至“云数据中心”。

(3)趋势三:从“成本中心”到“价值中心”的转变在IT管理方法论的进程中主要有3个典型观点,分别为是NSM(通过数据采集获取运行状态,实现“被动响应”到“主动管理”)、ITSM(通过技术、人员、流程三者结合,实现从“主动管理”到“服务导向”),以及BSM(从企业服务角度出发,实现“服务管理”到“业务价值”)。

BSM建立了以业务为重点的IT服务与IT基础设施之间的联系,提高了数据中心对IT技术的利用效率,更加有效地推动业务发展,提升市场竞争力。

(二)商业银行IT运维管理建设情况1.国外银行建设情况在20世纪90年代加拿大大众银行就建立了先进的IT维护模式。

以基础架构资源维护为例,该行建立了完整的设备、资源管理数据库和知识库,包括所有硬件设备的配置情况、所有软件的参数配置及维护记录等。

几乎所有设备均可通过系统实现远程自动化监控。

如设备遇到问题,则会自动报警,以红色标识显示在屏幕上。

无论是系统自动报警还是人员上报故障,运维人员只需要按照相关的知识库步骤操作即可,大大提升了现场人员的处置故障能力和并扩大了处置范围。

同时,在日常的运行维护管理方面,该行采用了类似ITIL的方法来进行运行支持,包括人员设置、流程运作、问题管理、事件管理、变更管理以及服务级别管理等。

2.国内银行建设情况目前,国内四大行以及全国性商业银行基本建立了大集中模式的IT核心业务系统,并结合行业技术发展与自身实际,推动IT运维管理建设朝自动化、流程化以及服务云方向发展。

如工行探索并建立了以业务应用交易监控为中心的IT运维监控系统,并对有关可用性、容量、事件、问题、配置等管理流程进行相应的优化。

栏目编辑:张磊磊 E-mail:1711945429@二、数据中心运维自动化建设总体目标及建设思路(一)总体目标数据中心紧密围绕着“系统安全稳定运行”开展工作,可分为保障业务正常营业的应用运维和支撑应用系统正常运行的基础环境运维两大类。

为应对IT 运维管理的新情况、新趋势,解决传统运维存在的问题,数据中心运维自动化建设应是朝着“面向业务、一体化、自动化”的方向来发展,即以支撑业务运行的应用系统为主线,有效贯穿、融合两类运维工作,实现各类运维工作的自动实施、数据共享、互联互通,从而提高工作效率,并最终提升银行的业务连续性。

具体可从以下3个层面来实现。

一是以满足业务投产和支撑业务推广为目的,从基础环境资源交付及使用的角度出发,充分利用虚拟化技术,推行基础环境资源的虚拟化,构建标准资源池,从而实现按需获取、可动态调整的资源交付方式,并结合流程化工作,实现资源及应用系统信息的配置化。

二是以保障业务持续稳定运行为目的,从系统日康检查、将相关基础功能单元进行有效的衔接与整合,形成综合性的运维服务功能,从而灵活、快速地满足不同运维场景的自动化需求,实现云服务平台的运维功能。

三是以促进业务经营为目的,从大数据分析及挖掘的角度出发,建立大数据分析及报表平台,充分利用采集到的业务运行数据和系统运行指标数据等,从中提炼价值。

一方面,可为科技管理人员的运维规划提供依据,另一方面,可辅助业务部门实施精准营销策略,实现数据中心从“成本中心”向“价值中心”转变。

通过实现上述3个层面的技术目标,可真正建立起数据中心面向业务的一体化、自动化运维服务云平台,实现数据中心运维工作的服务化,提升服务过程的效率和质量,确保过程可视、风险可控。

运维服务云平台功能架构如图1所示。

(二)建设思路与原则1. 建设思路根据笔者长期的IT运维和工作经验,建议数据中心在开展运维自动化建设时,遵循以下建设思路。

功能池基础资源池支撑业务的应用系统资源管理功能池运维功能池运维服务云大数据分析运维功能池辅助功能运维对象基础功能运维服务知识库流程平台CMDB栏目编辑:张磊磊 E-mail:1711945429@(2)急用先行,分步实施梳理各功能模块的优先级,注重“重点突破”和“实用高效”,分阶段逐步完成系统建设。

(3)渐进集成,持续优化在基础功能逐步成熟的条件下,将各模块进行集成和耦合,并持续优化,不断完善,最终形成整体一致、信息共享的一体化、自动化运维服务云平台。

2. 建设原则数据中心在开展运维自动化建设时,还应坚持以下建设原则。

(1)安全可控保持生产系统安全稳定运行乃数据中心的第一要务,在生产运维自动化建设过程中,应在风险可控的原则下开展运维自动化建设,不但要把繁琐的人工操作升级为自动化操作以提高效率,更要通过推进自动化操作来实现风险可控。

(2)可扩展性运维自动化平台应具备良好的可扩展性,能快速满足因银行业务快速发展和内外部对IT运维监管要求的变化而带来的新的运维自动化需求。

(3)标准化从使用范围来说,自动化系统不仅能满足数据中心日常运维管理的需求,而且可以在未来推广至全国各一级分行,乃至网点机构。

三、数据中心运维自动化建设的实施步骤综合数据中心运维自动化建设的总体目标、思路与原则,笔者建议该项工作可分3个阶段实施。

第一阶段是准备阶段:将运维工作规范化和流程化,规划平台蓝图,为后续建设奠定基础。

第二阶段是实施阶段:开展平台的全面建设,落地规划,构建运维功能池,实现运维工作的自动化、数据的一体化,转变运维方式,提升运维效率。

第三阶段是数据分析阶段:搭建大数据分析平台,从数据中挖掘价值,持续不断地提升运维质量,最终构建形成面向业务的一体化、自动化运维服务云平台。

(一)准备阶段该阶段的主要工作是组织各技术条线、运维处室总结归纳日常运维工作的内容,提炼出自动化操作的典型场景和流程,形成相应的工作规范或标准,为后续自动化实施明确需求、奠定技术规范,并以此构建平台总体视图和初步任务计划。

1. 形成数据中心运维服务目录根据数据中心大规模基础架构的现状及系统运维管理需求,梳理并纳入服务云平台的运维服务目录。

一方面,从大规模系统日常运维管理的现状出发,全面梳理监控、管理、操作等运维工作的自动化需求场景,将其转化形成基础功能池,并结合各类运维流程,整合形成运维服务,纳入到运维服务目录。

另一方面,从数据中心基础架构的现状出发,全面讨论网络、设备层虚拟化的标准及规范,设计资源池管理场景,按虚拟化标准及规范构建资源池,并将相关操作功能整合到运维服务目录中。

2. 完成操作流程、技术规范的标准化运维服务目录梳理完成后,一方面,与各技术条线运维处室及相关管理部门确认涉及的技术及管理标准,包括逐一梳理与运维流程相关的管理策略,将运维操作流程标准化。

相关文档
最新文档