企业系统运维架构演进

合集下载

运维技术架构

运维技术架构摘要：1.运维技术架构概述2.运维技术架构的关键组成部分3.运维技术架构的实际应用4.运维技术架构的发展趋势5.我国在运维技术架构方面的发展正文：【运维技术架构概述】运维技术架构，是指为保证系统稳定运行、提高系统可用性、实现系统自动化运维而设计的一种技术框架。

在现代信息技术领域，运维技术架构已经成为企业IT 系统管理的核心部分，它对提高企业竞争力、降低运维成本具有重要意义。

【运维技术架构的关键组成部分】运维技术架构主要包括以下几个关键组成部分：1.监控系统：监控系统是运维技术架构的基础，用于实时收集系统的运行状态，发现异常及时进行处理。

监控系统可以分为硬件监控、软件监控和应用监控等。

2.自动化运维工具：自动化运维工具是运维技术架构的核心，通过编写脚本、定义流程，实现对系统的自动化部署、升级、维护等操作。

常见的自动化运维工具有Puppet、Chef、Ansible 等。

3.配置管理数据库：配置管理数据库用于存储系统的配置信息，为运维人员提供一致、准确的配置数据。

常见的配置管理数据库有CMDB、PuppetDB 等。

4.日志分析系统：日志分析系统用于收集、存储、分析系统的日志信息，帮助运维人员定位问题、优化系统性能。

常见的日志分析系统有ELK、Splunk 等。

5.备份恢复系统：备份恢复系统用于定期备份系统数据，以防数据丢失，同时提供快速恢复机制。

常见的备份恢复系统有Rsync、Bacup、Zbackup 等。

【运维技术架构的实际应用】运维技术架构在企业IT 系统管理中发挥着重要作用，以下是几个典型的实际应用场景：1.系统部署：通过自动化运维工具，实现系统的快速部署、升级，提高运维效率。

2.故障排查：通过监控系统、日志分析系统，实时发现系统异常，快速定位故障原因。

3.性能优化：通过监控系统收集系统性能数据，分析系统瓶颈，进行性能优化。

4.安全管理：通过监控系统、自动化运维工具，实现对系统的安全管理，防止安全风险。

运维部组织架构岗位说明与工作流程

运维部组织架构岗位说明与工作流程一、运维部组织架构运维部门作为企业的技术支持部门，其组织架构必须要合理，以便能够有效地开展运维工作。

通常来说，运维部门可按如下组织架构设置：1. 部门主管：负责整个运维部门的管理和运营，属于高级管理岗位。

2. 运维经理：如果部门规模比较大，可以拥有运维经理这一岗位，负责制定运维部门的工作计划和流程，并对各运维小组进行管理协调。

3. 运维工程师：是运维部门的核心人员，主要负责企业信息化系统环境的搭建、维护、升级和优化，监控系统运行情况，及时处理系统故障，确保系统的正常运转。

4. 运维助理：通常是刚刚进入运维部门的新人，需要接受运维工程师的培训和指导，帮助前辈们处理简单的运维工作，为日后的发展打下基础。

5. 运维实习生：公司为了实现人才储备会招更多的运维实习生，这些实习生属于暂无薪金支持的实习职位，主要起到锻炼实习生实践操作技能和融入企业文化的作用，同时也为公司发掘人才，后续可根据实习生的表现安排其转正。

二、工作流程运维部门的工作流程包括了门户上线部署、日常维护、运行监管、技术支持等环节：1. 门户上线部署：门户上线涉及到服务器的搭建、数据库的建立、应用的安装、配置文件的调整等多个环节，具体工作流程如下：（1）项目启动：由项目经理启动项目，对整个门户上线进行规划和分析，制定初步计划。

（2）需求确认：运维部门与业务部门或IT 部门就门户需求进行讨论和确认，定下交付时间。

（3）搭建服务器环境：选择合适的服务器，并配置好相关环境参数。

（4）数据库建立：根据业务需求建立数据库，选择合适的数据库，并进行参数设置。

（5）安装应用：安装业务所需的应用程序，例如Web容器、Java程序等。

（6）配置文件调整：根据应用程序的需求进行配置文件的调整，确保能够正常工作。

（7）上线测试：对门户进行测试，检查是否符合业务需求，能否正常运行。

（8）上线部署：将门户正式部署到生产环境中。

2. 日常维护：日常维护工作需要对服务器系统和网络设备及时进行监视和维护，保障系统的稳定性和可用性：（1）日常检查：定期检查服务器系统和网络设备的状态，像CPU使用率、磁盘空间、内存使用情况等进行监控。

运维技术趋势

运维技术趋势随着信息技术的飞速发展，运维技术也在不断演进和发展。

以下是运维技术的一些趋势：1.自动化随着云计算、大数据等技术的快速发展，运维工作变得越来越复杂。

为了应对这种复杂性，自动化工具和技术成为了趋势，可以帮助运维人员更高效地管理和监控系统。

例如自动化部署工具可以帮助运维人员快速地部署和配置服务器，自动化测试工具可以帮助运维人员快速地检测系统的稳定性和可靠性。

2.云计算和虚拟化云计算和虚拟化技术的出现使得运维工作变得更加复杂。

运维人员需要管理和监控大量的虚拟机、容器等资源。

因此，掌握云计算和虚拟化技术成为运维人员的基本素质。

同时，云计算提供了更强大的计算和存储能力，使得企业可以更好地应对业务峰值和突发情况。

3.容器化随着微服务架构的兴起，容器化已经成为了一个热门的技术趋势。

容器化可以帮助开发人员更好地进行应用程序的开发和部署，同时也可以提高系统的可伸缩性和可移植性。

容器化技术如Docker等已经成为了运维人员必备的技能。

4.监控和告警随着企业系统的规模越来越大，系统的监控和告警工作变得越来越重要。

运维人员需要监控各种指标，如系统负载、网络流量、磁盘空间等，并及时发出告警。

同时，监控和告警系统需要足够智能，能够通过机器学习等技术进行异常检测和预测，以提前发现潜在的故障。

5.DevOpsDevOps是一种将开发和运维进行深度合作的开发模式。

通过DevOps，开发人员和运维人员可以更好地协同工作，合作开发和维护系统。

DevOps可以帮助企业更快速地交付软件，提高系统的可靠性和稳定性。

因此，掌握DevOps技术也成为了运维人员的必备技能。

总之，运维技术正朝着自动化、云计算和虚拟化、容器化、监控和告警、以及DevOps的方向发展。

运维人员应当不断学习和掌握新的技术，以跟上行业的发展和变化。

运维发展历程

运维发展历程运维是现代企业管理中不可或缺的一环，它负责维护、监控和优化企业的信息技术系统，确保系统的稳定运行和高效性能。

在过去的几十年中，运维经历了许多变革和发展，下面是运维发展的一个简要历程。

运维最早起源于计算机时代的开端。

上世纪六十年代，随着计算机技术的进一步发展，企业开始使用计算机来处理各种业务数据。

为了确保计算机系统的稳定运行，他们设立了运维团队，负责维护和管理计算机硬件设备。

到了七十年代和八十年代，随着计算机技术的普及，运维的工作逐渐变得复杂。

除了硬件设备的维护，运维团队还需要处理操作系统、网络和数据库等软件的安装、配置和维护。

此时，运维的工作职责开始扩大，需要具备更全面的技术能力。

九十年代和二十一世纪初，企业的信息技术系统变得更加复杂和庞大。

面对这种情况，运维团队开始关注系统的可用性和性能。

他们引入了各种监控系统和自动化工具，以便及时发现和解决系统故障，并提升系统的性能。

随着互联网的兴起，运维的发展进入了一个新的阶段。

企业开始将自己的业务上云，采用云计算、虚拟化和容器化等新技术。

这使得运维工作变得更加灵活和便捷。

运维团队可以通过云服务商提供的管理工具和接口来快速部署和管理系统，大大减少了运维的负担。

近年来，随着人工智能和大数据等新兴技术的应用，运维工作迎来了更大的机遇和挑战。

传统的基础设施监控逐渐向智能化和自动化发展，使得运维团队可以更加深入地了解和优化系统的运行状态。

此外，运维团队还开始利用大数据分析技术，通过对系统日志和用户行为数据的分析来预测和避免潜在的故障。

未来，随着技术的不断进步，运维将继续发展和演变。

一方面，运维将更加注重系统的弹性和可扩展性，以应对不断变化的业务需求。

另一方面，随着智能化和自动化的推进，运维团队将更多地跨界融合，与开发、测试和安全等团队密切合作，共同推动企业信息技术的创新和发展。

综上所述，运维经历了从硬件维护到系统管理、监控和优化的发展过程。

随着技术的不断发展，运维的工作越来越便捷和智能化。

运维部组织架构、岗位说明与工作流程

运维部组织架构、岗位说明与工作流程一、运维部组织架构：运维部通常是企业信息技术部门中非常重要的一环，负责着公司重要系统的运营和维护。

为了保证部门内部的高效运转，通常需要建立一个合理的组织架构。

下面是一个典型的运维部门组织架构：1. 部门经理：主要负责整个运维部件工作的计划、组织和协调，以及管理整个部门的预算和人力资源。

2. 运维工程师团队：包括网络、服务器、数据库等技术方向的工程师，分别负责相应系统的运维和维护工作。

3. 运维工程师经理：负责整个工程师团队的人员管理、任务分配和日常工作管理等。

4. 运维工具开发工程师：负责相关运维工具的开发、维护，提高运维效率。

二、岗位说明：1. 部门经理：负责整个运维部门的管理、规划和协调；管理部门内的预算和人力资源等。

2. 运维工程师：根据需求和要求，负责一定数量的系统和基础设施的运维和维护工作；解决这些系统和设施故障，以确保高可用性、高效性和安全性。

3. 运维工程师经理：负责工程师的任务分配、人员管理和日常工作计划等。

4. 运维工具开发工程师：开发运维工具能够提高运维效率，提高系统可靠性，并降低维护成本。

三、工作流程：运维部门的工作流程通常分为以下几个步骤：1. 收集需求：收集来自用户和其他部门的需求，分析其必要性和紧急程度。

2. 规划：基于收集到的需求，制定相应的运维规划，包括部署和维护计划、安全计划和备份计划等。

3. 协作开发：与其他相关部门协作开发，在系统和设施方面进行必要的更新和修改，以确保系统和设施的顺利运转。

4. 测试：测试新部署或更新的系统和设施的可测试性，提前发现隐藏的问题；并测试运行实时监测其性能。

5. 部署：根据部署计划，将新系统或设施部署到实际生产环境中。

6. 维护：维护系统或设施的运行状态，使用工具来监视系统，定期进行渗透测试和代码审计，检查系统是否存在漏洞，及时进行修复。

7. 文件备份和恢复：定期备份数据，以确保在系统或设施出现故障时能够恢复数据；同时，定期测试和验证备份和恢复策略。

运维组织架构及职责说明

运维组织架构及职责说明一、引言随着企业业务的快速发展，信息技术在企业管理中的应用越来越广泛。

为了更好地满足业务需求，提高运维效率和质量，本企业制定了运维组织架构及职责说明。

本文档将详细阐述运维组织架构、运维职责说明、运维流程与制度、运维培训与能力提升以及总结与展望等方面。

二、运维组织架构1. 运维管理委员会运维管理委员会是企业运维工作的最高决策机构，负责制定运维战略规划、审批重大运维项目、监督指导运维工作。

该委员会由企业领导、IT部门负责人以及其他相关职能部门负责人组成。

2. 运维管理部门运维管理部门是企业运维工作的日常执行机构，负责制定运维管理制度、监控和管理企业信息系统、保障系统稳定运行。

该部门一般由系统管理员、网络管理员、安全管理员、数据库管理员等组成。

3. 业务部门业务部门是企业运维工作的重要参与部门，负责提出业务需求、参与系统设计开发、测试验收等工作。

业务部门应指定一名业务代表，与运维管理部门密切配合，确保业务系统的稳定运行。

4. 支持团队支持团队是企业运维工作的重要支撑力量，负责提供技术咨询、故障排查、应急响应等服务。

支持团队可以由企业自身的技术专家或外部合作伙伴组成。

三、运维职责说明1. 运维管理委员会职责（1）制定企业运维战略规划，审批重大运维项目；（2）监督指导运维工作，确保运维目标的实现；（3）审议批准运维管理制度及相关政策；（4）组织协调各部门之间的合作，解决运维工作中的问题。

2. 运维管理部门职责（1）制定和执行运维管理制度；（2）监控和管理企业信息系统，确保系统稳定运行；（3）负责系统安装、配置、维护及优化等工作；（4）负责网络设备、安全设备的配置和维护；（5）负责及时发现和解决系统故障和安全事件；（6）负责系统备份和恢复工作，确保数据安全；（7）负责协调和支持业务部门的工作，确保业务系统的稳定运行。

3. 业务部门职责（1）提出业务需求，参与系统设计开发、测试验收等工作；（2）负责业务系统的日常使用和维护，及时反馈问题和需求；（3）协助运维管理部门进行系统优化和改进；（4）遵守和维护企业运维管理制度，确保业务系统的稳定运行。

架构演进总结报告范文

报告标题：XX系统架构演进总结报告报告时间：2023年X月X日一、引言随着公司业务的快速发展和市场需求的不断变化，XX系统在过去的几年里经历了多次架构的演进。

本报告旨在总结XX系统架构演进的历程、成果和经验，为今后系统架构的优化和升级提供参考。

二、架构演进历程1. 第一阶段：单体架构（2015-2017年）初期，XX系统采用单体架构，所有功能模块集中在一个应用程序中。

这种架构简单易用，但存在以下问题：（1）扩展性差：随着业务量的增长，系统性能瓶颈逐渐显现，难以满足用户需求。

（2）维护困难：系统功能复杂，代码量大，维护成本高。

2. 第二阶段：微服务架构（2017-2019年）为了解决单体架构的问题，我们于2017年开始实施微服务架构。

将系统拆分为多个独立的服务，每个服务负责特定的功能，提高了系统的可扩展性和可维护性。

（1）服务拆分：根据业务需求，将系统拆分为20多个独立的服务。

（2）服务治理：采用注册中心、配置中心等工具实现服务治理。

（3）数据一致性：采用分布式数据库和消息队列等技术保证数据一致性。

3. 第三阶段：容器化架构（2019-2021年）随着微服务架构的普及，容器化技术成为趋势。

我们于2019年开始将系统迁移到容器化架构，提高了系统的部署效率和运维自动化水平。

（1）容器化部署：使用Docker技术实现服务容器化，简化部署流程。

（2）容器编排：采用Kubernetes进行容器编排，实现服务自动扩展和故障转移。

（3）微服务治理：优化服务治理，实现服务自动发现、负载均衡等功能。

三、架构演进成果1. 提高系统性能：通过微服务架构和容器化技术，系统性能得到显著提升，满足了业务发展需求。

2. 降低运维成本：自动化部署和运维，减少了人工干预，降低了运维成本。

3. 提高开发效率：服务拆分和容器化技术，使开发、测试和部署更加便捷，提高了开发效率。

4. 提升团队协作：通过微服务架构，团队成员分工明确，提高了团队协作效率。

系统运维体系架构规划

系统运维体系架构规划系统运维体系架构规划是指建立一个完整的系统运维管理体系，确保系统的可靠性、可用性和安全性。

一个高效的系统运维体系可以帮助企业降低风险、提高工作效率、节约成本，并提供良好的用户体验。

本文将从运维体系的目标、组织结构、工作流程、工具平台以及人员培养等方面进行详细论述。

一、运维体系的目标1.提高系统的可靠性：运维体系应确保系统处于稳定运行状态，及时检测和解决系统故障，并优化系统性能，提高系统的可靠性和可用性。

2.提高运维效率：通过合理的运维组织结构、工作流程和工具平台，提高运维效率，降低人力资源成本。

3.提高安全性：运维体系应牢固建立安全性管理机制，保护系统和数据的安全。

二、运维体系的组织结构1.运维管理团队：包括运维经理、系统管理员、网络管理员等。

运维经理负责整体运维管理，协调各个运维团队的工作；系统管理员负责服务器、数据库、操作系统等的管理和维护；网络管理员负责网络设备和网络安全的管理和维护。

2.运维支持团队：包括硬件支持、软件支持、数据库支持等。

硬件支持团队负责硬件设备的采购、部署和维护；软件支持团队负责软件环境的部署和维护；数据库支持团队负责数据库的管理和维护。

三、运维体系的工作流程1.故障管理：当系统发生故障时，运维团队需要及时响应和处理，进行故障排查和修复，并记录故障原因和解决方案，以便后续参考。

2.变更管理：对于系统的升级、扩容、迁移等变更操作，需要进行变更管理，制定变更计划、进行风险评估、测试和验证，并及时通知相关人员。

3.巡检维护：定期巡检系统，检查是否有异常情况，及时修复问题，进行系统优化和性能调优。

4.安全管理：建立安全策略和控制措施，加固系统的安全性，保护系统不受攻击和数据不被泄露。

5.性能监控：建立性能监控系统，实时监测系统的运行状况，及时发现并解决性能问题，以提高系统的性能和可用性。

四、运维体系的工具平台1.运维管理工具：如CMDB（配置管理数据库）、ITSM（信息技术服务管理）等，用于管理和跟踪系统资产、处理故障、变更管理等工作。

系统技术架构发展历程

系统技术架构发展历程1. 单体架构：在早期的系统开发中，单体架构是主流的技术架构。

这种架构的特点是将一个系统的全部功能集中在一个单独的应用程序中。

所有的功能模块和业务逻辑都被包含在同一个代码库中，并通过共享数据和状态来实现功能的交互。

单体架构简单直接，易于开发和部署，但当系统规模不断增大时，会变得臃肿复杂，并且不易于维护和扩展。

2. 分层架构：分层架构是在单体架构的基础上进行拆分和重构得到的。

该架构将系统划分为多个逻辑上独立的层次，如表示层、业务逻辑层和数据访问层。

不同层次之间通过明确的接口定义实现相互通信和数据交换。

通过分层架构，系统变得更加灵活和可扩展，同时也便于各种功能模块的独立开发和测试。

3. 服务化架构：随着互联网的发展，系统规模急剧增大，分层架构在满足需求方面逐渐显得不足。

服务化架构应运而生，将一个系统的不同功能拆分为多个独立的服务，每个服务都有自己的独立部署、扩展和管理能力。

服务之间通过定义良好的接口和协议进行通信，实现功能的解耦和灵活性。

4. 微服务架构：微服务架构是服务化架构的进一步演进。

在微服务架构中，一个系统被拆分为多个更加细粒度的服务，每个服务都专注于一个独立的业务功能，并且可以独立开发、测试、部署和扩展。

微服务之间通过轻量级消息传递机制进行通信，从而实现系统的高可用、高性能和弹性伸缩。

5. 云原生架构：云原生架构是近年来发展起来的一种新型技术架构。

云原生架构将系统的设计和开发与云计算环境的特点和优势相结合，用于构建云原生应用。

云原生架构提倡使用容器化部署、微服务架构、自动化运维等技术手段，让应用更加高效、灵活和弹性化。

6. 边缘计算架构：边缘计算架构是为了满足物联网时代应用的需求而提出的一种新型技术架构。

边缘计算架构将计算和存储资源从云端转移到离数据源更近的边缘节点上，以减少数据传输延迟和网络带宽的压力。

边缘计算架构通过将数据处理和业务逻辑放置在边缘节点上，可以提高系统的响应速度和效率。

运维部组织架构与工作流程图

运维部组织架构、岗位说明及工作流程附件一：运维部组织架构一、部门组织架构图.附件二：运维部岗位设置运维部下设传输交换室、基础网络室、综合调度室、业务支撑室四个机构，具体岗位设置和人员编制如下：各室职责如下：一、综合调度室1、负责综合性管理工作，包括收发、文秘、内务、公关、接待等；2、负责编制各种规章制度及本部门年度工作计划、总结、预算等；3 、协助制定、汇总运行维护考核指标，并参与实施；4、负责补缺配套、大修、更新改造计划、维护成本管理及其配合实施工作；5、负责网络资源数据的维护管理、资源调配管理、网络资源优化管理；6、负责接收工程建设、维护生产、业务发展、网元出租等资源需求，并组织调配；7、负责全网具体网络组织、设备端口、传输电路、光纤等资源日常通信组织调度工作；8、负责全网光缆、传输、接入网、数据网、动力、管线等设备资源动态调整组织工作；9、负责网络资源数据的管理及资源使用情况的统计、分析和预警，参与网络规划等相关工作，提出网络优化建议并负责组织实施。

、基础网络室1、负责光纤通信系统的线路、机房和用户机线的运行维护管理工作；2、负责制订本专业运行维护考核指标，并参与实施；3、配合做好本专业支撑系统的应用开发和组织实施工作；4、配合做好本专业的业务支持、网络规划和工程验收工作；5、负责管理、协调管线及机房代维单位的相关工作；监督、管理各分公司的代维管理工作。

三、传输交换室1、负责传输、数据多媒体交换、接入网的运行维护管理工作；2、负责互联网的网络安全管理工作，做好信息安全管理工作；3、负责动力电源、空调设备的运行维护管理工作；4、负责制订本专业的运行维护考核指标，并参与实施；5、配合做好本专业支撑系统的应用开发和组织实施工作；6、配合做好本专业的业务支持、网络规划和工程验收工作。

四、业务支撑室1、负责全网各类网络支撑系统( OSS )、各类业务支撑系统(BSS)的统一规划、统一建设、维护管理，制订技术规范和技术标准；2、负责利用支撑系统开放业务的支持工作，制订相应技术方案，并组织实施；3、负责支撑系统的计算机系统的软件、硬件的升级、改造的管理工作，负责各专业应用系统的软件版本管理；4、负责制订本专业的管理办法和考核指标，并参与实施。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

回顾总结
业务同质化与差异性（维护成本）
标准化：OS标准化、硬件标准化、软件标准化、架构标准化、组件标准化、协议标准化规范：日志规范、部署规范
手工重复操作，依赖人（效率）
运维自动化、平台化达到快速交付要求上线流程+标准化打包+自助发布+灰度发布（持续交付）预案异地双活+快速切换措施专线切换演练
企业系统运维架构演进
技术创新，变革未来
01
前言
2.
发展历程运营现状
目录Байду номын сангаас
3.
04
系统运维的未来
发展历程
启程
质量
效率
流程
成本
未来混合云运营
2011
2014.6
2015.12
2016.6
2016.12
填坑，标准化
2011年第一个IDC在广州亚太建立，开启系统运维之路告警平台、CMDB RSA Token-堡垒机机型套餐标准、 OS标准、供应商管理等
魅族运维整体架构
魅族运维系统介绍
运维DNA库业务信息管理中心运维军械库虚拟化资源管理平台运维大杀器自动化管理平台数据中转站负载均衡管理平台业务指向标域名管理平台
ZCMDB
ZVM
ZOPS
ZLVS
ZDNS
ZCMDB
ZVM
ZOPS
ZLVS
ZDNS
服务器管理
服务器管理
石器时代 2012.1-2014.6
业务架构
APP
VPN
运维架构
接入层
DR LVS
Nagios, Cacti监控
运维管理
逻辑/展示层
PHP、Java、C mysql、 mongodb、 MFS文件系统脚本工具实现自动化运维
数据存储层
服务器/VM
IDC基础
KS+Cobbler
iDRAC
IDC管理
监控告警平台
• 监控模板标准化 • 监控自动添加 • 监控的精细化甄别 • 告警分级 • 告警信息收敛 • 告警统计
告警数据对比
每天告警数
3542 5129 10000 zabbix 868 868 znotice
坐标轴标题
固件发布
性能报表
系统管理
网络管理
网络管理
CDN发布
LVS管理
域名管理
业务管理
业务管理
运维发布
LVS数据报表
IDC DNS管理
监控系统
数据采集（主动） Client 公共插件自定义脚本服务状态探测（被动）服务状态程序状态用户访问质量第三方信息其他相关系统
监控评估复杂计算
数据处理
自动化运维工具
业务树
IDC基础
服务器 /KVM/Docker 网络V3.0
装机平台事件系统
CMDB资产管理
IDC管理
容量系统云管理平台
铁器时代 2016.1
规模
IDC：多个机柜: >200个服务器/VM：>6000台业务：>200个人力：运维平台43个
问题
监控问题：监控指标量化、可视化机器套餐多，业务需求个性化运营成本高，各业务ROI量化工作流程化资源利用率低预案管理
铁器时代 2016.1
业务架构
APP Fullnat LVS
VPN+专线多机房
运维架构
接入层
router PHP、Java、C、 C++、Golang
Zabbix监控 BI监控
告警系统
运维管理
逻辑/展示层
发布平台
域名平台
数据存储层
Mysql、redis、 mongodb、MFS、 FastDFS、HDFS
自动化运维工具
业务树
服务器/KVM
IDC基础
装机平台事件系统
CMDB资产管理 IDC管理
网络V2.0
云管理平台
青铜时代 2014.7-2015.12
规模
IDC：多个机柜: >150个服务器/VM：>4000台业务：>200个人力：运维平台35个
问题
标准化率低，监控覆盖率低，维护成本高，有效性低机房扩容难，成本高 IOE、虚拟化方案部分业务架构单点梳理单点业务，统一高可用架构故障多样性规模突增资源扩容效率低配置管理，准确性低业务可用性
青铜时代 2014.7-2015.12
业务架构
APP DR LVS
VPN+专线多机房
运维管理
运维架构
接入层
HAProxy PHP、Java、C、 C++、Golang
Zabbix监控 BI监控
告警系统
逻辑/展示层
发布平台
域名平台
数据存储层
Mysql、redis、 mongodb、MFS、 FastDFS、HDFS
网络V1.0
Excel资产管理
石器时代 2012.1-2014.6
规模
IDC：1个机柜: 30个服务器/VM：800台业务：>100个人力：运维12个
问题
IBM刀箱、EMC存储、Vmware虚拟化、硬件供应商单一去 IOE 网络不稳定、活动日流量突增搭建新网络架构，带宽冗余机房资源不足扩容难迁移机房，资源冗余部分业务架构单点去单点，保证可靠性部署：手工操作，依赖于人自动化运维工具监控：覆盖率低定时巡检 DB压力安全性较低
自动化
变更管理自动化装机平台巡检平台
流程化
生命流程闭环、利旧、改造，打造运营平台工单系统实现流程联动、事件系统
数据化
服务器运营容量系统营收平台 Flyme内部结算
远古 2011-2011.12
规模机柜：1个服务器：5台业务：2个人力：开发兼职运维问题机房稳定性监控缺失架构单点
回顾总结
基础设施规划（业务爆发式增长）
IDC迁移，单个变多个，建设两地三中心保留足够的机柜预留资源，保证快速部署需求去IOE，建设以KVM为基础的魅族云平台，引入Docker容器平台，实现微服务
监控告警与定位（及时发现与定位）
告警分级：邮件、短信、钉钉自动化添加监控设备，根据CMDB业务树进行巡检，保证监控覆盖率 BI告警，度量系统成本控制提高资源使用率：监控系统+容量管理平台容器服务化供应商管理，引入多家厂商 Flyme内部结算，建立内部营收体系
阈值判别智能分析
API
报警与联动报警策略联动处理报警跟踪问题管理
监控系统架构
分布式部署
统一告警平台
监控分级告警机制，提高故障定位效率
基础监控覆盖率
110% 100% 90% 80% 基础监控覆盖率 Q3 Q4 88% 100%
告警收敛效果：每个业务运维每天少接收322条告警短信，提高了运维效率。