蓝鲸体系
蓝鲸运维安全

补丁测试与发布策略
测试策略
建立完善的测试机制,包括单元测试、集成测试和系统测试等,确保补丁在修复漏洞的 同时不会引入新的问题。
发布策略
根据漏洞的严重程度和影响范围,制定合理的补丁发布策略,如紧急发布、定期发布等 ,确保补丁能够及时有效地应用到系统中。
版本控制
对补丁程序进行严格的版本控制,记录每个版本的变更内容和测试结果,便于后续的追 踪和管理。
蓝鲸运维安全
汇报人:XX 2024-01-11
• 运维安全概述 • 蓝鲸运维安全体系 • 身份认证与访问控制 • 系统漏洞与补丁管理 • 数据安全与隐私保护 • 日志审计与监控告警 • 总结与展望
01
运维安全概述
运维安全定义与重要性
运维安全定义
运维安全是指在信息系统运行维护过程中,采取各种技术和管理措施,确保系 统稳定运行、数据保密、完整可用,并有效防范、应对各种网络安全风险。
审计规则执行
将审计规则应用到日志分析工具中,对日志数据进行实时或定期的审计检查。
审计结果展示
将审计结果以图表、报表等形式展示出来,方便运维人员快速了解系统安全状况。
监控告警机制及响应流程
监控告警机制
建立实时或定期的监控告警机制,对审计结 果中发现的异常行为或潜在威胁进行告警。
告警响应流程
制定详细的告警响应流程,包括告警确认、问题定 位、处理措施、结果反馈等环节。
理的流程化和自动化。
03
身份认证与访问控制
身份认证机制
用户名/密码认证
通过输入正确的用户名和密码进行身份认证,是最常见的身份认 证方式。
动态口令认证
采用动态生成的口令进行身份认证,每次登录时口令都会变化, 提高了安全性。
蓝鲸智云-配置邮件通知渠道

蓝鲸智云-配置邮件通知渠道⽬录品牌介绍 腾讯蓝鲸智云,简称蓝鲸,是腾讯互动娱乐事业群(Interactive Entertainment Group,简称 IEG)⾃研⾃⽤的⼀套⽤于构建企业研发运营⼀体化体系的 PaaS 开发框架,提供了 aPaaS(DevOps 流⽔线、运⾏环境托管、前后台框架)和 iPaaS(持续集成、CMDB、作业平台、容器管理、数据平台、AI 等原⼦平台)等模块,帮助企业技术⼈员快速构建基础运营 PaaS。
邮件配置流程 本章节主要介绍蓝鲸平台中,邮件渠道的配置以及验证⽅法。
官⽅说明 蓝鲸内置了邮件、微信的通知渠道,以“admin”的⾓⾊进⼊“开发者中⼼”->“API ⽹关”->“使⽤指南”->“CMSI消息组件”,可以参考详细的教程进⾏配置。
该配置属于整个蓝鲸体系的通⽤配置。
配置页⾯ 通过API⽹管中“通道管理”->“系统【CMSI蓝鲸消息管理】”可以找到配置通知渠道的页⾯。
核⼼配置内容如下,使⽤腾讯QQ邮件可以参考如下配置,其中smtp_host,smtp_port可在腾讯邮件官⽹获得,smtp_pwd授权码需要独⽴开通。
dest_url: 若⽤户不擅长⽤ Python,可以提供⼀个其他语⾔的接⼝,填到 dest_url,ESB 仅作请求转发即可打通邮件配置smtp_host: SMTP 服务器地址(注意区分企业邮箱还是个⼈邮箱)smtp_port: SMTP 服务器端⼝(注意区分企业邮箱还是个⼈邮箱)smtp_user: SMTP 服务器帐号(mail_sender 相同)smtp_pwd:SMTP 服务器帐号密码(⼀般为授权码)smtp_usessl: (默认为 1)mail_sender: 默认的邮件发送者(smtp_user 相同)smtp_host/smtp_port获取 如下图所⽰,smtp_host:;smtp_port:465smtp_pwd授权码获取 通过QQ邮箱账户设置页⾯,操作发短信⽣成授权码邮件验证 蓝鲸⾃带API接⼝,可以验证配置邮件渠道是否可⽤;参考获取API调⽤⽅法。
蓝鲸控股集团简介

蓝鲸控股有限公司创立于2004年6月,创建以来,通过不懈的艰苦努力和持续创新,从单一酒店发展为以酒店业为主业,涉及旅游、房地产、金融等行业的现代股份制企业集团。
集团现有20多家子公司,员工2000多人。
蓝鲸集团以星级酒店为平台,着力打造高端酒店品牌,立足张垣,经营触角向多个区县延伸,现已拥有蓝鲸悦海(张家口)国际商务酒店、蓝鲸悦海(崇礼)国际度假酒店、张家口蓝鲸大厦、蓝鲸泛海(怀来)商务酒店、蓝鲸泛海(下花园)商务酒店、蓝鲸泛海(张北)度假酒店、蓝鲸泛海(崇礼)度假酒店、蓝鲸鸣海(张北)大酒店、蓝鲸鸣海(崇礼)大酒店、四海暇旅(张家口)快捷酒店、四海暇旅(张北)快捷酒店等12家酒店,经营面积达20多万平米。
高端的品牌,先进的硬件,极富亲和力的特色服务,使蓝鲸成为张家口酒店业的领军企业。
蓝鲸控股有限公司在巩固主业的基础上,确定了“以旅游业为龙头、以酒店业为基础、以房地产业为支撑”的战略和“成为张家口民营企业航母”的远景目标,积极探索多元化发展之路,深耕张垣、完善布局,实现了产业的转型、优化和升级。
除酒店业之外,还拥有蓝鲸房地产开发公司、长越风情房地产开发公司、同舟伟业房地产公司、怀安三宝食品公司和绿色田园禽业公司等经营实体,成功构建了主业突出,多业并举的良性发展格局,从而最大限度地增强了企业的盈利能力和抗风险能力。
蓝鲸控股有限公司深深扎根张垣,坚持走文化兴企之路,成功构建了具有本土特色的企业文化体系。
以“诚信、务实、高效、共赢”为经营理念,以“天道酬勤、持之以恒”为信条,通过持续的企业文化塑造,全面推进企业品牌建设,凝聚了员工队伍,提升了企业品位,铸造了企业灵魂。
京张成功申办2022年冬奥会和京津冀协同发展战略的实施,为张家口提供了前所未有的发展机遇。
相信,蓝鲸人定会抓住这一契机,锲而不舍,持之以恒,向成功的目标坚实迈进。
企业发展历程每一位具有影响力的人物都蕴藏着一部感人至深的成长故事。
蓝鲸控股集团董事长张文瑞从1994年创业至今,历经风雨20年。
平台简介平台架构-蓝鲸智云

平台简介蓝鲸管控平台,是整个蓝鲸平台的底层管控系统,是蓝鲸所有其他服务的基础,是蓝鲸服务体系与用户机器的连接器。
蓝鲸管控平台是典型的两层分布式 C/S 结构,主要包含智能 Agent,提供各种服务的Server,以及 zookeeper、redis、MySQL 等周边保障模块。
其中Agent 是部署在业务机器上的程序,每台业务机器理论上只可以部署一个;其他模块部署无具体要求,用户可以单独部署,也可以混合部署。
在整个蓝鲸体系中,唯独蓝鲸管控平台没有直面用户,但蓝鲸管控平台在蓝鲸体系中却是不可或缺的,它为蓝鲸其他平台提供了人机交互的通道与能力。
蓝鲸管控平台主要提供了三种类型的服务能力:文件分发传输能力、命令实时执行与反馈的能力、大数据采集与传输的能力。
平台架构••BK Agent:蓝鲸智能Agent程序,需要安装在业务需要管控的实体机、虚拟机或者容器里面。
BK Agent 的启动需要按照要求输入制定的命令行参数,并依赖配置文件。
BK Agent是蓝鲸管控平台提供三大服务能力的实际执行者, BK Agent 所在机器的通讯策略、网络状况需要在安装前调整好才能发挥其所有能力。
•BK TaskServer:蓝鲸管控平台任务及控制服务端程序。
该程序提供对集群内Agent 的管理能力,并支持对 Agent 批量下和执行发命令或脚本。
•BK FileServer:蓝鲸管控平台文件传输控制服务端程序。
该程序对指定范围内Agent 节点提供 BT 种子服务,保证对传输的安全性、不同区域及业务模块间的隔离性,并控制BT传输在有限的贪婪特性范围内。
单独部署 BK FileServer 并不能提供文件传输服务,受限于安全性考虑,BK FileServer 必须和 BK TaskServer 配合才能完成完整的文件分发流程。
•BK DataServer:蓝鲸管控平台数据传输服务端程序。
该服务端主要提供对 Agent 采集的数据进行汇聚、分类、流转能力。
腾讯蓝鲸运维体系架构设计

腾讯蓝鲸运维体系架构设计引子蓝鲸是腾讯游戏应用运维(ARE)技术生态体系的代号,由正在逐步产品化的六大运维平台和众多应用运维(含devops)、运营规划等人员构成。
在应用运维这一领域,蓝鲸以“独特”的方式承载着半个腾讯,也承载着国内游戏行业半数份额。
出自应用运维团队的蓝鲸体系,最初的设计理念,是希望能武装运维,使其可以提供更高维度的服务。
例如,为产品、策划、运营等岗位提供:1.自助化的运营工具;2.数据化决策支持;3.直接的用户体验改善等。
我们受邀于7月16号晚上在高效运维1号群做一次专题分享(届时将有多个群转播,超过1500人在线收看、互动),本文是为保障群内分享效果而提前撰写的背景和概要介绍。
本文尝试以半叙事的方式,概述蓝鲸出现的背景,设计理念,和落地方式,希望业界广大应用运维同行们,在我们的发展历程中能找到自己现阶段的影子,共鸣共勉,共同努力,繁荣应用运维生态。
1. 蓝鲸的背景:运维转型十年前,我们的业务运维忙于这些工作:服务器、网络、OS、DB、发布、变更、监控、故障处理、运营环境信息维护提取等等。
这些工作大多是被动的,或者说是“需求驱动型的“,运维大多数时候在被动的为产品、策划、运营、开发等合作岗位的同学提供操作服务,而且很多是重复性的操作服务。
五年前,我们的一个运维小组发起了转型尝试,目标是使我们的运维团队从“操作服务输出”,转型为“解决方案服务输出”。
三年前,也就是2012年,依据这个先行试点团队的效果评估,整个腾讯游戏的十余个运维团队(目前200+运维)走上了艰难的转型之路,作为落地承载方案的蓝鲸体系同时开始构建。
当年促使我们决心转型的原因,可以归结为以下三点。
原因1:业务红海化行业竞争很激烈,精细化运营越来越重要。
产品和运营人员忙于更贴近用户体验的业务设计和运营设计,开发团队忙于更快更可靠的实现,运维团队则希望为用户提供更高的可用性,不论是刮风下雨,还是发布变更,都能将业务可用性保持在无限接近7*24(此处省略几万字)。
BWFS文件系统

BWFS蓝鲸文件系统文件系统背景知识介绍文件系统是保存和组织数据的一种数据结构和一组程序方法。
通常使用的本地文件系统有NTFS、EXT3、FAT 等,都是用户首先创建出目录结构,然后设定一定的访问权限,之后在目录中保持文件。
文件系统都是创建在一个或多个磁盘上,这些磁盘可能是服务器内部的物理磁盘,也可能是来自FC SAN或IP SAN的LUN。
通常对于本地文件系统,在一个时刻只能由一台服务器挂载并访问。
上述使用方式尽管可以满足服务器快速读写数据的需求,但却导致磁盘空间只能由一台服务器访问。
在多服务器处理环境中这会带来三个问题:1、存储空间闲置:尽管本服务器还有存储空间,但其他服务器无法直接访问。
2、导致一些应用无法有效运行:因为许多应用需要多台甚至是大量服务器并行或协作处理,如果每台服务器都保持有自己独立的数据拷贝,会使并行处理无法进行,使得协作处理效率低下。
3、基于文件的工作流类应用无法有效开展:文件不得不在处理工作流上不同环节的工作站上来回复制,浪费空间且效率低下。
这种情况下,传统的做法是让环境中的一台服务器使用网络文件系统协议,如NFS(Linux/UNIX)或CIFS(Windows),把自己本地文件系统共享给其他的服务器、用户或应用程序访问。
这种方法解决了存储空间整合的问题,使得存储空间和数据很容易在多台服务器和多个应用间共享。
作为普通NAS设备/文件服务器中使用的文件共享协议,NFS和CIFS的特点是实现和部署成本较低(已经出现了几十年,有成熟的开源代码实现,基于IP网络部署),性能不高(在千兆以太网链路上,NFS通常在70MB/s,CIFS在40MB/s 左右),可以满足普通办公环境文档共享的需求。
但对于存储容量巨大,需要低延时,高IO吞吐量的应用场合,上述的应用方案难以满足需求,需要有创新的共享文件系统解决方案出现,其基本的出发点有以下两条:1. 共享文件系统要充分利用主机端的代理程序,使之能够尽量快速地直接地访问后端的磁盘阵列。
腾讯蓝鲸自动化运维平台简介部署及常见报错解决

腾讯蓝鲸⾃动化运维平台简介部署及常见报错解决前⾔腾讯蓝鲸智云,简称蓝鲸,是⼀套基于 PaaS 的技术解决⽅案,提供了完善的前后台开发框架、调度引擎、公共组件等模块,帮助业务的产品和技术⼈员快速构建低成本、免运维的⽀撑⼯具和运营系统。
⽬前,腾讯蓝鲸智云团队秉承着开放共赢的态度,正逐渐开放其⾃主研发的⼀套具有多项探索式创新的体系—蓝鲸智云软件体系。
该套体系不仅提供了基础运维(发布变更、监控处理、数值调整、数据提取等)的⽆⼈值守服务,⽽且还给运维⼈员提供了解决⽅案(⼯具),并随时调整,避免重复性的操作服务。
⽽运维⼈员则可以做些“⽤户体验优化”和“运营决策辅助”等运维增值⼯作,并且可以通过蓝鲸智云提供的集成平台,低成本的学习 DevOps技能,进⼀步提升⾃⼰的能⼒,加速转型。
此外,这套体系还可以运⾏轻应⽤、管理类、及职能类应⽤,是个全⽅位的运维、管理平台。
腾讯蓝鲸智云,运维领域的⼀张新名⽚,正在多个层次、多个领域崭露着头⾓,逐渐释放着⾃⾝特有的价值,引领着⾏业新标杆,开创了运维体系 2.0 的新局⾯。
体系介绍腾讯蓝鲸智云体系由平台级产品和通⽤ SaaS 服务组成,平台包括管控平台、配置平台、作业平台、数据平台、容器管理平台、挖掘平台、PaaS 平台、移动平台等,通⽤ SaaS 包括节点管理、标准运维、⽇志检索、蓝鲸监控、故障⾃愈等,为各种云(公有云、私有云、混合云)的⽤户提供不同场景、不同需求的⼀站式技术运营解决⽅案。
部署蓝鲸开始安装蓝鲸社区版前,需按以下⽂档指南,做好准备⼯作。
获取安装包蓝鲸社区版包含部署脚本、产品软件和开源组件。
蓝鲸提供完整包与分包的下载通道,请⾃⾏到下载地址按需获取。
新装环境及新⽤户建议下载完整包使⽤。
# 下载地址: https:///download/# 下载完成后,请核对MD5码。
硬件选择对于蓝鲸部署所需的硬件配置选型,并⽆定规。
蓝鲸由众多开源组件和⾃研组件构成。
开源组件的硬件选型可以参考相应的官⽅⽂档,参见附录。
腾讯蓝鲸使用笔记

腾讯蓝鲸使⽤笔记概述本⼈在使⽤蓝鲸过程有些许⼼得,所以专门写⼀个学习笔记供⼤家参考和学习,当然也为了我⽇后可以随意参阅。
腾讯蓝鲸智云,简称蓝鲸,是腾讯互动娱乐事业群(Interactive Entertainment Group,简称 IEG)⾃研⾃⽤的⼀套⽤于构建企业研发运营⼀体化体系的 PaaS 开发框架,提供了 aPaaS(DevOps 流⽔线、运⾏环境托管、前后台框架)和 iPaaS(持续集成、CMDB、作业平台、容器管理、数据平台、AI 等原⼦平台)等模块,帮助企业技术⼈员快速构建基础运营 PaaS。
传统的 Linux 等单机操作系统已发展数⼗年,随着云时代的到来,企业所需资源数暴增,操作节点(物理或虚拟服务器及容器)数量普遍达到数千个,⼤型互联⽹公司甚⾄达到百万级别,混合云模式成为常态,虽然 IaaS 供应商的出现从⼀定程度上解决了资源切割调度问题,但并未很好的解决资源与应⽤的融合,企业需要⼀种介于 IaaS 与应⽤(SaaS)之间的层级,⽤于屏蔽及控制 IaaS,快速开发及托管 SaaS,我们将其称之为基础 PaaS 层,并着重发展⽤于研发及托管企业内技术运营类 SaaS 的基础运营 PaaS,并将其作为区别于传统 OS 的下⼀代企业级分布式运营操作系统。
企业 IT 应⽤的全⽣命周期可划分为研发、运维、运营三段,在各⾏业进⾏互联⽹化转型的过程中,融⼊敏捷思维,即形成持续集成、持续部署、持续运营的概念(CI-CD-CO)。
为降低转型成本,不以增加⼈⼒数量为转型前提,腾讯 IEG 以运维团队作为转型起点,充分利⽤这⼀群体低价值重复性⼯作量占⽐⾼的特点,从 CD 领域切⼊,以 PaaS 技术进⾏运维⾃动化领域的烟囱治理,形成运维 PaaS 体系。
将⾃动化所释放的⼈⼒资源,转型为运维开发团队,利⽤ PaaS 的⾃增长属性,将运维 PaaS 逐步向 CI 及 CO 拓展,最终完成企业级研发 - 运维 - 运营基础 PaaS 构建,落地企业研发运营⼀体化。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作者介绍党受辉(咖啡党)腾讯游戏蓝鲸产品中心总监目前负责腾讯游戏运维支撑体系(蓝鲸)的建设和运营,致力于打造行业级的基础运维无人值守解决方案,以及数据化增值运维解决方案,推动devops生态。
十余年来专注行业信息化及运维领域,做过多年运维团队管理,期间为不同类型的游戏及千万PCU级游戏平台设计过自动化运营系统。
引子最近,在运维圈里看到触控科技的萧总提出的一个概念“运维2.0”,学习之后,感触颇多,和几年前腾讯游戏的应用运维团队发起的“运维转型”战略项目神似,那个项目在数年间几乎重塑了“应用运维”在腾讯游戏的定义,而在过程中带动并承载这次转型的具体实现,叫蓝鲸。
蓝鲸是腾讯游戏应用运维(ARE)技术生态体系的代号,由正在逐步产品化的六大运维平台和众多应用运维(含devops)、运营规划等人员构成。
在应用运维这一领域,蓝鲸以“独特”的方式承载着半个腾讯,也承载着国内游戏行业半数份额。
出自应用运维团队的蓝鲸体系,最初的设计理念,是希望能武装运维,使其可以提供更高维度的服务。
例如,为产品、策划、运营等岗位提供:∙自助化的运营工具;∙数据化决策支持;∙直接的用户体验改善等。
本文尝试以半叙事的方式,概述蓝鲸出现的背景,设计理念,和落地方式,希望业界广大应用运维同行们,在我们的发展历程中能找到自己现阶段的影子,共鸣共勉,共同努力,繁荣应用运维生态。
1. 蓝鲸的背景:运维转型十年前,我们的业务运维忙于这些工作:服务器、网络、OS、DB、发布、变更、监控、故障处理、运营环境信息维护提取等等。
这些工作大多是被动的,或者说是“需求驱动型的“,运维大多数时候在被动的为产品、策划、运营、开发等合作岗位的同学提供操作服务,而且很多是重复性的操作服务。
五年前,我们的一个运维小组发起了转型尝试,目标是使我们的运维团队从“操作服务输出”,转型为“解决方案服务输出”。
三年前,也就是2012年,依据这个先行试点团队的效果评估,整个腾讯游戏的十余个运维团队(目前200+运维)走上了艰难的转型之路,作为落地承载方案的蓝鲸体系同时开始构建。
当年促使我们决心转型的原因,可以归结为以下三点。
原因1:业务红海化行业竞争很激烈,精细化运营越来越重要。
产品和运营人员忙于更贴近用户体验的业务设计和运营设计,开发团队忙于更快更可靠的实现,运维团队则希望为用户提供更高的可用性,不论是刮风下雨,还是发布变更,都能将业务可用性保持在无限接近7*24(此处省略几万字)。
在此之上,还需要能为产品策划运营等其它岗位提供各类运营工具以提高“产品运营”的效率(一直以来,腾讯运维的职能在内部被定义为“技术运营”,所有运维们所在的职级通道就叫做“技术运营通道”),甚至能为运营决策提供准确的数据依据。
原因2:“传统运维”生存空间塌缩几年前我们预感到“传统运维”的职能空间会被逐步压缩:比如一些新技术对运维的传统工作会有一些冲击(此处省略几万字),这一点到今天已经不用再展开说了,近一年运维领域各类危机言论开始满天飞了。
再比如开发团队出于追求更高可用性等原因,在运维不给力的情况下会直接涉足精细化运营领域。
虽然我们认为运维始终是不可或缺的,但也不得不承认传统运维的需求量会有一定的减少,岗位的萎缩对所有从业者都不是好消息,出于自救我们也要尝试转型。
原因3:我们太累了那些年,腾讯游戏疯狂的增长,如果不转型,别提什么辅助决策这样的高级玩意儿,就是发布变更、故障处理之类的运维基础工作都会把我们拖死。
因此,运维转型的长远目标可以归结为:1.将基础运维服务(发布变更、监控处理、数值调整、数据提取等)尽可能做到运维无人值守,运维提供解决方案(工具);2.同时负责随时调整解决方案,但不提供重复性的操作服务,由使用者自助或者外包团队操作;3.运维分出一部分精力,尝试“用户体验优化”和“运营决策辅助”等运维增值服务。
2. 蓝鲸的设计思想和很多公司的情况不同,在腾讯游戏设计运维技术体系,有4个天然的难处。
1.在运维眼里,这里几乎有着互联网行业中所有的业务类型:有重客户端游戏,网页游戏,各类官网,移动终端游戏,大型游戏平台(平铺式架构,拓扑关系复杂,模块数量上百,服务器数量几千)……2.这里几乎有着互联网行业中所有的流行技术,因为腾讯游戏300多款业务中,大多数是由世界各地开发商开发出来,由腾讯独家代理的所谓“独代游戏”。
因此,这些游戏所使用的开发语言、开发框架、操作系统、数据库等技术组合,是没有直观规律的。
而且由于游戏从签订代理合同到上线运营之间的间隔时间越来越短,开发商很难为了运维体系而对架构或技术做大规模的修改。
3.300多款游戏相互之间是没有关系的,发布变更、故障处理等运维操作场景和操作流程是没有直观规律的,即便是同一个游戏,也可能因为上了一个新版本,新增了几种后台server,或者改变了表结构,而导致运维操作流程发生改变。
4.这些游戏的服务器数量,也就是操作单元,有十余万,而随着容器技术的普及,操作单元的数量还会暴涨。
因此,蓝鲸的设计,不能侵入业务架构,不能依赖业务架构,不能依赖业务所使用的技术,不能依赖有统一的运维操作流程。
甚至,也最好别指望开发商为你做什么改造,还得支持海量场景(最好能支持十万级操作单元并发)。
最终,我们总结出来的共同点是:运维通过linux命令,可以搞定所有“发布变更故障处理等”运维操作流程。
虽然只有这一点,但也足够了,这至少说明,运维的基础服务,不论是发布变更还是告警处理,都是可以分步骤的,步骤可能是串行的,也可能有分支结构。
蓝鲸的设计思路是:尽可能将单个步骤抽象为原子,再将原子自动化,而后通过任务引擎连接成“串”或者“树状分支结构”实现全自动化。
这种参照SOA的设计,其最大优点在于不依赖业务类型,不依赖架构,不依赖场景,只要运维手工能做的,都可以做成无人值守。
运维需要做两件事,将原子自动化和将原子集成为工具,这两件事也正是蓝鲸体系武装运维的切入点。
1)将原子自动化:运维通过命令可以做的步骤,在蓝鲸作业平台上封装个脚本,就变成了可集成的自动化原子,而运维通过其他运营系统页面操作的步骤,由蓝鲸集成平台中的ESB平台与其对接好接口之后,也变成了可集成的自动化原子。
2)将原子集成为工具:运维/运营工具的开发对传统运维是有一定障碍的,蓝鲸通过几方面的工作来解决这个问题。
在“蓝鲸集成平台”(蓝鲸体系目前有6个平台)中构建了一个PaaS模块,业务运维(devops)无需关注找服务器、部署环境(各种包、mysql、nginx等)等步骤,只需要写好工具本身的逻辑代码上装到PaaS 容器就行了,同时还免除了工具的运维成本(高可用、故障修复等)。
基于docker技术,工具的部署也是一键式的。
∙其次是开发了一套工具代码框架,内置了统一登录、权限、tag等通用功能,更重要的是,不需要一个一个去对接各个系统的接口(原子),因为ESB模块都封装好了,只要写个函数就可以调用这些原子。
∙再有就是解决运维的前端开发难题——前端样例库。
提供了“从各种页面元素到不同类型的运维工具的页面组合套餐”,减少了运维消耗在前端开发上的时间。
∙最后,还为蓝鲸开发者提供培训,一般来说,新进毕业生在通过四周以内的培训之后,就可以独立在蓝鲸集成平台中构建APP工具。
到此,蓝鲸已经基本解决了运维构建工具高门槛的问题,而且可以随时低成本的根据业务变化(例如新增了模块,导致发布变更、告警处理流程都变了)调整工具。
运维在“转型”的过程中,需要补充或者需要强化的技能,只有python(Django)和shell及初浅的web 开发,这对大多数运维来说,都是可以接受的。
在这种设计模式下,蓝鲸团队的建设方向就很清晰了:1.继续降低工具本身的开发成本,提高PaaS模块的可靠性;2.扩展原子服务,找出运维海量操作流程中,重复度最高的一些原子,构建成平台,封装接口提供给PaaS作为自动化原子,让运维更轻松的调度更多节点,提升单个节点功能密度,升级拓展更多的流程,直到把流程升级到运维无人值守,升级到对产品、策划等岗位的闭环服务为止。
经过三年的发展,蓝鲸体系构建了六个平台,其中后四个都是直接或间接提供原子服务供运维集成的功能性平台:1.蓝鲸集成平台:包含PaaS、ESB、开发框架、web样例等模块,是运维制作工具APP的平台。
2.蓝鲸移动平台:蓝鲸体系的移动端操作入口。
3.蓝鲸作业平台:各种大小文件传输,含参脚本执行类的动作,可以在蓝鲸作业平台封装,通过接口操控。
4.蓝鲸配置平台:从业务的各层分级结构到子节点的各类属性,都可以直观的存储于蓝鲸配置平台,通过接口存取。
5.蓝鲸管控平台:一套基于海量标准设计的管控系统,为作业平台提供文件管道和任务管道,为数据平台提供数据管道等,整个蓝鲸体系对OS及容器单元、大数据的所有管控,只依赖管控平台的一个智能agent。
6.蓝鲸数据平台:基于kafka、storm构建的供应用运维使用的实时计算平台,为上层蓝鲸集成平台上的智能决策类工具族、数据视图类工具族、辅助决策类工具族提供大数据处理及实时计算能力。
Storm之类的技术早已不新鲜,但供运维“使用”的比较少见。
上述平台大多是由运维“维护”的,为了适应运维的技能树,蓝鲸数据平台包括如下特性:1.提供了在线IDE,运维可以用相对熟悉的yaml语言描述运算逻辑,而不需要学习java;2.通过各种渠道对接了大量常用的运营环境数据(客户端数据、服务端数据、网络数据、自定义数据源、在线、登陆、发布变更、营销活动、故障等运营事件);3.提供了数据字典供运维针对个性化的业务选用实时数据组合来做“运维自动决策”或者“辅助运营决策”。
目前已有的这六个平台的组合,给了应用运维近乎无限的发挥空间。
我们内部有三个运维中心,十几个应用运维组,他们各自支持着不同的业务,各自处于不同的发展阶段和能力水平。
出自应用运维团队的蓝鲸团队,在与他们不断的磨合中持续改进着各个平台,武装应用运维逐级提升服务能力。
一般来说,分三个阶段.阶段1:运维基础工作自动化大家“尽量”将重复性的,由“运营环境”触发的工作,例如缩容、扩容、开区、合服、告警处理、故障处理等做成全自动化的无人值守,业务架构或者业务需求有变化的时候才去调整解决方案,这算是解放了应用运维自己,至少晚上可以好好睡觉。
因为这类运维基础服务,应用运维必须做好,至于付出的成本和代价,产品策划和开发团队其实并不在意。
或许只有运维经理或运维总监在意,不但在意团队做这类工作的质量成本和效率,还在意做的方式,至少在一个组织架构下,必须是相对标准化的,绝不能是一个人搞一套,走一个员工就要对单个业务的单个场景工具做交接或者推倒重来。
至少在蓝鲸体系下,这类工具用的都是相同的原子组件,相同的集成方式。
阶段2:辅助产品运营自动化将“人”(产品、策划、开发等)触发的工作例如发布、变更、配置调整、日志或数据提取等工作封装成蓝鲸集成平台上的自助APP工具,由产品自己操作或者转给外包操作。