一个做了15年运维的老兵对公有云的深度剖析

合集下载

以零信任理念落地云原生安全

以零信任理念落地云原生安全

2021.02 /99以零信任理念落地云原生安全记者:云原生安全和云安全有什么不同?其自身有哪些安全特性?伍海桑:安全机制一直是跟随IT 基础设施和业务的演进而演进,来更好地为其提供服务,随着企业数字化转型,数据和业务上云,云安全就应运而生。

云安全的范围很广,包括访问和使用云系统、云应用全环节数据和业务的安全。

云原生安全这个概念是业界约定俗成的习惯称呼。

云计算许多新的技术形态是天然在云上诞生来促进满足弹性、迁移、灵活等云计算需求,一般而言,随着这些全新云计算技术形态而产生的安全,常称为云原生安全。

区别于传统安全产品云化成的云安全产品,以及云运营商为配套云服务所提供的安全产品,云原生安全“应云而生”,是基于云原生而生的“新安全”产品和服务,和云天生具有较好亲和力,利用云的固有优势,为云环境和云原生业务提供内建的安全防护。

一方面可以兼容容器(docker)、无服(serverless)等新形态并解决好其所面临的安全问题;另一方面,其具备自动化配置、自适应、弹性扩展、“开箱即用”、随时保持业务持续性、覆盖数据和业务全生命周期等特性。

记者:云原生安全的发展会给安全带来什么改变?志翔在云原生安全方面,有什么布局和落地案例?伍海桑:企业上云的趋势将持续并加速推进,云原生安全将成为企业上云中必不可少的关键配置,并且随着企业上云规模的扩大,和云上数据、业务、应用重要性的不断提升,将扮演着越来越重要的角色。

万变不离其宗,安全最终都是围绕要保护的对象来逐层构建一个防护体系。

云时代数据和业务处在安全的核心保护位置,围绕其由内至外展开的数据安全、应用安全、计算安全、网络安全等就组成了云安全体系,再细化到每一个层级又包含了工作负载安全、主机安全等很多细分领域,在技术手段上又有身份认证、入侵检测、安全运营、隔离等多种方式。

云原生安全已经走出了概念的阶段,云原生安全框架下多种安全技术、产品早已落地应用。

例如志翔的至明®智能主机安全响应系统,就是为企业的云上数据和业务构建安全可信办公环境。

运营商核心网运维sre转型之路

运营商核心网运维sre转型之路
运营商核心网运维急需一次跨越式的技能转 型 ,从 传 统 C T 工程师转为IC T 直 至 I T 工程师, 用 I T 的手段解决C T 问题。在资金缺乏、人手增 加 ,但网络不断庞大复杂的情况下,需要自行研 发 各 类 I T 工具,满足新增工作量。S R E 运维模型 被广泛 运 用 于 I T 领域,为运营商核心网I T 转型 提供了一个可靠的思路。
1 核心网转型背景
运营商核心网技术日新月异, 2013年 4G 商 用 ,2015年 V oLT E 商用,2017年核心网NFV (软 件功能虚拟化)准商用,2018年 5G 业务测试,2019 年 5G 商用、核心网大区化过渡开始。曾 经 5〜10 年 才 革 新 一 次 的 网 络 技 术 ,现 在 几 乎 每 年 都 有 新
收 稿 日 期 :2 0 1 9 - 0 6 - 2 4 ; 修 回 日 期 :2 0 2 0 -0 2 -0 7
技术涌现。 一 方 面 ,近 几 年 的 技 术 更 迭 并 未 带 来 新 的 利
润 爆 发 点 ,流 量 红 利 已 快 释 放 完 ,政 府一再要求 提 速 降 费 。 因 此 在 接 下 来 很 长 一 段 时 间 内 ,运营 商的核心网部门在面临复杂网络运维的同时并不 能对等拥有资金支持。这些资金以往被用来购买 各 类 技 术 支 援 解 决 问 题 ,现 在 这 些 问 题 只 能 由 核
从ct运维的角度对sre模型的可行性进行分析重点对sre提出的各项原则进行it运维和ct运维实际场景的对比同时论述了团队内部sre转型的实操案例提供一系列切实有效的转型方案
运 营 商 核 心 网 运 维 S R E 转型之路
许 沄 ,黄 冰 柏 ,李 佐 辉 ,黄洁 (中国移动通信集团浙江有限公司,浙 江 抗 州 310051 )

云计算环境下的运维挑战有哪些

云计算环境下的运维挑战有哪些

云计算环境下的运维挑战有哪些随着信息技术的快速发展,云计算已经成为企业数字化转型的重要支撑。

云计算为企业带来了诸多优势,如弹性扩展、成本节约、高效部署等。

然而,在享受这些优势的同时,云计算环境下的运维也面临着一系列严峻的挑战。

首先,复杂的架构和技术带来了理解和管理上的困难。

云计算环境通常由多个层次和组件构成,包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)等。

每个层次都有其独特的技术和功能,如虚拟机管理、容器技术、分布式存储等。

对于运维人员来说,要全面掌握这些复杂的技术和架构,需要投入大量的时间和精力进行学习和实践。

其次,资源的动态性和弹性是云计算的一大特点,但这也给资源管理和规划带来了挑战。

在传统的运维模式中,资源的分配相对固定和静态。

而在云计算环境下,资源可以根据业务需求实时调整和扩展。

这就要求运维人员能够准确预测业务的负载变化,合理规划资源,以避免资源浪费或不足的情况发生。

然而,要做到精准的预测并非易事,因为业务的发展往往具有不确定性。

再者,云计算环境中的安全问题至关重要。

由于数据存储在云端,数据的隐私和安全性成为了企业关注的焦点。

数据可能会面临来自网络攻击、数据泄露、权限管理不当等多方面的威胁。

运维人员需要采取一系列的安全措施,如加密技术、访问控制、安全审计等,来保障数据的安全。

同时,还需要及时应对和处理各类安全事件,这对运维人员的安全意识和应急处理能力提出了很高的要求。

另外,性能优化也是云计算运维中的一个难点。

在云计算环境中,应用的性能可能会受到多种因素的影响,如网络延迟、资源竞争、配置不当等。

为了保证应用的性能和用户体验,运维人员需要不断地监测和分析系统的性能指标,找出潜在的性能瓶颈,并采取有效的优化措施。

这需要运维人员具备深入的系统知识和丰富的经验。

还有,跨平台和多供应商的管理也是一个棘手的问题。

企业在使用云计算服务时,可能会同时采用多个云服务提供商的服务,或者在不同的云平台上部署应用。

运维项目工作总结模板参考

运维项目工作总结模板参考

运维项目工作总结模板参考篇一:运维项目工作总结模板参考xxxx运维服务工作总结目录12345 概述 ................................................ ................................................... ............................................. 4 运维项目背景 ................................................ ................................................... ............................. 4 运维目标 ................................................ ................................................... ..................................... 4 运维人员配................................................... ............................. 5 运维工作总结 ................................................ ................................................... .. (6)1-8月份 ................................................ ................................................... . (6)XXXX系统测试与部署 ................................................ .. (7)协助XXXX机房搬迁 ................................................ ................................................... .. 7 二线专家支撑 ................................................ ................................................... ............... 7 XXXX系统优化 ................................................ (8)9-12月份 ................................................ ................................................... .. (8)系统运维支撑 ................................................ ................................................... (9)系统巡检方式 ................................................ ................................................... .. (9)远程方式 ................................................ ................................................... . (9)现场方式 ................................................ (10)系统维护巡检内容 ................................................ ................................................... . (10)远程方式巡检内容 ................................................ ................................................... . (10)现场方式巡检内容 ................................................ ................................................... .. 10系统运行分析 ................................................ ................................................... .................. 11 系统CPU分析 ................................................ ................................................... ........... 11 系统内存分................................................... ............ 11 系统硬盘空间分析 ................................................ ................................................... .... 11 系统进程运行分析 ................................................ ................................................... .... 11 系统故障分析 ................................................ ................................................... ............ 12 现网作业工作 ................................................ ................................................... (12)业务协维 ................................................ ................................................... (13)系统业务管理 ................................................ (13)运营支撑内容 ................................................ ................................................... (13)ZS业务客户服务与支持 ................................................ ................................................... .. (13)运营数据分析 ................................................ ................................................... (14)专家服务 ................................................ ................................................... (14)运维体系的建立 ................................................ (14)输出文档 ................................................ ................................................... . (14)运维、系统二线支撑 ................................................ ................................................... (15)运营优化 ................................................ ................................................... . (15)XXXX应用接入 ................................................ ................................................... (15)运维风险评估 ................................................ (15)67 系统定制开发 ................................................ ................................................... ............. 15 规范运维流程 ................................................ ................................................... ........................... 16 总结与明年展望 ................................................ ................................................... .. (16)1 概述XX年对于XXXX来说是具有历史意义的一年,XXXX成功上线到接入第一个业务系统:集团采购门户系统,揭开了XXXXXXXX认证的一个新的篇章,XXXX公司作为XXXX的运维服务方,在历史的一年即将过去,通过对XXXX运维工作进行年度总结,从中发现工作中的不足,在以后的工作中逐渐改善。

2024年第三方运维服务市场需求分析

2024年第三方运维服务市场需求分析

第三方运维服务市场需求分析一、市场背景随着云计算、大数据和人工智能等领域的迅速发展,企业对IT基础设施的要求越来越高。

但是,很多企业在运维方面存在着一些问题,包括技术人员短缺、成本高昂、运维效率低下等。

因此,许多企业开始寻求第三方运维服务,以满足自身的需求。

二、市场规模根据市场调研数据显示,截至2020年底,中国第三方运维服务市场规模已达到XX亿元人民币,并且还在持续增长。

预计到2025年,市场规模将达到XX亿元人民币。

这显示了第三方运维服务市场的潜力和发展前景。

三、需求分析1. 技术服务需求企业在运维方面需要技术服务的支持。

这包括服务器的安装、配置和维护,网络设备的管理,数据库的优化,以及应用程序的监控和故障排除等。

第三方运维服务提供商需要提供各种技术服务,满足企业不同方面的需求。

2. 安全服务需求随着网络攻击的增多,企业对网络安全的需求也越来越高。

第三方运维服务提供商需要提供包括网络安全评估、漏洞扫描、防火墙配置等安全服务,以帮助企业保护其IT基础设施的安全。

3. 数据管理与备份需求企业的数据是其重要的资产,因此数据管理和备份成为了企业的重要需求之一。

第三方运维服务提供商需要提供数据管理和备份的解决方案,帮助企业管理和保护其数据。

4. 24/7技术支持需求企业的IT基础设施需要全天候运行,因此对于技术支持的需求也是持续的。

第三方运维服务提供商需要提供24/7的技术支持,以保证企业在遇到问题时能够及时得到解决。

5. 自动化运维需求随着自动化技术的发展,企业对自动化运维的需求也越来越高。

第三方运维服务提供商需要提供自动化运维的解决方案,帮助企业提高运维效率,降低人工成本。

四、市场竞争分析目前,中国的第三方运维服务市场竞争激烈,有许多运维服务提供商在市场上竞争。

这些提供商包括大型的综合性IT服务公司,以及专注于特定领域的小型公司。

在竞争中,运维服务提供商需要注重技术实力、服务质量和价格竞争力,以获得市场份额。

(深度好文)重构CMDB,避免运维之耻

(深度好文)重构CMDB,避免运维之耻

(深度好文)重构CMDB,避免运维之耻•CMDB,几乎是每个运维人都绕不过去的字眼,但又是很多运维人的痛,因为CMDB很少有成功的,因此我也把它称之为运维人的耻辱。

•那么到底错在哪儿了?该如何去重构它?•今天我想从我的角度来和大家探讨一下业务失败的原因,基于失败再去看重构的逻辑,也许会成功。

从失败中寻找成功的逻辑,往往是最有效的,那我们就来逐一看看:1、组织的设计问题我必须把核心原因归结成这一条,很多公司把CMDB的建设责任放到基础设施建设部门,由他们主导承建。

最后他们梳理出来的核心逻辑是面向基础设施资源的管理,你在他们的CMDB中都能看到如下菜单,AIX主机是哪些,中间件有哪些,大小机有哪些,Oracle有哪些等等,这些都是和公司的IT运维部门组织结构是一一对应的。

组织的隔离是CMDB失败的核心原因!这个里面能看到一些CMDB管理能力错位,拿两个例子来说一下:A、中间件。

一直搞不明白为什么中间件要作为一个单独的对象来管理,“皮之不存,毛将附焉”。

没有主机,没有业务这个皮,哪来的中间件。

把他单独拿出来管理,纯粹就是为了满足组织的一个管理视角。

从来没人想过,这是主机上的一个资源对象,应该是一个附属资源,其实对他的信息管理和机器上的CPU、网卡一样。

B、进程对象,比如说数据库这个是另外一种管理错位,是专业的管理平台应该去履行的管理职责,结果放到CMDB平台中了,然后CMDB管理了大量的动态属性,比如主备关系,服务状态等等,太复杂了。

最简单的看,从主机的角度来说,他就是服务器上运行的一个进程而已。

管它死活干嘛,那是监控系统做的事情,管它状态干嘛,那是**组件管理平台干的事情。

2、Excel是最好的管理工具当组织隔离,不能够形成有效的信息互动之后,Excel更是之上的一次痛击。

可能从外围思考,为什么不去解决现实层面上的问题,而选择了Excel?Excel很简单,特别是IT服务对象不多的情况下,几百个还是能够应对的。

运维服务发展历程

运维服务发展历程

运维服务发展历程运维服务的发展历程可以从早期的手工操作转变为自动化和智能化的过程。

以下是运维服务发展的几个阶段:第一阶段:手工运维在计算机系统刚刚出现的早期,运维服务主要是依靠人工操作来保持系统正常运行。

运维人员需要手动处理系统故障、安装升级软件、监控系统性能等任务。

这个阶段运维服务的效率较低,容易出现人为操作错误,且依赖于运维人员的经验水平。

第二阶段:脚本自动化随着技术的进步,运维人员开始使用脚本编程来自动化一些重复性工作。

他们可以编写脚本来批量处理系统维护任务,如备份数据、安装软件补丁等。

这个阶段的自动化能够提高运维服务的效率,减少人为错误的发生。

第三阶段:配置管理为了更好地管理系统配置和版本控制,引入了配置管理工具。

这些工具可以追踪和管理系统配置的变化,帮助运维人员更好地管理系统环境。

配置管理工具还可以自动化部署和配置系统,提供一致性和可重复性。

第四阶段:自动化运维随着云计算、容器化等新技术的出现,运维服务进入了自动化阶段。

自动化运维工具可以通过编排和自动化脚本来管理和监控系统,实现快速部署、自动缩放和弹性扩展等功能。

运维人员可以通过自动化工具来自动执行常规的运维任务,减少人工干预,提高服务的稳定性和可靠性。

第五阶段:智能化运维随着人工智能和大数据技术的发展,运维服务开始向智能化方向发展。

智能化运维工具可以通过分析和学习系统运行数据来进行预测和优化,提高系统性能和稳定性。

运维人员可以通过智能化工具来自动发现和解决系统问题,提高故障处理的效率。

综上所述,运维服务经历了手工运维、脚本自动化、配置管理、自动化运维和智能化运维等不同阶段的发展,不断提高服务的效率和质量,满足不断增长的系统管理需求。

公有云安全运维自动化方案

公有云安全运维自动化方案

公有云安全运维自动化方案随着云计算技术的不断发展,越来越多的企业选择将其业务迁移到公有云平台上。

然而,随之而来的是对云安全运维的不断提升需求。

为了提高公有云平台的安全性和运维效率,许多企业开始探索公有云安全运维自动化方案。

一、背景介绍公有云平台的安全运维是保障企业信息安全的关键环节。

传统的安全运维模式需要大量人力投入,且容易出现疏漏和错误。

为了解决这一问题,自动化的安全运维方案逐渐成为企业的选择。

二、公有云安全运维自动化的优势1. 减少人为失误:通过引入自动化工具,可以大大减少人为操作带来的失误和疏漏,提高运维的准确性和可靠性;2. 提升运维效率:自动化工具能够自动化执行重复性的任务,节省运维人员的时间和精力,提高运维效率;3. 实时监控和响应:自动化工具可以实时监控公有云平台的安全情况,一旦发现异常行为,能够及时做出响应和处理,有效降低风险。

三、公有云安全运维自动化方案的关键技术1. 基础设施即代码(Infrastructure as Code,IaC):通过编写代码,实现对云环境的自动化配置和管理,包括网络设置、存储管理、安全策略等;2. 安全漏洞扫描工具:利用自动化工具对公有云平台进行安全漏洞扫描,及时发现和修复漏洞,提高平台的安全性;3. 日志监控及分析:通过自动化工具对公有云平台的日志进行实时监控和分析,及时发现异常行为,并采取相应的措施;4. 自动化合规审计:利用自动化工具对公有云平台进行合规审计,确保平台的安全性和合规性。

四、公有云安全运维自动化方案实施步骤1. 制定自动化规则:根据企业的需求和安全要求,制定相应的自动化规则,明确安全运维自动化的目标和原则;2. 选择合适的工具:根据企业的实际情况,选择合适的自动化工具,如Chef、Puppet、Ansible等,并进行相应的配置和部署;3. 配置自动化流程:根据自动化规则,配置相应的流程和任务,确保安全运维的自动化执行;4. 运行和监控:启动自动化工具,监控安全运维的执行情况,及时发现并修复异常;5. 定期审查和优化:定期审查安全运维自动化方案的效果,对方案进行优化和改进。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一个做了15年运维的老兵对公有云的深度剖析!!!陈沙克首先,很抱歉用了“深度剖析”这个吸引眼球的词,其实我都算不上云计算行业内人士,所以认识和见解肯定多有不足之处,权当抛砖引玉,希望各位指教。

本文提纲如下:一:公有云盈利分析;二:行业发展前景及市场分析;三:行业现状;四:还有机会吗?五:产品和技术分析;六:计费模式;七:用户群分析;八:CDN;一、盈利分析;我们先来谈谈钱:这些做公有云的到底赚不赚钱?都怎么赚钱的?截至2014年来说,应该都还没有盈利,2015年会有开始盈利的,世纪互联和微软联合运营这种不算。

先看看各个产品的销售毛利率:云主机(含100G数据盘):SATA容量型为50-60%,SSD性能型各家情况相差较大、总体比SATA 低几个点,有的甚至用上了闪存卡,毛利率更低;对象存储:20-30%;BGP带宽:负的,卖的越多亏的越大;LB:lvs在70%以上,HAProxy在60%左右;RDS/ cache:70%以上;CDN:暴利!后面专门篇幅说。

以上数据基于理想状态下,资源利用率达到80%,规模较大、云主机2000台以上。

再初略看看各服务商的盈亏状态:阿里云,CDN独立另算的话,肯定没赚钱,算上CDN也不一定盈利,主要因为人力成本、营销推广成本太高;盛大云,XX倒计时,一切看桥哥脸色;腾讯云,缩小版阿里云,情况差不多;ucloud,2015年盈利在望;青云,也接近盈利了;金山云,成本高、卖的还便宜,人家就没想盈利,疯狂烧钱中;unitedstack,规模没上来,啥也别谈,谈啥也没用;百度开放云,刚去掉beta,还不成熟,以后估计和腾讯云差不多;360游戏云,刚发布,超低成本,有游戏平台上的用户基础,上来就盈利。

上海有个通联数据,做细分垂直领域--金融云,背靠万向控股,服务于在金融领域多年积累的客户,这应该是最赚钱的。

不过套用时髦的说法,它应该是云计算+概念。

价格方面,BAT比创业型公司便宜30%左右,为啥?主要是资源/成本优势,其中包含规模效应。

有人说我新架构成本当然更高啊,分布式3备份、万兆,你老架构raid1才2备份、网络千兆,表面看是这样,但站在更高的角度来看,分布式3备份、万兆带来的直接成本虽然更高,但整个平台得以升级后也带来了额外的好处,因为平台可靠性和稳定性比单机高很多,相对老架构省了raid卡、双电源,另外因为资源池化,在热迁移和动态调度系统支持下,可以提高资源利用率,资源利用率提高10%基本相当于成本降低10%,分布式如ceph,要占20%的CPU和内存,成本确实高一些,现实中很多人会通过超卖来抵消;又有人说我按秒计费啊,不用就关,关了不收费,别看我价格更高,总体算下来其实更省呢,其实按秒计费在成本上的意义并不大,具体请看后面第六节“计费模式”。

趋势:毛利率层面来看,硬件成本不断下降,但公有云产品降价更快,而且第二大成本(机柜和带宽)基本是不变的,所以毛利率不断降低是必然的。

规模效应不止是成本下降,更多的好处在于,可以推出更多附加值高的PaaS产品、打造平台。

有完整生态系统的大公司,公有云不盈利都行,圈用户拉动其它业务增长。

而对于创业型公司则是最核心甚至唯一的业务,一定要避免走价格战这条路。

超卖:肯定有人这么干,我只想说:真心没必要,眼光放长远,把产品和服务做好,规模做大比什么都强,没规模算计这算计那、就算盈利了也没用,等以后市场成红海了再来考虑这些吧。

实际操作中,分布式架构超卖更方便,本地盘会带来很多麻烦。

二:行业发展前景及市场分析;国务院意见、互联网+等等政策面的积极影响,再明显不过了,基于信息安全考虑,去IOE、国产化,科技发展趋势:廉价x86架构+开源免费软件替代昂贵的商用软硬件,也是有目共睹。

整个云计算市场潜在规模巨大,正在快速发展的初期,趋势和前景大家都看得出来,不多说。

市场还处于培育阶段,竞争不激烈,这一点从各家都没有公开黑同行、甚至点评都很谨慎可以看出来,大家都有缺点和硬伤,互相揭短只会让围观的用户越发不接受这个自身本来就不是很成熟的新事物,最后大家都别想好。

反观另一个非常成熟的领域:手机,天天互相黑来黑去的。

如果有一天,哪个公有云厂商开始公开黑同行了,就说明他翅膀硬了,市场很成熟了,增量用户不多、只能抢用户了。

2017年公有云市场(含混合云的公有云部分)规模能到百亿RMB,企业和政府需求是互联网的10倍。

政务云需求由政府力量驱动,企业需求由市场和科技驱动,互联网需求都不用怎么驱动、会主动拥抱。

三年后的市场可以参见现在的美国市场。

三:行业现状;首先我们要阐明市场上那么多卖云主机的,哪些才是我们要讨论的公有云,业内大牛沙克老师提到过云计算5大特征,如果一个都不具备,那就是卖虚拟机的,不算。

本文讨论的公有云主要包含互联网公司、创业型公司、华为联想之类厂商、CDN厂商。

做技术的都知道,云计算本身并不是一种新技术,而是把很多运维技术结合起来做成一个整体的平台,只能算是一种新的业务模式。

运维技术大概经历了5个时代:手工时代、脚本时代、工具+小平台时代、自动化大平台时代、云平台时代,未来也许是虚拟机器人时代。

大多数中小互联网公司及大部分企业都还处于前3个时代,技术水平和思维跟不上,云平台一些新技术和理念还接受不了,先进的东西往往最后妥协成一个四不像。

现实中我们经常看到很多互联网用户还是把云主机当物理机来用,8核32G配置,独立外网ip,原有运维流程和脚本最好丝毫不变,企业用户就更不用说了。

简单来说,一方面,公有云在稳定性、安全性等方面还没有获得用户信任,另一方面,一些理念又太超前,用户接受不了。

先获取信任,再来说服用户接受。

企业市场,华为、联想们有天然优势,如果能补上互联网平台运营的短板,将切得最大块蛋糕,互联网公司从来都不擅长做企业市场,打法完全不一样。

目前公有云分为3类:产品型、平台型、生态型,未来产品型将没有竞争力。

创业型公司2年内只能是产品型,要尽快往平台型转。

如360、通联数据,都属于平台型,现在跟进也不算晚。

四:还有机会吗?技术上,越往后越有优势,所以偏技术思维的容易产生错觉:我要是现在创业,十几个人几个月就能做出一个比市场上所有平台都好的公有云,成功概率岂不大大的!?真的是这样吗?先说自主研发技术,周期太长,肯定来不及了;开源架构基本就是openstack了,有些问题反正前期规模没到所以还不是问题,有些还真就是问题,业内对openstack公有云都尚存疑虑、信心不足,用户又怎么敢用?中心化下,网络节点的单点瓶颈、消息队列的性能瓶颈、LB(HAProxy)的性能瓶颈、分布式块存储的稳定性等等,上规模后都是大问题。

详细的“技术分析”见后面第五节。

运维这个领域永远都是谨慎、稳重第一,获取用户的信任之前,你能吸引到的最大用户群也就是不很看重稳定性的个人用户和创业群体,商业公司没人敢冒这个险。

再说市场层面,青云之后,再难有大的创新,IaaS的创业门槛一下就提高了很多,甚至可以说大门都快关上了。

没有先入优势,也没有重大创新,只是微创新、好一点,市场是不会给你创业机会的。

所以我认为在2013年底创业大门就已经关闭了,对应2014年上半年要发布产品,因为2013年底2014年初公有云行业有几个重大变化:青云立足、金山云发布、腾讯云对外发布、阿里云成为核心战略获得全力支持。

真想创业该考虑PaaS行业,或给IaaS用户提供服务,比如深圳有一家叫“多备份”,由于本文只说IaaS就不展开了。

创业公司大忌:完全模仿。

正所谓:学我者生,似我者死。

技术上的差别用户看不见、也不关心,把握准IT行业、运维技术发展的趋势,在技术保障的基础上,产品、商业模式上必须要有重大创新,能真正解决用户关心的一些问题,至少要有一个明显的创新和优势能打动用户,凭此打造切入点。

在产品、商业模式、界面等用户看得见的地方全面模仿,无异于替别人宣传了。

五:产品和技术分析;openstack正在快速成熟,再有2个版本就差不多了,出于利益会员们都想推广自己的plugin,但各方角力下,谁也别想当主角,小厂力单势薄,有能力的没意愿,有意愿的没能力,导致开源免费的产品进展缓慢,现实中,大厂还是在openstack下集成自己的硬/软件,小厂只能凑合着用尚不成熟的免费产品,也有少数具备技术实力的,对openstack做些二次开发、不成熟的模块替换掉或改架构。

openstack原生态架构下的免费实现方式,做公有云还是不行。

抗openstack大旗讲故事、拉投资,获得技术圈内叫好,都没问题,但要拿出来商用做公有云,目前还差很多。

目前成功的案例都是做了二次开发,或用了硬件。

openstack做私有云很成熟了,因为对存储和网络要求没那么高,业务也单一,分布式搞不定用本地也行,网络大二层搞定,网络节点就管理个ip、还只是内网,外面独立搭建一套lvs负责外网的负载均衡、端口转发及nat,没有性能瓶颈,单个集群规模也大不了,涉及到的技术在BAT之类公司里都有很成熟的经验和方案,关键是自己的业务熟悉,满足需求,又把老板关心的成本降下来了,就ok啦,甚至有家公有云都是这么实现的。

I/O性能(主要指随机写):本地盘没什么好说的,拼硬盘成本。

分布式较复杂,技术含量高,最好要能保障150IOPS。

我们的内部游戏云,采用1块ssd+bcache+ceph,能提供接近于本地ssd方案的性能,这个解决方案应该是首创,还没查到案例。

分布式块存储:开源界已是ceph一统天下,BAT都是基于原有自主研发的系统,改一下拿过来用,未必比ceph好,关键自己研发的东西熟悉啊,出了问题有人解决、有人负责,还会持续改进呢。

ceph也是很有争议的,有人说很稳定很好用、成功案例也有好几个,但更多的人说的是各种问题不好用,测试没通过而放弃,惨痛的教训也有。

那么ceph到底好不好用呢?我是这么认为的:想用ceph,必须要有深厚的分布式存储系统经验,至少有专业的分布式存储运维工程师长时间对ceph的研究和测试,选对版本、调整好策略、Cgroup隔离好,只要功夫做到家,肯定能用好,出问题也不怕;而大多数人并无分布式存储方面的经验和积累,仅凭看看文档、请教别人,拿过来就想用,劝你还是趁早放弃,否则迟早出问题,老老实实用本地盘吧。

LB:主要谈四层。

分lvs和HAProxy两种,BAT之类技术实力雄厚,而且有现成的方案,都是用lvs fullnat,真实ip也很好的解决了(不是vm内打linux内核补丁,在ovs层面解决),用万兆网卡可以抗巨量的pps,技术上的优势就不赘言了,我想提的是它带来的巨大的成本优势,以别人1/10的价格,还能做到更高的毛利率。

HAProxy相比而言,转发性能先打个7折,抗压能力又差一个数量级,创业公司技术和人力有限,只能选这个容易实现的,小规模也凑合能用,HAProxy具体的实现方式大概有2种,1是中心化,一台物理机上配一堆实例,2是直接给一个独立的低配置vm,安装HAProxy。

相关文档
最新文档