阿里云 飞天系统 总体框架
飞天操作系统,中国科技的创新力量

万台集群规模 多维度资源请求 额度控制
负载均衡 复杂的调度约束
Fuxi Master
APP Master
APP Worker APP Worker
APP Worker APP Worker
APP Master APP Worker
两级调度:批发+零售 增量调度:一次请求、多次分配
单集群规模一万台,10万个进程,毫秒级响应 2015年排序竞赛四项冠军,100TB排序377秒完成
天基Master
预期状态
当前状态
部署、升级、扩容、下线、配置变更 执行计划
Agent Agent Agent Agent Agent
面向恢复的计算模型
Recovery-oriented Computing Model
Paxos
CS
CS
CS CS
盘古:分布式存储管理
Pangu: Distributed Storage Management
额度超售 实际使用 额度拉伸
额度收缩
30% 10% 10%
20% 20%
40% 30%
50% 50% 27%
总和
30% 30%
80%
60% 53%
150% 资源复用率 70% 90% 130% 100%
兼顾效率与公平
Achieving Efficiency and Fairness
弹性额度 离线在线混合调度
硬件上架
OS克隆
OS升级
应用升级
硬件下架
应用迁移
应用部署 应用启动
自天动基化:运从维批挑处战理到状态机
TCihaanljlie: nfrgoems Boaf tAcuhtSonteopmPoruosceOspseinrgattioonState Machine
阿里云飞天开放平台-技术白皮书-改

飞天开放平台技术白皮书目录文档图索引 (3)1.概述 (4)2. 体系架构 (5)3. 飞天内核 (6)4.分布式系统底层服务 (7)4.1.协调服务(女娲) (7)4.2.远程过程调用(夸父) (7)4.3. 安全管理(钟馗) (8)4.4. 分布式文件系统(盘古) (8)4.5. 资源管理和任务调度(伏羲) (9)4.6.集群监控和部署 (11)文档图索引图 1 飞天体系架构 (5)1.概述阿里云飞天开放平台是在数据中心的大规模Linux集群之上构建的一套综合性的软硬件系统,将数以千计的服务器联成一台“超级计算机”,并且将这台超级计算机的存储资源和计算资源,以公共服务的方式,输送给互联网上的用户或者应用系统。
阿里云致力于打造云计算的基础服务平台,注重为中小企业提供大规模、低成本的云计算服务。
阿里云的目标是通过构建飞天这个支持多种不同业务类型的公有云计算平台,帮助中小企业在云服务上建立自己的网站和处理自己的业务流程,帮助开发者向云端开发模式转变,用方便、低廉的方式让互联网服务全面融入人们的生活,将网络济模式带入移动互联网,构建出以云计算为基础的全新互联网生态链。
在此基础上,实现阿里云成为互联网数据分享第一平台的目标。
2. 体系架构图 1 飞天体系架构如图2.1所示是飞天的体系架构图。
整个飞天平台包括飞天内核(图2.1中浅灰色组件)和飞天开放服务(图2.1中白色组件)两大组成部分。
飞天内核为上层的飞天开放服务提供存储、计算和调度等方面的底层支持,对应于图2.1 中的协调服务、远程过程调用、安全管理、资源管理、分布式文件系统、任务调度、集群部署和集群监控模块。
飞天开放服务为用户应用程序提供了存储和计算两方面的接口和服务,包括弹性计算服务(Elastic Compute Service,简称ECS)、开放存储服务(OpenStorage Service,简称OSS)、开放结构化数据服务(Open Table Service,简称OTS)、关系型数据库服务(Relational Database Service,简称RDS)和开放数据处理服务(Open DataProcessing Service,简称ODPS),并基于弹性计算服务提供了云服务引擎(Aliyun Cloud Engine,简称ACE)作为第三方应用开发和Web应用运行和托管的平台。
阿里云计算架构

阿里云计算架构飞天是由阿里云开发的大规模分布式计算系统,其中包括飞天内核和飞天开放服务。
如下图所示。
飞天体系架构飞天体系架构主要包含四大块:资源管理、安全、远程过程调用等构建分布式系统常用的底层服务;分布式文件系统;任务调度;集群部署和监控。
飞天管理着互联网规模的基础设施。
最底层是遍布全球的几十个数据中心,数百个POP(Point of Presence,入网点)。
飞天内核负责管理数据中心Linux集群的物理资源,控制分布式程序运行,隐藏下层故障恢复和数据冗余等细节,有效提供弹性计算和负载均衡,调度集群的计算、存储资源,支撑分布式应用的部署和执行,并自动进行故障恢复和数据冗余。
安全管理根植在飞天内核最底层,飞天内核提供的授权机制能够有效实现“最小权限原则”,同时,还建立自主可控的全栈安全体系。
监控报警诊断是飞天内核的最基本能力之一。
飞天内核为上层应用提供非常详细的、无间断的监控数据和系统事件采集,能够回溯到发生问题那一刻的现场,帮助工程师找到问题的根源。
在飞天体系架构中,“盘古”是存储管理服务,“伏羲”是资源调度服务,飞天内核之上应用的存储和资源的分配都由盘古和伏羲管理。
“天基”负责飞天各个子系统的部署、升级、扩容以及故障迁移,进行自动化运维服务。
分布式监控—“神农”是飞天平台上负责信息收集、监控和诊断的系统。
它通过在每台物理计算机上部署轻量级的信息采集模块,获取各个计算机的操作系统与应用软件运行状态,监控集群中的故障,并通过分析引擎对整个飞天系统的运行状态进行评估。
分布式协同—“女娲”为飞天平台提供高可用的协调服务,是整个飞天系统的核心服务,它的作用类似于文件系统的树形命名空间,让分布式进程互相协同工作。
远程过程调用—“夸父”在飞天平台中是负责网络通信的组件,它提供远程过程调用的接口,简化编写基于网络的分布式应用。
安全管理—“钟馗”为飞天操作系统中的安全管理机制提供以用户为单位的身份认证和授权,以及对集群数据资源和服务进行的访问控制。
阿里飞天平台总架构师唐洪:飞天开放平台

以下为演讲实录:唐洪:我讲题目是飞天开放平台,大数据和云计算有一个比喻是硬币的两面。
很多专家讲了跟大数据有关的东西,我讲跟云计算有关的东西。
我在这次会议上主要讲到底为什么要设计这个系统?设计原则是什么?里面我觉得一些技术创新的地方在哪里?我先大概讲一讲阿里云,我不知道在座各位知不知道阿里云的历史,阿里云是阿里巴巴集团子公司,成立开始是以云计算作为它的业务,今天已经有大概60万个客户,这些客户把他们的网站、应用、服务都放在阿里云的平台上,每天我们有数十亿次访问,阿里云可以说是中国最大的云计算服务提供商。
大家知道云计算是一个生态,阿里云整个云计算生态定位比较清晰,我们想做最基础的云服务。
为什么这么定位?可以看到我们大概思路是这样,最底层是数据中心层,我们有阿里巴巴自己管理的数据中心,也有和第三方合作的数据中心,这个完全取决于咱们怎么合作。
唯一阿里巴巴想到的就是飞天的平台。
上面有一些平台级别的服务,比如说AC 是引擎,我们希望有第三方的平台在我们上面成长起来。
阿里提供了一些应用级别的服务,包括搜索、邮箱还有地图服务。
我们也欢迎很多第三方应用,我们相信大多数应用是第三方应用,我们提供邮箱、地图、搜索的服务,因为这些服务需要很多资源,技术门槛比较高,这些服务也是很多做互联网应用必须用到的服务,所以我们作为基础服务提供给互联网开发者。
我们用户大概有三类:一类直接消费我们应用级别的服务,还有一类比如说独立的软件开发商和系统集成商,他们在我们平台帮助他们的客户完成一些解决方案,第三类是一些独立开发者,移动应用开发者,他们直接开发一款应用在我们云平台上。
下面讲一下为什么我们有这样的定位,说起这个问题主要从云计算本质说起,云计算有三个本质,第一个大规模的本质,云计算是应运互联网而生,所以大规模是一个必须要解决的问题。
有一个不完全统计就是说今天每天大概有2.5个EB这样的数据产生,并且这个数字每40个月会翻一番,之前Michael StacK教授说今年年末有35个GB的数据。
阿里云-飞天系统-总体框架

阿里云—飞天系统总体架构西门老衲研究整理关于华博科技( Technology )目录1. 飞天体系结构—飞天系统+ 飞天应用2. 飞天系统—分布式基础架构9 5. 飞天系统—集群监控—神农3. 飞天系统—分布式文件系统—盘古4. 飞天系统—任务调度—伏羲7. 结束语6. 飞天应用—阿里云系列韵公园什么是飞天?飞天体系—技术框架关于华博科技( Technology )目录1. 飞天体系结构—飞天系统+ 飞天应用2. 飞天系统—分布式基础架构9 5. 飞天系统—集群监控—神农3. 飞天系统—分布式文件系统—盘古4. 飞天系统—任务调度—伏羲7. 结束语6. 飞天应用—阿里云系列韵公园关于华博科技( Technology )目录1. 飞天体系结构—飞天系统+ 飞天应用2. 飞天系统—分布式基础架构9 5. 飞天系统—集群监控—神农3. 飞天系统—分布式文件系统—盘古4. 飞天系统—任务调度—伏羲7. 结束语6. 飞天应用—阿里云系列韵公园飞天文件系统-盘古飞天盘古—特性飞天盘古系统—设计飞天盘古—针对在线业务的优化关于华博科技( Technology )目录1. 飞天体系结构—飞天系统+ 飞天应用2. 飞天系统—分布式基础架构9 5. 飞天系统—集群监控—神农3. 飞天系统—分布式文件系统—盘古4. 飞天系统—任务调度—伏羲7. 结束语6. 飞天应用—阿里云系列韵公园任务调度—伏羲飞天伏羲—体系架构飞天伏羲关于华博科技( Technology )目录1. 飞天体系结构—飞天系统+ 飞天应用2. 飞天系统—分布式基础架构9 5. 飞天系统—集群监控—神农3. 飞天系统—分布式文件系统—盘古4. 飞天系统—任务调度—伏羲7. 结束语6. 飞天应用—阿里云系列韵公园飞天系统—集群监控—神农飞天神农—特点关于华博科技( Technology)目录1. 飞天体系结构—飞天系统+ 飞天应用2. 飞天系统—分布式基础架构95. 飞天系统—集群监控—神农3. 飞天系统—分布式文件系统—盘古4. 飞天系统—任务调度—伏羲7. 结束语6. 飞天应用—阿里云系列韵公园飞天应用阿里云邮箱服务阿里云金融数据仓库阿里云渲染计算服务问题关于华博科技( Technology)目录1. 飞天体系结构—飞天系统+ 飞天应用2. 飞天系统—分布式基础架构95. 飞天系统—集群监控—神农3. 飞天系统—分布式文件系统—盘古4. 飞天系统—任务调度—伏羲7. 结束语6. 飞天应用—阿里云系列韵公园仅供分享学习只用敬请尊重阿里云—飞天系统相关研发者的知识产权!!。
阿里云新型互联网架构介绍

场景:政府/部委,大数据
V1.0 (2015.07)
关键产品:IAAS+基础大数据产品
平台特性:半自动化部署,ERMS
未来的持续演进:开放、可信、可控的企业级云平台
• 引擎和接口的兼容性 • 硬件兼容性
开放
• E2E安全设计 • 数据可靠性 • 业务连续性
数字化转型引擎
• 自主可控的调度框架 • 统一运维 • 多租户运营
解决数据 长效保存 及采集问题
解决数据 规范问题
解决数据 交换及安全问题
解决技术 转化输出问题
飞天平台:由实践锤炼而来
天猫 支付宝
17.5万笔/秒订单
12万笔/秒支付
2017天猫 11.11 购物狂欢节 1682亿元总成交额
阿里云专有云:让每个企业都拥有自己的飞天
专有云 公共云
北京,杭州,上海,青岛 深圳,香港,新加坡
专有云
公有云 • 弹性 • 多租户 • 大规模验证
一套架构体系,不同的部署环境
专有云 • 更好的私密性和专属性 • 软件定义 • 企业级特性
飞天发展概况
V4.0 (2018.05)
客户和场景:人工智能,IOT,国际化,数据治理 版本形态:混合云,Agility版本
V3.0 (2017.07)
12节点的Oracle RAC集群成为国 内最大数据仓库,扩展困难
阿里集团最后一台小型机在支 付宝下线,标志去IOE完成
飞天平台日趋成熟, 支撑双十一海量交易
IOE
GreenPlum
IOE
阿里云 Hadoop
阿里云
早期 过渡期
现在
阿里云平台历程
Aliexpres s 1688.co m 支付 宝 小 贷 保 险 基 金 淘宝 天猫 聚划 算 菜 鸟 网 络 数 字 娱 乐 高 德 友 盟 医 疗 U C
阿里云体系架构ppt课件

弹性计算服 务SLB/ECS 集 群 部 署
(分布式)关系数据库 DRDS/RDS 分布式文件系统
大数据 ODPS/ADS 任务调度 远程过程调 用
开放存储 OSS
分布协同服 务
安全管理
资源管理
基础 设施
x86服务器 & Linux
网络设备
机房环境
5
阿里云的产品体系
6
分布式文件系统-(一层结构)
负载均衡
LB / LVS
协议处理、访问控制
协议接入层 RESTful 数据访问层 Key-Value引擎 持久存储层 Pangu
1. 海量、分布式的KV存储 2. 可扩展至数千台服务器 3. KVMaster/KVServer/Nuwa 1. 基于分布式文件系统Pangu 2. Master-Slave,基于Paxos的多 Master设计。 3. 三份拷贝分布不同机架存储 16
云市场及第三方服务
集群 部署 Depl oym ent
关系型数据 库服务 (RDS)
分布式文件系统 Distributed File System
Distributed Coordination Service
集群 监控 Mon itori ng
分布协同服务
Security Manag客户端主要为: ECS OSS/OSA ODPS/Opensearch OTS/SLS
2019
-
8
分布式文件系统-二层结构
Paxos
2019
-
9
任务调度系统-伏羲
2019
-
10
物理部署示意图
2019
-
11
IAAS基础服务-ECS弹性服务器
07-121017-阿里_飞天开放平台与产品-王立

阿里云-云计算业务部 王立 2012年10月
飞天开放平台
云服务引擎 ACE
开放存储 服务
OSS
Deployment
OTS
Distributed File System
远程过程调用
Remote Procedure Call
分布式文件系统
Job Scheduling
分布协同服务
Distributed Coordination Service
持久、冗余、容错
持久存储层 Pangu
开放存储服st
WS+PM WS+PM WS+PM
ACK
WS+PM
数据访问层
KVMaster 女娲
KVServer
KVServer
KVServer
持久存储层
M Paxos
M
CS CS CS CS CS
M
其他存储类产品
Rational Database Service (RDS)
协议处理、访问控制
协议接入层 RESTful
1. 海量、分布式的KV存储 2. 可扩展至数千台服务器 3. KVMaster/KVServer/Nuwa
分区、索引
数据访问层 Key-Value引擎 1. 基于分布式文件系统Pangu 2. Master-Slave,基于Paxos的多 Master设计。 3. 三份拷贝分布不同机架存储
开放数据处理服务 • 基于飞天大规模分布式计算系统构建的海量数据 离线处理与分析的平台服务,以RESTful API 的 形式提供服务,具有PB 级别的数据处理能力。 • ODPS 着力于实时性要求不高的海量数据离线处 理,适合数据分析、海量数据统计、数据挖掘、 商业智能等领域。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
阿里云—飞天系统总体架构
西门老衲研究整理
关于华博科技( Technology )目录
1. 飞天体系结构—飞天系统+ 飞天应用
2. 飞天系统—分布式基础架构
9 5. 飞天系统—集群监控—神农
3. 飞天系统—分布式文件系统—盘古
4. 飞天系统—任务调度—伏羲
7. 结束语
6. 飞天应用—阿里云系列韵公园
什么是飞天?
飞天体系—技术框架
关于华博科技( Technology )目录
1. 飞天体系结构—飞天系统+ 飞天应用
2. 飞天系统—分布式基础架构
9 5. 飞天系统—集群监控—神农
3. 飞天系统—分布式文件系统—盘古
4. 飞天系统—任务调度—伏羲
7. 结束语
6. 飞天应用—阿里云系列韵公园
关于华博科技( Technology )目录
1. 飞天体系结构—飞天系统+ 飞天应用
2. 飞天系统—分布式基础架构
9 5. 飞天系统—集群监控—神农
3. 飞天系统—分布式文件系统—盘古
4. 飞天系统—任务调度—伏羲
7. 结束语
6. 飞天应用—阿里云系列韵公园
飞天文件系统-盘古
飞天盘古—特性
飞天盘古系统—设计
飞天盘古—针对在线业务的优化
关于华博科技( Technology )目录
1. 飞天体系结构—飞天系统+ 飞天应用
2. 飞天系统—分布式基础架构
9 5. 飞天系统—集群监控—神农
3. 飞天系统—分布式文件系统—盘古
4. 飞天系统—任务调度—伏羲
7. 结束语
6. 飞天应用—阿里云系列韵公园
任务调度—伏羲
飞天伏羲—体系架构
飞天伏羲
关于华博科技( Technology )目录
1. 飞天体系结构—飞天系统+ 飞天应用
2. 飞天系统—分布式基础架构
9 5. 飞天系统—集群监控—神农
3. 飞天系统—分布式文件系统—盘古
4. 飞天系统—任务调度—伏羲7. 结束语
6. 飞天应用—阿里云系列韵公园
飞天系统—集群监控—神农
飞天神农—特点
关于华博科技( Technology)
目录
1. 飞天体系结构—飞天系统+ 飞天应用
2. 飞天系统—分布式基础架构
95. 飞天系统—集群监控—神农
3. 飞天系统—分布式文件系统—盘古
4. 飞天系统—任务调度—伏羲
7. 结束语
6. 飞天应用—阿里云系列韵公园
飞天应用
阿里云邮箱服务
阿里云金融数据仓库
阿里云渲染计算服务
问题
关于华博科技( Technology)
目录
1. 飞天体系结构—飞天系统+ 飞天应用
2. 飞天系统—分布式基础架构
95. 飞天系统—集群监控—神农
3. 飞天系统—分布式文件系统—盘古
4. 飞天系统—任务调度—伏羲
7. 结束语
6. 飞天应用—阿里云系列韵公园
仅供分享学习只用
敬请尊重阿里云—飞天系统相关研发者的知识产权!!。