杨少华:阿里开放数据处理服务
数字化转型的八个关键问题

在过去,消费者追求的更多 是 性 价 比 、产 品 功 能 、耐 用 性 等 功 能 诉 求 ;今 天,年 轻 的 消 费 者 不仅仅关注功能性诉求,而且关 注 内 容 、服 务 、参 与 度 、社 交 体 验、分享与交流等体验诉求 。消 费者的需求已变化,我们的供给
何从单向应用 。问题是,这些挑 战背后的原因是什么?
十九大报告提出我们面临 的基本矛盾是人民日益增长的 美好生活需要和不平衡不充分 的发展之间的矛盾。我们把这个 问题抛给数字化转型:什么是数 字化转型的基本矛盾?我们认为 是企业全局优化的需求和碎片 化供给之间的矛盾。企业数字化 投入和收益之间不是一个平行 线,数字化投入只有超越了集成 的某个临界点之后,收入才会呈 现指数化增长。
20
动化推动企业从业务数据化向 数据业务化转型,从单轮驱动向 双轮驱动转型,并最终实现全链 路数智化。
阶段一:IT化阶段 关键词:安装 企业通过安装办公自动化 (OA)、企业资源管理(ERP)、供 应链管理(SCM)、客户关系管理 (CRM)等各类信息化软件,构建 单点业务环节信息系统,全面优 化企业的研发、生产、经营流程, 提高管理效率,为进一步深入开 展数字化转型打下坚实基础。 阶段二:在线化阶段 关键词:在线 互联网普及对于商业世界 带来的革命性变化,意味着商业 系统进入了新时代⸺在线时 代,商 业 世 界 实 现 大 尺 度 、多 场 景业务闭环优化。伴随着3G、4G、 5G等移动互联网及物联网技术 的迭代,电子商务、社交网络、移 动 支 付 、网 络 约 车 等 新 业 务 涌 现,推 动 着 消 费 者 在 线,以 及 店 铺 、商 品 、组 织 、管 理 、服 务 的 在 线化。 阶段三:云端化阶段 关键词:重构 云计算、物联网、人工智能、 5G、数字孪生等为代表的智能技 术群落正在构建新商业基础设 施,未 来 5 ~ 1 0 年 将 是 新 型 数 字 基 础 设 施 的“ 安 装 ”和 服 务 交 付 期 。I T 基 础 设 施 及 企 业 应 用 软 件 加速云化,一批云原生技术持续 涌现。数据中台、业务中台、AIoT 中台建设步伐加快,消除数据孤
阿里王宇网络安全

阿里王宇网络安全网络安全是指在网络环境中保护网络系统、网络数据和网络用户的安全,防止网络犯罪和恶意攻击的一系列技术和措施。
阿里王宇网络安全是由阿里巴巴集团创始人马云提出的一种网络安全理念和战略方法,旨在构建安全可靠的网络环境,保护用户的隐私和数据安全。
阿里王宇网络安全的核心理念是“理念决定产业、技术决定实现”,即在网络安全领域,阿里王宇提倡以创新的理念引领产业发展,以先进的技术实现安全保护。
阿里巴巴集团将网络安全作为核心战略之一,并投入大量资源进行研发和实践。
阿里王宇网络安全的实践主要体现在以下几个方面:一是构建安全可靠的网络基础设施。
阿里巴巴集团通过自主研发的防火墙、入侵检测系统、抗DDoS攻击等技术手段,保障了网络基础设施的安全稳定运行。
同时,阿里王宇还与各大运营商合作,共同搭建网络安全保护体系,对网络流量进行监测和分析,及时发现并应对网络攻击行为。
二是强化数据安全保护。
阿里巴巴集团倡导“数据至上”的理念,积极倡导用户所有权、使用权和控制权都在用户手中。
阿里王宇致力于提供安全可靠的数据存储和传输服务,通过加密技术、权限控制和数据备份等手段,保护用户个人隐私和商业敏感信息的安全。
三是提供全方位的安全解决方案。
阿里王宇网络安全不仅仅关注基础设施和数据安全,还注重用户的安全体验。
阿里巴巴集团提供了多种网络安全产品和解决方案,包括防止网络钓鱼、虚拟专用网络(VPN)和云安全等,满足用户在不同场景下的安全需求。
四是积极开展网络安全宣传和教育。
阿里巴巴集团通过举办网络安全峰会、发布安全报告、参与相关活动等方式,向公众普及网络安全知识,提高用户的安全意识和防范能力。
同时,阿里巴巴还推出了网络安全技术培训和认证计划,为行业人士提供培训和认证服务。
总之,阿里王宇网络安全是阿里巴巴集团在网络安全领域的一项重要战略和实践。
通过构建安全可靠的网络基础设施、强化数据安全保护、提供全方位的安全解决方案和开展安全宣传教育,阿里王宇网络安全为用户提供了更安全、可靠的网络环境,推动了网络安全的发展和进步。
阿里巴巴大数据分析与应用白皮书

阿里巴巴大数据分析与应用白皮书随着互联网技术的发展和数据存储技术的提升,大数据的概念越来越突显重要。
在这个时代里,数据不仅仅是一种资源,更是推动经济的重要驱动力。
其中有一个典型的案例,那就是阿里巴巴公司。
在阿里巴巴公司,大数据不仅仅只是一种资产,它也是一种巨大的生产力。
作为中国最著名的电商企业,阿里巴巴公司已经覆盖了包括B2B、C2C、B2C 在线市场等在内的众多电商领域,拥有海量用户和海量数据。
在这些数据中,包含了消费者的行为、走向、兴趣、购买力以及其他有意义的信息。
因此,阿里巴巴公司可以对这些数据进行分析,从而使企业更加深入地了解消费者,优化商业模式和提高产品的质量。
阿里巴巴公司的大数据应用已经远远超出了电商领域。
通过使用阿里云,这家公司还将其大数据分析技术用于金融服务、医疗健康、智能制造等领域,并取得了显著的成果。
阿里巴巴已经成为一家集企业级服务、云计算、大数据解决方案和创新技术于一体的综合性互联网企业。
作为阿里巴巴公司大数据应用的代表之一,其企业级服务平台——“阿里云”是一项强大的技术资源,能够处理复杂数据分析、高级计算等高负荷任务。
通过抽取、清洗和ETL处理,其数据集成服务可以从不同的数据源中整合数据,帮助企业获取清晰、全面的视图。
同时,数据分析服务平台可以通过智能算法和大量数据,对企业数据进行分类、聚合和排序,从而呈现出相当生动、直观的开发用户视图、以及识别模式,从而为企业提供更高效的业务支持。
在阿里巴巴公司看来,大数据的使用是可以带来巨大价值的。
这家公司不仅要利用大数据来完善自身的电商生态系统,还要致力于将其大数据分析技术推向其他领域,帮助其他企业、政府和社会组织改进他们的运营和管理,从而促进社会的发展与进步。
总之,阿里巴巴公司的大数据分析技术已经成为其掌握市场竞争优势的必要手段。
通过对海量数据的处理和分析,该公司已经切实提高了商业运作效率和竞争力,同时也极大地促进了社会经济和信息化水平的发展。
阿里巴巴未来十年愿景和目标

【未来十年使命愿景】曾鸣:在各个子公司目前的发展状态下,集团未来到底想做什么的几点思考。
今天上午,总裁联席会上,我们把中间的每一个字都讨论了一下。
请大家看一下新鲜出炉的2010年版的阿里巴巴集团未来战略思考。
使命:促进“开放、透明、分享、责任”的新商业文明(现场PPT)使命,大家发现我们提到了一个新的东西,使命是促进“开放、透明、分享、责任”的新商业文明。
我们反复讨论过,是不是还用“让天下没有难做的生意”这样的一个使命,总觉得这个使命,虽然大家都非常熟悉,而且非常喜欢,但是已经很难全面涵盖整个阿里巴巴集团下一步所要做的事情。
虽然比如说它对B2B,小企业做B2B这样一种定位还是非常准确的,但是对整个集团来说,它已经不太能够涵盖了。
真正让我们兴奋的是,我们在这样一个时刻,看到了信息时代。
有可能在我们手中建成的这样一个机会,我们真正想推动的是新商业文明,所以我们最开始提出来,我们的使命是——创建新商业文明。
后来,觉得是“新商业文明”太虚,又反复讨论,到底什么是“新商业文明”?怎么解释?我们觉得最能够讲明白的是,新商业文明最核心的价值诉求是什么?技术只是手段,博识也是一种方法,真正的文明肯定最终落到价值观、落到一些基本诉求上。
所以,我们先给新商业文明有一个定义,是——“开放、透明、分享、责任的新商业文明”。
这中间呢,我们没有写“诚信”,因为我们觉得诚信是基础,这些做到了,必然会诚信。
第二个我们拿掉的是“全球化”,因为相比之下,“全球化”反而把我们想要的理想缩小了,因为“开放、透明、分享、责任”本身就是在21世纪,在一个地球村,一个真正有全球胸怀和视野的集团,所具备的自身价值观。
你做到这四点,一定是一个新型的全球性的企业,所以全球化是不言而喻的。
“全球化”不是中国企业整天喊在嘴里的说“走出去”,不是在印度开分公司,或者终于在美国收购了一个企业,不是真正意义上的全球化。
我们想要的“全球化”是未来21世纪一家全球领先的企业所必须拥有的胸怀和追求。
9553408_“读懂互联网+”行动的关键

36 / 新经济导刊 / New Economy Weekly10/2015“读懂互联网+”行动的关键本刊记者/文昌Copyright ©博看网. All Rights Reserved.“互联网+”引领未来姜奇平(中国社科院信息化研究中心秘书长):“互联网+”实际是互联网+X,X就是指各行各业,实际是指工业化下的各行各业。
“互联网+”在成为行动之前,要解决三个实际问题,或者说排除三种障碍。
首先,是“互联网+”的制度创新。
互联网+X,谁说了算?这是当前最突出最尖锐的问题。
在总理提出互联网+之前,实际情况是,互联网+X,规则由X说了算。
例如互联网+金融,规则由金融部门说了算;互联网+交通,规则由交通部门说了算;互联网+图书、+医药、+……,全是X各自一家说了算,互联网相关部门(例如互联网协会、工信部、中央网信办)的意见连问都不问。
总理既然提出了“互联网+”,不是说今后要互联网一家说了算,至少希望将来有事,互联网+X两家要商量着办。
当然,商量着办的结果,最后要统一在让市场发挥决定性作用这个大方向上,而不是让权力和寄生在权力下的传统既得利益单方决定资源配置。
其次,互联网+X,二者是什么关系,颠覆还是互补?一说“互联网+”,搞互联网的人容易亢奋,想着好容易翻身得解放了,就想打倒这个打倒那个。
但这是不明智的,互联网业现在还是小车,各行各业是大马,兴产业和新兴业态是竞争高地”这个初衷性的判断下做出的。
信息网络才是新兴产业,而“互联网+”更多指“产业创新”,说白了,就是转变产业发展方式。
我个人认为,新旧业态的经济学区别在于:旧业态是规模报酬递增驱动的,面向的是做大,新业态是范围报酬递增驱动的,面向的是做优。
由此推论,“互联网+”要产生实效,需要把文章做在通过创新,降低多样性成本以支持提价竞争,从而实现高附加值的产业升级上。
中国“互联网+”行动计划,或足以同德国工业4.0、美国工业互联网媲美或更到位,共同形成引领未来的主张。
数智化转型让天下没有难做的生意——阿里巴巴集团副总裁、阿里云智能新零售事业部总裁肖利华博士专访

经商之道JINGSHANG ZHIDAO数曾你转盟:首先感谢肖总在百忙中抽出时间来接受 我们的专访,那就请肖总简要介绍一下阿里 云成立的年份与背景,基于怎样的客观环境 和形势,最初的愿望和宗旨是什么?肖总:阿里云成立于2009年,当时集团 的数据量已经非常大了,在数据存储上支付 给传统IT 服务商的花费也非常大。
2019年“双 十一” 一天的数据量就达到970P ,如果我们 自己不做阿里云对数据进行管理,现在我们 赚的钱可能还不够付给数据运营商。
970P 是 一个什么样的概念呢?中央电视台从创台至 今所有的视频存储是80P ,可以说当初也是 逼不得已,不得不干。
集团想要继续发展下 去,这是我们必须要攻克的一个难题。
而且 用传统IT 架构,服务器也经常会出现宕机等 问题。
如果出现问题,国内顶尖的高手基本 都在阿里了,不能解决的只能找国外,但由 于时差等问题的客观存在,问题经常都不能 及时得到处理:,我们的系统都是实时的,是 经受不起这样漫长的等待的。
所以我们内部 都有一个比较大的决心,要靠自己搞定这些 问题。
这相当于是一场革命。
现在已经有上 百万台的服务器,全球几百个不同区域的不 同的IP 系统进行统一管理。
在2013年我们做 成了这个完整的阿里云飞天操作系统。
这件 事可以说是一件创举,全世界都没人干过。
我们当时搞了一个5k 的项0,把5000台服务器连起来。
普通的服务器,毕竟它的芯片、 硬盘、网卡都很容易出问题。
能不能快速识 别、洞察,软硬件隔离,硬件、芯片、服务 器、网卡等坏了能不能快速的热切,这是非 常难的问题s 我们的工程师一行代码一行代 码这样攻克了一个个的难题。
过程其实是非 常的艰难曲折的,并且内部阻力很大,很多 人说王坚博士是骗子,马老师不懂技术,被 人忽悠了。
15年后,阿里云为许多企业提供技术支 持。
国内80%的科技公司都选择了阿里云。
他 们不需要把过多的精力、财力放在IT /DT 相关 的基础设施建设上,只需要做好应用就可以 了。
阿里巴巴企业文化——六脉神剑

阿里巴巴企业文化——六脉神剑阿里巴巴是一家全球率先的互联网科技公司,其企业文化被称为“六脉神剑”。
这个独特的企业文化是阿里巴巴成功的重要因素之一,它包含了六个不同的方面,每一个方面都对公司的发展和员工的行为起到了重要的指导作用。
1. 使命和愿景:阿里巴巴的使命是“让天下没有难做的生意”,愿景是“打造一个全球性的、开放的、共享的电子商务生态系统”。
这些使命和愿景是公司发展的根本动力,激励着员工为实现这一目标而努力奋斗。
2. 客户第一:阿里巴巴始终坚持“客户第一”的原则。
公司鼓励员工倾听客户需求,提供优质的产品和服务,不断超越客户的期望。
客户满意度是评估员工绩效的重要指标之一。
3. 创新:创新是阿里巴巴企业文化的核心价值之一。
公司鼓励员工勇于创新,推动技术和商业模式的革新,不断寻觅新的商机和增长点。
阿里巴巴鼓励员工提出创新想法,并提供相应的支持和资源。
4. 合作共赢:阿里巴巴强调合作共赢的精神。
公司鼓励员工与合作火伴建立长期稳定的合作关系,共同分享资源和利益。
阿里巴巴相信,惟独通过合作共赢,才干实现持续的增长和发展。
5. 敬业精神:阿里巴巴倡导员工具备敬业精神。
公司鼓励员工全身心地投入工作,追求卓越,不断提升自己的专业能力和业务水平。
阿里巴巴相信,惟独敬业的员工才干为公司创造更大的价值。
6. 社会责任:阿里巴巴积极履行社会责任。
公司鼓励员工参预公益事业,关注社会问题,并通过自身的力量为社会作出贡献。
阿里巴巴通过各种方式支持教育、环保、扶贫等社会公益活动。
以上就是阿里巴巴企业文化“六脉神剑”的主要内容。
这种企业文化的建立和坚持,为阿里巴巴的成功发展提供了重要的支撑。
通过使命和愿景的指引,公司能够明确自己的发展方向;客户第一的原则使公司能够不断满足客户需求;创新的精神使公司能够保持竞争优势;合作共赢的理念使公司能够与合作火伴共同成长;敬业精神使公司能够拥有高素质的员工队伍;社会责任的履行使公司能够获得社会的认可和支持。
新质生产力视野下增强新型农村集体经济发展活力研究

新质生产力视野下增强新型农村集体经济发展活力研究目录1. 内容概览 (2)1.1 研究背景及意义 (2)1.2 国内外新型农村集体经济发展现状及问题 (4)1.3 研究方法与数据来源 (6)2. 新质生产力视野下集体经济发展新模式 (7)2.1 新质生产力的内涵及特征 (8)2.2 集体经济在新质生产力的驱动下转型升级 (10)2.2.1 数字化赋能 (11)2.2.2 智慧协作 (12)2.2.3 品牌化发展 (13)2.2.4 生态化发展 (15)3. 增强新型农村集体经济发展活力的关键措施 (16)3.1 制度创新 (18)3.1.1 完善新型农村集体经济组织结构及运行机制 (19)3.1.2 加强要素流转,促进资本、技术、人才向农村集聚 (20)3.1.3 建立集体经济退出机制,规范退出行为,降低风险 (22)3.2 政策扶持 (22)3.2.1 构建多层次融资体系,完善资金保障机制 (24)3.2.2 加强专业技术服务,提升集体经济核心竞争力 (25)3.2.3 推动土地流转,促进资源优化配置 (26)3.3 市场作用 (27)3.3.1 拓展集体经济发展平台,促进市场化经营模式 (29)3.3.2 鼓励集体经济参与市场竞争,提升产品市场竞争力 (30)3.3.3 完善市场监管机制,保障集体经济合法权益 (31)4. 案例研究与对照分析 (32)4.1 典型案例分析 (34)4.2 不同地区发展路径对照分析 (35)4.3 成功经验及不足之处 (37)5. 结论与展望 (38)5.1 研究结论 (38)5.2 对未来发展趋势的展望 (40)1. 内容概览文章对新质生产力理论进行阐述,即以“要素集聚、技术创新、协同共生”为核心的新型生产力模式,并分析其对于农村经济发展带来的机遇和挑战。
结合现实情况,分析了新型农村集体经济体制存在的主要问题,例如组织结构僵化、自主创新能力不足、乡村人才流失等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
逻辑层
存储与 计算层
飞天集群 A 飞天集群 A (机房1) (机房1)
飞天集群 B (机房2)
16
跨集群(机房)数据共享(2)
• 按业务划分集群
– 关系密切业务的project放在同一个集群 – 每个project对应一个默认集群,作业总是跑在默认集群上
• 数据版本
– 同一份数据(表或分区)在多个集群上可能具有不同的版本
• • • • 方便应用集成,支持非linux平台 方便安全隔离,易于对公网开放 作业日志在后端,便于查错 客户端轻量,升级方便
10
逻辑层
• 负责实现RESTful APIs语义 • 用户请求分两类
• DDL请求,如创建表/删除表,在逻辑层响应完成 • DML请求,如SQL查询和MR作业,需提交计算作业到存储与计算层
18
高效SQL引擎
• 作业概况:
– DDL:几十万/天,DML:几万/天
•
特性
兼容大部分Hive语法 支持Python和Java写UDF,UDAF,UDTF 物理执行方式:DAG,C++实现 Code gen 准实时实现(Service-Mode)
19
高效SQL引擎(2)-DAG
• 示例
– –
社交网络(来往,微博),物流信息(菜鸟物流) 电商关系:类目/商品/买家/卖家,交易/浏览
•
ODPS图计算框架
– 支持类似Pregel的Java编程接口,面向迭代类型的作业 – 磁盘IO→内存网络,换来更快的性能
典型应用:
– – – – PageRank K-均值聚类 非负矩阵分解NMF …
• 典型数据业务
– 信用贷款/广告DMP
3
高可用
ODPS
云计算 服务
服务概况
• 集群
– –
• 业务
– 数百数据开发工程师
多个集群 单集群规模
– – – – 机器:5000台 CPU:10万核 内存:500TB 磁盘容量:100PB
– 阿里系各事业部 – 开始为部分第三方ISV和 科研机构开放数据存储和 分析能力
• 负载
– 亿级别文件 – 作业量:5万/天 – 作业I/O:PB级别/天
5
提纲
• 背景与概况
• 服务架构
• • • 接入层 逻辑层 存储与计算层
• 关键技术 • ST http://xxx/projects/projectname/jobs <xml>insert overwrite table d select * from s;</xml>
Xlib-矩阵运算与数据挖掘算法库
• 金融建模/广告等场景有强烈的分布式算法需求 • ODPS分布式算法库
基于MPI,C++实现 集团共建算法社区模式,集成常用基础性算法
当前支持算法
– – – – SVD分解 逻辑回归 随机森林 …
集成Graphlib算法库
22
图计算框架
• 海量图结构数据
服务 A (控制集群A)
服务B (控制集群B) 分布式
meta服务
逻辑层
Worker 1
…
Worker m
Scheduler
Executor 1 … Executor n
存储与
计算层 飞天集群 A 飞天集群 B
·· ·
逻辑层-分析
• Worker/Executor
• 线性可扩展,负载均衡
• Schduler
SELECT … FROM a JOIN b ON a.id=b.id GROUP BY a.c;
•
Hive
hdfs
Job 1
M1 R1 hdfs M2
Job 2
R2 hdfs
•
ODPS SQL
M1 pangu M2 R1 R2 pangu
•
减少磁盘IO,SQL嵌套多层时性能改进更明显
20
SQL(3)-准实时
阿里巴巴-开放数据处理服务
(Open Data Processing Service, ODPS)
数据平台事业部 – 杨少华
提纲
• 背景与概况
• • • • 服务架构 关键技术 服务管理 结语
2
背景
• 海量数据处理和分享需求
– PB级电商交易数据 – 阿里系各事业部、合作伙伴的数据交换和融合 – 第三方公司的数据处理需求
17
跨集群(机房)数据共享(3)
• 实施
• 业务project数据依赖做大量的分析统计,与业务方协 商集群划分方案 • 历史数据迁移,观察跨机房数据流量 • 开始逐步切换project的默认集群到新集群
• 效果
• 拥有万级别的大规模集群,后期扩容不受限制 • 对用户透明,跨机房流量可控 • 业务方反映这是最轻松的一次业务迁移
• 实现架构
• • • • Worker Scheduler Executor Meta服务
DDL or DML
Worker 1
DML
… Scheduler …
飞天作业
分布式 meta服务
Executor 1
飞天集群
1
逻辑层-双服务架构
接入层 接入层
RESTful协议 Project 1 Project 2
23
算法往往跟业务相关
提纲
• • • 背景与概况 服务架构 关键技术
• 服务管理 • 结语
24
服务管理
• • • • • • 多租户共享集群 基于ACL和Policy的认证授权机制 基于project的业务划分 基于配额的管理 基于历史的优化 多种类型计算作业共享集群
25
总结
• 阿里巴巴数据处理服务(ODPS)
8
接入层-架构
日志工具 在云端(Web IDE) 天网
·· ·
客户端
SDK
Console
RESTful APIs
接入层
数据上传/下载服务
Project 1
HTTP服务
Project 2
用户 中心
逻辑层
ODPS 服务 A
ODPS 服务 B
分布式 meta服务
存储与计算层
接入层-分析
• RESTful风格的接入层带来诸多好处
{"LatestVersion":V1,"Status":{"ClusterA":"V1","ClusterB":"V0"}}
– 当一份数据版本更新后,触发一个跨集群数据复制任务
• 跨集群数据复制
– 表或分区可以配置是否进行跨集群复制(自动或手工) – 流控,优先级
• 直读直写,应对新的跨集群数据依赖,少量任务
– – – – – – – 支持海量数据的离线存储和计算 以RESTful API的方式提供服务 基于飞天分布式平台 支持跨集群(机房)数据共享 支持SQL、MapReduce、MPI、图计算编程框架 支持常用的矩阵运算和数据挖掘算法 支持多租户和基于ACL/Policy的权限控制
我们面对一座数据金矿,就看怎么能挖出更多的 金子,期待有志之士加入阿里数据平台
14
提纲
• • 背景与概况 服务架构
• 关键技术
• 跨集群(机房)数据共享 • 高效SQL引擎 • 矩阵运算和数据挖掘算法库 • 图计算框架 • 服务管理 • 结语
15
跨集群(机房)数据共享(1)
• 为什么要做
• 业务快速增长,单集群扩容受机房容量、飞天规模限制
• 难点
• • • •
—— 按业务project进行划分 数据存储和计算如何划分 —— 引入数据版本 数据动态变化,需要保证数据读取正确性 跨机房带宽如何使用 —— 跨集群数据复制任务,流控 对用户透明 —— 数据存储本来就对用户透明 ODPS 服务(控制集群) Worker/Scheduler/Executor ODPS 服务 分布式 meta服务
• 资源实体
Project 类似DataBase/Schema,用户隔离和访问控制的主要边界 • Table/Partition,数据集合 • UDF/Resource,文件,jar包,py脚本 • Job/Instance,抽象可执行实体和运行实例 User/Role,用于管理用户对Project内实体的访问控制和授权
• 只维护一组运行实例,无状态(状态总是持久化) • 双ODPS服务 • 灰度发布,不停服务轮转升级,failover
• 分布式meta服务
• 使用阿里云OTS分布式存储系统,无需担心空间不够 • 统一名称空间,双服务和多飞天集群对用户透明
13
存储与计算层
• 多个飞天集群组成 • 支持跨集群(机房)数据共享 • 存储
LVS 接入层
RESTful协议
负载均衡
协议处理、用户认证
用户空间管理,Query语法语 义分析以及执行计划生成, 数据对象访问控制 分布式存储和计算
7
逻辑层
存储与计算层
接入层
• 访问ODPS服务的唯一入口,提供SDK和Console • 功能设计
用户认证 RESTful APIs,基于HTTP协议,支持对资源实体的CRUD操作
• Service-Mode
• 常驻服务,预先申请好worker - 减少调度开销 • Shuffle数据不落地,直接写网络 • 假设作业规模m*r,要求r个reduce先起,接收map写的 数据 • 内存文件 • LLVM,减少编译时间
•
•
根据SQL类型和数据量动态决定是否采用ServiceMode方式 未考虑Failover,主要用于开发project和Adhoc数 据分析