DTCC2014：爱奇艺在Hadoop生态中大数据平台架构与实践-孙琦_IT168文库

合集下载

DTCC2014：通过SQLServer2014获得突破式的高性能平台_IT168文库

1,000,000
100,000
10,000
也
vsDy 1,000 100
10
CPU性能基本持平
10,000,000
0 6 6
L 6 6
Z m 寸寸 S 66666 66666
9 6 6
Z 6 6
8 6 6
6 6 6
。。凭
0 0 0
LZ OO OO
g o z
SZ OO OO
8 0
6一 0耳 0
LLLT1 E I 1 I 1 1 ZNZ ZZRZ
板进行监控
主节点
次节点2 运行BI负载
关键业务支持
高级支持
高优先级24x7问题解决获取高级技术培训
支持高级关键业务
解决方案验证与架构审阅现场解决方案工程专家获得来自微软的快速响应
ism 整个生态的系统包含
JSm 70,
000+
SQL Server 合作伙伴
BMW ->LG Chem ♦録體噂「 S
支扌寺 Windows Server Core
■ SQL Server ■ Oracle ■ MySQL ■ DB2
*美国国家标准与技术研究院数据库漏洞汇总报告4/17/2013，市场份额数据来tl IDC 2013
扩展性
计算扩展
高达640颗逻辑处理器每虚拟机64颗vCPU 每虚拟机1TB内存每群集 64个节点
.Microsoft
通过 SQL Server 2014
获得突破式的高性能；平台
Jack Tang
微软全球数据平台业务总监
Cloud OS 愿景
微软对现代化企业统一平台的愿景
转换数据中心释放任何数据的洞察力促进以人为中心的IT 提供现代化业务应用

基于Hadoop的大数据分析与处理平台设计与优化

基于Hadoop的大数据分析与处理平台设计与优化一、引言随着互联网的快速发展和信息化时代的到来，大数据已经成为当今社会中不可或缺的重要资源。

大数据的快速增长给传统的数据处理和分析带来了挑战，因此建立高效、稳定的大数据分析与处理平台显得尤为重要。

Hadoop作为目前最流行的大数据处理框架之一，具有良好的可扩展性和容错性，被广泛应用于大数据领域。

本文将探讨基于Hadoop的大数据分析与处理平台的设计与优化。

二、Hadoop简介Hadoop是一个开源的分布式计算平台，由Apache基金会开发，主要用于存储和处理大规模数据。

Hadoop框架包括Hadoop Distributed File System（HDFS）和MapReduce计算模型。

HDFS用于存储大规模数据集，并提供高可靠性、高吞吐量的数据访问；MapReduce是一种编程模型，用于将任务并行分解成小任务并在集群中执行。

三、大数据分析与处理平台设计1. 架构设计在设计基于Hadoop的大数据分析与处理平台时，首先需要考虑整体架构。

典型的架构包括Master-Slave架构，其中Master节点负责协调整个集群的工作，而Slave节点负责存储数据和执行计算任务。

合理设计架构可以提高系统的稳定性和性能。

2. 数据存储在大数据平台中，数据存储是至关重要的一环。

HDFS作为Hadoop的核心组件，具有高容错性和可靠性，适合存储海量数据。

此外，可以考虑使用其他存储系统如HBase、Cassandra等来满足不同场景下的需求。

3. 数据处理数据处理是大数据平台的核心功能之一。

通过MapReduce等计算模型，可以实现对海量数据的高效处理和分析。

同时，可以结合Spark、Flink等技术来加速数据处理过程，提升计算性能。

4. 数据安全在设计大数据平台时，必须考虑数据安全性。

通过权限管理、加密传输等手段保护数据安全，防止数据泄露和恶意攻击。

四、优化大数据分析与处理平台1. 资源调度优化合理配置集群资源是优化大数据平台性能的关键。

基于Hadoop的大数据存储与处理系统设计与实现

基于Hadoop的大数据存储与处理系统设计与实现一、引言随着互联网的快速发展和智能设备的普及，大数据时代已经到来。

海量数据的产生和应用给传统的数据存储和处理方式带来了挑战，传统的关系型数据库已经无法满足大数据处理的需求。

因此，基于分布式计算框架的大数据存储与处理系统成为了当前解决大数据问题的主流方案之一。

Hadoop作为开源的分布式计算框架，在大数据领域得到了广泛应用。

二、Hadoop概述Hadoop是Apache基金会下的一个开源项目，提供了一个可靠、可扩展的分布式系统平台，用于存储和处理大规模数据。

Hadoop主要包括HDFS（Hadoop Distributed File System）和MapReduce两个核心模块。

HDFS用于存储大规模数据集，而MapReduce则用于对存储在HDFS上的数据进行并行处理。

三、Hadoop架构1. HDFS架构HDFS采用主从架构，包括一个NameNode（主节点）和多个DataNode（从节点）。

NameNode负责管理文件系统的命名空间以及客户端对文件的访问操作，而DataNode负责实际存储数据块。

通过这种架构，HDFS实现了高可靠性和高扩展性。

2. MapReduce架构MapReduce是一种编程模型，用于并行计算大规模数据集。

它包括两个阶段：Map阶段和Reduce阶段。

在Map阶段，将输入数据集映射成键值对；在Reduce阶段，对中间结果进行合并和计算得出最终结果。

MapReduce通过将计算任务分解成多个小任务，并在集群中并行执行这些任务来实现高效的数据处理。

四、大数据存储与处理系统设计1. 数据采集与清洗在设计大数据存储与处理系统时，首先需要考虑如何进行数据采集与清洗。

原始数据往往存在格式不统一、含有噪声等问题，需要经过清洗和转换才能被系统有效处理。

2. 数据存储Hadoop提供了高可靠性的分布式文件系统HDFS，可以满足大规模数据存储的需求。

Hadoop技术的基础原理和实践

Hadoop技术的基础原理和实践近年来，随着数据规模的不断增大，传统的关系型数据库已经无法满足海量数据的处理需求，因此大数据技术逐渐成为了当下最为热门的技术领域之一。

而作为大数据技术的代表之一，Hadoop技术已经逐渐成为了企业所必备的技术之一。

本文将介绍Hadoop技术的基础原理和实践。

一、Hadoop技术概述Hadoop是一种分布式的数据处理框架，其最重要的特点是可横向扩展。

Hadoop有两个核心组件：分布式文件系统Hadoop Distributed File System（简称HDFS）和分布式计算框架MapReduce。

HDFS是Hadoop的核心数据存储系统，它使用分布式文件系统的概念来存储海量数据。

Hadoop的HDFS将数据分布到不同的节点上存储，保证了数据的备份和容错能力。

另外一个核心组件MapReduce是一个实现分布式计算的框架，它能将大量的数据分成若干个小的数据块，然后在多台计算机上并行处理。

这种处理方式能有效地提高数据处理的效率以及减少资源消耗。

二、Hadoop技术的基本原理1.数据存储Hadoop的数据存储可以使用HDFS进行分布式存储。

HDFS将数据分为若干块，每个数据块默认为128MB。

HDFS将这些数据块分别分布到各个数据节点中存储，保证了数据的可靠性和安全性。

2.数据处理Hadoop使用MapReduce来实现数据处理。

其工作流程如下：① Map阶段Map阶段是指将原始数据进行切割和转化，转化成可供Reduce 处理的中间结果。

通常需要在Map阶段定义具体的Map函数来描述数据的输入、映射和输出。

② Reduce阶段Reduce阶段是指对Map的输出结果进行处理的阶段。

Reduce 函数能够对Map函数的输出进行整合来生成最终结果。

3.分布式计算Hadoop的分布式计算能力是通过Hadoop集群中各个节点之间的协调和通信来实现的。

在Hadoop中每个任务都会由一个或多个Worker节点运行，他们可以分别处理不同的数据块，之后再将结果汇总到一起。

大数据平台的架构设计与部署

大数据平台的架构设计与部署随着互联网和移动互联网的普及，大数据时代已经来临。

大数据平台成为企业和政府机构日常工作中不可或缺的一部分，它可以帮助企业和机构提高工作效率、优化流程、降低成本和风险等。

然而，要实现一个高效稳定的大数据平台，需要经过严密的架构设计和精心的部署。

一、大数据平台架构设计大数据平台的架构设计主要包括硬件架构、软件架构和网络架构。

其中，硬件架构包括服务器和存储设备的选择；软件架构涉及到大数据处理框架的选择和配置；网络架构包括网络拓扑和传输协议的选择。

下面分别介绍一下这些内容。

1、硬件架构：在选择服务器和存储设备时，需要考虑数据量大小、数据处理速度、数据安全和稳定性等因素。

通常情况下，服务器可以选择高主频、高核数的CPU和大内存、高速度的硬盘；存储设备可选择高速度、高稳定性的硬盘和SSD。

此外，为了提高系统的可靠性和扩展性，可以采用分布式存储方案，将数据分散存储在多个存储设备中。

2、软件架构：在软件架构的选择上，需要根据数据处理需求选择适合的大数据处理框架。

例如，实时流数据处理可以采用Apache Storm；批处理数据可以使用Apache Hadoop。

此外，为了提高数据处理速度，可以采用Spark、Impala和Hive等内存计算框架。

3、网络架构：在网络架构的设计上，需要考虑网络拓扑的选择和传输协议的配置。

可以采用星型、环形、总线型、树型和混合型等多种拓扑方式。

在传输协议的选择上，可以选择TCP/IP、HTTP、REST、SOAP等协议，还可以采用专用的数据传输协议，例如HDFS、MapReduce、YARN和HBase等。

二、大数据平台部署在设计完大数据平台的架构之后，需要进行部署。

大数据平台的部署分为服务器物理部署和软件部署两个阶段。

下面对这两个阶段进行详细介绍。

1、服务器物理部署：服务器物理部署包括服务器机箱的安装、电源线和网络线的连接、服务器机箱的风扇、电源和硬盘等部件的安装等。

爱奇艺移动业务后台系统架构设计

业务需求大量涌入，研发疲于应付，没有精力进行架构设计与代码重构，质量急剧下降
客户端APP版本占比
2014 - 化整为零
两个原则：
• 按照业务模块自上而下垂直拆分 • 引入接口版本概念进行持续迭代
改造成果：
客户端APP
• 系统从1个拆分成了首页、播放、频道页、会员、搜索等6个功能独立的子模块 • 代码工程从1个拆分为6个 • 接口个数从3个拆分为30+个 • 代码中“超级类”消失不见 • Redis缓存从1个大集群拆分为5个小集群
爱奇艺移动业务后台系统架构设计
• • •
后台架构演进的必经之路
应对流量洪峰的三板斧后台架构设计的发展思考
PART ONE
后台架构演进的必经之路
一个互联网产品的生命周期
孵化期成长期成熟期衰退期
奇点技术成熟度
业务成熟度
快速试错，基础产品功能完善；系统架构尽可能简单，功能快速上线
Gap
2016 - “微”服务化
微服务！= RPC ！= Spring boot ！= 容器 && 有成本
采取的策略：
• 有节制的进行基础服务的抽取 • 有节制的引入新的技术与框架
成本
收益
微服务
2017+ - 平台之路
APP配置中心
代码抽取成通用的SDK，提高复用度，如：缓存组件、熔断组件、HTTP组件等移动APP的通用管理能力，包括：灰度、升级、热修复、开关控制、版本管理等
案例数据：
业务模块A 接口V1.0 业务模块B 接口V1.0 业务模块A 接口V2.0 业务模块B 接口V2.0
• 首页接口2.0升级改造后，接口参数从60多个精简到20+个，返回数据包大小较少了 50%，接口响应时间缩短了一半

Hadoop进阶应用与实践

Hadoop进阶应用与实践随着大数据时代的到来，Hadoop作为现代大数据处理技术的代表，越来越受到关注和应用。

然而，Hadoop作为一个分布式处理框架，使用起来并不简单。

本文从Hadoop的进阶应用角度出发，讨论在实践应用中，如何更好地利用Hadoop进行分布式大数据处理。

一、优化Hadoop集群的性能在使用Hadoop集群进行大数据处理时，性能的优化显得尤为关键。

在Hadoop集群中，我们需要对每个节点的硬件性能和操作系统等进行优化调整。

首先，对于节点的硬件性能，我们可以通过增加内存和CPU、使用更快的硬盘以及网络等方式来提升节点的性能。

其次，针对操作系统，我们需要对Linux内核参数进行调整，以优化节点性能。

例如，可以合理设置文件系统缓存，使得文件系统可以更加高效地工作。

此外，对于Hadoop的配置，我们也可以通过调整参数来优化性能。

例如，可以合理设置HDFS块大小，以提高HDFS的读写速度。

二、使用Hive进行数据分析Hive是Hadoop生态系统中的一个数据存储和分析工具，可以将大数据存储在HDFS上，并通过SQL语言来查询和处理数据。

相比于原生的Java编程，使用Hive进行数据分析可以使得工作更加高效。

在使用Hive进行数据分析时，我们需要定义Hive表并导入数据。

然后，就可以通过类似SQL的查询语句来进行数据分析和处理。

此外，我们还可以通过在查询语句中使用特定的函数来扩展Hive的功能，从而满足更多的需求。

三、使用Spark进行大数据处理Spark是一个快速、通用的数据处理引擎，可以处理大规模数据集。

与Hadoop的MapReduce相比，Spark具有更高的处理速度和更丰富的API。

因此，在一些大型数据处理场景下，Spark已经成为Hadoop的重要替代品之一。

在使用Spark进行大数据处理时，我们需要定义Spark的上下文，通过API来操作数据集。

Spark的API非常丰富，包括许多基本操作和高级操作。

如何利用Hadoop进行大数据分析

如何利用Hadoop进行大数据分析引言随着互联网的迅猛发展和信息技术的逐渐成熟，大数据成为了各行各业的热门话题。

大数据分析是发现数据中的模式、关联、趋势以及知识的一个过程，对于企业来说，大数据分析可以帮助其更好地了解市场和客户需求，提高决策的准确性和迅速性。

Hadoop作为一个优秀的大数据处理平台，被广泛应用于大数据分析领域。

本文将介绍如何利用Hadoop进行大数据分析，并按如下章节展开阐述。

章节1: Hadoop介绍1.1 什么是Hadoop1.2 Hadoop的特点和优势1.3 Hadoop生态系统介绍章节2: 大数据分析基础2.1 大数据分析的定义和意义2.2 大数据分析的挑战和难点2.3 大数据分析的常用技术和方法章节3: Hadoop大数据分析架构3.1 Hadoop分布式文件系统(HDFS)3.2 Hadoop MapReduce计算模型3.3 Hadoop生态系统中与大数据分析相关的组件章节4: 利用Hadoop进行大数据处理4.1 数据采集与清洗4.2 数据存储与管理4.3 数据处理与计算4.4 数据可视化与报告章节5: Hadoop大数据分析实战案例5.1 电商行业中的用户行为分析5.2 医疗行业中的患者数据挖掘5.3 金融行业中的风险管理分析章节6: Hadoop大数据分析的发展趋势6.1 实时大数据分析的需求6.2 AI与大数据分析的结合6.3 多云和混合云环境下的大数据分析结论Hadoop作为一个强大的大数据处理平台，在大数据分析领域具有广泛的应用价值。

本文从介绍Hadoop的基本概念和特点开始，然后阐述了大数据分析的基础知识，接着详细介绍了Hadoop在大数据分析中的架构和相关组件。

在此基础上，本文还详细讲解了如何利用Hadoop进行大数据处理，并给出了一些实战案例。

最后，本文还展望了Hadoop大数据分析的发展趋势。

相信读者通过本文的学习，能够对如何利用Hadoop进行大数据分析有更加全面的认识和理解。

Hadoop在企业级应用中的最佳实践

Hadoop在企业级应用中的最佳实践随着大数据时代的到来，企业面临着海量数据的处理和分析挑战。

Hadoop作为一种开源的分布式计算框架，已经成为企业级应用中的重要工具。

本文将探讨Hadoop在企业级应用中的最佳实践，帮助企业更好地利用这一技术来解决数据处理和分析的问题。

一、构建可靠的数据存储系统在企业级应用中，数据的可靠性是至关重要的。

Hadoop的分布式文件系统HDFS可以提供高可靠性的数据存储。

企业应该合理规划HDFS的架构，确保数据的备份和冗余，以防止数据丢失。

同时，定期进行数据备份和恢复测试，以确保数据的完整性和可用性。

二、优化数据处理性能Hadoop的核心是MapReduce计算模型，企业应该针对自身的数据处理需求进行性能优化。

首先，合理规划集群的规模和配置，根据数据量和计算需求调整节点数量和硬件配置。

其次，优化MapReduce作业的调度和任务分配，合理分配计算资源，提高作业的并行度和执行效率。

此外，企业还可以通过数据压缩、数据分区等技术手段来减少数据的传输和处理时间，提高整体的数据处理性能。

三、实现数据安全和权限控制在企业级应用中，数据的安全性是不可忽视的。

Hadoop提供了一些安全机制，如Kerberos身份验证和访问控制列表（ACL），可以帮助企业实现数据的安全管理。

企业应该合理配置Hadoop集群的安全策略，限制用户的访问权限，防止未授权的数据访问和操作。

此外，企业还可以使用加密技术来保护敏感数据的传输和存储，提高数据的安全性。

四、整合其他工具和技术Hadoop作为一个生态系统，与其他工具和技术的整合可以进一步提升企业级应用的效能。

例如，企业可以使用Apache Hive来进行SQL查询和数据分析，使用Apache Spark来进行实时数据处理和机器学习，使用Apache Kafka来实现高可靠性的数据流处理。

通过整合这些工具和技术，企业可以更好地利用Hadoop来解决复杂的数据处理和分析问题。

大数据Hadoop学习之搭建Hadoop平台（2.1）

⼤数据Hadoop学习之搭建Hadoop平台（2.1）关于⼤数据，⼀看就懂，⼀懂就懵。

⼀、简介 Hadoop的平台搭建，设置为三种搭建⽅式，第⼀种是“单节点安装”，这种安装⽅式最为简单，但是并没有展⽰出Hadoop的技术优势，适合初学者快速搭建；第⼆种是“伪分布式安装”，这种安装⽅式安装了Hadoop的核⼼组件，但是并没有真正展⽰出Hadoop的技术优势，不适⽤于开发，适合学习；第三种是“全分布式安装”，也叫做“分布式安装”，这种安装⽅式安装了Hadoop的所有功能，适⽤于开发，提供了Hadoop的所有功能。

⼆、介绍Apache Hadoop 2.7.3 该系列⽂章使⽤Hadoop 2.7.3搭建的⼤数据平台，所以先简单介绍⼀下Hadoop 2.7.3。

既然是2.7.3版本，那就代表该版本是⼀个2.x.y发⾏版本中的⼀个次要版本，是基于2.7.2稳定版的⼀个维护版本，开发中不建议使⽤该版本，可以使⽤稳定版2.7.2或者稳定版2.7.4版本。

相较于以前的版本，2.7.3主要功能和改进如下： 1、common： ①、使⽤HTTP代理服务器时的⾝份验证改进。

当使⽤代理服务器访问WebHDFS时，能发挥很好的作⽤。

②、⼀个新的Hadoop指标接收器，允许直接写⼊Graphite。

③、与Hadoop兼容⽂件系统（HCFS）相关的规范⼯作。

2、HDFS： ①、⽀持POSIX风格的⽂件系统扩展属性。

②、使⽤OfflineImageViewer，客户端现在可以通过WebHDFS API浏览fsimage。

③、NFS⽹关接收到⼀些可⽀持性改进和错误修复。

Hadoop端⼝映射程序不再需要运⾏⽹关，⽹关现在可以拒绝来⾃⾮特权端⼝的连接。

④、SecondaryNameNode，JournalNode和DataNode Web UI已经通过HTML5和Javascript进⾏了现代化改造。

3、yarn： ①、YARN的REST API现在⽀持写/修改操作。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Serve Server r
Storage Service
Add/Delete Add/Delete
案例 – 基于虚拟化Storm应用
• Storm – 实时广告故障分析
Redis Bolt A Kafka 集群 KafkaSpout Bolt B Openstack Bolt Output Dashboard
爱奇艺
• 成绩：2014年1月以来，爱奇艺PPS，已经连续2月日均覆盖、月度覆盖、月度时长和人均月度时长均排名第1。
爱奇艺
Agenda
• • • • • • 爱奇艺 Hadoop生态@爱奇艺部署架构运营问题相关开发
Hadoop生态@爱奇艺
• • • • • • 与2010年8月开始搭建，最初只有50台机器目前已经具有一定规模，且在迅速扩容多机房部署，专线互联涵盖Apache Hadoop生态的所有主要组件物理机集群与虚机集群共存的部署模式公共集群和专属集群共存的运营模式
Hadoop生态@爱奇艺
• 处理数据量：~20PB • 日处理Job数：100000+ • 服务项目组：搜索、广告、推荐、日志分析、BI等。 • 版本：CDH4.X 还没完全进入Hadoop2.0时代
Agenda
• • • • • • 爱奇艺 Hadoop生态@爱奇艺部署架构运营问题相关开发
– 定制监控系统
运营
• 审计
– 对项目组的资源使用进行货币化审计
运营
• 云路 – 统一运营入口
– 资产管理 – 服务自动化部署 – 服务监控 – 审计 – 报表
Agenda
• • • • • • 爱奇艺 Hadoop生态@爱奇艺部署架构运营问题相关开发
问题
• HDFS HA
– HDFS-4591：HA clients can fail to fail over while Standby NN is performing long checkpoint – HDFS-5080：Bootstrap Standby not working with QJM when the existing NN is active – HDFS-3752：BOOTSTRAPSTANDBY for new Standby node will not work just after saveNameSpace at ANN in case of BKJM
部署架构
• 爱奇艺Hadoop生态图 • 功能回顾 • 案例
爱奇艺Hadoop生态图
业务层搜索批处理安全监控 Hive
Mapreduce
广告
推荐实时计算 Storm HDFS
日志分析
…. NOSQL
Spark
云图 HBase
规范审计
Mesos / Openstack
日志数据
视频元数据
Q&A
相关开发
• 云图
– 各种NOSQL的数据实时备份
相关开发
• 云图
– 统一数据转换模式
– 容灾：预定义Hadoop Job，灾难时，数据快速恢复
将来计划
• • • • • 增加HDFS Erasure Code的支持支持Kerberos 进入Hadoop 2.0，实现多框架对资源的共享统一MR/Spark/Storm作业提交界面深度整合Openstack、Mesos与Hadoop生态
爱奇艺在Hadoop生态中大数据平台架构与实践
爱奇艺技术产品中心孙琦
Agenda
• • • • • • 爱奇艺 Hadoop生态@爱奇艺部署架构运营问题相关开发
Agenda
• • • • • • 爱奇艺 Hadoop生态@爱奇艺部署架构运营问题相关开发
爱奇艺
• 诞生：成立于2010年4月 • 在一起：2013年5月爱奇艺与PPS合并 • 月独立访问用户4+亿
案例 – Hadoop一般应用
• HBase - 搜索
Region 抓取数据清洗过滤 Region …….. Region Region 内部数据 Map Map Map Map Map Reduce Reduce 索引 Reduce
案例 – Hadoop一般应用
• HBase - 搜索
• HBase的天然应用场景 • 每天几个时间段运行定时启动MR作业建立索引 • 数据分布状况影响着MR的性能
问题
• HBase RS Crash
– HBASE-5607：Implement scanner caching throttling to prevent too big responses – HBASE-1996：Configure scanner buffer in bytes instead of number of rows – HBASE-2214：Do HBASE-1996 -- setting size to return in scan rather than count of rows -properly
Agenda
• • • • • • 爱奇艺 Hadoop生态@爱奇艺部署架构运营问题相关开发
相关开发
• Hadoop/HBase监控系统 • Job日志分析系统 • 云图
相关开发
• Hadoop/HBase监控系统
– 聚合了运行日志数据、Metrics – 友好的前端展现
相关开发
• Hadoop/HBase监控系统
网络或目标集群不可用
HBase Cluster A
网络或服务恢复后，同步继续
HBase Cluster A HBase Cluster B
X
HBase Cluster B
功能回顾
• 已经跨机房在多个HBase集群之间配置 • 数据延迟在毫秒级 • 为业务组提供了跨机房数据共享的条件 • 几次的网络故障已经证明了该机制的可靠性
问题
• Jobtracker Memory Leak
– MAPREDUCE-5351：JobTracker memory leak caused by CleanupQueue reopening FileSystem – MAPREDUCE-5508：JobTracker memory leak caused by unreleased FileSystem objects in JobInProgress#cleanupJob
Agenda
• • • • • • 爱奇艺 Hadoop生态@爱奇艺部署架构运营问题相关开发
运营
• 流程
– 服务上线管理 – 服务使用申请 – 报障管理
运营
• 安全控制
– 访问安全
• 简单用户授权 • 入口机授权
– 数据安全
• 访问审批 • 安全审计
运营
• 监控报警
– 常规监控
• Zabbix，Nagios，Ganglia
功能回顾
• Hadoop：HDFS HA
功能回顾
• HBase Replication
Replication Mode • Master-Slave • Master-Master • Cyclic Replication
功能回顾
• HBase Replication专为容灾设计，可靠性如何？
案例 – 基于Mesos的云端应用
• Spark – 日志分析
Mesos 实时数据 Kafka HBase Redis Flume
案例 – 基于Mesos的云端应用
• Spark – 日志分析
– 对Mesos-Spark Executor进行了改进 – 处理能力相比较与Hadoop有了很大提升 – 基于Mesos的部署提高了集群资源利用率 – 相关Mesos的patch已经提交给了社区
• 定制了TableInputFormat，均衡Map任务的Input
案例 –虚拟化应用
• 基于Openstack的弹性混合云架构
Usage Scenarios: UGC/PGC/Video Edit/Search/Recommend
OpenStack
(Mesos)
ServerSຫໍສະໝຸດ rverServer案例 – 基于虚拟化Storm应用
• Storm – 实时广告故障分析
– 处理能力：最高QPS ~100W（另一个业务最高可达150W） – 处理高峰时期一般在晚上 – 部署在Openstack生态系统上，提供了一定的弹性计算能力
• 空闲时集群虚机资源可提供给其他服务使用，如消息系统，以及一些内部系统等
抓取数据
其他数据源
爱奇艺Hadoop生态图
数据格式：ProtoBuf、JSON为主，统一数据定义，以便数据共享批处理以Hive作业为主 Storm、Spark实时计算资源托管在Mesos或Openstack虚机之上大部分HBase应用是为离线计算服务作业提交管理：入口机 + 专用提交系统系统监控：传统监控 (Nagios, Zabbix) + Metrics数据聚合成本审计：货币化度量项目组开销