亚马逊AWS 基于AWS云平台上的 实时数据分析最佳实践分享

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于AWS云平台上的

实时数据分析最佳实践分享

庄富任

产品拓展, A WS 中國

Business Development Manager

AWS 基于云的完整大数据服务

Glacier

S3

EC2

Redshi5 DynamoDB

EMR

Data P ipeline

实时数据流 |大规模存储|大集群并行计算 Kinesis

采集处理

AWS上的一些大数据客户

大数据挑战

存储 洞察收集 分析

4TB

每天

S3

长期 归档

Glacier

数据 挖掘

H adoop

实时 数据采集

Kinesis

数据 仓库

Redshi5

实时数据流处理使用案例

§▪ 对于广告平台

§▪ 用户在互联网上的行为能实时的影响其广告推送内容,在用户下一次刷新页面时,就提供给用户新的广告

§▪ 对于电商

§▪ 用户的每一次收藏、点击、购买行为,都能被快速的归入他的个人模型中,立刻修正商品推荐

§▪ 对于社交网络

§▪ 用户社交图谱的变更和发言等行为,也能快速被反映在他的好友推荐、热门话题提醒上。

大数据

收集和存储

收集 分析

存储 洞察

典型的实时动态数据流处理架构和工作流程

Client/Sensor

Aggregator

ConDnuous P rocessing

Storage

AnalyDcs + R eporDng

1)数据采集

负责从各节点上实时采集数据

例如选用flume

(cloudera) 来实现

例如使用 Apache 开源工具架构

2)数据接入

由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件来作为缓冲 例如选用apache的kafka (LinkedIn) 3)流式计算

对采集到的数据进行实时分析

例如选用apache 的storm (twitter)

§ Amazon EC2 服务器上搭建收集器 (Kafka, Fluentd, Scribe 和 Flume

等)

从多个来源 汇集数据

区域

可用区 A

EC2

§▪ 客户端无法发送数据到端点 (数据收集器可靠性?) §▪ 无法立即消化大量併发事件 (数据收集器吞吐量

?)

从多个来源 汇集数据

区域

可用区 A

EC2

数据采集

高度 伸缩

可靠

从多个来源

汇集数据 区域

可用区 A EC2 可用区 B

EC2

载入数据 S3 存储在本地磁盘

容量?

持久性?

存储 并行数据

加载到S3 S3

Simple S torage S ervice (S3)

高度可扩展无限制容量的对象存储

每个对象存储达 1 b yte 至 5TB 容量

99.999999999% 持久性 从多个来源

汇集数据 区域 可用区 A

EC2

可用区 B

EC2

Amazon K inesis 实时数据流处理 §▪ 

实时数据采集, 摄入, 传输 §▪ 

处理实时动态数据流 §▪ 

并行写入写出 §▪ 

支持数据输出到不同存储目的地

S3 Amazon Kinesis

Hadoop EMR

数据仓库

Redshi> DynamoDB

D ata

S ources

App.4 [Machine L earning]

A W S E n d p o i n t App.1 [Aggregate & D e -­‐Duplicate]

D ata S ources Data S ources

D ata S ources App.2 [Metric

E xtracDon]

S3

DynamoDB

Redshift App.3 [Sliding W indow A nalysis]

D ata S ources Availability

Zone Shard 1 Shard 2 Shard N Availability Zone Availability

Zone Amazon K inesis 实时数据流处理

数据流

Shard 分片

§▪ 分片是 Amazon K inesis 数据流的基本吞吐量单位 §▪ 一个分片提供

§▪ 1MB/秒数据输入(write)容量 = 1, 000 T PS

§▪ 2MB/秒数据输出(read)容量 = 5 T PS

实时数据流摄入

实时玩家

动作

Amazon Kinesis

Hay D ay 《卡通农场》

Shard 1 Shard 1

Shard 1

Shard N

§▪ 简单的调用 PUT 命令动态摄入数据 §▪ 每个分片 (Shard) 可摄入每秒1MB 数据(高达1000 T PS) §▪ 不停机状态下动态扩展 Shard 数量

相关文档
最新文档