亚马逊AWS Amazon EMR(Elastic MapReduce)技术分享_韩小勇

合集下载

亚马逊AWS基于AWS云平台上的实时数据分析最佳实践分享

亚马逊AWS基于AWS云平台上的实时数据分析最佳实践分享1.选择合适的数据处理和存储服务：AWS提供了多种数据处理和存储服务，包括AWS Lambda、Amazon Kinesis、Amazon EMR（Elastic MapReduce）等。

根据数据量和数据处理需求的不同，选择合适的服务来实现实时数据分析。

2.使用AWS Kinesis进行数据收集和流处理：AWS Kinesis是一种可扩展的实时流处理服务，可以用于收集和处理大规模实时数据。

通过使用Kinesis，可以将数据有效地收集和传输到特定的目标，同时也可以对数据进行即时处理和实时分析。

3.使用AWS Redshift进行数据仓库：AWS Redshift是一种快速、可扩展、完全托管的数据仓库服务，可以帮助用户实现高效的数据存储和查询。

在实时数据分析中，将数据存储在Redshift中，可以快速地进行复杂的分析和查询操作。

4.使用AWS Lambda进行异步数据处理：AWS Lambda是一种无服务器计算服务，可帮助用户在不管理服务器的情况下运行应用程序代码。

通过使用Lambda，可以将实时数据处理与其他服务集成，实现异步处理和实时响应。

5.使用AWS Glue进行数据转换和ETL（Extract, Transform, Load）：AWS Glue是一种可视化的数据准备和ETL工具，可以帮助用户将数据从不同的源头提取、转换和加载到目标系统中。

在实时数据分析中，使用Glue可以轻松地处理和转换数据，准备用于进一步分析的数据集。

6.使用AWS QuickSight进行数据可视化：AWS QuickSight是一种快速、互动式的商业智能工具，可以帮助用户轻松地可视化和分析数据。

通过使用QuickSight，可以实时地生成仪表板和报表，以便快速理解和解释数据。

7.使用AWS CloudWatch进行监控和警报：AWS CloudWatch是一种监控和管理服务，可以帮助用户实时地监控各种AWS资源和应用程序。

亚马逊AWS 离线及在线数据实时分析解决方案及最佳实践

数据分析方法
• 离线分析 • 在线分析 • 交互查询
离线分析
交互查询
在线分析
数据分析面对的挑战
面对的问题：数据量
数据源
• 移动设备 • 服务器 • 其它平台
数据量
• 一个事件记录 ~ 1 KB • 500M+ 事件每天 • 500G+ 数据每天 • JSON 格式
数据分析过程
收集
存储
分析
展现
Job
Shared Amazon EMR Cluster
Job
Job
EMR常规分析方法：MapReduce
• 自定义程序
– Java Jar 程序 – Hadoop Streaming
• Java, Ruby, Perl, Python, PHP, R, or C++
Hadoop EMR
Hive & Pig
Amazon Redshift 结合现有BI工具
JDBC/ODBC
使用的驱动程序进行连接
Amazon Redshift
更快的查询性能
https:///benchmark/
在线分析
DynamoDB : 实时汇总
Kinesis
可以轻松添加，减少节点
Getting Started: /gettingstarted/latest/emr/getting-started-emr-overview.html
Long-Running Clusters
Scheduled Jobs
Data Sources
App.4 [Machine Learning]
EMR
数据存储：S3
游戏数据库

AWS大数据架构模式和最佳实践

• 批量分析
– MapReduce, Hive, Pig, Spark
• 流处理
– 微-批量: Spark Streaming, KCL, Hive, Pig – 实时: Storm, AWS Lambda, KCL
流处理
批量分析
交互式分析机器学习
分析
Amazon Machine Learning
Amazon Redshift
Impala
Pig
Streaming
Amazon Kinesis AWS Lambda
Amazon Elastic MapReduce
我应该使用什么流处理技术?
Spark Streaming Apache Storm Amazon Kinesis Client Library
44332211
Shard 1 / Partition 1
44332211
Shard 2 / Partition 2
消费者1
Count of Red = 4
Count of Violet = 4
消费者2
Count of Blue = 4
Count of Green = 4
我应该使用哪个流存储?
Amazon Kinesis
Amazon Kinesis
Amazon DynamoDB
流存储选项
• AWS 托管服务
• Amazon Kinesis → 流 • DynamoDB Streams → 表+流 • Amazon SQS → 队列 • Amazon SNS → 发布/订阅
• 非托管的
• Apache Kafka → 流
Amazon Kinesis
Amazon DynamoDB

DynamoDB和MongoDB分析比较

DynamoDB和MongoDB分析⽐较DynamoDB是Amazon最新发布的NoSQL产品。

本⽂在介绍DynamoDB特性的基础上，将其与SimpleDB、Cassandra和MongoDB进⾏了分析和⽐较。

DynamoDB简介在NoSQL概念⽇益⽕爆的今天，市场上⼜增加了⼀个重量级的NoSQL产品—DynamoDB，它是Amazon AWS于2012年1⽉18⽇发布的。

⼀看到这个名称，很多⼈都会想起2007年Amazon发表的Dynamo论⽂。

⼈们经常将这篇论⽂与Google的BigTable 相提并论，这在当时带来了相当⼤的影响，很多产品都借鉴了Dynamo的思想，⽐如Cassandra。

那什么是DynamoDB呢？按照AWS CTO Werner Vogels的说法：“DynamoDB是⼀个性能好、可靠⾼且具有可扩展性的NoSQL云数据库服务，DynamoDB集15年分布式⾮关系性数据库开发之精粹，⼜通过内部使⽤考验，是AWS团队精⼼打造的产品。

”本⽂将通过DynamoDB的特性、数据模型，以及API来进⾏深⼊的介绍。

从官⽅⽂档来看，DynamoDB有以下⼏个特性。

稳定的性能保证。

为了保证⾼性能，DynamoDB采⽤固态硬盘（SSD）进⾏存储，对于⼀般的请求，DynamoDB在⼗毫秒内就可以完成，⽽且处理请求的速度不会随着数据量的增加⽽减慢。

读/写流量限制预设（Provisioned Throughput）。

这个概念和我们经常接触的按带宽收费⾮常相像，⽤户必须指定对数据库的读/写带宽，Amazon会按⽤户设置的读/写带宽收费。

但与传统的带宽收费不同，⽤户可以随时通过控制台或者API更改数据库的读/写流量的限制。

⾃动扩容。

DynamoDB不会对⽤户的数据规模⼤⼩做任何限制，后台会默默地把⽤户的数据分布到各个机器上去。

强⼀致性。

⽤户可以通过参数指定要读的数据是否需要⼀致性。

这⾥需要注意的是，如果读的数据全是要求强⼀致性的话，那么在设置读流量上限时需要设置成实际读流量的两倍。

aws知识点总结

aws知识点总结AWS（Amazon Web Services）是由亚马逊公司提供的云计算服务平台，通过该平台，用户可以按需获取计算能力、存储、数据库等服务，从而节省成本，提高效率。

AWS提供了众多服务，包括计算、存储、数据库、网络、开发工具、安全和身份、分析、人工智能等，下面将对AWS的一些重要知识点进行总结。

一、计算服务1. EC2（Elastic Compute Cloud）EC2是AWS中最核心的服务之一，它提供了可扩展的虚拟服务器实例，用户可以通过EC2快速获取和启动虚拟服务器。

EC2实例可以根据需要进行弹性伸缩，用户可以根据实际需求随时调整实例的规模和性能。

2. LambdaLambda是AWS提供的无服务器计算服务，用户无需管理服务器，只需上传代码即可运行，Lambda会根据实际请求进行自动扩展。

Lambda支持多种语言，包括Node.js、Python、Java等。

3. ECS（Elastic Container Service）ECS是AWS提供的容器管理服务，用户可以在ECS上运行Docker容器，实现应用程序的快速部署和扩展。

4. EKS（Elastic Kubernetes Service）EKS是AWS提供的托管Kubernetes服务，用户可以在EKS上轻松地运行Kubernetes集群，实现容器化应用程序的部署和管理。

5. Auto ScalingAuto Scaling是AWS提供的自动扩展服务，用户可以根据实际负载情况自动调整EC2实例的规模，确保系统具有良好的稳定性和可用性。

二、存储服务1. S3（Simple Storage Service）S3是AWS提供的对象存储服务，用户可以在S3上存储和检索任意数量的数据，S3具有高可用性和高耐用性，适合存储静态文件、多媒体内容、备份数据等。

2. EBS（Elastic Block Store）EBS是AWS提供的持久化块存储服务，用户可以将EBS卷挂载到EC2实例上，用于存储应用程序数据、数据库、文件系统等。

emr用法

EMR用法
Amazon EMR（Elastic MapReduce）是一种云服务，用于处理大规模的结构化和非结构化数据。

下面是一些常见的EMR用法：
1. 数据处理和分析：EMR可以处理和分析大规模的数据集，包括文本、日志、传感器数据等。

您可以使用EMR来提取、转换和加载（ETL）数据，并使用各种数据处理和分析工具（如Pig、Hive和Spark）来执行复杂的查询和分析。

2. 机器学习和人工智能：EMR支持多种机器学习和人工智能算法，包括Apache Mahout、Apache Spark MLlib和TensorFlow等。

您可以使用EMR来构建和训练机器学习模型，并使用EMR来部署和管理这些模型。

3. 数据仓库和数据湖：EMR可以作为数据仓库和数据湖的替代品，用于存储和处理大量的数据。

您可以使用EMR 来构建数据仓库和数据湖，并使用各种数据处理和分析工具来查询和分析数据。

4. 实时数据处理：EMR支持实时数据处理，可以使用Apache Kafka和Flume等工具来收集和处理实时数据。

您可以使用EMR来构建实时数据处理管道，并使用EMR来处理和分析实时数据。

5. 容器化应用程序：EMR支持使用Amazon ECS（Elastic
Container Service）和Amazon EKS（Elastic Kubernetes Service）来运行容器化应用程序。

您可以使用EMR来构建和管理容器化应用程序，并使用EMR来管理和监控这些应用程序。

总之，EMR是一种功能强大的云服务，可以用于处理和分析大规模的数据集，并支持多种数据处理和分析工具、机器学习和人工智能算法、实时数据处理和容器化应用程序。

GOOGLE云计算与AMAZON云计算对比

GOOGLE云计算与AMAZON云计算对比Google云计算与Amazon云计算对比1：介绍1.1 Google云计算概述Google云计算是由谷歌公司提供的一套云计算服务，旨在帮助企业和个人进行应用程序的开发、存储和托管等操作。

Google云计算提供了丰富的计算资源、存储服务以及大数据处理等功能，是全球最大的云计算运营商之一。

1.2 Amazon云计算概述Amazon云计算是由亚马逊公司提供的云计算平台，称为亚马逊云服务（Amazon Web Services，简称AWS）。

AWS提供了一系列云计算服务，包括计算、存储、数据库、和机器学习等，为企业提供了高度可扩展的云计算基础设施。

2：云计算服务对比2.1 计算服务2.1.1 Google云计算的计算服务Google云计算提供了虚拟机实例（Google Compute Engine）和容器化应用程序托管（Google Kubernetes Engine）等计算服务。

虚拟机实例支持多种操作系统，具有灵活、可扩展的计算能力。

而容器化应用程序托管则提供了更轻量级的部署方式，能够更高效地运行应用程序。

2.1.2 Amazon云计算的计算服务Amazon云计算提供了弹性计算云（Amazon Elastic Compute Cloud，简称EC2）和Lambda无服务器计算等计算服务。

EC2提供了灵活的虚拟机实例，用户可以根据需求选择不同类型的实例。

而Lambda无服务器计算则允许用户无需管理服务器即可运行代码。

2.2 存储服务2.2.1 Google云计算的存储服务Google云计算提供了云存储服务（Google Cloud Storage），用户可以将文件以对象的形式存储在云端，提供高可靠性和高可扩展性。

此外，Google云计算还提供了云数据库（Google Cloud Spanner）和云存储桶（Google Cloud Storage Bucket）等。

亚马逊AWS大数据分析最佳实践

AWS大数据分析最佳实践
郑进佳(Kenny) 解决方案架构师亚马逊AWS
议程
• 什么是大数据？ • 大数据的挑战？
– – – – 数据产生数据收集与存储数据分析与计算数据的展现与分享
• 成功案例 • 问与答
什么是大数据？
大数据应用场景
精准营销
油气分析
及时推荐
生物传感
防病毒欺诈检测
人口统计
SQL客户端/BI工具
JDBC/ODBC
主节点
• 计算节点
– – – – 列式存储并行查询可通过 S3 加载、备份和恢复数据可从 DynamoDB 并行加载数据
载入备份恢复
10 GigE (HPC)
计算节点
计算节点
计算节点
• 支持 SSD • 支持单节点版本
使用Amazon Redshift
成本
1.6 PB 每集群 100 node dw1.8xl (3-yr RI) $180/hr
性能
– 扫描 2.25 万亿行数据花费时间: 14 分钟 – 加载50亿行数据花费时间: 10 分钟 – 回填 1500亿行数据花费时间: 9.75 小时 – Pig Amazon Redshift: 2 天到 1 小时 – 10B 加入到 7亿行中 – Oracle Amazon Redshift: 90 小时 to 8 小时
是否花太多时间管理集群和优化其性能？
EMR的好处
• 容易使用
– 几分钟 V.S. 几周
• 弹性
– 基于工作量弹性扩展集群 – 缓解规划存储和计算容量的痛苦
• Spot 实例
– 70-80% 成本优化
EMR的好处
• 可靠的

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

从HDFS到Amazon S3
hive> create external table temp_user( firstname VARCHAR(64), lastname VARCHAR(64), address STRING, country VARCHAR(64), city VARCHAR(64), state VARCHAR(64), web STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE
容量可变
轻松的增加或者减少集群的容量，匹配计算需求。
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta使用Bootstrap安装更多的应用
https:///awslabs/emr-bootstrap-actions
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta S3做为数据持久存储
• Amaபைடு நூலகம்on S3
– – • 计算和存储分离 99.999999999% 的数据持久性
调整EMR集群的大小或者关闭集群的时候没有数据丢失数据集中存储，供多个集群进行分析更容易在集群中引入新技术
• •
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta充分利用竞价实例
Core Node Task Node
用预期的花费满足SLA
使用按需实例，标准的EC2计价方式
用更低的价钱超越SLA
使用竞价实例，相比标准计价方式最高节省大于80%
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_contaMetadata保证一致性视图且快速的List s3 中的对象
• • List以及Read-after-write一致性快速的list
List的文件数量 100万 10万
无一致性视图时的时间(秒) 147.72 12.70
有一致性视图时的时间(秒) 29.70 3.69
*测试使用单节点集群实例，类型是m3.xlarge.
为什么使用EMR
易于使用
在几分钟内创建一个集群
成本低廉
按小时付费/预留实例/竞价实例
弹性
轻松增加或减少容量
可靠
监控集群，重试失败任务，自动替换性能不佳实例
安全
防火墙/隔离的网络/文件加密
灵活
轻松安装额外应用程序和定制每个集群
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta 's3://hxyhivetest/userrecord/';
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_contalastic MapReduce) - AWS上的Hadoop生态系统
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_contaMR(Elastic MapReduce)技术分享
韩小勇
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta ‘sampledata/userrecord/';
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_contaact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta3加密
(经过客户端加密的对象)
Amazon S3
S3客户端加密 EMRFS
Key提供者 (AWS KMS或用户自己选择的Key提供者)
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta S3作为EMR的存储
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta使用不同的实例构造最优的架构
通用型 m1系列 m3系列
CPU密集 c3系列 cc1.4xlarge cc2.8xlarge 机器学习
内存密集 m2系列 r3系列
磁盘及IO d2系列 i2系列
批处理
Spark以及交互式应用
大容量HDFS
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta3
EMRFS元数据存储在 Amazon DynamoDB
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_conta • 迭代型的作业
– 对一份数据进行重复的处理 – 或者考虑使用Spark&RDD
• I/O密集型的作业
EMRFS使得S3的使用更加容易
• • • •
Read-after-write一致性使用EMRFS Metadata实现更快的Listing. 支持S3的加密对应用层透明 – 只需要读/写到 “s3://…”
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_contaAWS控制台 AWS命令行
或者使用您习惯的SDK :
……
/cn/contact-us/email1/?sc_channel=cn&sc_geo=chna&sc_category=mult&trkCampaign=aws_contaazon S3
hive> create external table temp_user( firstname VARCHAR(64), lastname VARCHAR(64), address STRING, country VARCHAR(64), city VARCHAR(64), state VARCHAR(64), web STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE