常见的七种Hadoop和Spark项目案例

合集下载

Java大数据处理实践:使用Hadoop和Spark进行分析

Java大数据处理实践:使用Hadoop和Spark进行分析

Java大数据处理实践:使用Hadoop和Spark进行分析引言:随着互联网的迅猛发展,大数据已经成为当今社会中不可忽视的一部分。

海量的数据需要被处理和分析,以从中获得有价值的信息。

而Java作为一种广泛应用于企业级应用的编程语言,也在大数据处理中发挥着重要的作用。

本文将介绍如何使用Hadoop和Spark这两个流行的开源框架,来进行Java大数据处理的实践。

一、Hadoop的介绍和使用1.1 Hadoop的背景Hadoop是Apache基金会的一个开源项目,它提供了一个可靠、可扩展的分布式计算框架,用于存储和处理大规模数据集。

Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)和基于MapReduce模型的计算框架。

1.2 Hadoop的安装和配置要使用Hadoop进行大数据处理,首先需要安装和配置Hadoop。

可以从Hadoop官方网站上下载最新的稳定版本,并按照官方文档进行安装和配置。

1.3 Hadoop的基本操作一旦安装和配置完成,就可以使用Hadoop进行大数据处理了。

Hadoop提供了一些基本的命令行工具,如hadoop fs用于操作HDFS上的文件,hadoop jar用于提交MapReduce作业等。

1.4 Hadoop的应用实例以一个简单的WordCount程序为例,介绍Hadoop的应用实例。

首先需要编写一个MapReduce程序,用于统计文本中每个单词的出现次数。

然后使用hadoop jar命令将程序打包成jar文件,并提交到Hadoop集群上运行。

最后,通过hadoop fs命令查看运行结果。

二、Spark的介绍和使用2.1 Spark的背景Spark是另一个流行的大数据处理框架,它提供了一个快速、通用、可扩展的集群计算系统。

与Hadoop相比,Spark具有更快的速度和更强大的功能。

2.2 Spark的安装和配置要使用Spark进行大数据处理,首先需要安装和配置Spark。

Spark大数据处理框架解读与实践案例

Spark大数据处理框架解读与实践案例

Spark大数据处理框架解读与实践案例随着大数据应用的不断增长,高效的大数据处理框架成为了企业和研究机构的关注焦点。

Spark作为一种快速、通用的大数据处理框架,已经成为了业界的热门选择。

本文将对Spark进行深入解读,并通过一个实践案例来展示其强大的大数据处理能力。

Spark是一个基于内存计算的大数据处理框架,由于其强大的计算引擎和丰富的功能,成为了大数据处理领域的佼佼者。

与传统的MapReduce框架相比,Spark 具有以下几个显著优势:首先,Spark充分利用内存计算,大大提高了处理速度。

传统MapReduce框架需要将数据存储在磁盘上,而Spark将数据存储在内存中,从而避免了频繁的I/O 操作,极大地提高了计算效率。

其次,Spark支持多种语言,包括Java、Scala和Python等,使得开发者可以根据自己的偏好和实际应用场景选择最合适的编程语言。

同时,Spark提供了丰富的API和库,如Spark SQL、Spark Streaming和MLlib等,使得开发者可以在同一框架下完成各种不同类型的大数据处理任务。

另外,Spark还支持交互式查询和实时流处理。

通过Spark的交互式Shell,开发者可以快速地进行数据查询和分析,对于业务场景下需要即时响应的数据处理需求非常有用。

而Spark Streaming则提供了实时流处理的功能,使得开发者可以对即时数据进行流式处理和分析。

为了更好地理解Spark的强大能力,我们接下来将通过一个实践案例来演示其在大数据处理中的应用。

假设我们要对一个电子商务网站的用户行为数据进行分析,以了解用户的购买行为和喜好。

首先,我们需要从网站的服务器日志中提取所需的数据。

通过Spark 的强大文件读取功能,我们可以快速地读取和处理大量的日志文件。

接下来,我们可以使用Spark的数据处理和分析功能对提取到的日志数据进行清洗和转换。

比如,我们可以筛选出某一时间段内的用户购买记录,并进行聚合分析,以确定最受欢迎的商品和购买次数最多的用户。

spark数据分析案例

spark数据分析案例

spark数据分析案例Spark数据分析案例。

在大数据时代,数据分析已经成为企业决策的重要依据。

而Apache Spark作为当前最流行的大数据处理框架之一,其强大的数据处理能力和丰富的API库,使得它成为了数据分析领域的瑞士军刀。

本文将通过一个实际的案例,介绍如何使用Spark进行数据分析,以及如何利用其强大的功能解决实际问题。

案例背景。

假设我们是一家电商公司的数据分析师,我们需要分析公司近一年的销售数据,以便为公司制定下一步的营销策略和产品规划。

我们手头有两个数据集,一个是包含了每个订单的详细信息,包括订单编号、购买商品、购买数量、购买时间等;另一个是包含了商品信息,包括商品编号、商品名称、商品类别、商品价格等。

我们需要通过对这两个数据集的分析,得出一些有价值的结论。

数据处理。

首先,我们需要将两个数据集加载到Spark中,并进行数据清洗和预处理。

我们需要处理缺失值、异常值,对数据进行去重等操作,以确保数据的准确性和完整性。

同时,我们还需要将两个数据集进行合并,以便后续的分析。

数据分析。

一旦数据准备就绪,我们就可以开始进行数据分析了。

我们可以利用SparkSQL对数据进行查询和统计分析,比如计算每个商品的销售数量、销售额、最畅销的商品类别等。

我们还可以通过Spark的机器学习库对用户的购买行为进行分析,比如预测用户的购买偏好、识别潜在的高价值客户等。

可视化展示。

除了对数据进行深入的统计分析外,我们还可以利用Spark的可视化库将分析结果直观地展示出来。

比如通过绘制销售额的趋势图、不同类别商品的销售对比图等,来帮助决策者更直观地理解数据背后的规律和趋势。

结论和建议。

最后,通过对数据的分析和可视化展示,我们可以得出一些有价值的结论和建议,比如哪些商品类别最受欢迎、哪些时间段销售额最高、哪些用户群体购买力最强等。

基于这些结论,我们可以为公司制定下一步的营销策略和产品规划,比如加大对畅销商品的推广力度、针对高价值客户推出定制化服务等。

《Hadoop应用案例》课件

《Hadoop应用案例》课件
《Hadoop应用案例》PPT课件
# Hadoop应用案例 本PPT将介绍Hadoop的应用案例,包括以下内容: - Hadoop基本概念 - HDFS应用案例 - MapReduce应用案例 - Hadoop生态系统应用案例
什么是Hadoop
Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它具 有高可靠性、高扩展性和高容错性。
总结
以上是Hadoop的应用案例,Hadoop作为一个大数据处理框架,拥有无限的发 展潜力,相信在未来的日子里,Hadoop会发展得越来越好。
2
HBase是一个分布式的NoSQL数据库,用
于实时读写大规模数据。
3
Spark应用案例
4
Spark是一个快速通用的大数据处理引擎, 可用于实时数据分析和机器学习。
Hive应用案例
Hive是一个基于Hadoop的数据仓库工具, 用于进行数据查询和分析。
Pig应用案例
Pig是一个高级数据分析平台,用于提供 简化的数据处理脚本。
通过MapReduce对大量日志数据 进行分析和提取,用于故障排查 和性能优化。
图计算
MapReduce可应用于图算法,如 社交网络分析和路径规划等。
Hadoop生态系统应用案例
Hadoop生态系统包含了许多与Hadoop集成的工具和数据库。以下是一些Hadoop生态系统的应用案例:
1
HBase应用案例
2
2006
Hadoop成为Apache软件基金会的一部分,开始发展壮大。
3
2012
Hadoop 1.0发布,广泛应用于各行各业。
HDFS应用案例
HDFS是Hadoop分布式文件系统,用于存储和管理大规模数据集。以下是一些HDFS的应用案例:

spark应用场景与案例

spark应用场景与案例

spark应用场景与案例Spark应用场景与案例。

Spark作为当前最流行的大数据处理框架之一,具有高速、通用、容错和强大的特点,被广泛应用于各行各业的大数据处理和分析中。

本文将介绍Spark的应用场景及相关案例,以帮助读者更好地了解Spark在实际工作中的应用情况。

1. 金融行业。

在金融行业,大数据处理是至关重要的。

Spark可以帮助金融机构处理海量的交易数据、用户信息和市场数据,进行实时的风险分析、交易监控和推荐系统。

例如,美国的一家大型投资银行利用Spark构建了实时风险管理系统,能够在毫秒级别内处理数十亿条交易数据,并及时发出预警。

2. 零售行业。

零售行业也是Spark的重要应用领域之一。

大型零售商可以利用Spark处理来自各个渠道的销售数据,进行实时的库存管理、销售预测和个性化推荐。

例如,亚马逊利用Spark构建了一个实时的推荐系统,能够根据用户的浏览和购买记录,为其推荐个性化的商品,提高销售转化率。

3. 电信行业。

电信行业的数据量庞大,包括用户通话记录、基站数据、网络流量等。

Spark 可以帮助电信运营商分析用户行为、优化网络资源分配和预防欺诈行为。

中国移动利用Spark构建了一个实时的通话质量监控系统,能够及时发现通话异常和网络故障,提高通信质量。

4. 医疗保健行业。

在医疗保健行业,大数据分析可以帮助医院管理患者信息、优化医疗资源配置和进行疾病预测。

Spark可以处理医疗影像数据、基因组数据和临床数据,帮助医生进行诊断和治疗。

例如,美国的一家医疗科技公司利用Spark构建了一个基于患者数据的个性化治疗平台,能够为医生提供个性化的治疗方案。

5. 互联网行业。

互联网行业是Spark的重要应用领域之一。

大型互联网企业可以利用Spark处理用户行为数据、广告数据和日志数据,进行实时的个性化推荐、广告投放和用户分析。

例如,Facebook利用Spark构建了一个实时的广告投放系统,能够根据用户的兴趣和行为,为其推荐相关的广告,提高广告点击率。

Hadoop,Spark,Flink适用场景与依赖关系

Hadoop,Spark,Flink适用场景与依赖关系

Hadoop,Spark,Flink适⽤场景与依赖关系三⼤分布式计算系统Hadoop适合处理离线的静态的⼤数据;Spark适合处理离线的流式的⼤数据;Storm/Flink适合处理在线的实时的⼤数据。

前⾔Spark,是分布式计算平台,是⼀个⽤scala语⾔编写的计算框架,基于内存的快速、通⽤、可扩展的⼤数据分析引擎。

Hadoop,是分布式管理、存储、计算的⽣态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)。

Hadoop和Apache Spark都是当今蓬勃发展的开源⼤数据框架。

尽管Hadoop和Spark并没有做同样的事情,但是它们是相互关联的。

⼤数据处理⽆处不在Hadoop的需求。

但是,尽管Hadoop具有许多重要的功能和数据处理优势,但它仍存在⼀个主要缺点。

Hadoop的本地批处理引擎MapReduce不如Spark快。

这就是Spark超越Hadoop的优势。

除此之外,当今⼤多数⼤数据项⽬都需要批处理⼯作负载以及实时数据处理。

Hadoop的MapReduce并不适合它,只能处理批处理数据。

此外,当需要低延迟处理⼤量数据时,MapReduce⽆法做到这⼀点。

因此,我们需要在Hadoop之上运⾏Spark。

借助其混合框架和弹性分布式数据集(RDD),可以在运⾏Spark时将数据透明地存储在内存中。

需要Hadoop运⾏SparkHadoop和Spark不是互斥的,可以⼀起⼯作。

没有Spark,就不可能在Hadoop中进⾏实时,快速的数据处理。

另⼀⽅⾯,Spark没有⽤于分布式存储的任何⽂件系统。

但是,许多⼤数据项⽬需要处理数PB的数据,这些数据需要存储在分布式存储中。

因此,在这种情况下,Hadoop的分布式⽂件系统(HDFS)与资源管理器YARN⼀起使⽤。

因此,如果使⽤HDFS在分布式模式下运⾏Spark,则可以通过连接集群中的所有项⽬来获得最⼤的收益。

因此,HDFS是Hadoop在分布式模式下运⾏Spark的主要需求。

精品课件-云计算与大数据-第8章 Hadoop和Spark平台


8.2 Hadoop组成、体系结构和部署
8.2.3 Hadoop部署 3、完全分布式模式 • 完全分布式模式将构建一个Hadoop集群,实现真正的分布式。
其体系结构由两层网络拓扑组成,形成多个机架(Rack), 每个机架会有30~40台的机器,这些机器共享具有GB级别带 宽的网络交换机。 • 在配置Hadoop时,配置文件分为两类: (1) 只 读 类 型 的 默 认 文 件 : core-default.xml 、 hdfsdefault.xml、mapred-default.xml、mapred-queues.xml (2) 定 位 ( site-specific ) 设 置 : core-site.xml 、 hdfssite.xml、mapred-site.xml、mapred-queues.xml
8.2 Hadoop组成、体系结构和部署
8.2.1 Hadoop的组成 3、Flume数据收集工具 • Flume
的海量日志采集、聚合和传输的系统,Flume支持在日志系 统中定制各类数据发送方,用于收集数据;同时,Flume提 供对数据进行简单处理,并写到各种数据接受方(可定制) 的能力。
8.2 Hadoop组成、体系结构和部署 8.2.1 Hadoop的组成
8.2 Hadoop组成、体系结构和部署
8.2.1 Hadoop的组成 1、Sqoop数据库同步工具 • Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方
模块存在,后来为了让使用者能够快速部署,也为了让开发 人员能够更快速的迭代开发,Sqoop独立成为一个Apache项 目。它主要用于在Hadoop与传统的数据库等之间进行数据的 传递,可以将一个关系型数据库(例如:MySQL、Oracle、 Postgres等)中的数据导入到Hadoop的HDFS中,也可以将 HDFS的数据导入到关系型数据库中。

结合Hadoop与Spark的大数据分析与处理技术研究

结合Hadoop与Spark的大数据分析与处理技术研究随着互联网的快速发展和信息化时代的到来,大数据技术逐渐成为各行各业关注的焦点。

在海量数据的背景下,如何高效地进行数据分析和处理成为了企业和组织面临的重要挑战。

Hadoop和Spark作为两大主流的大数据处理框架,各自具有独特的优势和适用场景。

本文将围绕结合Hadoop与Spark的大数据分析与处理技术展开深入研究。

一、Hadoop技术概述Hadoop作为Apache基金会的顶级项目,是一个开源的分布式计算平台,提供了可靠、可扩展的分布式计算框架。

其核心包括Hadoop Distributed File System(HDFS)和MapReduce计算模型。

HDFS是一种高容错性的分布式文件系统,能够存储海量数据并保证数据的可靠性和高可用性;MapReduce则是一种编程模型,通过将计算任务分解成多个小任务并行处理,实现了分布式计算。

在实际应用中,Hadoop广泛用于海量数据的存储和批量处理,例如日志分析、数据挖掘等场景。

通过搭建Hadoop集群,用户可以将数据存储在HDFS中,并利用MapReduce等工具进行数据处理和分析。

然而,由于MapReduce存在计算延迟高、不适合实时计算等缺点,随着大数据应用场景的多样化和复杂化,人们开始寻求更高效的大数据处理解决方案。

二、Spark技术概述Spark是另一个流行的大数据处理框架,也是Apache基金会的顶级项目。

与Hadoop相比,Spark具有更快的计算速度和更强大的内存计算能力。

Spark基于内存计算技术,将中间结果存储在内存中,避免了频繁的磁盘读写操作,从而大幅提升了计算性能。

除了支持传统的批处理作业外,Spark还提供了丰富的组件和API,如Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算库),满足了不同类型的大数据处理需求。

特别是Spark Streaming模块支持实时流式数据处理,使得Spark在实时计算领域具有重要应用前景。

前端大数据实践利用Hadoop与Spark进行数据处理与分析的教程

前端大数据实践利用Hadoop与Spark进行数据处理与分析的教程大数据在现代信息技术中扮演着至关重要的角色,而前端开发人员可以通过利用Hadoop和Spark来进行数据处理和分析,从而更好地满足不断增长的信息需求。

本教程将指导你如何使用Hadoop和Spark进行前端大数据实践。

一、概述随着互联网的迅猛发展,前端应用程序收集到的数据量不断增加。

为了更好地处理和分析这些海量数据,使用Hadoop和Spark是一个明智的选择。

Hadoop是一个优秀的开源框架,可以分布式存储和处理大规模数据集。

而Spark则提供了快速的数据处理和分析能力,能够高效地处理前端收集到的海量数据。

二、环境搭建与配置在开始使用Hadoop和Spark之前,我们需要先搭建和配置相应的环境。

首先,确保你的机器上已经安装了Java开发环境。

然后,下载并安装Hadoop和Spark的最新版本。

根据官方文档配置相关参数,确保Hadoop和Spark可以正常运行。

接下来,创建一个适当的文件夹结构,以便存储和管理你的数据。

三、数据准备在进行数据处理和分析之前,需要准备好相应的数据集。

可以使用Web日志、用户行为数据等前端收集到的数据作为样本。

确保数据集包含足够的样本量和多样性,以便进行准确和有意义的分析。

四、数据预处理在将数据加载到Hadoop和Spark中进行处理和分析之前,需要进行数据预处理。

这一步骤包括数据清洗、去除重复项、处理异常值等。

可以使用Hadoop的MapReduce来实现数据预处理的任务。

五、数据处理与分析一旦数据完成预处理,就可以使用Hadoop和Spark进行数据处理和分析了。

Hadoop的分布式文件系统(HDFS)可以存储海量数据,而Hadoop的MapReduce框架可以进行数据处理和计算。

利用Spark的强大功能,我们可以进行更复杂的数据处理和分析任务,如数据聚合、数据挖掘、机器学习等。

可以编写相应的MapReduce程序或Spark应用程序,使用它们来处理和分析前端收集到的大数据。

Spark大数据技术在电商领域的实际应用案例解析

Spark大数据技术在电商领域的实际应用案例解析随着互联网的迅速发展和大数据技术的逐渐成熟,电商行业已成为当今社会的重要经济支柱。

随之而来的海量数据和复杂的分析需求使得传统的数据处理方法有了极大的局限性。

而Spark作为一种快速、可扩展的大数据处理工具,已经在电商领域得到了广泛应用。

本文将通过分析两个电商领域的实际应用案例,探讨Spark大数据技术在电商行业中的价值与优势。

案例一:用户行为分析用户行为分析是电商行业中重要的一环,它能够帮助企业了解用户的需求和行为习惯,从而优化产品、推广策略、提高用户黏性和购买转化率。

以某电商平台为例,该平台运用Spark技术对用户行为数据进行实时分析和处理。

通过Spark Streaming实现实时数据的接收和处理,平台能够立即捕捉到用户的搜索、点击、购买等行为,并将这些数据实时存储到数据仓库中。

而Spark SQL 则用于对历史数据和实时数据进行联合查询和分析,例如帮助企业了解用户的购买意向、热门商品、用户流失等信息。

通过用户行为分析,该电商平台可以精确把握用户的需求和偏好,进一步进行个性化推荐和精准营销。

同时,还可以帮助企业发现潜在的市场机会和问题,提高销售额和用户满意度。

案例二:商品推荐系统商品推荐系统是电商行业中的重要一环,它能够根据用户的历史行为和兴趣偏好,向用户推荐最合适的商品,提高用户购买转化率和用户满意度。

以某电商平台为例,该平台运用Spark技术构建了一个实时的商品推荐系统。

系统首先通过Spark的机器学习库(MLlib)对用户的历史行为数据进行训练和建模,提取用户的兴趣标签和商品相关性。

然后,通过Spark Streaming实时获取用户的行为数据,并将实时数据与历史数据进行联合分析,计算用户对不同商品的喜好程度和购买概率。

最后,根据计算得出的结果,系统向用户推荐最符合其兴趣和购买概率最高的商品。

通过商品推荐系统,该电商平台能够提高用户购买转化率和用户满意度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

常见的七种Hadoop和Spark项目案例
如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。

有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。

如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。

具体的实施可能有所不同,但根据我的经验,它们是最常见的七种项目。

项目一:数据整合
称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。

这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。

有时,这是成为一个“数据驱动的公司”的第一步;有时,或许你仅仅需要一份漂亮的报告。

“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。

未来,HBase和Phoenix在大数据整合方面将大展拳脚,打开一个新的局面,创建出全新的数据美丽新世界。

销售人员喜欢说“读模式”,但事实上,要取得成功,你必须清楚的了解自己的用例将是什么(Hive模式不会看起来与你在企业数据仓库中所做的不一样)。

真实的原因是一个数据湖比Teradata和Netezza公司有更强的水平扩展性和低得多的成本。

许多人在做前端分析时使用Tabelu和Excel。

许多复杂的公司以“数据科学家”用Zeppelin或IPython
笔记本作为前端。

项目二:专业分析
许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。

这些往往是令人难以置信的特定领域,如在银行领域的流动性风险/蒙特卡罗模拟分析。

在过去,这
种专业的分析依赖于过时的,专有的软件包,无法扩大数据的规模经常遭受一个有限的功能集(大部分是因为软件厂商不可能像专业机构那样了解的那么多)。

在Hadoop和Spark的世界,看看这些系统大致相同的数据整合系统,但往往有更多的HBase,定制非SQL代码,和更少的数据来源(如果不是唯一的)。

他们越来越多地以Spark为基础。

项目三:Hadoop作为一种服务
在“专业分析”项目的任何大型组织(讽刺的是,一个或两个“数据整理”项目)他们会不可避免地开始感觉“快乐”(即,疼痛)管理几个不同配置的Hadoop集群,有时从不同的供应商。

接下来,他们会说,“也许我们应该整合这些资源池,”而不是大部分时间让大部分节点处于资源闲置状态。

它们应该组成云计算,但许多公司经常会因为安全的原因(内部政治和工作保护)不能或不会。

这通常意味着很多Docker容器包。

我没有使用它,但最近Bluedata(蓝色数据国际中心)似乎有一个解决方案,这也会吸引小企业缺乏足够的资金来部署Hadoop作为一种服务。

项目四:流分析
很多人会把这个“流”,但流分析是不同的,从设备流。

通常,流分析是一个组织在批处理中的实时版本。

以反洗钱和欺诈检测:为什么不在交易的基础上,抓住它发生而不是在一个周期结束?同样的库存管理或其他任何。

在某些情况下,这是一种新的类型的交易系统,分析数据位的位,因为你将它并联到一个分析系统中。

这些系统证明自己如Spark或Storm与Hbase作为常用的数据存储。

请注意,流分析并不能取代所有形式的分析,对某些你从未考虑过的事情而言,你仍然希望分析历史趋势或看过去的数据。

项目五:复杂事件处理
在这里,我们谈论的是亚秒级的实时事件处理。

虽然还没有足够快的超低延迟(皮秒或纳秒)的应用,如高端的交易系统,你可以期待毫秒响应时间。

例子包括对事物或事件的互联网电信运营商处理的呼叫数据记录的实时评价。

有时,你会看到这样的系统使用Spark 和HBase——但他们一般落在他们的脸上,必须转换成Storm,这是基于由LMAX交易所开发的干扰模式。

在过去,这样的系统已经基于定制的消息或高性能,从货架上,客户端-服务器消息产品-但今天的数据量太多了。

我还没有使用它,但Apex项目看起来很有前途,声称要比Storm快。

项目六:ETL流
有时你想捕捉流数据并把它们存储起来。

这些项目通常与1号或2号重合,但增加了各自的范围和特点。

(有些人认为他们是4号或5号,但他们实际上是在向磁盘倾倒和分析数据。

),这些几乎都是Kafka和Storm项目。

Spark也使用,但没有理由,因为你不需要在内存分析。

项目七:更换或增加SAS
SAS是精细,是好的但SAS也很贵,我们不需要为你的数据科学家和分析师买存储你就可以“玩”数据。

此外,除SAS可以做或产生漂亮的图形分析外,你还可以做一些不同的事情。

这是你的“数据湖”。

这里是IPython笔记本(现在)和Zeppelin(以后)。

我们用SAS存储结果。

当我每天看到其他不同类型的Hadoop,Spark,或Storm项目,这些都是正常的。

如果你使用Hadoop,你可能了解它们。

几年前我已经实施了这些项目中的部分案例,使用的是其它技术。

如果你是一个老前辈太害怕“大”或“做”大数据Hadoop,不要担心。

事情越变越多,但本质保持不变。

你会发现很多相似之处的东西你用来部署和时髦的技术都是围绕Hadooposphere旋转的。

相关文档
最新文档