第8章-Storm—基于拓扑的流数据实时计算系统

合集下载

storm的用法

storm的用法一、了解Storm大数据处理框架Storm是一个用于实时流数据处理的分布式计算框架。

它由Twitter公司开发，并于2011年发布。

作为一个开源项目，Storm主要用于处理实时数据，比如实时分析、实时计算、流式ETL等任务。

二、Storm的基本概念及特点1. 拓扑（Topology）：拓扑是Storm中最重要的概念之一。

它代表了整个计算任务的结构和流程。

拓扑由一系列组件组成，包括数据源（Spout）、数据处理节点（Bolt）以及它们之间的连接关系。

2. 数据源（Spout）：Spout负责从外部数据源获取数据，并将其发送给Bolt进行处理。

在拓扑中，通常会有一个或多个Spout进行数据输入。

3. 数据处理节点（Bolt）：Bolt是对数据进行实际处理的模块。

在Bolt中可以进行各种自定义的操作，如过滤、转换、聚合等，根据业务需求不同而定。

4. 流组（Stream Grouping）：Stream Grouping决定了从一个Bolt到下一个Bolt 之间的任务调度方式。

Storm提供了多种Stream Grouping策略，包括随机分组、字段分组、全局分组等。

5. 可靠性与容错性：Storm具有高可靠性和容错性的特点。

它通过对任务状态进行追踪、失败重试机制和数据备份等方式，确保了整个计算过程的稳定性。

6. 水平扩展：Storm可以很方便地进行水平扩展。

通过增加计算节点和调整拓扑结构，可以实现对处理能力的无缝提升。

三、Storm的应用场景1. 实时分析与计算：Storm适用于需要对大规模实时数据进行即时分析和计算的场景。

比如金融领域中的实时交易监控、电商平台中用户行为分析等。

2. 流式ETL：Storm可以实现流式ETL（Extract-Transform-Load）操作，将源数据进行抽取、转换和加载到目标系统中，并实时更新数据。

3. 实时推荐系统：通过结合Storm和机器学习算法，可以构建快速响应的实时推荐系统。

storm的5个主要术语

Storm的5个主要术语Storm是一个开源分布式实时计算系统，它被广泛应用于大规模数据处理和实时分析。

在Storm中，有一些主要的术语被用来描述其核心概念和工作原理。

本文将详细介绍Storm的5个主要术语，包括拓扑（Topology）、流（Stream）、Spout、Bolt和任务（Task）。

1. 拓扑（Topology）拓扑是Storm中最基本的概念之一。

它表示了一个实时计算任务的结构和流程。

拓扑由多个组件（Component）组成，每个组件负责特定的数据处理任务。

组件之间通过流进行连接，形成了一个有向无环图。

拓扑可以看作是一个数据处理的蓝图，它定义了数据从输入到输出的整个计算过程。

在拓扑中，每个组件都可以并行执行，并且可以在不同节点上进行分布式部署。

通过合理设计拓扑结构，可以实现高效的数据处理和并行计算。

2. 流（Stream）流是Storm中用来传递数据的基本单位。

它代表了一系列具有相同类型的数据项，在拓扑中从一个组件流向另一个组件。

流可以包含多个字段，每个字段都有特定的类型和含义。

在拓扑中，流可以被分为多个分支，每个分支可以由不同的组件处理。

这种方式使得数据可以以不同的路径进行处理，从而实现更灵活和高效的计算。

同时，流还支持多种操作，如过滤、聚合、转换等，可以对数据进行各种形式的处理和加工。

3. SpoutSpout是Storm中用于数据输入的组件。

它负责从外部数据源读取数据，并将其发送到拓扑中的下一个组件。

Spout可以读取各种不同类型的数据源，如消息队列、文件系统、数据库等。

在拓扑中，Spout通常是数据流的起点。

它以一定的速率产生数据，并通过流发送给下一个组件进行处理。

Spout还可以实现可靠性保证机制，确保数据不会丢失或重复发送。

通过合理配置Spout的并行度和任务数，可以实现高吞吐量和低延迟的数据输入。

4. BoltBolt是Storm中用于数据处理和计算的组件。

它接收来自上游组件（如Spout或其他Bolt）传递过来的数据流，并对其进行加工、过滤、聚合等操作。

storm的用法总结大全

storm的用法总结大全- Storm是一个开源的实时大数据处理系统，用于处理实时数据流。

它可以与Hadoop 集成，提供高性能的实时数据处理能力。

- Storm可以用于实时分析和处理大规模数据流，如日志数据、传感器数据等。

它可以处理来自不同数据源的数据流，并将数据流分发到不同的处理单元进行处理。

- Storm使用一种称为拓扑（Topology）的方式来描述数据处理流程。

拓扑是由多个处理单元（称为Bolt）和连接它们的数据流（称为Spout）组成的。

- Spout可以从数据源中读取数据，并将数据流发射给Bolt进行处理。

Bolt可以对数据进行转换、过滤、聚合等操作，并将结果发射给下一个Bolt进行处理。

多个Bolt可以并行地执行不同的处理任务。

- Storm的拓扑可以灵活地配置，可以按照需要添加、删除、修改Bolt和Spout。

它支持高可靠性、高吞吐量的数据流处理，并且可以实现在不同的节点之间进行任务的负载均衡。

- Storm提供了可扩展性和容错性，可以通过水平扩展集群节点来处理更大规模的数据流，并且在节点故障时能够保证处理的连续性。

- Storm提供了丰富的API和工具，可以方便地开发和调试数据处理拓扑。

它支持多种编程语言，如Java、Python等，并提供了强大的拓扑调试和可视化工具，方便监控和管理拓扑的运行状态。

- Storm可以与其他大数据处理框架（如Hadoop、Hive、HBase等）集成，在数据处理过程中实现数据的交换和共享。

它还可以与消息中间件（如Kafka、RabbitMQ等）和实时数据库（如Redis、Cassandra等）集成，实现与其他系统的无缝连接。

- Storm有广泛的应用场景，如实时推荐系统、实时风控系统、实时数据分析、实时监控和报警等。

它在互联网、金融、电信、物联网等领域都有着广泛的应用。

w3cschool-Storm入门教程

w3cschool-Storm⼊门教程1.什么是stormStorm是Twitter开源的分布式实时⼤数据处理框架，被业界称为实时版Hadoop。

随着越来越多的场景对Hadoop的MapReduce⾼延迟⽆法容忍，⽐如⽹站统计、推荐系统、预警系统、⾦融系统(⾼频交易、股票)等等，⼤数据实时处理解决⽅案（流计算）的应⽤⽇趋⼴泛，⽬前已是分布式技术领域最新爆发点，⽽Storm更是流计算技术中的佼佼者和主流。

按照storm作者的说法，Storm对于实时计算的意义类似于Hadoop对于批处理的意义。

Hadoop提供了map、reduce原语，使我们的批处理程序变得简单和⾼效。

同样，Storm也为实时计算提供了⼀些简单⾼效的原语，⽽且Storm的Trident是基于Storm原语更⾼级的抽象框架，类似于基于Hadoop的Pig框架，让开发更加便利和⾼效。

2.storm应⽤场景推荐系统（实时推荐，根据下单或加⼊购物车推荐相关商品）、⾦融系统、预警系统、⽹站统计（实时销量、流量统计，如淘宝双11效果图）、交通路况实时系统等等。

3.storm的⼀些特性1.适⽤场景⼴泛： storm可以实时处理消息和更新DB，对⼀个数据量进⾏持续的查询并返回客户端（持续计算），对⼀个耗资源的查询作实时并⾏化的处理(分布式⽅法调⽤，即DRPC），storm的这些基础API可以满⾜⼤量的场景。

2. 可伸缩性⾼: Storm的可伸缩性可以让storm每秒可以处理的消息量达到很⾼。

扩展⼀个实时计算任务，你所需要做的就是加机器并且提⾼这个计算任务的并⾏度。

Storm使⽤ZooKeeper来协调集群内的各种配置使得Storm的集群可以很容易的扩展。

3. 保证⽆数据丢失：实时系统必须保证所有的数据被成功的处理。

那些会丢失数据的系统的适⽤场景⾮常窄，⽽storm保证每⼀条消息都会被处理，这⼀点和S4相⽐有巨⼤的反差。

4. 异常健壮： storm集群⾮常容易管理，轮流重启节点不影响应⽤。

论Storm分布式实时计算工具

论Storm分布式实时计算工具作者：沈超邓彩凤来源：《中国科技纵横》2014年第03期【摘要】互联网的应用催生了一大批新的数据处理技术，storm分布式实时处理工具以其强大的数据处理能力、可靠性高、扩展性好等特点，在近几年得到越来越广泛的关注和应用。

【关键词】分布式实时计算流处理1 背景及特点互联网的应用正在越来越深入的改变人们的生活，互联网技术也在不断发展，尤其是大数据处理技术，过去的十年是大数据处理技术变革的十年，MapReduce，Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。

但是这些数据处理技术都不是实时的系统，或者说，它们设计的目的也不是为了实时计算。

没有什么办法可以简单地把hadoop变成一个实时计算系统。

实时数据处理系统和批量数据处理系统在需求上有着本质的差别。

然而大规模的实时数据处理已经越来越成为一种业务需求了，而缺少一个“实时版本的hadoop”已经成为数据处理整个生态系统的一个巨大缺失。

而storm的出现填补了这个缺失。

Storm出现之前，互联网技术人员可能需要自己手动维护一个由消息队列和消息处理者所组成的实时处理网络，消息处理者从消息队列取出一个消息进行处理，更新数据库，发送消息给其它队列等等。

不幸的是，这种方式有以下几个缺陷：单调乏味：技术人员花费了绝大部分开发时间去配置把消息发送到哪里，部署消息处理者，部署中间消息节点—设计者的大部分时间花在设计，配置这个数据处理框架上，而真正关心的消息处理逻辑在代码里面占的比例很少。

脆弱：不够健壮，设计者要自己写代码保证所有的消息处理者和消息队列正常运行。

伸缩性差：当一个消息处理者的消息量达到阀值，需要对这些数据进行分流，配置这些新的处理者以让他们处理分流的消息。

Storm定义了一批实时计算的原语。

如同hadoop大大简化了并行批量数据处理，storm的这些原语大大简化了并行实时数据处理。

storm的一些关键特性如下：适用场景广泛：storm可以用来处理消息和更新数据库（消息流处理），对一个数据量进行持续的查询并返回客户端（持续计算），对一个耗资源的查询作实时并行化的处理（分布式方法调用），storm的这些基础原语可以满足大量的场景。

云计算与大数据技术课后习题

第一章云计算与大数据基础1.在信息产业的发展历程中。

硬件驱动力，网络驱动力，作为两个重要的内在动力在不同的时期起着重要的作用6．MapReduce思想来源LISP语言7。

按照资源封装层次，云计算分为 Iaas paas saas三种8。

教材P2 1。

1.210。

教材P8 1。

2。

211. 教材P10 1.2.3第二章云计算与大数据相关技术1。

一致性hash算法原理:哈希算法是一种从稀疏值到紧密值范围的映射方法，在存储和计算定位时可以被看做是一种路由算法。

通过这种路与哦算法文件块能被唯一的定位到一个节点的位置.传统的hash算法容错性和扩展性都不好，无法有效的适应面向数据系统节点的动态变化。

意思就是当集群需要增加节点，传统的hash算法不容易检测到新增加的节点,此为扩展性不好，而一致性hash算法增加一个节点只会影响增加的这个节点到前一个节点之间的数据.容错性就是如果不幸一个机器C宕机了，那么机器B和C之间的数据都会被D执行，那么受影响的数据只是机器B和C之间的数据。

当然,容错性和扩展性对于节点数较多的集群是比较有意义的，对于节点较少的集群似乎这两个特性并没有什么诱惑力。

一致性hash的实际目的就是解决节点频繁变化时的任务分配问题,一致性hash将整个hash值空间组织成一个虚拟圆环，我们这里假设某hash函数H值空间为0~（2^32—1），即32位无符号整形。

下面简述一下一致性hash的原理：这是一致性hash的整个值空间0～（2^32-1）下一步将各个服务器使用Hash进行一个哈希，具体可以选择服务器的ip或主机名作为关键字进行哈希,这样每台机器就能确定其在哈希环上的位置，假设使用四台机器进行hash：将数据key使用相同的函数Hash计算出哈希值，并确定此数据在环上的位置，从此位置沿环顺时针“行走”，第一台遇到的服务器就是其应该定位到的服务器。

例如我们有Object A、Object B、Object C、Object D四个数据对象,经过哈希计算后，在环空间上的位置如下：根据一致性哈希算法，数据A会被定为到Node A上，B被定为到Node B上，C被定为到Node C上，D被定为到Node D上下面我们看看当集群机器比较少的情况例如系统中只有两台服务器，其环分布如下，此时必然造成大量数据集中到Node A上，而只有极少量会定位到Node B上。

storm简介

使用Storm实现实时大数据分析！实时Storm大数据摘要：随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。

Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大数据分析。

CSDN在此编译、整理。

简单和明了，Storm让大数据分析变得轻松加愉快。

当今世界，公司的日常运营经常会生成TB级别的数据。

数据来源囊括了互联网装置可以捕获的任何类型数据，网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。

考虑到数据的生成量，实时处理成为了许多机构需要面对的首要挑战。

我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发，通常被比作“实时的Hadoop”。

然而Storm远比Hadoop来的简单，因为用它处理大数据不会带来新老技术的交替。

Shruthi Kumar、Siddharth Patankar共同效力于Infosys，分别从事技术分析和研发工作。

本文详述了Storm的使用方法，例子中的项目名称为“超速报警系统（Speeding Alert System）”。

我们想实现的功能是：实时分析过往车辆的数据，一旦车辆数据超过预设的临界值——便触发一个trigger并把相关的数据存入数据库。

Storm对比Hadoop的批处理，Storm是个实时的、分布式以及具备高容错的计算系统。

同Hadoop 一样Storm也可以处理大批量的数据，然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时；也就是说，所有的信息都会被处理。

Storm同样还具备容错和分布计算这些特性，这就让Storm可以扩展到不同的机器上进行大批量的数据处理。

他同样还有以下的这些特性：∙易于扩展。

对于扩展，你只需要添加机器和改变对应的topology（拓扑）设置。

Storm 使用Hadoop Zookeeper进行集群协调，这样可以充分的保证大型集群的良好运行。

storm原理

storm原理Storm是一个分布式实时计算系统，它可以处理海量的实时数据流，并且能够在毫秒级别内对数据进行处理和分析。

Storm的原理是基于流处理模型，它将数据流分成一系列的小批次，然后对每个小批次进行处理和分析，最终将结果输出到目标系统中。

Storm的核心组件是Nimbus和Supervisor。

Nimbus是Storm的主节点，它负责管理整个集群的拓扑结构和任务分配。

Supervisor是Storm的工作节点，它负责接收Nimbus分配的任务，并且在本地执行任务。

Storm的数据流模型是基于DAG（有向无环图）的，每个节点代表一个数据处理单元，节点之间的边代表数据流。

Storm的拓扑结构是由Spout和Bolt组成的。

Spout是数据源，它从外部数据源中读取数据，并将数据发送到Bolt中进行处理。

Bolt是数据处理单元，它接收Spout发送的数据，并且对数据进行处理和分析，最终将结果输出到目标系统中。

Storm的数据流模型是基于流处理模型的，它可以实现实时数据处理和分析。

Storm的数据流模型是基于DAG的，它可以实现高效的数据处理和分析。

Storm的拓扑结构是由Spout和Bolt组成的，它可以实现灵活的数据处理和分析。

Storm的优点是可以实现实时数据处理和分析，它可以处理海量的实时数据流，并且能够在毫秒级别内对数据进行处理和分析。

Storm的缺点是需要一定的技术水平才能使用，而且需要一定的硬件资源才能支持。

总之，Storm是一个非常强大的分布式实时计算系统，它可以处理海量的实时数据流，并且能够在毫秒级别内对数据进行处理和分析。

Storm的原理是基于流处理模型，它将数据流分成一系列的小批次，然后对每个小批次进行处理和分析，最终将结果输出到目标系统中。

Storm的优点是可以实现实时数据处理和分析，它可以处理海量的实时数据流，并且能够在毫秒级别内对数据进行处理和分析。

Storm的缺点是需要一定的技术水平才能使用，而且需要一定的硬件资源才能支持。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Supervisor Zookeeper Supervisor Supervisor Supervisor Supervisor
Nimbus
Zookeeper
Zookeeper
图8.4 Storm体系结构
并行计算实验室

2015-6-7
8.2.2

Storm体系结构
名为Storm。

Storm于2011年9月19号正式开源，实现Storm的语言为一种运行于Java平台的L ISP方言—Clojure。

Storm是很ok、Twitter等平台上得到使用。第三方支付平台支付宝使用Storm 来计算实时交易量、交易排行榜、用户注册量等，每天处理的信息超过1亿条，处理的日志文件超过6TB；团购网站Groupon使用Storm对对实时数据进行快速数
好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给
用户。 ② ZeroMQ：类似于Socket的一系列接口，ZeroMQ与Socket的区别在于Socket是端到端的(1:1)的关系，而ZeroMQ是N:M的关系，屏蔽细节使得网络编程更加简单。 ③ JZMQ：针对ZeroMQ的Java binding。 ④ Storm：Storm系统主程序，本文使用的Storm的版本号为0.8.1。
Bolt Spout Spout Bolt Bolt
8.1 Storm编程模型Topology
B8.2.1

Storm编程模型原理
比如，使用Storm处理单词统计的任务（WordCount），该任务的拓扑如图8. 2所示。spout组件负责读取要统计的数据源中的句子，split组件负责将接收到的句子拆分成单个的单词，把这些单词发送至count组件，count组件负责统计发送过来的单词出现的次数。
并行计算实验室

2015-6-7
8.3.1

Storm的安装步骤
以下安装均在root用户下完成，所需的工具包存放在压缩包storm.tar.gz 中，所以首先要把该压缩包解压。（1）安装准备。解压storm.tar.gz包： tar –xzvf storm.tar.gz

与MapReduce相比，它的任务粒度相对灵活，不只局限于Mapreduce中的Map()和Reduce()函数，用户可以根据任务需求编写自己的函数。

同时，它不存储中间数据，组件与组件之间的数据传递通过消息传递的方式，对于很多不需要存储中间数据的应用来说，Topology编程模型降低了处理过程的繁琐与延迟。
并行计算实验室

2015-6-7
8.3

搭建Storm开发环境
搭建Storm开发环境首先需要安装Storm系统需要的依赖包，然后再安装Storm系统工具包。Storm开发环境可以搭建在单机上，也可以搭建在集群上。本节我们在4个节点构建的集群上搭建Storm开发环境。
—

8.3.3
Storm 的启动
8.4 Storm使用实例
— — 8.4.1 8.4.2 使用Maven管理storm-starter WordCountTopology实例分析
并行计算实验室

2015-6-7
8.1

Storm简介
BackType公司（后被Twitter收购）前工程师Nathan Marz，在使用Hadoop过程中，因为不满意Hadoop系统的扩展性和其代码的繁琐性，以及其粗糙的容错处理机制，提出了一种支持实时流处理、扩展机制简单的编程模型Topology，取

并行计算实验室

2015-6-7
8.2

Storm原理及其体系结构
Storm编程模型原理
8.2.1
Storm编程模型采用的是生活中常见的并行处理任务方式 —流水线作业方式。Storm 实现一个任务的完整拓扑如图8.1所示，在Storm中每实现一个任务，用户就需要构造一个这样的拓扑。该拓扑包含两类组件：Spout和Bolt。Spout负责读取数据源，B olt负责任务处理。Storm处理一个任务，往往会把该任务拆分为几部分，分别由不同的Bolt组件来实现。这是流水线作业中实现并行和提升任务处理效率采用的方法。
知道了Storm是由三类进程组成，但是Storm的三进程部署到具体的集群上又是怎样的呢？因为主进程任务是负责分发任务和调度任务，在一个任务中只需要一个这种角色，所以主进程Nimbus只需要部署到一个节点上。而工作机进程是负责实际的任务处理，那么一个集群有多少节点配置多少个工作机进程，这样才能最大限度地利用集群性能，所以Supervisor需要部署到集群中的每一个节点上。Zook eeper进程负责主进程与工作进程协调的任务，因此它也需要部署到集群中的每一个节点上。知道了这点，下面的部署安装也就不难理解了。
2．安装内容说明（1）依赖软件：Python、JDK、gcc-c++、uuid*、libtool、libuuid、lib uuid-devel。（2）安装Storm所需工具包包含Zookeeper、ZeroMQ 、JZMQ 和Storm。
① Zookeeper：Hadoop的正式子项目，是一个针对大型分布式系统的可靠协调系统，提供配置维护、名字服务、分布式同步、组服务等功能。 Zookeeper的目标就是封装
第8 章
Storm—基于拓扑的流数据
实时计算系统
《云计算与大数据技术》
第 8章

Storm—基于拓扑的流数据实时计算系统
8.1 Storm简介

8.2 Storm原理及其体系结构
— — 8.2.1 8.2.2 Storm编程模型原理 Storm体系结构

8.3 搭建Storm开发环境
— — 8.3.1 8.3.2 Storm的安装步骤 Storm 的设置
据清洗、格式转换、数据分析；Twitter使用它来处理tweet（用户发送到Twit
ter上的信息）。
并行计算实验室

2015-6-7
8.1

Storm简介
Storm的Topology编程模型简单，在实际任务处理时却很实用。 Topolo gy，实际上就是任务的逻辑规划，包含Spout和Bolt两类组件，Spout 组件负责读取数据，Bolt组件负责任务处理。
“spout” Spout (spout)
“split” Bolt (split)
“count” Bolt (count)
图8.2 WordCount Topology
并行计算实验室

2015-6-7
8.2.1

Storm编程模型原理
这样一个统计单词的任务就被拆分为三部分来操作，每部分可以根据任务的繁重程度来规划并行数目，各个组件的并行数没有明确规定。比如，可以设置spout并行数为2，split并行数为8，count并行数为12，如图8.3所示。
count1 split1 count2 spout1 split2 count3 split3 spout2
split8 count12
图8.3 WordCount并行工作模式
并行计算实验室

2015-6-7
8.2.2

Storm体系结构
Storm中因为没有使用文件系统，相比于Hadoop它的架构要简单得多。Storm依然采用的是主从架构模式，即有一个主进程和多个从进程。除了这两个进程以外，还有在主进程与从进程之间进行协调的进程Zookeeper。Storm的体系结构如图8.4所示。
并行计算实验室

2015-6-7
8.1

Storm简介
（1）Storm具有很好的容错性、扩展性、可靠性和健壮性。
— Storm使用Zookeeper（Hadoop中的一个正式子项目，后被广泛使用的一种分布式协调工具）作为集群协调工具，当发现正在运行的Topology出错的时候，Zookeeper就会告诉N imbus（Storm系统的主进程，负责分发任务等操作），然后Nimbus就重新分配并启动任务。 — 在Storm中，Topology被提交后，在没有被手动杀死之前，它都将一直处于运行状态。这些措施都是为了保证该系统的容错性。Storm采用三进程架构—Nimbus、Supervisor、 Zookeeper，无论是集群还是单机都只有这三个进程。当需要在集群中新加入节点的时候，只需要修改配置文件和运行Supervisor和Zookeeper进程即可，扩展起来十分方便。另外，Storm采用消息传递方式进行数据运算，数据传输的可靠性至关重要。Storm系统中传递的消息，主节点都会根据消息的产生到结束生成一棵消息树。所以，消息从诞生到消亡的整个过程，它都会被跟踪。如果主节点发现某消息丢失，那么它就会重新处理该消息。正是因为有了容错性、可靠性的保障，该系统运行中体现出健壮性，不会出现轻易宕机、崩溃的现象。
安装JDK：
chmod +x jdk-6u35-linux-x64-rpm.bin ./jdk-6u35-linux-x64-rpm.bin vi /etc/profile 设置环境变量，在最后面加入： #set java environment JAVA_HOME=/usr/java/jdk-1_5_0_02 CLASSPATH=.:$JAVA_HOME/lib.tools.jar PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME CLASSPATH PATH 保存退出，使用命令java -version 检查是否安装成功。

切换当前工作目录到解压后的storm目录： cd storm
并行计算实验室

2015-6-7
8.3.1

Storm的安装步骤