物联网大数据处理中实时流计算系统的实践

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

170 •电子技术与软件工程 Electronic Technology & Software Engineering

数据库技术

• Data Base Technique

【关键词】大数据实时计算物联网实践

物联网是在互联网应用的基础上进行了进一步拓展。其主要具有移动、智能、多节点的特点。而Spark 为大数据实时计算工作提供了一个优良的数据储存计算引擎，其在实际数据应用过程中，可利用自身优良的计算性能及多平台兼容特性，实现大数据混合计算处理。因此为了保证物联网数据处理效率，对大数据混合计算模式在物联网中的实践应用进行适当分析具有非常重要的意义。

1 基于Spark的大数据混合计算模型

基于Spark 的大数据混合计算模式在实际设计过程中，首先需要进行数据源的确定，经过逐步处理后将其进行计算储存，并通过实时查询数据库进行提前数据Web 接口的设置。在这个基础上，将不同数据源数据通过分布式处理模式进行移动、收集、分发。然后利用Spark 数据批处理工作，综合采用直接走流处理、程序批处理的方式，将实施应用数据调到已核算完毕的计算结果中间。最后基于物联网应用特点，将数据源数据内部数据移动、收集及分发批处理模块进行有机整合，并结合大数据域内数据处理需求，逐渐利用SparklShark 架构代替MapreducelHIve 结构。在这个基础上进行Spark 混合计算规则融入，最终形成完善的Spark 混合计算模型架构。

2 大数据实时计算在物联网中的实践

2.1 以流处理为基础的用量实时计算系统

以流处理为基础的用量实时计算系统在物联网中的实践应用，主要是利用开源分布式

物联网大数据处理中实时流计算系统的实践

文/吴海建1 吕军2

软件结构的架设，结合Flume 数据收集模块的

设置。同时将物联网中不同数据源进行接入差异化分析。在这个基础上利用消息缓存系统保障模块，将用量实时计算系统内部相关模块间进行解耦设置。同时结合流式计算框架的运行，保障系统并行计算性能拓展问题的有效处理。在具体基于流处理的用量实时计算系统设置过程中，主要包括数据收集、数据处理、数据存储、数据处理等几个模块。首先在数据收集模块设置环节，主要采用Flume 集群，结合海量日志采集、传输、集成等功能的处理，可从exec 、text 等多数据源进行数据收集。Flume 集群的处理核心为代理，即在完整数据收集中心的基础上，通过核心事件集合，分别采用话

单文件代理、计费消息代理等模式，对文件、消息进行收集处理。需要注意的是，在消息接收之后，需要将不同代理数据进行统一数据格式的处理，从而保证整体消息系统的核心统一。其次在实际应用过程中，以流处理为基础的大数据实时计算模型在数据接入环节，主要采用Kafka 集群，其在实际运行中具有较为优良的吞吐量。而且分布式订阅消息发布的新模式，也可以在较为活跃的流式数据处理中发挥优良的效用。在以流处理为基础的用量实时计算系统运行过程中，Kafka 集群主要针对O （1）磁盘数据，其主要通过对TB 级别的消息进行储存处理，并维持相应数据在对应磁盘数据结构中的平稳运行。同时在实际运行中，Kafka 集群还可以依据消息储存日期进行消息类别划分，如通过对消息生产者、消息消费者等相应类别的划分，可为元数据信息处理效率的提升提供依据。

数据处理框架主要采用Storm 集群，其主要具有容错率高、开源免费、分布式等优良特点。在基于Storm 集群的数据处理框架计算过程中，可通过实时计算图状结构的设计，进行拓扑集群提交。同时通过集群中主控节点分发代码设置，实现数据实时过滤处理。在实际运行过程中，基于Storm 集群的数据处理框架，具有Spout 、Bolt 两种形式。前者为数据信息发送，而后者为数据流转换。通过模块间数据传输，Storm 集群也可以进行流量区域分析、自动化阈值检查、流量区域分析等模块的集中处理。数据储存模块主要采用Redis 集群，其在实际处理过程中，主要采用开源式的内部储存结构，通过高速缓存消息队列的设置，可为多种数据类型处理提供依据，如有效集合、列表、字符串、散列表等。2.2 算例分析

在实际应用过程中，基于流处理的大数据实时计算模型需要对多种维度因素进行综合分析，如运营商区域组成维度、时间段储存方案、APN 、资费组处理等。以某个SIM 卡数据处理为例，若其ID 为12345678，则在实际处理中主要包括APN1、APN2两个APN 。若其为联通域内的SIM 卡，则其运营商代码为86。这种情况下就可以对其进行高峰时段及非高峰时段进行合理处理，分为为0、1。而资费组就需要进行All 默认程度的处理，若当前流量话费总体使用量为1.6KB ，则APN1、APN2分别使用流量为1.1/0.4KB 。而在高峰时段、非高峰时段流量损耗为1.1/0.5KB 。这种情况下，就需要对整体区域维度及储存变动情况进行合理评估。在这一环节储存变动主要为Storm 集群，即为消息系统-流量区域分析-流量区域累积-自动化规则阈值检测/区域组合统计-缓存系统。

3 结束语

综上所述，从长期而言，基于Spark 的大数据混合计算模式具有良好的应用优势，其可以通过批处理、流计算、机器学习、图分析等模式的综合应用，满足物联网管理中的多个场景需要。而相较于以往物联网平台而已，基于流处理的大数据实时处理系统具有更为优良的数据压力处理性能。通过多种集群的整合，基于流处理的大数据实时处理系统在我国物联网平台将具有更加广阔的应用前景。

参考文献

[1]欧阳晨.海关应用大数据的实践与思考

[J].海关与经贸研究,2016,37(03):33-43.

[2]余焯伟.物联网与大数据的新思考[J].

通讯世界,2017(01):1-2.

[3]孙学义.物联网与大数据的新思考[J].

科研,2017(03):00200-00200.

作者简介

吴海建（1980-），男，浙江省衢州市人。硕士研究生，中级工程师。研究方向为人工智能。

作者单位

1.中电海康集团有限公司浙江省杭州市 310012

2.中国电子科技集团第五十二研究所浙江省杭州市 310012