基于SPARK的信令数据实时处理平台设计

Data Base Technique ?

数据库技术Electronic Technology & Software Engineering 电子技术与软件工程? 189【关键词】信令数据 实时计算 Spark Streaming

1 引言

电信运营商在以信令数据为基础,结合

DPI 数据、EDA 域其他数据洞析位置数据应

用价值的探索中,由于数据量巨大,采用当前

应用比较普遍的Oracle 、DB2等数据库技术已

不能满足业务的时间要求。同时,随着电信运

营商正在推行去“IOE ”,因此电信运营商迫

切需要采用新的IT 手段解决当前面临的业务

需求,同时降低硬件投资成本。本文围绕开源

实时计算框架Spark 技术,根据信令数据的特

点,构建实时计算平台,达到满足业务部门对

数据的实时需求,同时降低IT 投资成本的目

标。

2 实时处理平台设计

2.1 基本要求

信令位置数据需要实时的完成采集、数

据分析环节,最终将分析结果提供给业务人员

或者系统调用。必须满足的基本要求如下:

能实时的(10秒~1分钟内)处理用户产

生的位置更新数据。

能随着数据规模的变换动态调整实时处

理平台的规模,且不影响线上的实时应用。

能保证99.99%的平台稳定性。

支持TCP 、Socket 、文件等常见的数据接

收方式。

支持Redis 、HBase 等常见的数据存储及

即时调用方式。

2.2 平台设计

2.2.1 平台功能架构

实现信令数据的实时分析,必须具备实

时采集、实时处理、实时调用功能。通过统一

任务调度框架进行任务调度。实时计算平台功

能架构如图1所示。基于SPARK 的信令数据实时处理平台设计

文/何美斌 胡精英

2.2.2 数据采集数据采集功能主要是实时的将用户产生的位置更新数据安全、有效、快速的推送到实时计算引擎进行分析。2.2.3 数据处理数据处理功能主要是采用实时计算引擎对信令数据进行深度分析,最终形成结果数据。2.2.4 数据存储分析得到的结果数据最终实时的保存在键值数据库中,供业务人员和系统实时调用。3 实现技术

3.1 硬件平台实时计算引擎需要进行频繁的通讯和算法处理,数据采集需要进行实时的数据接收和转发,数据存储需要进行实时的数据接收和实时调用,对底层基础硬件的通讯和运算速度要求很高,同时需要满足分布式、动态扩展的要求,因此采用配置为2路8核 CPU 、128GB 内存、万兆网卡的x86架构PC Server 服务器。3.2 平台软件操作系统软件采用Red Hat ,实时数据采集采用Flume-NG,实时计算引擎采用Spark Streaming ,实时数据写入Redis 。采用HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统。采用Spark Streaming 组件,以Spark On Yarn 的yarn-cluster 方式构建实时计算引擎。Spark Streaming 的原理是将流式计算分解成一系列短小的批处理作业,如图2所示。Redis 是一个高性能的key-value 数据库。采用Redis 主从架构,保证数据实时调用的稳定性。3.3 实时应用开发数据实时采集模块:信令位置数据通过TCP 接口方式发送到Flume-NG 集群,Flume-NG 通过memory 数据传输方式,将接收到

的数据实时的通过org.apache.spark.streaming.?ume.sink.SparkSink 方式发送到Spark Streaming 处理程序中。数据实时处理模块:信令数据实时处理需要实现StreamingContext 和FlumeUtils.createPollingStream 接口,前者初始化一个Spark Streaming 实例,后者实现一个Spark Streaming 从Flume-NG 中以“拉模式”获取数据的接口。通过foreachRDD 方法处理每次获取的数据,根据需要实现的业务逻辑开发Spark Streaming 程序,最后打成jar 包。数据存储和调用模块:数据保存在Redis 中,首先需要对Jedis 对象进行初始化,然后调用del 和lpush 等命令进行数据的删除、插入等操作。数据的调用通过redis 从节点完成。将已打成jar 包的Spark Streaming 程序分发到Spark 接口机,通过spark-submit 命令以yarn-cluster 方式提交到实时计算平台。4 结语本文提出的基于SPARK 的实时计算平台可以满足电信运营商对信令位置数据实时应用的需求,能够实时的进行数据采集、数据处理、数据调用。该设计具有如下特点:(1)数据实时不落地,能在10秒~1分钟内生成结果数据。(2)采用分布式架构,可动态扩展。(3)支持大部分主流的数据接口方式,使用范围广泛。该平台的建设可以有效满足当前电信运营商信令位置数据及其他数据提质提速的业务需求。

参考文献

[1]潘若禹,朱铮艳,李磊.基于ARM9的道路交通数据采集系统设计[J].现代电子技术,2008,278:189-191.作者单位中国电信集团江西分公司 江西省南昌市 330002

图2:Spark Streaming 执行过程图1:实时计算平台功能架构

相关主题
相关文档
最新文档