自主大数据处理平台的设计和实现

《2013 信息通信网技术业务发展研讨会》论文集
自主大数据处理平台的设计和实现
崔希宁中国移动北京公司信息系统部系统维护中心,北京 ,中国 100058
【摘要】本文分析大数据处理的基本原理，并根据分片存储、分布计算、移动计算的原则，论述一种基于通用数据库存储的大数据处理平台的构架设计和实现。【关键词】大数据；分片存储；分布分析；移动计算
1
现有基础设施无法应对数据驱动
当今的数据仓库解决方案通常是借助通用数据库（比如 Oracle）或基于硬件的专
用平台（比如 Teradata、 Netezza）而创建的，而这两种方案都不能从根本上解决当今（以及未来）数据驱动型社会所面临的挑战。通用数据库（比如 Oracle）是针对 OLTP 处理功能设计的，在运行大量小规模交易查询数据时效果最好。从结构上来说，他们采用了“完全共享”或“磁盘共享”体系。 “完全共享”体系局限于单一服务器（通常是价格比较昂贵的 SMP 服务器），其扩展性和性能受到相应的限制。 “磁盘共享”体系（比如 Oracle RAC）允许系统带有多个服务器，这些服务器与 SAN 或其它共享存储设备相连。这种体系需要通过一个狭窄的数据管道将所有 I/O 信息过滤到昂贵的共享磁盘子系统。实践证明：这些通用磁盘共享体系复杂、脆弱，在处理万亿字节数据时难以胜任。
2
需要采用新的方法
以往的经验已经多次证明：专有硬件的优越性只能维持很短的一段时间，然后就
·593·

《2013 信息通信网技术业务发展研讨会》论文集
必然被迅速更新的商用硬件取而代之。在数据仓库领域，专有互连体系、定制处理器 /FPGA 以及其它类似组件都曾经占有一席之地。不过，从现在的情况来看，这些老式技术已经逐渐被新式数据构架体系所取代。分片存储、移动计算成为解决数据扩张的根本之道。
3
3.1
自主的大数据处理平台构架设计
平台整体架构 ■主节点：负责解析外部数据，以及对路由节点提供数据路由数据。 ■路由节点; 接收主节点的数据，以及把接收到的数据根据路由规则把数据分发到各个数据节
点以及下一级的路由节点，结合目前较为流行的 MINA 等网络框架，进行统一管理，负责每个模块之间的数据上传，下发，数据、消息等。 ■数据节点： DATANODE 节点采用成熟数据库作为每个节点的数据节点，可以为 ORACLE、 MYSQL、MS SQL，POSTGRESQL 等数据库组成。 1、负责有各个路由节点发送过来的数据，装载到数据库中 2、负责查询节点需要对数据检索，并返回查询节点对应的数据到结果库中或者直接将结果返回查询节点。
■查询节点：
负责对客户提出的查询 SQL 语句进行解析，并且根据路由条件，分部到不同的数据节点中。数据节点均返回数据之后把数据发送至查询结果库后，直接将结果检索出来，返回给客户。
·594·

《2013 信息通信网技术业务发展研讨会》论文集
图 1 数据处理平台总线结构
3.2
系统逻辑结构和物理结构拓扑
图 2 数据处理逻辑结构
·595·

《2013 信息通信网技术业务发展研讨会》论文集
图 3 数据处理物理拓扑图
4
4.1
自主平台可以实现功能的实现
数据导入\导出逻辑导入：由于入库数据可能千奇百怪,各式各样,因此针对其他数据库的数据,支持 APACHE
MQ，SOCKET，XML，TXT，结构化数据，以及各种数据库等源。在数据导入的过程中，可以在每个节点进行数据导入，导入之后，将根据 main 节点把数据路由到各个数据节点中去。逻辑导出：数据导出，可以提供数据对外接口，包括 TXT，XML，结构化数据，SOCKET 等以及导出到其他数据库中去均支持。 4.2 数据路由数据路由主要负责数据统一转发,分配等工作.路由分配方式支持:冗余,平均,范围, 列表,模糊匹配等分配方式.
·596·

《2013 信息通信网技术业务发展研讨会》论文集
冗余:根据配置,针对数据在路由的过程中,对一份数据分发,可以分发至多数据节点, 分发数据相同,保证各个节点可以同时对较为复杂的业务逻辑检索提供数据查询.这种数据检索查询结果没有合并过程.
平均:每次操作,根据实际录入的数据,在每个 datanode 上平均分配,保证所有的节点, 数据量基本相同,平均分配入库数据量.
Data
1 5
1 2 3 4 5 6
Data
2 6
Route Data
3
Data
4
范围:根据范围条件,对录入的数据进行范围匹配,匹配之后的数据,根据范围把数据路由到不同的节点.
Data <=3
1 2 3 2 3 4 5
1 2 3 4 5 6
Data >=2 and <=5
Route Data >4
5 6
Data >10
列表:根据每个字段给出的列表信息,范围在列表范围之内的,可以进入不同的节点
·597·

《2013 信息通信网技术业务发展研讨会》论文集
分区之内,不在列表范围之内的,将进入默认节点.
Data In (1,2,3) 1 2 3
1 2 3 4 5 6
Data In (2,4,5) Route Data In (1,5,10)
2 4 5
1 5
Data In(-1,0,6)
6
正则表达式:根据不同的正则表达式规则,可以把数据路由到不同的数据节点中去.
Data /^A*B*C*/ AABBBCC
AABBBCC 12323 AAABBBCCC AAAAAAB BBBBA ADDDDDDA
Data /^A*/ Route Data /^AD*A/
AABBBCC AAABBBCCC AAAAAAB ADDDDDDA
ADDDDDDA
Data /^\d/
12323
4.3
数据检索数据检索主要为了对外提供数据查询服务,其中包括数据检索解析、数据检索分发，
数据检索返回中间库，数据检索直接返回等功能。
图 4 数据分布检索 ·598·

《2013 信息通信网技术业务发展研讨会》论文集
数据检索主要对外提供相对较为简单的服务,主要根据实际现有的数据进行同步情况下的数据检索情况.主要检索步骤: Search 主要负责数据接收服务,然后把数据传输到路由模块路由模块根据实际检索服务情况,把 SQL 语句分发至各个数据节点, 各个数据节点执行完了数据检索,之后,把结果立即返回至结果库。结果库的数据直接返回值 Search 模块，返回给客户，或者有可以直接去结果库查询检索的结果。 4.4 数据冗余管理主要分为两种数据冗余方案底层数据节点自带冗余方案由于数据节点采用 MYSQL 数据库，因此利用 MYSQL 自己的数据冗余复制方案，有 LVS 对外提供 HA 切换保证 MYSQL 正常运行。
故障切换之后:
ICDS 数据冗余方案,由路由节点给数据节点发送数据的时候,自动写同样的一份数据,发送至冗余节点,冗余节点通过 DataNode 自动把数据装载到数据库中,如果一个节点出现问题,路由节点会自动由另一个节点对外提供数据服务. 如果出现一个数据节点坏掉,不可恢复,这时候软件心跳检测出没有冗余,会提示报警,需要进行数据冗余处理.
·599·

《2013 信息通信网技术业务发展研讨会》论文集
5
5.1
自主平台的特点及其实现机制
灵活性主节点稳定性主节点负责的任务主要分为以下：源文件解析【XML，TXT，EXCEL，SQL，SOCKET，定制化接口】。解析之后，分发给各个路由节点。生成 ICDSN 号，保证各个节点之间数据装载的一致性。数据节点稳定性数据存储架构 ICDS 对底层数据存储采用数据库技术，可以适用于不同的数据库，因此稳定性均
是基于目前关系型数据库的体系结构数据冗余架构当前 ICDS 第一版本以支持 MYSQL 为例，进行统一数据管理，底层数据冗余，全部由 MYSQL 自行管理，进行数据复制，保证数据的一致性。数据冗余切换管理在数据冗余复制的时候，如果出现某个 DATANODE 节点出现了问题，将会有备份节点自动接管。再接管的过程中，由于涉及到 IP 地址的更新，因此这里采用了 HA 的技术原理，对 route 节点提供 VIP 地址，保证在连接的时候，由于节点自动 down 掉之后，主备库之间自动切换的功能。异常处理
在数据装载的过程中，如果出现了数据库异常，或者装载程序异常，软件会自动
·600·

《2013 信息通信网技术业务发展研讨会》论文集
备份数据到节点磁盘缓存中。在软件启动的时候，将会重新装载所有没有装载的数据，装在数据完成之后，DataNode 将启动成功，否则数据节点将处于 recover 状态。路由节点稳定性路由节点由两部分组成上层数据分发到下层数据节点、路由节点的功能在数据节点数据没有接收完成数据之前，路由节点的内存中是保存当前未发送完的数据；如果在路由节点出现了异常等任何问题，路由节点都会在异常处理的过程中，对当前正在处理的数据进行磁盘保存。保证数据在整个传输的过程中不丢失。查询节点每个数据节点均可以充当查询节点【也可以同时充当路由节点】的角色每个查询节点接收到查询命令之后，直接根据路由信息，发到对应的数据节点进行数据检索，数据节点检索之后，就会把检索的结果集存放到结果库中去。如果客户检索的结果集数据量很大，可以把数据存放到结果库，然后直接去结果库查看结果即可。如果结果集很小，可以直接返回数据库，也可以直接返回给客户。 5.2 高性能由于在目前所有的 OLTP 系统中，都是单一的数据库软件，而硬件又不能无限的扩展，针对目前相对较小的数据库还是可以承受，但是数据量的膨胀速度，很多企业的数据量超过了上百 TB，甚至上百 PB 的数据量，针对如此庞大的数据进行数据分析，统一检索，相对来说面临的问题接踵而至：效率问题，数据管理问题，数据安全问题等等。因此在数据进行并发检索的时候，可以把所有的简单的检索移植到多台硬件设备上并行进行数据检索，可以实现多台主机同时运行共同对外提供数据检索，统计分析，查询业务，由于节点数在 ICDS 中是无限扩展的，因此在使用和分析的过程中，是不需要考虑数据量大小而引起的数据检索效率降低等问题，才能在第一时间得到 IT 分析的第一手数据。 5.3 易维护控制台管理
·601·

《2013 信息通信网技术业务发展研讨会》论文集
ICDS 对外提供了统一的控制平台，所有的操作均可以通过这一个控制平台来实现对各个数据，路由节点的监控，以及路由信息对各个控制台路由数据的统计信息等操作。对添加，删除，修改节点，以及对节点的信息进行相应的修改等问题。可以对单节点的信息进行统计分析，包括数据录入信息，数据检索信息，以及节点中表的大小，记录条数等统计信息。节点配置在使用过程中，每个节点【MAIN,ROUTE,DATANODE】，均可以为 DATANODE 节点，每个 DATANODE 节点配置均一样，只连接配置库，然后通过配置库表中信息，连接自己对应的数据库。只需要对各种不同级别的节点进行个别参数配置，数据库中配置即可。节点启动每个节点配置好之后，仅仅需要一个命令即可启动，但是需要有启动顺序，必须先启动 data 节点，再启动 route 节点，最后启动 Main 节点。如果先启动 Main 节点，再启动 route 节点，那将处于 recover 状态，在所有的 data 节点启动之后，route 将恢复 Normal 状态，最后 Main 恢复为 Normal 状态。
增加节点如果数据量太大，或者由于检索效率等问题，需要对节点数进行增加节点，这时候，只需要添加节点之后，把节点对应的 IP 地址，用户名，数据库名等基本登录信息即可，然后软件会根据数据库配置响应的冗余数据库，也可以把数据冗余到其他节点
·602·

《2013 信息通信网技术业务发展研讨会》论文集
数据库。
更新节点更新节点数据：如果由于原来的某些路由配置问题，造成了某些数据库中数据量偏移平均值太多【比如每个库都是 100GB 左右，突然有一个节点达到了上 TB，差距较多】、或者根据特殊定义，对数据进行重新分配，在数据处理的过程中，此节点将处于 RECOVER 状态，不能再路由数据。更新节点信息：只需要修改配置库上的信息，然后通过控制台刷新数据字典即可，控制台会根据节点的相关信息，刷新响应节点的信息，而不是所有的节点信息。
删除节点如果随着数据量变化的时候，可能由于某些原因，造成数据压力没有想象的大，需要把部分节点拆卸掉，这时候需要停止节点，进行 download 操作，卸载掉数据，写
·603·

《2013 信息通信网技术业务发展研讨会》论文集
在数据的时候，软件会根据路由节点的信息重新把数据路由到其他节点上。路由完成之后，软件就会自动卸载掉此节点。
5.4
开放性每个节点都可以同时承担查询节点，因此所有的节点可以同时对外提供服务，可
以提供自己数据的同时 JDBC，SPRING 等，也可以提供所有节点的数据检索支持 ICDS 所有节点路由、检索服务。 5.5 高效检索机制由于 datanode 所有的操作,均使用普通的 DB 来进行数据管理,因此可以在任意一个字段上建立索引,以及各种数据库支持的组合索引,支持相对较为灵活. 数据会通过 ICDS 路由直接发送到各个节点,,由各个节点进行数据检索统计,然后把数据检索的结果,进行数据上传,上传至数据结果库中,但是由于客户需求不尽相同，因此可以把结果库中的数据直接提供给客户，或者通过 ICDS 直接把数据返回给客户。针对一些离散数据查询，由每个节点同时提供数据业务,大大提高数据数据检索并发服务。在数据统计方面，由于每个节点均可以提供数据服务，并且每个节点的数据存储情况，可以自动重复数据冗余等机制，保证数据在每个节点上可以自由的组合，提供客户数据检索，统计服务。特点：数据块大小根据每个节点数据库来定制每个数据节点均可以对外提供数据检索服务，大大提高了数据检索并发度
·604·

《2013 信息通信网技术业务发展研讨会》论文集
针对离散的数据，比如个人话单查询，审计查询，检索等，ICDS 检索的 I/O 的量很小，远远小于目前的 HADOOP 等。操作步骤：数据检索的流程如下：
发起数据检索服务数据检索把命令发给所有的路由节点路由节点根据命令把数据分发给相应的数据节点数据节点执行完操作之后，把数据返回给结果库在通过 Mapreduce 把数据返回给查询节点查询节点把数据返回给客户。
6
和现有技术对比
目前针对于大数据存储方案很多,例如 Oracle 的 EXADATA 一体机，HADOOP 开源
框架，GREEN PLUM 产品等多种数据提供解决方案,但是每个方案均有自己的特点。
·605·

《2013 信息通信网技术业务发展研讨会》论文集
EXDATA 投资扩展性灵活性存储方式提供服务接口数据检索冗余管理异构昂贵困难不可以自由扩展 Oracle 数据库 Oracle 支持各种关联 ASM 冗余管理仅支持 Linux
HADOOP 开源容易可以自由扩展 HADOOP 文件系统文件系统不支持自动备份冗余数据块各种操作系统异构
GREEN PLUM EMC 容易可以自由扩展 PostgreSql 一个接口简单的数据关联数据库节点冗余 Linux
本例自主容易可以自由扩展 Mysql/PostgreSql/oracle 等每个节点均是对外的接口简单的数据关联数据库节点冗余各种操作系统异构
参考文献 Spring 攻略（美）GaryMak 人民邮电出版社 , 2005..
作者简介崔希宁男，1974 年生，河北邢台人。北京化工大学信息科学与技术学院计算机应用硕士。2000-2002 在信息产业部数据通讯研究所高级系统工程师，2002-今在中国移动北京公司信息系统部系统维护中心任系统专家。从事支撑系统的系统设计建设，优化工作。核心期刊发表论文《面向电信业务的端到端性能管理实现》《套装软件环境下系统构架的性能设计与管理》《一种云计算动态扩展算法和分布计算构架及在电信支撑系统中的实现》《智能信息生命周期理论及在电信支撑系统数据中心的应用》等著作。
·606·

大数据处理平台构架设计说明书

大数据处理平台及可视化架构设计说明书版本：1.0 变更记录

目录 1 1. 文档介绍 (3) 1.1文档目的 (3) 1.2文档范围 (3) 1.3读者对象 (3) 1.4参考文献 (3) 1.5术语与缩写解释 (3) 2系统概述 (4) 3设计约束 (5) 4设计策略 (6) 5系统总体结构 (7) 5.1大数据集成分析平台系统架构设计 (7) 5.2可视化平台系统架构设计 (11) 6其它 (14) 6.1数据库设计 (14) 6.2系统管理 (14) 6.3日志管理 (14)

1 1. 文档介绍 1.1 文档目的设计大数据集成分析平台，主要功能是多种数据库及文件数据；访问；采集；解析，清洗，ETL，同时可以编写模型支持后台统计分析算法。设计数据可视化平台，应用于大数据的可视化和互动操作。为此，根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。 1.2 文档范围大数据的处理，包括ETL、分析、可视化、使用。 1.3 读者对象管理人员、开发人员 1.4 参考文献 1.5 术语与缩写解释

2 系统概述大数据集成分析平台,分为9个层次，主要功能是对多种数据库及网页等数据进行访采集、解析，清洗，整合、ETL，同时编写模型支持后台统计分析算法，提供可信的数据。设计数据可视化平台 ,分为3个层次，在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。

3 设计约束 1.系统必须遵循国家软件开发的标准。 2.系统用java开发，采用开源的中间件。 3.系统必须稳定可靠，性能高，满足每天千万次的访问。 4.保证数据的成功抽取、转换、分析，实现高可信和高可用。

大数据处理详细设计

目录目录 ................................................................................................................... 错误!未指定书签。 1.引言 ................................................................................................................ 错误!未指定书签。 1.1背景与目的.......................................................................................... 错误!未指定书签。 1.2专业术语及说明.................................................................................. 错误!未指定书签。 1.3参考资料.............................................................................................. 错误!未指定书签。 2. 设计概述....................................................................................................... 错误!未指定书签。 2.1任务及目标.......................................................................................... 错误!未指定书签。 2.2需求概述.............................................................................................. 错误!未指定书签。 2.3运行环境概述...................................................................................... 错误!未指定书签。 3.系统详细需求分析......................................................................................... 错误!未指定书签。 3.1详细需求分析...................................................................................... 错误!未指定书签。 4.总体设计方案................................................................................................. 错误!未指定书签。 4.1系统总体结构...................................................................................... 错误!未指定书签。 4.2系统模块划分...................................................................................... 错误!未指定书签。 5.系统详细设计................................................................................................. 错误!未指定书签。 5.1系统结构设计...................................................................................... 错误!未指定书签。 5.2系统功能模块详细设计...................................................................... 错误!未指定书签。 6.信息编码设计................................................................................................. 错误!未指定书签。 6.1代码结构设计...................................................................................... 错误!未指定书签。 6.2代码命名规则...................................................................................... 错误!未指定书签。 7.维护设计......................................................................................................... 错误!未指定书签。 7.1系统的可靠性和安全性...................................................................... 错误!未指定书签。 7.2系统及用户维护设计.......................................................................... 错误!未指定书签。 7.3系统扩充设计...................................................................................... 错误!未指定书签。 8.系统配置......................................................................................................... 错误!未指定书签。 8.1硬件配置.............................................................................................. 错误!未指定书签。 8.2软件配置.............................................................................................. 错误!未指定书签。 9.关键技术......................................................................................................... 错误!未指定书签。 9.1关键技术的一般说明.......................................................................... 错误!未指定书签。 9.2关键技术的实现方案.......................................................................... 错误!未指定书签。 10. 测试............................................................................................................. 错误!未指定书签。 10.1测试方案............................................................................................ 错误!未指定书签。

技术向如何设计企业级大数据分析平台

技术向：如何设计企业级大数据分析平台？传统企业的OLAP几乎都是基于关系型数据库，在面临“大数据”分析瓶颈，甚至实时数据分析的挑战时，在架构上如何应对？本文试拟出几个大数据OLAP平台的设计要点，意在抛砖引玉。突破设计原则建设企业的大数据管理平台（Big Data Management Platform），第一个面临的挑战来自历史数据结构，以及企业现有的数据库设计人员的观念、原则。数据关系、ACID 在关系数据库几十年的统治时期是久得人心，不少开发人员都有过为文档、图片设计数据表，或将文档、图片序列化为二进制文件存入关系数据库的经历。在BDMP之上，我们需要对多种不同的格式的数据进行混合存储，这就必须意识到曾经的原则已经不再适用——One size dosen’t fit all，新的原则——One size fits a bunch. 以下是我列出的一些NoSQL数据库在设计上的模式：文档数据库：数据结构是类JSON，可以使用嵌入（Embed）或文档引用（Reference）的方式来为两个不同的文档对象建立关系；

列簇数据库：基于查询进行设计，有宽行（Wild Rows）和窄行（Skinny Rows）的设计决策；索引数据库：基于搜索进行设计，在设计时需要考虑对对每个字段内容的处理（Analysis）。搜索和查询的区别在于，对返回内容的排序，搜索引擎侧重于文本分析和关键字权重的处理上，而查询通常只是对数据进行单列或多列排序返回即可。数据存储的二八原则不少企业在解决海量数据存储的问题上，要么是把关系数据库全部往Hadoop上一导入，要么是把以前的非结构化数据如日志、点击流往NoSQL数据库中写入，但最后往往发现前者还是无法解决大数据分析的性能瓶颈，后者也无法回答数据如何发挥业务价值的问题。在数据的价值和使用上，其实也存在着二八原则： 20%的数据发挥着80%的业务价值； 80%的数据请求只针对20%的数据。目前来看，不管是数据存储处理、分析还是挖掘，最完整和成熟的生态圈还是基于关系型数据库，比如报表、联机分析等工具；另外就是数据分析人员更偏重于查询分析语言如SQL、R、Python数据分析包而不是编程语言。企业大数据平台建设的二八原则是，将20%最有价值的数据——以结构化的形式存储在关系型数据库中供业务人员进行查询和分析；而将80%的数据——以非结构化、原始形式存储在相对廉价的Hadoop等平台上，供有一定数据挖掘技术的数据分析师或数据工

大数据平台建设方案

大数据平台建设方案（项目需求与技术方案）一、项目背景 “十三五”期间，随着我国现代信息技术的蓬勃发展，信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌，信息化应用进入一个“新常态”。***（某政府部门）为积极应对“互联网+”和大数据时代的机遇和挑战，适应全省经济社会发展与改革要求，大数据平台应运而生。大数据平台整合省社会经济发展资源，打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台，以信息化提升数据化管理与服务能力，及时准确掌握社会经济发展情况，做到“用数据说话、用数据管理、用数据决策、用数据创新”，牢牢把握社会经济发展主动权和话语权。二、建设目标大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析，实现企业信用社会化监督，建立规范化共建共享投资项目管理体系，推进政务数据共享和业务协同，为决策提供及时、准确、可靠的信息依据，提高政务工作的前瞻性和针对性，加大宏观调控力度，促进经济持续健康发

展。 1、制定统一信息资源管理规范，拓宽数据获取渠道，整合业务信息系统数据、企业单位数据和互联网抓取数据，构建汇聚式一体化数据库，为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性，编制数据资源目录，建立信息资源交换管理标准体系，在业务可行性的基础上，实现数据信息共享，推进信息公开，建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上，为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。三、建设原则大数据平台以信息资源整合为重点，以大数据应用为核心，坚持“统筹规划、分步实施，整合资源、协同共享，突出重点、注重实效，深化应用、创新驱动”的原则，全面提升信息化建设水平，促进全省经济持续健康发展。

大数据平台构思方案

大数据平台构思方案（项目需求与技术方案）一、项目背景 “十三五”期间，随着我国现代信息技术的蓬勃发展，信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌，信息化应用进入一个“新常态”。***（某政府部门）为积极应对“互联网+”和大数据时代的机遇和挑战，适应全省经济社会发展与改革要求，大数据平台应运而生。大数据平台整合省社会经济发展资源，打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台，以信息化提升数据化管理与服务能力，及时准确掌握社会经济发展情况，做到“用数据说话、用数据管理、用数据决策、用数据创新”，牢牢把握社会经济发展主动权和话语权。二、建设目标大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析，实现企业信用社会化监督，建立规范化共建共享投资项目管理体系，推进政务数据共享和业务协同，为决策提供及时、准确、可靠的信息依据，提高政务工作的前瞻性和针对性，加大宏观调控力度，促进经济持续健康发

大数据平台概要设计说明书

文件修改记录

目录 1.引言 ........................................................................................... 1.1编写目的................................................. 1.2术语与缩略词............................................. 1.3对象及范围............................................... 1.4参考资料................................................. 2.系统总体设计 ............................................................................. 2.1需求规定................................................. 2.1.1数据导入............................................ 2.1.2数据运算............................................ 2.1.3运算结果导出........................................ 2.1.4系统监控............................................ 2.1.5调度功能............................................ 2.1.6自动化安装部署与维护................................ 2.2运行环境................................................. 2.3基本设计思路和处理流程................................... 2.4系统结构................................................. 2.4.1大数据运算系统架构图................................ 2.4.2hadoop体系各组件之间关系图......................... 2.4.3计算平台系统功能图.................................. 2.4.4系统功能图逻辑说明.................................. 2.4.5计算平台业务流程图..................................

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理在我们实际生活中,事务型数据处理需求非常常见,例如：淘宝网站交易系统、1２306网站火车票交易系统、超市ＰOＳ系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。二就是计算相对简单，一般只有少数几步操作组成，比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成；五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如OＲＡＣLＥ、MＹSQL、SQＬSERVER,再加数据复制（DataGurａd、RＭAＮ、ＭｙSQＬ数据复制等)等高可用措施即可满足业务需求。在数据量与并发交易量增加情况下，一般可以采用ORＡLＣＥRAC集群方式或者就是通过硬件升级（采用小型机、大型机等，如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、1230６等互联网企业中,由于数据量大、访问并发量高，必然采用分布式技术来应对,这样就带来了分布式事务处理问题，而分布式事务处理很难做到高效，因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

２数据统计分析数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等．数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算，每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂，例如会涉及大量goｕpbｙ、子查询、嵌套查询、窗口函数、聚合函数、排序等；有些复杂统计可能需要编写ＳQＬ脚本才能实现．三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计；传统得数据统计分析主要采用基于ＭＰP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法，把数据整理成适合统计分析得结构来实现高性能得数据统计分析，以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。另外目前在数据统计分析领域,为了满足交互式统计分析需求，基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘数据挖掘主要就是根据商业目标，采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

大数据处理详细设计说明

目录目录 (1) 1.引言 (2) 1.1背景与目的 (2) 1.2专业术语及说明 (3) 1.3参考资料 (3) 2. 设计概述 (4) 2.1任务及目标 (4) 2.2需求概述 (5) 2.3运行环境概述 (5) 3.系统详细需求分析 (6) 3.1详细需求分析 (6) 4.总体设计方案 (7) 4.1系统总体结构 (7) 4.2系统模块划分 (8) 5.系统详细设计 (9) 5.1系统结构设计 (9) 5.2系统功能模块详细设计 (10) 6.信息编码设计 (11) 6.1代码结构设计 (11) 6.2代码命名规则 (12)

7.维护设计 (12) 7.1系统的可靠性和安全性 (12) 7.2系统及用户维护设计 (12) 7.3系统扩充设计 (12) 8.系统配置 (13) 8.1硬件配置 (13) 8.2软件配置 (13) 9.关键技术 (13) 9.1关键技术的一般说明 (13) 9.2关键技术的实现方案 (14) 10. 测试 (14) 10.1测试方案 (14) 1.引言 1.1背景与目的当下互联网和计算机技术越来越多的被各行各业利用，于是产生了海量的数据。进入

2012年后，“大数据”一词越来越多的被提及，人们用它来描述和定义信息爆照时代产生的海量数据。显而易见地，数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然现在企业可能还没有意识到，但随着时间的推移，人们将越来越多的意识到数据对企业的重要性。而这就需要有一种框架来分析处理这种大数据。对于电力行业更是如此，电力方面每时每刻都在产生着大量的数据，而对这些数据的分析和利用有着巨大的市场前景和意义。 1.2专业术语及说明 Hadoop ：一种分布式基础架构，由Apache基金会开发。用户可以在不了解分布是底层细节的情况下，开发分布式程序。充分利用集群的威力运算和存储。Hadoop实现了一个分布式系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。 Hbase：是一个分布式的、面向列的开源数据库。 Mapreduce：是一种编程模型，用于大规模数据集（大于1T）的并行运算。当前的软件实现是指定一个Map函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce函数，用来保证所有的映射的键值对中的每一个共享相同的键组。 1.3参考资料

大数据功能模块概要设计-V1.1Word版

第1章系统总体架构

第2章通用组件 2.1 基础页面组件前端页面JS框架，采用jquery为基础开发框架；为考虑对IE6，7，8的兼容性；建议版本为：1.7.2；基于jquery的UI框架，目前流行的有：easyui 、jquery ui 、dwz；这三个各有一部分对基础页面组件的支持；（考虑到这些基础UI框架可能存在的不兼容性，建议只选择一个，对于UI框架不支持的组件，另外选择开源提供）对于常用的基础页面组件选型如下：

2.2 基础技术组件

2.3 基础类库 J2EE服务端开发所需要的基础类库包括： apache-common 对基础类的一些扩展；包括了：commons-beanutils.jar \ commons-collections.jar \ commons-fileupload.jar \ commons-io.jar \ commons-lang.jar \ commons-lang3.jar \ commons-logging.jar json-lib 对json数据格式的解析、封装；提供将json字符串，到Bean或者List的转换；或者将Bean或者List转换为 json字符串； junit 进行单元测试的基础包；建议使用 junit4 struts2 / spring mvc MVC 的 C 层的选型 spring 业务处理逻辑层，建议使用spring3.0以上版本； ibatis / mybatis/ hibernate ORM层的选型

第3章选型 3.1 中间件商业：weblogic、webshpere 开源：jboss、jetty、tomcat 对于中间件有要求：部署的时候，需要支持jdk6.0；如果是weblogic建议使用10.3以上版本，采用sun-jrocket的jdk; websphere 要求6.1以上版本； 3.2 数据库 3.2.1 关系型 Oracle / MySQL; 如果是oracle，要求10g以上版本，并且已经升级地理数据库 3.2.2 NoSQL mongodb / hadoop / hive /hbase /memcached/redis 3.3 底层开发框架 3.3.1 Java 服务端开发框架 struts2 + spring3+ ibatis (?mybatis)? spring3+ibatis (?mybatis) ?

大数据处理综合处理服务平台的设计实现分析报告

大数据处理综合处理服务平台的设计与实现（广州城市职业学院广东广州510405）摘要：在信息技术高速发展的今天，金融业面临的竞争日趋激烈，信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。大数据综合处理服务平台支持灵活构建面向数据仓库、实现批量作业的原子化、参数化、操作简单化、流程可控化，并提供灵活、可自定义的程序接口，具有良好的可扩展性。该服务平台以SOA为基础，采用云计算的体系架构，整合多种ETL技术和不同的ETL工具，具有统一、高效、可拓展性。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据，提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。该研究与设计打破跨国厂商在金融软件方面的垄断地位，促进传统优势企业走新型信息化道路，充分实现了“资源共享、低投入、低消耗、低排放和高效率”，值得大力发展和推广。关键词：面向金融，大数据，综合处理服务平台。一、研究的意义目前，全球IT行业讨论最多的两个议题，一个是大数据分析“Big Data”，一个是云计算“Cloud Computing”。

中国五大国有商业银行发展至今，积累了海量的业务数据，同时还不断的从外界收集数据。据IDC（国际数据公司）预测，用于云计算服务上的支出在接下来的5 年间可能会出现3 倍的增长，占据IT支出增长总量中25%的份额。目前企业的各种业务系统中数据从GB、TB到PB量级呈海量急速增长，相应的存储方式也从单机存储转变为网络存储。传统的信息处理技术和手段，如数据库技术往往只能单纯实现数据的录入、查询、统计等较低层次的功能，无法充分利用和及时更新海量数据，更难以进行综合研究，中国的金融行业也不例外。中国五大国有商业银行发展至今，积累了海量的业务数据，同时还不断的从外界收集数据。通过对不同来源，不同历史阶段的数据进行分析，银行可以甄别有价值潜力的客户群和发现未来金融市场的发展趋势，针对目标客户群的特点和金融市场的需求来研发有竞争力的理财产品。所以，银行对海量数据分析的需求是尤为迫切的。再有，在信息技术高速发展的今天，金融业面临的竞争日趋激烈，信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。随着国内银行业竞争的加剧，五大国有商业银行不断深化以客户为中心，以优质业务为核心的经营理念，这对银行自身系统的不断完善提出了更高的要求。而“云计算”技术的推出，将成为银行增强数据的安全性和加快信息共享的速度，提高服务质量、降低成本和赢得竞争优势的一大选择。

常见的大数据平台架构设计思路【最新版】

常见的大数据平台架构设计思路近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层难以直接利用大数据大数据，大数据和业务产生了巨大的鸿沟，这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一系列问题，本文介绍了一些数据平台设计思路来帮助业务减少数据开发中的痛点和难点。本文主要包括以下几个章节: 本文第一部分介绍一下大数据基础组件和相关知识。第二部分会介绍lambda架构和kappa架构。第三部分会介绍lambda和kappa架构模式下的一般大数据架构第四部分介绍裸露的数据架构体系下数据端到端难点以及痛点。第五部分介绍优秀的大数据架构整体设计从第五部分以后都是在介绍通过各种数据平台和组件将这些大数据组件结合起来打造一套高效、易用的数据平台来提高业务系统效能，让业务开发不在畏惧复杂的数据开发组件，无需关注底层实现，

只需要会使用SQL就可以完成一站式开发，完成数据回流，让大数据不再是数据工程师才有的技能。一、大数据技术栈大数据整体流程涉及很多模块，每一个模块都比较复杂，下图列出这些模块和组件以及他们的功能特性，后续会有专题去详细介绍相关模块领域知识，例如数据采集、数据传输、实时计算、离线计算、大数据储存等相关模块。二、lambda架构和kappa架构目前基本上所有的大数据架构都是基于lambda和kappa 架构，不同公司在这两个架构模式上设计出符合该公司的数据体系架构。lambda 架构使开发人员能够构建大规模分布式数据处理系统。它具有很好的灵活性和可扩展性，也对硬件故障和人为失误有很好的容错性，关于lambda架构可以在网上搜到很多相关文章。而kappa架构解决了lambda架构存在的两套数据加工体系，从而带来的各种成本问题，这也是目前流批一体化研究方向，很多企业已经开始使用这种更为先进的架构。 Lambda架构

大数据平台概要设计说明书

大数据平台概要设计说明书 Coca-cola standardization office【ZZ5AB-ZZSYT-ZZ2C-ZZ682T-ZZT18】

文件修改记录

1.引言 1.1编写目的大数据泛指巨量的数据集，因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料，大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富，价值堪比石油。因此，发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。互联网特别是移动互联网的发展，加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示，1998年全球网民平均每月使用流量是1MB（兆字节），2000年是10MB，2003年是100MB，2008年是1GB（1GB等于1024MB），2014年将是 10GB。全网流量累计达到1EB（即10亿GB或1000PB）的时间在2001年是一年，在2004年是一个月，在2007年是一周，而2013年仅需一天，即一天产生的信息量可刻满亿张DVD光盘。我国网民数居世界之首，每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易，单日数据产生量超过50TB（1TB等于1000GB），存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB，存储网页数量接近1万亿页，每天大约要处理60亿次搜索请求，几十PB数据。一个8Mbps（兆比特每秒）的摄像头一小时能产生数据，一个城市若安装几十万个交通和安防摄像头，每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在，一个病人的CT影像数据量达几十GB，而全国每年门诊人数以数十亿计，并且他们的信息需要长时间保存。总之，大数据存在于各行各业，一个大数据时代正在到来。信息爆炸不自今日起，但近年来人们更加感受到大数据的来势迅猛。一方面，网民数量不断增加，另一方面，以物联网和家电为代表的联网设备数量增长更快。2007年全球有5亿个设备联网，人均个；2013年全球将有500亿个设备联网，人均70个。随着宽带化的发展，人均网络接入带宽和流量也迅速提升。全球新产生数据年增40%，即信息总量每两年就可以翻番，这一趋势还将持续。目前，单一数据集容量超过几十TB甚至数PB已不罕见，其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。

福建省生态环境大数据平台概要设计v0.2

福建省生态环境大数据平台概要设计 1.整体设计思想福建省生态环境大数据平台立足于福建省各种生态环境数据；通过多种渠道，采集与生态及环保有关的海量数据；采用当前最前沿的大数据技术（并行计算技术、人工智能技术），对数据等进行挖掘建模和机器学习建模，通过数据挖掘发现隐藏于其后的规律或数据间的关系，充分挖掘这些数据的价值，从而形成能实际应用于民生的新生数据；作为专家及政府的决策依据，辅助政府精细化决策,辅助专家预测将来可能有出现的环保问题；并能解决现实中真实发生的环保问题；从而改善环境，提升居民生活环境的质量，和百姓生活的福祉。平台建成后，将形成一个完整的基于大数据的生态环境数据智能化收集、智能化核算分析、智能化发布和智能化监管体系，这一平台体系可以把福建省生态环境状况，全面、直观地展现给政府部门和社会公众。同时环保部门可以重点关注核电站周边生态环境实况。通过可测量、可核查的生态环境数据，为福建省的生态环境现状评估、趋势预测、潜力分析、目标制定与跟踪，提供决策服务，进而实现对生

态环境重点污染源、生态环境动态变化进行有效监管，并为建设生态环境交易市场体系奠定基础。从使用者的角度看，所有的平台数据集中到统一的逻辑平面上来；平台以省、市、县分级别多视角展示生态环境实时信息，以全息,动态的地图形式全方位地展现给使用者。平台为各类使用者提供不同的观察视角；领导能查看实时汇总信息，核辐射区大气实况；环保工作能查看各类精细报表与指标，并能搜索工作中所需要的信息。展现方式有：电子大屏幕播放，WEB浏览, 手机APP访问等三种方式。从数据处理的角度看，平台运行后将建成以生态环境数据为中心的开放式数据中心，广泛收集来自气象，农林，海洋,交通，能源, 车联网等第三方数据，同时也给第三方输出数据并分享成果数据；为后续深度学习积累数据样本，将来平台具备很强的自我学习能力。 2.用户使用场景环保领导大屏查看全局实时信息情况，核核辐射区大气实况,查看汇总报表，指挥环境突发事件处理。环保科学家使用多级分析报告，生成各类分析结果，导入环保知识库，搜索各类数据。

大数据平台方案设计

项目技术方案大数据平台方案设计 1.1需求分析 1.1.1采购范围与基本要求建设XX高新区开发区智慧园区的人口库（12万居民）、法人库(1200家企业)、地理信息库(已建设区域35平方公里的3维电子地图、未建设区域80平方公里的航拍电子地图)、视频库(1000个摄像点)、大数据处理平台、数据管理服务平台。 1.1.2建设内容要求 1.1. 2.1人口库人口库的基本信息以公安部门户籍和暂住人口信息为基础，整合人社、计生、民政、教育等多个部门信息资源，建设统一规范的人口库和人口信息服务平台。 (1)人口库的内容目录

数据库层：能够安全存储人口库的内容目录中列出的信息内容，对居民、企业、政府提供安全的人口信息服务，为人口大数据分析提供基本数据源。应用支撑层：包括门户框架、数据库维护、报表组件、数据挖掘等，用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法，利用大数据平台的计算能力进行分析，对人口库数据进行数据挖掘与发现，提供有价值的分析结果。应用层：包括人口信息服务、人口专题分析、公共服务等。 1.1. 2.2法人库法人库以工商部门的企业信息为基础，整合各参建部门系统中的法人信息，如机构代码、机构名称、机构类型、经济行业、业务经营范围、机构地址、法定代表人等字段信息，建成标识统一、结构科学、查询快捷、动态管理的法人信息库。制定与交换平台对应的相关标准、制度和规范管理体系，实现工商局、地税局、国税局、质量技术监督局等法人数据相关业务部门之间的网络互联和业务数据的实时交换与应用。 (1)法人库的内容目录

数据库层：能够安全存储法人库的内容目录中列出的信息内容，对居民、企业、政府提供安全的法人信息服务，为法人大数据分析提供基本数据源。应用支撑层：包括门户框架、数据库维护、统计与报表组件、数据挖掘等，用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法，利用大数据平台的计算能力进行分析，对法人库数据进行数据挖掘与发现，提供有价值的分析结果。应用层：包括法人信息服务、法人专题分析、公共服务等。 1.1. 2.3地理信息库以国土资源部空间地理数据框架作为基础，采用分布式存储并行计算的技术思路统一搭建地理信息库，再与智慧园区建设涉及的各类专题图层进行融合、关联，实现统一共享，逐渐形成XX高新区权威、丰富的地理信息数据库。要求根据不同信息资源类别，提供数据库表结构设计。地理信息库维护文件主要提供地图基本操作、地图测量、图层控制、空间分析等信息服务功能。地理信息库配置一套高性能GIS工具软件，基于高性能云GIS平台搭建，实现空间数据的统一管理，完成空间数据检查、转换、入库、管理、制图显示、服务发布等一系列空间数据分析处理功能。 (1)地理信息库的内容目录

大数据处理详细设计说明

目录目录 1?引言 1.1背景与目的 1.2专业术语及说明 3. 1.3参考资料 2.设计概述 2.1任务及目标 2.2需求概述 2.3运行环境概述 3.系统详细需求分析 6. 3.1详细需求分析 4.总体设计方案 4.1系统总体结构7 . 4.2系统模块划分 5.系统详细设计.9 . 5.1系统结构设计 5.2系统功能模块详细设计 1. Q 6.信息编码设计 6.1代码结构设计 1.1 6.2代码命名规则12

7?维护设计12 7.1系统的可靠性和安全性12 7.2系统及用户维护设计12 7.3系统扩充设计12 8.系统配置13 8.1硬件配置.1. 3. 8.2软件配置.1. 3. 9.关键技术13 9.1关键技术的一般说明13 9.2关键技术的实现方案14 10.测试.14 . 10.1测试方案14 1.引言 1.1背景与目的当下互联网和计算机技术越来越多的被各行各业利用，于是产生了海量的数据。进入

2012年后，大数据”一词越来越多的被提及，人们用它来描述和定义信息爆照时代产生的海量数据。显而易见地，数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然现在企业可能还没有意识到，但随着时间的推移，人们将越来越多的意识到数据对企业的重要性。而这就需要有一种框架来分析处理这种大数据。对于电力行业更是如此，电力方面每时每刻都在产生着大量的数据，而对这些数据的分析和利用有着巨大的市场前景和意义。 1.2专业术语及说明 Hadoop : —种分布式基础架构，由Apache基金会开发。用户可以在不了解分布是底层细节的情况下，开发分布式程序。充分利用集群的威力运算和存储。Hadoop实现了一个分布式系统 (Hadoop Distributed File System )，简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的(low-cost )硬件上。而且它提供高传输率 (high throughput )来访问应用程序的数据，适合那些有着超大数据集(large data set )的应用程序。HDFS放宽了 ( relax) POSIX的要求 (requirements )这样可以流的形式访问 (streaming access )文件系统中的数据。 Hbase :是一个分布式的、面向列的开源数据库。 Map reduce :是一种编程模型，用于大规模数据集 (大于1T)的并行运算。当前的软件实现是指定一个Map函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce函数，用来保证所有的映射的键值对中的每一个共享相同的键组。

大数据开发工程师的具体职责

大数据开发工程师的具体职责大数据开发工程师的具体职责1 职责: 1、负责公司大数据平台数据处理工具ETL、流处理平台等建设，功能规划，平台演进，维护调优等; 2、结合公司业务特征，负责公司数据仓库规划、数据仓库建设、数仓管理等; 3、负责大数据处理技术研究及新技术引进，参与超大规模实时/离线数据计算框架，存储、查询、可视化解决方案的设计，研发; 4、负责公司业务数据仓库模型建设及全业务数据域打通; 5、负责BI报表和可视化项目，和客户深度沟通，理解客户的业务挑战，提供解决方案，制定开发计划并执行，支持各单位日常数据需求和任务; 任职资格: 1、熟练掌握关系型数据库,例如：Oracle、Mysql、Vertica等;熟悉NoSql数据库，例如HBase、Redis、MongodDB等;具备丰富的数据库管理和运维调优经验; 2、熟悉数据仓库领域知识和技能者优先，包括但不局限于：元数据管理、数据开发测试工具与方法、数据质量、主数据管理，数据打通等; 3、有从事分布式数据存储与计算平台应用开发经验，熟悉Hadoop生态相关技术并有相关实践经验着优先，如Hdfs、Mapreduce、Hive、Hbase、Spark、Storm; 4、精通数据预处理、检验、清洗、分析方法，精通各种常用统计检验方法;熟练掌握一门或多门编程语言，并有大型项目建设经验者优先，如Java、Python、Shell和scala等; 5、精通Linux，熟悉日常运维、搭建常见服务器、定位解决日常问题的能力，具备ETL开发经验优先; 6、良好的语言沟通与表达能力，有丰富的数据开发经验，较强的数据、平台、技术理解能力; 7、具备数学类、计算机类等相关专业统招本科及以上学历，具有3年及以上大数据开发工作经验，有互联网行业背景优先。大数据开发工程师的具体职责2 职责： 1、在hadoop平台进行hive/hbase/spark开发; 2、处理公司大数据平台产品的技术工作，包括存储、处理、分析、挖掘、架构设计、研发工作; 3、熟悉设计、构建和优化基于hadoop/Hbase的存储平台架构; 4、熟悉整体提升hadoop/Hbase/Storm/Spark集群的高可用性、高性能、高扩展特性; 5、部门相关工作。岗位要求： 1、计算机等相关专业大专及以上学历; 2、3年以上软件开发经验，精通Java开发，至少2年以上Hadoop相关开