大数据分析系统架构之探讨

一、Hadoop生态圈： (3)

Hadoop (3)

HBase (5)

Hive (5)

Apache Pig: (6)

Impala： (6)

Flume： (6)

Sqoop: (7)

Chukwa： (7)

Mahout: (8)

Hama: (8)

Giraph： (8)

Storm： (8)

ZooKeeper： (8)

Ambari: (8)

Oozie： (8)

Cloudera Hue： (9)

二、Spark生态圈： (9)

Spark： (9)

Spark SQL： (10)

Spark Streaming： (11)

MLLib： (12)

GraphX ： (12)

SparkR ： (13)

Tachyon： (14)

Mesos: (15)

Yarn: (15)

BlinkDB ： (16)

三、结构化数据生态圈： (16)

OLAP (17)

HANA (17)

Spark与Hadoop的对比 (18)

Spark与Hadoop的结合 (18)

Spark的适用场景 (18)

案例： (19)

大数据分析系统架构之探讨

前言:

对于大数据平台，本人也没实际实践过，所以，做为一个初学者的身份与大家探索这个问题，如有欠妥之处，请多多包涵！

首先，先让我们来看看大数据平台架构的集装箱里可有哪些零件。

一、Hadoop生态圈：

数据计算平台：

Hadoop

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFS是Hadoop分布式文件系统（Hadoop Distributed File Sys

tem）的缩写，为分布式计算存储提供了底层支持。采用Java语言开发，可以部署在多种普通的廉价机器上，以集群处理数量积达到大型主机处理性能。HDFS采用master/slave架构。一个HDFS集群包含一个单

独的NameNode和多个DataNode。NameNode作为master服务，它负责管理文件系统的命名空间和客户端对文件的访问。NameNode会保存文件系统的具体信息，包括文件信息、文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。对于整个集群来说，HDFS通过NameNode对用户提供了一个单一的命名空间。DataNode作为slave服务，在集群中可以存在多个。通常每一个DataNode都对应于一个物理节点。DataNode负责管理节点上它们拥有的存储，它将存储划分为多个block块，管理block块信息，同时周期性的将其所有的block块信息发送给NameNode。

下图为HDFS系统架构图，主要有三个角色，Client、NameNode、DataNode。

在Hadoop的系统中，会有一台master，主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台slave，每一台slave通常具有DataNode 的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。

MapReduce用于大规模数据集群分布式运算。任务的分解（Map）与结果的汇总（Reduce）是其主要思想。Map就是将一个任务分解成多个任务，Reduce就是将分解后多任务分别处理，并将结果汇总为最终结果。

数据存储：

HBase

HBase是基于HDFS存储的一个分布式的、面向列的开源数据库。它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。可以这么理解，在HDFS上，我们看到的是一些非结构，零散的文件数据，透过HBase可以将这些零散的、非结构文件数据结构化。从而可以进行一些高层次的操作，例如建表、增加、删除、更改、查找等，与传统的数据库不同的是HBase采用的是列式存储而不是行式存储。

其特点：

1 高可靠性

2 高效性

3 面向列

4 可伸缩

5 可在廉价PC Server搭建大规模结构化存储集群

数据提取与分析：

Hive

Hive是建立在Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据。同时，这个语言也允许熟悉MapReduce

开发者的开发自定义的mapper 和reducer 来处理内建的mapper 和reducer 无法完成的复杂的分析工作。

Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 并不能够在大规模数据集上实现低延迟快速的查询，例如，Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此，

Hive 并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

Apache Pig:

是一个基于Hadoop的大规模数据分析工具，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

Impala：

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能够查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但是由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性；相比之下，Impala的最大特点就是快速。

优点：

Impala的查询效率相比Hive，有数量级的提升。从技术角度上来看，Impala之所以能有好的性能，主要有如下几方面的原因：

1）Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。

2）省掉了MapReduce作业启动的开销。MapReduce启动task的速度是很慢的（默认每个心跳间隔是3秒钟），Impala直接通过相应的服务进程来进行作业调度，速度快了很多。

3）Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式，而是像Dremel一样借鉴了MPP并行数据库的思想，从新另起炉灶，因此可以做更多的查询优化，从而能省掉不必要的shuffle，sort等开销；4）通过使用LLVM来统一编译运行时代码，避免了为支持通用编译而带来的不必要开销；

5）用C++实现，做了很多有针对性的硬件优化，例如使用SSE指令；

6）使用了支持Data locality的I/O调度机制，尽可能的将数据和计算分配在同一台机器上进行，减少了网络开销；

日志类收集工具：

Flume：

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

flume的逻辑架构：

其中，storage是存储系统，可以是一个普通file，也可以是HDFS，HIVE，HBase，分布式存储等。Sqoop:

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中数据导入Hadoop的HDFS中，也可以将HDFS中数据导入关系型数据库中。

sqoop架构：

Chukwa：

Chukwa是一个开源的用于监控大型分布式系统的数据收集系统，它可以将各种各样类型的数据收集成适合Hadoop 处理的文件保存在HDFS 中供Hadoop 进行各种MapReduce 操作。

数据计算：

Mahout:

Apache Mahout是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce 实现了部分数据挖掘算法，解决了并行挖掘的问题.

Hama:

是一个基于HDFS的BSP（Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

Giraph：

Giraph是一个可伸缩的分布式迭代图处理系统，基于Hadoop平台，灵感来自BSP (bulk synchronous parallel) 和Google 的Pregel。

实时流数据处理：

Storm：

Storm是一个基于内存的实时流处理系统。适合于大批量小型数据的处理，实时性较好，基本上是毫秒级级别。

资源管理与调度：

ZooKeeper：

Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Ambari:

Ambari是一种基于Web的工具，支持Hadoop集群的供应、管理和监控。

Oozie：

Oozie: 是一个工作流引擎服务器, 用于管理和协调运行在Hadoop平台上（HDFS、Pig和MapReduce）的任务。

Cloudera Hue：

Cloudera Hue是一个基于WEB的监控和管理系统，实现对HDFS，MapReduce/YARN, HBase, Hive, Pig 的web化操作和管理。

二、Spark生态圈：

Spark：

Spark是基于内存分布式的计算框架。spark立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。

Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架，而Scala的语言特点也铸就了大部分Spark 的成功。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对Hadoop 的补充，可以在 Hadoop文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。

虽然 Spark 与 Hadoop 有相似之处，但它提供了具有有用差异的一个新的集群计算框架。首先，Spark 是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。为了优化这些类型的工作负载，Spark 引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟。

Spark 还引进了名为弹性分布式数据集 (RDD) 的抽象。RDD 是分布在一组节点中的只读对象集合。这些集合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。重建部分数据集的过程依赖于容错机制，该机制可以维护“血统”（即充许基于数据衍生过程重建部分数据集的信息）。RDD 被表示为一个 Scala 对象，并且可以从文件中创建它；一个并行化的切片（遍布于节点之间）；另一个 RDD 的转换形式；并且最终会彻底改变现有 RDD 的持久性，比如请求缓存在内存中。

Spark 中的应用程序称为驱动程序，这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与 Hadoop 类似，Spark 支持单节点集群或多节点集群。对于多节点操作，Spark 依赖于Mesos 集群管理器。Mesos 为分布式应用程序的资源共享和隔离提供了一个有效平台。该设置充许 Spark 与 Hadoop 共存于节点的一个共享池中。

Spark SQL：

Spark SQL允许在Spark中执行使用SQL，HiveQL或Scala表示的关系型查询，其中的核心组件SchemaRDD，SchemaRDDs由行对象以及用来描述每行中各列数据类型的模式组成，每个SchemaRDD类似于关系数据库中的一个表。

Spark SQL的特点:

?引入了新的RDD类型SchemaRDD，可以象传统数据库定义表一样来定义SchemaRDD，SchemaRDD由定义了列数据类型的行对象构成。

?SchemaRDD可以从RDD转换过来，也可以从Parquet文件读入，也可以使用HiveQL从Hive中获取。

?在应用程序中可以混合使用不同来源的数据，如可以将来自HiveQL的数据和来自SQL的数据进行join操作。

?内嵌catalyst优化器对用户查询语句进行自动优化

Spark Streaming：

Spark Streaming是Spark核心API的一种扩展，它实现了对实时流数据的高吞吐量，低容错率的流处理。数据可以有许多来源，如Kafka，Flume，Twitter，ZeroMQ或传统的TCP Socket，可以使用复杂算法对其处理实现高层次的功能，如map,reduce,join和window.

SparkStreaming流式处理系统特点有：

?将流式计算分解成一系列短小的批处理作业

?将失败或者执行较慢的任务在其它节点上并行执行

?较强的容错能力(基于RDD继承关系Lineage)

?使用和RDD一样的语义

MLLib：

MLLib是Spark机器学习算法库，由通用的机器学习算法和工具组成，包括分类，回归，聚类，协同过滤，降维以及底层的优化组件等。

分类和回归：

?线性模型（支持向量机，逻辑回归，线性回归）

?决策树

?朴素贝叶斯

协同过滤：

?交替最小二乘法（ALS）

聚类：

?K-means聚类

降维

?奇异值分解（SVD）

?主成分分析（PCA）

GraphX ：

GraphX是基于Spark的图处理和图并行计算API。GraphX定义了一个新的概念：弹性分布式属性图，一个每个顶点和边都带有属性的定向多重图；并引入了三种核心RDD：Vertices、Edges、Triplets；还开放了一组基本操作（如subgraph, joinVertices, and mapReduceTriplets），并且在不断的扩展图形算法和图形构建工具来简化图分析工作。

SparkR ：

SparkR是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的job运行在

集群上，极大得扩展了R的数据处理能力。

Spark的几个特性：

?提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行Spark job。

?支持序化闭包功能，可以将用户定义函数中所引用到的变量自动序化发送到集群中其他的机器上。

?SparkR还可以很容易地调用R开发包，只需要在集群上执行操作前用includePackage读取R开发包就可以了，当然集群上要安装R开发包。

Tachyon：

Tachyon是一个分布式内存文件系统，可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件，落地到分布式内存文件系统中，来达到共享内存，从而提高效率。同时可以减少内存冗余，GC时间等。

Tachyon架构

Tachyon的架构是传统的Master—slave架构，这里和Hadoop类似，TachyonMaster里WorkflowManager是Master进程，因为是为了防止单点问题，通过Zookeeper做了HA，可以部署多台Standby Master。Slave是由Worker Daemon和Ramdisk构成。这里个人理解只有Worker Daemon是基于JVM的，Ramdisk是一个off heap memory。Master和Worker直接的通讯协议是Thrift。

Mesos:

Mesos master是一个分布式集群资源调度器，采用某种策略将某个slave上的空闲资源分配给某一个framework，各种framework通过自己的调度器向Mesos master注册，以接入到Mesos中；而Mesos slave 主要功能是汇报任务的状态和启动各个framework的executor（比如Hadoop的excutor就是TaskTracker）。

Yarn:

Yarn是一个实现分布式集群资源管理和调度的框架。

Yarn调度器根据容量，队列等限制条件（如每个队列分配一定的资源，最多执行一定数量的作业等），将系统中的资源分配给各个正在运行的应用。这里的调度器是一个“纯调度器”，因为它不再负责监控或者跟踪应用的执行状态等，此外，他也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务。调度器仅根据各个应用的资源需求进行调度，这是通过抽象概念“资源容器”完成的，资源容器（Resource Container）将内存，CPU，磁盘，网络等资源封装在一起，从而限定每个任务使用的资源量。

BlinkDB ：

BlinkDB是一个很有意思的交互式查询系统，就像一个跷跷板，用户需要在查询精度和查询时间上做一权衡；如果用户想更快地获取查询结果，那么将牺牲查询结果的精度；同样的，用户如果想获取更高精度的查询结果，就需要牺牲查询响应时间。用户可以在查询的时候定义一个失误边界。

BlinkDB的设计核心思想：

?通过采样，建立并维护一组多维度样本

?查询进来时，选择合适的样本来运行查询

三、结构化数据生态圈：

?Oracle

?Greenplum

?Mysql

?MongoDB

?SQL Server

数据同步：

DBSync：

DBSync数据库同步备份工具是一款异构数据库之间同步的工具，支持市面上大多数主流数据库,主要有：SqlServer、ORACLE、DB2、Sybase,Access，该软件提供的ODBC的同步功能，可以间接实现对MYSQL、SYBASE、INTERBASE等其他数据库的支持。DBSync可以实现计划、增量、两表记录一致等方式的同步操作，利用该

软件，可以实现企业内部应用系统数据的互通互联。该软件性能稳定，能提供7*24小时不间断同步的支持，具备单表千万级记录甚至更多记录的同步能力。该软件的专业版提供局域网或企业内部网之间数据库的同步（数据库都具备独立的IP);企业版则提供集团在世界范围内的各分支机构的数据库同步。

数据分析处理：

OLAP

联机分析处理（OLAP）系统是数据仓库系统最主要的应用，专门设计用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持，可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观而易懂的形式将查询结果提供给决策人员，以便他们准确掌握企业（公司）的经营状况，了解对象的需求，制定正确的方案。

HANA

HANA是一个软硬件结合体，提供高性能的数据查询功能，用户可以直接对大量实时业务数据进行查询和分析，而不需要对业务数据进行建模、聚合等。

Spark与Hadoop的对比

?Spark的中间数据放到内存中，对于迭代运算效率更高。

o Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。

?Spark比Hadoop更通用。

o Spark 提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。

比如

map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues,sort,

partionBy 等多种操作类型，Spark把这些操作称为Transformations。同时还提供

Count,collect, reduce, lookup, save等多种actions操作。

o这些多种多样的数据集操作类型，给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，

物化，控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

o不过由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

?容错性。

o在分布式数据集计算时通过checkpoint来实现容错，而checkpoint有两种方式，一个是checkpoint data，一个是logging the updates。用户可以控制采用哪种方式来实现容错。

?可用性。

o Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

?Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

Spark的适用场景

?Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小

?由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

?总的来说Spark的适用面比较广泛且比较通用。

案例：

大数据解决的命题：

从各式各样的数据源中找出一种提取与计算数据并最终得出有效数据的解决方案。

特点：

1、数据源的多样化

2、计算平台的分布式化

3、离线与实时综合化

数据源种类：

1、结构化数据：

数据库数据

2、非结构化数据：

文本，视频，音频，图片，邮件，传感器，GPS

3、流式数据

实时流数据

在讨论Hadoop系统架构之前，首先，我们应该明确一件事，Hadoop是做什么用的，简单的说，Hadoop 就是一个基于大量数据进行计算的一个平台，它的计算的核心就是MapReduce，也就是去繁从简，剔除无用数据把有用的留下。HDFS是它的存储组件，也是它计算最直接的数据源。我们的目的就是，首先，将原始的数据，如数据库中数据或日志文件数据提取并按一定格式写入Hadoop计算的数据中心——HDFS，然后再通过一系列的计算算法，计算出有用的数据，再将小量的结果数据存入到结果数据库中。

方案一：

对于该架构，只适合于较为传统的数据处理，着重考虑的是将各种数据，如关系型数据库的数据，NoSQL 数据库的数据，Log形式的数据统一到一种格式并存入分布式HDFS上，然后通过一系列的机器算法，计算

出想要的结果。其中，暂时未考虑像网页，图像，音频，视频等类型的数据源，对于其他类型的数据，也许还需要在前端做一些处理，将它们转换成可分析的数据。另外，该架构，对数据处理的实效性也暂未考虑，虽引入了实时计算框架Storm，但这里仅将其作为实时流处理的一个中间平台，其结果存入HDFS后参与后面的计算，因此，其实时性也是不高的。如果对数据实时性要求较高的话，可以将storm等独立出来，不参与全局的计算，只作为独立的模块，读取数据-->计算数据-->存入数据.结构如下：

方案二：

以上架构思想：只针对那些实时的数据，其中，Storm结合Kafka处理实时的日志文件数据，同时，对于数据库的数据源，并不提取全量数据，而只针对那些增量的数据，该架构适合于那些动态性，实时性较强的数据，例如：实时路况分析。

当然，对于一个分析系统，更多时候是历史数据和实时数据的统一，那么可以结合以上的两种架构，前种处理全量的，历史的离线数据，后种处理增量的，实时的线上数据。

下面让我们对数据源展开看看，对于传统的数据源，也许以上架构就已满足，但在当今的网络时代，对于一个普普通通的网站，就已经不仅仅局限于数据库以及日志这两种数据类型了。网页，图片，音频，视频等都是网络中必不可少的组成元素，那么大数据时代，也当然少不了对这些元素进行解读。

1、网页数据。

对于网页爬虫框架，Nutch也许是不错的选择，通过Nutch对网站的网页进行爬取，再结合HtmlParser 和MapReduce对网页数据进行分析提取。然后再将结果存入HDFS，以备后续的机器学习所用。新的架构图如下：

大数据处理平台构架设计说明书

大数据处理平台及可视化架构设计说明书版本：1.0 变更记录

目录 1 1. 文档介绍 (3) 1.1文档目的 (3) 1.2文档范围 (3) 1.3读者对象 (3) 1.4参考文献 (3) 1.5术语与缩写解释 (3) 2系统概述 (4) 3设计约束 (5) 4设计策略 (6) 5系统总体结构 (7) 5.1大数据集成分析平台系统架构设计 (7) 5.2可视化平台系统架构设计 (11) 6其它 (14) 6.1数据库设计 (14) 6.2系统管理 (14) 6.3日志管理 (14)

1 1. 文档介绍 1.1 文档目的设计大数据集成分析平台，主要功能是多种数据库及文件数据；访问；采集；解析，清洗，ETL，同时可以编写模型支持后台统计分析算法。设计数据可视化平台，应用于大数据的可视化和互动操作。为此，根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。 1.2 文档范围大数据的处理，包括ETL、分析、可视化、使用。 1.3 读者对象管理人员、开发人员 1.4 参考文献 1.5 术语与缩写解释

2 系统概述大数据集成分析平台,分为9个层次，主要功能是对多种数据库及网页等数据进行访采集、解析，清洗，整合、ETL，同时编写模型支持后台统计分析算法，提供可信的数据。设计数据可视化平台 ,分为3个层次，在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。

3 设计约束 1.系统必须遵循国家软件开发的标准。 2.系统用java开发，采用开源的中间件。 3.系统必须稳定可靠，性能高，满足每天千万次的访问。 4.保证数据的成功抽取、转换、分析，实现高可信和高可用。

大数据平台建设方案

大数据平台建设方案（项目需求与技术方案）一、项目背景 “十三五”期间，随着我国现代信息技术的蓬勃发展，信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌，信息化应用进入一个“新常态”。***（某政府部门）为积极应对“互联网+”和大数据时代的机遇和挑战，适应全省经济社会发展与改革要求，大数据平台应运而生。大数据平台整合省社会经济发展资源，打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台，以信息化提升数据化管理与服务能力，及时准确掌握社会经济发展情况，做到“用数据说话、用数据管理、用数据决策、用数据创新”，牢牢把握社会经济发展主动权和话语权。二、建设目标大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析，实现企业信用社会化监督，建立规范化共建共享投资项目管理体系，推进政务数据共享和业务协同，为决策提供及时、准确、可靠的信息依据，提高政务工作的前瞻性和针对性，加大宏观调控力度，促进经济持续健康发

展。 1、制定统一信息资源管理规范，拓宽数据获取渠道，整合业务信息系统数据、企业单位数据和互联网抓取数据，构建汇聚式一体化数据库，为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性，编制数据资源目录，建立信息资源交换管理标准体系，在业务可行性的基础上，实现数据信息共享，推进信息公开，建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上，为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。三、建设原则大数据平台以信息资源整合为重点，以大数据应用为核心，坚持“统筹规划、分步实施，整合资源、协同共享，突出重点、注重实效，深化应用、创新驱动”的原则，全面提升信息化建设水平，促进全省经济持续健康发展。

大数据平台架构~巨衫

1.技术实现框架 1.1大数据平台架构 1.1.1大数据库是未来提升业务能力的关键要素以“大数据”为主导的新一波信息化浪潮正席卷全球，成为全球围加速企业技术创新、推动政府职能转变、引领社会管理变革的利器。目前，大数据技术已经从技术研究步入落地实施阶段，数据资源成为未来业务的关键因素。通过采集和分析数据，我们可以获知事物背后的原因，优化生产/生活方式，预知未来的发展动态。经过多年的信息化建设，省地税已经积累了丰富的数据资源，为下一步的优化业务、提升管理水平，奠定了坚实的基础。未来的数据和业务应用趋势，大数据才能解决这些问题。《1.巨杉软件SequoiaDB产品和案例介绍 v2》P12 “银行的大数据资产和应用“，说明税务数据和业务分析，需要用大数据解决。《1.巨杉软件SequoiaDB产品和案例介绍 v2》P14 “大数据与传统数据处理”，说明处理模式的差异。 1.1.2大数据平台总体框架大数据平台总体技术框架分为数据源层、数据接口层、平台架构层、分析工具层和业务应用层。如下图所示：

（此图要修改，北明）数据源层：包括各业务系统、服务系统以及社会其它单位的结构化数据和非结构化数据；数据接口层：是原始数据进入大数据库的入口，针对不同类型的数据，需要有针对性地开发接口，进行数据的缓冲、预处理等操作；平台架构层：基于大数据系统存储各类数据，进行处理？；分析工具层：提供各种数据分析工具，例如：建模工具、报表开发、数据分析、数据挖掘、可视化展现等工具；业务应用层：根据应用领域和业务需求，建立分析模型，使用分析工具，发现获知事物背后的原因，预知未来的发展趋势，提出优化业务的方法。例如，寻找服务资源的最佳配置方案、发现业务流程中的短板进行优化等。 1.1.3大数据平台产品选型针对业务需求，我们选择巨杉数据库作为大数据基础平台。

大数据平台技术框架选型

大数据平台框架选型分析一、需求城市大数据平台，首先是作为一个数据管理平台，核心需求是数据的存和取，然后因为海量数据、多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力，有了技术能力就需要纵深挖掘附加价值更好的服务，如信息统计、分析挖掘、全文检索等，考虑到面向的客户对象有的是上层的应用集成商，所以要考虑灵活的数据接口服务来支撑。二、平台产品业务流程三、选型思路必要技术组件服务： ETL >非/关系数据仓储>大数据处理引擎>服务协调>分析BI >平台监管四、选型要求 1．需要满足我们平台的几大核心功能需求，子功能不设局限性。如不满足全部，需要对未满足的其它核心功能的开放使用服务支持 2．国内外资料及社区尽量丰富，包括组件服务的成熟度流行度较高 3．需要对选型平台自身所包含的核心功能有较为深入的理解，易用其API或基于源码开发4．商业服务性价比高，并有空间脱离第三方商业技术服务 5．一些非功能性需求的条件标准清晰，如承载的集群节点、处理数据量及安全机制等五、选型需要考虑简单性：亲自试用大数据套件。这也就意味着：安装它，将它连接到你的Hadoop安装，集成你的不同接口（文件、数据库、B2B等等），并最终建模、部署、执行一些大数据作业。自己来了解使用大数据套件的容易程度——仅让某个提供商的顾问来为你展示它是如何工作是远远不够的。亲自做一个概念验证。广泛性：是否该大数据套件支持广泛使用的开源标准——不只是Hadoop和它的生态系统，还有通过SOAP和REST web服务的数据集成等等。它是否开源，并能根据你的特定问题易于改变或扩展？是否存在一个含有文档、论坛、博客和交流会的大社区？特性：是否支持所有需要的特性？Hadoop的发行版本（如果你已经使用了某一个）？你想要使用的Hadoop生态系统的所有部分？你想要集成的所有接口、技术、产品？请注意过多的特性可能会

大数据技术架构解析

大数据技术架构解析作者：匿名出处：论坛2016-01-22 20:46 大数据数量庞大，格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力，给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构，围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程，开发使用这些数据，释放出更多数据的隐藏价值。一、大数据建设思路 1)数据的获得大数据产生的根本原因在于感知式系统的广泛使用。随着技术的发展，人们已经有能力制造极其微小的带有处理功能的传感器，并开始将这些设备广泛的布置于社会的各个角落，通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据，这种数据的产生方式是自动的。因此在数据收集方面，要对来自网络包括物联网、社交网络和机构信息系统的数据附上时空标志，去伪存

真，尽可能收集异源甚至是异构的数据，必要时还可与历史数据对照，多角度验证数据的全面性和可信性。 2)数据的汇集和存储数据只有不断流动和充分共享，才有生命力。应在各专用数据库建设的基础上，通过数据集成，实现各级各类信息系统的数据交换和数据共享。数据存储要达到低成本、低能耗、高可靠性目标，通常要用到冗余配置、分布化和云计算技术，在存储时要按照一定规则对数据进行分类，通过过滤和去重，减少存储量，同时加入便于日后检索的标签。 3)数据的管理

4)数据的分析

5)大数据的价值：决策支持系统

大数据的神奇之处就是通过对过去和现在的数据进行分析，它能够精确预测未来;通过对组织内部的和外部的数据整合，它能够洞察事物之间的相关关系;通过对海量数据的挖掘，它能够代替人脑，承担起企业和社会管理的职责。 6)数据的使用

车联网大数据平台架构设计

车联网大数据平台架构设计-软硬件选型 1.软件选型建议数据传输处理并发链接的传统方式为：为每个链接创建一个线程并由该线程负责所有的数据处理业务逻辑。这种方式的好处在于代码简单明了，逻辑清晰。而由于操作系统的限制，每台服务器可以处理的线程数是有限的，因为线程对CPU的处理器的竞争将使系统整体性能下降。随着线程数变大，系统处理延时逐渐变大。此外，当某链接中没有数据传输时，线程不会被释放，浪费系统资源。为解决上述问题，可使用基于NIO的技术。 Netty Netty是当下最为流行的Java NIO框架。Netty框架中使用了两组线程：selectors与workers。其中Selectors专门负责client端（列车车载设备）链接的建立并轮询监听哪个链接有数据传输的请求。针对某链接的数据传输请求，相关selector会任意挑选一个闲置的worker线程处理该请求。处理结束后，worker自动将状态置回‘空闲’以便再次被调用。两组线程的最大线程数均需根据服务器CPU处理器核数进行配置。另外，netty内置了大量worker 功能可以协助程序员轻松解决TCP粘包，二进制转消息等复杂问题。 IBM MessageSight MessageSight是IBM的一款软硬一体的商业产品。其极限处理能力可达百万client并发，每秒可进行千万次消息处理。数据预处理流式数据处理对于流式数据的处理不能用传统的方式先持久化存储再读取分析，因为大量的磁盘IO操作将使数据处理时效性大打折扣。流式数据处理工具的基本原理为将数据切割成定长的窗口并对窗口内的数据在内存中快速完成处理。值得注意的是，数据分析的结论也可以被应用于流式数据处理的过程中，即可完成模式预判等功能还可以对数据分析的结论进行验证。 Storm Storm是被应用最为广泛的开源产品中，其允许用户自定义数据处理的工作流（Storm术语为Topology），并部署在Hadoop集群之上使之具备批量、交互式以及实时数据处理的能力。用户可使用任意变成语言定义工作流。 IBM Streams IBM的Streams产品是目前市面上性能最可靠的流式数据处理工具。不同于其他基于Java 的开源项目，Streams是用C++开发的，性能也远远高于其他流式数据处理的工具。另外IBM 还提供了各种数据处理算法插件，包括：曲线拟合、傅立叶变换、GPS距离等。数据推送为了实现推送技术，传统的技术是采用‘请求-响应式’轮询策略。轮询是在特定的的时间间隔（如每1秒），由浏览器对服务器发出请求，然后由服务器返回最新的数据给客户端的浏览器。这种传统的模式带来很明显的缺点，即浏览器需要不断的向服务器发出请求，然而HTTP request 的header是非常长的，里面包含的数据可能只是一个很小的值，这样会占用很多的带宽和服务器资源。

大数据平台技术框架选型

大数据平台技术框架选型Last revision on 21 December 2020

大数据平台框架选型分析一、需求城市大数据平台，首先是作为一个数据管理平台，核心需求是数据的存和取，然后因为海量数据、多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力，有了技术能力就需要纵深挖掘附加价值更好的服务，如信息统计、分析挖掘、全文检索等，考虑到面向的客户对象有的是上层的应用集成商，所以要考虑灵活的数据接口服务来支撑。二、平台产品业务流程三、选型思路必要技术组件服务： ETL >非/关系数据仓储>大数据处理引擎>服务协调>分析BI >平台监管四、选型要求 1．需要满足我们平台的几大核心功能需求，子功能不设局限性。如不满足全部，需要对未满足的其它核心功能的开放使用服务支持 2．国内外资料及社区尽量丰富，包括组件服务的成熟度流行度较高 3．需要对选型平台自身所包含的核心功能有较为深入的理解，易用其API或基于源码开发4．商业服务性价比高，并有空间脱离第三方商业技术服务 5．一些非功能性需求的条件标准清晰，如承载的集群节点、处理数据量及安全机制等五、选型需要考虑简单性：亲自试用大数据套件。这也就意味着：安装它，将它连接到你的Hadoop安装，集成你的不同接口（文件、数据库、B2B等等），并最终建模、部署、执行一些大数据作业。自己来了解使用大数据套件的容易程度——仅让某个提供商的顾问来为你展示它是如何工作是远远不够的。亲自做一个概念验证。广泛性：是否该大数据套件支持广泛使用的开源标准——不只是Hadoop和它的生态系统，还有通过SOAP和REST web服务的数据集成等等。它是否开源，并能根据你的特定问题易于改变或扩展是否存在一个含有文档、论坛、博客和交流会的大社区

大数据平台架构

1. 技术实现框架 1.1大数据平台架构 1.1.1大数据库是未来提升业务能力的关键要素以“大数据”为主导的新一波信息化浪潮正席卷全球，成为全球范围内加速企业技术创新、推动政府职能转变、引领社会管理变革的利器。目前，大数据技术已经从技术研究步入落地实施阶段，数据资源成为未来业务的关键因素。通过采集和分析数据，我们可以获知事物背后的原因，优化生产/生活方式，预知未来的发展动态。经过多年的信息化建设，省地税已经积累了丰富的数据资源，为下一步的优化业务、提升管理水平，奠定了坚实的基础。未来的数据和业务应用趋势，大数据才能解决这些问题。《1.巨杉软件SequoiaDB产品和案例介绍v2》P12 “银行的大数据资产和应用“，说明税务数据和业务分析，需要用大数据解决。《1.巨杉软件SequoiaDB产品和案例介绍v2》P14 “大数据与传统数据处理”，说明处理模式的差异。 1.1.2大数据平台总体框架大数据平台总体技术框架分为数据源层、数据接口层、平台架构层、分析工具层和业务应用层。如下图所示：

大数据平台架构设计说明书

大数据平台总体架构规格说明书 V1.0版

●目录 ●目录 (2) I.简介 (4) 1.目的 (4) 2.词汇表 (4) 3.引用 (4) II.整体介绍 (5) 1.系统环境 (5) 2.软件介绍 (5) 3.用途 (6) 4.简介 (6) 5.核心技术 (7) ●大规模并行处理MPP (7) ●行列混合存储 (8) ●数据库内压缩 (8) ●内存计算 (9) 6.M ASTER N ODE (9) 7.D ATA N ODE (9) III.MASTER NODE (10) 1.简介 (10) 2.C ONTROL 模块 (10) 3.SQL模块 (10) 4.A CTIVE-P ASSIVE SOLUTION (16) IV.DATA NODE (19) 1.简介 (19) 2.重要模块 (19)

3.数据存储 (20) 4.数据导入 (21) V.分布式机制 (23) 1.概括 (23) 2.数据备份和同步 (24) 3.时间同步机制 (27) 4.分布式LEASE机制查询过程备忘 (27) VI.内存管理机制 (29) VII.V3.0版的初步设计思路 (30)

I.简介 1.目的本文详细描述了DreamData数据库系统。介绍了系统的目标、功能、系统接口、系统行为、系统约束以及系统如何响应。本文面向系统参与者以及系统开发人员。 2.词汇表 3.引用

II.整体介绍 1.系统环境图 1 –系统环境 2.软件介绍 DreamData是在从分布式数据库的基础上发展而来，同时加入一些NoSQL的基因的新一代大数据实时分析分布式数据库，并且支持内存计算。 DreamData最大的特色就是大而快，它能极快地导入和处理海量的数据，并在这个基础上能极快地进行用户所需数据统计和分析。相对传统数据库Oracle而言，DreamData的单机性能要高出50倍以上，并且随着节点数量的增加，整体性能会同步提升。

大数据技术架构解析

大数据数量庞大，格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力，给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构，围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程，开发使用这些数据，释放出更多数据的隐藏价值。一、大数据建设思路 1)数据的获得大数据产生的根本原因在于感知式系统的广泛使用。随着技术的发展，人们已经有能力制造极其微小的带有处理功能的传感器，并开始将这些设备广泛的布置于社会的各个角落，通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据，这种数据的产生方式是自动的。因此在数据收集方面，要对来自网络包括物联网、社交网络和机构信息系统的数据附上时空标志，去伪存

4)数据的分析

5)大数据的价值：决策支持系统

大数据平台架构剖析

数据分析工作虽然隐藏在业务系统背后，但是具有非常重要的作用，数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统，对于BI系统来说，大概的架构图如下：可以看到在BI系统里面，核心的模块是Cube，Cube是一个更高层的业务模型抽象，在Cube之上可以进行多种操作，例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库，关系型数据库使用SQL语句进行操作，但是SQL在多维操作和分析的表示能力上相对较弱，所以Cube有自己独有的查询语言MDX，MDX表达式具有更强的多维表现能力，所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山，大多数的数据库服务厂商直接提供了BI套装软件服务，轻易便可搭建出一套Olap 分析系统。不过BI的问题也随着时间的推移逐渐显露出来： BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主，对于非结构化和半结构化数据的处理非常乏力，例如图片，文本，音频的存储，分析。

?由于数据仓库为结构化存储，在数据从其他系统进入数据仓库这个东西，我们通常叫做ETL过程，ETL动作和业务进行了强绑定，通常需要一个专门的ETL团队去和业务做衔接，决定如何进行数据的清洗和转换。 ?随着异构数据源的增加，例如如果存在视频，文本，图片等数据源，要解析数据内容进入数据仓库，则需要非常复杂等ETL程序，从而导致ETL变得过于庞大和臃肿。 ?当数据量过大的时候，性能会成为瓶颈，在TB/PB级别的数据量上表现出明显的吃力。?数据库的范式等约束规则，着力于解决数据冗余的问题，是为了保障数据的一致性，但是对于数据仓库来说，我们并不需要对数据做修改和一致性的保障，原则上来说数据仓库的原始数据都是只读的，所以这些约束反而会成为影响性能的因素。 ?ETL动作对数据的预先假设和处理，导致机器学习部分获取到的数据为假设后的数据，因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘，则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据，否则无法结构化入库，然而大多数情况是需要基于异构数据才能提取出特征。

大数据分析系统架构之探讨

大数据处理平台构架设计说明书

大数据平台建设方案

大数据平台架构~巨衫

大数据平台技术框架选型

大数据 技术架构解析

车联网大数据平台架构设计

大数据平台技术框架选型

大数据平台架构

大数据平台架构设计说明书

大数据技术架构解析

大数据平台架构剖析

大数据技术架构解析