大数据分析的分布式 MOLAP 技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Paper NO1 (注:满分为五星)

笔记部分

(块(chunk)). 块是数据立方的逻辑划分,一个数据立方可以根据维的取值分成多个块.

下图是由 3 个维(x,y,z)所组成的立方,图中较小的方格代表单元格,较大的方格代表块.在实际操作中,块中有可能包含一些空的单元格,即,该单元格中没有任何度量.在实际应用中,为了减少立方占用物理空间的大小, 若单元格内没有任何度量,则在该块文件中不保存该单元格的记录。

维算法

维遍历算法

块选择算法

满足公式(7)的块会作为 OLAP 操作的输入,而非输入全部数据块,从而缩小了 OLAP 操作的查询空间;而且块选择算法无需额外的查询,仅通过编码计算,算法代价很小.图 3 显示了块选择算法的示例.

基于MapReduce的算法实现

以上卷操作为例,基于MapReduce 的OLAP 算法由4部分组成:InputFormatter,Mapper,Reducer 和 OutputFormatter,分别对应上卷操作中的查询、改变维级别、聚集和输出结果集的 4 个步骤.上卷操作执行流程如图 4 所示.

实验分析

HaoLap 设计之初是为了应用于国家海洋科学数据中连续的数值型维的区间查询和OLAP 操作,如第 2.5 节中的应用案例所述,但同样也适用于离散的枚举型维的 OLAP 操作.因此,针对数值型维,本节采用真实的科学数据集,比较 HaoLap 和其他主流云数据库系统的性能,将涉及 4 组实验,分别是数据装载、切块操作、上卷操作和存储代价.每个实验都将涉及多组实验用例,并通过 3 个不同规模的数据集对比 5 个系统的性能;针对枚举型维,将采用 SSB 基准测试用例,比较 HaoLap 和其他系统的性能;最后总结实验结论.为表述简单,我们采用 SQL 描述实验用例,针对不同数据库系统,采用不同的方式实现这些用例,具体实现方法从略.

实验案例

本节采用第 2.5 节描述的案例 OceanCube 作为实验数据.在实验中使用了 3 个数据集(S1,S2,S3),为了便于表述,使用Size(Si)(1≤i≤3)表示数据集的规模,Size(Si)的单位为数据条数.本文没有采用大数据研究中常用的 GB 为单位是因为:HaoLap,Hive,HadoopDB 和 HBase 的数据文件格式不同,导致文件大小差异较大.

各个数据集相关参数见表 3.

由图 7(d)可知,HBase 对于 OLAP 没有任何优化策略,其性能符合 ROLAP 的一般规律.但是,HBase 在相同用例下的切块操作执行时间对比其他系统要长很多.图 8(a)展示在用例 S1C1 中,HBase 的 Mapper 和 Reducer 数量分别是 Hive 的 2.8 倍和 13 倍;图 8(b)则说明,用例 S1C1 中,Mapper 和 Reducer 的执行时间 HBase 是Hive 的 20 倍和 2.3 倍.HBase 的任务执行性能比 Hive 要低很多.这种现象表明,HBase 并不适合执行多表的连接以及切块操作:

Paper NO1 (注:满分为五星)

笔记部分

虚拟网映射建模

针对在线虚拟网络映射场景,考虑了节点转

发包时的CPU资源消耗,并对转发包所消耗的CPU 资源建模量化。在虚拟网络映射过程中,考虑将底层物理资源在减掉中间节点转发包所需消耗资源后,以节点负载和链路负载同时达到均衡为目标消除网络资源瓶颈,为后续虚拟网络请求提供一个更为均衡的底层物理网络,从而提高了虚拟网络构建成功率、网络资源利用率、基础设施提供商的收益

节点负载和链路负载建模

一个资源分布均衡的物理网络可以提高后续虚拟网络请求构建的成功率,使得物理网络资源保持较高的利用率。因此,在虚拟网络映射过程中,一方面要保证底层物理网络链路上通信流量的分配均衡;另一方面要使得底层物理节点上的工作负载及转发负载分配均衡,从而提高后续虚拟网络构建成功率和资源利用率。

模拟实验结果与分析

图 1 ~ 图 5 分别展示了LB-PSO 与BACA 在请求接收成功率、物理网络整体负载均衡性、节点负载均衡性、链路负载均衡性、基础设施运营商的平均收益这5 个性能评价指标下的实验效果对比图。从图 1 中我们可以看出,由于刚开始底层物理网络资源丰富,LB-PSO 和BACA 的请求接收成功

率都基本为1.0。随着资源的逐步消耗,LB-PSO 由于在考虑中间节点的资源消耗后,以节点负载和链路负载同时均衡为目标,从而避免了底层网络资源瓶颈,为后续网络提供一个更为均衡的底层物理网络,从而提高了虚拟网络构建成功率。而BACA 在减去中间节点资源消耗后,容易导致网络资源瓶颈的出现,所以后期的接收成功率逐渐降低。但由于LB-PSO 和BACA 随着虚拟网络请求的动态到达和离开而达到一个稳态过程,所以两者的请求接收成功率都趋于平稳。

相关文档
最新文档