曙光XData大数据教战手册

曙光XData大数据教战手册
曙光XData大数据教战手册

曙光XData大数据教战手册

曙光信息产业(北京)有限公司

产品中心

1.教战手册作用

曙光XData大数据教战手册是销售人员在与客户沟通时常见问题的回答要点,是让客户清楚曙光在备份领域能做的事情以及曙光的优势,最终为达成销售的目的提供必要的技术解释。

2.背景介绍

2.1 什么是大数据

“大数据”并不是一项技术,而是由于不断增长的数据量和数据种类而逐渐衍生出来的一种现象。因此,大数据在业内并没有一个统一的定义。不同厂商、不同用户,站在不同的角度,对大数据的理解不一样。目前说大数据的定义,主要有下面两种:第一种是《Teradata Manager》上给出的一个定义,它指出大数据是指超出了常用硬件环境和软件工具在可接受的时间范围内为其用户收集、管理和处理数据的能力。另一种是麦肯锡给出的定义,它说大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。

2.2 大数据的特点

“大数据”这个词,光从字面来看,可能会让人觉得只是容量非常大的数据集合而已。但是,容量只不过是大数据特征的一个方面,如果只拘泥于数据量的话,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以理解”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。

大数据的特征,可以用四个V开头的关键词来描述:

1)数据体积大——V olume

截止目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所

有的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一

些大企业的数据已经接近EB级。

2)数据类型多——Variety

数据的多样性可以把数据分为结构化数据和非结构化数据。相对于以往便于存储的

以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。这些多类型的数据对数据的处理能力提出了更高要求。

3)价值密度低——Value

价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连

续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地

完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

4)处理速度快——Velocity

这是大数据区分于传统数据挖掘的最显著的特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数

据的效率就是企业的生命。

3.产品介绍

3.1 产品概述

Xdata大数据一体机是一款通用的海量数据处理平台,提供对结构化及非结构化海量数据的存储组织和查询处理功能,满足用户对海量数据的过滤性查询、统计分析类查询和关联分析的处理需求。

Xdata大数据一体机可广泛的应用在电信数据统计分析,互联网/移动互联网的日志和用户行为分析,物联网/传感器网络的数据监控和追踪分析,以及金融交易数据的离线统计和挖掘等众多领域。

3.2 功能特性

Xdata大数据处理机将数据存储单元和处理单元分离,通过构架高效的服务中间件,将底层采用无共享结构的数据存储节点,聚合成一个单一的数据处理系统映像,达到较高的数据读写并发度、计算并发度,以及良好的系统扩展性,可靠性和可维护性。系统结构如图:

图表3-1 XData系统结构

Xdata向用户提供统一的类JDBC的客户端编程接口,向下管理分布在不同存储模块上的不同类型的数据,并提供简易的用户管理界面。Xdata系统的核心计算包括自动的服务注册和负载均衡,可扩展的数据划分和分布策略,高效的批量数据加载,通用的并行查询分析和处理引擎,结构化和非结构化数据的统一访问接口,不同类型数据之间的关联查询和检索,以及全方位的熊故障和恢复处理等多项技术。Xdata的产品功能特性如下:

1)分级存储

Xdata支持分级存储,以降低系统的总体持有成本。即按照数据量和数据的访问频

率,分为在线、离线和备份三个存储级别,并支持数据在各级之间根据策略进行迁

移。

2)复杂数据类型关联分析

Xdata支持大表关联和大表嵌套类等复杂的查询语句的处理。Xdata系统通过将复

杂查询解析成在多个数据节点上的并行任务流,来提高复杂查询的处理性能。

Xdata支持用户自定义的并行查询任务流,可以支持任意复杂的结构化/非结构化数

据处理语义,以满足更广泛的应用需求。

3)SN-MPP并行处理架构

Xdata采用无共享的集群架构,提供高速的数据写入能力。写入过程中,采用并行

写入的方式,按照一定的数据划分策略,将数据写入到后端的数据节点。

Xdata将查询语句分解成为在多个数据模块并行执行的查询任务流,所有的查询处

理都在数据节点上并行的执行,充分利用无共享结构的计算并行度。Xdata提供任

务断点执行功能,发生意外情况时,失效任务自动恢复执行。

4)SQL/MapReduce一体化执行框架

XData提供类SQL访问接口:有SQL 使用经验的用户无需额外学习即可很方便的

使;XData提供SQL/MapReduce混合执行框架,提供跨平台的兼容性。

3.3 产品特点

中科曙光XData大数据一体机的主要硬件组成部分——数据模块DataModule,具有如下特点:

1)高性能

?采用Intel最新一代的E5-2600系列处理器,处理器内部集成PCI-E控制器;处理器之间采用更多、更快的QPI总线,大幅提升CPU之间协作效率;

?16根DIMM插槽,支持DDR3内存,频率支持1600MHz(由使用的处理器型号决定),最高可支持512GB内存;

?PCI-E总线提升到3.0标准,极大的提高了扩展性能。

2)高可靠性

?具有高级内存容错功能;

?支持多网卡冗余,系统正常时分摊网络流量,当其中一块网卡出现问题时,自动将其负担的工作切换到其他网卡;

?机箱温度检测功能,随时检测机箱内部的温度以及系统风扇的情况,发现问题及时报警;

?标配2+1冗余电源,防止瞬间掉电,提供用户更稳定可靠的系统电源。

3)高扩展性

?16条DIMM插槽,最大可扩展至512G内存;

?最大支持36块硬盘,可用作存储服务器;

?支持6条PCI-E插槽,提供高扩展能力,支持更多扩展卡,为更多应用提供支持。

4)高可管理性

?可选智能硬件监控系统。提供系统内部温度,风扇转速,直流电源电压等工作状态信息显示。自动记录主机因故障停止工作的时间和日志信息,帮助分析故障原因;

?支持智能动态调节风扇转速功能,风扇转速随着系统温度动态调整,有效降低了系统噪音和功耗。

5)易维护性

?集成iKVM功能可以对数据控制器进行远程操作、维护,具有多项故障指示功能,有效降低用户宕机风险。

3.4 产品规格

XData大数据一体机包含两类组件:计算模块、数据模块和客户端。

计算模块:用于数据的并行加载和查询处理,对客户端提供统一的数据处理接口。

数据模块:用于提供结构化/非结构化数据一体化存储空间,内嵌高性能数据存取引擎,并行处理所有计算模块的数据访问请求。

客户端:用于和用户应用对接,提供XJDBC/MapReduce统一访问接口和各服务专用访问接口。

表格3-1 规格列表

3.5 XData大数据一体机管理系统

Xdata大数据一体机管理系统主要为用户提供对Xdata系统执行各种操作的图形化交互界面。提供的功能包括:安装维护、系统监控、系统管理、告警管理、报表管理和资源管理等服务。其界面操作如下图所示:

图表3-2 XData管理系统登录界面

图表3-3 XData系统管理服务界面

图表3-4 XData系统安装界面

图表3-5 XData系统资源监控界面

4.目标行业及典型应用

在数据量爆发式增长的时代,数据中蕴含的价值日益受到企业和社会的重视。曙光公司以客户需求为导向,依托十几年的专业技术积累和丰富的项目实践经验,提出以“平台一体,

相关主题
相关文档
最新文档