H3C大数据产品技术白皮书

合集下载

H3C_UniServer_R4900_G5技术白皮书

H3C_UniServer_R4900_G5技术白皮书

H3C UniServer R4900 G5技术白皮书目录1 概述 (1)1.1 产品特点 (2)1.1.1 更高的性能和安全特性 (2)1.1.2 更灵活的存储和更高的I/O性能 (2)1.1.3 直观、可配置的管理系统 (3)1.1.4 卓越的服务器体验 (3)1.1.5 更加的低碳环保 (3)1.1.6 定制化服务 (4)1.2 拓扑图 (4)2 机型介绍 (5)2.1 机箱外观介绍部件 (6)2.2 前面板 (8)2.2.1 前面板组件 (8)2.2.2 指示灯和按钮 (11)2.2.3 接口 (12)2.3 后面板 (12)2.3.1 后面板组件 (12)2.3.2 后面板指示灯 (13)2.3.3 接口 (14)2.4 主板 (14)2.4.1 主板布局 (15)2.4.2 系统维护开关 (16)2.4.3 DIMM插槽 (17)2.5 硬盘 (18)2.5.1 硬盘编号 (18)2.5.2 硬盘指示灯 (20)2.6 硬盘背板 (21)2.6.1 前置8SFF SAS/SATA硬盘背板 (21)2.6.2 前置8SFF UniBay硬盘背板 (22)2.6.3 前置8LFF SAS/SATA硬盘背板 (23)2.6.4 前置12LFF SAS/SATA硬盘背板 (23)2.6.5 前置12LFF UniBay硬盘背板(8SAS/SATA+4UniBay) (24)i2.6.6 前置12LFF UniBay硬盘背板(4SAS/SATA+8UniBay) (25)2.6.7 前置12LFF UniBay硬盘背板 (26)2.6.8 前置25SFF UniBay硬盘背板 (26)2.6.9 中置4LFF SAS/SATA硬盘背板 (27)2.6.10 中置4SFF UniBay硬盘背板 (28)2.6.11 后置2LFF SAS/SATA硬盘背板 (29)2.6.12 后置4LFF SAS/SATA硬盘背板 (29)2.6.13 后置2SFF SAS/SATA硬盘背板 (30)2.6.14 后置2SFF UniBay硬盘背板 (30)2.6.15 后置4SFF SAS/SATA硬盘背板 (31)2.6.16 后置4SFF UniBay硬盘背板 (32)2.6.17 后置2UniBay硬盘背板(适配OCP3.0转接模块) (32)2.7 Riser卡 (33)2.7.1 RC-1FHFL-R3-2U-G5 (33)2.7.2 RC-2FHFL-R3-2U-G5 (34)2.7.3 RC-2HHHL-R3-2U-G5 (35)2.7.4 RC-2HHHL-R4-2U-G5 (35)2.7.5 RC-3FHFL-2U-G5 (36)2.7.6 RC-3FHFL-2U-MH-G5 (37)2.7.7 RC-3FHFL-2U-SW-G5 (37)2.7.8 RC-5HHHL-R5-2U-G5 (39)2.7.9 RC-Redriver-2U-G5 (40)2.7.10 RC-Redriver-R3-2U-G5 (41)2.7.11 PCA-R4900-4GPU-G5(0231AFT5) (42)2.8 OCP转接模块 (43)2.9 LCD可触摸智能管理模块 (43)2.10 风扇 (44)2.11 PCIe slot (45)2.12 服务器B/D/F信息 (46)2.13 部件安装准则及相关信息 (46)2.13.1 CPU (46)2.13.2 内存 (47)2.13.3 SAS/SATA硬盘 (47)2.13.4 NVMe硬盘 (47)2.13.5 SATA M.2 SSD卡 (48)2.13.6 SD卡 (48)ii2.13.7 Riser卡与PCIe卡 (48)2.13.8 存储控制卡及掉电保护模块 (52)2.13.9 NVMe VROC模块 (54)2.13.10 网卡 (55)2.13.11 GPU卡 (55)2.13.12 电源模块 (55)2.13.13 风扇 (56)3 产品规格 (57)3.1 技术规格 (57)3.2 服务器工作温度宣称 (57)4 部件兼容性 (59)4.1 CPU (59)4.2 内存 (59)4.3 存储 (66)4.4 I/O扩展 (74)4.5 支持的操作系统和软件 (74)5 智能管理规格 (75)6 维保 (78)7 通过的认证 (79)iii1 概述H3C UniServer R4900 G5(下文简称R4900 G5)是新华三技术有限公司(下文简称H3C)基于Intel新一代Whitley平台所开发的新一代2U2路机架式服务器。

H3C SDN DFW技术白皮书

H3C SDN DFW技术白皮书

H3C SDN DFW技术白皮书Copyright © 2016 杭州华三通信技术有限公司版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

本文档中的信息可能变动,恕不另行通知。

目录1 概述 (1)1.1 产生背景 (1)1.2 技术优点 (1)2 技术实现 (1)2.1 概念介绍 (1)2.1.1 状态 (1)2.1.2 分布式防火墙 (2)2.1.3 分布式防火墙策略 (2)2.1.4 规则 (2)2.1.5 分布式防火墙子策略 (2)2.1.6 IP地址集 (2)2.2 运行机制 (2)2.3 应用限制 (6)3 典型组网应用 (7)3.1 云数据中心部署DFW的典型应用 (7)1 概述1.1 产生背景传统的集中式防火墙一般用来做边界防护,但是云数据中心不仅仅要求边界保护,还要求对内网虚机之间的流量进行安全防护,如果这些流量全部绕行到集中式防火墙,随着网络的升级和扩容,这种方式就难以满足大容量、高性能、可扩展的要求和挑战,容易形成性能瓶颈。

因此,把安全功能嵌入数据中心内主机节点的分布式防火墙应运而生。

当前业界SDN控制器提供的嵌入式安全主要通过安全组的ACL功能实现。

ACL功能是通过在虚拟交换机上下发ACL规则来控制虚拟机的流量。

在企业的网络规划日渐复杂的情况下,这种方式已经不能满足企业的需求,主要表现为:∙仅检查当前报文的信息,不关心连接状态,安全性低。

∙部署方式复杂,不容易维护。

DFW(Distributed Firewall,分布式防火墙)是一种分布式状态监测防火墙,可记录并跟踪各种网络连接(如TCP连接等),并对各种类型的报文进行检查和处理。

1.2 技术优点DFW具有以下技术优点:∙为整个数据中心提供了无所不在的安全防护,让安全机制既具有广泛性,又具有精确度;虚机之间的流量无须因为安全防护绕行,可扩展性好。

H3C SecCenter 解决方案技术白皮书 V1.1

H3C SecCenter 解决方案技术白皮书 V1.1

SecCenter解决方案技术白皮书Hangzhou H3C Technology Co., Ltd.杭州华三通信技术有限公司All rights reserved版权所有侵权必究目录1 商业用户网络对于安全管理的需求 (5)2 安全管理技术方案比较 (6)3 H3C安全管理中心解决方案 (7)3.1 安全管理中心基本思路 (7)3.2 解决方案特点 (8)3.3 典型组网图 (9)4 系统主要技术特性分析 (10)4.1 不同种类的安全设备支持 (10)4.2 企业安全分析 (11)4.3 网络架构 (12)4.4 安全拓扑和可视化威胁 (12)4.5 监控&事件关联 (13)4.6 安全管理报告 (15)4.7 可升级日志管理 (15)4.8 搜索分析 (15)5 总结和展望 (16)6 参考文献 (16)7 附录 (16)Figure List 图目录图1 典型组网图 (10)图2 安全管理添加到网络和应用管理 (11)图3 SecCenter支持单独配置和分布式配置 (12)图4 基于拓扑的实时威胁可视化下拉菜单 (13)图5 监控仪表盘展示了一个实时的全部安全状态的一部分 (14)SecCenter解决方案技术白皮书关键词:SecCenter、安全管理、事件、日志、搜索摘要:本文档对于SecCenter安全管理中心的解决方案进行了介绍。

描述了用户对于安全管理中心的需求,各种方案的比较。

介绍了H3C推出解决方案的技术特点、组网图、主要技术分析等。

缩略语清单:1 商业用户网络对于安全管理的需求一个公司只是注重在物理上对网络安全的投资是远远不够的,即使安全防范再严密的网络,也会有可能有破坏性漏洞的产生。

据估计在世界范围内由攻击造成的经济损失已经由1997 年的33 亿美元上升到2003 年的120亿美元。

这个数字还在快速上升。

另外,为了满足政府规范要求,需要执行安全审计流程。

如果不能满足政府的规范要求,除了有可能被高额的罚款以外,还有可能触犯法律,面临刑事诉讼。

数据中心解决方案技术白皮书--H3C

数据中心解决方案技术白皮书--H3C

数据中心解决方案技术白皮书Huawei-3Com Technologies Co., Ltd. 华为3Com技术有限公司All rights reserved 版权所有 侵权必究Catalog 目 录1 技术应用背景 ......................................................................................................................... 2 2 技术特色 ................................................................................................................................ 3 3 技术实现方案 ......................................................................................................................... 5 3.1 高性能.............................................................................................................................. 5 3.2 高可靠.............................................................................................................................. 5 3.2.1 设备的可靠 ................................................................................................................. 6 3.2.2 网络的可靠 ................................................................................................................. 6 3.3 高安全............................................................................................................................ 16 3.3.1 基于端口隔离方式的服务器接入实现服务器的二层隔离,保障数据安全..................... 17 3.3.2 基于Root/BPDU Guard方式的二层连接保护保证STP/RSTP稳定,防止攻击,保障可靠 的二层连接..................................................................................................................... 18 3.3.3 端口镜像将数据流进行端口的镜像,可以根据需要对报文分析、统计...................... 20 3.3.4 基于用户接入访问控制AAA,Tacacs+,SSH提高网络的安全性 ............................. 22 3.4 高扩充............................................................................................................................ 23 3.5 高管理............................................................................................................................ 23 4 典型应用组网 ....................................................................................................................... 24Figure List 图目录图1 网络模型决定数据中心成为网络核心 ..................................................................................... 2 图2 数据中心系统结构 ................................................................................................................. 3 图3 数据中心解决方案实现 .......................................................................................................... 5 图4 高性能的网络设计 ................................................................................................................. 5 图5 端口捆绑实现......................................................................................................................... 7 图6 聚合技术层次结构 ................................................................................................................. 7 图7 聚合子层模块......................................................................................................................... 8 图8 MSTP实现 ............................................................................................................................. 9 图9 VRRP实现 ........................................................................................................................... 12 图10 Load Balance实现四、七层负载均衡................................................................................. 13 图11 IRF实现 ............................................................................................................................. 15 图12 Isolated VLAN方式实现二层安全隔离 ............................................................................... 17 图13 Root Guard/BPDU Guard方式保护二层STP稳定 .............................................................. 18 图14 (远程)端口镜像实现 ........................................................................................................... 20 图15 远程端口镜像功能 ............................................................................................................. 21 图16 基于用户接入访问控制 ...................................................................................................... 22 图17 以太网数据中心典型组网................................................................................................... 24数据中心解决方案技术白皮书关键词:以太网,数据中心 摘 要:本文对以太网数据中心解决方案中的关键技术进行介绍,包括实现数据中心高性能、高 可靠、高安全、高可扩充以及高管理性的技术实现方案。

H3C S12500 IRF2技术白皮书

H3C S12500 IRF2技术白皮书

H3C S12500 IRF2技术白皮书关键词:IRF2、HA、冗余备份、高性能摘要:IRF2将两台设备互联起来,形成分布式交换架构,并作为一个逻辑交换实体运行,提高网络的扩展性和可用性。

本文介绍H3C S12500系列数据中心级核心交换机上IRF2的实现和组网应用技术。

缩略语:缩略语英文全名中文解释BFD Bidirectional Forwarding Detection 双向转发检测IRF2 Intelligent Resilient Framework 2 第二代智能弹性架构Availability 高可靠性HA HighLACP Link Aggregation Control Protocol 链路聚合控制协议LACPDU Link Aggregation Control Protocol Data Unit 链路聚合控制协议数据单元MAD Multi Active Detection 多Active检测MPLS Multiprotocol Label Switching 多协议标记交换MSTP Multiple Spanning Tree Protocol 多生成树协议Service 服务质量ofQoS QualityVRRP Virtual Router Redundancy Protocol 虚拟路由器冗余协议目录1 概述 (3)2 S12500 IRF2的技术实现 (3)2.1 S12500 IRF2基本概念 (3)2.2 S12500 IRF2的形成 (4)2.3 S12500 IRF2数据转发 (5)3 S12500 IRF2的组网优点 (7)3.1 简化管理 (7)3.2 高性能 (7)3.3 高可靠性 (8)3.4 简化组网 (8)4 S12500 IRF2分裂和多Active检测 (9)4.1 设备故障 (9)4.2 多Active检测 (9)4.2.1 基于LACP的多Active检测 (9)4.2.2 基于BFD的多Active检测 (10)4.3 故障恢复 (10)5 典型组网应用 (11)5.1 扩展网络处理能力 (11)5.2 提供高可靠性 (12)1 概述IRF2(Intelligent Resilient Framework 2,第二代智能弹性架构)是H3C自主研发的软件虚拟化技术,它的核心思想是将多台设备通过IRF物理端口连接在一起,进行必要的配置后,虚拟化成一台“虚拟设备”,通过该“虚拟设备”来实现多台设备的协同工作、统一管理和不间断维护。

H3C CAS高可靠性和高可用性技术白皮书

H3C CAS高可靠性和高可用性技术白皮书

H3C CAS高可靠性和高可用性技术白皮书目录1 技术应用背景 (1)2 H3C实现的技术特色 (2)2.1 H3C CAS云计算管理平台简介 (2)2.2 相关技术基础简介 (3)2.2.1 共享存储 (3)2.2.2 动态迁移 (4)2.3 H3C CAS高可靠性(HA)技术 (5)2.3.1 相关术语 (5)2.3.2 物理服务器主机HA工作原理 (5)2.3.3 虚拟机HA工作原理 (6)2.3.4 技术特色总结 (7)2.4 H3C CAS高可用性技术 (8)2.4.1 动态资源调整 (8)2.4.2 虚拟机资源限额 (10)2.5 应用限制 (11)3 典型组网案例 (12)3.1 组网拓扑 (12)3.2 注意事项 (13)3.2.1 对服务器硬件的要求 (13)3.2.2 整合比(单台服务器上虚拟机数量)的决定因素 (13)4 参考文献 (14)i1 技术应用背景随着虚拟化和云计算浪潮在全球IT行业的兴起,越来越多的企业、行业和运营商纷纷将自身的IT 架构切换到虚拟化环境中。

虚拟化技术对数据中心内未被充分利用的服务器进行整合,极大地降低了客户的一次性投入成本,精简了数据中心物理服务器的数量,同时,减少了供电、制冷、场地和运维人员方面的运营成本。

但是,虚拟化也为IT应用带来了单点故障问题,在未实施虚拟化技术之前,IT管理员往往遵循“根据最坏情况下的工作负载来确定所有服务器的配置”这一策略,即一台高性能物理服务器仅安装一个应用程序。

在这种情况下,即使该物理服务器出现了断电或操作系统崩溃等异常状况,最多只会影响到一个应用的运行,而在虚拟化环境下,每台物理服务器往往运行多个虚拟的应用服务器,因此,虚拟化技术的实施将使IT环境面临的灾难破坏性更严重,尤其对于一些重要的业务入口或接入点(如企业的生产服务器和金融行业的数据库服务器等),即使出现秒级的业务中断,也将遭受灾难性的后果。

在这种应用背景下,如何保证虚拟化环境下业务应用的高可靠性和高可用性,成为急需解决的一个技术问题。

(完整word版)H3C大数据产品技术白皮书

(完整word版)H3C大数据产品技术白皮书

H3C大数据产品技术白皮书杭州华三通信技术有限公司2020年4月1 H3C大数据产品介绍 (1)1.1 产品简介 (1)1.2 产品架构 (1)1.2.1 数据处理 (2)1.2.2 数据分层 (3)1.3 产品技术特点 (4)先进的混合计算架构 (4)高性价比的分布式集群 (4)云化ETL (4)数据分层和分级存储 (5)数据分析挖掘 (5)数据服务接口 (5)可视化运维管理 (5)1.4 产品功能简介 (6)管理平面功能: (7)业务平面功能: (8)2 DataEngine HDP 核心技术 (9)3 DataEngine MPP Cluster 核心技术 (9)3.1 MPP + SharedNothing 架构 (9)3.2 核心组件 (10)3.3 高可用 (11)3.4 高性能扩展能力 (11)3.5 高性能数据加载 (12)3.6 OLAP 函数 (13)3.7 行列混合存储 (13)1 H3C大数据产品介绍1.1 产品简介H3C大数据平台采用开源社区Apache Hadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。

H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。

1.2 产品架构第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管HSCZEFKfl上連平frKB笹堆芒12i』」Rt巽^jpRctiuce Spjrk siremCRM SGM生产记〒曲.M-噸Hadaap2.0■1 j jET辛SEmifiKettleH3C大数据平台包含4个部分:理、服务管理、监控告警和安全管理等。

第二部分是数据ETL,即获取、转换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具Kettle 。

H3CIPS技术白皮书讲解

H3CIPS技术白皮书讲解

H3C IPS技术白皮书杭州华三通信技术有限公司目录1.概述 (4)1.1.相关术语 (4)1.1.1.段(segment) (4)1.2.网络安全现状 (4)1.3.基于网络的攻击与检测技术 (6)2.威胁的识别 (6)2.1.基于滥用误用的带宽管理技术 (6)2.2.在应用中识别入侵威胁 (8)2.3.协议异常检测 (8)2.4.拒绝服务检测技术 (9)2.5.基于流状态特征检测技术 (11)3.安全响应 (11)3.1.允许 (11)3.2.阻断 (11)3.3.通知 (12)3.4.流量控制 (12)4.IPS 安全策略 (12)5.安全更新 (13)6.安全审计 (13)6.1.日志内容 (13)6.1.1.操作日志 (13)6.1.2.系统日志 (14)6.1.3.攻击日志 (14)6.2.日志的查询 (14)6.3.日志的输出 (14)7.典型组网案例 (14)7.1.企业出口部署 (14)7.2.保护IDC (15)7.3.旁路模式部署 (16)8.总结和展望 (16)1. 概述1.1. 相关术语1.1.1. 段(segment)段是一个物理组网下对经过IPS设备数据的一个逻辑划分,通常是一对或者多对接口,或者包含VLAN ID的接口数据流。

IPS相关的业务都基于Segment进行配置。

1.2. 网络安全现状融入全球化的Internet是企业网络发展的必然趋势,每个企业的Intranet都会有许多与外部连接的链路,如通过专线连入Internet,提供远程接入服务供业务伙伴和出差员工访问等,企业网络边界的淡化,使得企业所面临的威胁的增多了,只要一个访问入口防护不完整,则“黑客”将可以入侵企业,获取或者破坏数据。

随着全球化网络步伐的加快,威胁的涌现和传播速度也越来越快,如著名的SQL Slammer,在爆发时,每8.5秒感染范围就扩展一倍,在10分钟内感染了全球90%有漏洞的机器;威胁和应用也越来越息息相关,如下图体现了这个趋势:图1-1 威胁与应用息息相关同时随着网络越来越普及,攻击工具也越来越成熟、自动化程度变高以及趋于平民化,使用者无需了解太多的知识就可以完成一次攻击,如下图显示了这个趋势:图1-2 攻击正变的越来越简单目前Internet面临的安全威胁从方法上有如下几种:►漏洞利用,比如针对软件操作系统对内存操作的缺陷,采用缓冲区溢出方法,以获得高操作权限运行攻击代码;如著名的微软MS05-047 Windows UMPNPMGR wsprintfW 栈溢出漏洞(即Windows即插即用服务的缓存区存在的溢出漏洞);►欺骗攻击,如IP地址欺骗等,其利用TCP/IP协议建立的未认证连接的缺陷进行源IP地址的伪造,从而达到访问关键信息的目的;►蠕虫/病毒,蠕虫/病毒是目前网络上最为常见的威胁,其具有传播快覆盖广的特点,如红色代码病毒(Code Red),曾经在12小时之内,覆盖全部的Internet网络,给全球带来了极大的危害;通常蠕虫/病毒通过利用现有系统软件的一些漏洞,从而达到传播的目的;►木马,通常在系统中会秘密打开一个访问程序,以绕过系统的安全策略,从而达到获取信息的目的;►拒绝服务攻击,通常称之为DoS/DDoS,其通过单台或者多台设备作为攻击的发起者,对一个特定的目标进行DoS攻击,占用大量目标机的资源,让目标机无法为外界提供服务,从而达到破坏的目的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.H3C大数据产品技术白皮书杭州华三通信技术有限公司2020年2月目录1H3C大数据产品介绍 (1)1.1产品简介 (1)1.2产品架构 (1)1.2.1 数据处理 (2)1.2.2 数据分层 (3)1.3产品技术特点 (4)先进的混合计算架构 (4)高性价比的分布式集群 (4)云化ETL (4)数据分层和分级存储 (5)数据分析挖掘 (5)数据服务接口 (5)可视化运维管理 (5)1.4产品功能简介 (6)管理平面功能: (7)业务平面功能: (8)2DataEngine HDP核心技术 (9)3DataEngine MPP Cluster核心技术 (9)3.1MPP + Shared Nothing架构 (9)3.2核心组件 (10)3.3高可用 (11)3.4高性能扩展能力 (11)3.5高性能数据加载 (12)3.6OLAP函数 (13)3.7行列混合存储 (13)1H3C大数据产品介绍1.1产品简介H3C大数据平台采用开源社区Apache Hadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。

H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。

1.2产品架构H3C大数据平台包含4个部分:第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管理、服务管理、监控告警和安全管理等。

第二部分是数据ETL,即获取、转换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具 Kettle。

第三部分是数据计算。

MPP采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop存储非结构化/半结构化数据和低价值密度结构化数据。

计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。

数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。

第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL和API,为应用层提供服务和中间件调用。

1.2.1数据处理对于大数据管理平台,应该建立一套标准化、规范化的数据处理流程,例如:如何采集内部和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等。

大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。

这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创造数据资产的能力。

1.2.2数据分层●ODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。

未来也可用于准实时数据查询。

●轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总●明细数据层:主题域内部进行拆分、关联。

是对ODS操作型数据按照主题域划分规则进行的拆分及合并。

●信息子层:报表数据、多维数据、指标库等数据来源于汇总层。

汇总层:主题域之间进行关联、汇总计算。

汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。

应用层:应用系统的私有数据,应用的业务数据。

精细化营销做为大数据平台的一个上层应用,由大数据平台提供数据支撑。

1.3产品技术特点先进的混合计算架构•采用Hadoop和MPP融合技术架构,对半结构化和非结构化数据支持并行计算和低成本存储,提供低时延、高并发的查询和分析功能;对结构化数据采用MPP分布式列存储,支持分布式计算、智能索引等功能,实现高性能结构化数据分析处理。

集成MapReduce、Spark、Storm、Tez等多种计算框架,利用YARN资源管理做统一管理,可在同一份数据集上运行多种计算。

离线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。

高性价比的分布式集群•基于x86服务器本地的计算与存储资源,计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算和存储的高可靠保证,具备较强的容错性。

云化ETL•将不同业务系统中分散、零乱、标准不统一的各种源数据中的数据进行汇聚。

支持从DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据。

各类数据经过抽取、清洗和转化后,实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。

该过程由一个统一的操作接口封装,经过无代码的可视化配置后,可实现自动化地、分布式地执行整个ETL 作业流程。

数据分层和分级存储•把数据按照不同阶段分为ODS(Operational Data Store)数据、轻度汇总数据、信息子层数据和应用数据,分别存储在Hadoop平台、MPP分布式数据库和数据仓库,满足不同阶段的计算需求;按照在线数据、历史数据等来管理数据生命周期,满足在线数据的高性能存储的需求;将核心模型数据通过改造融入到数据仓库的核心模型中,减少数据冗余,提升数据质量;将数据仓库中的历史数据迁移到低成本分布式数据库,减轻数据仓库的计算与存储压力并支撑深度数据分析。

数据分析挖掘•支持R语言,集成机器学习算法库Mahout和Spark MLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。

满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。

可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。

数据服务接口•提供交互式SQL和可编程API,提取数据存储计算平台的数据处理结果,屏蔽底层细节,为上层应用提供数据服务。

主要包括SQL接口、MapReduce/Spark/Storm计算接口等多种可编程API、全文实时搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要。

可视化运维管理•提供Web图形化界面实现运集群的管理和监控,集群的节点、主机和服务的运行状态都能在界面上显示,操作友好,功能丰富。

提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显著。

1.4产品功能简介管理平面功能:业务平面功能:2DataEngine HDP核心技术DataEngine HDP基于X86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储,提供低时延、高并发的查询功能,集群可以扩展到上千台服务器。

H3C通过对Hadoop开源组件的封装和增强,对外提供数据分布式计算存储、数据分析能力。

●资源管理YARN:改进的YARN统一资源管理,在同一物理主机/虚拟主机和数据集上运行多种计算框架,包括离线计算、内存计算和实时计算。

●分布式文件系统HDFS:分布式文件系统,有较强的容错性,可在x86平台上运行,减少总体成本,可扩展,能构建大规模的应用。

●数据库HBase:HBase是一种构建在HDFS(Hadoop Distributed File System)之上的分布式、面向列的存储系统,它具有高可靠、高性能、面向列和可伸缩的特性。

HBase 适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。

●离线计算: MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,适合数据密集型计算场景。

●内存计算: Spark是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。

●实时计算: Storm擅长流式计算、实时分析,比如广告点击计算、它在实时性要远远好于MapReduce计算框架。

3DataEngine MPP Cluster核心技术3.1MPP + Shared Nothing架构DataEngine MPP Cluster采用完全并行的 MPP + Shared Nothing 的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。

图 3-1 Shared Nothing + MPP 架构示意图3.2核心组件DataEngine MPP Cluster产品总共包含三大核心组件,即GCluster、GCware和GNode。

GCWare用于各节点GCluster实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。

GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。

GCWare:GCWare用于各节点GCluster实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。

GCWare对于集群的管理工作是以节点为基本单位的。

GNode:GNode是GCluster中最基本的存储和计算单元。

GNode是由GCWare管理的一个8a实例,每个GCluster节点上有一个GNode实例运行。

GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。

数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。

GCMonit:GCMonit用于定期监测DataEngine MPP Cluster服务程序的运行状态, 一旦发现某个服务程序的进程状态发生变化,就会根据配置文件中的内容来执行相应的命令。

GCMonit 进程监控程序为集群中的每个组件提供各自的启停脚本,提供的总脚本可以一次性启停所有模块的服务。

3.3高可用DataEngine MPP Cluster通过SafeGroup组内冗余机制来保证集群的高可用特性:1)每个SafeGroup可提供1个或2个副本数据冗余;2)SafeGroup 内数据副本自动同步;3)复制引擎自动管理数据同步;图 3-2 SafeGroup高可用性管理示意图3.4高性能扩展能力DataEngine MPP Cluster具备高性能扩展能力:1)通过SafeGroup 动态扩展集群节点;2)每个节点可以处理10TB有效数据,同时提供计算和存储能力;3)GCware 负责新节点的数据同步。

相关文档
最新文档