集团大数据平台系统配置方案

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

集团大数据平台系统配置方案

1.1硬件系统配置建议

1.1.1基础Hadoop平台集群配置规划

根据此次大数据平台的建设要求,大数据平台需要满足全量3PB数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。其中:1)结构化数据的数据量为:

3PB*30%=0.9PB=922TB(结构化数据全部进入数据仓库)

对于结构化数据存储容量要求为:

922TB*(3+1+0.5)/3*1.3=1798TB

注:对结构化数据,采用3倍副本冗余存储,1倍中间结果余留,0.5倍索引存储空间,3倍数据压缩,0.3倍空间余留。

2)非结构化数据的数据量为:

3PB*70%=2.1PB=2151TB

对于非结构化数据存储要求为:

2151TB*3=6453TB

非结构化数据采用3倍副本冗余存储。

3)全量数据存储容量要求为:

1798TB(结构化数据)+6453TB(非结构化数据)=8251TB

DataNode单节点存储容量推荐配置为:4TB*12=48TB

基础Hadoop平台DataNode节点数为:8251TB/48TB=172节点

因此,DataNode服务器推荐配置为:

表10-1 推荐配置

另外:对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper 9个节点,NameNode 2个节点,Resource Manager 2个节点,HMaster 5个节点,总共9+2+2+5=18个节点

综上所述,基础Hadoop平台节点规模如下:

表10-2 节点规模

针对NameNode,Zookeeper,Resource Manager,HMaster等角色的功能和性能要求,服务器建议采用如下配置:

表10-3 推荐配置

1.1.2 数据仓库集群配置规划

根据此次大数据平台的建设要求,大数据平台需要满足全量3PB 数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。

其中:结构化数据922TB*(3+1+0.5)/3*1.3=1798TB (结构化数据全部进入数据仓库)

DataNode 单节点存储容量推荐配置为:2TB*12=24TB

基础Hadoop 平台DataNode 节点数为:1798TB/24TB=75节点

因此,

DataNode 服务器推荐配置为:

表10-4 推荐配置

另外:对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper7个节点,NameNode2个节点,Resource Manager2个节点,HMaster5个节点,总共7+2+2+5=16个节点

综上所述,基础Hadoop平台节点规模如下:

表10-5 节点规模

针对NameNode,Zookeeper,Resource Manager,HMaster等角色的功能和性能要求,服务器建议采用如下配置:

表10-6 推荐配置

1.1.3集群规模综述

表10-7 集群规模

1.1.4开发集群配置建议

表10-8 开发集群配置

1.1.5测试集群配置建议

表10-9 测试集群配置

1.2软件配置建议

表10-10 软件配置

表10-11 TDH软件配置

1.3软硬件配置总表

表10-12 软硬件配置总表

PCIe SSD

1.4网络拓扑

图10-1 网络拓扑图

建议配置12个一级TOR万兆交换机(48端口),3个二级TOR万兆交换机(48端口)。任意两台服务器之间的带宽为2Gbps。

规划24个机柜,每个机柜部署12个2U服务器,每台服务器以双网口链路聚合上联集群交换机,后续随着集群规模的扩展可增设核心数据层交换机,向下负责汇聚多个集群节点。

相关文档
最新文档