集团大数据平台系统配置方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
集团大数据平台系统配置方案
1.1硬件系统配置建议
1.1.1基础Hadoop平台集群配置规划
根据此次大数据平台的建设要求,大数据平台需要满足全量3PB数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。其中:1)结构化数据的数据量为:
3PB*30%=0.9PB=922TB(结构化数据全部进入数据仓库)
对于结构化数据存储容量要求为:
922TB*(3+1+0.5)/3*1.3=1798TB
注:对结构化数据,采用3倍副本冗余存储,1倍中间结果余留,0.5倍索引存储空间,3倍数据压缩,0.3倍空间余留。
2)非结构化数据的数据量为:
3PB*70%=2.1PB=2151TB
对于非结构化数据存储要求为:
2151TB*3=6453TB
非结构化数据采用3倍副本冗余存储。
3)全量数据存储容量要求为:
1798TB(结构化数据)+6453TB(非结构化数据)=8251TB
DataNode单节点存储容量推荐配置为:4TB*12=48TB
基础Hadoop平台DataNode节点数为:8251TB/48TB=172节点
因此,DataNode服务器推荐配置为:
表10-1 推荐配置
另外:对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper 9个节点,NameNode 2个节点,Resource Manager 2个节点,HMaster 5个节点,总共9+2+2+5=18个节点
综上所述,基础Hadoop平台节点规模如下:
表10-2 节点规模
针对NameNode,Zookeeper,Resource Manager,HMaster等角色的功能和性能要求,服务器建议采用如下配置:
表10-3 推荐配置
1.1.2 数据仓库集群配置规划
根据此次大数据平台的建设要求,大数据平台需要满足全量3PB 数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。
其中:结构化数据922TB*(3+1+0.5)/3*1.3=1798TB (结构化数据全部进入数据仓库)
DataNode 单节点存储容量推荐配置为:2TB*12=24TB
基础Hadoop 平台DataNode 节点数为:1798TB/24TB=75节点
因此,
DataNode 服务器推荐配置为:
表10-4 推荐配置
另外:对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper7个节点,NameNode2个节点,Resource Manager2个节点,HMaster5个节点,总共7+2+2+5=16个节点
综上所述,基础Hadoop平台节点规模如下:
表10-5 节点规模
针对NameNode,Zookeeper,Resource Manager,HMaster等角色的功能和性能要求,服务器建议采用如下配置:
表10-6 推荐配置
1.1.3集群规模综述
表10-7 集群规模
1.1.4开发集群配置建议
表10-8 开发集群配置
1.1.5测试集群配置建议
表10-9 测试集群配置
1.2软件配置建议
表10-10 软件配置
表10-11 TDH软件配置
1.3软硬件配置总表
表10-12 软硬件配置总表
PCIe SSD
1.4网络拓扑
图10-1 网络拓扑图
建议配置12个一级TOR万兆交换机(48端口),3个二级TOR万兆交换机(48端口)。任意两台服务器之间的带宽为2Gbps。
规划24个机柜,每个机柜部署12个2U服务器,每台服务器以双网口链路聚合上联集群交换机,后续随着集群规模的扩展可增设核心数据层交换机,向下负责汇聚多个集群节点。