Hadoop大数据平台-测试报告及成功案例

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算节点(worker node):用于运行计算类型后台进程,包括DataNode、NodeManager、RegionServer等。在集群规模较小时,也可以将Zookeeper部署到计算节点上(注意Zookeeper对机器性能比较敏感。若部署Zookeeper,机器上必须预留足够的资源);
公共设施节点(infrastructure node):提供基础软件服务,比如DNS、NFS (如果需要的话)。该节点同时也被用于运行Cloudera Manager、Hue以及Cloudera Manager与Hive需要使用的数据库实例(比如MySQL);
磁盘(存储)
1TB 7.2K RPM NLSAS 6Gbps 2.5in Hot-plug Hard Drive(24TB)
1.1.1.1.2
操作系统
Redhat, RHEL 6.6
JAVA SDK
JDK 1.7
Hadoop商业发行版
EDH 5.3.2, EDH 5.3.3, EDH 5.4.0
1.1.1.1.3
Hadoop大数据平台
测试报告及成功案例
1
1
某银行现有HODS在支撑行内业务方面已经遇到瓶颈。希望通过搭建基于Hadoop的历史数据平台(新HODS),以提升平台运行效率及数据覆盖面,支撑未来大数据应用,满足未来业务发展需求。本次POC测试的主要目的是验证Hadoop商业发行版(EDH)是否可以满足某银行HODS应用特点,主要考察点包括:
磁盘(存储)
1TB 7.2K RPM NLSAS 6Gbps 2.5in Hot-plug Hard Drive(6TB)
计算节点配置(4)
CPU
Intel® Xeon® E5-2650 v3 2.3GHz,25M Cache,9.60GT/s QPI,Turbo,HT,10C/20T (105W) Max Mem 2133MHz(40 vcore)
边缘节点(edge node):具有外网IP以及Hadoop集群内网IP。该节点不部署任何Hadoop后台进程。但是具有访问Hadoop服务的所有配置文件。普通用户只被允许通过边缘节点使用Hadoop服务。
数据存储考虑
考虑到Hadoop通过数据块(Block) 的复制实现数据的高可用性。在规划数据存储空间时,需要特别注意。默认情况下,Hadoop分布式文件系统使用3备份进行数据存储。因此如果需要存储1TB的数据,集群至少需要3TB的存储空间。另外,MapReduce执行过程中需要临时文件目录保存中间计算结果,在一般情况下Cloudera建议分配10%~ 25%的磁盘总空间用于临时文件的存储。
操作系统
Cloudera建议在生产系统中使用Cloudera Manager与CDH所支持(经过全面测试)的操作系统。目前EDH 5.4前的版本官方支持RHEL6.5,EDH 5.4+支持RHEL 6.6。目前某银行系统普遍采用RHEL 6.6。
域名正向/反向解析通过DNS执行。管理节点域名为hods-n01和hods-n02;计算节点域名为hods-d01、hods-d02、hods-d03和hods-d04。
Hadoop集群中的所有机器必须使用同样的时间(包括时区)。Cloudera建议使用网络时间协议(Network Time Protocol,简称NTP)作集群间节点的时间同步。
Cloudera一般建议用户关闭SELinux。某银行并不使用SELiunx。
Cloudera一般建议用户关闭IP tables (防火墙)。某银行要求使用IP tables。为了保证集群中服务的正常通信,需要在集群机器上打开相应端口保证集群服务可以绕过防火墙。具体端口号参见官方文档
验证产品本身的易用性、可扩展性,主要涉及集群的部署、运维、监控、升级等;
验证产品对安全性的支持,包括认证、授权、审计三大方面;
验证产品对资源分配的控制与调Baidu Nhomakorabea;
验证Hadoop基本功能,包括可靠性、稳定性、故障恢复等;
验证Hadoop子系统(包括HDFS、HBase、Hive、Impala等) 的性能、使用模式、设计思想、迁移代价等。
从规划的角度出发,Cloudera具有一套对Hadoop系统架构的推荐配置,包括节点(种类及数量)规划、数据存储规划、操作系统配置等等。
节点种类
Cloudera建议在生产系统中部署4种类型的节点:
管理节点(master node):用于运行Hadoop管理类型的后台进程,包括NameNode,、Standby NameNode、Resource Manager等。同时管理节点也被用于运行Zookeeper、JornalNodes等辅助性(比如同步)的后台进程。根据集群的规模,这些后台进程可以运行在同一台服务器上,或者不同的服务器上。考虑到后续的扩展,一般建议使用至少3台服务器作为管理节点;
内存
16GB RDIMM, 2133MT/s, Dual Rank, x4 Data Width(128GB)
网络
Intel X520 DP 10Gb DA/SFP+ Server Adapter, with SR Optics
磁盘(操作系统)
600GB 10K RPM SAS 6Gbps 2.5in Hot-plug Hard Drive(1.2TB)
内存
16GB RDIMM, 2133MT/s, Dual Rank, x4 Data Width(256GB)
网络
Intel X520 DP 10Gb DA/SFP+ Server Adapter, with SR Optics
磁盘(操作系统)
600GB 10K RPM SAS 6Gbps 2.5in Flex Bay Hard Drive(1.2TB)
1
1.1.1.1.1
硬件配置分为两类:管理节点(master node)与计算节点(worker node)。
管理节点配置(2)
CPU
Intel® Xeon® E5-2650 v3 2.3GHz,25M Cache,9.60GT/s QPI,Turbo,HT,10C/20T (105W) Max Mem 2133MHz(40 vcore)
相关文档
最新文档