云存储及云计算使用(运维)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关于云存储使用情况的探讨和分析

版本历史

版本说明/变更理由/变更版本号修改日期修改人审批日期审批人

内容

V1.0. 2013-4-1 赵强首发

变更说明：C：Create，初始创建；A：Add，增加内容；M：Mod，修改；D：Del，删除

一、Hadoop的介绍及优缺点分析： (3)

1、读写性能和数据安全 (3)

2、易于扩展的集群架构 (3)

3、有效分散集群压力 (4)

4、高效的大数据分析 (4)

二、目前使用情况及反馈 (5)

1、目前线上Hadoop使用情况 (5)

2、针对目前线上环境的分析 (5)

3、关于Hadoop集群服务器的选用 (7)

4、关于nineCloud (8)

5、HBase (8)

6、监控 (10)

三、HBase和Oracle (10)

四、HDFS作为分布式存储的使用可能性分析 (13)

五、成功案例分析 (14)

六、发展方向 (15)

1、SaaS方向 (15)

2、数据挖掘方向 (17)

一、Hadoop的介绍及优缺点分析：

Hadoop一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统 File System），简称HDFS。Hadoop拥有功能丰富的子项目，其中包括HBase、Hive、ZooKeeper等功能各异的子项目，灵活的使用这些项目可以轻松的做到云计算平台的构建。

1、读写性能和数据安全

Hadoop都是基于HDFS文件系统，HDFS可以有效的提高系统的吞吐量，减少系统等待时间。HDFS是以磁盘为存储单位的，比如有三台服务器，每个服务器有三块硬盘，对于HDFS 等于有九个写入单元，而传统的基于服务器的分布式存储等于只有三个写入单元。而且HDFS 通过数据块进行备份的数据冗余机制，磁盘底层不需要而且不建议组建RAID，所以在可使用的磁盘空间上得到了更进一步的提升，而读写性能跟组建注重读写的RAID 0后的效果相同。HDFS对于磁盘读写速度的提升和对数据安全性的提升如下：

磁盘读写速度（RAID0=HDFS>RAID[1+0]>RAID5>RAID1）

磁盘数据安全（RAID1=HDFS>RAID[1+0]>RAID5>RAID0）

由此可见，HDFS可以达到RAID1的数据冗余和RAID0的高速读写。在最新版本（测试版本或者第三方的商业版本）的Hadoop中，Hadoop提出了一个新的Name NodeHA功能，利用该功能可以有效地规避老版本的Name Node节点单点问题。

2、易于扩展的集群架构

而且Hadoop中的Data Node方便扩展，可以在不停止服务的状态下动态的添加新的Data Node节点进入集群，而且加入后也不需要重启整个集群，只需要正常配置Data Node节点并启动该节点，Name Node可以自动将该节点加入集群。为了方便集群启动时可以正常启动新加入的Data Node需要对Name Node服务器上的hosts文件及slaves文件进行修改。

3、有效分散集群压力

Hadoop采用动态存储资源分配，可以将数据更平衡的分布于不同的Data Node节点，防止出现数据不平衡而造成部分Data Node节点请求过多，而其它Data Node节点没有请求的情况。就算有新的Data Node节点加入集群，Hadoop也可以通过一条命令简单的做到数据的重新平衡。当然这个操作最好在使用量低的夜间进行。Hadoop的数据的交换是不经过Name Node节点的，Name Node上保存的文件是直接从Data Node上收集而来，所以当用户使用Hadoop集群上的数据时，是直接从Data Node获取数据，这样做使得Name Node的压力得到缓解。而且最新版的Hadoop还支持在一个Hadoop集群中分别创建多个Name Node 节点，每个Name Node节点分别管理整个HDFS空间的一部分。使HDFS中的数据做到有效的隔离，并且当一个Name Node节点出现问题，不至于影响到整个集群中数据的访问。

4、高效的大数据分析

HBase作为Hadoop的一个子项目，主要用于数据的存储。HBase适合于非结构化数据存储的数据库。与常用的数据库不同的是HBase基于列的而不是基于行的模式。由于HDFS的特点，所以HBase非常适合大数据量的数据分析。系统架构上和Hadoop相类似同样在进行架构的扩展上十分的方便，当出现存储空间不足的情况时，只需要添加进去新的Data Node 节点就可以了。

由于HBase是基于列的数据库，所以配合Hive可以发挥BI数据库的功能以达到数据分析的作用。加上HDFS分布式存储的底层支持，使得其在进行数据分析、数据挖掘上有一定的优势。但是Hive虽然提供了高级SQL的支持，但是对于专业的BI数据库上还略有不足针对BI/BO工程师不是十分友善。

HBase于ZooKeeper等项目的组合应用，可以保证HBase的HMaster节点没有单点的问题出现。而HBase和Pig及Hive等项目一同使用时还能得到对高层SQL语言的支持。

二、目前使用情况及反馈

1、目前线上Hadoop使用情况

HDFS总空间：10.74TB

已经使用空间：251.07GB

Name Node负载：平均小于0.1

Data Node负载：平均在0.1左右

通过iostat命令查看三台Data Node数据节点信息，内容如下：

CPU的使用情况：

avg-cpu: %user %nice %sys %iowait %idle

0.55 0.00 0.43 1.03 97.99

硬盘的使用情况：

Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn

sdb 5.85 120.85 90.12 779560090 581333808

CPU的使用情况：

avg-cpu: %user %nice %sys %iowait %idle

0.34 0.00 0.30 0.36 99.00

硬盘的使用情况：

Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn

sdb 5.53 41.10 84.69 265108546 546324728

CPU的使用情况：

avg-cpu: %user %nice %sys %iowait %idle

0.62 0.00 0.60 0.74 98.04

硬盘的使用情况：

Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn

sdb 6.55 224.87 115.69 1450531354 746285984 2、针对目前线上环境的分析

通过上面这些数值可以看出，目前Hadoop云平台的整体压力较小，Data Node数据节点的写操作相对比较平衡，读操作则slave3的读取数据远远大于其它两台设备。

目前线上系统架构存在着一定的不合理性：

Hadoop集群的服务器上尽可能的不部署其它应用，因为无论Name Node，还是Data Node 其中Name Node负责镜像元数据的保存，随着业务量的增加这个文件的大小会越来越大，而