向黎洪云存储的核心技术及发展状况

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

向黎洪云存储的核心技

术及发展状况

Pleasure Group Office【T985AB-B866SYT-B182C-BS682T-STT18】

云存储的核心技术及发展状况在现在这个信息科学技术飞速发展得时代,无论是企业还是个人,都无时无刻不在享受着先进信息技术的成果。存储技术作为人们信息数据处理领域的一项重要技术,也时刻受到人们的关注。但随着社会的发展,人们所需求的数据量的不断增长,数据信息的处理技术也要随之不断提高。而在数据信息处理领域中的存储技术更是需要不断满足人们的需求。当今世界是已经来到了一个信息大爆炸的时代,至少在未来几年里,数据将以每年50%到60%的速度爆炸式增长,人们对数据的存储量及其存活期有了更高的要求。另外,企业的业务发展和合规性要求也要求企业延长数据的保留期。此外,现在的商业环境出现了越来越多的诉讼因素,这些都要求企业寻找一种全新的辅助存储方案。

新建数据越来越多,而且企业有很多的原因必须保留数据,不管是为了满足合规性要求,还是IP的需要,或是为了重复使用它们或其他原因。总体上企业在长期保留数据方面通常有如下五个方面:

1、归档

2、本地数据保护(备份)

3、远程数据保护(灾难恢复)

4、合规性/诉讼

5、一般长期数据保留

这些方案虽然基本上能解决企业在长期保留数据方面的问题,但这些方案并不满足企业的经济效益,而且考虑到方案优化方面,这些方案对数据存储带来了极大的不便。

随之我们发现了一种新的趋势,可以解决企业的存储之痛,那就是与数据存储有关的各种云服务。云存储作为一项大型数据存储服务,便是在企业业务发展和合规性要求下发展起来的。目前基于云存储概念的网盘市场已经具体了诸如网易、腾讯、Google、DBank(华为背景)、金山等诸多的知名企业。云存储成为网络经济下一个新的增长点似乎已经成为一种共识,知名企业的扎堆也使整个行业从一开始就面临着激烈的竞争。

与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。可以说,云存储除在数据存储方面比较有竞争力外,还更加强调它本身的服务特性。

云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。云存储系统的结构模型由四个模块组成,其分别是:存储层、基础管理层、应用接口层和访问层。

其中存储层是云存储最基础的部分。云存储中的存储设备往往数量庞大且分布地域很广,彼此之间通过广域网、互联网或者FC光纤通道网络连接在一起。存储设备之上是一个统一存储设备管理系统,可以实现存储设

备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。

云存储最核心的部分是基础管理层。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。

而应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘引用平台,远程数据备份应用平台等。

再者就是访问层。任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。

要完成这些部分的服务功能就需要相应的技术前提,包括集群技术、网格技术和分布式文件系统、CDN内容分发、P2P技术、数据压缩技术等。其中的核心技术就是基于云计算的编程模型、海量数据分布存储技术、海量数据管理技术、虚拟化技术、云计算平台管理技术。

(1)编程模型

MapReduce是Google开发的java、Python、C++编程模型,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于

1TB)的并行运算。严格的编程模型使云计算环境下的编程十分简单。MapReduce模式的思想是将要执行的问题分解成Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的效果,再通过Reduce程序将结果汇整输出。这样提高了数据的存储效率。

(2) 海量数据分布存储技术

云存储系统由大量服务器组成,同时为大量用户服务,因此云存储系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性。云存储系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。

GFS即Google文件系统(Google File System),是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS 的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。

一个GFS集群由一个主服务器(master)和大量的块服务器(chunkserver)构成,并被许多客户(Client)访问。主服务器存储文件系统全部的元数据,包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它也控制系统范围的活动,如块租约(lease)管理,孤儿块的垃圾收集,块服务器间的块迁移。主服务器定期通过HeartBeat消息与每一个块服务器通信,给块服务器传递指令并收集它的状态。GFS中的文件

相关文档
最新文档