基于云计算的图书馆海量数据存储研究

2010年第3期

网络时代中,信息爆炸使得信息量呈指数型增加,近几年世界范围内磁盘存储系统的容量仍将以每年近80%的速度递增。作为信息资源中心的图书馆面临与日俱增的信息资源存储问题,增大图书馆的信息资源存储能力,更大程度的实现信息资源的长效保存和资源共享成为图书馆人思考的一个问题。作为一种新型的基于互联网的商业计算模型,是多种技术混合演进的结果,成熟度较高,又有大公司推动,云计算已越来越成为人们热议的焦点话题。在云计算的模式之下,图书馆的海量数据可以存储在通过互联网连接的任何一台电脑或终端设备,并通过网络来高度共享使用,[1]能解决困扰图书馆的数据存储和共享等问题。

1图书馆数字资源存储现状概述

1.1图书馆数字资源存储方式及比较

目前,国内图书馆数字资源存储方式主要包括DAS (Direct Attached Storage,DAS,直接附加存储)、NAS(Network Attached Storage,NAS,网络附加存储)、SAN(Storage Area Network,存储局域网络)三种。

(1)直接附加存储(DAS)。直接附加存储是指主机与存储设备之间的直接连接,存储设备通过SCSI或ATA作为数据接口的存储方式。[2]是目前国内比较成熟的数字资源存储方式,具有标准统一、兼容性好等优点,但面对指数型增长的信息量,DAS存储方式存在可靠性和安全性较低的缺陷。当存储服务器出现故障时,将会导致存储设备中的数据不能被读取。其次,DAS的扩展性差,因为DAS没有独立的存储操作系统,不能提供跨平台的文件共享功能,各服务器不能共享原有的DAS设备。另外,由于受服务器性能的局限,以及DAS数据存储模式是分散的,各系统下的文件必须分别存储,容易形成信息的孤岛,不利于资源的共享。

(2)网络附加存储(NAS)。网络附加存储是指直接接在网上的存储设备,实际上NAS是一台专用的存储服务器,数据通过网络协议进行传输。[3]网络附加存储支持异构服务器间的数据共享,在资源存储的可靠性方面也有所改善,但NAS的数据备份时消耗较多的通信带宽,导致数据传输速度过低,另外NAS不支持数据库服务,因此不适合大型数据库的应用。NAS依然存在扩展性较差的缺陷,由于受到设备容量的限制,新增加的NAS设备与原有的设备不能很好的集成,这就导致NAS对数据的备份恢

基于云计算的图书馆海量数据存储研究

杜海宁(浙江丽水学院图书馆浙江丽水323000)

摘要:云计算是一种新型的基于互联网的商业计算模型,是多种技术混合演进的结果,具有安全可靠、海量信息存储、快速方便等特点。图书馆利用云计算的分布式数据存储技术和与之相关的虚拟技术实现对海量数据的存储,能降低存储和维护成本,具有所存数据安全可靠,轻松实现不同设备间的数据共享等特点。

关键词:云计算图书馆海量数据存储存储技术虚拟技术

中图分类号:G250.73文献标识码:A文章编号:1003-6938(2010)03-0099-003

Research on the Library Mass Data Storage Based on Cloud Computing

Du Haining(Library of Lishui College,Lishui,Zhejiang,323000)

Abstract:As a result of mixing and evolving of many technologies,the new kind of commercial computation model---cloud computing---has many advantages such as being safe and reliable,capable of mass data storage,as well as easy and convenient to use.Distributed data storage technology and related virtual technology of cloud computing are used by the libraries so as to have a reduction of the storage and maintenance costs besides acquiring the benefits of being reliable and safe in storing the date and convenient in sharing data between different devices.

Key words:cloud computing;libraries;mass data storage;storage technology;virtual technology

CLC number:G250.73Document code:A Article ID:1003-6938(2010)03-0099-003

收稿日期:2009-11-02;责任编辑:魏志鹏

·信息工作·

99

复实现起来相当困难。除此之外,NAS技术所需投入的成本很高,因此不能得到较为广泛的应用。

(3)存储区域网络(SAN)。存储区域网络是独立于服务器网络之外的高速存储专用网络,其将存储子系统网络化,实现真正的高速共享存储目标。[4]SAN是继DAS、NAS之后出现的新兴存储技术,其具有传输速度快,扩展能力强,共享能力高以及可靠性、安全性好的特点,因此SAN成为现在社会主流的存储解决方案。尽管如此,SAN 依然存在难以改变的缺陷:由于SAN是在DAS和NAS的基础上发展起来的,其技术必然复杂难懂,技术实现要求也过于苛刻。庞大繁杂的技术要领必然带来软件升级困难和投资成本过高的问题。

1.2图书馆数字资源存储存在的问题

各种存储技术没有统一技术标准是目前国内数字资源存储存在的首要问题,使存储系统从立项到实施均无据可循,建设效果千差万别,阻碍了计算机与存储设备之间的高速互联,甚至难于实现大容量数据共享的解决方案。其次是数据快速备份和恢复能力的缺乏。现阶段各图书馆的海量数据存储系统或大或小的存在系统不稳定的问题。由于各存储技术不同程度的存在着该技术不能攻克的技术缺陷,任何技术都无法保证存储系统百分百无故障。在这样的情况下,为了保证数据的安全性就必须建立切实有效的数据备份和恢复方案。最后,为了达到图书馆数字化、信息化的要求,各图书馆对海量数据存储系统建设的资金投入不理性。盲目追求现代化主流技术导致图书馆没有清楚的了解自身需求,并且对建成后系统运行维护费用等缺乏理性分析,因此造成所建存储系统后期投入更多或投入大量资金却无法满足自身需求的现象。

1.3图书馆数字资源存储的需求

随着网络信息服务的发展和数字信息资源的指数增长,人们在追求信息存储系统容量扩增的同时,开始越来越多的关注信息存储在有效性、安全性和存储效率等方面的问题。针对目前社会较高的数字资源存储要求,图书馆作为信息资源中心为用户提供各种信息服务,必然要在数字资源存储上迎合社会发展的需要。

(1)高性能的存储系统。将传统图书馆资源数字化并通过现代化存储技术进行存储的目的在于提高图书馆信息资源的使用效率,在此基础上建立的存储系统、存储服务器必须拥有较高的性能。目前图书馆用户对信息的需求量增加迅速,导致存储系统的访问量较大,这就要求相应的数据流量也比较大。为了加快存储系统的数据相应时间,必须采用高性能、实用性强的存储系统。

(2)可靠完整的存储方案。在实际工作中,各种不可抵抗的自然灾害和人为破坏都有可能造成存储系统的崩溃,为了提高数据存储的安全性,图书馆必须保证数据存储在任何条件下都保持可靠完整性,存储系统或存储设备出现故障时也不会出现数据损坏和丢失的现象。这就需要图书馆的信息存储系统建立一个能应对这些危机的存储方案,如:本机、本地备份,异机、异地备份,甚至是远程容灾系统等,以保证存储数据的安全可靠。[5]

(3)高度的扩展性存储接口。由于国内图书馆资金有限,对数字资源存储系统的投资不可能一次性到位,所以存储方案必须考虑高度的扩展性。一方面存储系统必须适应多厂商、多平台和多系统的持续发展,支持异构环境下的多系统多平台服务;另一方面,考虑到图书馆业务的发展必然导致数字资源的增长,因此存储系统的建设必须充分满足数据增长对存储系统扩容的要求。

(4)适度投资的存储原则。图书馆在海量数据存储问题上应该量力而行,根据图书馆的规模及财力选择适合本馆的海量数据存储方案。若存储方案没有考虑图书馆已有数字资源存储设施,而另行开发建立新的存储方案,这样不仅造成重复建设浪费资源,而且增加了许多不必要的资金浪费。因此,如何保护原有存储系统建设,减少海量数据存储的投资成本是构建海量数据存储时要考虑的关键问题。

2基于云计算的图书馆海量数据存储

2.1基于云计算的图书馆海量数据存储技术需求

在图书馆海量数据存储中的云计算技术是以计算服务器为核心,动态部署虚拟的硬件服务器。用户可以实现“无处不在”的访问,同时也和Web云上的用户共享流量和计算能力。[6]满足实现图书馆海量数据存储和操作需求的云计算关键技术需要:

(1)采用分布式存储进行数据存储实现云计算对图书馆海量数据的存储,并采用冗余存储的方式来保证存储数据的可靠性。通过云计算这两个技术将每个图书馆所有数字资源存储在“云”中,并由“云”来管理和调度这些海量数据,利用分布式的数据存储技术和与之相关的虚拟技术使得整合后的图书馆海量数据更加统一有序,实现图书馆数字资源的完全整合。

(2)为了满足多用户对数据的操作,云计算的数据存储技术必然具有高吞吐率和高传输率的特点;同时云计算要求硬件资源与软件资源能够更好的被共享,且具有良好的伸缩性。这就要求云计算在图书馆海量数据存储系统开发时必须具备多用户技术。此技术主要表现在两

杜海宁:基于云计算的图书馆海量数据存储研究100

2010年第3期

方面:其一是基于云计算的海量数据存储系统能够服务于大多数用户,且具有非常容易的伸缩性;其二是该技术提供的附加业务逻辑可以使用户对SAAS平台进行扩展来满足图书馆多用户同时进行数据操作。

(3)云计算环境下对海量数字资源进行实时监控和管理,解决图书馆中的资源种类多、规模大,对资源实时监控和管理困难的问题。从云计算技术的资源调度的粒度来看,虚拟机内部应用的调度是云计算技术中最受人们关注的技术。

2.2基于云计算的图书馆海量数据存储系统特点

(1)确保了海量数据存储系统的可靠性和数据安全性,用户不必再为数据丢失、系统瘫痪等问题感到困扰。在确保存储系统可靠性的问题上,云计算技术最大限度地降低了服务器的出错概率。云计算模式中海量数据不再是存储于某个图书馆的服务器上,而是存储在“云”中的上百万台服务器,因此即使“云”中的某台服务器出现故障,在云端会有其他服务器作为替补来代替崩溃的服务器进行工作。显然云计算模式下不会造成数据的损坏和丢失和图书馆海量数据存储系统的瘫痪。

(2)通过云计算,图书馆可以轻松的实现不同设备间的数据共享。图书馆作为信息资源具有向用户传播信息、使用户以最大的限度获取知识和信息。传统模式下,用户在特定的图书馆中只能获得该图书馆提供的资源,即使该图书馆与其他馆之间有共享工程建设,用户获得共享资源的程序也相当繁琐,且非常有限。通过云计算模式,相关图书馆之间可以共同构筑图书馆的共享空间,来自于任何图书馆的数字资源统统存放在“云”中,用户只需将其电子设备连接至互联网,就可以访问和获取所需的任何数据。

(3)基于云计算的图书馆海量数据存储方式提高了信息资源的更新速度。只要是通过云计算技术来开发海量数据存储的图书馆都会经常修改和添加新的信息资源,这种图书馆间互相补充的信息存储使用户可以获取到世界上最新的资料和信息。

(4)云计算的出现使图书馆存储系统的扩展能力得到大大的提高。因为“云”提供无限的空间和计算能力,使得图书馆在社会变迁过程中不必再为海量数据存储系统的扩展问题烦恼。同时也防止了图书馆海量数据存储系统扩展时对原系统的摒弃和对存储系统的重复建设。

(5)各图书馆无论规模大小都存在资金不足的现象,云计算模式的出现大大降低了海量数据存储系统建设和维护成本,而云计算技术可以通过少量的费用让图书馆获得“云”中上百万台服务器提供的服务。云计算对用户

端的设备要求很低,图书馆管理员无需担心相关硬件升级的问题,另外在“云”端有专业的工作人员维护硬件,无需图书馆管理员劳神。

3云计算图书馆海量数据存储的思考

云计算将图书馆海量数据存储带入了新的时代,是图书馆海量数据存储的变革性突破。然而时代在变迁,图书馆及其用户对海量存储系统的要求也在不断地提升,因此无论多么完善的技术都会遇到瓶颈问题,云计算技术当然也不例外。为了使图书馆海量数据存储的云计算技术走的更远,图书馆应该从各个方面找到云计算已经遇到或可能遇到的瓶颈问题,对其进行改进,使其更好的为图书馆和用户服务。首先,在云计算模式下,各个加入云计算模式的图书馆之间可以通过有关的协议共享彼此的信息资源。[7]虽然这样丰富了信息资源的内容,但同时也带来了版权纠纷的问题。因此,为了解决版权问题尽快制定合理的解决方案乃当务之急。其次,云安全问题一直是人们心中的疑虑,云中上百万台服务器提供了数据快速备份和恢复机制,但云端的安全性是否也同样值得我们信任呢?为了进一步保证设备和数据的安全,必须严格加强云端安全机制的建立和完善。

云计算为图书馆用户提供了一个更为简单、廉价的资源共享模式。然而任何事物都是机遇与挑战并存,为了使云计算技术更加完善的应用,它就必须迎合了大部分用户的需求,不断解决云计算在应用过程中遇到的各种问题。只有这样才能使云计算的图书馆海量数据存储真正发挥其本身的价值。

参考文献:

[1]黎春兰,邓仲华.论云计算的价值[J].图书与情报,2009,

(4):42-46.

[2][3]周敬治,修蔽蔽.数字资源存储系统的构建模式及比较研究[J].情报杂志,2006,(11):106-108.

[4]刘姝.对高校图书馆建设数字资源存储系统的思考[J].

大学图书馆学报,2008,(6):75-78.

[5]严庄.图书馆数字资源存储技术方案研究[J].四川文理学院学报,2007,(6):108-110.

[6]周舒,张岚岚.云计算改善数字图书馆用户体验初探[J].图书馆学研究,2009,(4):28-30.

[7]蔡炳育,陈慧贤.云计算与数字资源存储问题分析[J].

巢湖学院学报,2009,(6):27-30.

作者简介:杜海宁,男,浙江丽水学院图书馆馆员。

101

相关文档
最新文档