磁盘阵列系统(RAID)介绍

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

of California - Berkeley 发表了一篇文章: A Case for Redundant Arrays of Inexpen sive Disks",而IBM 是此一项目研究的主要协助者.这篇文章,介绍了一个新的"头字语" -R A I D. 同时并定义了五种RAID代号- R AID level.

这篇文章的主要论题,是针对当时的硬盘科技,在容量及速度上,无法追上CPU及内存的发展的现象,提出多种改善方法.因为长期来看,这种脚步的差距,会造成硬盘无法实时供应对资料的急迫需要.

所以,它利用了各式技巧,将许多较小容量的硬盘,以RAID 技术,规划为一座大的硬盘机.同时,在实际储存资料时,透过这项技术,将资料切割成多区段并分别同时存放于各个硬盘机上.在实际读取资料时,也是同时自此多颗硬盘机读出资料.由此可见,这项技术RAID, 着实提高了大型硬盘的效率.

值得一提,它的观念,也提供了一套思考及开发的方向:资料容错.藉由"同位检核" Parity 的概念及方法,能在该群数组硬盘中任一颗硬盘故障时,仍能读出资料,并可于数据重构时,将原故障硬盘内之应有资料,经计算后置回替代的新硬盘中,使回复成原貌.

这篇文章也指出了许多在各不同代号型式的RAID,其开发上的问题,大多相关于强调"速度"及"成本"上的改善.这和今日的数组供货商所多强调的"可靠性" Reliability 及"资料可供应性" Data Availability, 似乎有些不同.当然这也是因为时代背景的差异.不过,这也使得各磁盘阵列供货商,各自有较大的发挥空间,针对容错性,成本,及效率,有不同的处理方式及结果.

RAID的分类

可以多个区段方式,在同一时间,将之分别存放在该群所有数组硬盘里.在读取资料时,亦可在同一时间,由该群所有数组硬盘送出资料至数组控制器.换言之,此种数组类型的效率,是与该群内数组硬盘数成正比.所以在读写强而集中的应用领域(如:影音播放系统),可藉RAID level 0 得到较佳的输出效率及品质

RAID level 1

就是"磁盘镜像" Disk Mirroring. 它可将两颗硬盘机为一组,在有资料欲写入时,在同一时间将之存放在本组的两颗硬盘中,所以在同"

途上,这样的规划,却是最佳的选择

RAID level 5

通常亦为"轮转同位型数组" Rotating Pari ty Array. 它和RAID level

4 一样的,在每次的写入前,由数组控制器内建的XOR逻辑,根据切割之区段大小(单一或多个block为单位),计算出同位检核信息.每项资料中(以Stripe为单位)的同位检核资料,随着资料分别散存在各数组硬盘内,没有特定同位碟.相较于上述RAID

level 4, 这个型式可允许多个写入,因为这多个写入动作时,同位信息是置在不同的数组硬盘中.

但是在读取资料时,每项资料可能是直接来自各具该项资料的硬盘中,但也可能是会读入同位信息,而必需经由XOR的计算.在连续大型档案要求输出时,它显然稍有不利

Parity容错基本原理

以上介绍了常见的数组代号型式,相信许多读者仍不了解这个"同位检核信息" Parity 如何提供容错能力?而已毁损的硬盘中之原资料,又如何在新的替代硬盘中,作原资料的重建Rebuild ?

每个Byte 是由8 个bit 所构成的,如果在这八个bit 后,经由运算XOR上述的八个d ata bit,再加一个同位检核位Parity bit, 则这

在整台数组中,数据重构与正常存取的效率是互补的.

不过现在的数组控制器大多已可支持"可调整的重建优先权设定".以笔者所经验过的重建9GB硬盘为例子,它可以在五十分钟内完成.但在以正常存取为极度优先时,它可能需时三小时.不过如果是采用较低阶的数组控制器,恐怕所需时间,会远远超过上述的数字,提高危险系数.

因为在正常的RAID level 3, 4, 5 型式下,磁盘阵列容许同一数组组态群内,仅一颗硬盘故障.而系统管理者,必须在尽量短的时间内(第二颗硬盘故障前),

立即得到通知:一颗数组硬盘已经故障了.而这个通知方式及过程,影响前来处理的时间.目前有多种设计:基本的警笛声,事件记录联结并通知主系统之操作系统,电子邮件,传呼器,

... 都是善尽通知义务的方法.

立即将数据重构完成.否则,就得面临向大量资料说再见的精神压力了.

不过,如何缩短从在被通知后到抵达现场,并开始作数据重构的这段时间及压力,则难以绝对掌握.有解吗?

备援硬盘: Spare Disk

如果在数组中,加上备援硬盘.当任一数组硬盘故障时,该备援硬盘可以自动上线,将故障硬盘立即取代,并开始依设定的"重建优先权"作数据重构,就可有效缩短上述的"前往处理"的时间,也可减少因急迫性所造成的压力.

不过,这颗备援硬盘,平时是无法拿来作存放空间的.因为一旦作了"可使用"的标记,备援设定会自动消失.所以,回到前述的真理:"安全

性"加"速度"建立在成本上的.

总体备援硬盘: Global Spare Disk。就是备援硬盘,但是可以对同一磁盘阵列中的所有"数组组态群"作备援.总是比较省的方式.

定时备份

"既然重要,为何不备份?"与其在灾害发生时,束手无策,自怨自艾,何不在规定时间作好重要资料的备份,以防万一? 即使使用了磁盘阵列,提高数据的可供应性,备份仍该作的.毕竟,它是重要的资料.

RAID控制器型式

1. 软件架构:Software Based

在多年前, Novell 的Netware就提供了M irror的功能,即使在今天,相信仍有许网络系统,是采用此一方式.不过这在资料量较大的环境中,其50% 的硬盘使用率,究竟是稍少了些.另外, Corel 在约五年前,大力推广其Corel R AID!以不到美金一千元的低价,切入市场.

然而究竟使用软件的数组架构,会占用到主系统的CPU 及内存资源,而导致系统效率的下降.所以采用非主系统供货商的软件数组产品者,相对是较少的.

2. 主机独立式架构: Host Independent

数组控制器对主系统,是藉由连接至其存取接口(目前以SCSI 为主)作信道.换言之,它在主系统的存取接口上,是一个独立的直接存取储存体DASD Direct Access Storage Devic e. 而这个大的储存体内,可以有不只一个的逻辑磁盘LUN Logical Unit Number. 数组控制