应用：RAID5磁盘阵列的故障以及修复要点

合集下载

RAID5同时坏两块硬盘的处理办法

RAID5同时坏两块硬盘的处理办法
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的，然后rebuild恢复raid后，再利用这个机会换掉那块先坏的，再rebuild。这样所有盘都Online了，不过最好还是换了那块后坏的，再重新rebuild一次。不过不是每次都那么幸运，能够强行Online成功。如果把先出问题的那块强行ONLINE，并对后出问题的盘rebuild的话，数据就完全被毁掉了。通常来说RAID5中两块，或两块以上硬盘同时出现问题的几率是非常低，但并不代表这种情况不会发生。最常见的情况是一块硬盘先出问题，在没有发现，或是未及时更换之前，又一块硬盘出现问题，造成服务器瘫痪。这时候一定要分析哪块盘是后出问题的，因为这块盘上的数据才是最“新鲜”的，与RAID中其他硬盘的数据组合后才是完整，并且可以正常使用的。
3、在处理故障时应将服务器与网络的连接切断，因为在恢复网络，受损硬盘修复的过程中，会有用户登录至服务器，进行数据操作，从而产生新的数据，这样就有可能产生新的逻辑错误，对于故障的排除非常不利。
4、经过此次故障，我们认为任何先进的技术手段都不可能是万无一失的，如果要确保数据安全，就一定要做好备份工作，最好每天作一次数据库的异地备份；并至少备好一块新硬盘，以便在第一块硬盘出现错误时就能及时换上，进行数据恢复，防止以上类似事件的再次发生.
四、个案总结
在经过了长达6小时的紧张的数据抢救后，我们终于成功的恢复了数据，经过此次惊心动魄的数据拯救后，我们痛定思痛，总结了以下几条经验：
1、在出现问题后不能紧张，应冷静分析故障原因，全面了解硬件知识，作出正确合理的判断，以最小的代价解决问题。在我们此次故障处理过程中，我们对故障的进行了合理的分析，运用了服务器硬盘可热插拔的性能特点，在保证另两块硬盘数据完整的基础上，进行了正确的数据拯救，从而确保了故障的圆满解决。

RAID5读出错处理

RAID5读出错处理流程1Raid5读出错后的流程：前提：假设RAID5有3个数据盘和1个校验盘，此次读4k数据恰好都在第一个数据盘上。

1.1首次读出错：1.此时各缓存状态：2.在哪发现错误：在raid5_end_read_request中，一旦发现bio的BIO_UPTODATE被清掉了，说明发生了读错误。

3.如何处理：i.清除该dev.flags中的R5_UPTODATE标记ii.想要重试read,不过要做一些前期检查：如果阵列已经处于降级状态，那么肯定没有足够的数据去恢复这个dev的数据，因为不需要重试read了。

如果该缓存对应的dev已经标记为R5_ReWrite,那说明本次读就已经是重读了，我们也不需要重试读目前整个RAID-5设备发生读错误的dev超过了stripe_head的总数，说明必然存在某stripe_head上有两个dev发生了读错误，这种情况也不需要重试读了如果不做重试，相应清除清除缓存对应dev.flags的R5_ReadError和R5_ReWrite标记并调用md_error。

iii.检查完之后，将dev.flags设置为R5_ReadError，重新处理这个条带。

1.2重构原数据过程：第一次遍历handle_stripe5：1.在handle_stripe中，遍历每个dev的状态时，会把R5_ReadError标记的dev认作是一个失效磁盘；2.其他磁盘发现这个失效磁盘上还有读请求，就把自己标记为want_read。

3.除失效dev之外的其他devs都下发rbio。

uptodate+!Locked4.当这些读请求都成功返回后，其状态为第二次遍历handle_stripe5:1.在handle_stripe中，当发现失效磁盘上还有读请求时，在判断其他devs是否都已经处于uptodate状态，判断成功，就把本失效dev.flags标记为want_compute2.对缓存中的数据进行计算得到失效dev的数据，并把内容拷贝到失效dev的缓存，把其状态标记为uptodate。

RAID阵列服务器故障数据恢复

RAID阵列服务器故障数据恢复RAID阵列服务器故障数据恢复由于服务器数据恢复的复杂性和技术难度较高，在服务器阵列出现故障时，一定要找有经验的专业数据恢复中心提供数据恢复帮助。

服务器中存储的数据一般都比较重要，一旦被彻底损坏，将造成无法挽回的损失。

目前国内服务器数据恢复行业，对于处理数据库数据恢复尚处于摸索阶段，特别是企业级服务器数据恢复时就表现出束手无策的一面。

比如当服务器SCSI、SAS硬盘出现逻辑层、坏道层、物理层、固件层等严重问题造成数据丢失时，利用单一的设备就无法进行复杂的服务器数据恢复，这是目前全球服务器数据恢复的难点和瓶颈，也是目前国内服务器数据恢复行业一直努力研发的方向。

SDII服务器恢复系统目前全球最先进的服务器数据恢复技术，一直牢牢掌握在美国SecuData手中。

作为全球最大的存储数据恢复安全技术研发机构，SecuData多年来一直致力于打造易用、高性能、专业的高端智能存储数据恢复安全产品，旗下产品旗下涵盖数据恢复、数据分析、计算机取证等全系专用尖端智能系统设备，SDII服务器SAS/SCSI恢复系统是SECUDATA2010年的全新力作，SDII 服务器SAS/SCSI恢复系统完美融入了SCPR（阵列恢复控制）、SCPF（服务器硬盘固件修复）、SRF（服务器硬盘视频恢复）、服务器硬盘物理故障数据恢复、服务器硬盘坏道数据恢复、服务器硬盘数据库数据恢复、服务器硬盘扇区缺陷数据恢复、服务器硬盘阵列掉线数据恢复、服务器硬盘阵列信息丢失数据恢复等众多全球领先核心技术，是全球第一台专门针对服务器SAS/SCSI硬盘存储逻辑恢复、缺陷扇区恢复、固件故障恢复、物理故障恢复、视频恢复五位合一的专业智能恢复平台。

他同时配套全球顶级的“无缝共享服务平台”，使用者可在此平台获取技术升级、技术支持、相关远程服务等配套支持。

服务器数据恢复重要性随着电子政务、电子商务及全球信息化的发展，越来越多的国家职能部门、企事业单位及大型企业配备企业级服务器数据安全尤为重要了服务器用于自身信息系统的建设。

raid5数据恢复

最近，由于服务器机房搬迁，管理员在搬迁过程中清理了服务器和磁盘阵列设备。

连接新机房的线路后，服务器无法识别raid，也没有启动raid。

工程师对设备进行了简单的初步检查，发现数据丢失的原因是raid信息丢失。

采用双周期验证方法验证了raid中的冗余性。

那么，如何恢复RAID5数据呢？跟小编学
方法/步骤
1首先将SCSI硬盘柜直接连接到无RAID功能的SCSI扩展卡上，然后在专用（Windows 2003修改版）维修平台上以单盘模式连接服务器阵列中的所有硬盘。

如何恢复RAID5数据
2为了保护RAID5的原始数据，避免由于数据恢复操作而改变原始数据，在所有数据恢复过程中，所有硬盘都必须以只读模式完全镜像，并且图像也以以下方式存储在设备上：冗余保护。

如何恢复RAID5数据
三。

然后从图像文件中分析原始团队的双环检测参数，构建虚拟团队平台。

如何恢复RAID5数据
4在虚拟RAID平台中，删除脱机磁盘并解释文件系统。

此时，可以导出raid数据。

如何恢复RAID5数据
5将磁盘阵列连接到安装了RAID5阵列的服务器，然后重新配置RAID。

最后，所有数据通过网络DD、NFS、samba、FTP、SSH和其他数据传输方法传输回新的RAID。

服务器磁盘阵列常见问题及解决方法

一般问题下表说明您可能遇到的一般问题，以及建议的解决方案。

BIOS 启动错误消息
下表说明有关启动时可能显示的 BIOS 错误消息、其问题以及建议的解决方案。

SCSI 电缆和连接器问题
如果您的 SCSI 电缆或连接器发生问题，请先检查电缆连接。

如果问题仍然存在，请访问 Dell 网站，以获得有关合格的小型计算机系统接口 (SCSI) 电缆及连接器的信息，或与您的 Dell 代表联系以获得信息。

系统 CMOS 启动顺序
系统启动顺序是由系统 CMOS 公用程序决定。

请按照下列说明更改启动顺序：
1.系统启动时，按。

2.从 System（系统）菜单左方，选择 Boot Sequence（启动顺序）。

3.突出显示您要更改的设备，并使用 Shift-Up/Down 箭头来更改设备的顺序。

4.按返回窗口左方。

5.务必按以确认启动顺序。

如果您按而非，将不会保存您的更改。

6.按 Save/Exit（保存/退出）。

7.系统将重新启动。

预测性故障报告
自我监控、分析及报告技术 (SMART) 用于检查硬盘驱动器，寻找潜在驱动器故障的早期征兆。

SMART 是硬盘驱动器本身的一项功能，不受 RAID 控制器的控制。

所有传送到驱动程序的 SMART 消息都会传送到操作系统中。

操作系统问题
下表说明您可能遇到的操作系统问题，以及建议的解决方案。

RAID5同时坏两块硬盘的处理办法

RAID5‎同时坏两块‎硬盘的处理‎办法两‎块盘坏掉一‎般来说处理‎的方法都是‎先尝试强行‎o nlin‎e那块后坏‎的，然后r‎e buil‎d恢复ra‎i d后，再‎利用这个机‎会换掉那块‎先坏的，再‎r ebui‎l d。

这样‎所有盘都O‎n line‎了，不过最‎好还是换了‎那块后坏的‎，再重新r‎e buil‎d一次。

不‎过不是每次‎都那么幸运‎，能够强行‎O nlin‎e成功。

如‎果把先出问‎题的那块强‎行ONLI‎N E，并对‎后出问题的‎盘rebu‎i ld的话‎，数据就完‎全被毁掉了‎。

通常来说‎R AID5‎中两块，或‎两块以上硬‎盘同时出现‎问题的几率‎是非常低，‎但并不代表‎这种情况不‎会发生。

最‎常见的情况‎是一块硬盘‎先出问题，‎在没有发现‎，或是未及‎时更换之前‎，又一块硬‎盘出现问题‎，造成服务‎器瘫痪。

这‎时候一定要‎分析哪块盘‎是后出问题‎的，因为这‎块盘上的数‎据才是最“‎新鲜”的，‎与RAID‎中其他硬盘‎的数据组合‎后才是完整‎，并且可以‎正常使用的‎。

当‎R AID5‎中两块硬盘‎出现故障时‎数据恢复一‎例廉价‎冗余磁盘阵‎列RAID‎（Redu‎n dant‎Arra‎y of ‎I nexp‎e nsiv‎e Dis‎k）是一种‎容量大、速‎度快、可靠‎性高的外部‎存储器，现‎已在各种高‎性能的服务‎器、工作站‎及大中型计‎算机中得到‎广泛应‎用。

其中‎的RAID‎5级为无独‎立校验磁盘‎的奇偶校验‎磁盘阵列，‎采用数据分‎块和独立存‎取技术，能‎在同一磁盘‎上并行处理‎多个访问请‎求，较适用‎于访问请求‎频繁的场合‎，如医院信‎息系统（H‎I S）。

由‎于此技术特‎点：在一个‎硬盘出现错‎误时，当插‎入新硬盘，‎能利用其他‎硬盘上信息‎对受损数据‎进行恢复，‎但当两块硬‎盘出现错误‎时，要恢复‎数据就会有‎一定的困难‎了，我们医‎院在不久前‎就出现过类‎似现象。

【精品】服务器阵列-RAID故障数据恢复技巧

服务器阵列-R A I D故障数据恢复技巧服务器阵列 RAID故障数据恢复技巧-.Ihd166 { display:none; }当RAID出现故障时，硬件厂商经常会初始化你的系统或重建（REBUILD）你的RAID，那么，会造成数据无法恢复的巨大损失，因此，当RAID出现故障时，一定要正确处理。

RAID的目的就是利用磁盘空间的冗余实现数据容错，不过这是在所有的磁盘或卷没有任何问题的前提下实现的。

当RAID卷中的单个磁盘出现故障后，尽管数据可能暂时不会受到威胁，但是磁盘冗余已经没有了。

此时任何不当的操作都可能毁掉已经存放的数据。

因此，在充分享受RAID所带来的安全好处时，还应该想到它危险的一面。

RAID磁盘阵列设备，在使用过程中，经常会遇到一些常见故障，这也使得RAID在给我们带来海量存储空间的应用之外，也带来了很多难以估计的数据风险。

本文将重点介绍RAID常见故障及相关处理方式。

RAID故障注意事项1、数据丢失后，用户千万不要对硬盘进行任何操作，将硬盘按顺序卸下来（贴好标记），用镜像软件将每块硬盘做成镜像文件，也可以交给专业数据恢复中心进行。

2、不要对Raid卡进行Rebuild操作，否则会加大恢复数据的难度。

3、标记好硬盘在Raid卡上面的顺序。

4、一旦出现问题，可以拨打专业公司（恩特尔数据恢复中心）的咨询电话找专业工程师进行咨询，切忌自己试图进行修复，除非你确信自己有足够的技术和经验来处理数据风险。

常见Raid 数据丢失故障情况服务器配置网1、软件故障：a．突然断电造成RAID磁盘阵列卡信息的丢失。

b．重新配置RAID阵列信息，导致的数据丢失。

c．磁盘顺序出错，导致系统不能识别数据。

d．误删除、误格式化、误分区、误克隆、文件解密、病毒损坏等情况，导致数据丢失。

2、硬件损坏：a．raid硬盘报红灯错误，硬盘检测报错情况。

b．raid硬盘出现坏道，导致数据丢失。

c．raid一般都会有几块硬盘，同样有故障允许损坏的硬盘数量（如RAID5允许损坏其中一块），当超出损坏的硬盘数量后，RAID数据将无法正常读取。

RAID卷的常见状态及解决方法

RAID卷的常见状态及解决方法
（1）良好
卷运转正常且没有检测到已知的错误，在基本卷和动态卷中都会显示这种状态。

（2）良好（未知分区）
卷不能被识别，这可能是由于使用了由其他操作系统创建的分区。

可以将其删除重新创建。

（3）良好（有风险）
卷是可用的，但系统已经检测到磁盘上存在I/O错误。

（4）未知
引导扇区被破坏，这可能是由于磁盘损坏或引导扇区病毒造成。

（5）重新同步
该状态应用于镜像卷。

重新同步会使两个镜像上的数据完全相同。

（6）格式化
卷正在被格式化，并显示格式化进度。

（7）正在重新生成
该状态应用于RAID-5卷，它在替换一个故障磁盘并且包括将丢失的信息写到该卷的一个新成员之后发生。

当重新生成过程正在进行时应避免对该卷的访问，重新生成过程完成时，这个卷将返回到良好状态。

（8）失败的重复
该状态应用于镜像卷和RAID-5卷。

它表明其中一个磁盘出现故障并且该卷不再容错。

尽管这个卷仍是可以访问的，但该卷中另一个磁盘的故障将造成数据的丢失。

只要一有可能就应该替换这个磁盘并重新同步或重新生成该卷。

（9）失败的重复（有危险）
该状态应用于镜像卷和RAID-5卷。

它表明这个卷不再容错且检测到磁盘存在I/O 错误。

建议更换出现故障的磁盘。

（10）失败
该状态应用于基本卷和动态卷。

它表明该卷不能启动且需要人工修复。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

应用：RAID5磁盘阵列的故障以及修复要点
磁盘阵列也会发生故障，在发生故障时我们应该怎么做呢？本文将为大家简单介绍RAID5磁盘阵列的故障以及修复要点。

下面是文章的主要内容。

1.若单个硬盘失效，尝试热插拔，即拔下来再插上去;如果不能解决，则进入RAID配置界面，将该硬盘进行ForceOnLine操作;如果不能解决，尝试更换其它硬盘插槽(一定不要改变磁盘顺序);如果不能解决，尝试将该硬盘格式化后插入，然后使用ReBuild操作;如果不能格式化，基本是硬盘物理错误严重，尝试更换硬盘后重建数据。

RAID5磁盘阵列允许硬盘的热插拔。

更换损坏的硬盘时，首先拔下硬盘托架(硬盘固定在托架上)，从托架上卸下损坏的硬盘，再把完好的硬盘安装在托架上，插入阵列里。

如果一切正常，这时RAID5磁盘阵列会马上自动进入数据重建状态。

这个过程会进行数个到20几个小时。

这里要注意几点：
(1) 更换损坏硬盘前，必须查看阵列的当前状态，保证除损坏的硬盘外，其他硬盘处于正常的ONL在线状态。

(2) 更换坏盘必须及时。

(3) 更换的新硬盘必须是完好的。

(4) 在阵列数据重建完成之前，不能插拔任何硬盘。

2.如果多块硬盘失效，先将部分(不要全部同时上线)硬盘强制上线，然后进入操作系统尝试读取数据，如果能够读取，再将其它硬盘上线，然后重建数据。

3.如果SCSI卡损坏导致配置信息丢失，更换卡后，尝试从硬盘读取配置信息(需要阵列支持此功能)。

4.如果所有磁盘上线后，操作系统无法访问RAID(资源管理器中无相应盘符)，尝试进入“计算机管理”-->“磁盘管理”查看阵列状态;如果处于“未初始化”状态，可以尝试使用数据恢复软件逐磁道扫描以恢复数据，此时万万不可进行RAID初始化操作。

5.不要过于依赖RAID，如有条件或特别重要的资料，仍需要刻录光盘或使用磁带机以备万一。

6.如有条件，最好给阵列加配UPS。

7.出现问题以后，不要急于开始RAID数据修复及RAID配置，先给厂家打免费电话，寻求帮助，以及到各大数据恢复公司的网站查询，自己不能确定的操作不要去尝试，以免造成更大的损失，导致不可挽回的错误，给自己留下遗憾
8，热备盘的更换
热备盘总是和RAID5磁盘阵列对应起来，如果不是RAID5级别的阵列，就没有必要创建热备盘。

因为当别的硬盘损坏、热备盘自动起用时，需要用RAID5磁盘阵列中未损坏的硬盘对热备盘进行数据重建。

注意在数据重建过程中不能插拔阵列中的非损坏硬盘!
一旦正常开始数据重建，我们就可以更换损坏的硬盘了，更换后的硬盘会自动成为新的热备盘。

9，阵列的扩容
如果当前阵列是RAID0级别的，而且阵列中还有空余的插槽，我们就可以对阵列进行扩容，这时Array的右键菜单中就有允许添加新磁盘的命令，我们按照提示进行操作就可以了。

RAID1和RAID5级别的阵列不能扩容。

10，磁盘阵列创建和维护应该注意的问题
目前流行的RAID级别是RAID0、RAID1和RAID5，在IBM的ServerRAID卡上还可以实现RAID1E和RAID5E的阵列，进一步增加了阵列的可靠性和数据的安全性。

如果条件允许，我们推荐“RAID5+热备盘”的阵列创建方案，这样在数据丢失前，我们有2次更换硬盘的机会。

对于一般的应用，只用RAID5磁盘阵列也可以，可以同时提供数据的存取性能、可靠性和最大的磁盘空间。

管理员必须经常观察阵列的状态，包括用眼睛观察阵列的黄色警告灯和在管理软件里查看驱动器的状态。

出现故障，及时排除。

无论是什么级别的阵列，在排除故障前，都建议做好数据备份。

特别是重要的数据，必须做好可靠的数据备份。

一旦出现硬盘下线(Defunct)，必须更换该硬盘，更换下来的硬盘绝对不能再次在阵列中使用，有时虽然硬盘黄灯不再报警，但是该硬盘已经是极不可靠的了。

在起初购买硬盘阵列的时候，除过正常使用的硬盘，建议多买几块同型号的硬盘，妥善保存备用。

因为现在的硬件更新换代特别快，如果几年后阵列硬盘损坏，再购买同型号的硬盘有可能是一件困难的事情，不是就是市场上根本找不到货源，就是价格特别昂贵。