服务器磁盘阵列常见问题及解决方法

合集下载

服务器配置阵列(RAID)常见问题

每天问做阵列的人都很多，这个东西一直被很多人看做是很高深的东西，实际上是很好理解的，这篇文章主要针对实际使用服务器的时候，容易碰到的问题和犯得错误的一些解答，仅供参考。

1 阵列主要分那几个级别？都有什么作用？主要，RAID0,1,1E,5,6,10等，RAID2,3,4类似的由于不常用，这里不介绍了。

各级别的原理我想大家在网上也能找到很多资料，不详细描述，这里就用通俗的语言说一下。

RAID0：没有冗余能力，可以任意磁盘组成，组成的逻辑盘大小=N*（单个磁盘容量），一般讲必须使用一样的磁盘，读写能力极高，极不稳定，一个盘出现故障会导致整个逻辑盘掉线。

实际应用的不多。

RAID1：简单理解就是镜像，由两个硬盘组成，逻辑盘容量是一块硬盘的大小，读写能力大于1块盘小于两块盘，比较稳定，一块盘坏掉后可以进入操作系统，可以做阵列重建，实际用的比较多。

RAID1E：IBM服务器上用的，和raid1差不多，提高的地方是可以使用3块以上硬盘做阵列。

RAID5：至少3块盘，实际容量是（N-1）*单个盘大小，损失一块盘容量做数据校验，在任意一块硬盘挂掉的时候可以恢复阵列，两块以上挂掉的时候无能为力，读写数据能力很不错。

常用的级别。

RAID6：RAID5的加强盘，提高的地方是对RAID5的校验信息重新做一组备份，也就是要损失两块盘容量，实际使用容量是N-2，至少4块硬盘。

RAID1+0：实际上就是每两块硬盘做成RAID1，得到的硬盘组再做成RAID0，实际效果极好，就是比较浪费容量，最少4块硬盘，要用偶数个硬盘，每个硬盘组里的硬盘都可以挂掉一个。

热备盘（HOTSPARE）：这个是用来做在线备份的，实际上有阵列热备和全局热备，区别是阵列热备是使用一块热备盘作为某个阵列的热备，比如对RAID5做个热备，那么RAID5里面挂掉一块盘的时候，HOTSPARE盘会先顶上去，进行同步，成为一个没有热备的RAID5，再挂掉一个的话数据也是不会丢失的，因为是RAID5。

IBM服务器阵列卡损坏N种情况的解决的方法

IBM服务器更换阵列卡的方法关于IBM 服务器更换阵列卡的方法随着时间的推移，越来越多的IBM服务器陆续过保了，许多的蓝色快车服务站也开始维修过保的服务器，但是，很多有实践经验的工程师（包括去IBM作专职）逐渐离开蓝快，后面来的工程师基本上不清楚以前的服务器，更换主板、电源、CPU、MEM，还可以作，但服务器上最重要的是RAID卡上存了一份阵列信息，硬盘上也会保存一份阵列信息。

如果工程师更换RIAD卡或硬盘时操作不当或大脑思路不清淅，很容易造成客户的数据的丢失。

我作了多年的工程师，几乎每一种IBM服务器我均搞过，将一些更换阵列卡的方法以及注意的问题等，实践过的经验方法共享给各位，也欢迎各位朋友同事提出宝贵的意见和建议。

（一） RAID卡的分类1、 3L、3H（80M属第三代RAID卡）2、 4L、4LX、4M、4MX、4H（U160属于第四代）3、 5I卡（第五代）4、 6I、6M（第六代）5、 7K、7T、7I（第七代）6、 8I（第八代）（二）举例：第四代RAID卡，4L、4LX、4M、4MX、4H在7600/X250服务器上更换方法。

备件1、4H FRU 37L6892，母卡；子卡，FRU 37L6902；备件2、三个硬盘18GU160 10K 80P FRU 19K1467在7600/X250服务器上安装，4H卡，SCSI线接第一个SCSI通道，即CHANNEL 1（阵列卡上有标识），三个硬盘分别上在SCSI硬盘背板通道ID0、ID2、ID3上，开机后，第二屏会自检到4H卡和三个硬盘。

（三）如何判断4L 4LX 4H 4M 4MX RAID 卡坏了：1．服务器根本认不到RAID 卡更换一个PCI 槽也是一样的。

2．开机检测试 RAID 卡上有5个灯如果不是连续的闪跃过只有一个灯亮，或者5个灯全部常亮 RAID 卡必然坏了。

3．开机可以检测到RAID 卡，但是RAID 卡报代码的错误，按 Ctrl+I 可以进入RAID卡BIOS，作Restare to Factory Defanlt Settings (恢复原设置，即清除RAID卡上的阵列信息) 后还是报代码错误也是必然的RAID 坏。

收费服务器磁盘阵列(RAID)中硬盘故障的处理分析

冗余类型数据传输能力磁盘数量要求容量可用比安全性
完全复制一般２块ｎ１２，最好
奇偶校验高至少３块ｎ１ｎ．，好
奇偶校验，保留未条带化空间至少４块略低于ｎ１ｎ一／较好
表２）。并且在表中列出了在满足系统
图２
圈３
故障现象分析
中的磁盘管理（图２如）
而Ｄ盘空间ＩｄｐｎｅｔＤｉｋ）＆独立磁盘冗余ｎｅｅｄｎｓｓ口
２０年１１０２日，运行六年之仍为原来的９．ＧＢ，但不是所需的２月１７
容量要求的情况下不同容量硬盘构成磁盘阵列的价格。结果发现使用大容量硬盘构建磁盘阵列性价比较高，同时也节
ＲＤ５、ＲＡＩＥ三种ＲＡｌ式，如表ＡＩＤ５Ｄ模
１示。所
硬盘作为其它服务器的备份盘。
６８２ＭＢ可用．不能满足收费系统对服
了图４中有下划线的四个文件．数据量
超过５正常情况下应在Ｄ盘中。ＧＢ
可以提供良好的容错能力。在任何一块
硬盘出现问题的情况下都可以继续工作不会受到损坏硬盘的影响。根据
省成本。随之，我们又进行了三种阵列的
ＲＡＩ是两块硬盘数据镜像复Ｄ１

M5000服务器磁盘故障处理

M5000服务器磁盘故障处理处理M5000服务器磁盘故障的步骤如下：1. 确认磁盘故障：首先，通过系统日志或命令行工具，确认服务器中的磁盘是否存在故障。

可以使用命令 "iostat -En" 或 "cfgadm -al" 来查看磁盘状态。

2. 替换故障磁盘：如果确认磁盘故障，需要将故障磁盘从服务器中拔出。

首先，确保服务器已经关闭，并且拔掉电源线。

然后，打开服务器机箱，找到故障磁盘所在的插槽。

将磁盘插槽上的电缆和数据线拔出，然后将故障磁盘从插槽中取出。

3. 安装新磁盘：将新的磁盘插入到之前故障磁盘所在的插槽中。

确保插头和插槽对齐，并且插入到位。

然后，将电缆和数据线连接到新磁盘上。

4. 启动服务器：在安装好新磁盘后，关闭服务器机箱，并重新连接电源线。

然后，启动服务器，并等待操作系统加载。

5. 配置新磁盘：一旦服务器启动，需要对新磁盘进行配置。

可以使用操作系统提供的磁盘管理工具，如 "fdisk" 或 "diskpart" 来创建分区和格式化新磁盘。

6. 恢复数据：如果之前的磁盘中存储有重要数据，需要将这些数据从备份中恢复到新磁盘中。

可以使用备份软件或命令行工具来进行数据恢复。

7. 测试磁盘：最后，进行磁盘测试以确保新磁盘正常工作。

可以使用磁盘健康检测工具来进行测试，如 "smartctl" 或 "Disk Utility"。

请注意，在处理磁盘故障时，建议提前备份重要数据，并确保操作过程中谨慎操作，避免对其他硬件造成损坏。

如果对于硬件维修不太熟悉，建议联系专业的技术支持人员进行处理。

服务器磁盘阵列常见问题及解决方法

服务器磁盘阵列常见问题及解决方法亠般问题BIOS启动错误消息下表说明有关启动时可能显示的BIOS错误消息、其问题以及建议的解决方案。

消息问题建议的解决方案Error: Controller not Responding TimedOut （错误:控制器没有响应超时）Error: Controller Kernel Stopped Running （错误：控制器核心停止运行）Error: Controller Monitor Stopped Running （错误:控制器监控程序停止运行）这些消息仅于POST期间显示。

它们代表适配器试图于控制器核心停止运行时，执行一个命令。

这可能是加载固件时出现问题或是硬件错误。

•若要解决问题，请关闭系统和所有附属外围设备的电源，然后再开启系统电源。

•如果问题仍然存在，请与Dell支持人员联系。

Fatal Error: Controller monitor failed （致命错误：控制器监控程序失败）Fatal Error: Controller unknown fa订ure （致命错误：未知的控制器故障）Fatal Error: Controller kernel self test failed （致命错误:控制器核心自测失败）Fatal Error: Controller Kernel PANIC!!（致命错误:控制器核心发生严重错误！！）Fatal Error: SDRAM initial pattern test fa 订ed （致命错误：SDRAM 初始模式测试失败）这些错误消息代表适配器没有响应。

这可能是由于固件损毁或是硬件错误造成。

•若要解决问题，请快闪刷新适配器的固件。

•如果问题仍然存在，请与Dell支持人员联系。

检测到配置更改！！！）改时，将显示此消息SCSI 电缆和连接器问题如果您的SCSI 电缆或连接器发生问题，请先检查电缆连接。

如果问题仍然存在，请访问Dell 网站，以获得有关合格的小型计算机系统接口（SCSI ）电缆及连接器的信息，或与您的 Dell 代表联系以获得信息。

磁盘阵列解决方案

磁盘阵列解决方案概述磁盘阵列是一种将多个磁盘（硬盘或固态硬盘）组合成单个逻辑单元的技术，通过将数据分布在多个磁盘上，提供更高的性能和可靠性。

磁盘阵列可以通过多种不同的方式进行配置，以适应不同的应用需求。

常见的磁盘阵列类型磁盘阵列可以根据不同的配置方式进行分类。

下面介绍几种常见的磁盘阵列类型：RD 0RD 0（Striping）是将数据分布在多个磁盘上的最简单的磁盘阵列类型。

它将数据块按照条带（Stripe）的方式写入多个磁盘，并且可以同时读取多个磁盘上的数据块，从而提高数据传输速度。

然而，RD 0没有冗余机制，如果其中一个磁盘发生故障，所有的数据都将丢失。

RD 1RD 1（Mirroring）通过将相同的数据同时写入两个磁盘，提供冗余机制。

当一个磁盘发生故障时，另一个磁盘仍然可用，确保数据的可用性和安全性。

RD 1虽然提供了冗余，但是却没有提高性能。

RD 5RD 5使用奇偶校验的方式在多个磁盘上分布数据和校验码，提供了较好的性能和冗余能力。

RD 5至少需要三个磁盘，并且可以容忍一个磁盘的故障。

当有一个磁盘发生故障时，可以通过奇偶校验码重新计算丢失的数据块。

然而，当多个磁盘同时发生故障时，RD 5将失去数据。

RD 6RD 6是在RD 5的基础上增加了另一个磁盘来提供更高的冗余性。

RD 6可以容忍任意两个磁盘的故障，并且能够通过奇偶校验码重新计算丢失的数据块。

相比于RD 5，RD 6提供了更高的可靠性，但是写入性能略有下降。

RD 10RD 10是将RD 1和RD 0结合起来的一种磁盘阵列类型。

RD 10需要至少四个磁盘，并且数据会同时写入多个磁盘并进行镜像。

RD 10提供了较好的读写性能和冗余能力，但是磁盘利用率较低。

磁盘阵列的应用场景磁盘阵列广泛应用于需要高性能和可靠性的存储系统。

以下是一些常见的应用场景：数据库服务器数据库服务器通常需要快速的读写性能和高可靠性。

通过将数据库数据分布在多个磁盘上，磁盘阵列可以显著提高数据库的读写性能，并且在一个磁盘发生故障时依然能够保证数据库的可用性。

【精品】服务器阵列-RAID故障数据恢复技巧

服务器阵列-R A I D故障数据恢复技巧服务器阵列 RAID故障数据恢复技巧-.Ihd166 { display:none; }当RAID出现故障时，硬件厂商经常会初始化你的系统或重建（REBUILD）你的RAID，那么，会造成数据无法恢复的巨大损失，因此，当RAID出现故障时，一定要正确处理。

RAID的目的就是利用磁盘空间的冗余实现数据容错，不过这是在所有的磁盘或卷没有任何问题的前提下实现的。

当RAID卷中的单个磁盘出现故障后，尽管数据可能暂时不会受到威胁，但是磁盘冗余已经没有了。

此时任何不当的操作都可能毁掉已经存放的数据。

因此，在充分享受RAID所带来的安全好处时，还应该想到它危险的一面。

RAID磁盘阵列设备，在使用过程中，经常会遇到一些常见故障，这也使得RAID在给我们带来海量存储空间的应用之外，也带来了很多难以估计的数据风险。

本文将重点介绍RAID常见故障及相关处理方式。

RAID故障注意事项1、数据丢失后，用户千万不要对硬盘进行任何操作，将硬盘按顺序卸下来（贴好标记），用镜像软件将每块硬盘做成镜像文件，也可以交给专业数据恢复中心进行。

2、不要对Raid卡进行Rebuild操作，否则会加大恢复数据的难度。

3、标记好硬盘在Raid卡上面的顺序。

4、一旦出现问题，可以拨打专业公司（恩特尔数据恢复中心）的咨询电话找专业工程师进行咨询，切忌自己试图进行修复，除非你确信自己有足够的技术和经验来处理数据风险。

常见Raid 数据丢失故障情况服务器配置网1、软件故障：a．突然断电造成RAID磁盘阵列卡信息的丢失。

b．重新配置RAID阵列信息，导致的数据丢失。

c．磁盘顺序出错，导致系统不能识别数据。

d．误删除、误格式化、误分区、误克隆、文件解密、病毒损坏等情况，导致数据丢失。

2、硬件损坏：a．raid硬盘报红灯错误，硬盘检测报错情况。

b．raid硬盘出现坏道，导致数据丢失。

c．raid一般都会有几块硬盘，同样有故障允许损坏的硬盘数量（如RAID5允许损坏其中一块），当超出损坏的硬盘数量后，RAID数据将无法正常读取。

服务器阵列硬盘顺序出错导致数据丢失怎么办？

服务器阵列硬盘顺序出错导致数据丢失怎么恢复？
服务器磁盘阵列内的硬盘是否有顺序要求？相信很多用户对这方面都没有过多的认识，以至于在整理服务器设备时，经常没有考虑到阵列硬盘的顺序，从而导致阵列中的磁盘顺序错乱，致使磁盘数据无法读取文件丢失，或是造成阵列丢失无法引导，在这种情况下，大家该怎么办呢？如何解决因服务器阵列硬盘顺序出错导致的数据丢失问题呢？
当出现服务器阵列硬盘顺序出错问题后，用户应该立即咨询专业数据恢复机构进行服务器数据找回。

无论你的RAID组合级别是RAID1，RAID0、RAID5、RAID6、RAID10、RAID50还是软RAID、跨区卷、动态磁盘.......也不论您的服务器是用何种操作系统，只要阵列出现问题，不要轻易做Rebuild，数据恢复中心均可恢复数据。

还拥有跨平台数据读取能力，即使用户使用的不是WINDOWS操作系统，亦可轻易恢复。

这个数据恢复中心采取磁盘镜像技术和只读不写的操作，彻底杜绝二次破坏，保证了服务器的安全，另外用户可全程关注数据恢复过程，涉密数据不离开用户的视线，这比任何保密协议都要有效。

RAID磁盘常见状态及解决方法

RAID磁盘常见状态及解决方法使用RAID-1卷和RAID-5卷的目的就是利用磁盘空间的冗余实现数据容错，当磁盘出现故障的时候能够确保数据的安全。

不过这一切都是在所有的磁盘或卷没有任何问题的前提下实现的，也就是说必须保证冗余磁盘或卷的正常运转。

当RAID-1卷或RAID-5卷中的单个磁盘出现故障后，尽管数据可能暂时不会受到威胁，但是磁盘冗余已经不复存在了。

只有及时修复故障，才能保证磁盘冗余的存在。

那么如何知道RAID-1卷或RAID-5卷已经出现故障？这在“磁盘管理”窗口中很容易看到。

发生故障的RAID-1卷或RAID-5卷的状态将显示为“失败的重复”，而发生故障的磁盘状态为“丢失”或“脱机”，如图2009010437所示。

图2009010437 存在故障的磁盘卷下面列出RAID-1卷或RAID-5卷中磁盘的常见状态，供用户参考。

（1）联机该磁盘为可用磁盘且没有检测到已知的错误。

（2）联机（错误）该磁盘为可用磁盘但检测到I/O错误。

用户可以选择该磁盘的快捷命令“重新激活磁盘”或许能将它恢复到“联机”状态。

这种状态只出现在动态磁盘中。

（3）脱机该磁盘不可用。

这通常是由物理磁盘或传输介质的故障而引起的。

用户可以尝试选择“重新激活磁盘”操作进行修复，如果失败则只能移走该磁盘并选择“删除磁盘”快捷命令。

这种状态只出现在动态磁盘中。

（4）外部该磁盘是从另一台计算机移过来的。

在该磁盘的快捷菜单中选择“导入外部磁盘”命令导入该磁盘。

（5）丢失该磁盘已经损坏或断开连接。

尝试选择“重新激活磁盘”命令，如果不能恢复成联机状态，则只能选择“删除磁盘”操作。

这种状态只出现在动态磁盘中。

（6）未初始化磁盘有效信息从MBR（主启动记录）中丢失，或者一个有效的GUID（Globally Unique Identifier，全局唯一标识符）从GPT（全局分区表）中丢失。

通常在服务器安装新硬盘时会出现这种情况，初始化磁盘会解决这个问题。

磁盘阵列服务器及存储解决方案

磁盘阵列服务器及存储解决方案服务器及存储解决方案目录前言 ..................................................................... (3)第一章需求分析 ..................................................................... (4)(一)、系统现状 ..................................................................... . (4)(二)、需求分析 ..................................................................... . (4)(三)、方案设计原则 ..................................................................... .. (4)(四)、方案概述 ..................................................................... ........................................ 5 第二章存储解决方案 ..................................................................... .. (7)(一)、采用UIT SV1600磁盘阵列的理由 (7)内置阵列卡技术和外置独立磁盘阵列技术比较 (7)UIT SV1600磁盘阵列系统 ..................................................................... .................... 9 第三章售后服务承诺 ..................................................................... (29)前言随着计算机信息管理系统的广泛应用，给人民的生产和生活带来了极大的方便。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一般问题
下表说明您可能遇到的一般问题，以及建议的解决方案。

BIOS 启动错误消息
下表说明有关启动时可能显示的 BIOS 错误消息、其问题以及建议的解决方案。

SCSI 电缆和连接器问题
如果您的 SCSI 电缆或连接器发生问题，请先检查电缆连接。

如果问题仍然存在，请访问 Dell 网站，以获得有关合格的小型计算机系统接口 (SCSI) 电缆及连接器的信息，或与您的 Dell 代表联系以获得信息。

系统 CMOS 启动顺序
系统启动顺序是由系统 CMOS 公用程序决定。

请按照下列说明更改启动顺序：
1.系统启动时，按。

2.从 System（系统）菜单左方，选择 Boot Sequence（启动顺序）。

3.突出显示您要更改的设备，并使用 Shift-Up/Down 箭头来更改设备的顺序。

4.按返回窗口左方。

5.务必按以确认启动顺序。

如果您按而非，将不会保存您的更改。

6.按 Save/Exit（保存/退出）。

7.系统将重新启动。

预测性故障报告
自我监控、分析及报告技术 (SMART) 用于检查硬盘驱动器，寻找潜在驱动器故障的早期征兆。

SMART 是硬盘驱动器本身的一项功能，不受 RAID 控制器的控制。

所有传送到驱动程序的 SMART 消息都会传送到操作系统中。

操作系统问题
下表说明您可能遇到的操作系统问题，以及建议的解决方案。