服务器磁盘阵列常见问题及解决方法

合集下载

IBM服务器阵列卡损坏N种情况的解决的方法

IBM服务器更换阵列卡的方法关于IBM 服务器更换阵列卡的方法随着时间的推移，越来越多的IBM服务器陆续过保了，许多的蓝色快车服务站也开始维修过保的服务器，但是，很多有实践经验的工程师（包括去IBM作专职）逐渐离开蓝快，后面来的工程师基本上不清楚以前的服务器，更换主板、电源、CPU、MEM，还可以作，但服务器上最重要的是RAID卡上存了一份阵列信息，硬盘上也会保存一份阵列信息。

如果工程师更换RIAD卡或硬盘时操作不当或大脑思路不清淅，很容易造成客户的数据的丢失。

我作了多年的工程师，几乎每一种IBM服务器我均搞过，将一些更换阵列卡的方法以及注意的问题等，实践过的经验方法共享给各位，也欢迎各位朋友同事提出宝贵的意见和建议。

（一） RAID卡的分类1、 3L、3H（80M属第三代RAID卡）2、 4L、4LX、4M、4MX、4H（U160属于第四代）3、 5I卡（第五代）4、 6I、6M（第六代）5、 7K、7T、7I（第七代）6、 8I（第八代）（二）举例：第四代RAID卡，4L、4LX、4M、4MX、4H在7600/X250服务器上更换方法。

备件1、4H FRU 37L6892，母卡；子卡，FRU 37L6902；备件2、三个硬盘18GU160 10K 80P FRU 19K1467在7600/X250服务器上安装，4H卡，SCSI线接第一个SCSI通道，即CHANNEL 1（阵列卡上有标识），三个硬盘分别上在SCSI硬盘背板通道ID0、ID2、ID3上，开机后，第二屏会自检到4H卡和三个硬盘。

（三）如何判断4L 4LX 4H 4M 4MX RAID 卡坏了：1．服务器根本认不到RAID 卡更换一个PCI 槽也是一样的。

2．开机检测试 RAID 卡上有5个灯如果不是连续的闪跃过只有一个灯亮，或者5个灯全部常亮 RAID 卡必然坏了。

3．开机可以检测到RAID 卡，但是RAID 卡报代码的错误，按 Ctrl+I 可以进入RAID卡BIOS，作Restare to Factory Defanlt Settings (恢复原设置，即清除RAID卡上的阵列信息) 后还是报代码错误也是必然的RAID 坏。

计算机维护维修综合实践项目-磁盘阵列RAID-0的维修与更换

【综合实践项目12】磁盘阵列RAID 0的维修与更换磁盘阵列（Redundant Arrays of Inexpensive Disks，RAID）有“价格便宜具有冗余能力的磁盘阵列”之意。

原理是利用数组方式做磁盘组，配合数据分散排列的设计，提升数据的安全性。

磁盘阵列是由很多价格较便宜的磁盘，组合成一个容量巨大的磁盘组，利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。

利用这项技术，将数据切割成许多区段，分别存放在各个硬盘上。

磁盘阵列还能利用同位检查（Parity Check）的观念，在数组中任一颗硬盘故障时，仍可读出数据，在数据重构时，将数据经计算后重新置入新硬盘中。

【情境描述】：磁盘阵列作为独立系统在主机外直连或通过网络与主机相连。

磁盘阵列有多个端口可以被不同主机或不同端口连接。

一个主机连接阵列的不同端口可提升传输速度。

和目前PC用单磁盘内部集成缓存一样，在磁盘阵列内部为加快与主机交互速度，都带有一定量的缓冲存储器。

主机与磁盘阵列的缓存交互，缓存与具体的磁盘交互数据。

在应用中，有部分常用的数据是需要经常读取的，磁盘阵列根据内部的算法，查找出这些经常读取的数据，存储在缓存中，加快主机读取这些数据的速度，而对于其他缓存中没有的数据，主机要读取，则由阵列从磁盘上直接读取传输给主机。

对于主机写入的数据，只写在缓存中，主机可以立即完成写操作。

然后由缓存再慢慢写入磁盘。

RAID 0是最早出现的RAID模式，即Data Stripping数据分条技术。

RAID 0是组建磁盘阵列中最简单的一种形式，只需要2块以上的硬盘即可，成本低，可以提高整个磁盘的性能和吞吐量。

RAID 0没有提供冗余或错误修复能力，但实现成本是最低的。

虽然RAID 0可以提供更多的空间和更好的性能，但是整个系统是非常不可靠的，如果出现故障，无法进行任何补救。

所以，RAID 0一般只是在那些对数据安全性要求不高的情况下才被人们使用。

磁盘阵列的数据恢复探析

磁盘阵列的数据恢复探析摘要：随着电子政务、电子商务及全球信息化的发展，企业级服务器正在国家职能部门、企事业单位等得到普及。

而这些服务器大多采用了磁盘阵列技术，一旦磁盘阵列发生故障，如何能快速地恢复该服务器中的数据至关重要。

就针对磁盘阵列的工作原理、技术规范、恢复方法、恢复工具等方面作了简要的探讨。

关键词：磁盘阵列；工作原理；恢复方法1磁盘阵列（RAID）1.1磁盘阵列的原理磁盘阵列原理就是利用数组方式将多块硬盘组合成磁盘组，并当作一个磁盘驱动器来使用，配合数据分散排列的设计，以提升数据的安全性。

磁盘阵列主要针对硬盘在容量及速度上无法跟上CPU及内存的发展而提出的改善方法，目的是提高系统的存储能力及容错能力。

1.2磁盘阵列的技术规范根据数据组织的方式，目前业界公认的可将磁盘阵列分为8个级别（RAID0～RAID7），它们的侧重点各不相同。

每个RAID等级分别针对速度、保护或两者设计的结合而设计，各个级别的简单定义见表1。

此外，磁盘阵列还有RAID1+0、5+0、JBOD等模式。

其中JBOD （无冗余模式）严格上来讲不属于磁盘阵列范畴，只是现在很多计算机主板上带有这种功能。

由表1可知，RAID5集合了RAID2、RAID3、RAID4的优点，因此应用最广泛，同时也淘汰了前3种RAID技术，RAID6是RAID5的扩充，进一步增强了数据的可靠性，但效率低且成本高。

RAID7虽然增强了数据的可靠性但成本过高故而很少使用，除非是在安全性极高的场合。

1.3RAID5的数据存储原理RAID5是目前应用最为广泛的RAID技术，其数据存储原理是将多块独立硬盘进行条带化分割，相同带区进行奇偶校验（异或运算），校验数据平均分布在每块硬盘上，这样任何一块硬盘上的数据丢失均可以通过校验数据推算出来，并且以N块硬盘构建RAID5阵列用户可以有N-1块硬盘的容量，存储空间利用率非常高，读写数据的速度也快。

虽然，RAID5提供了一定的冗余性（支持一块硬盘掉线仍可继续工作），但一旦掉盘后，运行效率将会大幅下降。

服务器存储故障诊断及排除

2023-11-08CATALOGUE 目录•服务器存储简介•服务器存储故障诊断•服务器存储故障排除•服务器存储故障预防•服务器存储故障案例分析01服务器存储简介服务器存储是指在服务器上进行的存储操作，用于保存和管理数据。

服务器存储通常包括硬盘、固态硬盘（SSD）、存储区域网络（SAN）和网络附加存储（NAS）等。

服务器存储的定义服务器存储能够提供数据备份和恢复功能，保证数据的安全性和完整性。

保证数据安全提高数据可用性优化数据管理通过分布式存储和容灾技术，服务器存储可以提高数据的可用性和访问速度。

服务器存储可以实现数据的分类、整合、迁移和归档，优化数据管理流程。

03服务器存储的重要性0201服务器存储的类型网络附加存储（NAS）将存储设备连接到网络上，实现文件共享和访问，适用于小型网络和办公环境。

存储区域网络（SAN）通过专用网络将多个服务器和存储设备连接起来，实现高速数据传输和共享，适用于大型企业和数据中心。

直接附加存储（DAS）将硬盘或SSD直接连接到服务器上，适用于小型网络和单个服务器。

02服务器存储故障诊断故障诊断的步骤观察服务器的工作状态，检查指示灯、风扇、电源等是否正常工作。

初步检查启动诊断硬件诊断软件诊断通过启动服务器，检查是否能够正常启动，并检查BIOS/UEFI自检过程中是否存在错误提示。

检查内存、硬盘、CPU等硬件设备是否正常工作，如有需要可以进行替换测试。

检查操作系统、驱动程序、应用程序等是否存在问题，尝试进行修复或重新安装。

检查内存条是否存在接触不良、兼容性问题或损坏，如有需要可以替换测试。

内存故障检查硬盘是否存在物理损坏、坏扇区或文件系统错误，可以使用工具软件进行扫描和修复。

硬盘故障检查CPU是否存在过热、过电压或损坏等问题，可以尝试更换风扇或调整电压。

CPU故障硬件故障诊断1软件故障诊断23检查操作系统是否存在病毒、恶意软件、系统文件损坏等问题，可以进行安全扫描、系统恢复或重新安装。

一种解决IBM X3650 M2服务器磁盘RAID故障的方法

一种解决IBM X3650 M2服务器磁盘RAID故障的方法汪生珠;张绍宁
【期刊名称】《电脑编程技巧与维护》
【年(卷),期】2016(0)15
【摘要】针对服务器磁盘RAID出现的故障，介绍了故障现象，在全面分析的基础上，提出了成功地利用配置热备盘（Manage Hot Spare）的方法解决服务器磁盘RAID故障的问题，详细地描述了这一方法实现的过程。

【总页数】3页(P84-86)
【作者】汪生珠;张绍宁
【作者单位】中国石油长庆油田分公司勘探开发研究院，西安710018; 低渗透油气田勘探开发国家工程实验室，西安710018;中国石油长庆油田分公司勘探开发研究院，西安710018; 低渗透油气田勘探开发国家工程实验室，西安710018【正文语种】中文
【相关文献】
1.收费服务器磁盘阵列(RAID)中硬盘故障的处理分析 [J], 李保臣
2.大磁盘空间服务器RAID构建方法 [J], 邓东杰;刘荃
3.RAID-VCR:一种能够承受三个磁盘故障的RAID结构 [J], 董欢庆;李战怀;林伟
4.IBM X系列服务器进行磁盘阵列RAID配置分析 [J], 李永红;朱映
5.收费服务器磁盘阵列（RAID）中硬盘故障的处理分析 [J], 李保臣
因版权原因，仅展示原文概要，查看原文内容请购买。

硬盘故障处理大全

硬盘故障处理大全1、分区表错误的处理故障现象：开机后，屏幕上显示：“Invalid partition table” 硬盘不能启动，可从软盘启动。

故障分析与处理：造成该故障的原因一般是硬盘主引导记录中的分区表有错误，当指定了多个自举分区（只能有一个自举分区）或病毒占用了分区表时将有上述提示。

主引导记录（MBR）位于0磁头0柱面1扇区，由FDISK.EXE对硬盘分区时生成。

MBR包括主引导程序、分区表和结束标志55AAH 3部分，共占一个扇区。

主引导程序中含有检查硬盘分区表的程序代码和出错信息、出错处理等内容。

当硬盘启动时，主引导程序将检查分区表中的自举标志。

若某个分区为自举分区，则有分区标志80H，否则为00H，系统规定只能有一个分区为自举分区，若分区表中含有多个自举标志时，主引导程序会给出“Invalid partion table”的错误提示。

最简单的解决方法是用NDD 修复，它将检查分区表中的错误，若发现错误，将会询问您是否愿意修改，您只要不断地回答“Yes”即可修正错误，或者用备份过的分区表覆盖它也行。

如果是病毒感染了分区表，格式化是解决不了问题的，可先用杀毒软件杀毒，再用NDD进行修复。

如果上述方法都不能解决，就先用FDISK重新分区，但分区大小必须和原来的分区一样，这一点尤为重要，分区后不要进行高级格式化，然后用NDD进行修复。

修复后的硬盘不仅能启动，而且硬盘上的信息也不会丢失。

其实用FDISK 分区，相当于用正确的分区表覆盖原来的分区表。

尤其当用软盘启动后不认硬盘时，可用此方法。

2、硬盘不能工作的故障原因和处理故障现象：微机无法用硬盘启动，检查CMOS参数没有问题。

用软盘启动后可转入C：u25552提示符，但是不能对硬盘进行任何操作。

故障分析与处理：用软盘启动后可转入C：u25552提示符，说明系统是可以识别硬盘驱动器的。

硬盘不仅不能引导系统，而且也不能进行其他操作，说明故障原因可能是硬盘的主引导区或分区表遭到破坏，弄得硬盘不能正常工作。

磁盘阵列故障修复方法

磁盘阵列故障修复方法探析[摘要] 磁盘阵列是由多个稳定性较高的磁盘，组合成一个大型的磁盘组，磁盘阵列具有扩充性及容错机制两大功能，不同的raid 级别数据容错及读写速度不一样，误操作和硬件故障同样会引起的阵列数据丢失，本文探讨了在磁盘阵列各种故障情况下修复方法。

[关键词] 磁盘阵列容错机制故障修复方法1.引言raid是将n台硬盘通过raid 卡（或是软件）组合成虚拟的单台大容量的硬盘使用，其功能是让n台硬盘同时读取，加快数据存取速度及提供容错性， raid是最重要用途是数据存储和备份。

磁盘阵列是由多个稳定性较高的磁盘，组合成一个大型的磁盘组，在储存数据时，将数据切割成许多区段，分别存放在各个硬盘上，磁盘阵列还能利用同位检查，在阵列中任一个硬盘故障时，可重构数据，在数据重构时，将故障硬盘内的数据，经计算后重新置入新硬盘中，磁盘阵列在停机情况下可处理以下动作：◇自动检测故障硬盘。

◇重建硬盘坏道的资料。

◇支持不须停机的硬盘热备空间（hot spare）。

◇支持不须停机的硬盘热备盘自动替换（hot swap）。

◇在线扩充硬盘容量。

2.磁盘阵列的工作原理利用raid技术不仅可以增大存储容量，提高数据传输速率，同时采取冗余信息的方式提供了容错机制，提高了数据存储的可靠性。

实现raid可用两种方法，一种是硬件raid，用专门的控制器raid 卡来完成；另一种是软raid，用软件的方法来实现。

磁盘阵列主要用到以下几种技术：（1）条带化存储raid通过条带化存储和奇偶校验两个措施来实现其冗余和容错的目标。

条带化存储可以以一次写入一个数据块的方式将文件写入多个磁盘。

条带化存储技术将数据分开写入多个驱动器，从而提高数据传输速率并缩短磁盘处理总时间。

（2）奇偶校验奇偶校验通过对所有数据进行冗余校验实现确保数据的有效性。

利用奇偶校验，当raid系统的一个磁盘发生故障时，其它磁盘能够重建该故障磁盘。

（3）磁盘镜像镜像是将数据同时写入两个驱动器的技术，如果一个磁盘发生故障，镜像磁盘将接替它进行运行。

RAID 1 硬盘故障处理

在天津项目中各工作站或服务器在出厂时均做好RAID 1或RAID5，在应用的过程中经常会出现配置为RAID 1的DELL工作站死机或RAID控制器软件显示为RAID性能不稳定，根据常规处理方式：重新启动电脑后按F12进入电脑诊断程序，如果双硬盘中的一个损坏则一般会出现如下的信息：
Error code 0146（0142，etc）
Msg error code 200-0146
Msg: hard drive 0-self test log contains previous errors,the given error codeand message can be used by delltechnical support to help diagnose the problem.
当DELL售后服务人员将新的硬盘直接更换并Rebuild后会出现Drive 0和Drive 1硬盘上的数据均丢失，这样需要重新安装操作系统及CS3000等相关软件，给我们的工作带来相当大的麻烦；
此问题解决办法如下：
1、将DRIVE 0上已经损坏的硬盘拆卸下来，同时将DRIVE 1上的硬盘拆卸下来并安装在DRIVE 0的位置上；
2、将新的硬盘安装在DRIVE 1的位置上，然后重新启动电脑，电脑会自动将DRIVE 0的数据同步到DRIVE 1上；
这是因为RAID 1阵列数据镜像是有方向的，是从DRIVE 0 (主)向DRIVE 1（从）镜像，如果是DRIVE 1上的硬盘损坏则可以直接更换为新硬盘，重启电脑并同步后就不会出现数据丢失了。
(Know How Records)
横河电机（中国）有限公司
YokogawaChinaCo. Ltd.
Written By:Li qigui

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一般问题
检查 SCSI 电缆。

阵列中的一个硬盘驱动器发生故障。

请替换该如果 SCSI 电缆没有问题，
驱动器。

重新建立阵列。

特定 SCSI ID 上的一个驱动器重复替换 SCSI 电缆。

发生故障。

检查每个通道上的驱动器 ID，确保并尝试进行新配置于启动时按下每个设备有不同的 ID。

时，系统停止响应。

检查以确保内部连接和外部连接未
占用相同的通道。

确定该通道已经过正确的终结处理。

通道尾端的设备必须经过终结处理或电缆上必须已经连接一个终结器。

检查以确保 RAID 控制器已经正确
安置在插槽中。

替换驱动器电缆。

按并不显示菜单。

必须有彩色显示器才能显示 BIOS 公用程序菜单。

已经安装 RAID 控制器的系统 POSTRAID 控制器高速缓存可能已经损坏或遗（开机自测）时，BIOS 标题显示为失。

乱码或完全不显示。

无法快闪刷新或更新固件。

联系 Dell 支持人员以寻求协助。

小心：检查一致性或进行后台初始化过程时，请不要执行固件快闪更新，否则可能会失败。

确保已正确地为每个外围设备提供Firmware Initializing.....
电源。

）出现并停（正在初始化固件.....确保已经使用为外围设备建议的终留在屏幕上。

结器，正确终结处理每个 SCSI 通道的尾端。

如果只有一根电缆连接到通道，则 RAID
控制器会自动对通道进行终结处理。

BIOS 启动错误消息
制器监控程序停止运行）
（致命错误：控制器核心自测失败）
Fatal Error: Controller
Kernel PANIC!!（致命错误：控制器核心发生严重错误！！）
Fatal Error: SDRAM
initial pattern test
failed（致命错误：SDRAM 初始模式测试
失败）
若要解决问题，如果内部适配器诊断失败，Controller POST command 请快闪
在 Controller 可能导致此问题。

Configuration（控制器配置）菜单中，按以将设置还原为默认值。

如果意外显示此消息，Following Arrays are not 一个或多个先前检测到的present:（以下阵列不存请检查设备和适配器的阵列已经不存在。

在：）连接，并重新启动系统。

Following foreign Arrays 如果适配器从不同的配置系统将提示用户接受这are found:（找到以下外来中找到一个或多个阵列，将些新阵列并重新启动系阵列：）显示此消息。

统。

Following Arrays have 如果在上次启动时某个阵请检查设备和适配器的Missing or Rebuilding or 列已经联机，并已遗失一个连接，并重新启动系统。

Failed Members and are 或多个成员，将显示此消degraded:（以下阵列有成员息。

遗失的成员将按 SCSI
遗失、正在重建或发生故障，ID 列出。

其性能已降低：）
Following Arrays have 一个或多个物理磁盘遗失，请检查设备和适配器的missing required members 导致无法访问阵列。

连接，并重新启动系统。

and cannot be configured:（以下阵列已经遗失必需的成员且无法配置：）Following SCSI IDs are not 指定 SCSI ID 的物理磁盘请检查设备和适配器的responding:（以下 SCSI ID 没有响应适配器通信。

连接，并重新启动系统。

没有响应：）
WARNING!!! Configuration 任何时候如果有成员或阵用户必须接受或拒绝该Change detected!!!（警列遗失，或有阵列状态更改更改。

告！！！检测到配置更改！！！）时，将显示此消息。

请检查设备和适如果控制器无法解决配置 <<<>>>配器的连接，并重新启更改，
SCSI 电缆和连接器问题
如果您的 SCSI 电缆或连接器发生问题，请先检查电缆连接。

如果问题仍然存在，请访问 Dell 网站
，以获得有关合格的小型计算机系统接口 (SCSI) 电缆及连接器的信息，或与您的 Dell 代表联系以获得信息。

系统 CMOS 启动顺序
系统启动顺序是由系统 CMOS 公用程序决定。

请按照下列说明更改启动顺序：
1. 系统启动时，按。

从 System （系统）菜单左方，选择 Boot Sequence （启动顺序）。

2.突出显示您要更改的设备，并使用3. Shift-Up/Down 箭头来更改设备的顺序。

返回窗口左方。

4. 按
，将不会保存您的更改。

5. 务必按以确认启动顺序。

如果您按而非 Save/Exit 按6. （保存/退出）。

系统将重新启动。

7.
预测性故障报告
自我监控、分析及报告技术 (SMART) 用于检查硬盘驱动器，寻找潜在驱动器故障的早期征兆。

SMART 是硬盘驱动器本身的一项功能，不受 RAID 控制器的控制。

所有传送到驱动程序的 SMART 消息都会传送到操作系统中。

操作系统问题
[@more@]。