服务器磁盘阵列常见问题及解决方法
IBM服务器阵列卡损坏N种情况的解决的方法

IBM服务器更换阵列卡的方法关于IBM 服务器更换阵列卡的方法随着时间的推移,越来越多的IBM服务器陆续过保了,许多的蓝色快车服务站也开始维修过保的服务器,但是,很多有实践经验的工程师(包括去IBM作专职)逐渐离开蓝快,后面来的工程师基本上不清楚以前的服务器,更换主板、电源、CPU、MEM,还可以作,但服务器上最重要的是RAID卡上存了一份阵列信息,硬盘上也会保存一份阵列信息。
如果工程师更换RIAD卡或硬盘时操作不当或大脑思路不清淅,很容易造成客户的数据的丢失。
我作了多年的工程师,几乎每一种IBM服务器我均搞过,将一些更换阵列卡的方法以及注意的问题等,实践过的经验方法共享给各位,也欢迎各位朋友同事提出宝贵的意见和建议。
(一) RAID卡的分类1、 3L、3H(80M属第三代RAID卡)2、 4L、4LX、4M、4MX、4H(U160属于第四代)3、 5I卡(第五代)4、 6I、6M(第六代)5、 7K、7T、7I(第七代)6、 8I(第八代)(二)举例:第四代RAID卡,4L、4LX、4M、4MX、4H在7600/X250服务器上更换方法。
备件1、4H FRU 37L6892,母卡;子卡,FRU 37L6902;备件2、三个硬盘18GU160 10K 80P FRU 19K1467在7600/X250服务器上安装,4H卡,SCSI线接第一个SCSI通道,即CHANNEL 1(阵列卡上有标识),三个硬盘分别上在SCSI硬盘背板通道ID0、ID2、ID3上,开机后,第二屏会自检到4H卡和三个硬盘。
(三)如何判断4L 4LX 4H 4M 4MX RAID 卡坏了:1.服务器根本认不到RAID 卡更换一个PCI 槽也是一样的。
2.开机检测试 RAID 卡上有5个灯如果不是连续的闪跃过只有一个灯亮,或者5个灯全部常亮 RAID 卡必然坏了。
3.开机可以检测到RAID 卡,但是RAID 卡报代码的错误,按 Ctrl+I 可以进入RAID卡BIOS,作Restare to Factory Defanlt Settings (恢复原设置,即清除RAID卡上的阵列信息) 后还是报代码错误也是必然的RAID 坏。
计算机维护维修综合实践项目-磁盘阵列RAID-0的维修与更换

【综合实践项目12】磁盘阵列RAID 0的维修与更换磁盘阵列(Redundant Arrays of Inexpensive Disks,RAID)有“价格便宜具有冗余能力的磁盘阵列”之意。
原理是利用数组方式做磁盘组,配合数据分散排列的设计,提升数据的安全性。
磁盘阵列是由很多价格较便宜的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。
利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上。
磁盘阵列还能利用同位检查(Parity Check)的观念,在数组中任一颗硬盘故障时,仍可读出数据,在数据重构时,将数据经计算后重新置入新硬盘中。
【情境描述】:磁盘阵列作为独立系统在主机外直连或通过网络与主机相连。
磁盘阵列有多个端口可以被不同主机或不同端口连接。
一个主机连接阵列的不同端口可提升传输速度。
和目前PC用单磁盘内部集成缓存一样,在磁盘阵列内部为加快与主机交互速度,都带有一定量的缓冲存储器。
主机与磁盘阵列的缓存交互,缓存与具体的磁盘交互数据。
在应用中,有部分常用的数据是需要经常读取的,磁盘阵列根据内部的算法,查找出这些经常读取的数据,存储在缓存中,加快主机读取这些数据的速度,而对于其他缓存中没有的数据,主机要读取,则由阵列从磁盘上直接读取传输给主机。
对于主机写入的数据,只写在缓存中,主机可以立即完成写操作。
然后由缓存再慢慢写入磁盘。
RAID 0是最早出现的RAID模式,即Data Stripping数据分条技术。
RAID 0是组建磁盘阵列中最简单的一种形式,只需要2块以上的硬盘即可,成本低,可以提高整个磁盘的性能和吞吐量。
RAID 0没有提供冗余或错误修复能力,但实现成本是最低的。
虽然RAID 0可以提供更多的空间和更好的性能,但是整个系统是非常不可靠的,如果出现故障,无法进行任何补救。
所以,RAID 0一般只是在那些对数据安全性要求不高的情况下才被人们使用。
常见中低端磁盘阵列的安装调试方法

常见中低端磁盘阵列的安装调试方法在很多人眼里,磁盘阵列具有一定的技术神秘感。
其实,磁盘阵列发展到现在,安装调试以及维护已经变得越来越简单了,只要掌握一些基本的存储概念,另外对服务器系统稍微了解一些,就能够进行磁盘阵列的安装调试。
磁盘阵列安装调试思路1.硬件安装在打开磁盘阵列外包装后,我们一般首先要做的事情是插上电源进行通电测试,打开电源开关,设备自身会进行自检,如果LCD上没有显示报警信息,部件模块也没有发出红灯或报警声,此时表示设备基本正常;接下来把硬盘安装在盘托上,插入硬盘插槽,然后根据硬件安装说明书,安装好机架导轨,把磁盘阵列装到机架上;再把SCS线(或FC跳线)一头接在磁盘阵列的SCSI或FC)通道上,一头接在服务器的HBA卡上(光纤交换机上),此时便完成了磁盘阵列硬件的安装。
一般来说,专业的磁盘阵列都有 3 种简单的安装调试方法:通过LCD液晶面板进行安装调试;通过RS232串口进行安装调试;通过以太网端口进行安装调试。
这三种方式实现的功能都差不多,只是界面不一样。
⑴LCD调试LCD由于一次能够显示的内容有限,所以主要供对产品功能菜单非常熟悉的人使用,另外LCD对后期的维护更加方便。
所有厂商LCD面板上都有4个标准按钮,即“ESC、“ENT “UP”、“DOWN”。
ESC用来进行退出、回到上一层目录、取消等操作,ENT用来进行确认、进入下一层子目录等操作,UP/DOWN 用来进行上下翻动等操作,输入数字和字母可以使用UP/DOWN键翻动数字和字母,使用ENT选择。
(2)RS232串口调试RS232串口调试方式主要供存储工程师使用,它相对直观一些,有一定存储技术基础的工程师可采用这种方式,看看说明书就能进行安装调试。
另外,升级Firmwire 、修改产品型号等特殊功能必须要通过RS232串口来进行。
(3)以太网调试通过以太网端口进行管理,主要供终端用户使用,这种方式最为直观、简便,比较适合最终用户的系统管理员使用。
磁盘阵列的数据恢复探析

磁盘阵列的数据恢复探析摘要:随着电子政务、电子商务及全球信息化的发展,企业级服务器正在国家职能部门、企事业单位等得到普及。
而这些服务器大多采用了磁盘阵列技术,一旦磁盘阵列发生故障,如何能快速地恢复该服务器中的数据至关重要。
就针对磁盘阵列的工作原理、技术规范、恢复方法、恢复工具等方面作了简要的探讨。
关键词:磁盘阵列;工作原理;恢复方法1磁盘阵列(RAID)1.1磁盘阵列的原理磁盘阵列原理就是利用数组方式将多块硬盘组合成磁盘组,并当作一个磁盘驱动器来使用,配合数据分散排列的设计,以提升数据的安全性。
磁盘阵列主要针对硬盘在容量及速度上无法跟上CPU及内存的发展而提出的改善方法,目的是提高系统的存储能力及容错能力。
1.2磁盘阵列的技术规范根据数据组织的方式,目前业界公认的可将磁盘阵列分为8个级别(RAID0~RAID7),它们的侧重点各不相同。
每个RAID等级分别针对速度、保护或两者设计的结合而设计,各个级别的简单定义见表1。
此外,磁盘阵列还有RAID1+0、5+0、JBOD等模式。
其中JBOD (无冗余模式)严格上来讲不属于磁盘阵列范畴,只是现在很多计算机主板上带有这种功能。
由表1可知,RAID5集合了RAID2、RAID3、RAID4的优点,因此应用最广泛,同时也淘汰了前3种RAID技术,RAID6是RAID5的扩充,进一步增强了数据的可靠性,但效率低且成本高。
RAID7虽然增强了数据的可靠性但成本过高故而很少使用,除非是在安全性极高的场合。
1.3RAID5的数据存储原理RAID5是目前应用最为广泛的RAID技术,其数据存储原理是将多块独立硬盘进行条带化分割,相同带区进行奇偶校验(异或运算),校验数据平均分布在每块硬盘上,这样任何一块硬盘上的数据丢失均可以通过校验数据推算出来,并且以N块硬盘构建RAID5阵列用户可以有N-1块硬盘的容量,存储空间利用率非常高,读写数据的速度也快。
虽然,RAID5提供了一定的冗余性(支持一块硬盘掉线仍可继续工作),但一旦掉盘后,运行效率将会大幅下降。
服务器存储故障诊断及排除

2023-11-08CATALOGUE 目录•服务器存储简介•服务器存储故障诊断•服务器存储故障排除•服务器存储故障预防•服务器存储故障案例分析01服务器存储简介服务器存储是指在服务器上进行的存储操作,用于保存和管理数据。
服务器存储通常包括硬盘、固态硬盘(SSD)、存储区域网络(SAN)和网络附加存储(NAS)等。
服务器存储的定义服务器存储能够提供数据备份和恢复功能,保证数据的安全性和完整性。
保证数据安全提高数据可用性优化数据管理通过分布式存储和容灾技术,服务器存储可以提高数据的可用性和访问速度。
服务器存储可以实现数据的分类、整合、迁移和归档,优化数据管理流程。
03服务器存储的重要性0201服务器存储的类型网络附加存储(NAS)将存储设备连接到网络上,实现文件共享和访问,适用于小型网络和办公环境。
存储区域网络(SAN)通过专用网络将多个服务器和存储设备连接起来,实现高速数据传输和共享,适用于大型企业和数据中心。
直接附加存储(DAS)将硬盘或SSD直接连接到服务器上,适用于小型网络和单个服务器。
02服务器存储故障诊断故障诊断的步骤观察服务器的工作状态,检查指示灯、风扇、电源等是否正常工作。
初步检查启动诊断硬件诊断软件诊断通过启动服务器,检查是否能够正常启动,并检查BIOS/UEFI自检过程中是否存在错误提示。
检查内存、硬盘、CPU等硬件设备是否正常工作,如有需要可以进行替换测试。
检查操作系统、驱动程序、应用程序等是否存在问题,尝试进行修复或重新安装。
检查内存条是否存在接触不良、兼容性问题或损坏,如有需要可以替换测试。
内存故障检查硬盘是否存在物理损坏、坏扇区或文件系统错误,可以使用工具软件进行扫描和修复。
硬盘故障检查CPU是否存在过热、过电压或损坏等问题,可以尝试更换风扇或调整电压。
CPU故障硬件故障诊断1软件故障诊断23检查操作系统是否存在病毒、恶意软件、系统文件损坏等问题,可以进行安全扫描、系统恢复或重新安装。
如何应对服务器硬件故障

如何应对服务器硬件故障服务器硬件故障是网站或应用程序运行过程中常见的问题之一,它可能导致服务中断、数据丢失以及业务受损。
在面对服务器硬件故障时,及时有效的应对措施能够帮助我们快速恢复服务,并最大程度减少损失。
本文将介绍如何应对服务器硬件故障的七个步骤。
一、建立可靠的硬件监测系统及时发现服务器硬件故障是解决问题的首要步骤。
因此,我们需要建立一个可靠的硬件监测系统,确保可以及时获得硬件故障的预警信息。
这个系统可以通过监控硬件温度、风扇速度、电源状态等参数,及时发现并记录异常情况。
二、制定应急响应计划面对服务器硬件故障,制定应急响应计划是至关重要的。
应急响应计划应包括故障报告流程、故障处理流程以及人员职责等内容,确保在故障发生时团队成员能够迅速、有序地进行处理。
此外,针对常见的硬件故障情况,还可以制定相应的应对策略,以加快故障诊断与修复的速度。
三、备份关键数据为了应对服务器硬件故障可能带来的数据丢失风险,我们应该定期备份关键数据。
这可以通过定时备份数据至云存储、外部存储设备或其他服务器来完成。
备份数据应当包括数据库、应用程序代码、配置文件等重要文件,以确保在发生硬件故障时可以快速恢复数据。
四、实施硬件冗余通过实施硬件冗余,可以大幅度提高服务器的可用性。
硬件冗余的方式包括热备插槽、磁盘阵列、多电源供应等。
当其中一个硬件组件出现故障时,冗余的组件将自动接管工作,确保服务器的正常运行。
因此,在购买服务器时,我们应该考虑是否支持硬件冗余功能,并根据实际情况做出合理的选择。
五、定期维护和检查服务器定期维护和检查服务器可以帮助我们及时发现潜在的硬件问题,并采取相应的措施进行修复。
维护和检查内容包括清洁服务器内部和外部灰尘、查看硬件组件是否松动、检验电源线路是否正常等。
此外,软件方面的更新和修复也是服务器正常运行的重要环节,我们需要确保操作系统、驱动程序和应用程序等软件保持最新版本,以提高服务器的稳定性和安全性。
六、与供应商保持密切联系在购买服务器硬件时,我们应该选择可靠的供应商,并与其保持密切联系。
一种解决IBM X3650 M2服务器磁盘RAID故障的方法

一种解决IBM X3650 M2服务器磁盘RAID故障的方法汪生珠;张绍宁
【期刊名称】《电脑编程技巧与维护》
【年(卷),期】2016(0)15
【摘要】针对服务器磁盘RAID出现的故障,介绍了故障现象,在全面分析的基础上,提出了成功地利用配置热备盘(Manage Hot Spare)的方法解决服务器磁盘RAID故障的问题,详细地描述了这一方法实现的过程。
【总页数】3页(P84-86)
【作者】汪生珠;张绍宁
【作者单位】中国石油长庆油田分公司勘探开发研究院,西安710018; 低渗透油气田勘探开发国家工程实验室,西安710018;中国石油长庆油田分公司勘探开发研究院,西安710018; 低渗透油气田勘探开发国家工程实验室,西安710018【正文语种】中文
【相关文献】
1.收费服务器磁盘阵列(RAID)中硬盘故障的处理分析 [J], 李保臣
2.大磁盘空间服务器RAID构建方法 [J], 邓东杰;刘荃
3.RAID-VCR:一种能够承受三个磁盘故障的RAID结构 [J], 董欢庆;李战怀;林伟
4.IBM X系列服务器进行磁盘阵列RAID配置分析 [J], 李永红;朱映
5.收费服务器磁盘阵列(RAID)中硬盘故障的处理分析 [J], 李保臣
因版权原因,仅展示原文概要,查看原文内容请购买。
硬盘故障处理大全

硬盘故障处理大全1、分区表错误的处理故障现象:开机后,屏幕上显示:“Invalid partition table” 硬盘不能启动,可从软盘启动。
故障分析与处理:造成该故障的原因一般是硬盘主引导记录中的分区表有错误,当指定了多个自举分区(只能有一个自举分区)或病毒占用了分区表时将有上述提示。
主引导记录(MBR)位于0磁头0柱面1扇区,由FDISK.EXE对硬盘分区时生成。
MBR包括主引导程序、分区表和结束标志55AAH 3部分,共占一个扇区。
主引导程序中含有检查硬盘分区表的程序代码和出错信息、出错处理等内容。
当硬盘启动时,主引导程序将检查分区表中的自举标志。
若某个分区为自举分区,则有分区标志80H,否则为00H,系统规定只能有一个分区为自举分区,若分区表中含有多个自举标志时,主引导程序会给出“Invalid partion table”的错误提示。
最简单的解决方法是用NDD 修复,它将检查分区表中的错误,若发现错误,将会询问您是否愿意修改,您只要不断地回答“Yes”即可修正错误,或者用备份过的分区表覆盖它也行。
如果是病毒感染了分区表,格式化是解决不了问题的,可先用杀毒软件杀毒,再用NDD进行修复。
如果上述方法都不能解决,就先用FDISK重新分区,但分区大小必须和原来的分区一样,这一点尤为重要,分区后不要进行高级格式化,然后用NDD进行修复。
修复后的硬盘不仅能启动,而且硬盘上的信息也不会丢失。
其实用FDISK 分区,相当于用正确的分区表覆盖原来的分区表。
尤其当用软盘启动后不认硬盘时,可用此方法。
2、硬盘不能工作的故障原因和处理故障现象:微机无法用硬盘启动,检查CMOS参数没有问题。
用软盘启动后可转入C:u25552提示符,但是不能对硬盘进行任何操作。
故障分析与处理:用软盘启动后可转入C:u25552提示符,说明系统是可以识别硬盘驱动器的。
硬盘不仅不能引导系统,而且也不能进行其他操作,说明故障原因可能是硬盘的主引导区或分区表遭到破坏,弄得硬盘不能正常工作。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务器磁盘阵列常见问题及解决方法
亠般问题
BIOS启动错误消息
下表说明有关启动时可能显示的BIOS错误消息、其问题以及建议的解决方案。
消息问题建议的解决方案
Error: Controller not Responding TimedOut (错误:控制器没有响应超时)Error: Controller Kernel Stopped Running (错误:控制器核心停止运行)Error: Controller Monitor Stopped Running (错误:控制器监控程序停
止运行)这些消息仅于POST期间显
示。
它们代表适配器试图
于控制器核心停止运行
时,执行一个命令。
这可能是加载固件时出现
问题或是硬件错误。
•若要解决问题,请关
闭系统和所有附属
外围设备的电源,
然后再开启系统电
源。
•如果问题仍然存在,
请与Dell支持人
员联系。
Fatal Error: Controller monitor failed (致命错误:控制器监控程序失败)Fatal Error: Controller unknown fa订ure (致命错误:未知的控制器故障)Fatal Error: Controller kernel self test failed (致命错误:控制器核心自测失败)
Fatal Error: Controller Kernel PANIC!!(致命错误:控制器核心发生严重错误!!)
Fatal Error: SDRAM initial pattern test fa 订ed (致命错误:SDRAM 初始模式测试
失败)这些错误消息代表适配器
没有响应。
这可能是由于
固件损毁或是硬件错误造
成。
•若要解决问题,请快
闪刷新适配器的固
件。
•如果问题仍然存在,
请与Dell支持人
员联系。
检测到配置更改!! !) 改时,将显示此消息
SCSI 电缆和连接器问题
如果您的SCSI 电缆或连接器发生问题,请先检查电缆连接。
如果问题仍然存 在,请访问Dell 网站 ,以获得有关合格的小型计算机系统接口 (SCSI )电缆及连接器的信息,或与您的 Dell 代表联系以获得信息。
系统CMOS 启动顺序
系统启动顺序是由系统CMOS 公用程序决定。
请按照下列说明更改启动顺序:
1.
系统启动时,按 。
2. 从System (系统)菜单左方,选择 Boot Sequenee (启动顺序)。
3. 突出显示您要更改的设备,并使用 Shift-Up/Down 箭头来更改设备的顺 序。
4. 按返回窗口左方。
5. 务必按 以确认启动顺序。
如果您按 而非,将不会保存您的更改。
6. 按Save/Exit (保存/退出)。
7.
系统将重新启动。
预测性故障报告
自我监控、分析及报告技术(SMART )用于检查硬盘驱动器,寻找潜在驱动器故 障的早期征兆。
SMARTS 硬盘驱动器本身的一项功能,不受 RAID 控制器的控 制。
所有传送到驱动程序的SMART 消息都会传送到操作系统中。
操作系统问题
<<<>>> <<<>>> <>
如果控制器无法解决配置 更改,将显示此消息
请检查设备和适配 器的连接,并重新 启动系统。
如果是特定驱动器 导致此问题,可以 移除并替换这些驱 动器。
BIOS is Disabled.
已禁用。
)
(BIOS 如果在“ BIOS
Con figurati on utility ” 中禁用BIOS INT13支持,
将显示此消息且不会配置 任何阵列。
启用BIOS Configuration utility>
Con troller Con figuration (控制器配 置)中的BIOS INT13h 选
项。