服务器故障排除手册

合集下载

服务器维修基本技术手册

服务器维修基本技术手册

服务器维修基本技术手册第一章服务器维修的基本原则和注意事项§1.1基本原则:1、先想后做。

先想好怎么做,再实际动手。

先分析判断,再进行维修。

2、不懂要问。

不确定的情况,要查资料,咨询同事,TS L2,TAM后,才动手。

3、先外后内。

先观察使用周围环境。

设备位置、电源、连接、其它设备、温度与湿度是否正常。

之后看设备故障的现象。

显示的内容,及它们与正常情况下的异同。

再看设备内部情况。

灰尘、是否腐蚀、连接、器件的颜色、部件的形状、指示灯的状态等。

最后看设备的软硬件配置安装了何种硬件,资源的使用情况;使用的是使种操作系统,其上又安装了何种应用软件;硬件的设置驱动程序版本等。

4、先软后硬。

先检查软件问题,当可判软件环境是正常时,如果故障不能消失,再从硬件方面着手检查。

5、分清主次。

在复现故障现象时,有时可能会看到一台故障机不止有一个故障现象,而是有两个或两个以上的故障现象(如:启动过程中无显,但机器也在启动,同时启动完后,有死机的现象等),为时,应该先判断、维修主要的故障现象,当修复后,再维修次要故障现象,有时可能次要故障现象已不需要维修了。

§1.2 注意事项一、需要提醒客户备份数据二、准备充足的服务器拆装工具和防止静电设备.三、维修前充分观察客户使用环境和相关的软件状况四、对于复杂的客户应用环境,需要客户配合做相关操作,例如服务器的开关操作及应用关闭五、拆装部件时的观察:要有记录部件原始安装状态的好习惯六、加电过程中的观察:元器件的温度、异味、是否冒烟等;六、请求技术支持之前需要提供详细的硬件软件状态及已经完成详细操作过程和相关日志第二章常见故障判断和维护方法一、服务器加电类故障 No Power1、检测服务器面板指示灯和电源指示灯,及服务器开关指示灯;2、查看电源所连接的电源线;3、针对服务器电源冗余配置,尝试做交换检测4、服务器最小化操作及服务器Nvram清除5、观察服务器电源及内部备件是否有冒烟等现象发生6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新二、服务器自检类故障 No Post1、检测服务器是否有得到电源供应2、查看服务器前面板的具体报错信息,并且针对错误信息做相关操作3、针对服务器外部连接设备做移除操作4、服务器最小化操作及服务器Nvram清除5、针对服务器启动的主要备件做插拔及最小化操作6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新三、服务器内存故障1、检测服务器前面板是否有内存错误,并且收集DSET和SA日志2、服务器Nvram清除3、针对服务器故障内存做重新插拔操作4、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新四、服务器死机及不稳定故障1、收集服务器DSET和SA及操作系统的日志2、查看服务器安装的应用软件3、尽量在客户同意下升级Bios/BMC FW/Driver到最新4、移除服务器上第三方硬件并且最小化及服务器Nvram清除5、针对服务器启动的主要备件做插拔及最小化操作6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新五、服务器阵列卡和硬盘故障1、收集服务器当前的阵列信息和硬盘配置及槽位,并且收集服务器DSET和TTY日志2、在操作系统能够正常启动的时候,确保服务器的数据备份3、尽量在条件允许和客户的同意下检测HD及SCSI/SAS/SATA等数据线和链路状况4、更换故障备件,如果更换硬盘要确保有处在重建状态,并且要和客户沟通了解重建结果5、如果服务单有针对硬盘的FW操作,需要做相关操作6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新六、服务器阵网络故障1、检测服务器网卡的安装情况,是否有松动及网卡指示灯,并且做网线的检测2、在操作系统下做网络Ping操作,并且检测IP配置,网卡Duplex 和Speed配置情况3、尽量在条件允许下检测服务器BIOS里面的网卡配置,及网卡诊断4、更换网卡所连接的外部HUB和交换机的端口,网线更换.直连服务器网卡5、尝试直连服务器网卡, 排除网络设备引起的问题6、尝试操作系统下更新网卡驱动和FW7、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新七、服务器及磁带机故障1、检测服务器1启动过程和操作系统下正确识别到磁带机设备2、在操作系统下尝试更新磁带机的驱动,有条件可以清洁磁带机3、如果是使用第三备件软件,收集备份软件的日志4、针对磁带机经常卡带,保证磁带机的FW是最新5、针对带库磁带设备, 收集日志和相关的错误信息6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新八、服务器及磁盘存储故障1、针对服务器和所连接的磁盘存储,掌握基本的关开系统的操作2、基本掌握磁盘存储的管理配置和使用,及相关日志的收集方法2、针对磁盘的维护,参考服务器阵列卡和硬盘故障3、对于服务器和磁盘存储的复杂问题, 及时了解故障情况,多收集信息4、强调备份数据的重要性5、针对复杂问题及不能修复的问题,及时和技术支持联系6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新。

服务器故障处理手册范本

服务器故障处理手册范本

服务器故障处理手册范本第一章:引言服务器是现代信息技术发展中不可或缺的一部分。

然而,随着服务器使用量的增加,服务器故障的频率也随之增加。

为了保障服务器的稳定运行和数据的安全,有必要建立一份服务器故障处理手册,以指导运维人员在遇到故障时能够快速定位和解决问题。

本手册旨在为管理员提供一份范本,帮助其根据实际情况定制适合自身服务器环境的故障处理手册。

第二章:故障识别与分类2.1 故障识别服务器故障的识别是故障解决的第一步,常见的故障识别包括网络连接、硬件故障、系统崩溃等。

管理员需要通过日志、系统监控工具等手段来定位故障原因。

2.2 故障分类根据故障的性质和影响程度,可以将故障分为紧急故障、一般故障和次要故障。

不同类型的故障需要采取不同的处理策略和时间安排,管理员应根据实际情况进行分类。

第三章:紧急故障处理3.1 紧急故障定义紧急故障指的是服务器遭遇停机、系统崩溃等导致业务无法正常进行的故障,处理紧急故障时需要迅速且高效地恢复服务器功能。

3.2 紧急故障处理流程1. 迅速通知相关人员:管理员应立即通知上级、相关技术人员和业务人员,确保所有人员都能及时响应。

2. 开启备用服务器:若有备用服务器,应及时切换至备用服务器,确保业务的持续运行。

3. 分析故障原因:管理员通过查看日志、排除硬件故障等方式,尽快确定故障原因。

4. 发布紧急修复方案:管理员需根据故障原因和解决方法,编写紧急修复方案,并尽快发布给相关人员。

5. 实施修复方案:相关人员按照修复方案进行操作,确保服务器功能的快速恢复。

6. 监测与验证:恢复服务器功能后,管理员需要对服务器进行监测和验证,确保故障已经解决。

7. 故障报告和总结:管理员需撰写故障报告和总结,包括故障原因、处理过程、修复方法等信息,以供后续参考和优化。

第四章:一般故障处理4.1 一般故障定义一般故障指的是服务器遇到影响业务但非立即崩溃的故障,处理一般故障时需要在较短的时间内解决问题,并确保业务正常进行。

杜比服务器维修手册-fix

杜比服务器维修手册-fix

杜比服务器维修手册在维修前,请先确认服务器的版本,版本号可以在系统→影院设备中找到。

或在操作界面下点击左下角的Dolby标志,再根据如下Software version List来确认。

服务器常见故障维修所需的光盘、密钥、镜像请向我公司工程师索取电话400-6800-5721.无法上电;2.显示器黑屏;3.开机出现Dolby字样,不继续运行;4.开机运行后卡在Dolby标志界面,一般现象有:无法连接服务器,服务器模式不匹配等;5.开机运行后出现Login字样,无法进入到播放界面;6.与放映机无法连接;7.无法连接CAT No.862;8.画面偏色;9.放映时画面出现雪花;10.有声音无画面;11.无法加载密钥;12.节目名后面出现红叉,无法播放;13.无字幕14.死机常见故障解决方法1.无法上电:按一下服务器前面板Power键2.显示器黑屏:a)先注意观察服务器有无蜂鸣器报警声音。

若有报警声,将服务器拆开,对内存进行插拔后再测试;b)更换显示器,注意:确认显示器的输入方式,目前有DVI和VGA两种c)用15针短接线将服务器后面板上的两个VGA口短接,启用前置VGA端口测试d)若以上步骤都不管用,请联系我公司工程师3.开机出现Dolby字样,不继续运行:此故障属于BIOS故障,可以尝试按tab键后再按Esc;若无效,请联系我公司工程师更换主板4.开机运行后卡在Dolby标志界面,一般现象有:无法连接服务器,服务器模式不匹配等:a)对服务器进行unconfig重置数据前三项,然后再进行config设置。

b)用升级盘对服务器进行本版本的升级覆盖。

c)若以上步骤无效,请重建服务器系统。

5.开机运行后出现Login字样,无法进入到播放界面:系统崩溃,请进行以下步骤a)用升级盘对服务器进行本版本的升级覆盖。

b)若以上步骤无效,请重建服务器。

6.与放映机无法连接:a)首先确定影院是否安装了TMS系统,若非杜比TMS系统,请先确定服务器和放映机的ip地址。

服务器典型故障排除操作手册

服务器典型故障排除操作手册

服务器典型故障排除操作手册目录1.服务器常见故障类型分类 (1)2.服务器常见故障现象及其对应的排除方法 (1)2.1服务器开机无显示(加电无显示和不加电无显示) (1)2.2加电BIoS自检报错 (1)2.3系统安装阶段故障和现象 (2)2.4操作系统启动失败 (2)2.5系统运行阶段故障 (2)3.服务器故障排错的基本原则 (3)3.1尽量恢复系统出厂配置 (3)3.2从基本到复杂 (3)3.3部件交换对比测试 (3)4.服务器故障排除需要收集哪些信息 (4)4.1服务器信息 (4)4.2故障信息 (4)5.服务器硬件故障处理实际案例 (4)6.服务器常见软故障解决思路与实例 (7)7.服务器常见内存故障现象实例 (9)1.服务器常见故障类型分类第1类开机无显示第2类加电BlOS自检阶段故障第3类系统和软件安装阶段故障和现象第4类操作系统启动失败第5类系统运行阶段故障2.服务器常见故障现象及其对应的排除方法2.1服务器开机无显示(加电无显示和不加电无显示)2.1.1检查供电环境2.1.2检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。

)2.1.3按下电源开关时,键盘指示灯是否亮、风扇是否全部转动2.1.4是否更换过显示器,尝试更换另外一台显示器2.1.5插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试2.1.6 1.6是否添加了CPU,如果有增加CPU尝试去掉2.1.7 1.7去掉增加的第三方I/O卡包括Raid卡等2.1.8ClearCMOS(记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服)2.1.9尝试更换主板、内存等主要部件2.1.101.10清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下2.2加电BK)S自检报错2.2.1 2.1根据BIOS自检报错信息提示2.2.2查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重2.2.3做最小化测试2.2.4尝试清除CMOS3.2.5看能否正常进入BloS2.3系统安装阶段故障和现象2.3.1查看服务器支持操作系统的兼容版本(从厂商能查到兼容性列表)3.3.2系统安装蓝屏(对蓝屏故障代码诊断)4.3.3安装在分区格式化的时候找不到硬盘(阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装)2. 3.4大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡)(使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可)2.3.5安装过程是死机(检查兼容性列表——查看硬盘接口选择是否正确-一阵列驱动安装是否正确-一尝试最小化配置安装检查是否为内存和CPU等问题)2.3.6引导光盘安装失败(使用引导光盘安装失败,查看引导光盘版本是否匹配,尝试手动安装系统,如有阵列重新配置阵列引导安装)2.4操作系统启动失败2.4.1在系统启动自检过程中有报错(具体查看启动报错信息在定方案)3.4.2启动系统蓝屏(查看蓝屏代码核对)4. 4.3进入登陆界面死机(查看进入单用户或者安全模式是否正常,进入BIOS是否正常、是否会死机,进入磁盘阵列查看阵列状态是否正常,检查测试硬盘是否有坏道,最小化配置启动)5.4.4忘记密码(windows使用PE破解,IinUX进入单用户破解)2.5系统运行阶段故障2.5.1安装数据库等应用软件报错(对系统版本和软件版本是否兼容,查看报错信息是否缺少插件)2.5.2系统运行速度变慢(查杀病毒,检测阵列状态,测试硬盘有无坏道,重新安装系统或者修复)2.5.3运行蓝屏(查看蓝屏代码目录)2.5.4运行死机(检查进入BIOS是否死机,进入系统后测试部件温度是否正常,windows系统查看dump文件)3. 5.5硬盘拷贝数据文件速度变慢(测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带大小,与软件应用要求测试对比)3.服务器故障排错的基本原则3.1尽量恢复系统出厂配置3.1.1硬件配置:去除第三方厂商备件和非标配备件3.1.2资源配置:清除CMOS、恢复资源初始配置4. 1.3BIOS>F∕W>驱动程序:升级最新的BIOS、F/W和相关驱动程序5. 1.4TPL:扩展的第三方的I/O卡是否属于该机型的硬件兼容列表(TPL)1.2从基本到复杂1.2.1系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故隙现象变化并处理。

天地伟业网络视频服务器故障快速排查手册

天地伟业网络视频服务器故障快速排查手册

天地伟业网络视频服务器故障快速排查手册首先感谢您选用天地伟业网络视频产品,在使用之前,请详细阅读网络视频服务器使用说明书,熟悉产品使用方法,如果遇到问题可以按照以下方法进行故障排查。

为保证系统得正常运行,我们必须保证机器达到如下要求:说明:现场机器最好达到建议PC的配置,并安装相应硬件最新的驱动,此配置能满足16画面显示的要求,配置越高机器运行越流畅。

1.故障现象: IP搜索器搜索不到服务器排查步骤:1.确认网络视频服务器是否正常上电,主机网卡及驱动是否正常,网线是否做的没问题,网络拓扑连接是否通畅;2.直接用交叉网线直接连接主机和网络视频服务器,如仍不通,给服务器复位再测试;3.如有备件主机和网络视频服务器都做可更换测试;4.如仍有问题请与我们联系;2. 故障现象: IP搜索器能够正常搜索到服务器,但是IE不能正常连接视频排查步骤:1.确认主机IP地址和网络视频服务器地址设置在同一网段内,如不在同一网段改为同一网段;注意:如在不同网段必须保证此两个网段做了路由;2.确认IE的版本,建议安装IE6.0;3.确认正常安装显卡驱动和DirectX,建议安装最新的显卡驱动和DirectX;4.确认开启ActiveX相关插件;5.暂时关闭杀毒软件自带防火墙测试;如是XP系统,暂时关闭系统自带防火墙;6.删除之前曾经连接时下载的控件,重新连接测试;7.更换主机测试;8.如仍然有问题,请与我们联系;3. 故障现象: 如果IE连接视频正常,但是软件连接视频不正常排查步骤:1.确认软件版本是否正确;如果版本不正确,重新安装正确的版本软件;2.确认软件中“服务器编辑信息”的“IP地址”和“服务器类型”的正确;在局域望网建议采用“主码流+UDP”方式,广域网建议采用“副码流+TCP”方式;3.确认在软件的主界面连接了视频;4.重启软件连接;4.故障现象: 视频连接显示正常,但背景为蓝色排查步骤:1.如背景为蓝色说明“网络视频服务器—网络—主机”没有问题,出现问题的是网络视频服务器视频输入;2.确认摄象机是否上电;3.确认视频线和视频接头是否有问题;4.把摄象机直接接在监视器上,排除摄象机的问题;5.如仍有问题,请与我们联系;5. 故障现象: H系列视频连接显示正常,但是在IE中不能控制前端的云台解码器动作排查步骤:1.确认前端设备支持协议与IE中设置协议是否相符,通过IE可以对协议进行升级;2.协议确认正确后,检查控制线接线正确;网络视频服务器H系列背面板接口端子中485A和485B用于接控制线;3.检查前端设备地址与IE中地址设置是否相符;4.如采用其它家的云台解码器,可更换485控制的A和B接线顺序,地址可加1减1测试;5.通过测试软件单独测试前端的云台解码器动作,排除前端的云台解码器的问题;6.如仍有问题,请与我们联系;6. 故障现象:T系列视频连接显示正常,但是在IE中不能控制前端的云台解码器动作排查步骤:1.确认前端设备支持协议与IE中设置协议是否相符;T系列IE中想用其它协议控制需要在客户端安装一个控制包,安装完该控制包后既可以选择不同的协议;2.协议确认正确后,检查控制线接线正确;T系列接口端子中485A2和B2用于控制线;3.检查前端设备地址与IE中地址设置是否相符;4.如采用其它家的云台解码器,可更换485控制的A和B接线顺序,地址可加1减1测试;5.通过测试软件单独测试前端的云台解码器动作,排除前端的云台解码器的问题;6.如仍有问题,请与我们联系;7. 故障现象: IE中能正常控制,但是在软件中不能控制前端的云台解码器动作排查步骤:1.请确定在软件中已选择正确的协议;设置路径:系统―通道管理―设备控制―协议选择2.确认软件中地址设置的正确;3.如采用Easysight软件,确保“代理—其它选项—启用集中控制”的选上;4.如仍有问题,请与我们联系;8. 故障现象: 软件能够正常连接视频,但是图象不稳定,时断时续,丢帧等现象排查步骤:1.退出软件,查看机器的CPU占用率,排除机器自身配置不够和中毒的原因;2.主机PING服务器,查看有没有丢包的现象;3.利用带宽测试软件测试网络带宽,如带宽不够或带宽不稳请与网络运营商联系;4.网络带宽不足又要保证视频流畅性时,我们首先考虑将图像的分辨率降低;在不改变分辨率的情况下,在IE图像质量设置中,改为变码率方式,并且将图像质量中最好质量和最差质量的数值均加大,适当降低视频质量。

《服务器运维操作手册》

《服务器运维操作手册》

目录1. 操作说明 (1)1.1.服务器日常维护 (1)1.2.系统备份 (6)1.3.操作系统运行日志管理 (6)1.操作说明1.1.服务器日常维护1)服务器是否开启每个工作日,检查服务器的状态。

可以在cmd命令窗口中,ping IP地址,查看服务器是否开启,如:若运行结果如下,则服务中断,此时需要采取措施。

页脚内容12)服务器定时重启保证每周重启服务器一次。

3)服务器硬件检查机房环境要防静电、防电磁,湿度:45%RH-60%RH,温度:20℃-25℃。

每个工作日对服务器硬件进行检查,检查结果登记在册,检查内容如下:a)主机电源、风扇的使用情况及主机机箱内部温度;b)主机硬盘运行状态;c)主机网卡、阵列卡等硬件状态;d)主机HA运行状况;e)存储交换机设备状态、端口状态、传输速度;f)监控记录磁盘阵列、磁带库等存储硬件故障提示和警告4)服务器性能检查每周登陆服务器两次,检查服务器的性能,检查结果登记在册,检查内页脚内容2容如下:CPU使用率:不能让CPU使用率一直保持太高;内存使用率:内存使用率不能太高;可通过Ctrl-Alt-Delete打开Windows任务管理器,查看CUP和内存的使用情况,如下图:进程运行情况:可以查看系统运行的进程,每个进程的CPU和内存使用情况,哪个进程占用了大量系统资源,在确认它不是系统进程后,还可以选择关闭这个进程来释放系统资源。

可通过Ctrl-Alt-Delete打开Windows任务管理器,查看系统进程的运行情况,如下图:页脚内容3硬盘:查看每个磁盘的使用率、剩余空间。

可在每个磁盘上右键-属性,打开磁盘属性,如下图:页脚内容45)服务器检查工具管理如需要使用一些工具对服务器性能进行检查,首先报信息化管理部批准。

然后选择如华军、天空等大型网站进行下载。

下载后确保当前杀毒软件已经升级到最新版本,升级完毕后对下载的软件进行杀毒,确认正常后才可以使用。

对于下载的新工具,将工具保存到指定的目录下,目录根据现场环境决定。

DELL服务器PERC-5-6RAID操作系统下诊断硬盘故障(tty)手册

DELL服务器PERC-5-6RAID操作系统下诊断硬盘故障(tty)手册

CCP 不一定始终和 DCP 相同,比如当电池坏或者在充放电时,CCP 会显示 VD 是 WT 模式, 直至电池恢复。
Page 8 of 31
How to analyze tty log
Dell internal use
例 2:物理及虚拟磁盘报错的 tty 日志 …….. 09/11/08 9:05:03: DEV_REC:Medium Error DevId[4] Tgt 4 retires=0 09/11/08 9:05:03: ErrLBAOffset (0) LBA(306d10) BadLba=306d10 09/11/08 9:05:03: EVT#00297-09/11/08 9:05:03: 113=Unexpected sense: PD 04(e1/s4), CDB: 28 00 00 30 6d 10 00 00 50 00, Sense: f0 00 03 00 30 6d 10 0a 00 00 00 00 11 00 01 80 00 0 CDB 28 指读操作,尝试读 LBA00306d10 后的 50h 个 block
= 0x08, // Adaptive Read ahead
MR_LD_CACHE_WRITE_CACHE_BAD_BBU = 0x10, // write caching ok if bad BBU
MR_LD_CACHE_ALLOW_WRITE_CACHE = 0x20, // write caching allowed
Page 9 of 31
How to analyze tty log
2.tty 日志结构: Boot Sequence:记录阵列卡每次启动的过程,依次包括以下内容:
卡的识别信息:类型,固件版本等 MFC values 电池的信息:设计值,当前值,当前状态等 设备初始化信息:加载 DM(Device Module)和 MPT 模块,运行 DISM 模块初始化磁盘, 并在结束后输出 GPT 表(Global Persistence Table) 读出并导入 DDF 配置数据 结束自检,同步 Raid 卡和主机系统时间

戴尔EMC PowerEdge 服务器 故障处理指南

戴尔EMC PowerEdge 服务器 故障处理指南

Dell EMC PowerEdge 服务器故障处理指南注意、小心和警告:“注意”表示帮助您更好地使用该产品的重要信息。

:“小心”表示可能会损坏硬件或导致数据丢失,并告诉您如何避免此类问题。

:“警告”表示可能会导致财产损失、人身伤害甚至死亡。

© 2017 - 2021 Dell Inc. 或其子公司。

保留所有权利。

Dell、EMC 和其他商标是 Dell Inc. 或其附属机构的商标。

其他商标可能是其各自所有者的商标。

章 1: 简介 (7)读者对象 (7)建议工具 (7)说明文件资源 (7)安全说明 (9)章 2: 诊断指示灯 (10)状态 LED 指示灯 (10)系统运行状况和系统 ID 指示灯代码 (11)iDRAC Quick Sync 2 指示灯代码 (11)iDRAC Direct LED 指示灯代码 (12)NIC 指示灯代码 (12)电源设备指示灯代码 (13)非冗余电源设备单元指示灯代码 (14)硬盘驱动器指示灯代码 (15)uSATA SSD 指示灯代码 (16)内部双 SD 模块指示灯代码 (16)章 3: 运行诊断程序 (18)通过 SupportAssist 接收自动支持 (18)PSA/ePSA 诊断程序 (18)运行 PSA 诊断程序 (18)PSA 和 ePSA 诊断程序错误代码 (18)在 Windows 操作系统中使用 WinDbg 调试 mini crash dump 文件 (30)章 4: 硬件问题故障排除 (34)故障处理系统启动故障 (34)未找到可引导设备 (34)外部连接故障处理 (35)视频子系统故障处理 (35)USB 设备故障处理 (35)iDRAC Direct 故障处理 - USB XML 配置 (36)iDRAC Direct 故障处理 - 笔记本电脑连接 (36)串行输入输出设备故障处理 (36)NIC 故障处理 (37)PowerEdge 服务器上的 NIC 组合 (37)受潮系统故障处理 (37)受损系统故障处理 (38)系统电池故障处理 (39)冷却问题故障处理 (39)冷却风扇故障处理 (40)内部 USB 闪存盘故障处理 (40)micro SD 卡故障处理 (40)扩展卡故障处理 (41)目录3存储控制器故障处理 (42)OMSA 标记的 PERC 驱动程序 (43)使用“外部配置视图”屏幕导入或清除外部配置 (43)使用“虚拟磁盘管理”菜单导入或清除外部配置 (44)RAID 控制器 L1、L2 和 L3 高速缓存错误 (45)PERC 控制器不支持 NVMe PCIe 驱动器 (45)12 Gbps 硬盘驱动器不支持 SAS 6iR RAID 控制器 (45)硬盘驱动器无法添加到现有的 RAID 10 阵列 (45)PERC 电池放电 (45)PERC 电池故障消息显示在 ESM 日志中 (47)创建非 RAID 磁盘以供存储 (47)固件或物理磁盘过时 (47)因外部配置而无法引导到 Windows (47)具有保留高速缓存的虚拟驱动器脱机或丢失错误消息 (48)扩展 RAID 阵列 (48)LTO-4 磁带机在 PERC 上不支持 (48)H310 上 HDD 大小的限制 (49)系统日志显示存储控制器的故障条目,即使其正常工作 (49)硬盘驱动器故障排除 (49)故障排除多个驱动器故障 (50)检查 PERC BIOS 中的硬盘驱动器状态 (50)常见问题 (51)症状 (52)驱动器超时错误 (52)驱动器无法访问 (53)光驱故障处理 (53)磁带备份装置故障排除 (53)故障排除无电源问题 (54)电源装置故障处理 (54)电源问题故障处理 (54)电源装置故障处理 (55)故障排除 RAID (55)使用 PERC 配置 RAID (55)使用 Unified Server Configurator 配置 RAID (58)使用 Unified Server Configurator 配置 RAID (61)在戴尔第 13 代 PowerEdge 服务器上通过使用 ESXi 主机上的 PERCCLI 工具下载和安装 RAID 控制器日志导出 (62)通过使用 Lifecycle Controller 配置 RAID (66)虚拟磁盘重新配置和容量扩展的起始和目标 RAID 级别 (67)装回 RAID1 配置中的物理磁盘 (67)RAID 配置指南 (68)重新配置或迁移虚拟磁盘 (68)外部配置操作 (69)查看巡检读取报告 (70)一致性检查报告 (71)虚拟磁盘故障排除 (72)故障排除 Dell PowerEdge 服务器的 PERC 控制器上的内存或电池错误 (75)分片 (77)4目录在硬件配置上重新放置 SAS IOM 存储底座时发生输入/输出错误 (79)章 5: 服务器管理软件问题 (80)什么是不同类型的 iDRAC 许可证 (80)如何激活 iDRAC 上的许可证 (81)是否可以将 iDRAC 许可证从 Express 升级到 Enterprise 或从 BMC 升级到 Express (81)如何找出缺失的许可证 (81)如何使用 iDRAC Web 界面导出许可证 (82)如何设置电子邮件警报 (82)系统时区未同步 (82)如何设置自动专用 NIC 功能 (83)如何使用 Lifecycle Controller 配置网络设置 (83)使用 OMSA 分配热备盘 (84)存储设备运行状况 (84)如何使用操作系统部署向导配置 RAID (85)物理磁盘上的外部驱动程序 (85)物理磁盘报告为外部 (85)清除外部配置 (86)重置存储控制器配置 (86)如何在第 13 代 PowerEdge 服务器上更新 BIOS (86)为什么无法更新固件 (86)Dell EMC PowerEdge 服务器上支持的操作系统 (87)无法创建分区或找到分区并且无法安装 Microsoft Windows Server 2012 (87)iDRAC 中的 JAVA 支持 (87)如何指定语言和键盘类型 (87)消息事件 ID - 2405 (88)在 Microsoft Windows 操作系统上安装管理系统软件 (88)在 Microsoft Windows Server 和 Microsoft Hyper-V Server 上安装管理系统软件 (88)在 VMware ESXi 上安装 Systems Management 软件 (88)处理器 TEMP 错误 (89)在计划的警告重新引导期间 PowerEdge T130、R230、R330 和 T330 服务器可能报告严重错误 (89)未检测到 SSD (89)TRIM/UNMAP 和 Dell Enterprise SSD 驱动器支持 (89)OpenManage Essentials 无法识别服务器 (89)无法通过交换机连接到 iDRAC 端口 (90)在 UEFI 模式中 Lifecycle Controller 无法识别 USB (90)远程桌面服务指南 (90)章 6: 操系统问题故障排除 (91)如何在戴尔 PowerEdge 服务器上安装操作系统 (91)查找 VMware 和 Windows 许可 (91)蓝屏错误或 BSOD 故障排除 (91)紫屏死机或 PSOD 故障排除 (92)Windows 操作系统无引导问题故障处理 (92)将显示未发现引导设备错误消息 (93)iDRAC 中没有 POST 问题 (93)故障排除无 POST 情况 (94)目录5使用 Dell Migration Suite for SharePoint 迁移至 OneDrive for Business (95)Windows (95)安装和重新安装 Microsoft Windows Server 2016 (95)常见问题 (98)症状 (99)故障排除系统在 cng.sys 时崩溃并且显示错误“Watchdog Error violation” (99)在 Windows 中小型主机总线适配器缺失物理磁盘和底板 (100)将评估操作系统版本转换为零售操作系统版本 (100)选择的磁盘上的分区以安装 Hyper-V Server 2012 (100)安装 Microsoft Hyper-V Server 2012 R2 和内部双 SD 模块 (100)VMware (101)常见问题 (101)重新引导 ESXi 主机 (101)无法将存储空间分配到虚拟机 (101)配置备份和还原的步骤 (102)是否可以将 2012 r2 作为 VM 进行备份 (103)在 Windows 操作系统中安装、更新和管理融合 IO 驱动器 (103)症状 (103)Linux (103)常见问题 (103)症状 (103)通过多种方法安装操作系统 (104)章 7: 获取帮助 (105)联系 Dell EMC (105)下载驱动程序和固件 (105)找到您的系统服务标签 (106)6目录简介使用此指南,了解如何识别并诊断 Dell PowerEdge 服务器问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

服务器故障排除手册相比PC而言,服务器出故障的机率是小多了,但是它出故障造成的损失可也大多了。

作为服务器维修人员需要了解一些服务器故障恢复的基本知识,知道在维修时可以做些什么来最快速的解决问题也可以减少故障停机时间。

本文并不是一本服务器故障解决的完全手册,但如果能够认真的按照下面的步骤维修维护,它也许可以解决大多数问题,但当你做完所有的这一切仍不管用时,不用惭愧,去找维修专家吧,可以放心的是,这些维修步骤不会出现大的损害,最坏的情形是“It does not work at all”。

本文主要分三部分,第一部分讲的是服务器故障排除的基本原则性问题。

第二部分讲述了一些服务器硬件故障排除的实例。

第三部分讲述了一些服务器软件故障排除的实例。

第一部分服务器故障排除的基本原则性问题一、服务器开机无显示应怎么办1.检查供电环境,零-火;零-地电压?2.检查电源指示灯,如果亮,正常吗?3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?4. 是否更换过显示器,更换另一台显示器。

5. 去掉增加内存6. 去掉增加的CPU7.去掉增加的第三方I/O卡8. 检查内存和CPU 插的是否牢靠9. Clear CMOS10. 更换主要备件,如系统板,内存和CPU二、服务器故障排错的基本原则是什么1. 尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2. 从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。

b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。

c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。

3. 交换对比a:在最大可能相同的条件下,交换操作简单效果明显的部件;b: 交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境;三、服务器故障排除需要收集哪些信息?服务器信息:1.机器型号2.机器序列号(S/N: 如:NC00075534)3.Bios 版本4.是否增加其它设备,如网卡,SCSI 卡,内存,CPU5.硬盘如何配置,是否做阵列, 阵列级别6.安装什么操作系统及版本(Winnt 4, Netware, Sco, others)故障信息1.在POST时,屏幕显示的异常信息2.服务器本身指示灯的状态?3. 报警声和BEEP CODES4. NOS的事件记录文件?5. Events Log 文件确定故障类型和故障现象:1. 开机无显示;2.上电自检阶段故障;3. 安装阶段故障和现象;4. 操作系统加载失败;5. 系统运行阶段故障;第二部分服务器硬件故障处理几例硬件故障是指服务器硬件出现异常而导致的各类错误。

由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。

下面以一台万全4500为例说明。

(例子,在实际问题中如果遇到相似现象,也需要具体问题具体分析,不要盲目套用)有一台万全4500,配有256M内存,使用一个PIII XEON 500带2M高速缓存的处理器。

开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。

这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。

因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的情况也有5%左右。

我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。

所以在初步判断中,可以排除是CPU板块坏。

这时,取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。

相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。

于是立即在另一台万全4500中取下一个处理器电压模块,安装在此服务器中。

开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。

这时的情况就比较明显了。

于是立即从另一台万全4500中取下一个CPU安装后,开机正常。

总结:在服务器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断出问题的所在。

这样就要求相关人员要有信心及耐心。

出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。

总之,服务器出错后,必须一步一步解决,没有捷径可言。

又如:有一台万全4200开机不显示,发现开机时系统日志没有任何信息,且系统指示灯不亮。

初步判断是电源方面出现了错误。

经过仔细检查,发现服务器的电源是正常的,因此最大的可能就是服务器的电源管理板出现故障。

更换电源管理板后,开机显示正常。

但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。

硬盘在别的服务器上是正常的,因此立即清除此服务器的CMOS,但依然不正常。

立刻上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。

又检查硬盘笼子和服务器里的数据线及电源线后依然出错。

这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。

但就在这个时候,我发现在I/O板上有一个非联想的旧式网卡,立即去除此网卡后服务器就一切正常。

硬件故障并不单单指硬件有问题,它也指硬件之间不兼容。

因为服务器的正常运作需要各部件之间的大力协调。

建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障。

还有一种情况:用户需要把他的万全3200升级到双网卡,我建议他购买原装网卡,但当他看到万全4500的网卡是采用的INTEL 82559芯片后,断然决定不使用原装网卡而采用另一品牌也采用INTEL 82559的网卡。

过了几天,他打电话给我说,他的新网卡不能使用网络冗余及数据校验,并怀疑服务器有问题。

维修工程师带了一个INTEL 82559网卡到用户那里,仔细检查了服务器的环境完全正常后,把INTEL 82559网卡安装到机器上后一切正常。

这个例子更加说明了,要发挥服务器的最大性能及功能,必须使用原品牌原装的配件。

非原品牌非原装的配件,不能支持服务器的某些功能,严重的会影响到服务器的正常使用。

要避免硬件故障发生频率,服务器管理人员必须注意服务器的使用环境完全正常。

比较重要的服务器必须在恒温、恒湿的环境;电压也要符合,不仅要采用UPS,还必须接地线,必须是左零线、右火线,零地电压在1~3伏。

在开、关服务器上必须符合正常的流程。

工作人员必须严格执行操作流程。

一般情况来说,服务器维修人员对于硬件故障只要有丰富的经验都能很快找出故障所在,如果不能解决就必须迅速与服务器的售后服务中心8008108888联系。

第三部分服务器常见软故障解决思路与实例服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。

导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。

下面分别举例说明各类软件故障的维修方法。

有一台万全3500服务器,配置为双PIII 500带521K高速缓存的CPU、512M 内存。

开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“V oltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。

从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。

维护人员立刻使用其它万全3500的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。

就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。

FIRMWARE升级方法是,1)用软盘启动计算机,然后插入firmware软盘并运行上面的相关文件cabrillo;2)系统刷新BMC(主板控制器)和HSC(热插拔背板控制器);3)然后系统询问执行第几个选项(通常为2);4)然后系统询问服务器的电源配置(通常为2);5)如果回答有两个电源,系统询问服务器是否有辅助风扇——即在第三个电源(冗余电源)的位置上是否有风扇(通常为N);6)然后系统询问是否重写BMC kernel use area;(通常为N)然后系统询问是否输入一个asset tag;(通常为N)7)最后系统询问在刷新后是否要重新启动系统;(通常为Y)。

这种升级方法也适合刷新系统BIOS等,命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。

任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法将会导致严重的后果。

目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。

但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。

但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。

当服务器的软件故障为此类时,表现的现象也不尽相同。

一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。

查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。

由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。

以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。

如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。

但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。

服务器的维护人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。

相关文档
最新文档