IBM X86服务器故障诊断及排除分析
IBM X86服务器故障诊断及排除

IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
CNFG CPU
问题
发生硬件配臵错误。 当只有CPU 指示灯点亮时, 才表示微处理器发生故障。 当CPU 指示灯和CNFG 指示 灯都点亮时,表示微处理 器配臵无效。 发生硬盘驱动器错误。硬 盘驱动器发生故 障或缺失。
操作
1. 确定CNFG 指示灯是否也点亮。如果CNFG 指示灯不亮,表 示微处理器发生故障。 2. 如果CNFG 指示灯点亮,表示微处理器配臵无效。
NMI
发生不可屏蔽的中断,或 按下了NMI 按钮。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
OVER SPEC
问题
由于某个电源通道上出现 电源超负荷情况,所以关 闭了服务器。电源功率超 过最大额定值。
操作
1 .检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示 灯未同时点亮,或信息指示灯点亮)。更换发生故障的电源。 2 .从服务器卸下可选设备。
DASD
1. 检查硬盘驱动器上的指示灯以找出状态指示灯点亮的那个驱动 器,然后重新安装该硬盘驱动器。 2. 重新安装硬盘驱动器底板。 3. 如果该错误仍然存在,请按所示顺序更换以下组件: a. 更换硬盘驱动器。 b. 更换硬盘驱动器底板 1. 重新安装由主板上风扇接口附近点亮的指示灯所指示的故障风 扇。 2. 更换由主板上风扇接口附近点亮的指示灯所指示的故障风扇。 查看IMM 系统事件日志和系统错误日志,获取有关错误的信息。 更换错误日志中指出的所有组件。
PS
RAID SP TEMP
RAID卡发生故障 服务处理器(IMM)发生故 障。 系统温度已超出阈值级别。 发生故障的风扇会导致 TEMP 指示灯点亮。
十大x86服务器常见故障——系统篇

十大x86服务器常见故障——系统篇TOP 10 系统故障回放:系统死机、莫名其妙的重启、蓝屏、中毒、反应迟钝等等迹象解决方案:服务器同普通PC一样,同样会中毒、同样会因为垃圾信息过多而反应缓慢、同样会因为某些系统漏洞导致死机、蓝屏。
多数情况下我们只需要重装一下系统就可以了,但是在日常的运维过程中,我们要时刻进行数据的备份工作,在系统安装之前也需要通过WinPE的第三方软件,将系统盘的关键数据予以导出,这个操作和普通PC类似,也较为简单,这里就不在赘述。
TOP 9 低级攻击行为故障回放:某企业网安人员近期经常截获一些非法数据包,这些数据包多是一些端口扫描、SA TAN扫描或者是IP半途扫描。
它们的行为动作基本一致:扫描间隔很长,但时间很短,每天扫描1~5次,或者是扫描一次后就不在有任何的动作,因此网安人员获取的数据并没有太多的参考价值,攻击行为,并不十分明确。
解决方案:在众多的扫描事件中,如果扫描一次后就销声匿迹了,就目前的网络设备和安全防范角度来说,该扫描者并没有获得其所需要的资料,很有可能是一些黑客入门级人物在做简单练习;而如果每天都有扫描则说明自己的网络已经被盯上,我们要做的就是尽可能的加固网络,同时反向追踪扫描地址,如果可能给扫描者一个警示信息也未尝不可。
几乎90%的攻击行为不会造成实质性的威胁,它的级别也是很低的。
TOP 8 系统端口故障回放:某公司扩大经营,在全国大中型城市都建立办事处和分支机构,这些机构与总公司的信息数据协同办公,由于VPN的使用成本和技术难度相对较高,于是终端服务成为该公司与分支机构的信息桥梁。
但是由于技术人员的疏忽,终端服务只是采取默认的3389端口,于是一段时间内,基于3389的访问大幅增加,这其中不乏恶意端口渗透者。
终于有一天终端服务器失守,Administrator密码被非法篡改,内部数据严重流失。
解决方案:对于服务器我们只需要保证其最基本的功能,它们并不需要太多的端口做支持,因此一些不必要的、又充满风险的端口大可以封掉,对于Windows操作系统我们可以借助于组策略,Linux可以在防火墙上多下点功夫;而一些可以改变的端口,比如终端服务的3389、Web的80端口,通过注册表或者其他相关工具都能够将其设置成更为个性,不易猜解的秘密端口。
服务器故障排除

服务器故障排除服务器是计算机网络中的重要组成部分,它承担着存储数据、处理请求和提供服务的重要角色。
然而,由于各种原因,服务器可能会发生故障,导致网络中断和服务不可用。
本文将介绍服务器故障排除的一般步骤和常见问题的解决办法。
一、故障排除步骤1. 确认故障现象:在服务器出现故障时,首先要确认问题的具体表现,如网络连接是否断开、网站是否无法访问等。
通过准确描述故障现象,有助于进一步的排查工作。
2. 检查硬件设备:将注意力集中在服务器的硬件方面,例如电源是否正常工作、硬盘是否运转、内存是否正常等。
如果硬件故障,需要修复或更换相应的设备。
3. 检查网络连接:服务器的正常运行需要与网络连接保持良好。
通过检查网络线缆是否插好、路由器设置是否正确等,可以确保服务器与网络的正常连接。
4. 检查操作系统:服务器所运行的操作系统是故障排除的重要因素之一。
确保操作系统的版本是最新的,并检查是否有任何错误或异常日志。
修复操作系统的问题可能需要重新安装或更新驱动程序等。
5. 检查应用程序:如果服务器用于托管网站或其他应用程序,那么对应用程序的检查不可或缺。
确保应用程序的版本是最新的,并检查是否有任何错误或异常日志。
修复应用程序的问题可能需要重新安装或更新相关组件。
6. 进行系统维护:定期进行服务器的系统维护是预防故障的重要措施。
包括清理磁盘空间、优化数据库、更新系统补丁等。
通过维护系统,可以减少服务器故障的概率。
二、常见问题与解决办法1. 服务器无法启动:这可能是由于硬件故障、电源问题或操作系统损坏引起的。
解决方法包括检查硬件设备、更换电源、重新安装操作系统等。
2. 网络连接中断:网络连接中断可能是由于网线连接不稳定、路由器配置错误或网络供应商问题等原因造成的。
解决方法包括检查网线连接、重新配置路由器、联系网络供应商等。
3. 数据丢失:数据丢失可能是由于硬盘故障、电源故障或错误操作造成的。
解决方法包括修复硬盘、恢复备份数据、重做错误操作等。
IBM服务器故障诊断及排除

IBM服务器故障诊断及排除⒈引言在日常运维管理中,IBM服务器可能会遇到各种故障,影响业务的正常进行。
本文档旨在提供一套完整的指南,以帮助管理员诊断和排除IBM服务器故障。
本文档将详细介绍故障诊断的步骤以及相关的解决方案。
⒉故障诊断流程⑴收集故障信息●收集服务器硬件信息,包括型号、序列号等。
●收集故障发生时的日志信息,如错误代码、系统日志等。
●收集故障发生的具体环境信息,如温度、湿度等。
⑵分析故障现象●根据故障现象描述,确定故障是否与硬件、软件、网络或其他因素有关。
●分析故障现象的时间、地点、频率等因素,以确定是否存在特定模式。
●使用故障现象和已知信息进行故障推断,缩小故障可能的范围。
⑶验证故障原因●使用合适的测试工具和方法,验证故障的真实原因。
●对可能的故障原因进行排除实验,以确定是否能复现故障。
⑷确定解决方案●基于故障的类型和原因,制定详细的解决方案。
●考虑解决方案的可行性和影响,选择最佳的解决方案。
⑸实施解决方案●根据确定的解决方案,执行相应的操作,修复故障。
●监测修复效果,确保故障得到彻底解决。
⒊常见故障类型及解决方案⑴电源故障●故障现象:服务器无法开机或突然关机。
●可能原因:电源供应问题、电源线路故障等。
●解决方案:检查电源线路和连接器是否正常,更换故障电源。
⑵硬盘故障●故障现象:无法识别硬盘、读写错误等。
●可能原因:硬盘损坏、连接问题等。
●解决方案:检查硬盘连接状态,更换损坏的硬盘。
⑶内存故障●故障现象:系统崩溃、应用程序错误等。
●可能原因:内存故障、内存插槽问题等。
●解决方案:进行内存测试,更换故障内存。
⒋附件本文档涉及以下附件:●附件1:IBM服务器型号和序列号清单●附件2:故障现象记录表●附件3:解决方案实施记录表⒌法律名词及注释●故障:指服务器在运行过程中出现的异常现象,影响服务器的正常工作。
●排除:指针对故障进行诊断和解决的过程,以使服务器恢复正常工作。
服务器异常处理与故障排查的常见方法

服务器异常处理与故障排查的常见方法在服务器运行过程中,由于各种原因可能会出现异常情况,这时候需要及时处理并排查故障,以保证服务器的正常运行。
下面将介绍一些服务器异常处理与故障排查的常见方法。
一、异常处理1. 查看日志文件:服务器通常会生成各种日志文件,包括系统日志、应用程序日志等。
当服务器出现异常时,首先要查看相关日志文件,以了解异常的具体情况,从而有针对性地进行处理。
2. 重启服务:有时候服务器出现异常可能是由于某个服务出现问题,这时可以尝试重启相关服务,看是否能够解决问题。
3. 检查网络连接:服务器异常有可能是由于网络连接问题导致的,可以通过检查网络连接状态来确定是否是网络问题引起的异常。
4. 查看系统资源占用情况:服务器资源占用过高也会导致服务器异常,可以通过查看系统资源占用情况,如CPU、内存、磁盘等,来判断是否需要进行资源优化。
5. 执行系统更新:有时服务器异常可能是由于系统漏洞引起的,可以尝试执行系统更新来修复可能存在的漏洞。
二、故障排查1. 确定故障范围:首先要确定故障的范围,是整个服务器出现问题还是某个服务或应用程序出现问题。
2. 检查硬件设备:服务器硬件设备可能出现故障,如硬盘故障、内存故障等,可以通过检查硬件设备来确定是否是硬件问题引起的故障。
3. 检查网络配置:网络配置错误也会导致服务器故障,可以通过检查网络配置来确定是否是网络问题引起的故障。
4. 分析日志信息:通过分析日志信息可以了解故障发生的原因,从而有针对性地进行处理。
5. 使用故障诊断工具:有一些专门的故障诊断工具可以帮助排查服务器故障,可以尝试使用这些工具来定位故障原因。
6. 备份数据:在排查故障的过程中,要注意及时备份重要数据,以防数据丢失。
通过以上方法,可以有效处理服务器异常并排查故障,保证服务器的正常运行。
在实际操作中,还需要根据具体情况灵活运用这些方法,及时解决服务器出现的问题,确保服务器的稳定运行。
IBM PC服务器故障诊流程

IBM PC服务器故障诊断流程一、状态确定:状态确定是指发生故障的设备是当前是什么状态,是业务正常在跑,前面板有指示灯告警,比如一些冗余部件的故障(硬盘、电源、风扇等等);还是出于宕机状态,不能正常进入到操作系统里面,这里又得分为两种情况讨论,一是设备开机没有自检,直接黑屏;二是开机有自检,自检阶段有POST蜂鸣声或者报错码,面对这种情况可结合前面板LED,光通诊断板,主板LED,POST阶段的一些现象具体问题具体分析。
故障定位侧重于判断坏在哪里;二、故障定位:故障定位的时候,我们用到的手段非常多,下面,利用POST的过程;1、POST阶段复习:广义的POST过程是指从按下电源开关到开始引导系统,共分为三个过程:电源供电阶段→核心部件初始化阶段→狭义POST阶段2、电源供电阶段:从按下电源开关的瞬间开始,设备就开始工作了;电源是动力的源泉,供电系统的良好是设备正常运转的基础;如果问题出现在电源这边,那么之后的一切都进行不下去了;电源问题:供电系统的良好是设备正常运转的基础;只有供电系统OK了,设备才可以开始自检;故障表象:机器开机无电,电源灯不亮,电源风扇不转,按电源按钮开机无反应。
诊断方法及过程:供电系统是一条完整的链路,不是单指电源模块;市电及插座→电源线→电源模块→电源分配板→主板;首先,要确认市电供电是否正常;包括使用的插座或者PDU(power distribution unit)模块;其次,查看电源线是否接好,电源线本身是否OK;诊断方法:替换法+最小化法+指示灯法+排除法;替换法:拿确认完好的备件去替换故障设备上的相应备件;最小化法:将链路裁减至最小(要保障设备能正常运行),再进行故障排除;IBM的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置,以IBM X346(8840)为例,下面为IBM X346(8840)能够启动的最低配置:指示灯法:一般在电源模块上都有相应的指示灯,来表征电源模块的状态;比如AC(交流电)和DC(直流电)。
服务器故障及解决方案

服务器故障及解决方案服务器故障是网络运营中常见的问题,它可能会导致网站或应用程序的不可用性,影响整个系统的稳定性和可靠性,因此服务器故障处理至关重要。
服务器故障通常分为硬件故障和软件故障两类,下面我们详细介绍一些常见的服务器故障和解决方案。
一、硬件故障1. 电源故障电源故障是服务器硬件故障中最常见的一种,常见的问题包括电源线损坏、电源开关损坏、电源自身损坏等。
如果服务器不能开机或停电,首先需要检查电源是否正常。
如果是电源线的问题,可以更换电源线;如果是电源开关的问题,可以更换电源开关;如果是电源自身问题,则需要更换故障电源。
2. 硬盘故障硬盘故障是服务器故障中较为严重的一种,因为它很容易导致数据丢失。
如果硬盘发出不正常的声响或突然停止工作,需要立即重启服务器并进行诊断。
如果硬盘在监视程序中显示错误,可以使用特殊程序来修复或重建硬盘分区表。
如果硬盘已经停止工作,需要更换故障的硬盘,并在操作系统控制台中重新安装并配置重要的数据。
3. CPU故障CPU 故障的表现有很多种,例如服务器不能启动、系统运行缓慢、计算异常等。
如果 CPU 温度过高或风扇故障可能会导致 CPU 故障,可以检查风扇是否工作正常,如果不正常则可以更换风扇。
如果 CPU 故障严重,需要更换故障的 CPU。
二、软件故障1. 操作系统崩溃操作系统崩溃可能会导致服务器崩溃。
可以尝试使用操作系统修复工具手动修复文件系统损坏。
如果损坏过于严重,可能需要重新安装操作系统。
2. 数据库故障数据库故障可能会导致数据丢失和数据不一致。
可以使用数据库管理软件重启数据库,如果重新启动后仍然出现问题,可以使用备份和还原数据库的方法来修复故障。
3. 网络故障网络故障可能导致浏览器无法访问网站,可以首先检查网络连接是否正常,检查域名服务器是否正确配置。
如果问题仍然存在,则可能需要重启服务器或路由器。
结论服务器故障是企业运营中普遍的问题,它可能会导致严重的业务中断和数据丢失,因此及时处理服务器故障至关重要。
服务器常见故障及解决方法简析

服务器常见故障及解决方法简析一、造成服务器无法启动的主要原因:市电或电源线故障(断电或接触不良)电源或电源模组故障内存故障(一般伴有报警声)CPU故障(一般也会有报警声)主板故障其它插卡造成中断冲突二、服务器无法启动?检查电源线和各种I/O接线是否连接正常。
检查连接电源线后主板是否加电。
将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。
检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。
如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板)三、系统频繁重启?造成系统频繁重启的原因:计算机病毒\木马和其他恶意程序入侵,或者黑客攻击,建议先杀病毒和清除恶意程序;服务器所随的工作负荷超出服务器的性能配置,检查近期是否安装了新的大型软件,或者用户数和工作量增加了;服务器硬件,如CPU\内存等的稳定性能不佳,试着连接少数用户,甚至不连接用户,看服务器是否会重启,如果仍这样,则可能硬件有问题,一一排除;服务器系统、应用软件程序和硬件驱动出了问题,试着删除最近安装的应用程序和硬件,看是否会恢复正常。
四、服务器死机故障判断处理:服务器死机故障比较难以判断,一般分为软件和硬件两个方面:软件故障首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。
电脑病毒的原因。
系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。
软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决硬件故障硬件冲突电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。
硬盘故障(通过扫描硬盘表面来检查是否有坏道)内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断)主板故障(使用替换法来判断)CPU故障(使用替换法)板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务器故障诊断流程
开始诊断
总体诊断流程
Y 是否进行总 体的诊断
加电问题诊断
Y
服务器是否 正常加电
自检问题诊断
Y
服务器是否 能够完成自 检
操作系统启动 诊断
Y
操作系统是 否能够正常 启动
服务器是否 有Insight Management Agent报错或 者LED诊断灯 报错
DASD
1. 检查硬盘驱动器上的指示灯以找出状态指示灯点亮的那个驱动 器,然后重新安装该硬盘驱动器。 2. 重新安装硬盘驱动器底板。 3. 如果该错误仍然存在,请按所示顺序更换以下组件: a. 更换硬盘驱动器。 b. 更换硬盘驱动器底板 1. 重新安装由主板上风扇接口附近点亮的指示灯所指示的故障风 扇。 2. 更换由主板上风扇接口附近点亮的指示灯所指示的故障风扇。 查看IMM 系统事件日志和系统错误日志,获取有关错误的信息。 更换错误日志中指出的所有组件。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
CNFG CPU
问题
发生硬件配置错误。 当只有CPU 指示灯点亮时, 才表示微处理器发生故障。 当CPU 指示灯和CNFG 指示 灯都点亮时,表示微处理 器配置无效。 发生硬盘驱动器错误。硬 盘驱动器发生故 障或缺失。
操作
1. 确定CNFG 指示灯是否也点亮。如果CNFG 指示灯不亮,表 示微处理器发生故障。 2. 如果CNFG 指示灯点亮,表示微处理器配置无效。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
无, 但无系统 错误指示灯点 亮。 BRD
问题
已发生错误但无法诊断, 或IMM 发生故障。光通路 诊断指示灯不表示该错误。 主板上发生错误。
操作
使用Setup Utility 来查看系统事件日志,获取有关错误的信息。
1.检查主板上的指示灯,确定引起错误的组件。在下列情况下, BRD 指示灯可能会点亮: ●电池 ●缺少PCI 转接卡组合件 ● 稳压器发生故障 2. 查看系统事件日志,获取有关错误的信息。 3. 更换所有发生故障的可更换组件或安装缺少的可更换组件,如 电池或PCI 转接卡组合件。 4. 如果稳压器发生故障,请更换主板。
FAN
风扇发生故障,或者是运 行过慢,或者是已卸下风 扇。TEMP 指示灯可能也会 点亮。 已将错误消息写入系统事 件日志
LOG
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
MEM
问题
当只有MEM 指示灯点亮时, 才表示发生了内存错误。 当MEM 指示灯和CNFG 指 示灯都点亮时,表示内存 配置无效。
服务器诊断流
Y
N
总体诊断流程
IBM 服务器故障诊断流程
IBM服务器前视图
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
●电源控制按钮和供电指示灯按下此按钮可手动开启和关闭服务器,或唤醒处于省电 状态下的服务器。供电指示灯的状态如下所示: – 熄灭:未接通交流电,或者电源或指示灯本身出现故障。 – 快速闪烁(每秒四次):服务器已关闭,但未准备就绪,无法开启。电源控制按 钮已禁用。服务器接通交流电源后大约三分钟,电源控制按钮便会激活。 – 缓慢闪烁(每秒一次):服务器已关闭,并且已准备就绪,可以开启。您可以按 电源控制按钮以开启服务器。 – 点亮:服务器开启。 – 逐渐变暗直至熄灭:服务器处于省电状态。要唤醒服务器,请按电源控制按钮或 使用IMM Web 界面。 注:如果该指示灯熄灭,并不表示服务器中不存在电流。该指示灯可能已烧毁。要 切断服务器中的所有电流,必须从电源插座断开电源线。 ●以太以太网图标指示灯:该指示灯点亮以太网图标。 ●以太网活动指示灯: 如果这些指示灯中任意一个点亮,表示服务器正在向连接到对应 于该指示灯的以太网端口的以太网LAN 发送信号,或正在接收来自该以太网LAN 的信号。
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
● 信息指示灯:当该指示灯点亮时,表示发生了一般性事件。光通路诊断面板上的某 个指示灯也会点亮,以帮助找出错误。 ●系统错误指示灯:当该指示灯点亮时,表示发生了系统错误。光通路诊断面板上的 某个指示灯也会点亮,以帮助找出错误。 ●释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板 的后面。 ●定位器按钮和定位器指示灯:使用该指示灯可用肉眼在其他服务器中找到该服务 器。它还可用于证明受信平台模块(Trusted Platform Module,TPM)的物理存在。 按下此按钮可从本地开启或关闭该指示灯。可以使用IBM Systems Director 来远程 点亮该指示灯。
NMI
发生不可屏蔽的中断,或 按下了NMI 按钮。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
OVER SPEC
ห้องสมุดไป่ตู้
问题
由于某个电源通道上出现 电源超负荷情况,所以关 闭了服务器。电源功率超 过最大额定值。
操作
1. 确定CNFG 指示灯是否也点亮。如果是,请运行内存测试试验 程序以确定问题。 a. 如果测试报告有内存错误发生,请更换由主板上点亮的指 示灯所指示的故障DIMM。 b. 如果测试报告内存配置无效,请将DIMM 重新插入具有受 支持配置的插槽中。 2. 如果CNFG 指示灯不亮,那么应该出现了以下某种情况: v 服务器未引导且DIMM 故障指示灯点亮。 a. 查看系统事件日志(SEL)中是否存在PFA 日志事件。 b. 重新安装DIMM。 c. 如果问题仍然存在,请将DIMM 移到其他插槽中。 1) 如果主板上与这个新DIMM 插槽对应的DIMM 指示 灯点亮,请更换DIMM。 2) 如果主板上与原DIMM 插槽对应的DIMM 指示灯点 亮,请更换主板(仅限经过培训的技术服务人员)。 v 服务器已引导,发生故障的DIMM 被禁用且其对应的指示灯 点亮。 a. 如果两个DIMM 对应的指示灯都点亮,请查看系统事件 日志以找出有关其中一个DIMM 的PFA,然后更换该 DIMM。否则,请同时更换这两个DIMM。 b. 如果只有一个DIMM 对应的指示灯点亮,请更换该 DIMM。 c. 在服务器固件设置中重新启用DIMM 插槽。 查看系统事件日志,获取有关错误的信息。