服务器维修故障诊断思路大全
了解常见的服务器故障及解决方法

了解常见的服务器故障及解决方法服务器是现代网络世界中不可或缺的重要设备,它承担着存储数据、提供服务、传输信息等重要功能。
然而,由于各种原因,服务器在运行过程中可能会出现各种故障,给网络运行和数据安全带来风险。
因此,了解常见的服务器故障及解决方法对于保障网络稳定运行至关重要。
一、硬件故障硬件故障是服务器故障中比较常见的一种情况。
硬件故障可能包括主板故障、硬盘故障、电源故障等。
当服务器出现硬件故障时,首先需要进行硬件检测,确定具体故障原因,然后采取相应的解决方法。
1. 主板故障主板是服务器的核心组件之一,一旦主板出现故障,服务器将无法正常运行。
主板故障可能导致服务器无法启动、无法识别硬件等问题。
解决主板故障的方法一般是更换主板,确保新主板与服务器兼容,并进行相应的配置。
2. 硬盘故障硬盘是服务器存储数据的关键部件,硬盘故障可能导致数据丢失、系统崩溃等严重后果。
在硬盘故障时,可以尝试使用数据恢复工具进行数据恢复,如果无法修复,需要更换新的硬盘,并进行数据备份和恢复操作。
3. 电源故障电源故障可能导致服务器无法正常供电,造成服务器无法启动或突然关机等问题。
解决电源故障的方法是更换故障电源,确保新电源符合服务器的电源需求,保证服务器正常供电。
二、软件故障除了硬件故障外,服务器还可能出现各种软件故障,如操作系统崩溃、应用程序错误等。
软件故障可能导致服务器无法正常运行、服务中断等问题。
以下是一些常见的软件故障及解决方法:1. 操作系统崩溃操作系统是服务器的核心软件,一旦操作系统崩溃,服务器将无法正常运行。
在操作系统崩溃时,可以尝试使用系统恢复工具进行修复,如果无法修复,需要重新安装操作系统,并进行数据备份和恢复操作。
2. 应用程序错误应用程序错误可能导致服务器上的某些服务无法正常运行,影响用户体验。
在应用程序错误时,可以尝试重新启动应用程序或重启服务器,如果问题仍然存在,需要检查应用程序配置和日志,找出问题原因并进行修复。
服务器常见的十四个故障-分析解决方案

服务器常见的十四个故障分析解决方案一、造成服务器无法启动的主要原因 :市电或电源线故障(断电或接触不良)电源或电源模组故障内存故障(一般伴有报警声)CPU故障(一般也会有报警声)主板故障其它插卡造成中断冲突二、服务器无法启动 ?检查电源线和各种I/O接线是否连接正常。
检查连接电源线后主板是否加电。
将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。
检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。
如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板)三、系统频繁重启 ?造成系统频繁重启的原因:电源故障(替换法判断解决)内存故障(可从BIOS错误报告中查出)网络端口数据流量过大(工作压力过大)软件故障(更新或重装操作系统解决)四、服务器死机故障判断处理:服务器死机故障比较难以判断,一般分为软件和硬件两个方面:软件故障硬件故障软件故障首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。
电脑病毒的原因。
系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。
软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决硬件故障硬件冲突电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。
硬盘故障(通过扫描硬盘表面来检查是否有坏道)内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断)主板故障(使用替换法来判断)CPU故障(使用替换法)板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。
五、安装操作系统时提示找不到硬盘?故障原因:无物理硬盘设备硬盘线缆连接问题没有安装硬盘控制器驱动或驱动不相符六、如何获得驱动程序?使用随机光盘制作相应驱动七、为什么用正确的驱动仍然无法加载硬盘控制器驱动?查看是否启用了hostraid功能。
五大常见服务器故障及解决方法

五大常见服务器故障及解决方法在日常工作中,服务器故障是一种常见的问题,可能会给工作和生活带来不便。
为了更好地应对这些问题,我们需要了解一些常见的服务器故障及其解决方法。
本文将介绍五大常见服务器故障及解决方法,希望能帮助大家更好地处理服务器故障。
一、硬件故障硬件故障是服务器故障中比较常见的问题之一。
硬件故障可能包括硬盘故障、内存故障、电源故障等。
当服务器出现硬件故障时,首先需要检查硬件设备是否正常连接,是否有明显的物理损坏。
如果确定是硬件故障,可以尝试更换硬件设备或者联系厂家进行维修。
二、网络故障网络故障也是常见的服务器故障之一。
网络故障可能导致服务器无法正常连接到网络,影响服务器的正常运行。
在遇到网络故障时,可以先检查网络连接是否正常,是否有网络设备故障。
可以尝试重新启动网络设备或者联系网络运营商进行排查和处理。
三、软件故障软件故障也是服务器故障中比较常见的问题之一。
软件故障可能包括操作系统崩溃、应用程序崩溃等。
在遇到软件故障时,可以尝试重新启动服务器,检查是否有软件更新或者修复程序可用。
如果问题仍然存在,可以尝试重新安装软件或者联系软件厂商进行解决。
四、安全漏洞安全漏洞是服务器故障中比较严重的问题之一。
安全漏洞可能导致服务器被黑客攻击,造成数据泄露、服务中断等严重后果。
在遇到安全漏洞时,可以尝试及时更新服务器的安全补丁,加强服务器的安全设置,定期进行安全检查和漏洞扫描,确保服务器的安全性。
五、性能瓶颈性能瓶颈是服务器故障中比较常见的问题之一。
性能瓶颈可能导致服务器运行缓慢,影响用户体验。
在遇到性能瓶颈时,可以尝试优化服务器配置,增加硬件设备,优化软件程序,提升服务器性能。
可以通过监控工具对服务器性能进行实时监控,及时发现并解决性能瓶颈问题。
综上所述,服务器故障是工作中常见的问题,但只要我们了解常见的服务器故障及解决方法,就能更好地处理这些问题,确保服务器的正常运行。
希望本文介绍的五大常见服务器故障及解决方法能对大家有所帮助,让工作和生活更加顺畅。
服务器运维中常见的问题及解决方法

服务器运维中常见的问题及解决方法在进行服务器运维工作时,经常会遇到各种各样的问题,这些问题可能会影响服务器的正常运行,甚至导致系统崩溃。
为了保障服务器的稳定运行,及时解决这些问题至关重要。
本文将介绍一些服务器运维中常见的问题及相应的解决方法,希望能对大家有所帮助。
一、服务器性能问题1. 问题描述:服务器性能下降,响应速度变慢,甚至出现卡顿现象。
解决方法:首先可以通过查看服务器的负载情况来判断是否是服务器性能问题。
可以使用命令“top”或者“htop”来查看系统的负载情况,如果负载过高,可以通过优化程序代码、增加服务器硬件配置、调整服务器参数等方式来提升服务器性能。
2. 问题描述:服务器内存占用过高,导致系统运行缓慢。
解决方法:可以通过查看系统内存占用情况,使用命令“free -h”来查看系统内存使用情况。
如果内存占用过高,可以考虑优化程序代码,释放不必要的内存占用,增加服务器内存容量等方式来解决问题。
3. 问题描述:服务器磁盘空间不足,无法存储更多数据。
解决方法:可以通过查看磁盘空间使用情况,使用命令“df -h”来查看磁盘空间使用情况。
如果磁盘空间不足,可以清理无用文件、压缩日志文件、增加磁盘容量等方式来释放磁盘空间。
二、网络问题1. 问题描述:服务器无法访问外网,网络连接异常。
解决方法:可以通过检查服务器网络配置、查看网络连接状态、重启网络服务等方式来解决网络连接问题。
同时,还可以检查防火墙设置、路由器配置等是否影响了网络连接。
2. 问题描述:服务器遭受DDoS攻击,网络带宽被占用。
解决方法:可以通过配置防火墙规则、使用DDoS防护服务、限制IP访问频率等方式来应对DDoS攻击,保障服务器的正常运行。
三、安全问题1. 问题描述:服务器存在安全漏洞,可能被黑客攻击。
解决方法:可以通过定期更新系统补丁、加强服务器防护、配置安全策略、使用安全加固工具等方式来提升服务器的安全性,防止黑客攻击。
2. 问题描述:服务器日志异常,可能存在异常登录行为。
服务器故障排查

服务器故障排查在日常运维工作中,服务器故障排查是一项至关重要的任务。
当服务器出现故障时,我们需要迅速定位并解决问题,以尽快恢复正常的运行状态。
本文将介绍一些常见的服务器故障排查方法,以帮助您更好地应对各种故障情况。
一、检查硬件问题服务器故障往往与硬件问题有关。
首先,我们可以检查服务器是否存在以下问题:1. 电源问题:确认服务器的电源是否正常连接,电源线是否插牢固,电源是否正常供电。
2. 硬盘问题:检查硬盘是否正常工作,是否被正确连接。
可以尝试重新插拔硬盘,或更换一个已知正常的硬盘进行测试。
3. 内存问题:确保内存条插槽没有松动,内存条是否安装正确。
如果有多个内存条,可以逐个尝试单独使用,以确定是否存在内存故障。
4. 网卡问题:检查服务器的网卡是否连接正常,网线是否插牢固。
可以尝试更换网线或网卡来解决问题。
二、查看系统日志系统日志是服务器记录各种事件和错误的重要来源。
通过查看系统日志,我们可以获得关于服务器故障的一些线索。
以下是查看系统日志的常见方法:1. Linux系统:使用命令"cat /var/log/messages"来查看系统日志。
可以通过关键词搜索来过滤出与故障有关的日志内容。
2. Windows系统:打开“事件查看器”,选择“Windows日志”下的“系统”,查找相关的错误日志。
通过分析系统日志,我们可以了解服务器故障的原因,进一步采取相应的措施来解决问题。
三、网络问题排查有时,服务器故障可能是由网络问题引起的。
在进行网络问题排查时,可以执行以下步骤:1. 检查网络连接:确保服务器与网络中断的设备正常连接。
可以使用ping命令来测试与其他设备的连通性。
2. 检查网络配置:确认服务器的IP地址、子网掩码、网关等网络配置是否正确。
可以通过查看网络配置文件或使用ifconfig命令来检查。
3. 清理ARP缓存:使用命令"arp -d"来清空ARP缓存,以解决由于ARP缓存问题引起的网络故障。
服务器网络故障排除的方法与技巧

服务器网络故障排除的方法与技巧今天,在数字化时代,服务器是企业和组织中不可或缺的一部分,它承担着存储和处理大量数据的重要任务。
然而,由于各种原因,服务器可能会遭遇网络故障,导致服务中断和生产力的损失。
为了保障服务器网络的稳定和可靠性,我们需要了解并掌握一些排除故障的方法与技巧。
本文将介绍一些常见服务器网络故障的排除方法,并提供一些实用的技巧,以帮助管理员解决问题。
一、基础故障排除对于服务器网络故障问题的排除,我们需要从基础开始,逐步追踪并定位问题所在。
1. 检查硬件设备服务器网络故障的常见原因之一是硬件设备出现故障。
在排除网络问题之前,我们应该先检查服务器硬件设备是否工作正常。
确保所有相关的硬件设备都连接正确,且没有断电或损坏的情况。
2. 检查网络连接网络连接是服务器运行的基础。
在排除网络故障时,我们需要确保网络连接正常。
检查网线是否连接正确,网络设备是否工作正常,例如路由器、交换机等。
此外,还可以使用网络诊断工具,例如ping命令,来测试服务器与其他设备之间的连接是否稳定。
3. 检查配置文件服务器的配置文件是其运行和通信的重要组成部分。
如果配置文件出现问题,可能导致网络故障。
在排查问题时,我们需要仔细检查服务器的配置文件是否正确设置,并对其进行必要的修改和更新。
二、网络故障排除技巧除了基础故障排除,还有一些技巧可以帮助我们更快地解决服务器网络故障。
1. 使用日志记录和监控工具服务器通常会生成各种日志记录,以帮助我们追踪和排查问题。
使用日志记录和监控工具,可以帮助我们更好地了解服务器运行状态,并发现潜在的网络故障。
例如,可以使用系统日志、应用程序日志、网络监控工具等来获取有关服务器网络故障的关键信息。
2. 分析网络流量和带宽使用网络流量和带宽使用是服务器运行的重要指标之一。
通过分析网络流量和带宽使用情况,我们可以确定网络瓶颈和异常情况。
针对网络故障,我们可以使用网络性能分析工具来监测和分析网络流量,找出故障的根源。
服务器故障排查与修复技巧

服务器故障排查与修复技巧随着信息技术的不断发展,服务器已经成为现代企业和个人网络生活中不可或缺的一部分。
然而,服务器故障时有发生,一旦服务器出现故障,可能会给工作和生活带来严重影响。
因此,掌握服务器故障排查与修复技巧显得尤为重要。
本文将介绍一些常见的服务器故障排查与修复技巧,帮助您更好地解决服务器故障问题。
一、硬件故障排查与修复1. 电源问题:首先检查服务器的电源线是否插紧,电源插座是否正常供电。
如果电源线和插座都没有问题,可以尝试更换电源线或者插到其他插座中。
如果服务器仍然无法开机,可能是电源模块故障,需要更换电源模块。
2. 内存故障:内存故障是服务器常见的硬件故障之一。
当服务器出现频繁死机或者蓝屏时,可以尝试重新插拔内存条,清洁内存槽,确保内存条插紧。
如果问题依然存在,可能是内存条本身故障,需要更换新的内存条。
3. 硬盘故障:硬盘是服务器存储数据的关键组件,一旦硬盘故障可能导致数据丢失。
当服务器出现读写速度慢或者无法识别硬盘时,可以尝试重新连接数据线,检查硬盘是否正常运转。
如果硬盘发出异常声音或者无法正常工作,可能是硬盘故障,需要更换新的硬盘。
4. CPU故障:CPU是服务器的核心部件,一旦CPU故障可能导致服务器无法正常启动。
当服务器出现频繁死机或者无法开机时,可以检查CPU散热器是否正常工作,清洁散热风扇,确保CPU温度正常。
如果问题依然存在,可能是CPU故障,需要更换新的CPU。
二、软件故障排查与修复1. 操作系统故障:操作系统是服务器的核心软件,一旦操作系统出现故障可能导致服务器无法正常工作。
当服务器出现蓝屏或者无法启动时,可以尝试进入安全模式,进行系统恢复或者重装系统。
如果问题依然存在,可能是系统文件损坏,需要修复系统文件或者重装系统。
2. 网络故障:网络是服务器与外部通信的重要通道,一旦网络故障可能导致服务器无法连接外部网络。
当服务器无法访问外部网络或者网络速度慢时,可以检查网线连接是否正常,重启路由器或者交换机。
服务器故障排除及解决方法

服务器故障排除及解决方法随着信息技术的不断发展,服务器在企业和个人生活中扮演着越来越重要的角色。
然而,服务器故障时有发生,一旦出现故障,可能会给工作和生活带来不便甚至损失。
因此,了解服务器故障的排除方法以及解决方案显得尤为重要。
本文将介绍一些常见的服务器故障排除及解决方法,帮助您更好地处理服务器故障。
一、服务器故障排除方法1. 检查电源和连接:首先,确保服务器的电源线连接正常,电源插座正常供电。
检查电源开关是否打开,以及电源指示灯是否亮起。
同时,检查网线连接是否松动或损坏,确保网络连接正常。
2. 检查硬件设备:服务器故障可能是由硬件设备故障引起的。
检查服务器内部的硬件设备,如内存条、硬盘、CPU等是否正常工作。
可以尝试重新插拔硬件设备,清洁内部灰尘,确保硬件设备连接良好。
3. 检查系统日志:系统日志是记录服务器运行状态和故障信息的重要依据。
通过查看系统日志,可以了解服务器故障的具体原因,有针对性地进行排除。
可以通过命令行或管理工具查看系统日志。
4. 检查系统更新:及时更新服务器系统和软件是预防故障的重要措施。
确保服务器系统和软件处于最新版本,修复可能存在的漏洞和bug,提高服务器的稳定性和安全性。
5. 进行故障诊断:当服务器出现故障时,可以通过故障诊断工具进行诊断。
故障诊断工具可以帮助定位故障原因,提供解决方案。
常用的故障诊断工具有Ping、Tracert、Telnet等。
二、服务器故障解决方法1. 重启服务器:在服务器出现故障时,可以尝试通过重启服务器来解决问题。
重启服务器可以清除缓存、释放内存,恢复服务器正常运行状态。
2. 恢复备份数据:在服务器故障导致数据丢失时,可以通过恢复备份数据来解决问题。
定期备份重要数据是防范数据丢失的有效手段,确保数据安全。
3. 更新驱动程序:服务器硬件设备的驱动程序可能存在兼容性问题,导致服务器故障。
及时更新硬件设备的驱动程序,修复可能存在的问题,提高服务器性能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前言:相对PC机而言服务器出故障的机率是小多了,但是它的故障给企业也带来了一些影响。
作为服务器工程师除要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才能最快速的解决问题也可以减少故障停机时间。
本文并不是针对某个厂家服务器故障完全手册,而是根据个人经验总结出来的一些经验思路还有一些总结案例。
按照下面思路和方法基本上能够解决目前服务器更换式维修的大多数问题。
而且里面的一些操作风险性也不是很大,因为服务器本身就是坏的,最坏的情况下就是它一点都不能工作了呗,(主要确认是否有数据,数据无价啊)而且现在很多厂商都有自己的客服电话关于产品问题打个电话也很方便,所以安心做啦当然如果服务器在保修期内就打电话让售后工程师上门服务,毕竟顾客就是上帝嘛,但是如果上帝比较着急使用,一般小故障自己解决一下就好了,因为一般报修最快都是第二天(大客户如银行等除外,一般当天还得是晚上才能停机解决)目录:一、服务器常见故障分类二、服务器常见故障现象及其对应排错方法三、服务器排错基本原则四、服务器故障需要收集哪些信息五、服务器硬件故障排错实例六、服务器软件故障排错实例七、服务器常见内存故障现象一、服务器常见故障类型分类:A. 开机无显示B. 加电BIOS自检阶段故障C. 系统和软件安装阶段故障和现象D. 操作系统启动失败E. 系统运行阶段故障二、服务器常见故障现象及其对应的排除方法A.服务器开机无显示(加电无显示和不加电无显示)1. 检查供电环境2. 检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。
)3. 按下电源开关时,键盘指示灯是否亮、风扇是否全部转动4. 是否更换过显示器,尝试更换另外一台显示器5. 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试6. 是否添加了CPU,如果有增加CPU尝试去掉7. 去掉增加的第三方I/O卡包括Raid卡等8. ClearCMOS (记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服)9. 尝试更换主板、内存等主要部件10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下B.加电BIOS自检报错1. 根据BIOS自检报错信息提示2. 查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重启3. 做最小化测试4. 尝试清除CMOS5. 看能否正常进入BIOSC. 系统安装阶段故障和现象1.查看服务器支持操作系统的兼容版本(从厂商能查到兼容性列表)2.系统安装蓝屏(对蓝屏故障代码诊断)3.安装在分区格式化的时候找不到硬盘(阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装)4.大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡)(使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可)5.安装过程是死机(检查兼容性列表---查看硬盘接口选择是否正确---阵列驱动安装是否正确---尝试最小化配置安装检查是否为内存和CPU等问题)6.引导光盘安装失败(使用引导光盘安装失败,查看引导光盘版本是否匹配,尝试手动安装系统,如有阵列重新配置阵列引导安装)D. 操作系统启动失败1.在系统启动自检过程中有报错(具体查看启动报错信息在定方案)2.启动系统蓝屏(查看蓝屏代码核对)3.进入登陆界面死机(查看进入单用户或者安全模式是否正常,进入BIOS是否正常、是否会死机,进入磁盘阵列查看阵列状态是否正常,检查测试硬盘是否有坏道,最小化配置启动)4.忘记密码(windows 使用PE 破解,linux 进入单用户破解)E. 系统运行阶段故障1.安装数据库等应用软件报错 (对系统版本和软件版本是否兼容,查看报错信息是否缺少插件)2.系统运行速度变慢 (查杀病毒,检测阵列状态,测试硬盘有无坏道,重新安装系统或者修复)3.运行蓝屏 (查看蓝屏代码目录)4.运行死机 (检查进入BIOS是否死机,进入系统后测试部件温度是否正常,windows系统查看dump文件)5.硬盘拷贝数据文件速度变慢(测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带大小,与软件应用要求测试对比)三.服务器故障排错的基本原则:1. 尽量恢复系统出厂配置a:硬件配置:去除第三方厂商备件和非标配备件b:资源配置:清除CMOS、恢复资源初始配置c: BIOS、F/W、驱动程序:升级最新的BIOS、F/W和相关驱动程序d: TPL:扩展的第三方的I/O卡是否属于该机型的硬件兼容列表(TPL)2. 从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。
b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。
c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。
3. 部件交换对比测试a:在最大可能相同的条件下,交换操作简单效果明显的部件b:交换NOS载体,既交换软件环境c:交换硬件,既交换硬件环境d:交换整机,既交换整体环境总结:在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。
一般来说不可能一次就可以准确地判断出问题的所在。
这样就要求工程师要有信心和耐心。
出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。
总之,服务器出错后必须一步一步解决,没有捷径可言。
四、服务器故障排除需要收集哪些信息1.服务器信息:①. 机器型号: 什么厂家的机器、什么型号如:DELL R720服务器②. 机器序列号或主机编号(如:主机编号为NC00755666)③. 是否增加其它设备,如网卡、Raid 卡、内存、CPU等④. 硬盘配置,如是否做磁盘阵列, 阵列级别⑤. 安装什么操作系统及版本(win2003、Redhat等)⑥. 在故障前有没有做过操作、或者运行了什么软件⑦. BIOS 版本2.故障信息:①. 在POST自检时,屏幕显示的异常信息②. 服务器本身指示灯的状态③. 报警声和BEEP CODES④. 系统的事件记录文件⑤. Sel 日志五、服务器硬件故障处理实际案例(因厂家机型不同,在实际问题中如果遇到相似现象,也需要具体问题具体分析,请不要盲目套用)硬件故障是指服务器硬件出现异常而导致的各类错误,由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。
实例一:有一台XXX型号服务器,配有256M内存,使用一个PIIIXEON 500带2M高速缓存的处理器。
开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。
这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。
因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压报错的情况也有5%左右。
我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。
所以在初步判断中,可以排除是CPU板块坏。
这时取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。
相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。
于是立即在另一台同型号服务器中取下一个处理器电压模块,安装在此服务器中。
开机后,服务器依然没有任何显示,系统日志上依然提示CPU 电压为0伏的信息,系统指示灯三灯依然不停在闪烁。
这时的情况就比较明显了。
于是立即从另一台同类型服务器中取下一个CPU安装后,开机正常。
实例二:有一台XXX型号服务器不显示,发现开机时系统日志没有任何信息,且系统指示灯不亮。
初步判断是电源方面出现了错误。
经过仔细检查,发现服务器的电源是正常的,因此最大的可能就是服务器的电源管理板出现故障。
更换电源管理板后,开机显示正常。
但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。
硬盘在别的服务器上是正常的,因此立即清除此服务器的CMOS,但依然不正常。
立刻上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。
又检查硬盘笼子和服务器里的数据线及电源线后依然出错。
这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。
但就在这个时候,工程师发现在I/O板上有一个非XXX型号服务器标配的旧式网卡,立即去除此网卡后服务器就一切正常。
硬件故障并不单单指硬件有问题,它也指硬件之间不兼容。
因为服务器的正常运作需要各部件之间的大力协调。
建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障。
实例三:用户需要把他的XXX型号服务器升级到双网卡,我建议他购买原装网卡,但当他看到XXX型号服务器的网卡是采用的INTEL 82559芯片后,断然决定不使用原装网卡而采用另一品牌也采用INTEL 82559的网卡。
过了几天,他打电话给我说,他的新网卡不能使用网络冗余及数据校验,并怀疑服务器有问题。
工程师带了一个INTEL 82559网卡到用户那里,仔细检查了服务器的环境完全正常后,把INTEL 82559网卡安装到机器上后一切正常。
这个例子更加说明了,要发挥服务器的最大性能及功能,必须使用原品牌原装的配件。
非原品牌非原装的配件,不能支持服务器的某些功能,严重的会影响到服务器的正常使用。
要避免硬件故障发生频率,服务器管理人员必须注意服务器的使用环境完全正常。
比较重要的服务器必须在恒温、恒湿的环境;电压也要符合,不仅要采用UPS,还必须接地线,必须是左零线、右火线,零地电压在1~3伏。
在开、关服务器上必须符合正常的流程。
工作人员必须严格执行操作流程。
实例四:服务器故障现象:一台XXX型号服务器,近期频繁出现几次蓝屏幕死机故障。
趁死机关闭的机会,将内存由原来的128M升级到512M(普通内存),并且在系统CMOS设置中选择装入(Load)最优参数设置,对内存每个单元进行检测。
怪异服务器故障出现了,当我开机后,内存检测正常,但是屏幕提示须重新SETUP,按指定的 [F2]键后却死机。
我装个内存条招谁惹谁了,怎么会死机?而且内存检测正常啊?服务器故障处理:服务器出了故障就要解决,哪怕是怪异服务器故障。
按照缩小故障源的思路,换回原来的内存条,逐步去掉各个部分(软驱、硬盘、光驱等),可是这个怪异服务器故障依然存在。