服务器常规维修与判断方法
服务器硬件故障处理及维护技巧

服务器硬件故障处理及维护技巧随着信息技术的飞速发展,服务器已经成为现代企业不可或缺的重要设备。
然而,由于服务器长时间运行、负载较大,硬件故障时有发生。
一旦服务器硬件出现故障,将会给企业带来严重的损失。
因此,掌握服务器硬件故障处理及维护技巧显得尤为重要。
本文将从硬件故障的识别、处理和维护等方面进行详细介绍,帮助管理员更好地应对服务器硬件故障。
一、硬件故障的识别1. 观察指示灯服务器通常会配备各种指示灯,通过观察指示灯的状态可以初步判断服务器是否存在硬件故障。
比如,硬盘灯闪烁可能表示硬盘故障,内存灯常亮可能表示内存故障等。
因此,管理员在处理服务器故障时,首先要观察各个硬件设备的指示灯状态。
2. 检查日志信息服务器会记录各种运行状态和错误信息,管理员可以通过查看服务器的日志信息来了解服务器的运行情况。
当服务器出现硬件故障时,通常会在日志中有相应的记录,管理员可以通过分析日志信息来定位故障原因。
3. 使用诊断工具现代服务器通常配备了各种诊断工具,可以帮助管理员对服务器硬件进行全面的诊断。
管理员可以通过运行诊断工具来检测服务器的硬件状态,快速定位故障点,提高故障处理的效率。
二、硬件故障的处理1. 确定故障范围当服务器出现硬件故障时,管理员首先要确定故障的范围,是单个硬件设备的故障还是多个硬件设备同时故障。
只有准确确定了故障范围,管理员才能有针对性地进行处理。
2. 替换故障硬件一旦确定了故障的硬件设备,管理员需要及时将故障硬件替换掉。
在更换硬件设备时,管理员要注意选择与原设备相匹配的硬件,并按照操作手册的指导进行更换,确保操作正确无误。
3. 数据备份与恢复在处理硬件故障时,有可能会导致数据丢失的风险。
因此,在更换硬件之前,管理员应该提前对重要数据进行备份,以防止数据丢失。
一旦硬件更换完成,管理员还需要及时将备份数据恢复到新硬件上,确保数据的完整性和安全性。
三、硬件维护技巧1. 定期清洁服务器服务器长时间运行后,会积累大量灰尘和杂物,影响散热效果,导致硬件故障的风险增加。
了解常见的服务器故障及解决方法

了解常见的服务器故障及解决方法服务器是现代网络世界中不可或缺的重要设备,它承担着存储数据、提供服务、传输信息等重要功能。
然而,由于各种原因,服务器在运行过程中可能会出现各种故障,给网络运行和数据安全带来风险。
因此,了解常见的服务器故障及解决方法对于保障网络稳定运行至关重要。
一、硬件故障硬件故障是服务器故障中比较常见的一种情况。
硬件故障可能包括主板故障、硬盘故障、电源故障等。
当服务器出现硬件故障时,首先需要进行硬件检测,确定具体故障原因,然后采取相应的解决方法。
1. 主板故障主板是服务器的核心组件之一,一旦主板出现故障,服务器将无法正常运行。
主板故障可能导致服务器无法启动、无法识别硬件等问题。
解决主板故障的方法一般是更换主板,确保新主板与服务器兼容,并进行相应的配置。
2. 硬盘故障硬盘是服务器存储数据的关键部件,硬盘故障可能导致数据丢失、系统崩溃等严重后果。
在硬盘故障时,可以尝试使用数据恢复工具进行数据恢复,如果无法修复,需要更换新的硬盘,并进行数据备份和恢复操作。
3. 电源故障电源故障可能导致服务器无法正常供电,造成服务器无法启动或突然关机等问题。
解决电源故障的方法是更换故障电源,确保新电源符合服务器的电源需求,保证服务器正常供电。
二、软件故障除了硬件故障外,服务器还可能出现各种软件故障,如操作系统崩溃、应用程序错误等。
软件故障可能导致服务器无法正常运行、服务中断等问题。
以下是一些常见的软件故障及解决方法:1. 操作系统崩溃操作系统是服务器的核心软件,一旦操作系统崩溃,服务器将无法正常运行。
在操作系统崩溃时,可以尝试使用系统恢复工具进行修复,如果无法修复,需要重新安装操作系统,并进行数据备份和恢复操作。
2. 应用程序错误应用程序错误可能导致服务器上的某些服务无法正常运行,影响用户体验。
在应用程序错误时,可以尝试重新启动应用程序或重启服务器,如果问题仍然存在,需要检查应用程序配置和日志,找出问题原因并进行修复。
服务器故障处理与恢复指南

服务器故障处理与恢复指南在当今信息化社会中,服务器已经成为各行各业不可或缺的重要设备。
然而,服务器故障时有发生,一旦服务器出现故障,将会给企业和个人带来严重的损失。
因此,及时有效地处理服务器故障并恢复正常运行是至关重要的。
本文将为大家介绍服务器故障处理与恢复的指南,希望能够帮助大家更好地解决服务器故障问题。
一、故障排查与诊断1. 确认故障现象当服务器出现故障时,首先需要确认故障现象是什么,比如服务器无法启动、无法访问、运行缓慢等。
通过观察和记录故障现象,有助于后续的故障排查和解决。
2. 检查硬件设备服务器的硬件设备是故障的主要原因之一,因此需要检查服务器的硬件设备是否正常,包括主板、CPU、内存、硬盘、电源等。
可以通过查看硬件设备的指示灯、听取设备的声音等方式来初步判断硬件是否存在故障。
3. 检查网络连接如果服务器无法访问或网络连接异常,需要检查网络连接是否正常。
可以通过ping命令测试网络连通性,检查网线是否连接正常,路由器和交换机是否正常工作等。
4. 查看系统日志系统日志是记录服务器运行状态和异常信息的重要依据,可以通过查看系统日志来了解服务器的运行情况,找出可能的故障原因。
常见的系统日志包括/var/log/messages、/var/log/syslog等。
5. 使用诊断工具在故障排查过程中,可以使用一些专业的诊断工具来帮助定位故障原因,比如memtest86+用于检测内存是否存在问题、smartctl用于检测硬盘是否损坏等。
二、故障处理与恢复1. 备份数据在处理服务器故障之前,首先需要备份重要数据,以防数据丢失造成更大的损失。
可以使用备份软件或命令来进行数据备份,确保数据的安全性。
2. 重启服务器有时候服务器出现故障只是临时性的问题,可以尝试通过重启服务器来解决。
在重启服务器之前,需要确保已经保存好数据并关闭相关应用程序。
3. 更换硬件设备如果经过排查确认是硬件设备故障导致的服务器故障,需要及时更换故障设备。
五大常见服务器故障及解决方法

五大常见服务器故障及解决方法在日常工作中,服务器故障是一种常见的问题,可能会给工作和生活带来不便。
为了更好地应对这些问题,我们需要了解一些常见的服务器故障及其解决方法。
本文将介绍五大常见服务器故障及解决方法,希望能帮助大家更好地处理服务器故障。
一、硬件故障硬件故障是服务器故障中比较常见的问题之一。
硬件故障可能包括硬盘故障、内存故障、电源故障等。
当服务器出现硬件故障时,首先需要检查硬件设备是否正常连接,是否有明显的物理损坏。
如果确定是硬件故障,可以尝试更换硬件设备或者联系厂家进行维修。
二、网络故障网络故障也是常见的服务器故障之一。
网络故障可能导致服务器无法正常连接到网络,影响服务器的正常运行。
在遇到网络故障时,可以先检查网络连接是否正常,是否有网络设备故障。
可以尝试重新启动网络设备或者联系网络运营商进行排查和处理。
三、软件故障软件故障也是服务器故障中比较常见的问题之一。
软件故障可能包括操作系统崩溃、应用程序崩溃等。
在遇到软件故障时,可以尝试重新启动服务器,检查是否有软件更新或者修复程序可用。
如果问题仍然存在,可以尝试重新安装软件或者联系软件厂商进行解决。
四、安全漏洞安全漏洞是服务器故障中比较严重的问题之一。
安全漏洞可能导致服务器被黑客攻击,造成数据泄露、服务中断等严重后果。
在遇到安全漏洞时,可以尝试及时更新服务器的安全补丁,加强服务器的安全设置,定期进行安全检查和漏洞扫描,确保服务器的安全性。
五、性能瓶颈性能瓶颈是服务器故障中比较常见的问题之一。
性能瓶颈可能导致服务器运行缓慢,影响用户体验。
在遇到性能瓶颈时,可以尝试优化服务器配置,增加硬件设备,优化软件程序,提升服务器性能。
可以通过监控工具对服务器性能进行实时监控,及时发现并解决性能瓶颈问题。
综上所述,服务器故障是工作中常见的问题,但只要我们了解常见的服务器故障及解决方法,就能更好地处理这些问题,确保服务器的正常运行。
希望本文介绍的五大常见服务器故障及解决方法能对大家有所帮助,让工作和生活更加顺畅。
服务器硬件故障排查与维修的实用技巧

服务器硬件故障排查与维修的实用技巧服务器作为计算机网络中承担数据存储、处理和传输任务的关键设备,一旦发生硬件故障,将严重影响系统的运行和数据的安全。
因此,掌握服务器硬件故障排查与维修的实用技巧对于网络管理员来说至关重要。
本文将为您介绍一些实用的方法和步骤,旨在帮助您快速、准确地排查和修复服务器硬件故障,保障服务器的正常运行。
一、准备工作在开始服务器硬件故障排查和维修之前,我们首先需要进行一些准备工作。
以下是一些必要的步骤:1. 关闭服务器:在进行硬件故障排查和维修之前,务必先关闭服务器,并将其与电源断开连接,确保操作的安全性。
2. 工具准备:准备必要的工具,如螺丝刀、万用表、电压测试仪等。
这些工具将帮助我们更好地进行硬件故障排查和维修。
3. 防静电措施:由于静电可能对服务器硬件造成损害,我们需要在操作之前采取防静电措施,例如穿戴防静电手套或使用静电防护垫。
二、硬件故障排查一旦服务器发生故障,我们需要进行一系列针对硬件的排查工作,以确定具体的故障原因。
以下是一些建议的步骤:1. 检查电源:首先,我们需要确认服务器的电源是否正常工作。
检查电源插头是否插稳,电源线是否损坏,以及电源开关是否处于合适的位置。
2. 检查硬盘:硬盘是服务器中保存数据的重要组件。
如果服务器无法启动或出现数据访问错误,可能是硬盘故障所致。
使用适当的工具检查硬盘连接是否松动,或者进行磁盘扫描以排除可能的数据错误。
3. 检查内存:内存故障可能导致服务器运行缓慢或崩溃。
通过重新插拔内存条或更换已知正常的内存条,可以判断出是否存在内存故障。
4. 检查散热系统:服务器长时间运行会产生大量热量,正常的散热系统对于保障服务器的稳定运行至关重要。
检查风扇是否运转正常,散热片是否干净无尘,必要时进行清理或更换。
5. 检查其他硬件组件:除了以上常见的故障排查步骤,我们还应该检查其他硬件组件,如主板、显卡、网卡等。
有时,这些组件也可能是故障发生的源头。
服务器故障排查及解决实践指南

服务器故障排查及解决实践指南在日常工作中,服务器故障是一种常见的问题,可能会给工作和生活带来不便。
因此,了解如何排查和解决服务器故障是非常重要的。
本文将介绍一些常见的服务器故障排查方法和解决实践指南,帮助您更好地处理服务器故障。
一、服务器故障排查1.检查网络连接首先,当服务器出现故障时,需要检查网络连接是否正常。
可以通过ping命令测试服务器是否可以正常访问,如果ping不通,可能是网络连接出现了问题。
可以检查网线是否插好,路由器是否正常工作等。
2.查看服务器状态可以通过登录服务器查看服务器的运行状态,包括CPU、内存、磁盘等资源的占用情况。
如果某个资源占用率异常高,可能是因为某个进程导致的故障。
3.查看日志文件服务器通常会记录各种操作和错误日志,可以通过查看日志文件来了解服务器故障的原因。
可以查看系统日志、应用程序日志等,找出故障的根源。
4.检查硬件设备有时服务器故障可能是由硬件设备故障引起的,比如硬盘故障、内存故障等。
可以通过检查硬件设备的状态来判断是否需要更换硬件设备。
5.使用监控工具可以使用监控工具来监控服务器的运行状态,及时发现服务器故障并进行处理。
监控工具可以监控服务器的各项指标,比如CPU占用率、内存使用情况等。
二、服务器故障解决实践指南1.重启服务器在排查了服务器故障的原因后,如果无法立即解决问题,可以尝试重启服务器。
重启服务器可以清除一些临时数据,有时可以解决一些问题。
2.优化服务器配置如果服务器频繁出现故障,可能是因为服务器配置不足。
可以考虑优化服务器配置,比如增加内存、扩大硬盘容量等,以提高服务器的性能和稳定性。
3.更新系统和应用程序有时服务器故障是由系统或应用程序的bug引起的,可以尝试更新系统和应用程序到最新版本,以修复bug和提高系统的稳定性。
4.备份数据在处理服务器故障时,一定要及时备份重要数据,以防数据丢失。
可以定期备份数据到云端或外部存储设备,确保数据的安全性。
服务器播出故障判断与排除

服务器播出故障判断与排除服务器故障是指服务器在运行过程中出现异常情况,无法正常提供服务的状态。
故障可能包括硬件故障、软件故障、网络故障等。
判断和排除服务器故障是系统管理员的重要工作之一,下面将介绍几种常见的服务器故障判断和排除方法。
1.判断:当服务器出现硬件故障时,通常会发出响声、闪灯、错误信息等明显的信号。
系统管理员可以通过检查服务器前面板的指示灯、硬盘灯和风扇工作状态,以及使用硬件故障监测软件等方式来判断硬件故障的具体原因。
2.排除:针对不同的硬件故障,有不同的排除方法。
例如,如果服务器无法启动,可能是由于电源故障,可以检查电源线是否连接正常,电源开关是否打开,尝试更换电源等。
如果服务器噪音较大,可能是由于风扇故障,可以检查风扇是否堵塞、磨损,或尝试更换风扇。
1.判断:软件故障通常会导致服务器运行缓慢、程序崩溃、系统死机等现象。
系统管理员可以通过检查系统日志、错误报告、服务器监控工具等方式来判断软件故障的具体原因。
2.排除:针对不同的软件故障,有不同的排除方法。
例如,如果服务器程序崩溃,可能是由于软件版本不兼容或配置错误,可以尝试更新软件版本、重新配置程序参数等。
如果系统死机,可能是由于内存泄漏或磁盘空间不足,可以使用内存检测工具、磁盘清理工具等来排除故障。
1. 判断:网络故障通常会导致服务器无法连接、网络延迟、数据丢失等问题。
系统管理员可以通过使用ping命令、traceroute命令等来判断网络故障的具体原因。
综上所述,服务器故障的判断和排除需要系统管理员根据具体情况进行分析和处理。
通过判断服务器的硬件、软件和网络状态,以及采用相应的排除方法,可以有效解决服务器故障,确保服务器正常运行。
同时,定期维护和监控服务器,提高服务器的可靠性和稳定性也是重要的工作。
服务器故障排查与修复技巧

服务器故障排查与修复技巧随着信息技术的不断发展,服务器已经成为现代企业和个人网络生活中不可或缺的一部分。
然而,服务器故障时有发生,一旦服务器出现故障,可能会给工作和生活带来严重影响。
因此,掌握服务器故障排查与修复技巧显得尤为重要。
本文将介绍一些常见的服务器故障排查与修复技巧,帮助您更好地解决服务器故障问题。
一、硬件故障排查与修复1. 电源问题:首先检查服务器的电源线是否插紧,电源插座是否正常供电。
如果电源线和插座都没有问题,可以尝试更换电源线或者插到其他插座中。
如果服务器仍然无法开机,可能是电源模块故障,需要更换电源模块。
2. 内存故障:内存故障是服务器常见的硬件故障之一。
当服务器出现频繁死机或者蓝屏时,可以尝试重新插拔内存条,清洁内存槽,确保内存条插紧。
如果问题依然存在,可能是内存条本身故障,需要更换新的内存条。
3. 硬盘故障:硬盘是服务器存储数据的关键组件,一旦硬盘故障可能导致数据丢失。
当服务器出现读写速度慢或者无法识别硬盘时,可以尝试重新连接数据线,检查硬盘是否正常运转。
如果硬盘发出异常声音或者无法正常工作,可能是硬盘故障,需要更换新的硬盘。
4. CPU故障:CPU是服务器的核心部件,一旦CPU故障可能导致服务器无法正常启动。
当服务器出现频繁死机或者无法开机时,可以检查CPU散热器是否正常工作,清洁散热风扇,确保CPU温度正常。
如果问题依然存在,可能是CPU故障,需要更换新的CPU。
二、软件故障排查与修复1. 操作系统故障:操作系统是服务器的核心软件,一旦操作系统出现故障可能导致服务器无法正常工作。
当服务器出现蓝屏或者无法启动时,可以尝试进入安全模式,进行系统恢复或者重装系统。
如果问题依然存在,可能是系统文件损坏,需要修复系统文件或者重装系统。
2. 网络故障:网络是服务器与外部通信的重要通道,一旦网络故障可能导致服务器无法连接外部网络。
当服务器无法访问外部网络或者网络速度慢时,可以检查网线连接是否正常,重启路由器或者交换机。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务器故障排除方法相比PC而言,服务器出故障的机率是小多了,但是它出故障造成的损失可也大多了。
作为服务器维修人员需要了解一些服务器故障恢复的基本知识,知道在维修时可以做些什么来最快速的解决问题也可以减少故障停机时间。
本文并不是一本服务器故障解决的完全手册,但如果能够认真的按照下面的步骤维修维护,它也许可以解决大多数问题,但当你做完所有的这一切仍不管用时,不用惭愧,去找维修专家吧,可以放心的是,这些维修步骤不会出现大的损害,最坏的情形是“It does not work at all”。
本文主要分三部分,第一部分讲的是服务器故障排除的基本原则性问题。
第二部分讲述了一些服务器硬件故障排除的实例。
第三部分讲述了一些服务器软件故障排除的实例第一部分服务器故障排除的基本原则性问题一、服务器开机无显示应怎么办1.检查供电环境,零-火;零-地电压?2.检查电源指示灯,如果亮,正常吗?3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?4. 是否更换过显示器,更换另一台显示器。
5. 去掉增加内存6. 去掉增加的CPU7.去掉增加的第三方I/O卡8. 检查内存和CPU 插的是否牢靠9. Clear CMOS10. 更换主要备件,如系统板,内存和CPU二、服务器故障排错的基本原则是什么1. 尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2. 从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。
b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。
c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。
3. 交换对比a:在最大可能相同的条件下,交换操作简单效果明显的部件;b: 交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境;三、服务器故障排除需要收集哪些信息?服务器信息:1.机器型号2.机器序列号(S/N: 如:NC00075534)3.Bios 版本4.是否增加其它设备,如网卡,SCSI 卡,内存,CPU5.硬盘如何配置,是否做阵列, 阵列级别6.安装什么操作系统及版本(Winnt 4, Netware, Sco, others)∙故障信息1.在POST时,屏幕显示的异常信息2.服务器本身指示灯的状态?3. 报警声和BEEP CODES4. NOS的事件记录文件?5. Events Log 文件∙确定故障类型和故障现象:1. 开机无显示;2.上电自检阶段故障;3. 安装阶段故障和现象;4. 操作系统加载失败;5. 系统运行阶段故障;第二部分服务器硬件故障处理几例硬件故障是指服务器硬件出现异常而导致的各类错误。
由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。
下面以一台万全4500为例说明。
(例子,在实际问题中如果遇到相似现象,也需要具体问题具体分析,不要盲目套用)有一台万全4500,配有256M内存,使用一个PIII XEON 500带2M高速缓存的处理器。
开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。
这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。
因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的情况也有5%左右。
我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。
所以在初步判断中,可以排除是CPU板块坏。
这时,取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。
相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。
于是立即在另一台万全4500中取下一个处理器电压模块,安装在此服务器中。
开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。
这时的情况就比较明显了。
于是立即从另一台万全4500中取下一个CPU安装后,开机正常。
总结:在服务器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断出问题的所在。
这样就要求相关人员要有信心及耐心。
出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。
总之,服务器出错后,必须一步一步解决,没有捷径可言。
又如:有一台万全4200开机不显示,发现开机时系统日志没有任何信息,且系统指示灯不亮。
初步判断是电源方面出现了错误。
经过仔细检查,发现服务器的电源是正常的,因此最大的可能就是服务器的电源管理板出现故障。
更换电源管理板后,开机显示正常。
但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。
硬盘在别的服务器上是正常的,因此立即清除此服务器的CMOS,但依然不正常。
立刻上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。
又检查硬盘笼子和服务器里的数据线及电源线后依然出错。
这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。
但就在这个时候,我发现在I/O板上有一个非联想的旧式网卡,立即去除此网卡后服务器就一切正常。
硬件故障并不单单指硬件有问题,它也指硬件之间不兼容。
因为服务器的正常运作需要各部件之间的大力协调。
建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障。
还有一种情况:用户需要把他的万全3200升级到双网卡,我建议他购买原装网卡,但当他看到万全4500的网卡是采用的INTEL 82559芯片后,断然决定不使用原装网卡而采用另一品牌也采用INTEL 82559的网卡。
过了几天,他打电话给我说,他的新网卡不能使用网络冗余及数据校验,并怀疑服务器有问题。
维修工程师带了一个INTEL 82559网卡到用户那里,仔细检查了服务器的环境完全正常后,把INTEL 82559网卡安装到机器上后一切正常。
这个例子更加说明了,要发挥服务器的最大性能及功能,必须使用原品牌原装的配件。
非原品牌非原装的配件,不能支持服务器的某些功能,严重的会影响到服务器的正常使用。
要避免硬件故障发生频率,服务器管理人员必须注意服务器的使用环境完全正常。
比较重要的服务器必须在恒温、恒湿的环境;电压也要符合,不仅要采用UPS,还必须接地线,必须是左零线、右火线,零地电压在1~3伏。
在开、关服务器上必须符合正常的流程。
工作人员必须严格执行操作流程。
一般情况来说,服务器维修人员对于硬件故障只要有丰富的经验都能很快找出故障所在,如果不能解决就必须迅速与服务器的售后服务中心8008108888联系。
第三部分服务器常见软故障解决思路与实例服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。
导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。
下面分别举例说明各类软件故障的维修方法。
有一台万全3500服务器,配置为双PIII 500带521K高速缓存的CPU、512M内存。
开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“V oltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。
从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。
维护人员立刻使用其它万全3500的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。
就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。
FIRMWARE升级方法是,1)用软盘启动计算机,然后插入firmware软盘并运行上面的相关文件cabrillo;2)系统刷新BMC(主板控制器)和HSC(热插拔背板控制器);3)然后系统询问执行第几个选项(通常为2);4)然后系统询问服务器的电源配置(通常为2);5)如果回答有两个电源,系统询问服务器是否有辅助风扇——即在第三个电源(冗余电源)的位置上是否有风扇(通常为N);6)然后系统询问是否重写BMC kernel use area;(通常为N)然后系统询问是否输入一个asset tag;(通常为N)7)最后系统询问在刷新后是否要重新启动系统;(通常为Y)。
这种升级方法也适合刷新系统BIOS等,命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。
任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法将会导致严重的后果。
目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。
但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。
但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。
当服务器的软件故障为此类时,表现的现象也不尽相同。
一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。
查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。
由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。
以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。
如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。
但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。
服务器的维护人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。