服务器故障排除方法
服务器故障排除指南快速解决常见服务器问题的方法

服务器故障排除指南快速解决常见服务器问题的方法在日常运维工作中,经常会遇到服务器故障的情况。
这些故障可能导致服务中断、数据丢失以及用户体验下降等问题。
为了解决这些问题,本文将为您提供一份服务器故障排除指南,帮助您快速解决常见的服务器问题。
一、网络连接问题网络连接问题是服务器故障中最常见的一类问题。
以下是一些建议:1. 检查网络连接状态:首先,确认服务器的网线或无线网络连接是否正常。
可以通过检查服务器上的网络指示灯或运行`ipconfig`等命令来确认连接状态。
2. 防火墙设置:确保服务器上的防火墙设置正确,不会阻止外部连接。
可以使用`iptables`或Windows防火墙进行设置。
3. 检查路由器或交换机:排除服务器连接问题的同时,还应检查路由器或交换机的运行状态。
尝试重启这些设备,如果问题仍然存在,可能需要联系运维团队进行进一步排查。
二、硬件故障硬件故障可能导致服务器无法正常运行。
以下是一些建议:1. 检查硬件连接:确保服务器内部硬件连接牢固。
检查硬盘、内存条、扩展卡等是否都插好,并且没有松动。
2. 温度问题:检查服务器的温度。
如果服务器温度过高,可能是风扇无法正常工作或散热系统堵塞所致。
及时清洁服务器内部,并确保散热系统正常工作。
3. 替换故障硬件:如果有硬件故障,及时更换故障硬件,例如更换损坏的硬盘、内存等。
三、操作系统问题操作系统故障可能导致服务器无法正常启动或运行。
以下是一些建议:1. 日志分析:查看服务器的系统日志,寻找异常信息。
根据异常信息调查问题的根本原因。
2. 确认操作系统完整性:核对操作系统的完整性,确保操作系统文件没有被损坏或删除。
可以使用系统自带的文件校验工具验证文件完整性。
3. 修复操作系统:针对操作系统故障,可以尝试修复操作系统。
对于Linux服务器,可以使用`fsck`命令修复文件系统;对于Windows服务器,可以通过重装操作系统或使用系统自带的修复工具。
四、安全问题安全问题是服务器故障中需要高度关注的一类问题。
服务器硬件故障排除的常见方法和技巧

服务器硬件故障排除的常见方法和技巧服务器作为承载网站、应用程序等重要业务的关键设备,一旦发生硬件故障,就会导致服务中断或运行异常,给用户和业务带来严重影响。
本文将介绍一些常见的服务器硬件故障排除方法和技巧,帮助管理员及时解决问题,确保服务器的稳定运行。
一、电源故障排除在服务器硬件故障排除的过程中,电源故障是最常见的问题之一。
以下是一些常见的电源故障排除技巧:1. 检查电源插头和电源线是否松动或损坏,确保良好的电源接触。
2. 使用电源测试仪检测电源输出电压是否稳定,是否满足服务器要求。
3. 若服务器有冗余电源,尝试更换备用电源槽,检查是否解决问题。
4. 检查服务器主板上的电源插口和连接线路,确保连接正常可靠。
二、硬盘故障排除硬盘是服务器的核心组件之一,也是故障率较高的部件。
以下是一些常见的硬盘故障排除方法:1. 使用硬盘检测工具(如硬盘检测工具箱)扫描硬盘,检测并修复坏道、坏扇区等问题。
2. 检查硬盘连接线路是否松动或损坏,确保连接正常。
3. 若硬盘有异常噪音或震动,可能是硬盘硬件故障,应及时更换硬盘。
4. 注意定期备份数据,以防硬盘故障导致数据丢失。
三、内存故障排除内存故障可能导致服务器崩溃、运行缓慢等问题。
以下是一些常见的内存故障排除方法:1. 使用内存测试工具(如MemTest86+)对服务器进行内存测试,检测是否存在故障。
2. 检查内存条是否插紧,接触良好。
3. 若出现频繁的蓝屏或主动重启,可能是内存故障,可以尝试更换内存条。
4. 避免过度分配内存资源,确保服务器内存使用在合理范围内。
四、CPU故障排除CPU是服务器的主要计算核心,一旦出现故障会直接影响服务器的正常运行。
以下是一些常见的CPU故障排除方法:1. 使用CPU温度监测工具(如Core Temp)检测CPU温度是否过高,若温度超过安全范围,需及时清理散热器,并更换散热硅脂。
2. 检查CPU风扇是否运转正常,确保散热效果良好。
3. 检查CPU插座和连接线路是否松动或损坏,确保连接正常可靠。
服务器故障排除指南解决常见服务器问题的技巧和方法

服务器故障排除指南解决常见服务器问题的技巧和方法服务器故障排除指南:解决常见服务器问题的技巧和方法在现代互联网时代,服务器作为承载网站、应用和数据的关键设备,经常遇到各种故障和问题。
本文将为您提供一份详尽的服务器故障排除指南,帮助您解决常见的服务器问题,以确保服务器的稳定和正常运行。
一、服务器无法启动1. 确保电源供应正常:检查服务器电源线是否连接牢固,并检查电源插座是否正常供电。
2. 检查硬件连接:检查主板、内存、硬盘等硬件是否正确连接,并确保连接牢固。
3. 诊断故障组件:逐一拔下内存、硬盘等组件,尝试重新启动服务器,以确定故障产生的具体组件。
4. BIOS设置检查:进入BIOS设置界面,确保硬件配置正常,没有被错误地禁用或修改。
二、服务器运行缓慢1. 资源利用率分析:通过服务器监控工具,查看CPU、内存、磁盘等资源的利用率,找出资源占用过高的进程或服务。
2. 优化操作系统:对操作系统进行优化配置,如关闭不必要的服务、禁用不常用的功能、合理调整系统缓存等。
3. 硬件升级:考虑升级服务器硬件,如增加内存、替换更高速的处理器或存储设备,以提升性能。
4. 考虑负载均衡:当服务器运行多个服务时,考虑引入负载均衡设备或技术,将负载分担到多台服务器上,提高整体性能。
三、服务器频繁重启1. 温度检查:检查服务器散热是否正常,确保风扇和散热器清洁,并避免服务器长时间在高温环境中运行。
2. 电源供应稳定性检查:排查是否有电源不稳定或电压波动的问题,可以使用稳压电源等设备,以确保电源供应的稳定性。
3. 错误日志分析:查看服务器的错误日志,了解具体的重启原因,可能是操作系统故障、硬件故障或驱动程序不兼容等。
4. 固件和驱动程序升级:及时更新服务器固件和驱动程序,修复已知的问题和漏洞,提高服务器的稳定性和兼容性。
四、网络连接问题1. 检查网络线缆连接:确保服务器的网络线缆连接松动或损坏,尝试更换线缆或重新插拔连接。
2. 防火墙和路由器设置:检查服务器所在的网络设备防火墙和路由器设置,确保正确配置端口转发和网络访问规则。
了解常见的服务器故障及解决方法

了解常见的服务器故障及解决方法服务器是现代网络世界中不可或缺的重要设备,它承担着存储数据、提供服务、传输信息等重要功能。
然而,由于各种原因,服务器在运行过程中可能会出现各种故障,给网络运行和数据安全带来风险。
因此,了解常见的服务器故障及解决方法对于保障网络稳定运行至关重要。
一、硬件故障硬件故障是服务器故障中比较常见的一种情况。
硬件故障可能包括主板故障、硬盘故障、电源故障等。
当服务器出现硬件故障时,首先需要进行硬件检测,确定具体故障原因,然后采取相应的解决方法。
1. 主板故障主板是服务器的核心组件之一,一旦主板出现故障,服务器将无法正常运行。
主板故障可能导致服务器无法启动、无法识别硬件等问题。
解决主板故障的方法一般是更换主板,确保新主板与服务器兼容,并进行相应的配置。
2. 硬盘故障硬盘是服务器存储数据的关键部件,硬盘故障可能导致数据丢失、系统崩溃等严重后果。
在硬盘故障时,可以尝试使用数据恢复工具进行数据恢复,如果无法修复,需要更换新的硬盘,并进行数据备份和恢复操作。
3. 电源故障电源故障可能导致服务器无法正常供电,造成服务器无法启动或突然关机等问题。
解决电源故障的方法是更换故障电源,确保新电源符合服务器的电源需求,保证服务器正常供电。
二、软件故障除了硬件故障外,服务器还可能出现各种软件故障,如操作系统崩溃、应用程序错误等。
软件故障可能导致服务器无法正常运行、服务中断等问题。
以下是一些常见的软件故障及解决方法:1. 操作系统崩溃操作系统是服务器的核心软件,一旦操作系统崩溃,服务器将无法正常运行。
在操作系统崩溃时,可以尝试使用系统恢复工具进行修复,如果无法修复,需要重新安装操作系统,并进行数据备份和恢复操作。
2. 应用程序错误应用程序错误可能导致服务器上的某些服务无法正常运行,影响用户体验。
在应用程序错误时,可以尝试重新启动应用程序或重启服务器,如果问题仍然存在,需要检查应用程序配置和日志,找出问题原因并进行修复。
服务器硬件故障排除的常见问题和解决方法

服务器硬件故障排除的常见问题和解决方法近年来,随着互联网的快速发展和技术的推进,服务器成为了现代企业不可或缺的一部分。
然而,服务器硬件故障时有发生,这给企业的正常运营带来了很大的困扰。
本文将为您介绍一些常见的服务器硬件故障问题,并提供相应的解决方法,帮助您更好地排除这些问题。
一、电源故障电源故障是服务器硬件故障中最常见的问题之一,可能导致服务器无法正常启动。
解决电源故障的方法如下:1. 检查电源连接:确保服务器的电源线正确连接,插头没有松动或损坏。
尝试使用其他电源线或插头来排除故障可能性。
2. 替换电源:如果电源线没有问题,可能是电源本身出现故障。
可以尝试替换故障电源,使用备用电源来启动服务器。
3. 检查UPS电源:如果服务器连接了UPS备用电源,检查UPS电源的工作状态,确保其能够正常提供电能。
如果UPS电源故障,尝试将服务器直接连接到市电,并联系服务商进行维修。
二、硬盘故障硬盘故障是另一个常见的服务器硬件问题,可能导致数据丢失或无法读取。
下面是解决硬盘故障的一些方法:1. 检查连接:检查硬盘的数据和电源连接是否牢固。
如果连接松动,重新连接并确保牢固。
2. 数据恢复:如果硬盘故障导致数据丢失,您可以尝试使用数据恢复软件来恢复丢失的数据。
但请注意,如果硬盘受到物理损坏,最好将其交给专业的数据恢复服务提供商进行处理。
3. 替换硬盘:如果硬盘严重损坏,无法修复或数据恢复失败,考虑替换故障硬盘。
在替换前,备份服务器上的数据是非常重要的。
三、内存故障内存故障可能导致服务器变慢甚至崩溃。
以下是解决内存故障的几种方法:1. 重新插拔内存:先尝试重新插拔内存条,确保它们正确连接。
有时候,只是松动的内存条会造成故障。
2. 更换内存槽:如果重新插拔内存无效,尝试将内存条与其他可用的内存槽进行互换。
这可以帮助您确定是否是内存槽本身出现了问题。
3. 替换故障内存:如果确认是内存条本身出现故障,考虑替换故障的内存条。
确保选择与服务器兼容的内存并按照正确的安装步骤进行安装。
服务器故障排除常见问题及解决方案

服务器故障排除常见问题及解决方案在日常的服务器管理运维工作中,面对服务器故障是必不可少的一部分。
本文将介绍一些常见的服务器故障问题,并提供相应的解决方案,旨在帮助系统管理员更好地排除服务器故障。
一、连接问题1. 无法远程连接服务器解决方案:首先确认目标服务器是否正常运行。
如服务器正常,可能是由于网络配置、防火墙设置等原因导致无法远程连接。
可通过检查网络配置和防火墙规则,确保远程连接所需的端口开启和访问权限设置正确。
2. 网络延迟或丢包解决方案:在命令行窗口中使用ping命令测试服务器的网络连通性,如果延迟高或丢包率过高,可能是网络设备故障或网络拥堵引起的。
可尝试重启相关网络设备并优化网络设置,提高服务器的网络连接质量。
二、硬件问题1. 服务器无法开机或开机后立即关机解决方案:检查服务器是否有电源供应,确认电线、插头等硬件设备工作正常。
如果电源无问题,可能是由于硬件故障引起的。
此时,建议检查主板、内存、硬盘等关键硬件部件是否正常连接,如有需要可以更换故障硬件件。
2. 硬盘故障导致数据丢失解决方案:当服务器出现硬盘故障时,主要面临数据丢失或不可读取的问题。
首先,应立即停止对硬盘的读写操作,以免进一步损坏数据。
然后,可以尝试使用数据恢复工具来尝试恢复数据。
如果数据较为重要,建议寻求专业数据恢复服务。
三、软件问题1. 操作系统崩溃或无法启动解决方案:操作系统崩溃可能由于系统文件损坏、驱动程序冲突等原因引起。
针对此问题,可尝试通过操作系统安装光盘或启动盘进行系统修复,或者重新安装操作系统。
2. 服务无法启动或崩溃解决方案:服务无法启动或崩溃可能由于配置错误、依赖关系异常等原因引起。
对于此问题,可以通过检查相关服务的配置文件、日志文件等进行排查。
一些第三方服务可尝试重启或重新安装来解决。
四、安全问题1. 病毒或恶意软件感染解决方案:服务器病毒感染会严重影响系统性能和数据安全。
应该首先安装杀毒软件,并及时更新病毒库,进行全盘扫描。
五大常见服务器故障及解决方法

五大常见服务器故障及解决方法在日常工作中,服务器故障是一种常见的问题,可能会给工作和生活带来不便。
为了更好地应对这些问题,我们需要了解一些常见的服务器故障及其解决方法。
本文将介绍五大常见服务器故障及解决方法,希望能帮助大家更好地处理服务器故障。
一、硬件故障硬件故障是服务器故障中比较常见的问题之一。
硬件故障可能包括硬盘故障、内存故障、电源故障等。
当服务器出现硬件故障时,首先需要检查硬件设备是否正常连接,是否有明显的物理损坏。
如果确定是硬件故障,可以尝试更换硬件设备或者联系厂家进行维修。
二、网络故障网络故障也是常见的服务器故障之一。
网络故障可能导致服务器无法正常连接到网络,影响服务器的正常运行。
在遇到网络故障时,可以先检查网络连接是否正常,是否有网络设备故障。
可以尝试重新启动网络设备或者联系网络运营商进行排查和处理。
三、软件故障软件故障也是服务器故障中比较常见的问题之一。
软件故障可能包括操作系统崩溃、应用程序崩溃等。
在遇到软件故障时,可以尝试重新启动服务器,检查是否有软件更新或者修复程序可用。
如果问题仍然存在,可以尝试重新安装软件或者联系软件厂商进行解决。
四、安全漏洞安全漏洞是服务器故障中比较严重的问题之一。
安全漏洞可能导致服务器被黑客攻击,造成数据泄露、服务中断等严重后果。
在遇到安全漏洞时,可以尝试及时更新服务器的安全补丁,加强服务器的安全设置,定期进行安全检查和漏洞扫描,确保服务器的安全性。
五、性能瓶颈性能瓶颈是服务器故障中比较常见的问题之一。
性能瓶颈可能导致服务器运行缓慢,影响用户体验。
在遇到性能瓶颈时,可以尝试优化服务器配置,增加硬件设备,优化软件程序,提升服务器性能。
可以通过监控工具对服务器性能进行实时监控,及时发现并解决性能瓶颈问题。
综上所述,服务器故障是工作中常见的问题,但只要我们了解常见的服务器故障及解决方法,就能更好地处理这些问题,确保服务器的正常运行。
希望本文介绍的五大常见服务器故障及解决方法能对大家有所帮助,让工作和生活更加顺畅。
服务器故障排除的技巧和方法

服务器故障排除的技巧和方法服务器是现代互联网应用的重要基础设施,然而,由于各种原因,服务器故障时有发生。
对于管理员和运维人员来说,快速定位和解决服务器故障是至关重要的。
本文将介绍一些服务器故障排除的技巧和方法,帮助读者快速解决服务器故障。
一、日志分析日志是服务器故障排除的重要依据。
管理员应该定期检查服务器的各类日志,包括系统日志、应用程序日志等。
通过分析日志,可以快速定位故障原因。
例如,如果发现系统日志中出现大量的IO错误,可能表示硬件故障;如果应用程序日志中出现异常错误信息,可能表示应用程序存在问题。
二、监测系统监测系统是服务器故障排除的重要辅助工具。
管理员可以使用监测系统实时监控服务器的各项指标,如CPU使用率、内存使用率、网络流量等。
当服务器故障发生时,监测系统会立即报警,提醒管理员采取相应的措施。
常见的监测系统包括Zabbix、Nagios等。
三、网络诊断网络问题是服务器故障的常见原因之一。
管理员应该使用网络诊断工具对服务器的网络连接进行检查。
例如,可以使用ping命令测试服务器的网络连通性;使用traceroute命令追踪数据包的路径,找出网络中的瓶颈所在;使用netstat命令查看服务器的网络连接状态等。
通过网络诊断,可以找出网络问题的症结所在。
四、硬件检测硬件故障是服务器故障的另一个常见原因。
管理员应该检查服务器的硬件健康状况。
可以使用硬件检测工具对硬件进行全面的检测,例如检测硬盘是否出现坏道,检测内存是否存在故障等。
如果发现硬件故障,需要及时更换或修复。
五、软件更新软件漏洞和错误是服务器故障的潜在原因。
管理员应该定期升级服务器上的软件和操作系统,确保软件处于最新的稳定版本。
另外,还应该及时安装补丁程序,修复软件中的漏洞和错误。
通过软件更新,可以提高服务器的稳定性和安全性。
六、备份和恢复备份和恢复是服务器故障排除的重要保障。
管理员应该定期对重要的数据和配置文件进行备份,确保在故障发生时能够及时恢复数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务器故障排除方法本文主要是针对一些服务器出现的简单的故障进行排查处理,主要分三部分,第一部分讲的是服务器故障排除的基本原则性问题,第二部分讲述了一些服务器硬件故障排除的实例,第三部分讲述了一些服务器软件故障排除的实例第一部分服务器故障排除的基本原则性问题一、服务器开机无显示应怎么办1.检查供电环境,零-火;零-地电压?2.检查电源指示灯,如果亮,正常吗?3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?4.是否更换过显示器,更换另一台显示器。
5.去掉增加内存。
6.去掉增加的CPU7.去掉增加的第三方I/O卡8.检查内存和CPU 插的是否牢靠9.Clear CMOS10.更换主要备件,如系统板,内存和CPU二、服务器故障排错的基本原则是什么1.尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2.从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。
b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。
c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。
3.交换对比a:在最大可能相同的条件下,交换操作简单效果明显的部件;b: 交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境;三、服务器故障排除需要收集哪些信息?服务器信息:1.机器型号2.机器序列号(S/N: 如:NC00075534)3.Bios 版本4.是否增加其它设备,如网卡,SCSI 卡,内存,CPU5.硬盘如何配置,是否做阵列, 阵列级别6.安装什么操作系统及版本(Winnt 4, Netware, Sco, others)故障信息1.在POST时,屏幕显示的异常信息2.服务器本身指示灯的状态?3.报警声和BEEP CODES4.NOS的事件记录文件?5.Events Log 文件确定故障类型和故障现象:1.开机无显示;2.上电自检阶段故障;3.安装阶段故障和现象;4.操作系统加载失败;5.系统运行阶段故障;第二部分服务器硬件故障处理几例硬件故障是指服务器硬件出现异常而导致的各类错误。
由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。
下面以一台万全4500为例说明。
(例子,在实际问题中如果遇到相似现象,也需要具体问题具体分析,不要盲目套用);有一台万全4500,配有256M内存,使用一个PIII XEON 500带2M高速缓存的处理器。
开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。
这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。
因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的情况也有5%左右。
我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。
所以在初步判断中,可以排除是CPU板块坏。
这时,取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。
相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。
于是立即在另一台万全4500中取下一个处理器电压模块,安装在此服务器中。
开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。
这时的情况就比较明显了。
于是立即从另一台万全4500中取下一个CPU安装后,开机正常。
总结:在服务器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断出问题的所在。
这样就要求相关人员要有信心及耐心。
出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。
总之,服务器出错后,必须一步一步解决,没有捷径可言。
又如:有一台万全4200开机不显示,发现开机时系统日志没有任何信息,且系统指示灯不亮。
初步判断是电源方面出现了错误。
经过仔细检查,发现服务器的电源是正常的,因此最大的可能就是服务器的电源管理板出现故障。
更换电源管理板后,开机显示正常。
但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。
硬盘在别的服务器上是正常的,因此立即清除此服务器的CMOS,但依然不正常。
立刻上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。
又检查硬盘笼子和服务器里的数据线及电源线后依然出错。
这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。
但就在这个时候,我发现在I/O板上有一个非联想的旧式网卡,立即去除此网卡后服务器就一切正常。
硬件故障并不单单指硬件有问题,它也指硬件之间不兼容。
因为服务器的正常运作需要各部件之间的大力协调。
建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障。
还有一种情况:用户需要把他的万全3200升级到双网卡,我建议他购买原装网卡,但当他看到万全4500的网卡是采用的INTEL 82559芯片后,断然决定不使用原装网卡而采用另一品牌也采用INTEL 82559的网卡。
过了几天,他打电话给我说,他的新网卡不能使用网络冗余及数据校验,并怀疑服务器有问题。
维修工程师带了一个INTEL 82559网卡到用户那里,仔细检查了服务器的环境完全正常后,把INTEL 82559网卡安装到机器上后一切正常。
这个例子更加说明了,要发挥服务器的最大性能及功能,必须使用原品牌原装的配件。
非原品牌非原装的配件,不能支持服务器的某些功能,严重的会影响到服务器的正常使用。
要避免硬件故障发生频率,服务器管理人员必须注意服务器的使用环境完全正常。
比较重要的服务器必须在恒温、恒湿的环境;电压也要符合,不仅要采用UPS,还必须接地线,必须是左零线、右火线,零地电压在1~3伏。
在开、关服务器上必须符合正常的流程。
工作人员必须严格执行操作流程。
一般情况来说,服务器维修人员对于硬件故障只要有丰富的经验都能很快找出故障所在,如果不能解决就必须迅速与服务器的售后服务中心8008108888联系。
第三部分服务器常见软故障解决思路与实例服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。
导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。
下面分别举例说明各类软件故障的维修方法。
有一台万全3500服务器,配置为双PIII 500带521K高速缓存的CPU、512M内存。
开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。
从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。
维护人员立刻使用其它万全3500的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。
就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。
FIRMWARE升级方法是,1)用软盘启动计算机,然后插入firmware软盘并运行上面的相关文件cabrillo;2)系统刷新BMC(主板控制器)和HSC(热插拔背板控制器);3)然后系统询问执行第几个选项(通常为2);4)然后系统询问服务器的电源配置(通常为2);5)如果回答有两个电源,系统询问服务器是否有辅助风扇——即在第三个电源(冗余电源)的位置上是否有风扇(通常为N);6)然后系统询问是否重写BMC kernel use area;(通常为N)然后系统询问是否输入一个asset tag;(通常为N)7)最后系统询问在刷新后是否要重新启动系统;(通常为Y)。
这种升级方法也适合刷新系统BIOS等,命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。
任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE 及BIOS,只是在升级之前应该小心谨慎,错误的升级方法将会导致严重的后果。
目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。
但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。
但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。
当服务器的软件故障为此类时,表现的现象也不尽相同。
一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。
查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。
由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。
以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。
如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。
但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。
服务器的维护人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。
这样会减少很大一部份软件故障的发生。
相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。
曾经有一位用户说,他有一台万全的服务器无法安装SQL SERVER 2000,已经重装N 次NT了,排除是系统故障。
而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。
于是维修工程师去了他的公司查看。
这台服务器所在的机房是非常标准、完善的机房,检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。