服务器维修故障诊断思路大全教学提纲

合集下载

服务器故障排查与修复指南

服务器故障排查与修复指南

服务器故障排查与修复指南随着信息技术的不断发展,服务器在现代社会中扮演着至关重要的角色。

然而,服务器故障时有发生,一旦服务器出现故障,可能会给企业和个人带来严重的损失。

因此,及时有效地排查和修复服务器故障显得尤为重要。

本文将为您介绍服务器故障排查与修复的指南,帮助您快速准确地应对各种服务器故障。

一、排查故障1. 确认故障现象当服务器出现故障时,首先需要确认故障现象。

比如服务器无法启动、运行缓慢、出现蓝屏等情况。

通过观察故障现象,可以帮助我们初步定位故障的范围。

2. 检查硬件设备硬件设备是服务器正常运行的基础,因此需要检查服务器的硬件设备是否正常。

包括主板、CPU、内存、硬盘、电源等硬件设备,确保它们没有损坏或者松动。

3. 检查网络连接服务器的网络连接也是一个常见的故障点。

检查网络线缆是否连接正常,网络设置是否正确,防火墙是否阻挡了网络连接等,确保服务器能够正常连接网络。

4. 查看系统日志系统日志记录了服务器的运行状态和各种事件信息,通过查看系统日志可以帮助我们了解服务器故障的原因。

注意查看系统日志中的错误信息和警告信息,找出可能导致故障的原因。

5. 使用诊断工具在排查故障时,可以借助各种诊断工具来帮助我们定位故障。

比如CPU-Z可以查看硬件信息,Memtest可以检测内存是否正常,Wireshark可以抓包分析网络数据等。

二、修复故障1. 重启服务器有时候服务器故障可能只是临时性的问题,通过重启服务器可以解决一些故障。

在重启服务器之前,建议先保存好数据,避免数据丢失。

2. 更新驱动程序和系统补丁驱动程序和系统补丁的更新可以修复一些已知的bug和漏洞,提高服务器的稳定性和安全性。

定期检查并更新服务器的驱动程序和系统补丁是非常重要的。

3. 清理系统垃圾系统垃圾的堆积会影响服务器的性能,导致服务器运行缓慢甚至出现故障。

定期清理系统垃圾,释放磁盘空间,可以提高服务器的性能。

4. 修复硬件故障如果服务器出现硬件故障,比如硬盘损坏、内存故障等,需要及时更换故障硬件。

服务器故障排除指南解决常见服务器问题的技巧和方法

服务器故障排除指南解决常见服务器问题的技巧和方法

服务器故障排除指南解决常见服务器问题的技巧和方法服务器故障排除指南:解决常见服务器问题的技巧和方法在现代互联网时代,服务器作为承载网站、应用和数据的关键设备,经常遇到各种故障和问题。

本文将为您提供一份详尽的服务器故障排除指南,帮助您解决常见的服务器问题,以确保服务器的稳定和正常运行。

一、服务器无法启动1. 确保电源供应正常:检查服务器电源线是否连接牢固,并检查电源插座是否正常供电。

2. 检查硬件连接:检查主板、内存、硬盘等硬件是否正确连接,并确保连接牢固。

3. 诊断故障组件:逐一拔下内存、硬盘等组件,尝试重新启动服务器,以确定故障产生的具体组件。

4. BIOS设置检查:进入BIOS设置界面,确保硬件配置正常,没有被错误地禁用或修改。

二、服务器运行缓慢1. 资源利用率分析:通过服务器监控工具,查看CPU、内存、磁盘等资源的利用率,找出资源占用过高的进程或服务。

2. 优化操作系统:对操作系统进行优化配置,如关闭不必要的服务、禁用不常用的功能、合理调整系统缓存等。

3. 硬件升级:考虑升级服务器硬件,如增加内存、替换更高速的处理器或存储设备,以提升性能。

4. 考虑负载均衡:当服务器运行多个服务时,考虑引入负载均衡设备或技术,将负载分担到多台服务器上,提高整体性能。

三、服务器频繁重启1. 温度检查:检查服务器散热是否正常,确保风扇和散热器清洁,并避免服务器长时间在高温环境中运行。

2. 电源供应稳定性检查:排查是否有电源不稳定或电压波动的问题,可以使用稳压电源等设备,以确保电源供应的稳定性。

3. 错误日志分析:查看服务器的错误日志,了解具体的重启原因,可能是操作系统故障、硬件故障或驱动程序不兼容等。

4. 固件和驱动程序升级:及时更新服务器固件和驱动程序,修复已知的问题和漏洞,提高服务器的稳定性和兼容性。

四、网络连接问题1. 检查网络线缆连接:确保服务器的网络线缆连接松动或损坏,尝试更换线缆或重新插拔连接。

2. 防火墙和路由器设置:检查服务器所在的网络设备防火墙和路由器设置,确保正确配置端口转发和网络访问规则。

服务器维修故障诊断思路大全

服务器维修故障诊断思路大全

前言:相对PC机而言服务器出故障的机率是小多了,但是它的故障给企业也带来了一些影响。

作为服务器工程师除要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才能最快速的解决问题也可以减少故障停机时间。

本文并不是针对某个厂家服务器故障完全手册,而是根据个人经验总结出来的一些经验思路还有一些总结案例。

按照下面思路和方法基本上能够解决目前服务器更换式维修的大多数问题。

而且里面的一些操作风险性也不是很大,因为服务器本身就是坏的,最坏的情况下就是它一点都不能工作了呗,(主要确认是否有数据,数据无价啊)而且现在很多厂商都有自己的客服电话关于产品问题打个电话也很方便,所以安心做啦当然如果服务器在保修期内就打电话让售后工程师上门服务,毕竟顾客就是上帝嘛,但是如果上帝比较着急使用,一般小故障自己解决一下就好了,因为一般报修最快都是第二天(大客户如银行等除外,一般当天还得是晚上才能停机解决)目录:一、服务器常见故障分类二、服务器常见故障现象及其对应排错方法三、服务器排错基本原则四、服务器故障需要收集哪些信息五、服务器硬件故障排错实例六、服务器软件故障排错实例七、服务器常见内存故障现象一、服务器常见故障类型分类:A. 开机无显示B. 加电BIOS自检阶段故障C. 系统和软件安装阶段故障和现象D. 操作系统启动失败E. 系统运行阶段故障二、服务器常见故障现象及其对应的排除方法A.服务器开机无显示(加电无显示和不加电无显示)1. 检查供电环境2. 检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。

)3. 按下电源开关时,键盘指示灯是否亮、风扇是否全部转动4. 是否更换过显示器,尝试更换另外一台显示器5. 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试6. 是否添加了CPU,如果有增加CPU尝试去掉7. 去掉增加的第三方I/O卡包括Raid卡等8. ClearCMOS (记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服)9. 尝试更换主板、内存等主要部件10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下B.加电BIOS自检报错1. 根据BIOS自检报错信息提示2. 查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重启3. 做最小化测试4. 尝试清除CMOS5. 看能否正常进入BIOSC. 系统安装阶段故障和现象1.查看服务器支持操作系统的兼容版本(从厂商能查到兼容性列表)2.系统安装蓝屏(对蓝屏故障代码诊断)3.安装在分区格式化的时候找不到硬盘(阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装)4.大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡)(使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可)5.安装过程是死机(检查兼容性列表---查看硬盘接口选择是否正确---阵列驱动安装是否正确---尝试最小化配置安装检查是否为内存和CPU等问题)6.引导光盘安装失败(使用引导光盘安装失败,查看引导光盘版本是否匹配,尝试手动安装系统,如有阵列重新配置阵列引导安装)D. 操作系统启动失败1.在系统启动自检过程中有报错(具体查看启动报错信息在定方案)2.启动系统蓝屏(查看蓝屏代码核对)3.进入登陆界面死机(查看进入单用户或者安全模式是否正常,进入BIOS是否正常、是否会死机,进入磁盘阵列查看阵列状态是否正常,检查测试硬盘是否有坏道,最小化配置启动)4.忘记密码(windows 使用PE 破解,linux 进入单用户破解)E. 系统运行阶段故障1.安装数据库等应用软件报错 (对系统版本和软件版本是否兼容,查看报错信息是否缺少插件)2.系统运行速度变慢 (查杀病毒,检测阵列状态,测试硬盘有无坏道,重新安装系统或者修复)3.运行蓝屏 (查看蓝屏代码目录)4.运行死机 (检查进入BIOS是否死机,进入系统后测试部件温度是否正常,windows系统查看dump文件)5.硬盘拷贝数据文件速度变慢(测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带大小,与软件应用要求测试对比)三.服务器故障排错的基本原则:1. 尽量恢复系统出厂配置a:硬件配置:去除第三方厂商备件和非标配备件b:资源配置:清除CMOS、恢复资源初始配置c: BIOS、F/W、驱动程序:升级最新的BIOS、F/W和相关驱动程序d: TPL:扩展的第三方的I/O卡是否属于该机型的硬件兼容列表(TPL)2. 从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。

计算机维修的思路及故障诊断

计算机维修的思路及故障诊断

计算机维修的思路与故障诊断方法扬州高等职业技术学校毛娟引言计算机由硬件和软件组成,那计算机的故障也分为硬件故障和是软件故障,复杂的构成造成计算机故障形式的多样化、产生的原因复杂化,即使表象完全一致的故障,引发的原因却可能完全不同。

因此,摸索一套计算机维修的正确思路和可靠的故障诊断方法,是解决计算机维修问题的关键。

一、计算机维修的思路计算机维修是一个对计算机进行故障诊断的分析和实施解决的过程。

对于计算机及其系统不能一出现问题就忙着拆机器、重装系统,应根据其运行状况、特征变化来判断故障所在。

在计算机维修中,要进行故障诊断及维修,首先要掌握计算机的功能和特性,什么是正常状态、什么是故障状态,有一个判别标准;其次需要明白采取什么方法获得哪些故障状态信息;再次要知道处理这些故障信息的手段和方法,最终才能完成诊断维修过程。

二、计算机硬件故障计算机维修的硬件故障诊断方法主要有:观察法、替换法、隔离法、插拔法、测量法等,具体选用哪一种方法,依赖于各种因素,如计算机的技术指标、系统的复杂程度、计算机的状况(是否有故障显示)、每种方法的效能比等。

下面就这几种方法进行简单的讲解。

(一)、观察法计算机开机后,可能会出现无任何显示信息的状况,对此要全面仔细地对计算机进行观察,它贯穿于整个维修过程中。

要观察的内容包括:周围的环境,如机房的温度与湿度,防震、防尘、防静电,防电磁干扰等;硬件环境,如电源、CPU、主板、内存、硬盘等部件是否安装正确,包括接插头、插座和插槽等;用户操作的习惯、过程,如正确地开机、关机,尽量不使用来历不明的U盘、光盘;此外还要经常备份重要的数据,注意对病毒的防御、及时更新杀毒软件和系统补丁等。

观察的具体操作手段不外乎听、看、闻、摸等。

(1)听:一是认真听用户讲述故障现象、故障的起因及演变过程,在听讲的过程中结合自己积累的经验和有关的判据,初步确定可能引起故障的范围。

二是开机聆听机器各部位发出的响声及喇叭的报警声,不同的报警声将告诉你故障的位置。

服务器硬件故障排除指南快速定位与修复常见问题

服务器硬件故障排除指南快速定位与修复常见问题

服务器硬件故障排除指南快速定位与修复常见问题服务器硬件故障排除指南:快速定位与修复常见问题服务器作为现代互联网时代不可或缺的基础设施,承担着承载和处理海量数据的重要任务。

然而,由于长时间运行和各种环境因素的干扰,服务器硬件故障成为了不可忽视的问题。

为了帮助管理员和技术人员高效解决这些困扰,下面将提供一份服务器硬件故障排除指南。

一、CPU相关问题1. 服务器无法启动或者频繁死机这可能是由于CPU故障导致的,解决方法如下:- 检查CPU供电情况,确保供电正常;- 移除过热风扇,清洁散热器,并更换硅脂,以保证散热效果良好;- 如果CPU过热,可以尝试更换CPU风扇。

2. 性能下降或者运行速度变慢这可能是由于CPU寿命到期或者过载导致的,解决方法如下:- 检查CPU负载率,适当减轻负载;- 考虑升级CPU或增加额外的处理器核心。

二、内存相关问题1. 程序运行错误或者系统出现非法操作这可能是由于内存故障导致的,解决方法如下:- 检查内存插槽,确保内存条插紧;- 运行内存检测工具,寻找故障内存,并替换故障内存。

2. 内存溢出或者交换过多现象这可能是由于内存不足或者交换空间设置不合理导致的,解决方法如下:- 增加可用内存容量;- 调整交换空间配置;三、硬盘相关问题1. 硬盘读取错误或者无法访问这可能是由于硬盘故障导致的,解决方法如下:- 检查硬盘电缆,确保连接正常;- 运行磁盘检测工具,寻找并修复故障;- 如果硬盘电机无法启动,尝试更换硬盘。

2. 硬盘噪音过大这可能是由于硬盘损坏或者部件老化导致的,解决方法如下:- 备份数据,并更换硬盘。

四、电源相关问题1. 手机无法启动或者断电这可能是由于电源故障导致的,解决方法如下:- 检查电源连接线是否插紧;- 确保电源供电正常;- 如果电源损坏,更换电源。

2. 异常噪音或发热这可能是由于电源部件老化或者质量问题导致的,解决方法如下:- 定期清洁电源内部灰尘;- 如果电源散热不良,可以考虑更换高效散热的电源。

服务器硬件故障排查与维修的实用技巧

服务器硬件故障排查与维修的实用技巧

服务器硬件故障排查与维修的实用技巧服务器作为计算机网络中承担数据存储、处理和传输任务的关键设备,一旦发生硬件故障,将严重影响系统的运行和数据的安全。

因此,掌握服务器硬件故障排查与维修的实用技巧对于网络管理员来说至关重要。

本文将为您介绍一些实用的方法和步骤,旨在帮助您快速、准确地排查和修复服务器硬件故障,保障服务器的正常运行。

一、准备工作在开始服务器硬件故障排查和维修之前,我们首先需要进行一些准备工作。

以下是一些必要的步骤:1. 关闭服务器:在进行硬件故障排查和维修之前,务必先关闭服务器,并将其与电源断开连接,确保操作的安全性。

2. 工具准备:准备必要的工具,如螺丝刀、万用表、电压测试仪等。

这些工具将帮助我们更好地进行硬件故障排查和维修。

3. 防静电措施:由于静电可能对服务器硬件造成损害,我们需要在操作之前采取防静电措施,例如穿戴防静电手套或使用静电防护垫。

二、硬件故障排查一旦服务器发生故障,我们需要进行一系列针对硬件的排查工作,以确定具体的故障原因。

以下是一些建议的步骤:1. 检查电源:首先,我们需要确认服务器的电源是否正常工作。

检查电源插头是否插稳,电源线是否损坏,以及电源开关是否处于合适的位置。

2. 检查硬盘:硬盘是服务器中保存数据的重要组件。

如果服务器无法启动或出现数据访问错误,可能是硬盘故障所致。

使用适当的工具检查硬盘连接是否松动,或者进行磁盘扫描以排除可能的数据错误。

3. 检查内存:内存故障可能导致服务器运行缓慢或崩溃。

通过重新插拔内存条或更换已知正常的内存条,可以判断出是否存在内存故障。

4. 检查散热系统:服务器长时间运行会产生大量热量,正常的散热系统对于保障服务器的稳定运行至关重要。

检查风扇是否运转正常,散热片是否干净无尘,必要时进行清理或更换。

5. 检查其他硬件组件:除了以上常见的故障排查步骤,我们还应该检查其他硬件组件,如主板、显卡、网卡等。

有时,这些组件也可能是故障发生的源头。

服务器硬件故障排查与维修的实用技巧与经验分享

服务器硬件故障排查与维修的实用技巧与经验分享

服务器硬件故障排查与维修的实用技巧与经验分享在当今的信息时代,服务器扮演着重要的角色,它们是维护网络运行的核心设备。

然而,由于长时间运行和高负荷工作,服务器硬件故障时有发生。

为了保证服务器的稳定运行,及时排查和维修故障是至关重要的。

本文将分享一些服务器硬件故障排查与维修的实用技巧与经验,希望对读者有所帮助。

一、了解服务器硬件组成在进行服务器硬件故障排查与维修之前,首先需要了解服务器的硬件组成。

常见的服务器硬件包括主板、CPU、内存、硬盘、电源等。

熟悉服务器的硬件组成有助于我们更好地定位故障和维修。

二、故障排查前的准备工作在开始故障排查之前,必须做好准备工作。

首先,需要备份服务器的重要数据,以免在维修过程中造成数据丢失。

其次,确保有合适的维修工具,例如批头螺丝刀、万用表等。

最后,准备维修文档和厂商提供的技术手册,以便查询和参考。

三、常见的服务器硬件故障及排查方法1. 主板故障主板是服务器的核心组件之一,一旦主板出现故障,整个服务器都无法正常工作。

常见的主板故障包括电源供电异常、芯片焊接问题等。

排查主板故障时,可以通过检查电源供电情况、观察指示灯状态、检查芯片焊接点等方式判断主板是否损坏。

2. CPU故障CPU是服务器的计算核心,如果CPU出现故障,服务器性能将受到严重影响甚至无法启动。

排查CPU故障时,可以先检查散热器是否正常工作,然后验证CPU是否被正确安装,另外,还可以通过更换已知好的CPU来排除故障。

3. 内存故障内存是服务器存储数据和运行程序的地方,如果内存故障,服务器可能会出现死机和数据丢失等问题。

排查内存故障时,可以通过更换内存插槽、重新安装内存条等方式解决。

此外,还可以使用内存测试工具进行内存测试,以确定故障的具体位置。

4. 硬盘故障硬盘是服务器存储数据的设备,一旦硬盘出现故障,数据将无法读取或写入。

排查硬盘故障时,可以通过检查硬盘连接线是否正常、观察硬盘状态灯、使用硬盘诊断工具等方式判断硬盘是否损坏。

服务器故障排查和修复的方法

服务器故障排查和修复的方法

服务器故障排查和修复的方法在日常运维工作中,服务器故障是一个常见的问题,可能会给业务带来严重影响。

因此,及时有效地排查和修复服务器故障至关重要。

本文将介绍一些常见的服务器故障排查和修复方法,帮助管理员快速定位和解决问题。

### 一、网络连接故障1. **检查网络连通性**:首先要确认服务器是否能够正常访问外部网络,可以通过ping命令测试网络连通性。

如果ping不通,可能是网卡故障、网线问题或者路由器设置错误等原因导致。

2. **检查网卡状态**:使用ifconfig或ip addr命令查看网卡状态,确认网卡是否正常工作。

如果网卡down掉,可以尝试重启网卡或者更换网线。

3. **检查防火墙设置**:防火墙设置不当也可能导致网络连接故障,可以通过iptables -L命令查看防火墙规则,确认是否有误设置。

### 二、硬件故障1. **检查硬件状态**:服务器硬件故障可能包括CPU、内存、硬盘等组件,可以通过命令lshw或dmidecode查看硬件信息,确认硬件状态是否正常。

2. **查看日志信息**:在/var/log目录下查看syslog、messages等日志文件,查找是否有硬件故障的相关信息。

例如,硬盘出现坏道会在日志中有相应记录。

3. **运行硬件诊断工具**:可以使用一些硬件诊断工具如memtest86+、smartmontools等对硬件进行全面检测,帮助排查硬件故障。

### 三、操作系统故障1. **检查系统日志**:在/var/log目录下查看syslog、messages等日志文件,查找是否有系统错误或警告信息。

根据日志内容可以初步判断故障原因。

2. **查看进程状态**:使用ps命令查看系统中正在运行的进程,确认是否有异常进程占用资源过高或者异常退出的情况。

3. **重启服务**:有时候服务进程出现异常会导致服务器故障,可以尝试重启相关服务来恢复正常运行。

### 四、应用程序故障1. **检查应用日志**:查看应用程序的日志文件,确认是否有错误信息或异常情况发生。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

前言:相对PC机而言服务器出故障的机率是小多了,但是它的故障给企业也带来了一些影响。

作为服务器工程师除要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才能最快速的解决问题也可以减少故障停机时间。

本文并不是针对某个厂家服务器故障完全手册,而是根据个人经验总结出来的一些经验思路还有一些总结案例。

按照下面思路和方法基本上能够解决目前服务器更换式维修的大多数问题。

而且里面的一些操作风险性也不是很大,因为服务器本身就是坏的,最坏的情况下就是它一点都不能工作了呗,(主要确认是否有数据,数据无价啊)而且现在很多厂商都有自己的客服电话关于产品问题打个电话也很方便,所以安心做啦当然如果服务器在保修期内就打电话让售后工程师上门服务,毕竟顾客就是上帝嘛,但是如果上帝比较着急使用,一般小故障自己解决一下就好了,因为一般报修最快都是第二天(大客户如银行等除外,一般当天还得是晚上才能停机解决)目录:一、服务器常见故障分类二、服务器常见故障现象及其对应排错方法三、服务器排错基本原则四、服务器故障需要收集哪些信息五、服务器硬件故障排错实例六、服务器软件故障排错实例七、服务器常见内存故障现象一、服务器常见故障类型分类:A. 开机无显示B. 加电BIOS自检阶段故障C. 系统和软件安装阶段故障和现象D. 操作系统启动失败E. 系统运行阶段故障二、服务器常见故障现象及其对应的排除方法A.服务器开机无显示(加电无显示和不加电无显示)1. 检查供电环境2. 检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。

)3. 按下电源开关时,键盘指示灯是否亮、风扇是否全部转动4. 是否更换过显示器,尝试更换另外一台显示器5. 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试6. 是否添加了CPU,如果有增加CPU尝试去掉7. 去掉增加的第三方I/O卡包括Raid卡等8. ClearCMOS (记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服)9. 尝试更换主板、内存等主要部件10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下B.加电BIOS自检报错1. 根据BIOS自检报错信息提示2. 查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重启3. 做最小化测试4. 尝试清除CMOS5. 看能否正常进入BIOSC. 系统安装阶段故障和现象1.查看服务器支持操作系统的兼容版本(从厂商能查到兼容性列表)2.系统安装蓝屏(对蓝屏故障代码诊断)3.安装在分区格式化的时候找不到硬盘(阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装)4.大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡)(使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可)5.安装过程是死机(检查兼容性列表---查看硬盘接口选择是否正确---阵列驱动安装是否正确---尝试最小化配置安装检查是否为内存和CPU等问题)6.引导光盘安装失败(使用引导光盘安装失败,查看引导光盘版本是否匹配,尝试手动安装系统,如有阵列重新配置阵列引导安装)D. 操作系统启动失败1.在系统启动自检过程中有报错(具体查看启动报错信息在定方案)2.启动系统蓝屏(查看蓝屏代码核对)3.进入登陆界面死机(查看进入单用户或者安全模式是否正常,进入BIOS是否正常、是否会死机,进入磁盘阵列查看阵列状态是否正常,检查测试硬盘是否有坏道,最小化配置启动)4.忘记密码 (windows 使用PE 破解,linux 进入单用户破解)E. 系统运行阶段故障1.安装数据库等应用软件报错(对系统版本和软件版本是否兼容,查看报错信息是否缺少插件)2.系统运行速度变慢(查杀病毒,检测阵列状态,测试硬盘有无坏道,重新安装系统或者修复)3.运行蓝屏(查看蓝屏代码目录)4.运行死机(检查进入BIOS是否死机,进入系统后测试部件温度是否正常,windows系统查看dump文件)5.硬盘拷贝数据文件速度变慢 (测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带大小,与软件应用要求测试对比)三.服务器故障排错的基本原则:1. 尽量恢复系统出厂配置a:硬件配置:去除第三方厂商备件和非标配备件b:资源配置:清除CMOS、恢复资源初始配置c: BIOS、F/W、驱动程序:升级最新的BIOS、F/W和相关驱动程序d: TPL:扩展的第三方的I/O卡是否属于该机型的硬件兼容列表(TPL)2. 从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。

b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。

c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。

3. 部件交换对比测试a:在最大可能相同的条件下,交换操作简单效果明显的部件b:交换NOS载体,既交换软件环境c:交换硬件,既交换硬件环境d:交换整机,既交换整体环境总结:在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。

一般来说不可能一次就可以准确地判断出问题的所在。

这样就要求工程师要有信心和耐心。

出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。

总之,服务器出错后必须一步一步解决,没有捷径可言。

四、服务器故障排除需要收集哪些信息1.服务器信息:①. 机器型号: 什么厂家的机器、什么型号如:DELL R720服务器②. 机器序列号或主机编号(如:主机编号为NC00755666)③. 是否增加其它设备,如网卡、Raid 卡、内存、CPU等④. 硬盘配置,如是否做磁盘阵列, 阵列级别⑤. 安装什么操作系统及版本(win2003、Redhat等)⑥. 在故障前有没有做过操作、或者运行了什么软件⑦. BIOS 版本2.故障信息:①. 在POST自检时,屏幕显示的异常信息②. 服务器本身指示灯的状态③. 报警声和BEEP CODES④. 系统的事件记录文件⑤. Sel 日志五、服务器硬件故障处理实际案例(因厂家机型不同,在实际问题中如果遇到相似现象,也需要具体问题具体分析,请不要盲目套用)硬件故障是指服务器硬件出现异常而导致的各类错误,由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。

实例一:有一台XXX型号服务器,配有256M内存,使用一个PIIIXEON 500带2M高速缓存的处理器。

开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。

这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。

因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压报错的情况也有5%左右。

我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。

所以在初步判断中,可以排除是CPU板块坏。

这时取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。

相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。

于是立即在另一台同型号服务器中取下一个处理器电压模块,安装在此服务器中。

开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。

这时的情况就比较明显了。

于是立即从另一台同类型服务器中取下一个CPU安装后,开机正常。

实例二:有一台XXX型号服务器不显示,发现开机时系统日志没有任何信息,且系统指示灯不亮。

初步判断是电源方面出现了错误。

经过仔细检查,发现服务器的电源是正常的,因此最大的可能就是服务器的电源管理板出现故障。

更换电源管理板后,开机显示正常。

但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。

硬盘在别的服务器上是正常的,因此立即清除此服务器的CMOS,但依然不正常。

立刻上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。

又检查硬盘笼子和服务器里的数据线及电源线后依然出错。

这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。

但就在这个时候,工程师发现在I/O板上有一个非XXX型号服务器标配的旧式网卡,立即去除此网卡后服务器就一切正常。

硬件故障并不单单指硬件有问题,它也指硬件之间不兼容。

因为服务器的正常运作需要各部件之间的大力协调。

建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障。

实例三:用户需要把他的XXX型号服务器升级到双网卡,我建议他购买原装网卡,但当他看到XXX型号服务器的网卡是采用的INTEL 82559芯片后,断然决定不使用原装网卡而采用另一品牌也采用INTEL 82559的网卡。

过了几天,他打电话给我说,他的新网卡不能使用网络冗余及数据校验,并怀疑服务器有问题。

工程师带了一个INTEL 82559网卡到用户那里,仔细检查了服务器的环境完全正常后,把INTEL 82559网卡安装到机器上后一切正常。

这个例子更加说明了,要发挥服务器的最大性能及功能,必须使用原品牌原装的配件。

非原品牌非原装的配件,不能支持服务器的某些功能,严重的会影响到服务器的正常使用。

要避免硬件故障发生频率,服务器管理人员必须注意服务器的使用环境完全正常。

比较重要的服务器必须在恒温、恒湿的环境;电压也要符合,不仅要采用UPS,还必须接地线,必须是左零线、右火线,零地电压在1~3伏。

在开、关服务器上必须符合正常的流程。

工作人员必须严格执行操作流程。

实例四:服务器故障现象:一台XXX型号服务器,近期频繁出现几次蓝屏幕死机故障。

趁死机关闭的机会,将内存由原来的128M升级到512M(普通内存),并且在系统CMOS设置中选择装入(Load)最优参数设置,对内存每个单元进行检测。

怪异服务器故障出现了,当我开机后,内存检测正常,但是屏幕提示须重新SETUP,按指定的[F2]键后却死机。

我装个内存条招谁惹谁了,怎么会死机?而且内存检测正常啊?服务器故障处理:服务器出了故障就要解决,哪怕是怪异服务器故障。

按照缩小故障源的思路,换回原来的内存条,逐步去掉各个部分(软驱、硬盘、光驱等),可是这个怪异服务器故障依然存在。

相关文档
最新文档