HP服务器故障排除实战

合集下载

服务器故障处理手册范本

服务器故障处理手册范本

服务器故障处理手册范本第一章:引言服务器是现代信息技术发展中不可或缺的一部分。

然而,随着服务器使用量的增加,服务器故障的频率也随之增加。

为了保障服务器的稳定运行和数据的安全,有必要建立一份服务器故障处理手册,以指导运维人员在遇到故障时能够快速定位和解决问题。

本手册旨在为管理员提供一份范本,帮助其根据实际情况定制适合自身服务器环境的故障处理手册。

第二章:故障识别与分类2.1 故障识别服务器故障的识别是故障解决的第一步,常见的故障识别包括网络连接、硬件故障、系统崩溃等。

管理员需要通过日志、系统监控工具等手段来定位故障原因。

2.2 故障分类根据故障的性质和影响程度,可以将故障分为紧急故障、一般故障和次要故障。

不同类型的故障需要采取不同的处理策略和时间安排,管理员应根据实际情况进行分类。

第三章:紧急故障处理3.1 紧急故障定义紧急故障指的是服务器遭遇停机、系统崩溃等导致业务无法正常进行的故障,处理紧急故障时需要迅速且高效地恢复服务器功能。

3.2 紧急故障处理流程1. 迅速通知相关人员:管理员应立即通知上级、相关技术人员和业务人员,确保所有人员都能及时响应。

2. 开启备用服务器:若有备用服务器,应及时切换至备用服务器,确保业务的持续运行。

3. 分析故障原因:管理员通过查看日志、排除硬件故障等方式,尽快确定故障原因。

4. 发布紧急修复方案:管理员需根据故障原因和解决方法,编写紧急修复方案,并尽快发布给相关人员。

5. 实施修复方案:相关人员按照修复方案进行操作,确保服务器功能的快速恢复。

6. 监测与验证:恢复服务器功能后,管理员需要对服务器进行监测和验证,确保故障已经解决。

7. 故障报告和总结:管理员需撰写故障报告和总结,包括故障原因、处理过程、修复方法等信息,以供后续参考和优化。

第四章:一般故障处理4.1 一般故障定义一般故障指的是服务器遇到影响业务但非立即崩溃的故障,处理一般故障时需要在较短的时间内解决问题,并确保业务正常进行。

惠普服务器常见问题及故障排除.课件

惠普服务器常见问题及故障排除.课件

指示灯
描述
状态
1
驱动器活动 On =驱动器活动状态
状态
Off =无驱动器活动状态
2
在线工作状 闪烁 =在线工作状态

Off =无在线工作状态
3
故障状态
闪烁 =故障状态 Off =无故障状态
常见问题及故障排除– 13
联系我们!-技术支持热线
如果发现服务器出现异常现象(比如日志报错、红灯闪烁、有报警声等),可以先按照随 服务器附带的《用户指南》种的“故障排除”部分进行简单的排错。如果不能解决问题,
安装防火墙或者病毒监测程序 定期查毒,实时监控,并注意更新最新的病毒特征码
常见问题及故障排除– 5
数据安全维护
定期做数据备份,推荐使用磁带机或其他专业备 份工具和备份软件。 在进行任何硬盘操作前,备份数据。包括:更换 硬盘、重新配置阵列、阵列扩容等等。
常见问题及故障排除– 6
服务器简单排错-保证各设备连接正常
常见问题及故障排除– 4
定期检查Windows 2000的日志
查看Windows 2000/Windows2003的日志包括: 系统日志、安全日志和应用程序日志。分别记录操作系统、安 全相关和应用程序的事件(包括正常的事件和警告或出错信息 )。通过“开始菜单-〉程序-〉管理工具-〉事件察看器”可以 察看这三种日志。
服务器环境海拔要求 操作海拔:-30m ~ 3,045m 非操作海拔:-30 ~ 12,180m
服务器机房电源要求 输入范围:50/60 Hz时为100至240 VAC 电源功率:最大780W持续功率 零地电压: ≤ 1V
保持机房环境符合服务器工作要求,定期检查并进行除尘工作。
常见问题及故障排除– 2

HP服务器与存储系统安装、管理与故障排查指南说明书

HP服务器与存储系统安装、管理与故障排查指南说明书

This document is for the person who installs, administers, andtroubleshoots servers and storage systems. HP assumes that you are qualified in servicing computer equipment and trained in recognizing hazards in products with hazardous energy levels.© Copyright 2005 Hewlett-Packard Development Company, L.P .Hewlett-Packard Company makes no warranty of any kind with regard tothis material, including, but not limited to, the implied warranties of merchantability and fitness for a particular purpose. Hewlett-Packard shall not be liable for errors contained herein or for incidental or consequential damages in connection with the furnishing, performance, or use of this material.This document contains proprietary information, which is protected by copyright. No part of this document may be photocopied, reproduced, or translated into another language without the prior written consent of Hewlett-Packard. The information contained in this document is subject to change without notice.Hewlett-Packard Company shall not be liable for technical or editorial errors or omissions contained herein. The information is provided “as is” without warranty of any kind and is subject to change without notice. The warranties for Hewlett-Packard Company products are set forth in the express limited warranty statements accompa-nying such products. Nothing herein should be construed as constituting an additional warranty.Printed in the U.S.A.hp ProLiantDL585 Storage ServerHP ProLiant DL585 Storage Server Installation Instructions First Edition (March 2005)Part Number: 389150-001WARNING: This product contains energy levels that areconsidered hazardous. To reduce the risk of personal injury from electric shock and hazardous energy, individuals who are knowledgeable of the procedures, precautions, and hazards associated with equipment containing hazardous energy circuits must perform the installation and servicing of this product.•Obtain adequate assistance to lift and stabilize the chassis during installation or removal.•Be aware that the product becomes unstable when it is not fastened to the rails.•Before removing the server from the rack, remove all hot-plug power supplies, power modules, and drives to reduce the overall weight of the product.•Extend leveling jacks fully to the floor and make sure that the full weight of the rack rests on the leveling jacks.•Install stabilizing feet on single-rack installations.•Couple multiple-racks.•Only extend one rack component at a time. The rack will become unstable if more than one device is extended.A rack resource kit ships with all HP branded or Compaq branded 9000,10000, and H9 series racks. For more information on the content of each resource, refer to the rack resource kit documentation.If you intend to deploy and configure multiple servers in a single rack,refer to the white paper on high-density deployment at the HP website./products/servers/platformsThe HP ProLiant DL585 Storage Server is preloaded with the Windows ®Storage Server 2003 operating system. Prior to power up, deployment instructions found in the “User Guide” should be followed to enable the successful configuration of the storage server in addition to the guidelines found below.Required Items:User GuideAdministration GuideTo begin the first-time startup procedure:Be sure that the server is safely installed in an adequateenvironment.Be sure that the power cables and peripheral devices are plugged inand AC power is supplied to the server.Refer to the User Guide prior to powering up the server.389150-001Remove shipping bracket from the PCI Basket, loosen thethumbscrew (1) and remove and discard the shipping bracket (2).NOTE: The shipping bracket is used only to secure the PCIlatches during shipment.Install optionsIf you are installing additional options, such as expansion boards,processors, hard drives, or memory, refer to the instructionsincluded with the option.NOTE: For quick start memory guidelines, refer to the hood labels on theserver.1.Install the rails on both sides of the chassis.2.Pull the rail compression lever toward you.3.Install the rear of the rail into the designated holes in the rear ofthe rack.4.Install the front of the rail into the designated holes in the frontof the rack.5.Install the rails on the chassis into the rails in the rack.6.Slide the server onto the rack rails until the lockingpin engages.7.Tighten the thumbscrews to secure the server to the rack.The ProLiant DL585 server can operate either on a 120-V or a 240-V AC input. Two AC inlets are on the rear of the server, one for each power supply installed.WARNING: To reduce the risk of electric shock or damage to the equipment:•Do not disable the power cord-groundingplug. The grounding plug is an important safety feature.•Plug the power cord into a grounded (earthed)electrical outlet that is easily accessible at all times.•Disconnect power from the server by unpluggingthe power cord from either the electrical outlet or the server.To connect the power cord:1.Locate the correct voltage line cord that came with the server. Remove any labels that cover the cord connector.IMPORTANT: To connect the power cord, plug it into the appropriate power supply AC inlet. The power connector is connector number one for the primary (populated) power supply and is connector number two for the redundant hot-plug power supply.2.Plug the other end of the power cord into a grounded electrical outlet or UPS, depending on power cord type.3.Connect the peripheral device cables to the server, and then route the power cord and device cables through the cable management arm.Attaching cable management arm to a square-hole rack1.Slide the bracket onto the rack (1).2.Insert the bracket hooks into the square holes on the rack, and then push down to secure (2).3.Tighten the thumbscrew to stabilize the cable management armon the rack (3).Attaching the cable management arm to a round-hole rack1.Remove the square-hole bracket from the cable management arm by pulling out the spring-activated fasteners (1), and thenpulling out the bracket (2).2.Attach the round-hole bracket by pulling the spring-activated fasteners on the cable management arm out (1), and then inserting the bracket between them (2).3.Slide the bracket onto the rack (1).4.Attach the cable management arm to the round-hole rack, andthen secure the thumbscrews (2).To register your product visit the HP Registration web site at:Attaching the cable management arm to the server1.Loosen the thumbscrews on the front of the server to enable theserver to slide forward.3.Secure the cables to the inside of the cable management arm using the V elcro straps.2.Align the keyholes on the cable management arm with the postson the server (1), and then secure with the thumbscrew (2).Securing the cables to the cable management arm1.Align the pivot points of the cable management arm by slidingthe server as needed.2.Pivot the arm away from the server.4.Close the cable management arm and finish securing the cables.The hardware installation is now complete. Please refer to the “HP ProLiant Storage Server User Guide.”Installation Instructions Rack template tool used during rack installation contains:Administration guide User GuideHP Warranty fulfillment documentprovides instructions to obtain a printed warrantyHP Important Safety Information bookletSafety information for HP storage, power,networking and rack productsDocumentation CDrequirements and configuration options User Guiderack installation poster Administration Guideprovides administrative and procedural instructions to manage the storage server。

HP DL388Gen8服务器raid硬盘故障标示识别与恢复

HP DL388Gen8服务器raid硬盘故障标示识别与恢复

惠普HP DL388 Gen8服务器raid硬盘故障标示识别与恢复作者:CGQ912016-5-12最近,单位里一台惠普服务器出现异常,速度特慢,有些服务不响应,用户报告应用系统无法访问服务器,随后检查该服务器,发现指示灯异常。

该机器型号、配置:HP DL388e gen8 双CPU、16GB内存,3块15000转/min 300GB 做Raid5,操作系统为Win2008 server R2 Enterprise检查发现第三块盘,亮起黄色指示灯,上面两块盘,亮起白色指示灯,见图一,另外服务器前板指示灯也变黄色,闪烁见图二。

虽然重启服务器后,第三块盘先黄灯后又变绿灯,但上两块盘一直亮白灯。

图一查询相关技术资料,两块盘亮白灯,表示该盘不能被拔除,否则逻辑分区将损坏,意思两块其中再有任何一块盘出问题,这系统就彻底完蛋了!服务器电源按钮旁边的指示灯黄闪,表示系统硬件出现故障,系统降级使用,等待恢复,大概就是这么个意思。

用惠普服务器自带的软件工具,可以检测硬件故障所在。

见图三,打开“HP Insight Diagnostics Online Edition for windows”图三出现如图四的登录界面,有时IE8安全级别问题,可能不能直接打开网页,点“继续浏览此网站(不推荐)”打开。

输入该服务器的管理员账号密码,进入后,出现系统扫描界面,见图五。

图五扫描完成后,出现服务器硬件信息。

点击“诊断”选项卡,勾选“逻辑驱动器1,插槽0中的存储控制器”,其它不用选。

再点击窗口右下角“诊断”按钮,系统开始诊断。

几秒后,出现诊断后的“状态”页面,显示硬件状态,这里报了Raid故障,故障代码F297,报了第三块盘的故障代码F149。

到此,可以判断第三块盘出现了故障,需要更换。

我这个盘显示运行了40多个月了,肯定出保了,需要单位自购。

这款硬盘目前也不是主流配件了,主要是库存货,注意货号要与原盘一致。

自购HP硬盘很顺利,两天后,拿到了货。

[讲解]HP服务器的一些启动报错的原因和解决办法(中英双语)

[讲解]HP服务器的一些启动报错的原因和解决办法(中英双语)

304-Keyboard or System Unit Erroraudible beeps: nonepossible cause: keyboard, keyboard cable, mouse controller, or system board failure.action:1. be sure the keyboard and mouse are connected.only authorized technicians trained by hp should attempt to remove the system board. if you believe the system board requires replacement, contact hp technical support before proceeding.2. run insight diagnostics ("hp insight diagnostics" on page 101) and replace failed components as indicated.400 serieslist of messages:40x-parallel port x address assignment conflict404-parallel port address conflict detected40x-parallel port x address assignment conflictaudible beeps: 2 shortpossible cause: both external and internal ports are assigned to parallel port x.action: run the server setup utility and correct the configuration.404-parallel port address conflict detected......a hardware conflict in your system is keeping some system components from working correctly. if you have recently added new hardware remove it to see if it is the cause of the conflict. alternatively, use computer setup or your operating system to insure that no conflicts exist.audible beeps: 2 shortpossible cause: a hardware conflict in the system is preventing the parallel port from working correctly.action:1. if you have recently added new hardware, remove it to see if the hardware is the cause of the conflict.2.run the server setup utility to reassign resources for the parallel port and manually resolve the resource conflict.3. run insight diagnostics ("hp insight diagnostics" on page 101) and replace failed componentsas indicated.600 serieslist of messages:601-diskette controller error602-diskette boot record error605-diskette drive type error611-primary floppy port address assignment conflict612-secondary floppy port address assignment conflict601-diskette controller erroraudible beeps: nonepossible cause: diskette controller circuitry failure occurred.action:1. be sure the diskette drive cables are connected.2. replace the diskette drive, the cable, or both.3. run insight diagnostics ("hp insight diagnostics" on page 101) and replace failed components as indicated.602-diskette boot record erroraudible beeps: nonepossible cause: the boot sector on the boot disk is corrupt.action:1. remove the diskette from the diskette drive.2. replace the diskette in the drive.3. reformat the diskette.605-diskette drive type error.audible beeps: 2 shortpossible cause: mismatch in drive type occurred.action: run the server setup utility to set the diskette drive type correctly.611-primary floppy port address assignment conflictaudible beeps: 2 shortpossible cause: a hardware conflict in the system is preventing the diskette drive fromoperating properly.action:1. run the server setup utility to configure the diskette drive port address and manually resolve the conflict.2. run insight diagnostics ("hp insight diagnostics" on page 101) and replace failed components as indicated.612-secondary floppy port address assignment conflictaudible beeps: 2 shortpossible cause: a hardware conflict in the system is preventing the diskette drive from operating properly.action:1. run the server setup utility to configure the diskette drive port address and manually resolve the conflict.2. run insight diagnostics ("hp insight diagnostics" on page 101) and replace failed components as indicated.1100 serieslist of messages:1151-com port 1 address assignment conflict1151-com port 1 address assignment conflictaudible beeps: 2 shortpossible cause: both external and internal serial ports are assigned to com x.action: run the server setup utility and correct the configuration.1600 serieslist of messages:1609 - the server may have a failed system battery. some1610-temperature violation detected. - waiting 5 minutes for system to cool1611-cpu zone fan assembly failure detected. either1611-cpu zone fan assembly failure detected. single fan1611-fan failure detected1611-fan x failure detected (fan zone cpu)1611-fan x failure detected (fan zone i/o)1611-fan x not present (fan zonecpu)1611-fan x not present (fan zone i/o)1611- power supply zone fan assembly failure detected. either1611-power supply zone fan assembly failure detected. single fan1611-primary fan failure (fan zone system)1611-redundant fan failure (fan zone system)1612-primary power supply failure1615-power supply configuration error1615-power supply configuration error1615-power supply failure, power supply unplugged, or power supply fan failure in bay x 1616-power supply configuration failure1609 - the server may have a failed system battery. some......configuration settings may have been lost and restored to defaults. refer to server documentation for more information. if you have just replaced the system battery, disregard this message.audible beeps: nonepossible cause: real-time clock system battery has lost power. the system will lose its configuration every time ac power is removed (when the system is unplugged from ac power source) and this message displays again if a battery failure has occurred. however, the system will function and retain configuration settings if the system is connected to the ac power source.action: replace battery (or add external battery).1610-temperature violation detected. - waiting 5 minutes for system to coolaudible beeps: nonepossible cause: the ambient system temperature exceeded acceptable levels.action: lower the room temperature.1611-cpu zone fan assembly failure detected. either......the assembly is not installed or multiple fans have failed in the cpu zone.audible beeps: nonepossible cause: required fans are missing or not spinning.action:1. check the fans to be sure they are installed and working.2. be sure the assembly is properly connected and each fan is properly seated.3. if the problem persists, replace the failed fans.4. if a known working replacement fan is not spinning, replace the assembly.1611-cpu zone fan assembly failure detected. single fan......failure. assembly will provide adequate cooling.audible beeps: nonepossible cause: required fan not spinning.action: replace the failed fan to provide redundancy, if applicable.1611-fan failure detectedaudible beeps: 2 shortpossible cause: required fan not installed or spinning.action:1. check the fans to be sure they are working.2. be sure each fan cable is properly connected and each fan is properly seated.3. if the problem persists, replace the failed fans.1611-fan x failure detected (fan zone cpu)audible beeps: 2 shortpossible cause: required fan not installed or spinning.action:1. check the fans to be sure they are working.2. be sure each fan cable is properly connected, if applicable, and each fan is properly seated.3. if the problem persists, replace the failed fans.1611-fan x failure detected (fan zone i/o)audible beeps: 2 shortpossible cause: required fan not installed or spinning.action:1. check the fans to be sure they are working.2. be sure each fan cable is properly connected, if applicable, and each fan is properly seated.3. if the problem persists, replace the failed fans.1611-fan x not present (fan zonecpu)audible beeps: 2 shortpossible cause: required fan not installed or spinning.action:1. check the fans to be sure they are working.2. be sure each fan cable is properly connected, if applicable, and each fan is properly seated.3. if the problem persists, replace the failed fans.1611-fan x not present (fan zone i/o)audible beeps: 2 shortpossible cause: required fan not installed or spinning.action:1. check the fans to be sure they are working.2. be sure each fan cable is properly connected, if applicable, and each fan is properly seated.3. if the problem persists, replace the failed fans.1611- power supply zone fan assembly failure detected. either......the assembly is not installed or multiple fans have failed.audible beeps: nonepossible cause: required fans are missing or not spinning.action:1. check the fans to be sure they are installed and working.2. be sure the assembly is properly connected and each fan is properly seated.3. if the problem persists, replace the failed fans.4. if a known working replacement fan is not spinning, replace the assembly.1611-power supply zone fan assembly failure detected. single fan......failure. assembly will provide adequate cooling.audible beeps: nonepossible cause: required fan not spinning.action: replace the failed fan to provide redundancy, if applicable.1611-primary fan failure (fan zone system)audible beeps: nonepossible cause: a required fan is not spinning.action: replace the failed fan.1611-redundant fan failure (fan zone system)audible beeps: nonepossible cause: a redundant fan is not spinning.action: replace the failed fan.1612-primary power supply failureaudible beeps: 2 shortpossible cause: primary power supply has failed.action: replace power supply.1615-power supply configuration erroraudible beeps: nonepossible cause: the server configuration requires an additional power supply. a moving bar is displayed, indicating that the system is waiting for another power supply to be installed.action: install the additional power supply.1615-power supply configuration error- a working power supply must be installed in bay 1 for proper cooling.- system halted!audible beeps: nonepossible cause: the server configuration requires an additional power supply. a moving bar is displayed, indicating that the system is waiting for another power supply to be installed.action: install the additional power supply.1615-power supply failure, power supply unplugged, or power supply fan failure in bay x audible beeps: nonepossible cause: the power supply has failed, or it is installed but not connected to the system board or ac power source.action: reseat the power supply firmly and check the power cable or replace power supply.1616-power supply configuration failure-a working power supply must be installed in bay 1 for proper cooling.-system halted!audible beeps: nonepossible cause: power supply is improperly configured. action: run the server setup utility and correct the configuration.。

HP DL380 Gen9阵列Smart Storage Administrator错误信息(一)

HP DL380 Gen9阵列Smart Storage Administrator错误信息(一)

本篇文章提供HPE ProLiant 服务器Smart Array关联的错误消息列表。

本文适合安装和管理服务器或服务器刀片以及对其进行故障排除的人员使用。

其中列出了ProLiant 服务器和服务器刀片上的错误消息,并提供了一些信息以帮助解释错误消息和解决问题。

可以使用这些消息排除Hewlett Packard Enterprise 设备的故障并优化这些设备的运行方式。

Array status: The array has failed症状:Array status: The array has failed.原因:阵列中的物理或逻辑驱动器发生故障。

操作:检查阵列中发生故障的物理或逻辑驱动器并纠正任何问题。

1.Array status: The array currently has a drive erase operation queued, running, stoppedor completed on a logical or physical drive症状:Array status: The array currently has a drive erase operation queued, running, stopped or completed on a logical or physical drive.原因:驱动器擦除操作已在队列中、正在运行、已停止或已完成。

操作:不需要采取任何措施。

2.Array Status: The array has a spare drive assigned which is smaller than the smallestdata drive in the array症状:Array Status: The array has a spare drive assigned which is smaller than the smallest data drive in the array. Some operations in the array will not be available.原因:备用驱动器不够大。

服务器硬件故障排除和维修的实际案例

服务器硬件故障排除和维修的实际案例

服务器硬件故障排除和维修的实际案例在现代信息技术高速发展的时代,服务器扮演着非常重要的角色。

然而,由于各种原因,服务器硬件故障时有发生。

本文将探讨一些实际案例,介绍了如何排除和维修服务器硬件故障。

案例一:电源故障在公司A的数据中心,突然出现了一台服务器宕机的情况。

通过排查,我们发现服务器无法正常启动。

经过检查,发现电源插头没有插好,导致电源无法供应给服务器。

重新插好电源之后,服务器恢复正常运转。

案例二:硬盘故障公司B的一台服务器报告了硬盘错误的警告信息。

我们迅速采取了措施,通过服务器管理工具检查硬盘状态。

经过分析,发现一个硬盘出现了故障。

我们立即更换了故障硬盘,并进行了数据恢复。

最后,服务器重新正常运行。

案例三:内存故障某天,在公司C的服务器上,我们发现应用程序运行缓慢,出现了频繁的卡顿现象。

我们首先使用服务器监控工具检查服务器的内存使用情况。

通过检查,我们发现一块内存模块出现了问题。

我们立即更换了故障内存,服务器的性能问题也得到了解决。

案例四:风扇故障在公司D的服务器房,我们听到了异常的噪音,通过观察发现服务器后方的风扇停止工作。

我们立即关闭了服务器,并更换了风扇。

经过启动服务器,噪音问题得到了解决。

案例五:主板故障公司E的一台服务器在正常运行中突然关机,并伴随着烧焦的味道。

我们意识到这是一种非常严重的情况。

经过分析,确认主板发生了故障。

我们联系服务器厂商,并更换了主板。

经过一系列测试,服务器重新运行正常。

案例六:网络接口故障在公司F的一台服务器上,我们发现无法远程登陆服务器。

我们首先确认了网络连接是否正常,发现服务器的网卡出现了故障。

我们更换了网卡,服务器恢复了远程访问的能力。

综上所述,服务器硬件故障是一个常见的问题,但通过合适的排除和维修方法,这些问题可以迅速解决。

无论是电源故障、硬盘故障、内存故障,还是风扇故障、主板故障或者网络接口故障,关键在于迅速找到故障点并进行适当的修复或更换。

因此,在维护服务器和保养硬件方面,及时的检查、预防和处理故障是至关重要的。

HP ProLiant Gen9 故障排除指南

HP ProLiant Gen9 故障排除指南

HP ProLiant Gen9 故障排除指南第一卷:故障排除指南摘要本文介绍了很多级别的 HP ProLiant Gen9 服务器故障排除的常见步骤和解决方法。

本文适合安装和管理服务器或服务器刀片以及对其进行故障排除的人员使用。

HP 假定您有资格维修计算机设备,并经过培训,可识别高压带电产品中的危险情况。

© Copyright 2014, 2015 Hewlett-Packard Development Company, L.P.本文档中包含的信息如有更改,恕不另行通知。

随 HP 产品和服务附带的明确保修声明中阐明了此类产品和服务的全部保修服务。

本文档中的任何内容均不应理解为构成任何额外保证。

HP 对本文档中出现的技术错误、编辑错误或遗漏之处概不负责。

AMD 是 Advanced Micro Devices, Inc. 的商标。

Microsoft® 和 Windows® 是 Microsoft 集团公司的商标。

Oracle 是 Oracle 和/或其分支机构的注册商标。

Linux® 是 Linus Torvalds 在美国和其它国家/地区的注册商标。

Red Hat® 是 Red Hat, Inc. 在美国和其它国家/地区的注册商标。

SD 和 microSD 是 SD-3C 在美国和/或其它国家/地区的商标或注册商标。

VMware 是 VMware, Inc. 在美国和/或其它司法辖区的注册商标或商标。

部件号:795674-AA32015 年 6 月版本:3目录1 使用本指南 (1)如何使用本指南 (1)新增内容(第三版) (2)795674-XX2(2014 年 12 月) (2)2 故障排除的准备工作 (4)预诊断步骤 (4)重要安全信息 (4)设备上的符号 (4)警告和注意 (5)静电释放 (6)防止静电释放 (6)防止静电释放的接地方法 (6)症状信息 (7)服务器诊断的准备工作 (8)执行故障排除流程中的处理器步骤 (9)将服务器降级到最低硬件配置 (9)3 常见问题的解决方法 (10)连接松动 (10)服务通知 (10)固件更新 (10)在启用了 HP Trusted Platform Module 和 BitLocker 的情况下更新服务器 (11)DIMM 操作准则 (11)DIMM 安装和配置准则 (11)组件 LED 指示灯定义 (11)SAS、SATA 和 SSD 驱动器准则 (12)热插拔驱动器 LED 定义 (12)系统电源 LED 指示灯定义 (13)运行状况 LED 条形指示灯定义(仅限刀片) (13)前面板 LED 指示灯和按钮 (13)前面板 LED 指示灯电源故障代码 (14)4 远程故障排除 (16)远程故障排除工具 (16)远程访问 Virtual Connect Manager (17)ZHCN iii使用 HP iLO 对服务器和服务器刀片进行远程故障排除 (17)使用 Onboard Administrator 对服务器刀片进行远程故障排除 (18)使用 OA CLI (18)5 诊断流程图 (20)故障排除流程图 (20)使用诊断流程图 (20)在开始之前收集重要信息 (21)故障排除流程图引用网站 (21)初始诊断流程图 (21)远程诊断流程图 (22)开机故障流程图 (23)服务器开机故障流程图(ML、DL 和 SL 系列) (23)服务器开机故障流程图(XL 系列) (24)服务器刀片开机故障流程图(BL 系列) (25)POST 故障流程图 (27)Intelligent Provisioning 故障流程图 (29)控制器问题 (29)缓存模块问题 (31)HP Smart Storage 电池问题 (32)物理驱动器问题 (33)逻辑驱动器问题 (34)操作系统引导故障流程图 (35)故障指示流程图 (36)服务器故障指示流程图(非刀片服务器) (37)服务器故障指示流程图(BL 系列) (38)电源配置文件问题 (38)网卡问题 (39)常规诊断流程图 (41)6 硬件问题 (43)用于所有 ProLiant 服务器的步骤 (43)电源问题 (43)电源问题 (43)电源问题 (43)无法打开服务器电源 (44)HP ProLiant 引导前运行状况摘要 (44)UPS 问题 (45)UPS 无法正常供电 (45)显示电池电量不足警告 (46)UPS 上的一个或多个 LED 指示灯呈红色 (46)iv ZHCN常规硬件问题 (46)新硬件的问题 (46)未知问题 (47)第三方设备的问题 (47)测试设备 (47)系统内部问题 (48)CD-ROM 和 DVD 驱动器问题 (48)系统无法从该驱动器引导 (48)从驱动器读取的数据不一致,或驱动器无法读取数据 (48)未检测到驱动器 (49)驱动器问题(硬盘驱动器和固态驱动器) (49)驱动器发生故障 (49)无法识别驱动器 (49)无法访问数据 (50)服务器响应时间比平时慢 (50)HP SmartDrive 图标或 LED 指示灯指示驱动器错误,或者在 POST、HP SSA 或 HP SSADUCLI 中显示错误消息 (51)存储问题 (51)在安装操作系统时,操作系统安装无法识别 HP Dynamic Smart Array B140iRAID 控制器驱动器 (51)具有 10 SFF 驱动器背板或 12 LFF 驱动器背板的服务器上的数据故障或磁盘错误 (51)具有 25 SFF 驱动器背板的服务器上的数据故障或磁盘错误 (51)SD 和 microSD 卡问题 (51)系统无法从该驱动器引导 (51)U 盘问题 (51)系统无法从该驱动器引导 (51)风扇问题 (52)出现一般的风扇问题 (52)出现热插拔风扇问题 (52)HP BladeSystem c 系列机箱中的所有风扇高速运行 (53)HP Trusted Platform Module 问题 (53)HP Trusted Platform Module 出现故障,或者未检测到 (53)内存问题 (53)出现一般的内存问题 (53)服务器内存不足 (54)出现内存计数错误 (54)服务器无法识别现有的内存 (54)服务器无法识别新的内存 (55)处理器问题 (55)磁带机问题 (56)ZHCN v磁带卡住问题 (56)读取/写入问题 (56)备份问题 (56)介质问题 (57)图形和视频适配器问题 (57)出现了常规图形和视频适配器问题 (57)外部设备问题 (58)视频问题 (58)启动服务器之后,屏幕持续 60 多秒钟没有显示 (58)如果使用节能功能,显示器无法正常工作 (58)显示颜色不对 (58)显示慢慢移动的水平线 (59)鼠标和键盘问题 (59)电缆问题 (59)在使用较旧的小型 SAS 电缆时,发生驱动器错误、重试、超时和无根据的驱动器故障 (59)无法识别 USB 设备,显示错误消息,或者设备在连接到 SUV 电缆时无法打开电源 (59)网络控制器或 FlexibleLOM 问题 (59)安装了网络控制器或 FlexibleLOM,但运行不正常 (59)网络控制器或 FlexibleLOM 已停止工作 (60)添加了扩展卡后,网络控制器或 FlexibleLOM 停止工作 (60)网络互联刀片出现问题 (61)控制器问题 (61)在禁用 RAID 模式时,找不到 HP Dynamic Smart Array B140i 驱动器 (61)在 RAID 模式中访问的驱动器上的数据不与从非 RAID 模式中访问的数据兼容 (61)在将驱动器移至新的服务器或 JBOD 后,Smart Array 控制器不显示逻辑驱动器 (61)驱动器漫游 (61)扩展卡问题 (61)系统在更换扩展卡期间要求使用恢复方法 (61)7 软件问题 (63)操作系统问题和解决方法 (63)操作系统问题 (63)操作系统锁定 (63)错误日志中显示错误 (63)安装 Service Pack 之后出现问题 (63)操作系统更新 (63)恢复为备份版本 (64)vi ZHCN何时重新配置或重新加载软件 (64)Linux 资源 (64)应用程序软件问题 (64)软件锁定 (64)更改软件设置后出错 (65)更改系统软件后出错 (65)安装了应用程序后出错 (65)ROM 问题 (65)远程 ROM 刷新问题 (65)命令行语法错误 (65)目标计算机上拒绝访问 (65)无效或不正确的命令行参数 (65)网络连接在进行远程通信时失败 (65)ROM 刷新期间发生故障 (65)不支持目标系统 (66)系统在固件更新期间要求使用恢复方法 (66)更新固件 (66)引导问题 (66)服务器无法引导 (66)UEFI 服务器的 PXE 引导准则 (68)8 软件工具和解决方案 (69)服务器模式 (69)产品规格说明简介 (69)HP iLO (69)Active Health System (70)用于 HP iLO 的 HP REST API 支持 (71)Integrated Management Log (71)HP Insight Remote Support (71)HP Insight Remote Support 集中连接 (72)HP Insight Online 直接连接 (72)HP Insight Online (72)Intelligent Provisioning (72)HP Insight Diagnostics (73)HP Insight Diagnostics 检测功能 (73)Erase Utility (73)适用于 Windows 和 Linux 的 Scripting Toolkit (73)HP Service Pack for ProLiant (74)HP Smart Update Manager (74)HP UEFI System Utilities (74)使用 HP UEFI System Utilities (74)ZHCN vii安全引导配置 (76)嵌入式 UEFI Shell (76)嵌入式诊断选件 (76)用于 UEFI 的 HP REST API 支持 (76)重新输入服务器序列号和产品 ID (76)实用程序和功能 (77)HP Smart Storage Administrator (77)Automatic Server Recovery(自动服务器恢复) (77)USB 支持 (78)外置 USB 功能 (78)支持冗余 ROM (78)安全性和安全优势 (78)使系统保持最新状态 (79)访问 HP 支持材料 (79)更新固件或系统 ROM (79)FWUPDATE 实用程序 (79)嵌入式 UEFI Shell 中的 FWUpdate 命令 (79)System Utilities 中的固件更新应用程序 (80)联机刷新组件 (80)驱动程序 (80)软件和固件 (81)支持的操作系统版本 (81)版本控制 (81)HP 对于 ProLiant 服务器支持的操作系统和虚拟化软件 (81)HP 技术服务组合 (81)更改控制和主动通知 (82)9 HP 故障排除资源 (83)在线资源 (83)HP 支持中心网站 (83)HP 企业信息库 (83)HP 指导的故障排除网站 (83)以前的 HP ProLiant 服务器型号的故障排除资源 (83)服务器刀片机箱故障排除资源 (84)错误消息资源 (84)服务器文档 (84)HP 产品规格说明简介 (84)白皮书 (84)服务通知、咨询和通告 (85)viii ZHCN产品信息资源 (85)其它产品信息 (85)注册服务器 (85)服务器功能概述和安装说明 (85)主要功能和选件部件号 (85)服务器和选件的规格、符号、安装警告和通告 (85)备件号 (86)拆卸步骤、部件号和规格 (86)拆卸或卸除和更换过程视频 (86)技术主题 (86)产品安装资源 (86)外部布线信息 (86)电源容量 (86)开关设置、LED 指示灯功能、驱动器、内存、扩展卡和处理器安装说明以及板卡布局 (86)产品配置资源 (87)设备驱动程序信息 (87)DDR4 内存配置 (87)支持的操作系统版本 (87)操作系统安装和配置信息(对于出厂时安装的操作系统) (87)服务器配置信息 (87)服务器设置软件的安装和配置信息 (87)服务器的软件安装和配置 (87)HP iLO 信息 (87)服务器管理 (87)服务器管理系统的安装和配置信息 (87)容错、安全保护、保养和维护、配置和设置 (88)10 支持和其它资源 (89)与 HP 技术支持部门或授权经销商联系 (89)客户自行维修 (89)所需的服务器信息 (89)所需的操作系统信息 (90)Microsoft 操作系统 (90)Linux 操作系统 (91)Oracle Solaris 操作系统 (92)报告和日志 (92)Active Health System 日志概述 (92)Active Health System 下载 CLI 实用程序 (93)HP iLO Web 界面 (93)ZHCN ixHP Intelligent Provisioning (93)下载 Active Health System 日志 (94)使用 HP iLO (94)使用 Intelligent Provisioning (95)使用用于 Windows 操作系统的 Active Health System 下载 CLI (96)使用用于 Linux 分发的 Active Health System 下载 CLI (96)使用 curl 命令行工具 (97)HP SSA 诊断任务 (97)HP Smart Storage Administrator Diagnostic Utility CLI 报告 (98)HPS 报告 (99)cfg2html 报告 (99)11 缩略语和缩写 (100)12 文档反馈 (103)索引 (104)x ZHCN1使用本指南如何使用本指南《HP ProLiant Gen9 故障排除指南,第一卷:故障排除》重点介绍了 HP ProLiant Gen9 ML、DL、BL、XL 和 SL 服务器的故障排除步骤。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络技术飞速发展,计算机网络被广泛应用于学校、科研部门、政府机关及商业等各个领域。

网络管理的好坏将直接影响网络的有效使用,其中对于服务器的安全维护十分重要。

服务器的管理维护包括软件和硬件两个方面,哪一方面出问题都会让服务器运行出现故障甚至瘫痪。

下面就给大家说一说本人在实际中遇到的一次HP服务器故障排除。

HP服务器故障排除一、出现故障
笔者单位使用的是HP NetServer LH3000服务器组成的局域网,自从建网以来服务器硬件一直良好。

但有一次启动服务器后发现有问题,刚开始自检运行都正常,等到进入Windows2000主画面时,发现服务器主机内的噪音变大,开始认为是系统软件加载错误导致的,多次重新启动服务器,有时重启后正常维持时间稍长,有时稍短。

等到系统启动完毕后,注册进入系统,打开管理工具,查看系统日志,没有发现故障提示。

HP服务器故障排除二、故障的排除
于是我们怀疑是感染了病毒,把服务器设置成从软盘驱动器启动,用KV3000杀毒王引导盘启动服务器,之后扫描硬盘,查完后未发现病毒,排除了病毒感染的可能性。

又怀疑与BIOS有关?检查BIOS设置,查出版本号,到惠普网站查询,找到了对应的新BIOS版本,于是决定升级BIOS试一试。

先到惠普网站下载了最新的BIOS升级程序,拷贝到软盘,为了保险,先将服务器现在的BIOS备份后再升级。

从软盘引导系统,运行升级程序,大约25分钟之后,升级终于顺利完成。

再启动进入BIOS设置,改为硬盘启动。

重启服务器,进入系统后,过了一会儿,故障依旧。

至此,我们才转向服务器的硬件检查,打开了机箱,检查电源风扇,运转正常,粗略检查其它风扇也未见异常。

最后请HP专业维护人员来,并将系统I/O 控制板和电源控制板予以更换,更换重启服务器后,问题仍未解决。

于是开始全面检查服务器,在服务器面板主菜单中查看,意外发现“Event Log”中的“System Event”下有一提示,显示“Fan Slow”。

于是我们重新打开机箱,认真检查每组风扇,由于服务器内部有多组风扇,各自负责不同控制板的散热。

分别检查,终于在机器隔板下的隐蔽处找到两组风扇,其中有一组风扇停转。

原因找到后,换上新风扇再启动服务器,声音小了。

运行一切正常。

至此服务器故障得以排除。

HP服务器故障排除三、故障排除分析
从以上故障排除过程得知,HP NetServer LH3000服务器的面板日志记录中记载着系统每次启动和关闭时的硬件检测信息,如果系统出现故障,我们可以直接查看系统事件,以便快速诊断故障部位,这将起到事半功倍的作用。

现将HPNetServer LH3000服务器面板的主要内容简单介绍一下:
Event Log
Fw lnfo:主要是一些设备信息,如BIOS版本号等。

System lnfo:主要是硬件信息,如CPU主频、型号、CPU号(多处理器)、L2Cache、内存容量及所在插槽等。

Component lnfo:主要是产品标号、序列号等。

Service:记录一些服务信息。

Adjust Contrast:调整面板显示的对比度。

按面板右侧的上下箭头,选择进入子菜单;当光标处于“Event Log”时回车进入,选择“System Event”再进入,即显示系统引导、死机、管理、硬件故障信息等内容。

通过查看记录即可知道异常情况的原因及时间等信息,为解决问题提供依据。

HP服务器故障排除四、经验总结
HP服务器出现噪音变大的故障,初期可能只是风扇转速减慢,系统还能继续工作,但由于系统负荷逐渐加大,环境温度升高,使服务器内部温度升高,加大了风扇的负荷,最终导致一组风扇损坏,将排风散热的工作由另一组风扇负担,系统初始启动时,系统产生热量较小,一组风扇还可以承担。

当系统运行一段时间后,机箱内温度开始升高,当系统检测到温度已超过其阈值时,于是发出指令提高风扇转速,加速散热,从而导致服务器主机内的声音突然加大。

如果各组风扇都运行正常,则可以保证服务器主机内的温度在正常范围内,从而保证系统正常运行。

在检查服务器的硬件问题时,最好先查看服务器面板主菜单“Event Log”的内容。

由于服务器事件存储容量有限,应定期备份记录,否则溢出后新事件将无法记录,会导致系统实时信息丢失,不利于排查故障。

建议用Navigator CD制作DiagTools启动软盘,需两张软盘。

定期用软盘启动服务器,启动后回车,即选择Diagtools和Event Log Display Utility Ver 3.12,进入Event Log Display Utility Ver 3.12,即可导出Event Log记录;否则按“ESC”,只有Diagtools不能导出事件日志。

还可以通过Diagtools工具检查系统,保证系统的安全.。

相关文档
最新文档