IBM P570小型机典型故障案例的分析与处理
IBM小型机常见故障的基本定位

一故障得定义。
弄清楚系统发生了什么问题、系统现在能做什么?不能做什么?ﻫ、故障什么时候发生得?.有没有做平时不同得操作?.故障有没有规律?定时还就是不定时?发生得频率有多高?、就是一台机器出现故障还就是多台机器故障?故障现象就是否相同?ﻫ.最近有没有做改动?如安装了新得硬件、软件,改变了系统得一些设置。
二故障信息得收集ﻫ1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。
ﻫ2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行ﻫ记录包括硬件、软件及其她操作信息ﻫ故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别得机器上分析errpt 命令得使用(普通用户权限也可使用)ﻫ#errpt|more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC00 T0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failureﻫ9DBCFDEE 0701000000T 0 errdemon Error logging turned onﻫ038F25800624131000 U H scdisk0 UNDETERMINED ERRORAA8AB2410405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)ﻫT(类型): P 永久; T 临时; U 未知(永久性得错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息ﻫ#errpt -d S 列出所有软件出错信息ﻫ#errpt—aj ERROR_ID列出详细出错信息ﻫ# errpt -aj 0502f666 <-—-ERROR_ID用大小写均可ﻫ例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51ﻫSequence Number: 95ﻫMachine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResourceType: hscsiLocation: 00-08ﻫVPD: <—-- Virtal Product Data ﻫDeviceDriverLevel、、.。
IBM-POWER6-570小型机硬件管理与维护

lsdev -C | grep mem #查看物理内存状态
lsattr -El mem0
#查看物理内存属性
lsdev -C | grep proc #查看物理CPU状态
lsattr -El procX
#查看物理CPU属性
pmcycles –m
#查看逻辑CPU属性
第14页,共24页。
PCI adapters
用,逻辑设备名允许访问。
lsdev -C
第20页,共24页。
热拔插设备更换
#lsdev -C | grep cd0
#rmdev -l cd0
#lsdev -C | grep cd0
#mkdev -l cd0 #lsdev -C | grep cd0
#rmdev -dl cd0
#diag #lsdev -C | grep cd0 #cfgmgr #lsdev -C | grep cd0
#查看设备状态
#将设备从available转为defined
#将设备从defined转为available
#彻底删除
第21页,共24页。
磁盘
FC 5756 IDE Slimline DVD-ROM Drive
FC 5757 IBM 4.7 GB IDE Slimline DVD-RAM Drive
多么痛的领悟:十三起惨痛宕机案例

多么痛的领悟:十三起惨痛宕机案例01AIX 下NTP 设置不当导致的多个集群宕机事情发生在一段时间之前,接到朋友电话,用户有三套oracle rac 集群运行在 aix 小机上,本地两套,同城机房两套,做完设备搬迁后的一天晚上,其中本地和同城的两套rac 突然就整个重启了,而且发生在同一时间点。
网络、小机、存储、数据库分属不同的维保厂商,这就开始了扯皮。
各家就开始从自己的方向自证无过错。
我去之前内心也比较倾向于 oracle 的网络心跳出了问题,crs 抢 vote disk 的时候触发了重启。
但由于是小机方的代表,仅从aix 层面做了排查,未发现明显原因。
对各主机宕机的时间做了一个梳理,去和oracle 的事件日志去比对。
暂时没查到什么东西。
宕机产生的dump 发到了IBM 原厂,IBM 后来出了个报告,根据dump 内容定位触发宕机的进程为cssd。
oracle dba 重点看了那个进程的日志,发现宕机时间前后,时间突然变更,提前了40多秒。
dba 确认,时间变更过多,cssd 进程会导致系统重启,怀疑和时间同步有关。
经检查,3套 aix 的 rac 集群使用了同一个 ntp server,但有一套没发生问题。
对比检查差异,发现没问题的那套主机集群使用xntpd 方式配置了时间同步。
出问题的主机则直接使用了ntpdate 命令做时间更新,并写入了 crontab 定期执行。
检查 /var/adm/cron/log 日志,发现定时任务的执行时间和 cssd 故障时间一致。
检查时间服务器,发现搬迁后,时间服务器的时间产生了较大偏差,xntpd 方式的时间同步在时间偏差大时不会去强制同步,ntpdate 命令的方式没有这个限制,会直接进行同步。
最终导致了 cssd 进程检测到过大时间偏差后触发了宕机。
经验分享:配置时间同步时,建议使用xntpd 服务的方式,不用直接在定时任务里写 ntpdate,因为 ntpdate 比较粗暴,发生故障时较大的时间偏差会导致应用出现问题,触发无法预知的后果。
IBM操作系统常见维护案例1

IBM操作系统常见维护案例IBM 小型机作为联通现在主要使用的服务器,下面浅谈一下在维护中所遇到的几则典型案例。
(一)HBA卡故障及更换一、系统环境操作系统:IBM Aix 5.2存储:Emc Dmx 1000存储交换机:EMC 32口二、故障:主机无法看到连接到存储的逻辑硬盘设备,看到的逻辑硬盘设备为defined三、解决方法:1、查看系统日志:#Errpt –dH3074FEB7 1125202009 T H fscsi1 ADAPTER ERROR# errpt -aj 3074FEB7 |more---------------------------------------------------------------------------LABEL: FSCSI_ERR4IDENTIFIER: 3074FEB7Date/Time: Thu Nov 25 20:20:09 BEISSequence Number: 607732Machine Id: 0052901A4C00Node Id: JNHXDBAClass: HType: TEMPResource Name: fscsi1Resource Class: driverResource Type: efscsiLocation: 14-08-01DescriptionADAPTER ERRORProbable CausesADAPTER HARDW ARE OR CABLEADAPTER MICROCODEFIBRE CHANNEL SWITCH OR FC-AL HUBFailure CausesADAPTERCABLES AND CONNECTIONSDEVICERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLES AND THEIR CONNECTIONSVERIFY DEVICE CONFIGURATION查看emc powerpath路径:# powermt displaySymmetrix logical device count=22CLARiiON logical device count=0================================================================= ----- Host Bus Adapters --------- ------ I/O Paths ----- ------ Stats ------### HW Path Summary Total Dead IO/Sec Q-IOs Errors=================================================================0 fscsi0 optimal 22 0 - 0 01 fscsi1 failed 21 21 -0 21 通过日志查看,确定为连接光纤或fscsi1卡问题2、通过光纤及存储交换机(端口查看、并更换端口方式)检查后,确定hba卡故障3、定位设备槽位及设备wwn号# lscfg -vpl fcs1DEVICE LOCATION DESCRIPTIONfcs1 14-08 FC AdapterPart Number.................00P4494EC Level....................ASerial Number...............1D3150C2D8Manufacturer................001DFRU Number.................. 00P4495Network Address.............10000000C933579FROS Level and ID............02C03951……………………………….Device Specific.(YL)........U0.1-P2-I2/Q1PLATFORM SPECIFICName: fibre-channelModel: LP9002Node: fibre-channel@1Device Type: fcpPhysical Location: U0.1-P2-I2/Q14、查看该hba卡连接的设备:hdisk2 Defined 14-08-01 EMC Symmetrix FCP Raid1hdisk3 Defined 14-08-01 EMC Symmetrix FCP RaidS……………………………………………………………………..hdisk24 Defined 14-08-01 EMC Symmetrix FCP RaidS5、删除坏hba识别的磁盘#rmdev -Rdl hdisk*6、删除hba卡#rmdev -Rdl fcs17、停机后更换hba卡8、运行cfgmgr检测新的hba卡设备9、查看新设备的wwn号,并将emc存储绑定新hba卡wwn#symmask -wwn 10000000C933579F replace 10000000C930D1EF10、运行emc powerpath软件,识别emc逻辑硬盘#emc_cfgmgr#powermt config11、查看硬盘设备,如果存在,连接正常。
P系列常见问题解决方法

P系列常见问题解决方法如何关闭IBM小型机面板告警灯(为橘红色)1、进diag,选task,找到identify and attention indicators2、用命令/usr/lpp/diagnostics/bin/usysfault -s normal3、先检查有没有什么问题,如果没有问题,就这样处理diag-> Task Selection-> Identify and Attention Indicators中找到Set System Attention Indicator to NARMAL(第二项),按回车,使前面出现个"+",然后用"ESC+7",一会就好了,灯灭了后就用"ESC+0"退出即可准确定位设备和解除报警有一环境需要重新打标签,AIX5L可以亮灯以确认你所找到的卡是不是在这槽位上。
实施如下:1.亮灯#lsslot -c pci#lsslot -c slot#lsdev -Cc adapter#ifconfig -a#diag-->Task Selection-->Hot Plug Task-->PCI Hot Plug Manager-->Identify a PCI Hot Plug Slot-->选择你所要标识的设备,回车-->命令运行,设备就会闪灯;按回车完成〔即不闪灯〕,或者Q 退出。
2.关闭小型机橙色告警灯#diag-->Task Selection-->Identify and Attention Indicators-->Set System Attention Indicator to Normal-->回车,选项前变为“+”-->按“F7”提交-->熄灭小型机橙色告警灯[也可以准确定位在报警的设备] EG:#diag-->Task Selection-->Log Repair Action-->sys0 System Objectsysplanar0 System Planar-->回车,选项前变为“+”-->按“F7”提交;选项前变为“*”停用SENDMAIL。
AH联通IBM_P570小型机风扇更换方案报告

安徽联通IBM P570 风扇更换方案(v 100220)版本说明目录更换方案说明 (2)1准备工作.................................................................................................................... 错误!未定义书签。
2更换步骤说明............................................................................................................. 错误!未定义书签。
一、准备工作:由于是在线系统为了将影响减到最小,请务必在实施前要求应用商做好所有数据备份及相关备份。
对于重要业务的应用,请在实施前做好其他应急方案,保证业务正常二、更换步骤说明:由于该部件为可热插拔部件,故方案定位在线更换1.打开前面盖板2.从HMC控制台或者HMC口进入ASMI菜单,选择左侧的Concurrent maintenance——Controlpanel,在右侧的选项里选择Remove and click 点击继续,点击保存并退出,这样就给控制面板下电了。
3.再选择左侧的Concurrent maintenance-- IDE Device Control,选择Power off,这样就给光驱下电4.取出液晶面板和光驱5.确定风扇位置,更换风扇(如下图)6.安装光驱和液晶面板,并进入ASMI菜单,选择Concurrent Maintenance,将光驱状态选择为poweron,将液晶面板选为install并保存退出7.查看液晶面板和光驱是否可以重新工作。
Errpt 查看系统有无报错8. 检查应用。
IBM小型机内置RAID更换故障硬盘

一、现象描述✍∙∙一台IBM小型机,带RAID卡,内置3块硬盘,做RAID5,无热备✍∙∙第2块硬盘亮黄色故障灯二、做好rootvg备份(mksysb)和数据备份(强烈建议)备份完数据后,为了安全,停止应用对硬盘的访问三、故障确认✍∙∙执行lsdev –Cc pdisk/hdisk、errpt命令查看系统是否有硬盘报错✍∙∙用diag->Task selection -> RAID Array Manager -> IBM SASDisk Array Manager ->List IBM SASDisk Array configuration检查raid信息和pdisk 的状态hdisk0 0B-08-ff-0,0 Degraded RAID 5 Array 484.2GB pdisk0 0B-08-00-5,0 Failed Array Member 242.8GBpdisk1 0B-08-01-5,0 Active Array Member 242.8GBpdisk2 0B-08-00-3,0 Active Array Member 242.8GB✍∙∙用以下操作再次确认硬盘槽位信息:Diag->Task Selection->RAID Array Manager->IBM SASDisk Array Manager-> Diagnostics and Recovery Options->SCSI andSCSI RAID Hot Plug Manager-> Identify a Device Attached toa SCSI Hot S Device选择对应的硬盘,按F7确认硬盘所在的槽位(磁盘的黄灯在闪烁)四、进行磁盘更换1) 用hot plug把硬盘更换,操作如下:diag?Task Selection?RAID Array Manager?IBM SASDisk Array Manager?Diagnostics and Recovery Options?SCSI and SCSI RAID Hot Plug Manager?Replace/Remove a Device Attached to an SCSI Hot S Device 把故障硬盘更换,回车然后按F3回到上一层菜单SCSI and SCSI RAID Hot Plug ManagerConfigure Added/Replaced Devices2) 更换硬盘后,回到diag->Task selection ->RAID Array Manager ->IBM SASDisk Array Manager ->List IBM SAS Disk Array configuration可以看到pdiskX的状态是failed,比如下图:3) hdisk0 0B-08-ff-0,0 Degraded RAID 5 Array 484.2GB4) pdisk0 0B-08-00-5,0 Failed Array Member 242.8GB5) pdisk1 0B-08-01-5,0 Active ArrayMember 242.8GB6) pdisk2 0B-08-00-3,0 Active ArrayMember 242.8GB7) 用lsdev –Cc pdisk是可以看到pdisk0是available五、对RAID进行重建diag->Task selection ->RAID Array Manager ->IBM SASDisk Array Manager ->Reconstruct a IBM SASDisk Array选择新产生的磁盘pdisk0进行重建(对146GB HDD大概需要4小时)重建有进度显示,可以退出重建在后台执行六、重建完毕后,确认RAID的状态为optimal diag->Task selection ->RAID Array Manager ->IBM SASDisk Array Manager ->List IBM SASDisk Array configuration七、确认硬盘没问题,启动应用。
21-IBM小型机 维护及故障处理集锦

目录声明 (1)IBM (2)1 智能网应用系统在IBM RS/6000上典型问题汇总 (2)1.1 HACMP启动不正常 (2)1.2 NFS在系统启动时不能自动重启 (3)1.3 CPU占用率过高 (3)1.4 TCP/IP 环境有问题,导致应用中调用echo出错 (4)1.5 测试将主机工作网卡线拔掉,备用网卡接管失败 (5)1.6 ftp,telnet失败,但可以ping通 (5)1.7 IBM HDR HACMP双机系统备机启动失败 (7)1.8 HACMP双机环境极其不稳定。
经常发生不必要的网卡切换及双机切换 (8)声明Copyright ©2004华为技术有限公司版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本书内容的部分或全部,并不得以任何形式传播。
®、HUAWEI®、华为®、C&C08®、EAST8000®、HONET®、®、视点®、ViewPoint®、INtess®、ETS®、DMC®、TELLIN®、InfoLink®、Netkey®、Quidway®、SYNLOCK®、Radium®、雷霆®、M900/M1800®、TELESIGHT®、Quidview®、Musa®、视点通®、Airbridge®、Tellwin®、Inmedia®、VRP®、DOPRA®、iTELLIN®、HUAWEI OptiX®、C&C08iNET®、NETENGINE™、OptiX™、iSite™、U-SYS™、iMUSE™、OpenEye™、Lansway™、SmartAX™、边际网™、infoX™、TopEng™均为华为技术有限公司的商标。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM P570小型机典型故障案例的分析与处理
摘要:根据近年来本地区P570主机的典型故障及处置方法,总结了一套P570
小型机典型故障的维护管理的经验,提高了信息系统检修质量和健康水平。
同时
总结管理思路,与时俱进,完善运维体系、加强运维管理、提升信息安全运维水平,保证系统安全及可靠运行,为电力网数据信息安全交互提供了有力保障。
关键词:故障处理,运维管理
引言
P570小型机作为具有很高的可靠性与稳定性能,做为本公司核心服务器,它
具有较高的专业性、复杂性、实时性、不间断性等特点,是电力企业普遍采用的
服务器。
随着使用年限的增加,设备老化等原因会造成整个系统可靠性降低,硬
件设备发生故障的频率也越来越高。
现根据近年来本地区P570主机机常出现的
一些典型故障及处理方法,总结出一套P570小型机典型故障的维护管理经验,
提高了信息系统检修质量和健康水平,确保信息系统安全稳定运行。
同时我们在
此运维基础上,扩展了信息系统基础安全运维的管理思路。
1 小型机典型故障处理及运维管理提升
统计570小型机自2007年投运到目前为止,共发生电源故障、风扇故障、背板故障、HBA卡故障、硬盘故障等94次,随着公司推进运维检修精细化管理工作,加强对信息设备状态的监视,准确掌握信息设备的状态,当主机系统发生故
障时,依靠专业的管理经验,可以在最短的时间内查明故障原因,迅速将系统恢
复到正常工作状态,是保证设备及软件安全、稳定、高效运行的关键。
同时完善
小型机设备的运维管理制度,是对小型机系统稳定运行的有效保障。
除了采用技
术手段外,我们还需建立有效的安全管理机制,“三分技术,七分管理”是信息安
全领域的管理的精髓,在实际的工作中如何“管理”到位,更需要在实践中总结经验,不断的更新,两者有机的结合起来,通过管理提升我们发现,小型机的设备
故障主动发现率由38%上升到93%(如图1),说明通过运维管理的提升设备故
障的主动发现率有了显著的提升,确保了处理故障和更换备件的宝贵时间。
图1采用管理提升前后故障发现率对比
运维过程中发现各地市典型发生的故障,如P570小型机的CEC柜电源模块故障是最常见的故障之一,我公司原八块电源模块已全部陆续更换,其间还发生过同一CEC柜两路冗余电
源都发生故障的宕机事件,如果管理及巡视得当,处理方法的得当会减少事故的发生,并且
减少系统恢复时间;交换机模块故障也是常见故障,但由于双通道的原因很难会被人发现,
具有很强的隐蔽性;HA故障也偶有发生,需耐心排查、调试;本文还列举两类硬件故障,分别是使机器宕机或无法启动的硬件故障和仅对系统产生功能影响机器的硬件故障。
通过以下
故障在运维过程中不断总结经验同时完善运维制度和安全管理机制。
1.1、电源模块常见故障
小型机的每个CEC柜都有两路电源,互为冗余,如两路冗余电源发生一块电源模块故障,此时不影响系统及运行,但应立即报修、密切观察、加强巡视,待备件到场立即更换;
如在同一CEC柜的两路冗余电源都发生故障系统必将宕机,此时应立即报修,等待备件
到场,如果参考以往经验及设备特性,进一步进行后故障时刻的思考,得出结论:可将一路
故障电源与未发生故障的CEC柜进行调换,开机恢复分区,恢复系统运行,待备件到场后再
进行备件更换,本方案可以提前3到4小机恢复系统的运行,我们将此经验方法更新在相应“专项应急预案”中。
1.2、小型机光纤交换机常见故障
光纤交换机故障灯亮时,可检查各光纤模块指示灯(在光纤模块左侧)有无亮黄灯,如
果有说明本光纤模块故障,可以用备用模块进行替换。
如光纤交换机故障灯亮,各光纤模块
指示灯正常,可至电EMC报修,鉴于光纤模块的故障率较高,发生较频繁的现象,总结经验完善管理,得出结论:可常备一两个光纤交换机模块,在发生故障,确认故障后及时进行替换,此项工作可在“运行规程”当中完善。
1.3、HA故障
在执行任何事件脚本出现异常而无法正常运行HA时,采取以下步骤:
(1)关闭所有有关HA的应用进程,如手工停止有关进程,手工停止数据库。
(2)umount所有共享vg上的文件系统。
(3)执行varyoffvg将共享vg从服务器离线。
(4)执行smitty clstop选择Shutdown mode为"forced"方式关闭HA。
(5)用命令
a) # ps -ef
b) # lsvg -o
c) # lssrc -g cluster
d) # netstat –i
(6)查看以上操作是否执行完整,如果有些相关进程未关闭可以使用kill将其杀掉(不
能保证系统保持运行正常,可能出现系统宕机)。
(7)查看双机系统物理连接是否完好。
(8)通过以上命令关闭所有有关HA进程后,重启HA smitty clstart,重新验证HA是否
正常。
(9)通过以上各个步骤的操作HA依然不能正常工作,关机重启系统。
HA故障处理涉及到系统应用及数据库,在操作过程中命令较繁杂,总结经验完善管理,
得出结论:规范操作HA启动及相关数据库、应用服务的命令,完善小型机关于HA及应用服务启、停等操作的“作业指导书”。
1.4、其它硬件故障
机器宕机或无法启动的硬件故障:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等
的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等。
这些设备的损坏等将使系统无法完成自检、引导和启动,液
晶显示屏上都将有错误信息,如果是工作状态下出现这些硬件损坏,系统将被挂起或宕机。
处理方法:观察液晶屏上的错误码或使用命令:errpt –dH 查看错误信息。
如果故障机是双机
系统,可以将损坏机器上的服务切换到备机,然后修复故障机器后再恢复系统。
至电IBM进
行硬件故障报修。
仅对系统产生功能影响机器的硬件故障:网卡、本地硬盘有坏块、显卡、SSA卡和其他
外围设备。
些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对
于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。
处理方法:观察液晶屏上的错误码或
使用命令:errpt –dH 查看错误信息。
如故障机不影响正常运行,迅速至电IBM进行硬件故障报修,密切观察、加强巡视。
故障机不能正常运行所提供的服务,如是双机系统,可以将损
坏机器上的服务切换到备机,至电IBM进行硬件故障报修,修复故障机器后再恢复系统。
以上故障的发生处理起来较复杂,需专业工程师诊断处理,故障后总结经验,得出结论:规范硬件故障处理流程,完善与及时更新流程及联系人及电话,做好故障处理分析,完善相
应“应急预案”,如各地市发生较频繁可纳入“典型故障处理”文档。
结束语
本文通过IBM P570小型机典型案例故障分析处理,在总结近年来处置应对各类突发事件
的经验的基础上,进行全面地性能监控和分析、建立完善的设备档案、设定周全的应急方案,同时全面分析小型机可能引发突发事件的各类危险源,结合实际,制定切实可行的应对措施
和科学规范的处置经验,同时在积累与总结中完善安全运维管理机制。
为电力网信息安全交
互提供有力保障。
作者简介
张彬彬(1973.11-),女,汉族,内蒙古人,本科,工学学士,高级工程师,从事计算
机应用工作。
郝战(1980.09-),男,汉族,江苏本人,工程硕士,工程师,主要从事信息安全管理工作。
王天鹏(1979.05-),男,汉族,江苏本人,助理工程师,从事计算机管理工作。