IBM P服务器故障检测

合集下载

IBM 服务器面板提示灯的报警信息

ps 指示灯：当此指示灯发亮时，表明电源2 出现故障。

temp 指示灯：当此指示灯发亮时，表明系统温度超出阈值级别。

fan：当此指示灯点亮时，表明散热风扇或电源风扇出现故障或运行太慢。

风扇发生故障还会导致over temp 指示灯发亮。

link指示灯：当此指示灯发亮时，网卡出现故障。

vrm 指示灯：当此指示灯发亮时，表明微处理器托盘上的某个vrm 出现故障。

cpu 指示灯：当此指示灯发亮时，表明某个微处理器出现故障。

pci 指示灯：当此指示灯发亮时，表明某个pci 总线发生错误。

mem 指示灯：当此指示灯发亮时，表明发生内存错误。

dasd 指示灯：当此指示灯发亮时，表明某个热插拔硬盘驱动器出现故障。

nmi 指示灯：当此指示灯发亮时，表明出现一个不可屏蔽中断（nmi）。

sp 指示灯：当此指示灯发亮时，表明服务处理器遇到错误。

brd 指示灯：当此指示灯发亮时，表明某个连接的i/o 扩展单元出现故障。

log 指示灯：当此指示灯发亮时，表明您应该查看事件日志或remotesupervisor。

cnfg指示灯：当此指示灯发亮时，表明BIOS配置错误。

raid 指示灯：当此指示灯发亮时，表明阵列卡故障。

over spec 指示灯：当此指示灯发亮时，表明对电源的需求超过了指定的电源供应。

remind 按钮：按下此按钮可重新设置操作员信息面板上的系统错误指示灯并将服务器置于提醒方式。

在提醒方式下，故障并没有清除但系统错误指示灯会闪烁（每 2 秒闪烁一次）而不是持续发亮；如果出现另一个系统错误，则系统错误指示灯将会持续发亮。

ibm服务器全面巡检流程

IBM服务器巡检流程
1、检查系统硬件情况：设备故障灯是否有亮
2、系统错误报告(errlog)
3、有否发给root用户的错误报告(mail)
4、检查hacmp.out,smit.log,boot.log
5、关键系统的文件使用率不大于80%
6、逻辑卷有否stale
7、内存交换区使用率是否超过70%
8、内存交换区的大小是否为物理内存的1.5倍
9、检查备份情况（有否系统备份、用户数据备份、磁带机是否需要清洗）
10、通信（网卡、IP、路由表、ping、/etc/hosts、DNS设置等）
11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare
12、系统DUMP设置是否正确
13、检查系统参数是否正确
1)/etc/enviroment中的TZ不能有夏时制
2)如有数据库：Aio:available
3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24
4)HACMP中Syncd:10
5)HACMP中Power Monitor:off
14、检查rootvg是否有镜象
15、检查errdemon,srcmstr是否正常运行
16、机房环境（电压、湿度）
17、系统性能：有否性能瓶颈(topas,vmstat)
18、补丁程序（PTF）、微码（是否需要升级）
19、HACMP测试：Cluster Verification
20、系统硬件诊断
21、运行#snap -ac,生成文件snap+s/n.pax.Z
22、机器清洁。

IBM服务器故障诊断及排除

IBM服务器故障诊断及排除⒈引言在日常运维管理中，IBM服务器可能会遇到各种故障，影响业务的正常进行。

本文档旨在提供一套完整的指南，以帮助管理员诊断和排除IBM服务器故障。

本文档将详细介绍故障诊断的步骤以及相关的解决方案。

⒉故障诊断流程⑴收集故障信息●收集服务器硬件信息，包括型号、序列号等。

●收集故障发生时的日志信息，如错误代码、系统日志等。

●收集故障发生的具体环境信息，如温度、湿度等。

⑵分析故障现象●根据故障现象描述，确定故障是否与硬件、软件、网络或其他因素有关。

●分析故障现象的时间、地点、频率等因素，以确定是否存在特定模式。

●使用故障现象和已知信息进行故障推断，缩小故障可能的范围。

⑶验证故障原因●使用合适的测试工具和方法，验证故障的真实原因。

●对可能的故障原因进行排除实验，以确定是否能复现故障。

⑷确定解决方案●基于故障的类型和原因，制定详细的解决方案。

●考虑解决方案的可行性和影响，选择最佳的解决方案。

⑸实施解决方案●根据确定的解决方案，执行相应的操作，修复故障。

●监测修复效果，确保故障得到彻底解决。

⒊常见故障类型及解决方案⑴电源故障●故障现象：服务器无法开机或突然关机。

●可能原因：电源供应问题、电源线路故障等。

●解决方案：检查电源线路和连接器是否正常，更换故障电源。

⑵硬盘故障●故障现象：无法识别硬盘、读写错误等。

●可能原因：硬盘损坏、连接问题等。

●解决方案：检查硬盘连接状态，更换损坏的硬盘。

⑶内存故障●故障现象：系统崩溃、应用程序错误等。

●可能原因：内存故障、内存插槽问题等。

●解决方案：进行内存测试，更换故障内存。

⒋附件本文档涉及以下附件：●附件1：IBM服务器型号和序列号清单●附件2：故障现象记录表●附件3：解决方案实施记录表⒌法律名词及注释●故障：指服务器在运行过程中出现的异常现象，影响服务器的正常工作。

●排除：指针对故障进行诊断和解决的过程，以使服务器恢复正常工作。

IBM PC服务器故障诊流程

IBM PC服务器故障诊断流程一、状态确定：状态确定是指发生故障的设备是当前是什么状态，是业务正常在跑，前面板有指示灯告警，比如一些冗余部件的故障（硬盘、电源、风扇等等）；还是出于宕机状态，不能正常进入到操作系统里面，这里又得分为两种情况讨论，一是设备开机没有自检，直接黑屏；二是开机有自检，自检阶段有POST蜂鸣声或者报错码，面对这种情况可结合前面板LED，光通诊断板，主板LED，POST阶段的一些现象具体问题具体分析。

故障定位侧重于判断坏在哪里；二、故障定位：故障定位的时候，我们用到的手段非常多，下面，利用POST的过程；1、POST阶段复习：广义的POST过程是指从按下电源开关到开始引导系统，共分为三个过程：电源供电阶段→核心部件初始化阶段→狭义POST阶段2、电源供电阶段：从按下电源开关的瞬间开始，设备就开始工作了；电源是动力的源泉，供电系统的良好是设备正常运转的基础；如果问题出现在电源这边，那么之后的一切都进行不下去了；电源问题：供电系统的良好是设备正常运转的基础；只有供电系统OK了，设备才可以开始自检；故障表象：机器开机无电，电源灯不亮，电源风扇不转，按电源按钮开机无反应。

诊断方法及过程：供电系统是一条完整的链路，不是单指电源模块；市电及插座→电源线→电源模块→电源分配板→主板；首先，要确认市电供电是否正常；包括使用的插座或者PDU（power distribution unit）模块；其次，查看电源线是否接好，电源线本身是否OK；诊断方法：替换法+最小化法+指示灯法+排除法；替换法：拿确认完好的备件去替换故障设备上的相应备件；最小化法：将链路裁减至最小（要保障设备能正常运行），再进行故障排除；IBM的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置，以IBM X346（8840）为例，下面为IBM X346（8840）能够启动的最低配置：指示灯法：一般在电源模块上都有相应的指示灯，来表征电源模块的状态；比如AC（交流电）和DC（直流电）。

服务器故障排查与修复技巧

服务器故障排查与修复技巧随着信息技术的不断发展，服务器已经成为现代企业和个人网络生活中不可或缺的一部分。

然而，服务器故障时有发生，一旦服务器出现故障，可能会给工作和生活带来严重影响。

因此，掌握服务器故障排查与修复技巧显得尤为重要。

本文将介绍一些常见的服务器故障排查与修复技巧，帮助您更好地解决服务器故障问题。

一、硬件故障排查与修复1. 电源问题：首先检查服务器的电源线是否插紧，电源插座是否正常供电。

如果电源线和插座都没有问题，可以尝试更换电源线或者插到其他插座中。

如果服务器仍然无法开机，可能是电源模块故障，需要更换电源模块。

2. 内存故障：内存故障是服务器常见的硬件故障之一。

当服务器出现频繁死机或者蓝屏时，可以尝试重新插拔内存条，清洁内存槽，确保内存条插紧。

如果问题依然存在，可能是内存条本身故障，需要更换新的内存条。

3. 硬盘故障：硬盘是服务器存储数据的关键组件，一旦硬盘故障可能导致数据丢失。

当服务器出现读写速度慢或者无法识别硬盘时，可以尝试重新连接数据线，检查硬盘是否正常运转。

如果硬盘发出异常声音或者无法正常工作，可能是硬盘故障，需要更换新的硬盘。

4. CPU故障：CPU是服务器的核心部件，一旦CPU故障可能导致服务器无法正常启动。

当服务器出现频繁死机或者无法开机时，可以检查CPU散热器是否正常工作，清洁散热风扇，确保CPU温度正常。

如果问题依然存在，可能是CPU故障，需要更换新的CPU。

二、软件故障排查与修复1. 操作系统故障：操作系统是服务器的核心软件，一旦操作系统出现故障可能导致服务器无法正常工作。

当服务器出现蓝屏或者无法启动时，可以尝试进入安全模式，进行系统恢复或者重装系统。

如果问题依然存在，可能是系统文件损坏，需要修复系统文件或者重装系统。

2. 网络故障：网络是服务器与外部通信的重要通道，一旦网络故障可能导致服务器无法连接外部网络。

当服务器无法访问外部网络或者网络速度慢时，可以检查网线连接是否正常，重启路由器或者交换机。

IBM_服务器故障诊断及排除

MBE DIMM Bank MEM CONTROLLER BP ERROR CPU MCKERR
原因指定冷却风扇出现故障、未正确安装或不存在。插槽 1 中未安装微处理器。微处理器出现故障或未正确安装。指定内存体中安装的内存模块的类型和大小不一致；内存模块出现故障。内存模块出现故障或未正确安装；系统板出现故障。背板出现故障或未正确安装。计算机检测出错；微处理器出现故障或未正确安装；系统板出现故障。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
OVER SPEC PCI
PS
RAID
由于某个电源通道上出现电源超负荷情况，所以关闭了服务器。电源功率超过最大额定值。
1 .检查电源指示灯以了解是否有错误指示（交流电源指示灯和直流电源指示灯未同时点亮,或信息指示灯点亮）。更换发生故障的电源。
钮已禁用。服务器接通交流电源后大约三分钟，电源控制按钮便会激活。
– 缓慢闪烁（每秒一次）：服务器已关闭，并且已准备就绪，可以开启。您可以按
电源控制按钮以开启服务器。
– 点亮：服务器开启。
– 逐渐变暗直至熄灭：服务器处于省电状态。要唤醒服务器，请按电源控制按钮或
使用IMM Web 界面。
注：如果该指示灯熄灭，并不表示服务器中不存在电流。该指示灯可能已烧毁。要
● 信息指示灯：当该指示灯点亮时，表示发生了一般性事件。光通路诊断面板上的某个指示灯也会点亮，以帮助找出错误。
●系统错误指示灯：当该指示灯点亮时，表示发生了系统错误。光通路诊断面板上的某个指示灯也会点亮，以帮助找出错误。
●释放滑锁：将该滑锁滑向左侧可操作光通路诊断面板，该面板位于操作员信息面板的后面。

服务器故障排查的方法和流程

服务器故障排查的方法和流程在日常运维工作中，服务器故障是一个常见的问题，如何快速准确地排查服务器故障并解决问题，是每个运维工程师都需要掌握的技能。

本文将介绍服务器故障排查的方法和流程，帮助读者更好地应对各种服务器故障。

一、故障现象的描述和确认当服务器出现故障时，首先需要对故障现象进行描述和确认。

在用户报告故障时，需要详细了解故障的表现形式，比如服务器无法访问、服务异常、性能下降等。

确认故障现象后，需要进一步核实故障是否真实存在，可以通过监控系统、日志记录等方式来确认故障的发生。

二、故障影响范围的评估在确认故障现象后，需要评估故障的影响范围，确定故障对业务的影响程度。

有些故障可能只是个别用户遇到的问题，而有些故障可能导致整个系统不可用。

评估故障影响范围有助于确定处理故障的优先级和紧急程度。

三、故障原因的分析确定故障现象和影响范围后，需要对故障原因进行深入分析。

故障原因可能包括硬件故障、软件问题、网络异常等多种可能性。

可以通过查看系统日志、性能监控数据、配置文件等方式来定位故障原因。

在分析故障原因时，需要有系统性思维和逻辑分析能力，排除干扰因素，找出真正的问题根源。

四、故障处理的方法和步骤根据故障原因的分析结果，制定相应的故障处理方法和步骤。

不同类型的故障可能需要采取不同的处理方式，比如重启服务器、更换硬件、调整配置参数等。

在处理故障时，需要注意保留现场信息，记录处理过程和结果，以便后续分析和总结经验教训。

五、故障处理后的验证和监控处理完故障后，需要对服务器进行验证和监控，确保故障已经得到解决并且系统正常运行。

可以通过访问测试、性能监控、日志记录等方式来验证故障处理的有效性。

同时，需要持续监控服务器的运行状态，及时发现和处理潜在的问题，确保系统的稳定性和可靠性。

六、故障处理的总结和反思每次处理完故障后，都需要进行总结和反思，分析故障处理过程中的不足和改进之处。

通过总结经验教训，可以提高运维团队的应急响应能力和故障处理效率，避免类似问题再次发生。

IBM服务器以及故障灯说明和解决办法

IBM服务器以及故障灯说明和解决办法系统故障：机器的前面板！灯亮起来。

有的情况下系统可以正常运行，但是有的情况下系统运行故障。

解决方法：1、重新启动服务器,按F1进入Configuration/Setup Utility；2、查看Error Logs选项下的黄色感叹号开始亮起来的日期以后的错误日志Error Logs；3、如果开机有F2提示可以进入Diagnostics(PC-Doctor)的机型，可以按F2进入诊断程序界面，在Hardware Info.菜单下选择System Error Logs可以将Error Logs保存到软盘上备查，也可以在该界面下查看所有的错误日志Error Logs；4、如果Error Logs中提示系统日志超过75%,没有其它错误日志的报告，在F1进入的Configuration/Setup Utility中，选择POST Error Log 选项后，直接回车选择Clear error logs清除所有的自检日志，同样选择System Error Log,直接回车选择Clear error logs清除所有的系统日志；5、如果Error Logs中有错误记录一定要将日志保存到软盘，退出诊断程序，然后关机，拔掉服务器连接的所有电源线，打开机箱侧面板，插上电源线加电，察看一下光路检测板，看是否有指示灯亮，如果有指示灯亮，一定要记录相应指示灯的名称，将得到的错误日志文件和指示灯信息一起提供给工程师，配合确定故障所在；6、另外一定要注意在打开机箱之前，必须断开服务器的所有的连线，比如电源线等；附加信息：IBM的Netfinity和e(IBM logo)Server的服务器（Netfinity5000及以上型号），e(IBM logo)Server X系列的x220以上服务器都集成有高级管理芯片或高级管理卡。

它们负责监视机器各个部件的工作状态，例如温度，电压等。

当这些指标超过预先设定的值，就会通过管理卡或管理芯片报警。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

p系列、系统p预防性维护说明国际商业机器（中国）有限公司文档编号：当前版本号： 3.1最初发布日期2001年12月13日最新修订日期：2011年9月2日一、硬件维护部分：1.检查机房环境：（请参照IBM机房条件及各机型的具体要求）温度：室内温度建议保持在22±2℃湿度：相对湿度应保持在50±5%电源：根据不同机型使用的电源有：200~240V 交流单相；380~415V 交流三相；-48V±5% 直流，实测电压不应超出允许的范围。

零线与火线不能反接，通常是面对插座的左边为零线，右边为火线。

机器必须有良好的接地保护，地线的接地电阻要求小于1欧姆。

因接地电阻测量需要专业仪器，因此以客户提供的测量数值为准，工程师只要确保机柜电源线的地线、机壳（接上电源线后）到建筑物接地端的电阻小于1欧姆就可以了。

新版巡检报告中添加了记录事项为是否双电源(此处指的是双动力源供电，比如电力供给来自不同的发电厂，而不是指设备是不是有冗余电源)，此外，需要记录如果是双动力源是否部署在了各自独立的PDU或者UPS上。

洁净度：机房应保持清洁且有良好的管理与维护。

如机房太脏应提醒客户注意。

设备散热：设备进风口温度是否够低并有足够的气流。

机房内设备的摆放是否符合冷热通道原则（绝对不能让设备排出的热空气排向其它设备的进风口）。

随机工具：对于59X/FHA这类高端机型，随机会附带一些R&V时需要用到的平台，滑轨等工具，巡检时应确认随机工具的当前存储状态，以备不时之需。

2.检查系统硬件情况：先从外观上检查硬件情况，检查设备故障灯是否有亮。

各种设备上都有故障指示灯，通常为橙色并有标记。

高端服务器，如p670/p690/p59x/FHA，应检查UEPO开关上的系统故障指示灯是否亮。

同时检查BPC、BPD、BPR、DCA、MDA等电源子系统的Power-on、Power-in、Power-out、Enable Green LED 等是否长亮。

还要检查部件故障灯，如I/O drawer、PCI卡，硬盘等。

检查是否有人改装过IBM设备（如拆掉面板、开口、拆掉过滤网、改变网络连接等）。

这些改装可能会影响设备的稳定运行，甚至带来严重后果。

对于高端Power5/Power6服务器，还应检查其正面Lightstrip和背面Lightstrip。

有安装的部件（如CPU book）所对应的绿色LED应长亮。

任何故障指示灯（橙色）都应不亮。

同时注意主机的Operator Panel，高端Power5/Power6或其它由HMC管理的机器应检查HMC图形界面的虚拟Operator Panel。

设备发生故障时通常伴有出错代码，必须把所有故障代码记录下来。

除此以外还应注意有否其他异常情况（如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等）。

•3.检查硬件错误报告error log：无HMC管理的系统可登录到AIX，使用“errpt –d H”命令检查硬件错误报告。

如有，则应使用“errpt –aj err_id |more”命令检查详细的日志。

为了准确判断故障，可对硬件设备运行故障诊断程序，如运行“diag -ed hdisk1”。

诊断程序可对故障记录中的SENSE DATA进行分析并给出SRN、SRC、FRU等。

注：如果故障记录太多，应将故障报告取回作进一步分析。

可用命令：“snap –r; snap –gc”用“mail”命令查看有否发给root用户的错误报告。

用“alog –ot boot”命令和“alog –ot console”命令检查系统的启动记录和主控台的出错信息。

对于Power5以前的主机，如果客户允许停机，则应shutdown主机，进入服务处理器（Service Processor）菜单检查故障记录。

对于Power5、Power6、Power7主机，无须shutdown分区就可以进入ASMI菜单进行检查。

有HMC管理的系统，可进入Service Focal Point进行检查。

HMC V6 步骤如下：在Service Focal Point目录下点击Manage Events打开Manage Serviceable Events窗口。

单击OK，进入Serviceable Events Overview窗口，里面记载了最近的错误日志。

单击一条记录，再选择Selected菜单，选择View Details，察看错误详细信息。

里面的错误信息应详细记录并保存，不可疏忽。

在错误被排除之后应该清除错误信息。

选择Selected菜单，选择Close Event，关闭错误详细信息。

HMC V7 步骤如下：登录后直接点击屏幕左下角的扳手图标，接下来的步骤就跟HMC V6一样了。

确认硬件问题解决后应关闭System Attention Light。

无HMC管理的主机：进入AIX diag菜单，选择Task Selection -> 选择Identify and Attention Indicators -> 选择Set System Attention Indicator to Normal。

有HMC管理的主机在图形界面下deactivate相关主机的Attention LED.4.检查机器清洁度检查机器的清洁程度，如面板上会不会有很多灰尘。

如果机器比较脏，或金属部件有腐蚀的迹象，则需要提醒客户注意改善机房环境。

有需要的话可以请IPR进行专业检测。

某些机型有空气过滤网，如7040/9119，长期使用可能需要更换，否则过滤网堵塞会影响散热效果。

请根据实际情况决定是否更换。

9119的过滤网安装在机柜前门，要确保3块过滤网都安装到位，并且机柜正面上下没有开口，所有冷却气流都应该经过滤网进入。

5.风扇转动情况：从机器相应的散热口检查冷却气流的状态，特别需要注意是否风量小或者无冷却风。

如有异常，应收集IQYY并开出对应PMH。

6.逻辑卷/硬盘检查用“lsvg –o|lsvg –il |grep stale”检查是否有stale状态的逻辑卷。

如有stale状态逻辑卷应立即进行同步修复。

7.是否有deconfig硬件资源：Power5以前的主机用“bindprocessor –q”命令检查是否有CPU被disable。

用“lsattr –El sys0”命令检查CPU GUARD是否设置正确。

AIX 5.2 以前的版本CPU GUARD默认是disable的。

通常系统/分区CPU数目≥3的就应该enable CPU GUARD（如果操作系统为AIX 5.2或以上则CPU≥2时就应该enable CPU GUARD）。

内存用命令lsattr –El mem0查看。

有分区的机器有一定内存overhead，具体计算参考pSeries Planning for Partitioned-System Operations SA38-0626-00Power5、Power6、Power7主机登入ASM menu -> System Configuration -> Hardware Deconfiguration -> Processor Deconfiguration 和Memory Deconfiguration检查是否有被deconfigured的CPU或内存。

同时检查有无其他部件被deconfigured并做相应记录。

8.DUMP信息（详细请参考《AIX操作系统DUMP设置及收集指南》）：系统DUMP设备应该有足够大的空间，可用“sysdumpdev –e”命令估计系统DUMP的大小以检验DUMP设备是否足够大。

对于内存较大的机器，建议建立专用的DUMP设备（如果系统内存大于4GB，则AIX5L会自动建立专用的DUMP设备：/dev/lg_dumplv）。

检查DUMP的拷贝目录（文件系统）是否有足够的空间（如果使用非内存交换区作为Primary DUMP 设备，则无此要求）。

如果要改变DUMP的拷贝目录（文件系统）则必须保证其建立在ROOTVG上。

为确保系统挂机时可以做强制DUMP，请把“always allow dump”设成“TURE”，可在线修改。

DUMP压缩功能除了可以节省空间外，还可以大大缩短AIX做DUMP的时间，建议打开(默认是关闭)，命令为sysdumpdev –C，可在线修改。

9.网络通信：检查网卡状态、IP地址是否正常。

通常不建议使用自适应速率（千兆以太网除外），网卡的设置应与交换机端口的设置匹配。

用“ping”命令检查网卡通信是否正常，如是否丢包，速度是否正常等。

用“netstat –rn”检查路由表是否正常。

检查/etc/hosts文件或DNS设置是否正常。

10.SSA/SCSI/SAS RAID状态（IBM存储服务器请参考存储设备检查指南）：磁盘阵列通常采用RAID1/RAID5/RAID10等数据保护方式。

不建议客户使用RAID0的方式，在RAID0方式下数据没有任何保护。

检查磁盘阵列中的RAID盘是否有坏盘，是否有degrade的状况。

检查磁盘阵列的cache是否打开。

热备盘（hotspare）盘可以提高磁盘阵列的可靠性，强烈建议设置热备盘。

以内置SAS RAID为例步骤如下：检查Disk Array 状态：#diag -> Task Selection -> RAID Array Manager -> IBM SAS Disk Array Manager -> List IBM SAS Disk Array Configuration检查SAS通道状态：#diag -> Task Selection -> RAID Array Manager -> IBM SAS Disk Array Manager -> Diagnostics and Recovery Options -> Show SAS Controller Physical Resources检查cache电池状态：#diag -> Task Selection -> RAID Array Manager -> IBM SAS Disk Array Manager -> Diagnostics and Recovery Options -> Controller Rechargeable Battery Maintenance -> Display Controller Rechargeable Battery Information11.LIC版本信息查看并且记录系统当前的微码版本以及HMC的版本信息（若是高端机器，还需查看并记录BPA的微码版本）12.RIO连接状况在HMC上查看RIO Topology状态，注意检查环路状态及速率。