IBM小型机AIX深度巡检方案
iMAS智能设备运维巡检解决方案

于
• 18年B设备的支出费用
已超过了购入费用
2015 年
2016 年
2017 年
2018 年
设 备
B
效益分析观点与内容
举例:某设备在医院的残值率和其维护成本的分析图
从 成
本根据分Leabharlann 图可以看出万元角 度
1. 2017年,通过折旧率算 出的该设备的价值已经 与其当年的维修成本持
设备残值
考 虑
平。
建
2. 2018年,该设备的维修
各班组执行的保养任务,实时推送到检查终端,通知和提 醒班组人员按时执行任务。
产品功能-设备维修
现场报修
通知维修
派人去现场
以前: 无法记录报修时情况 查询维修情况难 相关费用统计时间长 设备故障统计不准确
系统确认
现场维修
现场确认
现在: 快速报修:手机端对设备扫描 快速响应:自动通知设备维修组 实时查询:维修记录自动归类到 各设备的记录下,故障描述费用 统计等
产品功能-自动化抄表
通过和原有监测系统对接,可实现远程抄 表,原有人工巡查次数可以被优化,提高 效率的同时,减少人员投入成本。
产品功能-统计分析
实现对设备管理进行多口径、多角度、多维度的统计分析,灵活定制各类数据展示及图形,有助于管理者直观快速的了解和 掌握情况,做到心中有数,及时发现问题,尽快做出决策
系统价值
效益分析观点与内容
A
举例:AB设备类型相同在4年中的维护成本比较
设
备
• B设备购入晚于A设备且
价格低
50万
• B设备的支出已于2017
年超越A设备
20万
的 质 量
• 4年间,AB两台审慎都 维持了强劲增长,但是B
AIX系统巡检

AIX系统的日常监控维护1、#df –k 如果占用率(%Iused)超过90%,则需要进行空间调整。
2、#errpt |more 命令分页查看系统出错日志(包括硬件与软件的出错信息)。
根据显示的信息判断系统硬件及软件的运行情况。
输入:errclear 0命令,清除现有的系统日志。
3、#last命令检查系统登陆情况#last,显示各个login用户(如:root等)登陆的信息。
如果发现有异常的登陆用户或者登陆IP,则进行相应安全性的检查及处理。
4、使用find / -name core –print命令检查是否有巨大的core文件生成在命令提示符“#”后输入:find / -name core –print,表示从系统根目录开始查找所有名为core的文件(巨大的core文件容易造成系统崩溃)。
如果存在,一般直接删除即可。
5、使用vmstat命令检查CPU及内存运行情况在命令提示符“#”后输入:vmstat 5,表示每隔5秒钟显示系统CPU及内存运行情况。
查看kthr(kernel运行队列中处于等待状态的进程数)字段的r(运行队列中的进程数)项的显示值,如果该数值是系统实际CPU数的4倍或4倍以上,则表示CPU占用率过高,需要考虑提高系统CPU工作频率;查看memory(虚拟和真实内存的使用信息)字段的fre(空闲页面的数量)项,如果数值低于120,则说明系统内存短缺。
有时候数值虽然高于120,也可以根据实际情况调整内存;查看page(页面活动的信息)字段的pi(从页面输入的页)、po(输出到页面的页)、fr(空闲的页面数)及sr(通过页面置换算法搜索到的页面数)项的值,这4个值一般都为0,有时候也有可能为1;最后查看cpu(cpu的使用率)字段的us(用户进程的时间)及sy(系统进程的时间)项的值,两项值的和应该不超过90%,否则说明CPU能力短缺。
6、使用lsps –a命令检查交换内存空间使用情况在命令提示符“#”后输入:lsps -a,查询交换内存空间使用情况。
IBM小型机AIX深度巡检方案

□否
□是
□否
目前的/unix 链接的image文件是否和运行的内核一致?
系统是否已经安装了HIPER APAR?
□是
□否
□是
□否
XCOFF 文件是否和SWVPD保持一致?(lppchk —c查看)
/, /usr, /usr/share 是否一致?(lppchk —v查看)
□是
□否
□是
□否
系统dump检查
HACMP资源组状态
HACMP切换状态
□正常
□上次切换时间:
□异常,详细信息:
□上次切换结果:
HACMP人工效验是否正常
HACMP自动效验是否正常
□正常
□异常详细信息
□正常
□异常详细信息
检查结论及建议
□是
□否
密码安全性检查
用户及用户组检查
□正常
□异常详细信息
□正常
□异常详细信息
VMO参数是否正确: 将输出文件粘贴于此
□是
□否
NO参数是否正确: 将输出文件粘贴于此
□是
□否
Base OS参数是否正确:将输出文件粘贴于此
□是
□否
设备环境状态
设备故障灯:
设备异常声音:
存储检查
硬盘状态
卷组状态
□硬盘状态正常
用户限制是否被正确设置?(ulimit限制)
DUMP空间大小是否满足要求
□是
□否
□是
□否
dump 数据压缩选项是否打开
□是
□否
fullcore 选项是否被激活?
强制dump是否打开
□是
□否
□态及内容)
□启动顺序正常
AIX巡检命令

1、主机型号与序列号检查:#uname –uM2、系统错误报告检查:#errpt #errpt –aj ID号3、Mail信息检查:#mail 看mail有没有error与warning信息。
4、检查smit.log,bootlog。
#cd /var/adm/ras 用vi编辑器查看相关日志看是否有error与warning信息。
5、检查hacmp.out:查看/tmp/hacmp.out文件看是否有error与warning信息6、文件系统检查:#df –k文件系统应该保持在90%以下,超过90%应注意清理。
7、逻辑卷:有否“stale”状态的逻辑卷:#lsvg –o |lsvg –i |grep STALE 看输出STALE是否全为0.全为0表示vg正常。
8、.内存使用情况:#svmon –G 内存使用率不应超过70%9、Swap使用情况:#lsps –a swap空间占用率不应超过70%10、系统性能检查:#topas#vmstat 主要看kthr 参数参数:若r 数值偏大,表明CPU太忙,若b 数值偏大,表明系统I/O出现瓶颈。
%user+sys%接近100%表cpu瓶颈。
如果pi(page-in )和po(page-out ) 参数将不是0,同时avm 和fre 数值的比值悬殊很大,fre 数值很小.#iostat 看% tm_act值, 其表示某个硬盘处于active状态的百分比11、网络状况检查:#netstat –in#netstat -rn12、数据安全检查#ls –l /image.data 检查系统备分日期。
#lsvg –l rootvg 检查rootvg是否镜像13、磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
14、Dump设置检查。
最为详细的AIX 巡检流程

当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。用diag命令进行检测,diag步骤如下:
最为详细的AIX 巡检流程
1、 检查系统硬件情况:设备故障灯是否有亮
可用diag命令检查系统硬件运行情况
每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。
硬件故障
通常将硬件故障分为以下几个类别
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。
4、检查hacmp.out,smit.log,boot.log
hacmp.out查看:# lssrc -g cluster
smit.log查看:在tmp里面查看有无smit.log,用vi查看
boot.lot查看:# alog -o -t boot
(找到时间最近的字节不为零的文件,vi查看
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
IPL 流程
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
.Phase 1: Service Processor 的初始化
SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。
2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。
3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。
4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。
5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。
6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。
7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。
8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。
9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。
10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。
二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。
2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。
3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。
4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。
5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。
6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。
7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。
8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。
9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。
巡检常用命令

IBM AIX 小型机巡检常用命令及流程第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。
参考值:温度(摄氏℃)10 ℃-40℃湿度8% -80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。
参考值:零-地电压小于1V火-地电压200-240V (补充:当然59系列的机器相间380V,相地240V)第三:关于报错。
主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg还有系统又没又报警灯第三:机器的序列号:#uname -Mu第四:操作系统版本:#oslevel -r 注:有时候不能使用是因为系统版本低的原因第五:其他检测执行sysdumpdev –l (检查dump是否设置为always allow sysdump)执行sysdumpdev –e (检查当前dump大小应该为主dump设备的大小的80%以下)执行lsvg -l rootvg (检查有否"stale"状态的逻辑卷)执行lsps -s (检查内存交换区占用情况)执行df –k (检查文件系统的分配状况,一般不要超过80%)执行lsdev –Cc disk (检查硬盘状态为available)执行lsdev –Cc adapter (检查PCI卡状态为available)执行lsdev –Cc tape (检查磁带机状态为available)执行lsdev – Cc processor (检查CPU状态为available)执行lsattr –El sys0|grep autorestart (检查系统crash后是否自动重新启动)执行lsattr –El sys0|grep cpuguard (检查CPU GUARD是否开启)执行lsattr –El mem0 (检查内存状态正常size=goodsize)执行vmstat 2iostat,topas观察us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)执行netstat –in和netstat –rn (观察网络状态)执行entstat –d enX (检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M 半工改为自适应时,缺省网关会丢失。
ibm小型机巡检命令

ibm小型机巡检命令hostname主机名oslevel -s现实系统当前版本lsdev -Cc disk显示系统中的硬盘lscfg -vpl hdiskX显示硬盘X的配置信息lsvg -l rootvg显示根卷组逻辑信息lsvg -p rootvg显示根卷组的物理信息errpt显示错误信息errpt -a|more显示错误详细信息并分页errpt -aj ec0bccd4(错误标示符)显示单个错误的详细信息mail显示是否有maildf -g显示文件系统空间使用率(90%引起注意)lsps -a分页空间利用率(70%引起注意)sar 1 5实时cpu内存使用情况topas系统实时显示ifconfig -a显示网卡状态和ip地址netstat -in显示网络信息lsvg rootvg显示根卷组的详细信息10/100/1000 Base-TX PCI-X(网卡兼容的速率)1. 查看逻辑CPU个数#pmcycles -mCPU 0 runs at 4204 MHzCPU 1 runs at 4204 MHzCPU 2 runs at 4204 MHzCPU 3 runs at 4204 MHzCPU 4 runs at 4204 MHzCPU 5 runs at 4204 MHzCPU 6 runs at 4204 MHzCPU 7 runs at 4204 MHz上面描述有8个CPU,CPU的主频为4.2G赫兹2. 查看物理CPU个数#prtconf|grep ProcessorsNumber Of Processors: 43. 确定CPU是几核用逻辑CPU除以物理CPU就是核数。
4. 查看单个CPU的详细信息#lsattr -E -l proc0frequency 4204000000 Processor Speed False smt_enabled true Processor SMT enabled False smt_threads 2 Processor SMT threads False state enable Processor state Falsetype PowerPC_POWER6 Processor type Falsecd /usr/lpp/diag*/bin./usysfault查看面板故障灯是否出现故障、。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
□否
密码安全性检查
用户及用户组检查
□正常
□异常详细信息
□正常
□异常详细信息
VMO参数是否正确: 将输出文件粘贴于此
□是
□否
NO参数是否正确: 将输出文件粘贴于此
□是
□否
Base OS参数是否正确:将输出文件粘贴于此
□是
□否
设备环境状态
设备故障灯:
设备异常声音:
存储检查
硬盘状态
卷组状态
□硬盘状态正常
网络状态
□网卡状态正常
□连通正常,无错包
□网卡异常,详细信息:
□连通异常,有错包
□相关节点连通正常
□路由信息正常
□相关节点连通异常,详细信息:
□路由信息异常,详细信息:
SRC Master 进程是否运行?
loopback/localhost 是否可以解析?
□是
□否
□是
□否
hostname 是否可以解析?
□卷组状态正常
□硬盘状态异常,详细信息:
□卷组状态异常,详细信息:
链路状态
PV状态
□链路状态正常,且均有双通路
□PV状态正常
□链路状态异常,详细信息:
□PV状态异常,详细信息:
性能检查
内存使用(vmstat)
r
b
w
avm
free
pi
po
物理内存数
CPU使用
USR
SYS
WIO
IDLE
系统总体CPU使用率是否大于90%
□是
□否
□是
□否
目前的/unix 链接的image文件是否和运行的内核一致?
系统是否已经安装了HIPER APAR?
□是
□否
□是
□否
XCOFF 文件是否和SWVPD保持一致?(lppchk -c查看)
/, /usr, /usr/share 是否一致?(lppchk -v查看)
□是
□否
□是
□否
系统dump检查
用户限制是否被正确设置?(ulimit限制)
DUMP空间大小是否满足要求
□是
□否
□是
□否
dump 数据压缩选项是否打开
□是
□否
fullcore 选项是否被激活?
强制dump是否打开
□是
□否
□是
□否
本地盘镜像状态
□镜像正常(包括镜像状态及内容)
□启动顺序正常
□镜像异常,详细信息:
□启动顺序异常,详细信息:
IBM小型机AIX深度巡检方案
巡检报告
系统名称:
主机名称:
设备序列号:
系统信息
操作系统版本及补丁号
其他特殊软硬件配置
OS版本号:
OS补丁号:
□无
微码:
上次启动时间:
□有,详细信息:
系统检查
系统日志状态
errpt
HMC EVENT
□正常
□正常
□异常信息(P,H类型错误):
□异常信息:
rootvg状态
是否重要文件系统有镜像
□正常
□异常,详细信息:
内存交换区paging space与内存比例是否大于1:1(pagingspace)
□是
□否
□未超过70%
□超过70%。详细信息:
磁盘使用
□BUSY未超过80%
□BUSY超过80%。详细信息:
HACMP检查
HACMP日志状态
HACMP进程状态
□正常
□正常
□异常,详细信息:
□异常,详细信息:
□是
□否
文件系统状态
□使用空间未有超过80%
□无未MOUNT的正常FS
□有超过80%。详细内核?
/unix 文件是否连接到正确的image文件?
□是
□否
□是
□否
是否系统运行缺省的内核debug 选项?(建议关闭)
在boot image 被修改以后,是否AIX 重新启动过?
HACMP资源组状态
HACMP切换状态
□正常
□上次切换时间:
□异常,详细信息:
□上次切换结果:
HACMP人工效验是否正常
HACMP自动效验是否正常
□正常
□异常详细信息
□正常
□异常详细信息
检查结论及建议