IBM-小型机巡检内容及操作指导
IBM小型机检查命令

三:查看报错信息主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg系统报警灯四、机器的序列号# uname -MuIBM,9131-52A IBM,030666C5G五、操作系统版本:#oslevel -r# oslevel -r5300-05注:有时候不能使用是因为系统版本低的原因。
六、其他检测1、执行sysdumpdev –l检查dump是否设置为always allow sysdump;# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression ON2、执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下;# sysdumpdev -e0453-041 Estimated dump size in bytes: 1704984573、执行lsvg -l rootvg检查有否"stale"状态的逻辑卷;# lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 2 4 2 open/syncd N/Ahd8 jfs2log 1 2 2 open/syncd N/Ahd4 jfs2 40 80 2 open/syncd /hd2 jfs2 8 16 2 open/syncd /usrhd9var jfs2 1 2 2 open/syncd /varhd3 jfs2 8 16 2 open/syncd /tmphd1 jfs2 40 80 2 open/syncd /homehd10opt jfs2 1 2 2 open/syncd /optfwdump jfs2 1 2 2 open/syncd /var/adm/ras/platform4、执行lsps -s检查内存交换区占用情况;# lsps -sTotal Paging Space Percent Used512MB 1%# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv5、执行df -m检查文件系统的分配状况,一般不要超过80%;# df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 10240.00 6614.88 36% 18551 2% //dev/hd2 2048.00 667.25 68% 37425 20% /usr/dev/hd9var 256.00 246.13 4% 477 1% /var/dev/hd3 2048.00 1212.24 41% 2864 2% /tmp/dev/fwdump 256.00 255.64 1% 4 1% /var/adm/ras/platform/dev/hd1 10240.00 7713.15 25% 2526 1% /home/proc - - - - - /proc/dev/hd10opt 256.00 205.61 20% 976 3% /opt6、执行lsdev –Cc disk检查硬盘状态为available;# lsdev -Cc diskhdisk0 Available 04-08-00-8,0 16 Bit LVD SCSI Disk Drivehdisk1 Available 04-08-00-5,0 16 Bit LVD SCSI Disk Drive7、执行lsdev –Cc adapter检查PCI卡状态为available;# lsdev -Cc adapterent0 Available 09-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ent1 Available 09-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ide0 Available 03-08 ATA/IDE Controller Devicelai0 Available 0C-00 GXT135P Graphics Adaptersisscsia0 Available 04-08 PCI-X Dual Channel Ultra320 SCSI Adapterusbhc0 Available 08-08 USB Host Controller (33103500)usbhc1 Available 08-09 USB Host Controller (33103500)vsa0 Available LPAR Virtual Serial Adaptervsa1 Available LPAR Virtual Serial Adapter8、执行lsdev –Cc tape检查磁带机状态为available;# lsdev -Cc tapermt0 Available 04-08-00-0,0 LVD SCSI 4mm T ape Drive9、执行lsdev – Cc processor检查CPU状态为available;# lsdev -Cc processorproc0 Available 00-00 Processorproc2 Available 00-02 Processor10、执行lsattr –El sys0|grep autorestart检查系统crash后是否自动重新启动;# lsattr -El sys0 |grep autorestartautorestart true Automatically REBOOT system after a crash True# chdev -l sys0 -a autorestart=false修改autorestart值为False;11、执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启;# lsattr -El sys0 |grep cpuguardcpuguard enable CPU Guard True# chdev -l sys0 -a cpuguard=false修改cpuguard值为False;12、执行lsattr –El mem0检查内存状态,正常状态size=goodsize;# lsattr -El mem0goodsize 3920 Amount of usable physical memory in Mbytes Falsesize 3920 Total amount of physical memory in Mbytes False13、执行vmstat、iostat、topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈;a) CPU性能:使用vmstat,topas来检查;b) 内存使用情况:也是使用topas,vmstat来检查;c) 检查IO平衡使用情况:使用iostat来检查;d) 交换空间使用情况:使用lsps –a来检查;# vmstatSystem configuration: lcpu=4 mem=3920MBkthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa1 1 147268 831951 0 0 0 0 0 02 1350 67 0 0 99 0# topasTopas Monitor for host: IBMSim EVENTS/QUEUES FILE/TTYMon Feb 25 16:21:13 2008 Interval: 2 Cswitch 66 Readch 6Syscall 1375 Writech 176Kernel 0.1 |# | Reads 0 Rawin 0User 0.1 |# | Writes 0 Ttyout 176Wait 0.0 | | Forks 0 Igets 0Idle 99.8 |############################| Execs 0 Namei 0Runqueue 0.0 Dirblk 0Network KBPS I-Pack O-Pack KB-In KB-Out Waitqueue 0.0en1 0.2 0.5 0.5 0.0 0.2en0 0.0 0.0 0.0 0.0 0.0 PAGING MEMORYlo0 0.0 0.0 0.0 0.0 0.0 Faults 0 Real,MB 3920Steals 0 % Comp 15.9Disk Busy% KBPS TPS KB-Read KB-Writ PgspIn 0 % Noncomp 2.1 hdisk0 0.0 0.0 0.0 0.0 0.0 PgspOut 0 % Client 2.1hdisk1 0.0 0.0 0.0 0.0 0.0 PageIn 0cd0 0.0 0.0 0.0 0.0 0.0 PageOut 0 PAGING SPACESios 0 Size,MB 512Name PID CPU% PgSp Owner % Used 1.1dtgreet 94318 0.1 1.3 root NFS (calls/sec) % Free 98.8topas 323676 0.0 1.0 root ServerV2 0gil 69666 0.0 0.9 root ClientV2 0 Press:X 131180 0.0 3.6 root ServerV3 0 "h" for helprpc.lock 303278 0.0 1.2 root ClientV3 0 "q" to quitsendmail 233586 0.0 0.9 rootnetm 65568 0.0 0.4 rootxmwlm 188642 0.0 0.8 rootsyncd 127070 0.0 0.5 rootxmgc 49176 0.0 0.4 rootIBM.CSMA 307368 0.0 1.9 rootpsmd 24588 0.0 0.5 rootwlmsched 73764 0.0 0.5 rootj2pg 82000 0.0 2.0 rootusbCfgDe 86080 0.0 0.4 rootdtlogin 90238 0.0 0.4 rootvmptacrt 20490 0.0 0.4 rootaioserve 98496 0.0 0.4 rootlvmbb 102476 0.0 0.4 rootdog 106622 0.0 0.9 root# iostatSystem configuration: lcpu=4 drives=3 paths=2 vdisks=0tty: tin tout avg-cpu: % user % sys % idle % iowait0.0 2.5 0.1 0.1 99.8 0.0Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 0.1 0.9 0.2 87764 153601hdisk1 0.1 0.6 0.1 8694 153601cd0 0.0 0.0 0.0 0 0# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv14、执行ifconfig -a查看网卡是否启动(UP);# ifconfig -aen0:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN >inet 192.168.3.1 netmask 0xffffff00 broadcast 192.168.3.255tcp_sendspace 131072 tcp_recvspace 65536en1:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN >inet 192.168.7.8 netmask 0xff37ff00 broadcast 192.232.7.255tcp_sendspace 131072 tcp_recvspace 65536lo0: flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255inet6 ::1/0tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1#ifconfig en0 up/down修改网卡状态;15、执行netstat -in和netstat -rn观察网络状态;# netstat -rnRouting tablesDestination Gateway Flags Refs Use If Exp GroupsRoute Tree for Protocol Family 2 (Internet):default 192.168.7.253 UG 1 6141 en1 - -127/8 127.0.0.1 U 5 339 lo0 - -192.32.7.0 192.168.7.8 UHSb 0 0 en1 - - =>192.32.7 192.168.7.8 U 2 20955 en1 - -192.168.3.0 192.168.3.1 UHSb 0 0 en0 - - =>192.168.3/24 192.168.3.1 U 0 2 en0 - -192.168.3.1 127.0.0.1 UGHS 7 313 lo0 - -192.168.3.255 192.168.3.1 UHSb 0 4 en0 - -192.168.7.8 127.0.0.1 UGHS 0 1 lo0 - -192.232.7.255 192.168.7.8 UHSb 0 4 en1 - -Route Tree for Protocol Family 24 (Internet v6):::1 ::1 UH 0 0 lo0 - -# netstat -inName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen0 1500 link#2 0.14.5e.97.1.14 215 0 561 3 0en0 1500 192.168.3 192.168.3.1 215 0 561 3 0en1 1500 link#3 0.14.5e.97.1.15 37254 0 27106 7 0en1 1500 192.32.7 192.168.7.8 37254 0 27106 7 0lo0 16896 link#1 655 0 661 0 0lo0 16896 127 127.0.0.1 655 0 661 0 0lo0 16896 ::1 655 0 661 0 016、执行entstat -d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。
IBM小型机AIX深度巡检方案

□否
□是
□否
目前的/unix 链接的image文件是否和运行的内核一致?
系统是否已经安装了HIPER APAR?
□是
□否
□是
□否
XCOFF 文件是否和SWVPD保持一致?(lppchk —c查看)
/, /usr, /usr/share 是否一致?(lppchk —v查看)
□是
□否
□是
□否
系统dump检查
HACMP资源组状态
HACMP切换状态
□正常
□上次切换时间:
□异常,详细信息:
□上次切换结果:
HACMP人工效验是否正常
HACMP自动效验是否正常
□正常
□异常详细信息
□正常
□异常详细信息
检查结论及建议
□是
□否
密码安全性检查
用户及用户组检查
□正常
□异常详细信息
□正常
□异常详细信息
VMO参数是否正确: 将输出文件粘贴于此
□是
□否
NO参数是否正确: 将输出文件粘贴于此
□是
□否
Base OS参数是否正确:将输出文件粘贴于此
□是
□否
设备环境状态
设备故障灯:
设备异常声音:
存储检查
硬盘状态
卷组状态
□硬盘状态正常
用户限制是否被正确设置?(ulimit限制)
DUMP空间大小是否满足要求
□是
□否
□是
□否
dump 数据压缩选项是否打开
□是
□否
fullcore 选项是否被激活?
强制dump是否打开
□是
□否
□态及内容)
□启动顺序正常
IBM小型机巡检命令

IBM小型机巡检命令一、检查机房温度和湿度参考值:温度(摄氏℃)10 ℃-40℃湿度8% -80%二、检查电源的检测参考值:零-地电压小于1V火-地电压200-240V三:查看报错信息主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg系统报警灯四、机器的序列号# uname -MuIBM,9131-52A IBM,030666C5G五、操作系统版本:#oslevel -r# oslevel -r5300-05注:有时候不能使用是因为系统版本低的原因。
六、其他检测1、执行sysdumpdev –l检查dump是否设置为always allow sysdump;# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression ON2、执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下;# sysdumpdev -e0453-041 Estimated dump size in bytes: 1704984573、执行lsvg -l rootvg检查有否"stale"状态的逻辑卷;# lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 2 4 2 open/syncd N/Ahd8 jfs2log 1 2 2 open/syncd N/Ahd4 jfs2 40 80 2 open/syncd /hd2 jfs2 8 16 2 open/syncd /usrhd9var jfs2 1 2 2 open/syncd /varhd3 jfs2 8 16 2 open/syncd /tmphd1 jfs2 40 80 2 open/syncd /homehd10opt jfs2 1 2 2 open/syncd /optfwdump jfs2 1 2 2 open/syncd /var/adm/ras/platform4、执行lsps -s检查内存交换区占用情况;# lsps -sTotal Paging Space Percent Used512MB 1%# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv5、执行df -m检查文件系统的分配状况,一般不要超过80%;# df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 10240.00 6614.88 36% 18551 2% //dev/hd2 2048.00 667.25 68% 37425 20% /usr/dev/hd9var 256.00 246.13 4% 477 1% /var/dev/hd3 2048.00 1212.24 41% 2864 2% /tmp/dev/fwdump 256.00 255.64 1% 4 1% /var/adm/ras/platform/dev/hd1 10240.00 7713.15 25% 2526 1% /home/proc - - - - - /proc/dev/hd10opt 256.00 205.61 20% 976 3% /opt6、执行lsdev –Cc disk检查硬盘状态为available;# lsdev -Cc diskhdisk0 Available 04-08-00-8,0 16 Bit LVD SCSI Disk Drivehdisk1 Available 04-08-00-5,0 16 Bit LVD SCSI Disk Drive7、执行lsdev –Cc adapter检查PCI卡状态为available;# lsdev -Cc adapterent0 Available 09-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ent1 Available 09-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ide0 Available 03-08 ATA/IDE Controller Devicelai0 Available 0C-00 GXT135P Graphics Adaptersisscsia0 Available 04-08 PCI-X Dual Channel Ultra320 SCSI Adapterusbhc0 Available 08-08 USB Host Controller (33103500)usbhc1 Available 08-09 USB Host Controller (33103500)vsa0 Available LPAR Virtual Serial Adaptervsa1 Available LPAR Virtual Serial Adapter8、执行lsdev –Cc tape检查磁带机状态为available;# lsdev -Cc tapermt0 Available 04-08-00-0,0 LVD SCSI 4mm Tape Drive9、执行lsdev – Cc processor检查CPU状态为available;# lsdev -Cc processorproc0 Available 00-00 Processorproc2 Available 00-02 Processor10、执行lsattr –El sys0|grep autorestart检查系统crash后是否自动重新启动;# lsattr -El sys0 |grep autorestartautorestart true Automatically REBOOT system after a crash True# chdev -l sys0 -a autorestart=false修改autorestart值为False;11、执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启;# lsattr -El sys0 |grep cpuguardcpuguard enable CPU Guard True# chdev -l sys0 -a cpuguard=false修改cpuguard值为False;12、执行lsattr –El mem0检查内存状态,正常状态size=goodsize;# lsattr -El mem0goodsize 3920 Amount of usable physical memory in Mbytes Falsesize 3920 Total amount of physical memory in Mbytes False13、执行vmstat、iostat、topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈;a) CPU性能:使用vmstat,topas来检查;b) 内存使用情况:也是使用topas,vmstat来检查;c) 检查IO平衡使用情况:使用iostat来检查;d) 交换空间使用情况:使用lsps –a来检查;# vmstatSystem configuration: lcpu=4 mem=3920MBkthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa1 1 147268 831951 0 0 0 0 0 02 1350 67 0 0 99 0# topasTopas Monitor for host: IBMSim EVENTS/QUEUES FILE/TTYMon Feb 25 16:21:13 2008 Interval: 2 Cswitch 66 Readch 6 Syscall 1375 Writech 176Kernel 0.1 |# | Reads 0 Rawin 0User 0.1 |# | Writes 0 Ttyout 176Wait 0.0 | | Forks 0 Igets 0Idle 99.8 |############################| Execs 0 Namei 0 Runqueue 0.0 Dirblk 0Network KBPS I-Pack O-Pack KB-In KB-Out Waitqueue 0.0en1 0.2 0.5 0.5 0.0 0.2en0 0.0 0.0 0.0 0.0 0.0 PAGING MEMORYlo0 0.0 0.0 0.0 0.0 0.0 Faults 0 Real,MB 3920Steals 0 % Comp 15.9Disk Busy% KBPS TPS KB-Read KB-Writ PgspIn 0 % Noncomp 2.1 hdisk0 0.0 0.0 0.0 0.0 0.0 PgspOut 0 % Client 2.1hdisk1 0.0 0.0 0.0 0.0 0.0 PageIn 0cd0 0.0 0.0 0.0 0.0 0.0 PageOut 0 PAGING SPACESios 0 Size,MB 512Name PID CPU% PgSp Owner % Used 1.1dtgreet 94318 0.1 1.3 root NFS (calls/sec) % Free 98.8topas 323676 0.0 1.0 root ServerV2 0gil 69666 0.0 0.9 root ClientV2 0 Press:X 131180 0.0 3.6 root ServerV3 0 "h" for helprpc.lock 303278 0.0 1.2 root ClientV3 0 "q" to quitsendmail 233586 0.0 0.9 rootnetm 65568 0.0 0.4 rootxmwlm 188642 0.0 0.8 rootsyncd 127070 0.0 0.5 rootxmgc 49176 0.0 0.4 rootIBM.CSMA 307368 0.0 1.9 rootpsmd 24588 0.0 0.5 rootwlmsched 73764 0.0 0.5 rootj2pg 82000 0.0 2.0 rootusbCfgDe 86080 0.0 0.4 rootdtlogin 90238 0.0 0.4 rootvmptacrt 20490 0.0 0.4 rootaioserve 98496 0.0 0.4 rootlvmbb 102476 0.0 0.4 rootdog 106622 0.0 0.9 root# iostatSystem configuration: lcpu=4 drives=3 paths=2 vdisks=0tty: tin tout avg-cpu: % user % sys % idle % iowait0.0 2.5 0.1 0.1 99.8 0.0Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 0.1 0.9 0.2 87764 153601hdisk1 0.1 0.6 0.1 8694 153601cd0 0.0 0.0 0.0 0 0# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Typehd6 hdisk0 rootvg 512MB 1 yes yes lv14、执行ifconfig -a查看网卡是否启动(UP);# ifconfig -aen0:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64 BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inet 192.168.3.1 netmask 0xffffff00 broadcast 192.168.3.255tcp_sendspace 131072 tcp_recvspace 65536en1:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64 BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inet 192.168.7.8 netmask 0xff37ff00 broadcast 192.232.7.255tcp_sendspace 131072 tcp_recvspace 65536lo0:flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT> inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255inet6 ::1/0tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1#ifconfig en0 up/down修改网卡状态;15、执行netstat -in和netstat -rn观察网络状态;# netstat -rnRouting tablesDestination Gateway Flags Refs Use If Exp GroupsRoute Tree for Protocol Family 2 (Internet):default 192.168.7.253 UG 1 6141 en1 - -127/8 127.0.0.1 U 5 339 lo0 - -192.32.7.0 192.168.7.8 UHSb 0 0 en1 - - =>192.32.7 192.168.7.8 U 2 20955 en1 - -192.168.3.0 192.168.3.1 UHSb 0 0 en0 - - =>192.168.3/24 192.168.3.1 U 0 2 en0 - -192.168.3.1 127.0.0.1 UGHS 7 313 lo0 - -192.168.3.255 192.168.3.1 UHSb 0 4 en0 - -192.168.7.8 127.0.0.1 UGHS 0 1 lo0 - -192.232.7.255 192.168.7.8 UHSb 0 4 en1 - -Route Tree for Protocol Family 24 (Internet v6):::1 ::1 UH 0 0 lo0 - -# netstat -inName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen0 1500 link#2 0.14.5e.97.1.14 215 0 561 3 0en0 1500 192.168.3 192.168.3.1 215 0 561 3 0en1 1500 link#3 0.14.5e.97.1.15 37254 0 27106 7 0en1 1500 192.32.7 192.168.7.8 37254 0 27106 7 0lo0 16896 link#1 655 0 661 0 0lo0 16896 127 127.0.0.1 655 0 661 0 0lo0 16896 ::1 655 0 661 0 016、执行entstat -d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。
IBM pSeries巡检报告08

有否硬件故障:
有否软件故障:
故障内容:
用mail 命令查看有否发给root用户的错报告正常 □不正常
故障内容:
查看日志文件,/smit.log;/var/adm/ras/bootlog;/var/adm/sulog;正常 □不正常
who–s /etc/security/failedlogin |tail -30
sysdumpdev–l
通信测试正常 □ 不正常
检查各网卡的状态、IP地址、路由表等(netstat–in / netstat -rn)
用“ping”等命令检查通信
Hacmp检查正常□ 不正常
HACMP日志状态,HACMP进程状态,HACMP资源组状态
注:
系统中是否有死进程:正常□ 不正常
ps–ef|grep defunct
深圳市财政委
小型机现场巡检报告
深圳市圣翰软件发展有限公司
2010年8月
巡检日期:2010年8月5日 机型: IBM P570,P550
序列号:653451F,65345BF,65345AF,65345CF,65344FF,653459F,062590H,062592H,062597H
检查机房环境
温度 湿度相电压线电压零地电压正常 □ 不正常
注:
是否允许 ftp rlogin telnet正常 □ 不正常
注:
存储检查□ 正常 □ 不正常无
PV状态,故障灯,告警
运行fget_config–l dar0检查磁盘路径分配情况□ 正常 □ 不正常无
巡检总结:
1.系统硬件正常。
2.系统磁盘保护正常,空间使用率合理。
IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。
2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。
3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。
4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。
5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。
6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。
7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。
8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。
9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。
10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。
二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。
2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。
3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。
4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。
5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。
6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。
7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。
8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。
9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。
IBM小机巡检报告格式

异常□
检查路由表
执行命令:
netstat -rn
检查系统网关是否有配置,各个路由表是否正确。
正常□
异常□
检查群集进程
执行命令:
lssrc–g cluster
检查群集进程是否开启,默认情况下
clstrmgrES该进程应该是激活的。
正常□
异常□
检查群集状态执行命令:clstat -a检查当前群集状态,各个网卡接口状态是否为UP;各个资源组状态是否为online。
检查系统卷组的镜像状态。
各个逻辑卷的PPs数量应该为LPs数量的整数倍,倍数大于1并且能被PVs整除,表示卷组已经作镜像。
各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。
各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。
正常□
异常□
文件系统
执行命令:
df -k
检查已经挂载的文件系统的使用状态。
重点检查/(根) /tmp(临时)/var (日志文件)这些动态文件系统的使用率最好保持在70%以下。
正常□
异常□
错误日志
执行命令:
errpt
检查系统日志是否有硬件或软件方面的永久错误。若发现错误类型为P的信息,则需要注意。
正常□
异常□
网卡配置情况
执行命令:
ifconfig–a
检查各个网卡的配置情况,状态是否为UP,检查ip地址和子网掩码等配置是否正确。
CPU状态为Available,表示CPU使用正常
正常□
异常□
内存
执行命令:
lsattr–El mem0
检查内存数量及状态。
size与goodsize的数量相等表示内存使用正常
ibm小型机巡检命令

ibm小型机巡检命令hostname主机名oslevel -s现实系统当前版本lsdev -Cc disk显示系统中的硬盘lscfg -vpl hdiskX显示硬盘X的配置信息lsvg -l rootvg显示根卷组逻辑信息lsvg -p rootvg显示根卷组的物理信息errpt显示错误信息errpt -a|more显示错误详细信息并分页errpt -aj ec0bccd4(错误标示符)显示单个错误的详细信息mail显示是否有maildf -g显示文件系统空间使用率(90%引起注意)lsps -a分页空间利用率(70%引起注意)sar 1 5实时cpu内存使用情况topas系统实时显示ifconfig -a显示网卡状态和ip地址netstat -in显示网络信息lsvg rootvg显示根卷组的详细信息10/100/1000 Base-TX PCI-X(网卡兼容的速率)1. 查看逻辑CPU个数#pmcycles -mCPU 0 runs at 4204 MHzCPU 1 runs at 4204 MHzCPU 2 runs at 4204 MHzCPU 3 runs at 4204 MHzCPU 4 runs at 4204 MHzCPU 5 runs at 4204 MHzCPU 6 runs at 4204 MHzCPU 7 runs at 4204 MHz上面描述有8个CPU,CPU的主频为4.2G赫兹2. 查看物理CPU个数#prtconf|grep ProcessorsNumber Of Processors: 43. 确定CPU是几核用逻辑CPU除以物理CPU就是核数。
4. 查看单个CPU的详细信息#lsattr -E -l proc0frequency 4204000000 Processor Speed False smt_enabled true Processor SMT enabled False smt_threads 2 Processor SMT threads False state enable Processor state Falsetype PowerPC_POWER6 Processor type Falsecd /usr/lpp/diag*/bin./usysfault查看面板故障灯是否出现故障、。
IBM 小型机巡检服务过程

IBM 小型机巡检服务过程一.提取机器的型号。
#uname -uM二.机房内场地环境检查。
三.检查系统硬件灯是否有亮。
四.查看系统错误报告。
1.查看是否有硬件和软件故障。
#Errpt –d H | more ,# errpt –d S | more, #errpt –aj *******|more查看具体错误信息# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件。
2.有否发给root用户的错误报告(mail)。
#Mail3.检查hacmp.out,smit.log,bootlog等.#lssrc –g cluster/#>lssrc –g cluster,一般hacmp.out的位置在:/use/sbin/cluster/或者/tmp/,找到最近hacmp.out文件查看是否有错误信息。
4.查看是否有“满”的系统文件。
#df –k 查看系统文件有没有超过90%的使用率,有请用户改善。
5.查看是否有“stale”(不可用)状态的逻辑卷.#lsvg -l rootvg,系统还有其卷组的也要查看。
6.查看内存使用率是否超过70%。
#Lsps -a五.系统性能检查,查看系统是否有性能瓶颈。
#topas #vmstat 1 10 #iostat 1 10六.网络与通讯检查,查看网卡的状态,IP地址,路由器等。
#ifconfig –a,#netstat–in,#netstat –rn(查看路由情况),#vi/etc/hosts(查看hosts文件有否特殊定义),#ping ******(IP),#lsattr –Elet0(路由的检测,显示true正确的就是没问题)。
七,数据安全检查。
1.查看是否有符合要求的备份。
#ls –l/image.date(查看系统有没有备份image文件,记录备份最后日期),#lsvg –l rootvg(查看有否符合要求的数据备份和保护)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM 小型机巡检内容及操作指导
1. IBM 小型机小型机机房要求:
1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2.温度(摄氏℃)
10 ℃-40℃
湿度(%)
8% -80%
2.设备故障灯分类:•
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3.系统错误报告(Error Log)的检查:
硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户
软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户
4.有否发给root用户的错误报告(mail):
#mail
1.观察所有未读消息,注意有关diagela的消息。
2.常用命令:
h [<num>] Display headings of group containing message <num>
t [<msg_list>] Display messages in <msg_list> or current message.
n Display next message.
q Quit
3.对发现的问题详细分析,结果报告给客户
5.文件系统的检查:
命令:
# df –k
%Used为文件系统的使用率。
所有文件系统的使用率不能大于80%
6.磁带机清洁的检查:
命令:
#/usr/lpp/diagnostics/bin/utape -cd rmt0 -n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
#/usr/lpp/diagnostics/bin/utape -d rmt0 -n 会提示是否需要clean
6.信系统的检测:
1.网卡的状态
命令:
#ifconfig –a
输出判断:
en0:
flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT> inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255
en1:
flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT> inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255
主备网卡的flag为UP属正常。
同时检查ip地址和netmask是否正确。
2.路由的检测
命令:
#lsattr –El inet0
authm 65536 Authentication Methods True hostname h24 Host Name True
gateway Gateway True route net,,0,172.16.23.81 Route True bootup_option no Serial Optical Network Interface True rout6 FDDI Network Interface True
3.网络的检测
命令:
#ping [ip address]
输出判断:
用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
RAID 的Hotspare 属性是否打开
#smitty ssaraid Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
8.系统DUMP设置的检查
命令:
#sysdumpdev –l
输出判断:
结果应为
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump compression OFF
9.HACMP 配置检测: Cluster Verification:
命令:
# /usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。
10.系统硬件诊断:
命令顺序为:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
11.补丁程序(PTF)的检查
系统维护补丁版本为ML09,检查命令为:
#instfix –i |grep ML
12.系统参数的检查
1.HIGH water mark for pending write I/Os
# lsattr -El sys0 |grep maxpout
输出判断:
结果应为
maxpout 33 HIGH water mark for pending write I/Os per file True 2.LOW water mark for pending write I/Os
# lsattr -El sys0|grep minpout
输出判断:
结果应为
minpout 24 LOW water mark for pending write I/Os per file True 更改命令为:
#chdev -l sys0 -a maxpout='33' -a minpout='24'
3.Syncd参数
# grep syncd /sbin/rc.boot
输出判断:
结果应为
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
更改命令为:
#vi /sbin/rc.boot
4.aio参数
# lsdev -Cc aio
输出判断:
结果应为
aio0 Available Asynchronous I/O
# lsattr -El aio0
输出判断:
结果应为
minservers 1 MINIMUM number of servers True maxservers 10 MAXIMUM number of servers True maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True 更改命令为:
#smitty aio
5.Limits文件的设置:
#ulimit –a
输出判断:
结果应为
time(seconds) unlimited
) 2097151
data(kbytes) 262144 //尤其是这项参数stack(kbytes) 32768
memory(kbytes) 32768
coredump(blocks) 2097151
nofiles(descriptors) 2000
更改命令为:
#vi /etc/security/limits
更改data为524288。