IBM AIX小型机巡检内容及操作指导
小型机、服务器内存和磁盘检查

小型机、服务器内存和磁盘检查
一、内存检查占用率
1、小型机AIX系统查看内存占用
•vmstat命令查看
查看mem这项为总内存空间,fre这项除以4000为剩余内存空间,占比不宜超过80%
•nmon命令查看(topas)
输入nmon,在下一个界面按m,下图为当前内存占用情况,
图中圈起来的是当前内存使用比例,占比不宜超过80%
2、服务器LINUX系统查看内存占用
•free命令查看
mem这行为内存,swap这行为交换分区
total这列为总容量,used这列为使用容量,计算占比,即为内存使用率,占比不宜超过80%
•top命令查看
第四行Mem,total为总容量,used为使用容量,计算出来占比即为内存使用率,占比不宜超过80%
二、磁盘空间检查
1、AIX磁盘占用检查
第一步:查看%used这列,使用率有没有超过80%
如果有超过80%的,进入该目录查看,执行第二步、第三步,反复执行
2、LINUX磁盘占用检查
第一步:查看%used这列,使用率有没有超过80%
如果有超过80%的,进入该目录查看,执行第二步、第三步,反复执行
3、SC服务器磁盘占用清理1、2号线数据库备份清理,步骤如下
3号线SC数据库备份清理如下。
AIX小型机状态监测

AIX⼩型机状态监测1、确认所在主机及系统版本通过#hostname、#oslevel确认所在主机后,再进⾏后续操作2、运⾏lsdev 命令配置各种参数,所列各种设备状态都应为Available。
#lsdev –CHS a 列出系统中可⽤设备。
#lsdev –Cc processor 列出系统中的所有CPU。
#lsdev –Cc memory 列出系统中的所有内存。
#lsdev –Cc disk 列出系统中的所有硬盘。
#lsdev -Cc adapter | grep ent 列出系统中的所有⽹卡#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。
#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。
3、检查pv信息#lspv 显⽰系统中可⽤的PV。
#lspv hdiskn 显⽰hdiskn的具体信息。
#lsdev –Cc pdisk 显⽰磁盘阵列的硬盘的具体信息。
对SSA硬盘的检测:在对主机进⾏⼯作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运⾏以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘,并且状态应为Available.。
4、检查内存信息# lsattr –El mem0 列出系统中内存mem0的⼤⼩5 、检查vg信息#lsvg 列出系统中所有的vg。
#lsvg rootvg 列出rootvg的详细信息。
#lsvg –o 列出激活的vg6、检查系统中各⽹卡配置#netstat –in 查看⽹卡的IP是否配置好了。
7、检测主机内所有硬件# diag 检测结果为 “No trouble found ”则各部分⼯作正常。
(选择:Task Selection-> SSA Service Aids)对SSA硬盘链路连接的校验,可以通过SSA ⼯具⾥的Link Verification 来检测。
IBM_AIX小机命令手册

?EXCLUDE files:如果选择yes,将使得文件/etc/exclude.rootvg文件中列出的文件和目录不被备份。
?Make BOOTABLE backup:是否生成可启动备份,一般取默认值——yes。
?EXPAND /tmp if needed:是否在需要时自动扩展/tmp文件系统。强烈建议选yes。
内存大小: lsattr –El mem0
? 磁盘 lspv
? 交换分区 lsps –a
? 软件 lslpp –l 文件包名字
? 用户 who
关机命令:
–shutdown
一分钟后关机
–shutdown +2
二分钟后关机
–shutdown –Fr
关机重启(-r)
–或者创建一个CD-ROM文件系统并进行加载
?smit cdrfs
?mount /cdrom
?卸载cdrom
– unmount /cdrom
二、备份与恢复
rootvg备份 — mksysb
●只备份rootvg
●只备份已挂接的文件系统
●以备份格式创建可启动磁带
●保存rootvg中的换页空间设备定义
●tar (tape archive)
◇适用范围广
◇非常适合在不同UNIX平台间传送文件
◇可恢复空目录(-d选项)
◇不支持AIX访问控制列表(ACL,属于扩展inode内容)
●cpio(copy input to output)
◇适用范围广
◇符号链接较多时可能不能正常工作
?ls 显示目录中的内容(文件名)
#ls –a 列出当前目录中的所有文件
AIX系统巡检

AIX系统的日常监控维护1、#df –k 如果占用率(%Iused)超过90%,则需要进行空间调整。
2、#errpt |more 命令分页查看系统出错日志(包括硬件与软件的出错信息)。
根据显示的信息判断系统硬件及软件的运行情况。
输入:errclear 0命令,清除现有的系统日志。
3、#last命令检查系统登陆情况#last,显示各个login用户(如:root等)登陆的信息。
如果发现有异常的登陆用户或者登陆IP,则进行相应安全性的检查及处理。
4、使用find / -name core –print命令检查是否有巨大的core文件生成在命令提示符“#”后输入:find / -name core –print,表示从系统根目录开始查找所有名为core的文件(巨大的core文件容易造成系统崩溃)。
如果存在,一般直接删除即可。
5、使用vmstat命令检查CPU及内存运行情况在命令提示符“#”后输入:vmstat 5,表示每隔5秒钟显示系统CPU及内存运行情况。
查看kthr(kernel运行队列中处于等待状态的进程数)字段的r(运行队列中的进程数)项的显示值,如果该数值是系统实际CPU数的4倍或4倍以上,则表示CPU占用率过高,需要考虑提高系统CPU工作频率;查看memory(虚拟和真实内存的使用信息)字段的fre(空闲页面的数量)项,如果数值低于120,则说明系统内存短缺。
有时候数值虽然高于120,也可以根据实际情况调整内存;查看page(页面活动的信息)字段的pi(从页面输入的页)、po(输出到页面的页)、fr(空闲的页面数)及sr(通过页面置换算法搜索到的页面数)项的值,这4个值一般都为0,有时候也有可能为1;最后查看cpu(cpu的使用率)字段的us(用户进程的时间)及sy(系统进程的时间)项的值,两项值的和应该不超过90%,否则说明CPU能力短缺。
6、使用lsps –a命令检查交换内存空间使用情况在命令提示符“#”后输入:lsps -a,查询交换内存空间使用情况。
IBM小型机AIX深度巡检方案

□否
□是
□否
目前的/unix 链接的image文件是否和运行的内核一致?
系统是否已经安装了HIPER APAR?
□是
□否
□是
□否
XCOFF 文件是否和SWVPD保持一致?(lppchk —c查看)
/, /usr, /usr/share 是否一致?(lppchk —v查看)
□是
□否
□是
□否
系统dump检查
HACMP资源组状态
HACMP切换状态
□正常
□上次切换时间:
□异常,详细信息:
□上次切换结果:
HACMP人工效验是否正常
HACMP自动效验是否正常
□正常
□异常详细信息
□正常
□异常详细信息
检查结论及建议
□是
□否
密码安全性检查
用户及用户组检查
□正常
□异常详细信息
□正常
□异常详细信息
VMO参数是否正确: 将输出文件粘贴于此
□是
□否
NO参数是否正确: 将输出文件粘贴于此
□是
□否
Base OS参数是否正确:将输出文件粘贴于此
□是
□否
设备环境状态
设备故障灯:
设备异常声音:
存储检查
硬盘状态
卷组状态
□硬盘状态正常
用户限制是否被正确设置?(ulimit限制)
DUMP空间大小是否满足要求
□是
□否
□是
□否
dump 数据压缩选项是否打开
□是
□否
fullcore 选项是否被激活?
强制dump是否打开
□是
□否
□态及内容)
□启动顺序正常
AIX巡检命令

1、主机型号与序列号检查:#uname –uM2、系统错误报告检查:#errpt #errpt –aj ID号3、Mail信息检查:#mail 看mail有没有error与warning信息。
4、检查smit.log,bootlog。
#cd /var/adm/ras 用vi编辑器查看相关日志看是否有error与warning信息。
5、检查hacmp.out:查看/tmp/hacmp.out文件看是否有error与warning信息6、文件系统检查:#df –k文件系统应该保持在90%以下,超过90%应注意清理。
7、逻辑卷:有否“stale”状态的逻辑卷:#lsvg –o |lsvg –i |grep STALE 看输出STALE是否全为0.全为0表示vg正常。
8、.内存使用情况:#svmon –G 内存使用率不应超过70%9、Swap使用情况:#lsps –a swap空间占用率不应超过70%10、系统性能检查:#topas#vmstat 主要看kthr 参数参数:若r 数值偏大,表明CPU太忙,若b 数值偏大,表明系统I/O出现瓶颈。
%user+sys%接近100%表cpu瓶颈。
如果pi(page-in )和po(page-out ) 参数将不是0,同时avm 和fre 数值的比值悬殊很大,fre 数值很小.#iostat 看% tm_act值, 其表示某个硬盘处于active状态的百分比11、网络状况检查:#netstat –in#netstat -rn12、数据安全检查#ls –l /image.data 检查系统备分日期。
#lsvg –l rootvg 检查rootvg是否镜像13、磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
14、Dump设置检查。
最为详细的AIX 巡检流程

当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。用diag命令进行检测,diag步骤如下:
最为详细的AIX 巡检流程
1、 检查系统硬件情况:设备故障灯是否有亮
可用diag命令检查系统硬件运行情况
每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。
硬件故障
通常将硬件故障分为以下几个类别
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。
4、检查hacmp.out,smit.log,boot.log
hacmp.out查看:# lssrc -g cluster
smit.log查看:在tmp里面查看有无smit.log,用vi查看
boot.lot查看:# alog -o -t boot
(找到时间最近的字节不为零的文件,vi查看
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
IPL 流程
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
.Phase 1: Service Processor 的初始化
SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。
2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。
3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。
4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。
5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。
6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。
7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。
8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。
9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。
10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。
二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。
2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。
3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。
4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。
5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。
6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。
7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。
8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。
9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM RS/6000巡检内容及操作指导
1. IBM RS6000小型机机房要求:
1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2.温度(摄氏℃)
10 ℃-40℃
湿度(%)
8% -80%
2.设备故障灯分类:•
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
7133磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3.系统错误报告(Error Log)的检查:
硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户
软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户
4.有否发给root用户的错误报告(mail):
#mail
1.观察所有未读消息,注意有关diagela的消息。
2.常用命令:
h [<num>] Display headings of group containing message <num>
t [<msg_list>] Display messages in <msg_list> or current message.
n Display next message.
q Quit
3.对发现的问题详细分析,结果报告给客户
5.件系统的检查:
命令:
# df –k
%Used为文件系统的使用率。
所有文件系统的使用率不能大于80%
6.磁带机清洁的检查:
命令:
#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
6.信系统的检测:
1.网卡的状态
命令:
#ifconfig –a
输出判断:
en0:
flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT> inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255
en1:
flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT> inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255
主备网卡的flag为UP属正常。
同时检查ip地址和netmask是否正确。
2.路由的检测
命令:
#lsattr –El inet0
authm 65536 Authentication Methods True hostname h24 Host Name True
gateway Gateway True route net,,0,172.16.23.81 Route True bootup_option no Serial Optical Network Interface True rout6 FDDI Network Interface True
3.络的检测
命令:
#ping [ip address]
输出判断:
用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
RAID 的Hotspare 属性是否打开
#smitty ssaraid Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
8.系统DUMP设置的检查
命令:
#sysdumdev –l
输出判断:
结果应为
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump compression OFF
若不正确请用下列命令修改:
#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull
9.HACMP 配置检测: Cluster Verification:
命令:
# /usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。
10.系统硬件诊断:
命令顺序为:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
11.补丁程序(PTF)的检查
1.系统维护补丁版本为ML09,检查命令为:
#instfix –i |grep ML
12.系统参数的检查
1.HIGH water mark for pending write I/Os
# lsattr -El sys0 |grep maxpout
输出判断:
结果应为
maxpout 33 HIGH water mark for pending write I/Os per file True 2.LOW water mark for pending write I/Os
# lsattr -El sys0|grep minpout
输出判断:
结果应为
minpout 24 LOW water mark for pending write I/Os per file True 更改命令为:
#chdev -l sys0 -a maxpout='33' -a minpout='24'
3.Syncd参数
# grep syncd /sbin/rc.boot
输出判断:
结果应为
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
更改命令为:
#vi /sbin/rc.boot
4.aio参数
# lsdev -Cc aio
输出判断:
结果应为
aio0 Available Asynchronous I/O
# lsattr -El aio0
输出判断:
结果应为
minservers 1 MINIMUM number of servers True maxservers 10 MAXIMUM number of servers True maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True
更改命令为:
#smitty aio
5.Limits文件的设置:
#ulimit –a
输出判断:
结果应为
time(seconds) unlimited
file(blocks) 2097151
data(kbytes) 262144 //尤其是这项参数stack(kbytes) 32768
memory(kbytes) 32768
coredump(blocks) 2097151
nofiles(descriptors) 2000
更改命令为:
#vi /etc/security/limits
更改data为524288。