AIX操作系统错误日志及日常维护
AIX操作系统错误日志及日常维护

A I X操作系统错误日志及日常维护一、系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192ACror logging turned off038FTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可,例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000二、控制面板上的LED 代码.8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码.4 位代码通常是Exxx.3 位代码通常为0yyy 只看后3位.8 位和4位代码可查看系统服务手册 (Service Guide)3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System).闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或 105硬件故障一般有 SRN 代码及位置代码三、其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A...lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020....100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD信息Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number.................097H0645FRU Number..................097H0645 <-- 备件号Serial Number...............C8217227EC Level....................0000F20825 Manufacturer................IBM053ROS Level and ID............7201 <-- 微码版本Loadable Microcode Level (04)Device Driver Level (00)Displayable Message.........SSA-ADAPTERDevice Specific.(Z0)........DRAM=032Device Specific.(Z1)........CACHE=0Device Specific.(Z2)........000000062955dab2Device Specific.(YL)........P2-I7 <-- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号。
AIX系统日志

AIX系统日志说明1、系统错误日志存放路径:/var/adm/ras/errlog说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一, errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man,2、用户的登录日志存放路径:/var/adm/wtmp /var/adm/sulog说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog 等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last命令访问。
sulog记录的是用户用su命令转变为另一用户的信息。
who、last等这些命令可以查看wtmp和sulog的内容如:Last –f wtmp我们想查看最近10次登录的用户和他们的地址,可以用如下命令:last -103、用户的失败登录日志存放路径:/etc/security/failedlogin说明:这些日志记录了用户登录和访问服务器失败的情况信息,登录失败的情况单独记录在该日志中,可以用who命令来查看。
4、集群管理软件hacmp的日志存放路径:/tmp/hacmp.out说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。
OUT日志文件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。
可以使用tail进行跟踪,tail –f /tmp/hacmp.out5、系统启动错误日志存放路径:/var/adm/ras/bootlog说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。
AIX5.3+oracle10g日常维护手册

AIX5.3+Oracle10g日常维护手册小型机维护步骤:1、首先查看小型机机房的温度、湿度、电气条件。
温度(摄氏℃)10 ℃-40℃湿度(%)8% -80%零地之间的电压小于1V2、查看小型机、磁盘阵列的指示灯。
主机故障灯面板上不能有数字显示,如果有的话,说明系统有故障。
告警灯为黄色表示有故障磁带机故障灯告警灯为黄色说明有故障或磁带机太脏,须清洗。
#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n //清洗命令磁盘阵列故障灯告警灯为黄色表示有故障3、登录系统,查看小型机的错误日志硬件故障检测命令:# errpt -d H -T PERM若没有故障,则显示为空白,若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,下载之后,将其报给集成商或者硬件厂家进行分析。
软件故障检测命令:# errpt -d S -T PERM若没有故障,则显示为空白,若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,下载之后,将其报给集成商或者软件厂家进行分析。
4、有否发给root用户的错误报告(mail)观察所有未读消息,注意有关diagela的消息。
#mail如果有信息,则使用# Ctrl+d ; 存盘退出,存在/var/spool/Mail目录下,每个用户一个文件,将其下载,发给系统集成商或者硬件厂商5、查看文件系统的使用率%Used为文件系统的使用率。
所有文件系统的使用率不能大于70%,如果超过70%,则应该选择文件系统空间扩容或者删除该文件夹下某些无用数据#df –k //以KB为单位查看Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home 上表中,超过70%的/ 和/usr均需要增加容量,或者删除其中不需要的文件。
AIX维护大全分享(七)

/usr/sbin/install_assist Smitty Installation Assistant
/usr/sys/inst.images/sys.bundles Software bundle files
alt_disk_install -c hdisk1 Clones a running rootvg onto hdisk1
第 28 楼:AIX Useful Commands
compress -c file.txt > file.Z Create a compressed file.
uuencode (infile) (extract-file-name) > (output file)
echo * Lists files, can be used if ls is corrupt/missing
chtz (timezone eg GMT0BST) Changes the timezone in /etc/environment file
like version number, when compiled.
lslpp -L all list all installed software
lslpp -L (program set name) Check if software installed
examples :-
uuencode maymap maymap > maymap.enc
uudecode maymap.enc
od -c /tmp Displays contents of the /tmp directory file
ls -i Lists files with their inode numbers
AIX系统日常维护管理

◦ 检查设备故障灯,一般为橙色并有 标志。 ◦ 有没有异常声响,如硬盘、风扇等。 ◦ 有没有破损的电缆等
系统健康检查
检查文件系统
◦ 查看有没有“满”的文件系统。文件系统满可导致系统 不能正常工作,尤其是AIX的基本文件系统。如/ (根文 件系统)满则会导致用户不能登录。
# df -k (查看AIX的基本文件系统)
系统健康检查
磁带机
◦ 磁带机应定期清洁,每使用30小时(8mm20GB为72小时) 或至少每月清洁一次,不要等故障灯亮起后再清洁。
◦ 不同类型的带机用要不同的清洗带,不要混用。
◦ 用" /usr/lpp/diagnostics/bin/utape -c -d rmt0 -n" 可 查看磁带机使用时数。
FRU Number..................30F8834
Manufacturer................IBM97F
Part Number.................59F4566
Serial Number...............00002849
ROS Level and ID............24
系统健康检查
处理方法2:增加文件系统大小
◦ # smitty chjfs ◦ 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
检查文件系统的完整性
◦ # umount filesystem_name ◦ # fsck filesystem_name ◦ # fsck -y filesystem_name
◦ 核对主机名 ◦ #hostname
系统健康检查
#ifconfig -a
en0: flags=4e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,6 4BIT,PSEG>
AIX系统日志

1、系统错误日志存放路径:/var/adm/ras/errlog说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一,errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man,2、用户的登录日志存放路径:/var/adm/wtmp /var/adm/sulog说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog 等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last 命令访问。
sulog记录的是用户用su命令转变为另一用户的信息。
who、last等这些命令可以查看wtmp和sulog的内容如:Last –f wtmp我们想查看最近10次登录的用户和他们的地址,可以用如下命令:last -103、用户的失败登录日志存放路径:/etc/security/failedlogin说明:这些日志记录了用户登录和访问服务器失败的情况信息,登录失败的情况单独记录在该日志中,可以用who命令来查看。
4、集群管理软件hacmp的日志存放路径:/tmp/hacmp.out说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。
OUT日志文件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。
可以使用tail进行跟踪,tail –f /tmp/hacmp.out5、系统启动错误日志存放路径:/var/adm/ras/bootlog说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。
AIX操作系统卷组故障维护

AIX操作系统卷组故障维护AIX操作系统卷组故障维护故障描述:4.20日早晨,发现日报没有正常发送,登录数据库备机查看原因,查看系统的log命令:errpt |more没有发现什么异常,不过发现有如下错误:F3931284 0410055009 I H ent2 ETHERNET NETWORK RECOVERY MODEF3931284 0410055009 I H ent0 ETHERNET NETWORK RECOVERY MODE 173C787F 0410053709 I S topsvcs Possible malfunction on local adapter173C787F 0410053709 I S topsvcs Possible malfunction on local adapterEC0BCCD4 0410053709 T H ent2 ETHERNET DOWNEC0BCCD4 0410053709 T H ent0 ETHERNET DOWN这个时间正好是同事更换以太网交换机的时间查看数据库同步脚本log:# sh /home/oracle/sh/rmanres.sh[YOU HAVE NEW MAIL]0516-040 lqueryvg: Unable to read the specified physical volumedescriptor area.0516-932 /usr/sbin/syncvg: Unable to synchronize volume group backvg.[YOU HAVE NEW MAIL]restoring datafile 00058 to /u01/oracle/product/9.2.0/oradata/orcl/yy33.dbf restoring datafile 00059 to/u01/oracle/product/9.2.0/oradata/orcl/yy34.dbfreleased channel: ch1RMAN-00571:========================================= =============== ===RMAN-00569: =============== ERROR MESSAGE STACK FOLLOWS ======== =======RMAN-00571:========================================= =============== ===RMAN-03002: failure of restore command at 04/20/2009 12:06:25ORA-19501: read error on file "/u03/orabackup/rman/orcl_db_684391660_523_1", blo ckno 8192001 (blocksize=8192)ORA-27063: skgfospo: number of bytes read/written is incorrectIBM AIX RISC System/6000 Error: 12: Not enough spaceAdditional information: -1Additional information: 1048576ORA-19501: read error on file "/u03/orabackup/rman/orcl_db_684391660_523_1", blo ckno 8191873 (blocksize=8192)ORA-27063: skgfospo: number of bytes read/written is incorrectRecovery Manager complete.[YOU HAVE NEW MAIL]SQL*Plus: Release 9.2.0.1.0 - Production on Mon Apr 20 12:06:26 2009Copyright (c) 1982, 2002, Oracle Corporation. All rightsreserved.SP2-0640: Not connectedSP2-0640: Not connectedERROR:ORA-12500: TNS:listener failed to start a dedicated server processSP2-0640: Not connectedSP2-0640: Not connected系统日志:# ps -ef |moreUID PID PPID C STIME TTY TIME CMDroot 1 0 0 Dec 16 - 0:55 /etc/initroot 61572 78170 0 Dec 16 - 359:56 dtgreetroot 69798 1 0 Dec 16 - 0:00 /usr/lib/errdemonroot 73882 1 0 Dec 16 - 71:56 /usr/sbin/syncd 60root 90242 1 0 Dec 16 - 0:00 /usr/dt/bin/dtlogin -daemon root 102438 344388 0 13:18:46 pts/7 0:00 -kshroot 118898 102438 0 13:19:03 pts/7 0:00 ps -efroot 127086 1 0 Dec 16 - 0:00 /usr/ccs/bin/shlap64root 143514 106918 0 Dec 16 - 0:00 /usr/sbin/rsct/bin/IBM.ERrmdroot 155816 106918 0 Dec 16 - 2:24 /usr/sbin/rsct/bin/IBM.CSMAgentRMd root 159976 106918 0 Dec 16 - 3:08 /usr/sbin/rsct/bin/rmcd -a IBM.LPCom mands -r root 164070 352610 0 Dec 16 - 37:11 /usr/sbin/rsct/bin/hats_nimdaemon 168160 106918 0 Dec 16 - 0:00 /usr/sbin/rpc.statd -d 0 -t 50oracle 180262 1 0 Dec 16 - 0:02 ora_reco_rmandbroot 184400 106918 0 Dec 16 - 1:01 /usr/sbin/gsclvmdoracle 205000 1 0 11:26:43 - 0:00 ora_pmon_orclroot 233570 106918 0 Dec 16 - 7:56 /usr/sbin/rsct/bin/IBM.HostRMd oracle 237696 1 0 12:29:22 - 0:00 oracleorcl (LOCAL=NO)root 241712 352610 0 Dec 16 - 50:29 /usr/sbin/rsct/bin/hats_rs232_nim root 245830 106918 0 Dec 16 - 0:00 /usr/sbin/muxatmdroot 278610 352610 0 Dec 16 - 30:31 /usr/sbin/rsct/bin/hats_nimoracle 307362 1 0 Dec 16 - 0:06 ora_d000_rmandbroot 315394 106918 0 Dec 16 - 0:10 /usr/sbin/aixmibdroot 352384 106918 0 Dec 16 - 0:05 /usr/sbin/snmpmibdroot 372834 1 0 12:13:02 - 0:00 lsvg -ooracle 389264 1 0 11:26:43 - 0:00 ora_ckpt_orclroot 393248 1 0 12:11:24 - 0:00 lsvg -oroot 397368 1 0 12:21:43 - 0:00 lsvg -oroot 405556 1 0 12:15:51 - 0:00 lspvroot 417854 450810 0 12:06:28 - 0:00 lqueryvg -g 00c64e4b00004c0000000 11dbddadf95 -CXroot 426226 1 0 12:47:15 - 0:00 lsvg statvgoracle 434210 1 0 12:07:13 - 0:00 oracleorcl (LOCAL=NO)oracle 442388 1 0 11:26:43 - 0:00 ora_lgwr_orcloracle 446680 1 0 11:26:43 - 0:00 ora_dbw0_orclroot 450810 1 0 12:06:28 - 0:00 /usr/bin/ksh /usr/sbin/varyoffvg backvg root 61802 90242 0 Dec 16 - 8:20 /usr/lpp/X11/bin/X -D /usr/lib/X11//rgb -T -force :0 -auth /var/dt/A:0-ozyiiaroot 74076 106918 0 Dec 16 - 1:34 /usr/sbin/snmpdroot 78170 90242 0 Dec 16 - 0:00 dtlogin <:0> -daemonroot 86416 106918 0 Dec 16 - 0:02 /usr/sbin/syslogdroot 94582 106918 0 Dec 16 - 0:00 /usr/sbin/inetdroot 98768 106918 0 Dec 16 - 13:14 /usr/es/sbin/cluster/clcomd -droot 106918 1 0 Dec 16 - 0:00 /usr/sbin/srcmstrroot 115134 106918 0 Dec 16 - 0:00 /usr/sbin/portmaproot 119210 1 0 Dec 16 - 0:22 /usr/sbin/cronroot 131516 1 0 Dec 16 - 0:00 /usr/sbin/uprintfdroot 139680 1 0 Dec 16 lft0 0:00 /usr/sbin/getty /dev/consoleroot 143754 102438 0 13:19:03 pts/7 0:00 moreroot 151986 106918 0 Dec 16 - 0:00 /usr/sbin/rsct/bin/IBM.ServiceRMd root 156076 106918 0 Dec 16 - 0:00 /usr/sbin/rsct/bin/IBM.AuditRMd oracle 168230 1 0 11:26:43 - 0:00 ora_d000_orcloracle 172368 1 0 11:26:43 - 0:00 ora_arc0_orcloracle 287158 1 0 11:26:43 - 0:00 ora_smon_orcloracle 299364 1 0 11:26:43 - 0:00 ora_reco_orclroot 319924 1 0 11:51:24 - 0:00 lspv hdisk5root 332234 106918 0 Dec 16 - 5:53 hagsd grpsvcsoracle 336330 1 0 Dec 16 - 5:07 ora_dbw0_rmandbroot 344388 94582 0 13:18:45 - 0:00 telnetd -aroot 352610 106918 0 Dec 16 - 55:44 /usr/sbin/rsct/bin/hatsd -n 1 -o dead ManSwitchoracle 356856 1 0 Dec 16 - 11:53 ora_ckpt_rmandboracle 360852 1 0 Dec 16 - 5:24 ora_smon_rmandbroot 369086 106918 0 Dec 16 - 51:38 /usr/es/sbin/cluster/clstrmgrroot 389556 106918 0 Dec 16 - 11:02 /usr/es/sbin/cluster/clinfooracle 393484 1 0 Dec 16 - 4:17 ora_pmon_rmandboracle 418112 1 0 Dec 16 - 0:04 /home/oracle/product/9.2.0/bin/tnslsnr LI STENER -inherit root 422200 106918 0 Dec 16 - 0:08 haemd HACMP 1 Cluster SECNOS UPPORTroot 438682 106918 0 Dec 16 - 0:05 /usr/sbin/qdaemonroot 442776 106918 0 Dec 16 - 0:00 /usr/sbin/rpc.lockd -d 0 root 446934 106918 0 Dec 16 - 0:00 /usr/sbin/writesrvroot 451032 106918 0 Dec 16 - 0:00 /usr/sbin/biod 6root 471540 106918 0 Dec 16 - 0:21 sendmail: accepting connections oracle 479602 1 0 Dec 16 - 1:33 ora_lgwr_rmandb root 491900 106918 0 Dec 16 - 0:05 /usr/sbin/hostmibdoracle 495908 1 0 11:26:43 - 0:00 ora_arc1_orcl环境:两台小机,一个存储阵列,两台机器是hacmp的有三个卷组,dbvg, statvg, backvg主机卷组dbvg备机卷组:statvgbackvg两机都可以访问,用于备份的问题描述:现在备机只要是执行和卷组,pv相关的命令就挂在那,没有反应我通过进程信息,可以判断是卷组锁定了backvg,我执行过的操作,再备机上:chvg -u backvg ,已经3个小时了,还是没有结果,挂载那然后又在备机上执行exportvg backvg 又很长时间了,一个多小时,还是挂在那,请问如何解决这个问题,解锁backvg,我在主机varyonvg backvg时,提示:# varyonvg backvg0516-013 varyonvg: The volume group cannot be varied on because there are no good copies of the descriptor area.Command: failed stdout: yes stderr: noBefore command completion, additional instructions may appear below.0516-024 lqueryvg: Unable to open physical volume.Either PV was not configured or could not be opened. Run diagnostics.0516-024 lqueryvg: Unable to open physical volume.Either PV was not configured or could not be opened. Run diagnostics.0516-1140 importvg: Unable to read the volume group descriptor area on specified physical volume.问题产生的原因:因为backvg卷组是共享卷组(不是并发卷组),在每日的04:00-05:40这段时间是数据库用backvg备份,而在每次使用卷组的时候都要更改卷组的vgda,vgsa中的时间戳,而在这段时间里同事更换了交换机,导致两个小机的卷组的VGDA不一致从而会出现这个错误解决方法:首要目的:让备机释放掉对pv,卷组的管理进程,以达到我可以从新管理备机的卷组信息由于一些原因,我强行kill掉相关LVM命令,导致这些进程都被系统接管,根本无法再kil l掉,即使用kill -9,也是不可以我当时在想有两个方法可以解决此种情况1.有一些特殊的方法可以kill掉这些进程2.重新启动机器让其释放所有资源咨询了很多人,又google半天,也没有找到可以kill那些进程的方法最后决定重启机器因为我的环境是两台小机做了hacmp,为了避免出万一,决定23号凌晨去机房维护,出什么问题也好就近解决主要是担心网卡down了,远程连接不上当到了机房,就在外边的维护室(机房太冷了!!能不进去就不进去啊), 我的hacmp配置为有优先级的cascading模式,按优先级来接管资源。
aix系统日常维护

(1)系统故障记录
errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息,故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析,使用errpt 命令(普通用户权限也可使用)。
#errpt |more 列出简短出错信息
#errpt -d H 列出所有硬件出错信息
1.系统用户的最大登录数maxlogin
maxlogin的具体大小可根据用户数设定,可以通过smitty chlicense命令修改,该参数记录在/etc/security/login.cfg文件中,修改在系统重新启动后生效。
2.系统用户的limits参数
这些参数位于/etc/security/limits文件中,可以把这些参数设为-1即无限制,可以用vi修改/etc/security/limits文件,所有修改在用户重新登录后生效。
(2)系统错误报告。
(3)检查是否有发给root用户的错误报告。
(4)检查hacmp.out,smit.log,boot.log。
(5)关键系统的文件使用率不大于80%。
(6)逻辑卷有否stale。
(7)内存交换区使用率是否超过70%。
(8)内存交换区的大小是否为物理内存的1.5倍。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
AIX操作系统错误日志及日常维护
一、系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行
记录包括硬件软件及其他操作信息
故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)
#errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192ACror logging turned off
038F
TIMESTAMP: MMDDHHMMYY (月日时分年
T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视
C 分类: H 硬件; S 软件; O 用户; U未知
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
# errpt -aj 0502f666 <--- ERROR_ID用大小写均可,例:
LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51
Sequence Number: 95
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
Resource Type: hscsi
Location: 00-08
VPD: <--- Virtal Product Data
Device Driver Level (00)
Diagnostic Level (00)
Displayable Message.........SCSI
EC Level....................C25928
FRU Number..................30F8834 Manufacturer................IBM97F
Part Number.................59F4566
Serial Number (00002849)
ROS Level and ID (24)
Read/Write Register Ptr (0120)
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
二、控制面板上的LED 代码
.8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码
.4 位代码通常是Exxx
.3 位代码通常为0yyy 只看后3位
.8 位和4位代码可查看系统服务手册 (Service Guide)
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)
.闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外
系统会产生一个dump
888-102-xxx-0C9 系统正在做dump, 请等待
888-102-xxx-0C0 系统dump完成可关电重启
888-103 或 105
硬件故障一般有 SRN 代码及位置代码
三、其他用于收集系统信息的命令
lsdev -C 系统设备信息
#lsdev -Cc disk
hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive
lspv 查看物理卷信息
#lspv
hdisk0 0007821160af3d76 rootvg
hdisk1 000782117f571294 rootvg
hdisk2 0000000045c45bde datavg
lsvg 查看卷组信息
#lsvg datavg
VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b
VG STATE: active PP SIZE: 4 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt
MAX LVs: 256 FREE PPs: 1 (4 megabytes)
LVs: 3 USED PPs: 2168 (8672 megabyt
OPEN LVs: 2 QUORUM: 2
TOTAL PVs: 1 VG DESCRIPTORS: 2
STALE PVs: 0 STALE PPs: 0
ACTIVE PVs: 1 AUTO ON: yes
MAX PPs per PV: 2032 MAX PVs: 16
#lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
...
lv00 jfs 51 102 1 closed/stale /ibmcxx
lv01 jfs 1 1 1 open/syncd /cics_regions
lv02 jfs 4 4 1 open/syncd /var/mqm
lslpp 查看文件组信息
# lslpp -L |grep 23100020
....
100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt
看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本
lsattr 查看设备参数设置
# lsattr -El ent2
busio 0x7fffc00 Bus I/O address False
busintr 9 Bus interrupt level False
intr_priority 3 Interrupt priority False
tx_que_size 512 TRANSMIT queue size True
rx_que_size 256 RECEIVE queue size True
rxbuf_pool_size 384 RECEIVE buffer pool size True
media_speed 10_Half_Duplex Media Speed True
use_alt_addr no Enable ALTERNATE ETHERNET address True
alt_addr 0x000000000000 ALTERNATE ETHERNET address True
ip_gap 96 Inter-Packet Gap True
lscfg 查看VPD信息Virtual Product Data)
# lscfg -vl ssa1
DEVICE LOCATION DESCRIPTION
ssa1 30-68 IBM SSA Enhanced RAID Adapter
(14104500)
Part Number.................097H0645
FRU Number..................097H0645 <-- 备件号
Serial Number...............C8217227
EC Level....................0000F20825 Manufacturer................IBM053
ROS Level and ID............7201 <-- 微码版本
Loadable Microcode Level (04)
Device Driver Level (00)
Displayable Message.........SSA-ADAPTER
Device Specific.(Z0)........DRAM=032
Device Specific.(Z1)........CACHE=0
Device Specific.(Z2)........000000062955dab2
Device Specific.(YL)........P2-I7 <-- 槽号
不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号。