AIX系统宕机分析教程PPT!

合集下载

aix硬件故障分析和排除

aix硬件故障分析和排除

RS/6000小型机故障的基本定位方法一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设臵。

二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。

2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)控制面板上的LED 代码.8 位代码,通常系统故障灯会同时亮起。

《aix系统应用基础》10 processes-PPT文档资料18页

《aix系统应用基础》10 processes-PPT文档资料18页
Unit 10 Processes
© Copyright IBM Corporation 2019
Course materials may not be reproduced in whole or in part without the prior written permission of IBM.
$ ps -u team01
© Copyright IBM Corporation 2019
Login Process Environment
login:
AIX System PID=202 -ksh
login: john John's Password: xxxxxx
$_
Environment
program uid gid files PID
$_
-ksh $ ksh hello
ksh
script comCorporation 2019
(1) (2) (3)
Subshell
(1) (2) (3)
Invoking Shell Scripts (2 of 3)
$ cat hello
echo "Hello, John. Today is: $(date)" pwd ls $ chmod +x hello
© Copyright IBM Corporation 2019
What Is a Shell Script?
A shell script is a collection of commands stored in a text file
$ vi hello
echo "Hello, John. Today is: $(date)" pwd ls

多么痛的领悟:十三起惨痛宕机案例

多么痛的领悟:十三起惨痛宕机案例

多么痛的领悟:十三起惨痛宕机案例01AIX 下NTP 设置不当导致的多个集群宕机事情发生在一段时间之前,接到朋友电话,用户有三套oracle rac 集群运行在 aix 小机上,本地两套,同城机房两套,做完设备搬迁后的一天晚上,其中本地和同城的两套rac 突然就整个重启了,而且发生在同一时间点。

网络、小机、存储、数据库分属不同的维保厂商,这就开始了扯皮。

各家就开始从自己的方向自证无过错。

我去之前内心也比较倾向于 oracle 的网络心跳出了问题,crs 抢 vote disk 的时候触发了重启。

但由于是小机方的代表,仅从aix 层面做了排查,未发现明显原因。

对各主机宕机的时间做了一个梳理,去和oracle 的事件日志去比对。

暂时没查到什么东西。

宕机产生的dump 发到了IBM 原厂,IBM 后来出了个报告,根据dump 内容定位触发宕机的进程为cssd。

oracle dba 重点看了那个进程的日志,发现宕机时间前后,时间突然变更,提前了40多秒。

dba 确认,时间变更过多,cssd 进程会导致系统重启,怀疑和时间同步有关。

经检查,3套 aix 的 rac 集群使用了同一个 ntp server,但有一套没发生问题。

对比检查差异,发现没问题的那套主机集群使用xntpd 方式配置了时间同步。

出问题的主机则直接使用了ntpdate 命令做时间更新,并写入了 crontab 定期执行。

检查 /var/adm/cron/log 日志,发现定时任务的执行时间和 cssd 故障时间一致。

检查时间服务器,发现搬迁后,时间服务器的时间产生了较大偏差,xntpd 方式的时间同步在时间偏差大时不会去强制同步,ntpdate 命令的方式没有这个限制,会直接进行同步。

最终导致了 cssd 进程检测到过大时间偏差后触发了宕机。

经验分享:配置时间同步时,建议使用xntpd 服务的方式,不用直接在定时任务里写 ntpdate,因为 ntpdate 比较粗暴,发生故障时较大的时间偏差会导致应用出现问题,触发无法预知的后果。

电脑故障排除课件PPT

电脑故障排除课件PPT
程序兼容性问题
检查软件与操作系统版本是否兼容,尝试以兼容 模式运行程序或更新软件版本。
系统更新问题
检查系统更新是否安装成功,若有问题可尝试手 动下载并安装缺失的更新。
应用软件故障排除
应用程序崩溃
检查应用程序的日志文件,找出崩溃原因,或联系软件供应商寻 求支持。
数据损坏
使用数据恢复软件尝试恢复受损的文件,或联系专业数据恢复服务。
总结词
命令提示符是一种文本界面工具,可以用于执行各种命令来诊断和解决电脑故障。
详细描述
通过命令提示符,可以执行各种命令来检查系统状态、查看日志文件、修复文件和注册表 等。通过这些命令,可以诊断和解决各种电脑故障,如系统崩溃、蓝屏死机等。
注意事项
使用命令提示符需要一定的技术知识,且操作不当可能导致系统崩溃或数据丢失。因此, 建议在熟悉命令提示符的情况下使用。
主机故障排除
主机无法启动
检查电源线是否插好,检查各硬 件是否正常工作,如内存、显卡
等。
主机发出异常声音
根据声音类型判断故障原因,如硬 盘读写错误、内存错误等。
主机过热
清理散热器灰尘,确保通风良好。
键盘与鼠标故障排除
键盘按键失灵
检查按键是否卡住或损坏,清理 键盘灰尘。
鼠标不灵敏
检查鼠标垫是否干净,清理鼠标 底部灰尘。
04 电脑故障预防与日常维护
定期清理与维护
1 2
定期清理灰尘
保持电脑散热良好,避免因过热而导致的故障。
更新驱动程序
确保电脑硬件驱动程序最新,以获得最佳性能和 兼容性。
3
硬盘检查
定期运行硬盘检查工具,确保硬盘数据完整。
使用可靠的软件来源
仅从官方网站或可信 的软件分发平台下载 软件。

AIX高级系统管理培训教材PPT课件

AIX高级系统管理培训教材PPT课件
第45页/共310页
管理引导列表(bootlist)
第46页/共310页
管理引导列表(SMS)
第47页/共310页
管理引导列表(SMS)-按键
第48页/共310页
系统管理服务(SMS)
第49页/共310页
Service Processor和报错
第50页/共310页
复习
1.(对/错):要使用SMS的程序,必须启动了AIX
可激活它们并动态地分配给相应的分区使用 热备w/CuOD: 用未获得许可的好CPU自动和动态地替换坏的CPU
第7页/共310页
高级虚拟化(APV)
第8页/共310页
高级虚拟化(APV)概念1
Advanced Power Virtulization: 支持虚拟I/O; 支持P5系统;
Micro-Partition(微分区): 微分区功能: 继承主机(Mainframe)的技术; 对CPU和I/O设备进行虚拟化,使之能够由多个区共享;
o可以删除committed的软件 o不能恢复到以前版本
如果安装不成功:
a)
Installp –C
b)
Smit maintain_software
o清理失败 o删除软件并重新安装
第34页/共310页
预定义设备(PdDv)
第35页/共310页
预定义属性(PdAt)
第36页/共310页
客户化设备(CuDv)
第9页/共310页
高级虚拟化(APV)概念2
Virtual I/O Server(VIOS): 需要安装专门VIOS系统软件; 支持共享以太网:
物理网卡分配给VIOS
通过在工作分区上定义虚拟以太卡来共享物理网卡. 支持虚拟SCSI服务器:

AIX系统管理培训教材精品资料课件

AIX系统管理培训教材精品资料课件
Type the number for the Cultural Convention (such as data, time, and money), language and keyboared for this system and press Enter, or type 4 and press Enter to create your own combination.
installation and press Enter. To cancel a choice, type the
corresponding number and press Enter. At least one bootable
disk must be selected. The current choice is indicated by >>>.
4. Create your own combination of Cultural Convention, Language and
Keyboards.
88 Help ?
99 Previous Menu
Choice [1]:
13
开始安装
Installing Base Operating System
Overwrites EVERYTHING on the disk selected for installation.
Warning: Only use this method if the disk is totally empty or there is nothing
on the disk you want to preserve.
3
安装方法和介质
•磁带 •CD-ROM •预安装(新系统订单中的选项) •网络安装管理器(NIM)

计算机系统故障的分析与处理课件

计算机系统故障的分析与处理课件
03
硬件故障处理方法
课程大纲
01 02 03
软件故障处理方法 数据备份和恢复技术 第四部分:案例分析与实践
课程大纲
分析实际计算机系统故障案例
模拟故障处理实践操作
02
计算机系统故障概述
故障定义与分类
故障定义
计算机系统故障是指计算机硬件、软 件或网络等出现异常情况,导致系统 无法正常运行。
故障分类
软件维护与优化
定期更新操作系统和软件
及时安装操作系统和软件的补丁和更新,以修 复潜在的安全漏洞和性能问题。
清理不必要的软件和文件
定期清理计算机中不必要的软件和文件,释放 硬盘空间,提高系统运行速度。
优化启动项和服务
减少不必要的启动项和服务,以加快计算机启动速度靠的防病毒软件并定期更新病毒库,以检测和清除计算机 中的病毒、木马等恶意程序。
定期备份重要数据
为防止数据丢失,应定期备份重要数据,如文档、图片、视频等。
限制不必要的网络连接
避免不必要的网络连接,特别是未经安全保护的Wi-Fi连接,以降 低安全风险。
感谢您的观看
THANKS
总结词
主板是计算机的核心部件,负责连接和协调各个硬件设备的 工作。主板故障可能导致计算机无法启动或运行不稳定。
详细描述
主板故障通常表现为开机无反应、频繁死机、蓝屏等。可能 的原因包括主板元件损坏、接口接触不良、BIOS设置错误等 。处理方法包括检查接口是否松动、重置BIOS设置、更换损 坏元件等。
内存故障
处理方法包括重新安装应用程序、更新应用程序、恢复数据等
03 。
病毒与恶意软件
01
病毒与恶意软件是计算机软件 故障的常见原因之一,它们会 破坏计算机系统、窃取个人信 息、传播恶意软件等。

《aix系统应用基础》02 using the system21页PPT

《aix系统应用基础》02 using the system21页PPT

2. Order:
$ mail newmail -f
$ mail -f newmail
$ team01 mail
$ mail team01
$ -u who
$ who -u
3. Multiple Options:
3. Multiple Options:
$ who -m-u
$ who -m -u
$ who -m u
Checking the date:
$ date Wed Nov 14 10:15:00 GMT 2019 $
Looking at a month:
$ cal 1 2019
Sun Mon Tue
56
7
12 13 14
19 20 21
26 27 28
January 2019
Wed Thu Fri
1
© Copyright IBM Corporation 2019
Logging In and Out
To Log in:
login: team01 team01's Password: (the password does not appear) $
To Log out:
$ <Ctrl-d> $ exit $ logout login:
Unit Objectives
After completing this unit, you should be able to: ● Log in and out of the system ● State the structure of AIX commands ● Execute basic AIX commands ● Use AIX commands to communicate with other users
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

System Dump Process
Stage 1: The contents of memory is copied to a temporary disk Location. The default location is /dev/hd6 (paging space) Stage 2: AIX is booted and the memory images is moved (savecore) to permanent location. By default the location is the /var/adm/ras Directory. The dump will be copied into a file called vmcore.n, where n is the sequence number of the dump ( vmcore.1, vmcore.2, etc.)
Once the preserved image is written to disk, the system will be booted and returned to production. The dump is then typically submitted to IBM for analysis
Crash/Dump Causes
System-initiated: An exception in kernel mode that was unexpected or that we can‟t handle: Page faults while interrupts disabled References to invalid addresses Invalid op codes A trap instruction in kernel code
The Master Dump Table (MDT)
The system dump function captures data areas that are registered in the master dump table Kernel dump areas are pre-loaded in the master dump table by Kernel initialization Kernel extensions(such as device drivers) must specify data to be included in a system dump by adding an entry to the Master Dump Table with the dmp_add() and dmp_del() kernel services.
What a System Dump Used for?
An AIX system will generate a system dump when encountering a severe system error, such as unexpected or unrecoverable kernel mode exceptions.
Soft reset the partition(OS)
Shutdown partition in HMC (new version)
Shutdown partition, select dump option
AIX 5L V5.3 Changes
If dump device is configured as non-removable media: press reset button (or reset the partition) will cause a dump, even if „always allow dump‟=FALSE (this behavior also applies to 5.2 when running in a partition) If „always allow dump‟=FALSE and dump device is removable, pressing the reset button will cause system to reboot
Component Names in a Dump 1) dmp_minimal [5 entries] 2) proc [2468 entries] 3) thrd [3543 entries] 4) ldr [2 entries] 5) errlg [3 entries] 6) lfs [1 entries] …..
Create a Forced Dump
Estimate the dump size:
#ev -e
Command line:
#sysdumpstart –p #sysdumpstart –s
Smit menu
#smit dump
For systems with a 3-position key switch
Configuring for System Dumps
MemorySize
<4GB >=4GBand<12GB >=12GBand<24GB >=24GBand<48GB >48GB
Defaultdumpdevice
/dev/hd6 /dev/lg_dumplv /dev/lg_dumplv /dev/lg_dumplv /dev/lg_dumplv
What is in a system dump?
The dump routine is invoked when the system encounters a fatal error The dump image: Operating system (kernel) code and data Some data from the current running application Most of the kernel extensions code and data
It can also be manually initiated by the system administrator when the system is hung, or as required The system dump facility provides a mechanism to capture sufficient Information about the AIX kernel for later exert analysis.
Hit Reset button once Ctrl-Alt-NUMPAD 1 to primary dump device Ctrl-Alt-NUMPAD 2
Create a Forced Dump (Contd.)
Quit from KDB
(KDB)> q dump
Reset partition in HMC
AIX System Dump Analysis
Contents
AIX System Dump Dump Data Collection AIX Kernel Internals Basic AIX Kernel Analysis Tools The Kdb Process, Thread and Stack Case Study
System Dump
A system dump is a snapshot of the operation system state at the time of the system crash or manually initiated dump.
When a manually initiated or unexpected system halt occurs, the system dump facility automatically copies selected areas of kernel data from system memory to the primary dump device AIX dump device is a LV( the type is “sysdump”) #sysdumpdev –l or smitty dump primary /dev/dumplv secondary /dev/sysdumpnull copy directory /var/adm/ras forced copy flag TRUE always allow dump TRUE dump compression ON
User-initiated: sysdumpstart, soft reset
AIX Dump Facility Setting
#smitty dump System Dump Move cursor to desired item and press Enter. Show Current Dump Devices Show Information About the Previous System Dump Show Estimated Dump Size Change the Primary Dump Device Change the Secondary Dump Device Change the Directory to which Dump is Copied on Boot Start a Dump to the Primary Dump Device Start a Dump to the Secondary Dump Device Copy a System Dump from a Dump Device to a File Always Allow System Dump System Dump Compression Check Dump Resources Utility
System Dump Process (Contd.)
相关文档
最新文档