IBM小型机巡检报告

合集下载

巡检报告(电子版)

巡检报告(电子版)

巡检报告(电子版)巡检报告(电子版)IBMp系列小型机巡检报告客户名:客户号:巡检时间:客户代表签字:IBM工程师签字:P系列系统预防性维护服务报告单(硬件部分)客户名称:_____________________________机器型号:______序列号:______________检查时间:_____年____月____日____时本年度第______次检查1.机房环境:8.SAN交换机是否正常:□正常□不正常电源电压_____□符合要求□不符合9.通信:零地电压_____□符合要求□不符合网卡状态、IP地址□正常□不正常温度、湿度□符合要求□不符合网卡通信□正常□不正常2.检查系统硬件情况:10.磁盘阵列RAID盘的状态:设备故障灯是否有亮□有□无IBM存储型号______________有其他异常情况□有□无□Good□Degraded□Failed3.硬件错误报告(ErrorLog):□Cache打开□Cache关闭有否硬件故障□有□无□有热备盘□无热备盘mail中有否硬件错误□有□无数据保护方式______________bootlog/consolelog:□正常□不正常是否硬件告警□有□无ServiceProcesslog□正常□不正常11.系统硬件诊断:系统板、CPU、内存□正常□不正常4.机器清洁:I/O 板、扩展卡□正常□不正常根据需要清洁机器□已清洁□不需要硬盘、磁盘阵列□正常□不正常过滤网是否需要更换□需更换□不需要磁带机、磁带库□正常□不正常12.SA是否设置调通□是□否5.逻辑卷/硬盘检查:SA平时是否连接□是□否是否有stale的逻辑卷□有□无13.微码(Microcode)是否满足稳定运行需要6.磁带机是否需要清洗:□需要□不需□是□否7.CPU有否被disable□有□无CPUGUARD设置:□正确□不正确14.运行”snap-r;snapgfkbLc”,取回存档.□主机及主要设备的微码版本:本次预防性维护发现的问题:已经解决的问题及下一不工作计划:客户意见及建议:□非常满意□满意□一般□不满意□非常不满意客户签字:____________年___月___日工程师签字:____________年___月___日IBM全球服务(中国)有限公司技术支持服务部P系列系统预防性维护服务报告单(软件部分)客户名称:_____________________________机器型号:______序列号:______________检查时间:_____年____月____日____时本年度第______次检查1.系统错误报告:6.通信是否系统软件故障:□有□无路由表设置:□正常□不正常mail中有否软件错误:□有□无域名设置:□正常□不正常其他LOG文件:□正常□不正常7.数据是否已作保护2.文件系统:□所有数据□部分数据□没有保护使用率是否正常:□是□否数据保护方式:□RAID-1□RAID-5JFSLOG设置:□正常□不正常□RAID-10□LV镜像□逻辑卷0+13.内存交换区:使用率是否超过70%:□是□否8.系统DUMP设置:□正常□不正常交换逻辑卷设置:□正常□不正常9.用户登录记录检查:□正常□不正常10.HACMP测试:4.系统性能:ClusterVerification:□正常□不正常是否性能瓶颈:□有□无相关参数设置检查:□正常□不正常5.数据备份:接管测试:□正常□不正常系统备份是否符合要求:□是□否最近一次系统备份时间:___________11.补丁程序(PTF):数据备份是否符合要求:□是□否满足稳定运行需要:□是□否备份介质是否保存妥善:□是□否12.运行”snapr;snapgfkbLc”,取回存档操作系统及重要软件的补丁版本:本次预防性维护发现的问题:已经解决的问题及下一步工作计划:客户意见及建议:□非常满意□满意□一般□不满意□非常不满意客户签字:____________年___月___日工程师签字:____________年___月___日IBM全球服务(中国)有限公司技术支持服务部扩展阅读:巡检报告空压机巡检报告报告编号:EXJ-201*-空压机型号:整机编号:服务商公司名称:用户名称:用户联络人:部门:联系电话:传真电话:空压站运行情况描述1.空压机运行时数:小时,压力设置范围:bar。

IBM pSeries巡检报告08

IBM  pSeries巡检报告08
检查系统错误报告(Error Log):正常 □不正常
有否硬件故障:
有否软件故障:
故障内容:
用mail 命令查看有否发给root用户的错报告正常 □不正常
故障内容:
查看日志文件,/smit.log;/var/adm/ras/bootlog;/var/adm/sulog;正常 □不正常
who–s /etc/security/failedlogin |tail -30
sysdumpdev–l
通信测试正常 □ 不正常
检查各网卡的状态、IP地址、路由表等(netstat–in / netstat -rn)
用“ping”等命令检查通信
Hacmp检查正常□ 不正常
HACMP日志状态,HACMP进程状态,HACMP资源组状态
注:
系统中是否有死进程:正常□ 不正常
ps–ef|grep defunct
深圳市财政委
小型机现场巡检报告
深圳市圣翰软件发展有限公司
2010年8月
巡检日期:2010年8月5日 机型: IBM P570,P550
序列号:653451F,65345BF,65345AF,65345CF,65344FF,653459F,062590H,062592H,062597H
检查机房环境
温度 湿度相电压线电压零地电压正常 □ 不正常
注:
是否允许 ftp rlogin telnet正常 □ 不正常
注:
存储检查□ 正常 □ 不正常无
PV状态,故障灯,告警
运行fget_config–l dar0检查磁盘路径分配情况□ 正常 □ 不正常无
巡检总结:
1.系统硬件正常。
2.系统磁盘保护正常,空间使用率合理。

IBM小型机硬件及系统检测情况汇总

IBM小型机硬件及系统检测情况汇总
#lsattr –El inet0
正常
HACMP 服务
#lssrc –g cluster
正常
HACMP I/O Pacing
#lsattr –El sys0 |grep out
正常
/etc/host文件
#more /etc/hosts
正常
HACMP 日志
#tail –f /tmp/hacmp.out
# sysdumpdev –l
正常
系统备份检查
做vg配置信息的备份
已备份
询问客户有否在系统变更后或每半年做系统备份
询问客户数据库及应用、应用数据是否定期有效
进行备份
系统性能检查
CPU
#topas
正常
Disk
#vmstat
正常
应用程序磁盘
#iostat
正常
交换区
#lsps -a
正常
#bindprocessor -q
The available processors are: 0 1 2 3 4 5 6 7
系统板、CPU、内存、I/O板
#diag
No trouble was found 正常
网卡、SCSI卡、SSA卡
#diag
No trouble was found 正常
系统其他扩展卡
#diag
No trouble was found 正常
硬盘、磁盘阵列
#diag
No trouble was found 正常
磁带机、磁带库
#diag
No trouble was found 正常
网卡的状态、IP地址
#ifconfig –a
正常
网卡通信(ping)

IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。

2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。

3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。

4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。

5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。

6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。

7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。

8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。

9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。

10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。

二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。

2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。

3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。

4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。

5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。

6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。

7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。

8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。

9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。

IBM小机巡检报告格式

IBM小机巡检报告格式
正常□
异常□
检查路由表
执行命令:
netstat -rn
检查系统网关是否有配置,各个路由表是否正确。
正常□
异常□
检查群集进程
执行命令:
lssrc–g cluster
检查群集进程是否开启,默认情况下
clstrmgrES该进程应该是激活的。
正常□
异常□
检查群集状态执行命令:clstat -a检查当前群集状态,各个网卡接口状态是否为UP;各个资源组状态是否为online。
检查系统卷组的镜像状态。
各个逻辑卷的PPs数量应该为LPs数量的整数倍,倍数大于1并且能被PVs整除,表示卷组已经作镜像。
各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。
各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。
正常□
异常□
文件系统
执行命令:
df -k
检查已经挂载的文件系统的使用状态。
重点检查/(根) /tmp(临时)/var (日志文件)这些动态文件系统的使用率最好保持在70%以下。
正常□
异常□
错误日志
执行命令:
errpt
检查系统日志是否有硬件或软件方面的永久错误。若发现错误类型为P的信息,则需要注意。
正常□
异常□
网卡配置情况
执行命令:
ifconfig–a
检查各个网卡的配置情况,状态是否为UP,检查ip地址和子网掩码等配置是否正确。
CPU状态为Available,表示CPU使用正常
正常□
异常□
内存
执行命令:
lsattr–El mem0
检查内存数量及状态。
size与goodsize的数量相等表示内存使用正常

ibm小型机巡检命令

ibm小型机巡检命令

ibm小型机巡检命令hostname主机名oslevel -s现实系统当前版本lsdev -Cc disk显示系统中的硬盘lscfg -vpl hdiskX显示硬盘X的配置信息lsvg -l rootvg显示根卷组逻辑信息lsvg -p rootvg显示根卷组的物理信息errpt显示错误信息errpt -a|more显示错误详细信息并分页errpt -aj ec0bccd4(错误标示符)显示单个错误的详细信息mail显示是否有maildf -g显示文件系统空间使用率(90%引起注意)lsps -a分页空间利用率(70%引起注意)sar 1 5实时cpu内存使用情况topas系统实时显示ifconfig -a显示网卡状态和ip地址netstat -in显示网络信息lsvg rootvg显示根卷组的详细信息10/100/1000 Base-TX PCI-X(网卡兼容的速率)1. 查看逻辑CPU个数#pmcycles -mCPU 0 runs at 4204 MHzCPU 1 runs at 4204 MHzCPU 2 runs at 4204 MHzCPU 3 runs at 4204 MHzCPU 4 runs at 4204 MHzCPU 5 runs at 4204 MHzCPU 6 runs at 4204 MHzCPU 7 runs at 4204 MHz上面描述有8个CPU,CPU的主频为4.2G赫兹2. 查看物理CPU个数#prtconf|grep ProcessorsNumber Of Processors: 43. 确定CPU是几核用逻辑CPU除以物理CPU就是核数。

4. 查看单个CPU的详细信息#lsattr -E -l proc0frequency 4204000000 Processor Speed False smt_enabled true Processor SMT enabled False smt_threads 2 Processor SMT threads False state enable Processor state Falsetype PowerPC_POWER6 Processor type Falsecd /usr/lpp/diag*/bin./usysfault查看面板故障灯是否出现故障、。

IBM 小型机巡检服务过程

IBM 小型机巡检服务过程

IBM 小型机巡检服务过程一.提取机器的型号。

#uname -uM二.机房内场地环境检查。

三.检查系统硬件灯是否有亮。

四.查看系统错误报告。

1.查看是否有硬件和软件故障。

#Errpt –d H | more ,# errpt –d S | more, #errpt –aj *******|more查看具体错误信息# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件。

2.有否发给root用户的错误报告(mail)。

#Mail3.检查hacmp.out,smit.log,bootlog等.#lssrc –g cluster/#>lssrc –g cluster,一般hacmp.out的位置在:/use/sbin/cluster/或者/tmp/,找到最近hacmp.out文件查看是否有错误信息。

4.查看是否有“满”的系统文件。

#df –k 查看系统文件有没有超过90%的使用率,有请用户改善。

5.查看是否有“stale”(不可用)状态的逻辑卷.#lsvg -l rootvg,系统还有其卷组的也要查看。

6.查看内存使用率是否超过70%。

#Lsps -a五.系统性能检查,查看系统是否有性能瓶颈。

#topas #vmstat 1 10 #iostat 1 10六.网络与通讯检查,查看网卡的状态,IP地址,路由器等。

#ifconfig –a,#netstat–in,#netstat –rn(查看路由情况),#vi/etc/hosts(查看hosts文件有否特殊定义),#ping ******(IP),#lsattr –Elet0(路由的检测,显示true正确的就是没问题)。

七,数据安全检查。

1.查看是否有符合要求的备份。

#ls –l/image.date(查看系统有没有备份image文件,记录备份最后日期),#lsvg –l rootvg(查看有否符合要求的数据备份和保护)。

IBM_P_系列小机巡检服务报告单 V2.0

IBM_P_系列小机巡检服务报告单 V2.0
网卡状态□正常□不正常
零地电压_________
□符合要求□不符合
网卡通信
□正常□不正常
温度、湿度
□符合要求□不符合
2.检查系统硬件情况:
10.磁盘阵列RAID盘的状态:
设备故障灯是否有亮
□有□无
IBM存储型号________________________
有否其他异常情况
□有□无
□Good□Degraded□Failed
XXX服务器巡检服务报告单
客户名称:__________________________
机器型号:______________系列号:______________
检查时间:_______年____月____日_____时
本年度第________次检查
1.机房环境:
9.网卡
电源电压_________
□符合要求□不符合
□满意□一般□不满意□非常不满意
具体意见:
客户签字:
根据需要清洁过滤网
□已清洁□不需要
I/O板、扩展卡
□正常□不正常
5.逻辑卷/硬盘检查:
硬盘、磁盘阵列□正常□不正常
是否有stale的逻辑卷
□有□无
磁带机ቤተ መጻሕፍቲ ባይዱ磁带库
□□□正常□不正常
6.磁带机是否需要清洁
□需要□不需
12.微代码(Microcode)是否满足稳定运行的需要
7. CPU是否被disable
□有□无
□是□否
CPU GUARD设置
□正确□不正确
13.运行"snap-r;sanp-gfkbLc",取回存档.
8.SAN交换机是否正常:
□正常□不正常
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IBM Pxxx小型机
服务报告
目录
前言 (4)
第一章系统健康档案 (4)
1.1 CPU与内存 (4)
1.1.1 处理器数量 (4)
1.1.2 处理器物理位置 (4)
1.1.3 处理器主频和类型 (4)
1.1.4 内存大小 (4)
1.1.5 内存类型及物理位置 (5)
1.2 ADAPTER (5)
1.3 硬盘 (5)
1.4 光驱和磁带机等其他设备 (5)
1.5 逻辑卷及文件系统配置 (6)
1.5.1 rootvg (6)
第二章系统软件档案 (7)
2.1 操作系统版本及升级建议 (7)
2.2 主机微码版本及升级建议 (7)
2.3 高可用性集群软件配置情况 (7)
第三章系统性能分析报告 (8)
第四章问题汇总与分析报告 (9)
4.1 问题记录 (9)
4.2 问题分析 (9)
前言
该机SN号为:xxxxxxx ,作为xxx应用服务器。

第一章系统健康档案
1.1 CPU与内存
1.1.1 处理器数量
#lsdev -Ccprocessor
* 共有——颗处理器
1.1.2 处理器物理位置
#lscfg –vp|grep proc
有两块处理器卡,proc0-proc7 在C1卡上;proc16-proc23在C4 CPU卡上1.1.3 处理器主频和类型
#lsattr -El proc0
1.1.4 内存大小
#lsdev -Ccmemory
#lsattr -El L2cache0
#lsattr -El mem0
共32G内存
1.1.5 内存类型及物理位置
#lscfg –vp –l mem0
有4块8192MB内存卡,具体位置如下:
1.2 ADAPTER
#lsdev -Ccadapter
1.3 硬盘
#lsdev -Ccdisk
hdisk0与hdisk1是内置硬盘
hdisk2-hdisk49是P670通过光通道卡fcs0、fcs1识别IBM FC2105磁盘阵列的逻辑硬盘设备号#lsvpcfg
特别提醒:不要将hdsik2-hdisk49加入任何卷组(VG)中;
必须用vpath0-vpath12设备号创建卷组(VG)
内置硬盘大小:
1.4 光驱和磁带机等其他设备
#lsdev -Cctape
#lscfg –vp -l rmt0
#lsdev -Cccdrom
.
1.5 逻辑卷及文件系统配置
注:每个VG一个章节,参考本文档
#lspv
#lsvg 系统定义的卷组
#lsvg –o 系统激活的卷组
#df –k 列出文件系统使用情况
1.5.1 rootvg
#lsvg -l rootvg
#lsvg rootvg
第二章系统软件档案
2.1 操作系统版本及升级建议
#oslevel –s
当前系统版本为:
目前系统运行稳定,征求客户意见后,不建议升级
2.2 主机微码版本及升级建议
#lsmcode
当前系统微码版本为:
目前系统运行稳定,征求客户意见后,不建议升级
2.3 高可用性集群软件配置情况#lslpp –l|grep cluster
目前该机没有运行高可用性软件
注:如果安装配置了集群软件请给出详细配置信息
第三章系统性能分析报告
监控时间为上午8点49分至第二天下午2点49分,每分钟报告一次系统性能。

通过性能监测报告,可以看到:
P690在最大负载时(上午9点至11点左右)CPU的空闲时间为20% 这说明负载较重。

Fri Jan 19 08:49:22 BEIST 2007
#vmstat 60
System Configuration: lcpu=16 mem=32768MB
kthr memory page faults cpu
----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
10 1 4270356 2513327 0 0 0 361 213 0 374 23117 11716 59 3 38 0
分析在9点钟CPU空闲只有20%(id),而用户(us)所占cpu为75%,
同时I/O wait 占cpu 为0%,空闲物理内存为10G(2512667x4K),基本可以判断主机cpu 处理能力已接近满负荷。

建议如有可能升级cpu
#ps aux|head -1;ps aux|sort -rn +2|head -30 查看消耗CPU的时间最大30个进程
#ps aux|head -1;ps aux|sort -rn +4|head -30 查看消耗内存最大的30个进程
第四章问题汇总与分析报告
4.1 问题记录
4.2 问题分析。

相关文档
最新文档