服务器巡检流程表

服务器巡检流程表
服务器巡检流程表

服务器巡检流程表

服务器巡检流程

一( 准备工作

1. 电话与客户联系,确定巡检的具体时间、地点,并了解服务器型号、规格,数量,服务器有无出现过故障现象,并作好详细记录。

2. 准备相关工具(比如螺丝刀、钳子、刷子)与必要的备品备件(如硬盘、CPU、电源、内存等)。

二( 现场操作步骤

第一步:检查服务器的是否有报警声,指示灯面板是否有红灯和黄灯显示(电源指示灯除外)若有,则表示指示灯对应的该部件有故障,需要仔

细检查此部件,直至将故障排除(指示灯一般正常为绿灯)

第二步:根据客户所用操作系统的不同,分别予以说明:

WINDOWS操作系统

a. 检查系统CPU利用率

通过windows操作系统“任务管理器”,检测三次,每次5分钟,记录大约平均的利用率。CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。

另外内存使用率应低于65%。

b. 在“控制面板?管理工具”中找到“事件查看器”,查看有无明显异常Logging信息。

c. 网络连接信息

在命令行提示符窗口中,输入“ipconfig /all”,查看。若采用了网卡容错,

则需查看主备网卡的flag状态是否为UP,同时检查ip地址和netmask是否正

确。最后使用ping [ip address]检查网络是否通畅,是否有掉包或返回时间是

否较大(内网返回时间值一般为1至2毫秒,外网返回值一般不超过10毫秒为正常)。

d. 磁盘信息:

在“运行”对话框中手工键入“diskmgmt.msc”,打开“磁盘管理”对话框,查看

每一个逻辑分区状态是否为正常状“状态良好”,若为其他出错信息的话,则说明

该块磁盘可能存在故障。需更换做或做其他进一步检测。

Linux操作系统

a. 查看CPU和内存使用率

# top

在命令输出行的第三行和第四行分别显示CPU和内存的使作率。检测三次,每次5分钟,记录大约平均的利用率。CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。另外内存使用率应低于65%。

b. 网卡的状态

: # ifconfig –a

查看网络连接信息。若采用了网卡容错,则需查看主备网卡的flag状态是否为UP,

同时检查ip地址和netmask是否正确。最后使用ping [ip address]检查网络是否通

畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,外网返

回值一般不超过10毫秒为正常)。

UNIX操作系统:

a. 查看CPU使用率

# sar –u 5 50

查看每个CPU使用率,CPU的idle(空闲)值至少应大于25%。

b. 查看内存信息:

# memsize

查看内存的大小。

# sar –r 5 50

其中freemem的平均值与使用memsize命令查看到内存值的比值不应小于20%

c. 网卡的状态 :

# ifconfig –a

查看网络连接信息。若采用了网卡容错,则需查看主备网卡的flag状态是否

UP,同时检查ip地址和netmask是否正确。最后使用ping [ip address]检查网络

是否通畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,

外网返回值一般不超过10毫秒为正常)。

d. 查看硬盘信息:

# sar –d 2 10

其%busy平均值不应低于1%,avque值不应高于5%。若这两项值都较高,则说明硬盘传输速度较慢,需调整或检验是否存在坏道。

三、查看阵列信息。(若没有配置阵列,则无需进行如下操作)

为准确检验阵列是否正常运行,查看是否已存在有损坏硬盘。需开机后进入阵列BIOS 中进行查看。

第一步:关机:

windows系统: 开始 ----重新启动 -----Y

Linux系统 :# shutdown –r now

Unix系统 :# init 6

第二步:系统自检完成后,根据阵列卡厂商的不同,按相应热键进入raid Utility (屏幕上会有相应提示信息,一般BM阵列卡按Ctrl+I , Adaptec阵列卡按Ctrl+A,

AMI或LSI阵列卡按Ctrl+M),进入后,查看 raid状态,正常是optimal, 若为其他状态(如degrade),则表明阵列中可能存在有坏硬盘,需进入

physical

Hard中查看,每块硬盘正常状态应为online,若为0ffline,则说明此硬盘已坏(一般

情况下此硬盘灯也会亮黄灯或者红灯),则需更换。

第二步:更换坏硬盘

严重声明:在更换坏硬盘前,一定要让客户做好所有数据的备份工作~~~注:1. 更换损坏硬盘前,必须查看阵列的当前状态,保证除损坏的硬盘外,其他

硬盘处于正常的ONLLINE在线状态。

2. 更换的新硬盘必须是完好的。

3. 新更换的硬盘容量应至少等于或大于被更换的坏硬盘容量。

4. 在阵列数据重建完成之前,不能插拔任何硬盘。

支持热插拔的硬盘

(Raid 5级别的阵列都支持硬盘的热插拔)

直接将坏硬盘取下后,插上好硬盘,插好后,会看见新更换的硬盘指示灯亮绿灯,并不停的闪,表明此时正在往硬盘里写数据信息。

对于不支持热插拔的硬盘,则需系统关机后,取下坏硬盘,然后再换上好硬盘。开机并进

入raid Utility中,重新对更换的硬盘作rebuild, 作完后即可重新启动进入系统。

服务器巡检流程表

服务器巡检流程表 服务器巡检流程 一( 准备工作 1. 电话与客户联系,确定巡检的具体时间、地点,并了解服务器型号、规格,数量,服务器有无出现过故障现象,并作好详细记录。 2. 准备相关工具(比如螺丝刀、钳子、刷子)与必要的备品备件(如硬盘、CPU、电源、内存等)。 二( 现场操作步骤 第一步:检查服务器的是否有报警声,指示灯面板是否有红灯和黄灯显示(电源指示灯除外)若有,则表示指示灯对应的该部件有故障,需要仔 细检查此部件,直至将故障排除(指示灯一般正常为绿灯) 第二步:根据客户所用操作系统的不同,分别予以说明: WINDOWS操作系统 a. 检查系统CPU利用率 通过windows操作系统“任务管理器”,检测三次,每次5分钟,记录大约平均的利用率。CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。 另外内存使用率应低于65%。 b. 在“控制面板?管理工具”中找到“事件查看器”,查看有无明显异常Logging信息。 c. 网络连接信息 在命令行提示符窗口中,输入“ipconfig /all”,查看。若采用了网卡容错, 则需查看主备网卡的flag状态是否为UP,同时检查ip地址和netmask是否正

确。最后使用ping [ip address]检查网络是否通畅,是否有掉包或返回时间是 否较大(内网返回时间值一般为1至2毫秒,外网返回值一般不超过10毫秒为正常)。 d. 磁盘信息: 在“运行”对话框中手工键入“diskmgmt.msc”,打开“磁盘管理”对话框,查看 每一个逻辑分区状态是否为正常状“状态良好”,若为其他出错信息的话,则说明 该块磁盘可能存在故障。需更换做或做其他进一步检测。 Linux操作系统 a. 查看CPU和内存使用率 # top 在命令输出行的第三行和第四行分别显示CPU和内存的使作率。检测三次,每次5分钟,记录大约平均的利用率。CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。另外内存使用率应低于65%。 b. 网卡的状态 : # ifconfig –a 查看网络连接信息。若采用了网卡容错,则需查看主备网卡的flag状态是否为UP, 同时检查ip地址和netmask是否正确。最后使用ping [ip address]检查网络是否通 畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,外网返

服务器巡检操作规划

服务器巡检报告 一、服务器巡检的重要性 服务器是系统重要的业务运行平台,对服务器进行巡检能够及时发现服务器的隐患,以便于改善和优化服务器的性能;观察服务器的运行状况,及时对设备进行调整,提高平台的整体服务水平。同时可根据日常维护和相关记录,为平台后续发展提供整体建设规划和建议。 二、日常巡检内容包括以下方面: 机房环境温度、湿度巡检 服务器外壳整体检查 服务器清洁程度 服务器的外表温度 服务器风扇运行监测 服务器电源连接检查 服务器网络接口检查 服务器LED警示屏幕检查 服务器硬盘、电源、网卡等设备灯的状态 服务器硬件磁盘、内存、cpu、网卡使用情况 服务器系统日志 运行与服务器上应用是否可用 应用系统日志检查(根据实际情况执行) 杀毒软件的检查

三、巡检内容详细说明 1、服务器硬件巡检主要内容

2、操作系统检查 3、性能检查 一、Windows系统服务器性能查询(1)内存、cpu使用情况巡检用命令打开任务管理器

检查方法: Windows下使用任务管理器,记录占用内存、cpu最多的前五位进程或应用程序; 性能 CPU使用情况:表明处理器工作时间百分比的图表,该计数器是处理器活动的主要指示器,查看该图表可以知道当前使用的处理时间是多少。 CPU使用记录:显示处理器的使用程序随时间的变化情况的图表,图表中显示的采样情况取决于“查看”菜单中所选择的“更新速度”设置值,“高”表示每秒2次,“正常”表示每两秒1次,“低”表示每四秒1次,“暂停”表示不自动更新。 PF使用情况:正被系统使用的页面文件的量。 页面文件使用记录:显示页面文件的量随时间的变化情况的图表,图表中显示的采样情况取决于“查看”菜单中所选择的“更新速度”设置值。 总数:显示计算机上正在运行的句柄、线程、进程的总数。 认可用量:分配给程序和操作系统的内存,由于虚拟内存的存在,“峰值”可以超过最大物理内存,“总数”值则与“页面文件使用记录”图表中显示的值相同。 物理内存:计算机上安装的总物理内存,也称RAM,“可用”表示可供使用的内存容量,“系统缓存”显示当前用于映射打开文件的页面的物理内存。 内核内存:操作系统内核和设备驱动程序所使用的内存,“页面”是可以复制到页面文件中的内存,由此可以释放物理内存;“非分页”是保留在物理内存中的内存,不会被复制到页面文件中。

服务器巡检流程表

服务器巡检流程 一.准备工作 1.电话与客户联系,确定巡检的具体时间、地点,并了解服务器型号、规格,数量,服 务器有无出现过故障现象,并作好详细记录。 2.准备相关工具(比如螺丝刀、钳子、刷子)与必要的备品备件(如硬盘、CPU、电源、 内存等)。 二.现场操作步骤 第一步:检查服务器的是否有报警声,指示灯面板是否有红灯和黄灯显示(电源指示灯除外)若有,则表示指示灯对应的该部件有故障,需要仔 细检查此部件,直至将故障排除(指示灯一般正常为绿灯)第二步:根据客户所用操作系统的不同,分别予以说明: WINDOWS操作系统 a.检查系统CPU利用率 通过windows操作系统“任务管理器”,检测三次,每次5分钟,记录大约平 均的利用率。CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。 另外内存使用率应低于65%。 b. 在“控制面板→管理工具”中找到“事件查看器”,查看有无明显异常Logging信息。 c. 网络连接信息 在命令行提示符窗口中,输入“ipconfig /all”,查看。若采用了网卡容错, 则需查看主备网卡的flag状态是否为UP,同时检查ip地址和netmask是否正 确。最后使用ping [ip address]检查网络是否通畅,是否有掉包或返回时间是 否较大(内网返回时间值一般为1至2毫秒,外网返回值一般不超过10毫秒 为正常)。 d.磁盘信息: 在“运行”对话框中手工键入“diskmgmt.msc”,打开“磁盘管理”对话框,查看 每一个逻辑分区状态是否为正常状“状态良好”,若为其他出错信息的话,则说明 该块磁盘可能存在故障。需更换做或做其他进一步检测。 Linux操作系统 a.查看CPU和内存使用率 # top 在命令输出行的第三行和第四行分别显示CPU和内存的使作率。检测三次,每 次5分钟,记录大约平均的利用率。CPU 5分钟平均利用率低于70%,无进程 占用大量资源为正常。另外内存使用率应低于65%。 b. 网卡的状态 : # ifconfig –a

Windows服务器巡检报告

Windows 服务器巡检报告 Windows 系统健康检查报告一、服务器巡检的重要性windows 服务器是系统重要的业务运行平台对服务器进行巡检能够及时发现服务器的隐患以便于改善和优化服务器的性能观察服务器的运行状况及时对设备进行调整保证服务器的24 小时不间断的工作以及采集网内服务器信息。二、日常巡检内容包括以下方面1 、服务器物理硬件巡检2、机房环境巡巡检3、操作系统的磁盘、内存、cpu情况使用情况4 、服务器系统日志5、运行与服务器上应用是否可用6、应用系统日志检查根据实际情况执行7、杀毒软件的检查8 、系统定时任务执行情况三、巡检内容详细说明1、服务器硬件巡检主要内容检查项检查操作参考标准机柜或者服务器上的防尘网观察机柜以及机器上的防尘网上的灰尘是否在防尘上堵塞导致气流不畅。系统风扇运转检查观察并用手感觉进风和出风是否正常主机和磁盘柜的所有风扇运转正常。系统运装噪音检查仔细听系统运转声音噪音是否过大有无异常声音系统电源指示灯检查观察液晶面板、电源指示灯、硬盘报警灯等显示液晶面板、电源指示灯、硬盘报警灯等显示情况正常服务器硬盘工作状态硬盘指示灯指示是否正常一般绿色为正常绿色闪烁服务器网卡工作状态服务器插上网线后若有数据传输则网卡指示灯呈现规律性闪烁若闪烁不正常或指示灯指示颜色不正常则说明系统数据传输将不正常网卡指示灯正常闪烁服务器散热检测靠近服务器检查是否有热风吹出服务器电源连接检查电源连接线是否有松动、接触不良等情况服务器外壳整体检查服务器整体是否有移动或损害痕迹服务器机房温度机房的温度是否异常变动温度数值多少参考值温度20?-26? 服务器机房 湿度机房的湿度是否异常变动湿度计数值多少参考值温度45-60 服务器机房静 电防护防静电地板是否损坏防静电设备是否正常服务器标签检查标签是否松动、脱落字体是否模糊不清2 、操作系统检查检查项检查操作参考标准操作系 统版本检查执行命令winver.exe 主机连接系统网络情况在其它机器上采用ping 命

服务器健康状况检查

1 IBM 服务器健康检查表 客户名称:机器信息: 系统健康检查时间:机器型号/机器序列号:业务用途: 检查内容: 1.检查机房环境,电源 温度、湿度是否符合要求:□符合要求□不符合备注:电源: 相电压:□符合要求□不符合备注: 线电压:□符合要求□不符合备注: 零地电压:□符合要求□不符合备注: 2.检查系统硬件情况 检查设备故障灯是否有亮:□有□无备注: 有否异常情况(如硬盘、风扇异常的声音,电缆破损):□有□无备注: 3.检查有无内置磁带机 内置磁带机:□有□无 4.检查系统错误报告(Error Log)有否硬件故障:□有□无故障内容: 有否软件故障:□有□无故障内容: 2 结论: 注意:如果故障记录太多,应将故障报告取回,作进一步分析。5.查文件系统 查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX 的基本文件系统。如/(根文件系统)满则会导致用户不能登录。有否“满”的文件系统:□有□无备注: 6.检查内存交换区(paging pace)使用率使用率是否超过70%:□有□无 备注: 7.检查CPU 是否繁忙(sar 1 10)CPU 空闲是否小于20%:□有□无备注: 8.检查I/O 是否繁忙(iostat 1) 是否大数据读写都集中在某些硬盘上:□有□无备注: 9.检测诊断(Diagnostic) 机器shutdown 后以慢启动方式作自检,启动后运行diag 系统诊断程序。系统板、CPU、内存、I/O 板:□正常□不正常网卡、SCSI 卡、SSA 卡:□正常□不正常系统其他扩展卡:□正常□不正常硬盘、磁盘阵列:□正常□不正常磁带机、磁带库:□正常□不正常备注: 10.通信测试 检查各网卡的状态、IP 地址、路由表等:□正常□不正常用“ping”等命令检查通信:□正常□不正常备注: 11.检查磁盘阵列(如:7133)状况,并填写下表: 序列号硬盘数量硬盘容量硬盘微码有无Hot Spare 何种数据保护 12.检查硬盘使用率整体存储空间:GB 使用空间:GB 客户签字:工程师签字: 年月日年月日

相关文档
最新文档