服务器巡检流程表

合集下载

服务器设备巡检表

服务器设备巡检表

服务器设备巡检表服务器设备巡检表日期:___________________巡检人员:___________________巡检周期:每月/每季度/半年度/年度:巡检过程中若发现异常情况,请及时记录并向相关人员报告。

1·服务器基本信息●服务器名称:●服务器型号:●服务器IP地质:●服务器所在机房:●服务器提供商:●服务器操作系统:●服务器使用用途:2·网络设备巡检●网络设备名称:●网络设备型号:●网络设备IP地质:●网络设备所在机房:●确认网络设备正常运行:●[ ] 网络设备电源是否正常通电●[ ] 网络设备指示灯是否正常工作●[ ] 网络设备连接状态是否正常●[ ] 网络设备出现故障是否有告警提示●确认网络设备配置正常:●[ ] 网络设备参数配置是否正确●[ ] 网络设备升级和维护记录是否完整3·存储设备巡检●存储设备名称:●存储设备型号:●存储设备IP地质:●存储设备所在机房:●确认存储设备正常运行:●[ ] 存储设备电源是否正常通电●[ ] 存储设备指示灯是否正常工作●[ ] 存储设备连接状态是否正常●[ ] 存储设备出现故障是否有告警提示●确认存储设备配置正常:●[ ] 存储设备参数配置是否正确●[ ] 存储设备升级和维护记录是否完整●确认存储设备备份功能正常:●[ ] 存储设备备份记录是否完整4·数据库服务器巡检●数据库服务器名称:●数据库服务器型号:●数据库服务器IP地质:●数据库服务器所在机房:●确认数据库服务器正常运行:●[ ] 数据库服务器电源是否正常通电●[ ] 数据库服务器指示灯是否正常工作●[ ] 数据库服务器连接状态是否正常●[ ] 数据库服务器出现故障是否有告警提示●确认数据库服务器配置正常:●[ ] 数据库服务器参数配置是否正确●[ ] 数据库服务器升级和维护记录是否完整●确认数据库备份功能正常:●[ ] 数据库备份记录是否完整附件:1·巡检过程中的照片记录2·巡检过程中的报告记录法律名词及注释:1·服务器设备:用于存储和处理数据的专门设备,提供各种服务如网站、数据库等。

服务器定期巡检管理操作流程描述

服务器定期巡检管理操作流程描述
运维班组人员/厂家负责人


2、相关输出物
1、《服务器巡检表》(定期)
2、《服务器巡检报告》
3、输出物来源依据
服务器巡检管理相关输出物来源参考《信息系统运行维护管理办法实施细则》。
服务器定期巡检管理操作流程描述
流程名称
服务器定期巡检管理
流程目录结构
运维与服务管理 --->运维管理 ---->服务器运维管理 --->服务器定期巡检管理
注:上述目录结构请按网公司信息化管理作业分类进行填写,分别为1,2,3,4级业务。参考范例对应部分。
1、管理流程
序号
流程节点
细节描述ቤተ መጻሕፍቲ ባይዱ
频度
时限
输入/输出
运维班组人员/厂家负责人


3
事件、缺陷或者问题的分析
对巡检过程中发现的问题,信息运维班组人员迅速组织相关技术人员对服务器运行过程中发生的事件、缺陷或问题进行分析,依据分析结果转事件、问题或者缺陷处理流程
每季度
1个工作日
输入:《服务器定期巡检报告》
输出:缺陷处理单(针对缺陷的)、无(针对事件和问题)
运维班组人员/厂家负责人

《信息系统运行维护管理办法实施细则》。

必须通过IT集中运行监控系统进行,(巡检内容)
2
填写《服务器巡检表》
在《服务器巡检表》中填写异常情况,并立即通知相关设备管理员或者机房管理员
每季度
1个工作日、每季度的最后一个月25日提交巡检报告
输入:《服务器定期巡检表》
输出:《服务器定期巡检报告》
涉及岗位
是否有系统支持
所遵循的制度或工作要求
是否需要有作业指导书

服务器巡检表

服务器巡检表

服务器巡检表服务器巡检表一、服务器基本信息1、服务器名称:2、服务器型号:3、服务器IP地质:4、服务器操作系统:5、服务器所在机房:6、服务器管理员:二、硬件巡检1、CPU状态检查:a: CPU温度是否在正常范围内: b: CPU使用率是否超过警戒值:2、内存状态检查:a:内存使用率是否超过警戒值: b:是否存在内存报错或故障:3、磁盘状态检查:a:磁盘使用率是否超过警戒值: b:是否存在磁盘读写错误:4、网络状态检查:a:网络连接是否正常:b:是否存在网络延迟或丢包情况:5、电源状态检查:a:电源是否正常工作:b:是否存在断电或电压异常情况:三、软件巡检1、操作系统巡检:a:系统是否有补丁更新:b:登录日志是否异常:c:是否存在或恶意软件:2、应用程序巡检:a:应用程序是否正常运行:b:是否存在应用程序崩溃或错误:c:是否存在应用程序漏洞或权限问题:3、数据库巡检:a:数据库服务是否正常运行:b:是否存在数据库连接问题:c:是否存在数据库性能问题:4、网站巡检:a:网站是否正常访问:b:是否存在网站防护墙配置问题:c:是否存在网站漏洞或攻击行为:附件:1、服务器巡检记录表格2、服务器巡检报告法律名词及注释:1、网络安全法:指中华人民共和国为加强网络安全保护,维护网络主权和国家安全,保护公民、法人和其他组织的合法权益,规定的一系列法律法规的总称。

2、个人信息保护法:指中华人民共和国为保护个人信息安全,规范个人信息处理活动,维护个人信息主体合法权益,保障信息通信技术与网络的健康有序发展,推动国家治理体系和治理能力现代化,制定的一部法律。

服务器安全巡检表

服务器安全巡检表

服务器安全巡检表服务器安全巡检表1·服务器基本信息●服务器名称:●服务器型号:●操作系统版本:●服务器IP地质:●服务器位置:2·物理安全●服务器存放环境是否符合要求:●服务器温度、湿度是否正常:●服务器是否接地良好:●服务器是否放置在锁定的机柜内:3·操作系统安全●操作系统是否更新至最新补丁:●是否启用了防火墙:●是否对操作系统进行了加固:●是否限制了无关的服务和端口的运行:●是否对操作系统进行了日志监控和审计:4·数据库安全●数据库版本是否更新至最新补丁:●是否限制了数据库的远程访问:●数据库账号密码是否强度足够:●是否对数据库进行了日志监控和审计:5·网络安全●是否设置了访问控制列表(ACL):●是否加密了敏感数据传输:●是否对网络设备进行了定期检查和更新:●是否配置了入侵检测系统(IDS)和入侵防御系统(IPS):6·应用安全●应用程序是否更新至最新版本:●是否对应用程序进行了加固:●是否对应用程序进行了访问控制:●是否对应用程序进行了输入验证和输出过滤:●是否对应用程序设置了合适的帐号锁定策略:7·数据备份与恢复●是否进行了定期的数据备份:●是否对备份数据进行了加密存储:●是否对备份数据进行了完整性校验:●是否进行了数据恢复测试:8·日志记录与分析●是否启用了完整的日志记录功能:●是否对日志进行了定期备份和存储:●是否进行了日志的实时监控和分析:●是否对异常日志进行了及时处理:9·安全漏洞扫描与风险评估●是否进行了定期的安全漏洞扫描:●是否进行了系统风险评估和安全漏洞修复:●是否对扫描结果进行了详细分析和处理:10·系统权限和访问控制●是否进行了用户权限的审计和管理:●是否对员工的网络访问权限进行了管理:●是否限制了敏感信息的访问权限:●是否对员工进行了安全意识培训:附件:本文档涉及的附件法律名词及注释:●防火墙:是一种用于网络安全的系统,用于在网络与外界之间控制和监视数据传输。

ibm服务器全面巡检流程

ibm服务器全面巡检流程

IBM服务器巡检流程
1、检查系统硬件情况:设备故障灯是否有亮
2、系统错误报告(errlog)
3、有否发给root用户的错误报告(mail)
4、检查hacmp.out,smit.log,boot.log
5、关键系统的文件使用率不大于80%
6、逻辑卷有否stale
7、内存交换区使用率是否超过70%
8、内存交换区的大小是否为物理内存的1.5倍
9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)
10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)
11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare
12、系统DUMP设置是否正确
13、检查系统参数是否正确
1)/etc/enviroment中的TZ不能有夏时制
2)如有数据库:Aio:available
3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24
4)HACMP中Syncd:10
5)HACMP中Power Monitor:off
14、检查rootvg是否有镜象
15、检查errdemon,srcmstr是否正常运行
16、机房环境(电压、湿度)
17、系统性能:有否性能瓶颈(topas,vmstat)
18、补丁程序(PTF)、微码(是否需要升级)
19、HACMP测试:Cluster Verification
20、系统硬件诊断
21、运行#snap -ac,生成文件snap+s/n.pax.Z
22、机器清洁。

服务器日常巡检工作

服务器日常巡检工作

服务器日常巡检工作服务器日常巡检工作一、环境准备⒈登录到服务器管理控制台⒉确认服务器运行状态正常⒊检查服务器硬件设备是否正常运行⒋检查电源和电源线是否连接正常⒌确认网络连接正常二、系统检查⒈确认操作系统版本和补丁是否最新⒉检查系统日志和事件日志,查找异常情况⒊检查磁盘空间使用情况,清理不必要的文件和日志⒋检查系统服务是否正常运行⒌确认系统防火墙和安全策略设置是否正确⒍检查系统安全更新和补丁,确保系统安全性三、网络设置检查⒈确认网络连接正常,检查网卡是否正常工作⒉检查网络配置文件是否正确⒊检查域名解析是否正常⒋检查网络访问控制清单(ACL)是否正确配置四、应用程序检查⒈确认应用程序版本是否最新⒉检查应用程序配置文件是否正确⒊检查应用程序日志,查找异常情况⒋检查数据库连接是否正常⒌检查定时任务是否正常执行⒍确认备份和恢复方案是否正确配置五、安全性检查⒈检查用户权限和访问控制列表(ACL)设置⒉检查系统密码策略和用户管理规范⒊检查防火墙和入侵检测系统设置⒋检查系统漏洞扫描和安全审计日志附件:⒈服务器运行状态报告⒉系统日志和事件日志⒊应用程序配置文件⒋数据库备份和恢复方案法律名词及注释:⒈网络访问控制清单(ACL):网络设备上用于控制和限制网络访问的设置,包括允许或禁止某些IP地质或端口进行通信的规则。

⒉密码策略:设定密码的复杂度要求、密码过期时间、最小密码长度等规则的安全措施。

⒊入侵检测系统:一种用于检测和防范网络入侵行为的安全设备或软件,可以实时监控网络流量、检测攻击行为并采取相应措施。

服务器设备巡检表

服务器设备巡检表

服务器设备巡检表服务器设备巡检表本巡检表用于记录服务器设备的巡检情况,以确保服务器设备的正常运行和安全性。

请按照下面的章节进行详细的巡检操作和记录。

一、外观和连接检查⒈检查服务器设备外观是否完好,无损坏或变形。

⒉检查服务器设备的连接线是否牢固,无松动或接触不良的情况。

二、电源和供电检查⒈检查服务器设备的电源是否正常开启,并观察指示灯是否正常亮起。

⒉检查服务器设备的供电线是否接触良好,无插头松动的情况。

⒊检查服务器设备的电压和电流是否在正常范围内。

三、硬件检查⒈检查服务器设备的硬盘是否正常工作,无异常噪音或读写错误的情况。

⒉检查服务器设备的内存是否正常工作,无故障或过热的情况。

⒊检查服务器设备的风扇是否正常运转,无异常噪音或过热的情况。

⒋检查服务器设备的网卡是否正常工作,无断连或速度不稳定的情况。

⒌检查服务器设备的光驱、USB接口等外部设备是否正常工作,无异常情况。

四、系统和软件检查⒈检查服务器设备的操作系统是否正常启动,并观察启动过程中是否有错误提示。

⒉检查服务器设备的防火墙、杀毒软件等安全软件是否正常运行,并更新至最新版本。

⒊检查服务器设备的关键软件是否正常运行,无错误提示或崩溃的情况。

⒋检查服务器设备的备份和恢复系统是否正常工作,无故障或失败的情况。

五、网络和通信检查⒈检查服务器设备的网络连接是否正常,无断连或速度缓慢的情况。

⒉检查服务器设备的IP配置是否正确,无冲突或错误的情况。

⒊检查服务器设备与其他设备之间的通信是否正常,无丢包或延迟过高的情况。

⒋检查服务器设备的远程登录和管理功能是否正常,无故障或权限问题的情况。

六、安全和权限检查⒈检查服务器设备的安全设置是否符合要求,如密码复杂度、账户锁定策略等。

⒉检查服务器设备的用户权限是否正确配置,无越权或权限冲突的情况。

⒊检查服务器设备的访问日志和安全事件日志,无异常或可疑活动的情况。

附件:⒈服务器设备巡检记录表格法律名词及注释:⒈《中华人民共和国网络安全法》:中国法律规定的网络安全相关法律,保障网络安全和个人信息保护。

sun服务器硬件巡检

sun服务器硬件巡检

sun服务器硬件巡检Sun服务器硬件巡检1、概述本文档涵盖了Sun服务器硬件巡检的详细内容,旨在确保服务器的正常运行。

通过对硬件组件的检查和测试,可以准确评估服务器的健康状况,及时发现和解决潜在的问题。

2、巡检流程2.1 服务器开机检查- 检查服务器开机时的启动信息和状态- 观察服务器是否正常启动,是否有异常报警或错误信息2.2 外观检查- 检查服务器外壳是否完好无损- 检查指示灯是否正常工作,是否有异常闪烁2.3 电源检查- 检查电源线连接是否牢固- 观察电源指示灯,确保电源工作正常- 检查电源风扇是否正常运转,无异常声音或振动 2.4 CPU检查- 检查CPU散热器是否干净,无灰尘或杂物堵塞- 检查CPU温度是否在正常范围内- 使用诊断工具进行CPU性能测试2.5 内存检查- 检查内存条是否插紧,无松动现象- 检查内存容量是否与服务器配置一致- 运行内存测试工具,检测内存是否工作正常2.6 硬盘检查- 检查硬盘连接线是否牢固- 检查磁盘状态和容量是否正常- 运行磁盘检测工具,检查磁盘是否存在坏道或错误 2.7 网络接口检查- 检查网线连接是否牢固- 检查网络接口是否正常工作- 执行网络连通性测试,确保网络功能正常2.8其他硬件检查- 检查扩展卡和插槽是否插紧,无松动现象- 检查风扇是否工作正常,无异响或振动- 检查服务器电池状态,确保备份电源持续供电2.9日志检查- 检查服务器系统日志和硬件日志,查找任何错误或异常记录- 分析日志信息,及时处理发现的问题2.10 硬件替换和维修- 如发现硬件故障,根据服务器的维护手册进行硬件更换和维修3、附件本文档无附件。

4、法律名词及注释- 服务器:一种用于存储、管理和传递数据的计算机设备,是网络服务的基础。

- 巡检:对设备或系统进行定期检查,以维持其正常运行和可靠性。

- 硬件组件:计算机系统中的物理设备,包括处理器、内存、硬盘、电源等。

- 散热器:用于散热的设备,能够将热量从硬件组件中传递到周围环境。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

服务器巡检流程表
服务器巡检流程
一( 准备工作
1. 电话与客户联系,确定巡检的具体时间、地点,并了解服务器型号、规格,数量,服务器有无出现过故障现象,并作好详细记录。

2. 准备相关工具(比如螺丝刀、钳子、刷子)与必要的备品备件(如硬盘、CPU、电源、内存等)。

二( 现场操作步骤
第一步:检查服务器的是否有报警声,指示灯面板是否有红灯和黄灯显示(电源指示灯除外)若有,则表示指示灯对应的该部件有故障,需要仔
细检查此部件,直至将故障排除(指示灯一般正常为绿灯)
第二步:根据客户所用操作系统的不同,分别予以说明:
WINDOWS操作系统
a. 检查系统CPU利用率
通过windows操作系统“任务管理器”,检测三次,每次5分钟,记录大约平均的利用率。

CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。

另外内存使用率应低于65%。

b. 在“控制面板?管理工具”中找到“事件查看器”,查看有无明显异常Logging信息。

c. 网络连接信息
在命令行提示符窗口中,输入“ipconfig /all”,查看。

若采用了网卡容错,
则需查看主备网卡的flag状态是否为UP,同时检查ip地址和netmask是否正
确。

最后使用ping [ip address]检查网络是否通畅,是否有掉包或返回时间是
否较大(内网返回时间值一般为1至2毫秒,外网返回值一般不超过10毫秒为正常)。

d. 磁盘信息:
在“运行”对话框中手工键入“diskmgmt.msc”,打开“磁盘管理”对话框,查看
每一个逻辑分区状态是否为正常状“状态良好”,若为其他出错信息的话,则说明
该块磁盘可能存在故障。

需更换做或做其他进一步检测。

Linux操作系统
a. 查看CPU和内存使用率
# top
在命令输出行的第三行和第四行分别显示CPU和内存的使作率。

检测三次,每次5分钟,记录大约平均的利用率。

CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。

另外内存使用率应低于65%。

b. 网卡的状态
: # ifconfig –a
查看网络连接信息。

若采用了网卡容错,则需查看主备网卡的flag状态是否为UP,
同时检查ip地址和netmask是否正确。

最后使用ping [ip address]检查网络是否通
畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,外网返
回值一般不超过10毫秒为正常)。

UNIX操作系统:
a. 查看CPU使用率
# sar –u 5 50
查看每个CPU使用率,CPU的idle(空闲)值至少应大于25%。

b. 查看内存信息:
# memsize
查看内存的大小。

# sar –r 5 50
其中freemem的平均值与使用memsize命令查看到内存值的比值不应小于20%
c. 网卡的状态 :
# ifconfig –a
查看网络连接信息。

若采用了网卡容错,则需查看主备网卡的flag状态是否

UP,同时检查ip地址和netmask是否正确。

最后使用ping [ip address]检查网络
是否通畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,
外网返回值一般不超过10毫秒为正常)。

d. 查看硬盘信息:
# sar –d 2 10
其%busy平均值不应低于1%,avque值不应高于5%。

若这两项值都较高,则说明硬盘传输速度较慢,需调整或检验是否存在坏道。

三、查看阵列信息。

(若没有配置阵列,则无需进行如下操作)
为准确检验阵列是否正常运行,查看是否已存在有损坏硬盘。

需开机后进入阵列BIOS 中进行查看。

第一步:关机:
windows系统: 开始 ----重新启动 -----Y
Linux系统 :# shutdown –r now
Unix系统 :# init 6
第二步:系统自检完成后,根据阵列卡厂商的不同,按相应热键进入raid Utility (屏幕上会有相应提示信息,一般BM阵列卡按Ctrl+I , Adaptec阵列卡按Ctrl+A,
AMI或LSI阵列卡按Ctrl+M),进入后,查看 raid状态,正常是optimal, 若为其他状态(如degrade),则表明阵列中可能存在有坏硬盘,需进入
physical
Hard中查看,每块硬盘正常状态应为online,若为0ffline,则说明此硬盘已坏(一般
情况下此硬盘灯也会亮黄灯或者红灯),则需更换。

第二步:更换坏硬盘
严重声明:在更换坏硬盘前,一定要让客户做好所有数据的备份工作~~~注:1. 更换损坏硬盘前,必须查看阵列的当前状态,保证除损坏的硬盘外,其他
硬盘处于正常的ONLLINE在线状态。

2. 更换的新硬盘必须是完好的。

3. 新更换的硬盘容量应至少等于或大于被更换的坏硬盘容量。

4. 在阵列数据重建完成之前,不能插拔任何硬盘。

支持热插拔的硬盘
(Raid 5级别的阵列都支持硬盘的热插拔)
直接将坏硬盘取下后,插上好硬盘,插好后,会看见新更换的硬盘指示灯亮绿灯,并不停的闪,表明此时正在往硬盘里写数据信息。

对于不支持热插拔的硬盘,则需系统关机后,取下坏硬盘,然后再换上好硬盘。

开机并进
入raid Utility中,重新对更换的硬盘作rebuild, 作完后即可重新启动进入系统。

相关文档
最新文档