数据库巡检手册
TSM巡检日常监控维护手册

数据备份服务项目作者:日期:版本:保密范围/等级:签字批准SAT项目经理TJHQ项目经理EMC项目经理ADIC项目经理IBM项目经理目录1前言 (1)2TSM巡检操作手册 (2)2.1查看TSM服务器 (2)2.2查看TSM MANAGE CONSOLE (2)2.3在TSM服务器上登录到管理界面 (3)2.4在TSM CLIENT端检查 (4)3TSM常见问题的处理 (4)3.1TSM S ERVER的故障处理 (4)3.1.1所有的备份和恢复操作都无法进行 (4)3.1.2如何获得TSM错误描述 (5)3.1.3系统出现无法读写磁带或磁盘的故障 (5)3.1.4处理带库故障后TSM工作不正常。
(6)3.1.5 a tape in library does not display in q libv (6)3.1.6reclaim process not run (6)3.1.7how to delete archive log files after backup (6)3.1.8windows device manager, found a drive mark as yellow (7)3.2TSM C LIENT的故障处理 (7)3.2.1TSM Client无法连接TSM Server (7)3.2.2TSM Client备份大文件时经常不成功 (7)3.2.3ANS1312E error in dsmerror.log (8)3.2.4when backup data, error: media can not mount (8)3.2.5ANR8779E Unable to open drive mt0.3.0.3, error number=170 (8)4日常维护 (8)4.1启动和停止TSM服务器 (8)4.2进入管理员界面 (9)4.3进入TSM CLIENT文件备份/恢复界面 (9)4.4管理数据库和日志 (9)4.5管理磁带库 (10)4.5.1查看带库中磁带驱动器状态: (10)4.5.2磁带的分配: (10)4.5.3检查活动日志,有可能要求作出回应, (11)4.5.4查看磁带上的备份内容: (11)4.5.5从磁带库中取出已使用的磁带放到异地保存: (11)4.5.6将取出的磁带重新放入磁带库中: (11)4.5.7向磁带库中增加新的供TSM使用的磁带: (11)4.5.8将新磁带添加到storage pool 中(可选) (11)4.5.9重复利用磁带库中的磁带 (11)4.6管理磁带库存储池 (12)4.7管理客户端节点 (12)4.7.1删除一个客户端节点 (12)4.7.2修改节点密码 (12)4.8定时备份维护 (12)4.8.1TSM Clien/TDP节点定时备份守候进程 (12)4.8.2客户端停止定时备份 (13)4.8.3查看定时备份日志 (13)4.9建立策略域(P OLICY D OMAIN) (13)4.10监控TSM S ERVER运行情况 (13)4.11其它维护 (14)4.12扩展配置 (15)5电话支持流程 (16)5.1IBM客户支持服务流程 (16)6日常监控表 (17)1前言本文档是TSM巡检操作手册,常见问题的处理和日常维护。
ECS云服务器巡检操作手册-202403

ECS云服务器安全巡检操作手册北京环宇数通科技有限公司中国领先的云安全服务商2024年3月前言云计算极大提升了企事业单位的信息化效能,国内外云计算厂商都提供了全面的弹性计算能力,提供了更高效率、更加安全以及更低运维成本的云平台。
面对功能如此强大的云计算平台,是否还有必要进行定期的人工巡检工作呢?回答是肯定的。
任何软件系统都会有不完善的地方,包括云平台本身也都在进行不断的软件版本升级,因此定期对云平台上的信息系统进行人工巡检是非常有必要的。
巡检工作可以预防故障、保障安全、性能优化和规范管理,同时可以发现闲置资源或低使用率资源,进行调整而降低成本,还可以提前发现安全问题,提升服务质量,并满足等保合规要求,以及更好的应对未来突发的安全事件。
图:巡检维护的八大价值本文将以阿里云ECS云服务器为例进行说明,其他云计算平台的安全巡检指标类似!更多的云产品和云安全产品的巡检操作手册,敬请期待!目录一、ECS巡检指标项 (4)二、ECS巡检操作 (5)1.ECS到期时间 (5)2.运行状态 (7)3.CPU、内存和磁盘使用率 (8)4.安全组规则配置 (9)5.云盘快照备份策略 (10)6.DDoS基础防护状态 (12)7.云监控agent运行状态 (12)8.云监控告警规则配置 (13)9.云监控告警联系人配置 (13)10.云安全中心agent运行状态 (15)三、ECS巡检结论 (16)一、ECS巡检指标项序号巡检指标巡检描述1到期时间查看实例到期,到期时间应大于一个巡检周期。
2 运行状态查看服务器状态是否为正常“运行”状态。
3CPU使用率查看服务器最近一个月CPU使用率平均值和峰值,是否属于合理区间(平均30-50%,峰值不持续高于85%)4内存使用率查看服务器最近一个月内存使用率,是否属于合理区间(平均30-50%,峰值不持续高于85%)5 磁盘空间使用量查看服务器最近一个月磁盘占有率,是否低于80%。
Oracle11gRAC数据库巡检手册

张浩
数据库检测
硬件机型
HP DL580 G7
是否集群
是
系统实际用户数
10
数据库进程
进入操作系统,登陆Oracle用户,命令:su - oracle
Process
进程情况
进入操作系统,登陆Oracle用户
命令:ps -ef|grep ora_
说明
Oracle 10g 后台进程
SMON(System Monitor)用于执行历程恢复、合并空间碎片并释放临时段。
查看日志
命令:
More/u01/app/oracle/product/11.2.0/db_1/network/log/sqlnet.log
有错误才有日志
Tnsname
配置情况
标准配置
位置:/u01/app/oracle/product/11.2.0/db_1/network/admin
运行情况
正常
查看状态
from
dba_free_space
group by
tablespace_name
) fs
where df.tablespace_name=fs.tablespace_name
order by "Pct Free"
/
运行情况
正常
Sessions
并发数
select count(*) from v$session where status='ACTIVE';
锁表有时候是瞬间的,长时间锁定的表才可能是死锁。
select l.*, s.OSUSER, s.ACTION, o.OBJECT_NAME
from gv$locked_object l, gv_$session s, all_objects o
oracle健康检查(巡检)手册

性能检查
数据库性能
检查数据库的整体性能,包括响应时间、吞吐量 和资源利用率等。
查询性能
检查特定查询的性能,包括执行计划、索引和查 询优化等方面。
锁和争用
检查数据库中的锁和争用情况,以发现潜在的性 能瓶颈和问题。
03 Oracle数据库巡检方法
手动巡检方法
数据库日志检查
检查Oracle数据库的日志文件,包括警告日志、跟踪文件等,以发现 潜在的问题和错误。
远程巡检方法
远程监控
01
通过远程监控工具,实时监控Oracle数据库的运行状态和性能
指标。
远程诊断
02
通过远程诊断工具,远程连接到数据库服务器,对数据库进行
故障排除和诊断。
远程备份与恢复
03
通过远程备份与恢复工具,远程备份和恢复Oracle数据库的数
据和日志文件。
04 Oracle数据库巡检结果分 析
Oracle Enterprise Manager (OEM): OEM是一个集成的平台,用于自动监控、 诊断和优化Oracle数据库的性能。
Automatic Database Diagnostic Monitor (ADDM):ADDM是一个 自动化的性能诊断工具,可以自动 发现和解决性能问题。
在此添加您的文本16字
内存优化
在此添加您的文本16字
调整内存参数:根据数据库的实际需求,合理配置内存参 数,如SGA和PGA的大小。
在此添加您的文本16字
内存泄漏检测:定期检查内存使用情况,发现内存泄漏并 及时处理。
软件优化建议
调整初始化参数
根据数据库的性能需求,调整初始化参数,如打开表的数量、共 享池的大小等。
巡检结果数据收集
运维服务巡检操作手册

运维服务巡检操作手册IT服务外包预防性巡检操作手册第一部分:服务人员行为规范1、服务礼仪规范:1)服务人员应穿着工作装或衬衣等正装,佩戴服务工牌,并保持整洁、干净,及时清洗及更换;2)头发应保持清洁平整,长度适中;3)胡须每日应刮净,不得蓄留;4)手部随时应维持清洁,指甲应经常剪修,不得留长及有污垢;5)服务人员应随时保持愉快精神,举止大方,仪态自然,以热情诚恳的态度提供顾客满意的服务;6)前往顾客服务,应主动打招呼,说明来访原因;7)巡检完毕后应向顾客说明故障原因及简易处理对策;8)与顾客言谈过程中语调力求明朗、清晰、态度和蔼、亲切、表情自然;9)处理故障时,如影响顾客工作环境时,应尽力防止,如有影响应及时清洁;10)工具箱严禁放置地上及机器上;11)尽量使用普通话与客户沟通与交流,并努力研究使用服务规范用语;12)不得随意拿取客户现场资料、物品等;13)不得收取客户一针一线;14)进入客户机房等机密重地,需取得客户同意,方可进入;15)不得使用服务禁语。
2、服务响应规范:1)服务人员应严格按巡检计划,及时到达客户现场,进行巡检工作;2)如因特殊原因,无法及时到达,必须至电客户,预约到达时间,并同步转告服务经理及相关客户人员;3)完成客户巡检,离开客户现场时,需向客户礼貌道别,并简单说明此次巡检的结果及建议;4)不得随意承诺客户时间,而无法达成。
3、服务交付规范:1)服务人员应按标准服务流程完成巡检、故障排除等服务事项;2)服务完毕,保持服务现场整洁、清洁;3)如需更换物料、备件,需口头及书面向客户说明,并征得客户同意;4)如在现场无法完成服务交付,需向客户说明,并告知客户,我司下次会上门服务解决的时间;5)向客户简要说明,此次巡检的结果,以及后续使用建议,并记录客户的相关需求。
4、服务文档填写规范:1)完整填写客户信息栏;2)完整填写客户联系人信息栏;3)完整填写客户设备配置信息栏;4)完整填写设备巡检情况;5)完整填写设备故障排除步骤及方法;6)完整填写遗留问题,并告知服务台进行升级处理;7)完整填写物料、备件更换说明;8)按公司要求,定期呈交服务水平报告。
设备巡检管理手册

设备巡检管理手册1. 引言巡检设备是保证设备正常运行的重要工作之一。
本手册旨在指导和规范设备巡检管理流程,确保设备的安全性和性能。
2. 巡检设备范围巡检设备的范围包括但不限于以下几类设备:- 电气设备:电缆、继电器、开关等;- 机械设备:机床、输送带、风机等;- 控制设备:传感器、控制器、计算机等。
3. 巡检频率设备巡检应根据设备的特点和使用情况来确定巡检频率。
通常情况下,设备巡检应至少每个季度进行一次,而一些关键设备可能需要每月或每周巡检。
4. 巡检内容设备巡检内容应包括以下方面:- 设备外观:检查设备的外观是否完好,是否有损坏或渗漏;- 设备运行状态:检查设备的运行是否正常,是否有异常噪音或震动;- 设备维护:检查设备的维护记录,查看是否按照规定进行了定期保养;- 设备安全:检查设备的安全性,包括防护装置是否完善,是否存在安全隐患。
5. 巡检记录设备巡检应及时记录巡检结果,并将记录保存在相关的巡检记录表中。
巡检记录包括以下信息:- 巡检日期和时间;- 巡检人员;- 巡检设备的名称和编号;- 巡检内容和结果。
6. 异常处理如果在巡检过程中发现设备存在异常情况,应立即采取相应的措施进行处理。
处理措施应根据实际情况来确定,并及时记录下来。
7. 管理评估定期对设备巡检管理流程进行评估,检查是否存在改进的空间,并及时进行调整和完善。
8. 附录- 巡检记录表模板;- 巡检人员培训材料。
以上是《设备巡检管理手册》的主要内容,本手册将为设备巡检提供准确的指导,并帮助保证设备的正常运行和安全性。
根据具体情况,可以在此基础上进行适当的调整和补充。
智能巡检-用户手册
文档修改记录版权所有本产品或文档受版权保护,其使用、复制、发行和反编译均受许可证限制。
未经亿阳及其授权者事先的书面许可,不得以任何形式、任何手段复制本产品及其文档的任何部分。
目录第一章智能巡检系统 (5)1.1概述 (5)1.1.1 功能概述 (5)1.1.2任务配置结构及流程 (6)1.2任务注册管理 (7)1.2.1 元任务管理 (7)1.2.2 元任务组管理 (13)1.2.3 任务管理 (17)1.2.4 方案管理 (22)1.2.5 网元组管理 (25)1.3任务执行 (30)1.3.1 立即执行 (30)1.4分配任务 (31)1.5结果管理 (33)1.6.1 结果查询 (34)1.6.2 统计报表 (40)1.6.3 结果处理 (43)第一章智能巡检系统1.1概述1.1.1 功能概述智能巡检系统由任务管理系统和 Scheduler 工具结合起来实现对通讯网络相关设备进行监控和管理的软件系统。
其中任务管理系统主要实现对任务、任务所涉及到的相关网元、任务的执行时间、 Scheduler 交互接口等相关参数的配置,并实现对任务执行结果的查看和处理等工作;Scheduler工具通过读取任务配置信息并调用任务脚本来执行网元相关信息检测。
通过智能巡检系统,网络管理员或相关操作人员可以进行任务注册管理、任务执行设置、巡检任务分配、任务结果处理等操作。
任务注册管理,用于对系统任务进行创建、查询、修改、删除等操作,其中包括元任务管理、元任务组管理、任务管理、方案管理、网元组管理等子功能模块。
如图1-1-1-1所示。
图1-1-1-1任务执行设置,主要用于手工启动某任务的执行,并在启动前进行任务相关元素进行配置。
如图1-1-1-2所示。
图1-1-1-2巡检任务分配,用于管理员对任务的分配情况进行设置、修改、查询等管理操作。
如图1-1-1-3所示。
图1-1-1-3结果管理,提供查看任务的执行情况、统计任务的执行情况、处理任务的执行情况等功能。
巡检系统简易操作手册
巡检系统简易操作手册目录一、巡检后台软件设置流程(分5步): .......................... 错误!未定义书签。
【第1步】部门人员设置 .................................................... 错误!未定义书签。
【第2步】巡检点设置 ........................................................ 错误!未定义书签。
【第3步】巡检项目设置 .................................................... 错误!未定义书签。
【第4步】巡检路线设置 .................................................... 错误!未定义书签。
【第5步】巡检计划设置 .................................................... 错误!未定义书签。
二、手机APP操作步骤(分6步): ................................. 错误!未定义书签。
【第1步】下载安装 ............................................................ 错误!未定义书签。
【第2步】网络地址设置、下载基础数据 ........................ 错误!未定义书签。
【第3步】功能主界面 ........................................................ 错误!未定义书签。
【第4步】初始化电子标签(由管理员操作) ................ 错误!未定义书签。
【第5步】开始巡检 ............................................................ 错误!未定义书签。
巡检管理用户使用手册
五凌电力有限公司集中式生产管理系统巡检管理模块使用手册2012.5第一章巡检管理模块使用手册 (2)1.1用户登录 (3)1.2数据查询.................................................................... 错误!未定义书签。
1.3巡检设备 (4)1.3.1用户角色 (4)1.3.2过程 (4)1.3.2.1进入巡检设备页面 (4)1.3.2.2新增巡检设备 (5)1.3.2.3新增巡检项目 (5)1.4路线区域 (6)1.4.1用户角色 (7)1.4.2过程 (7)1.4.2.1进入路线区域管理页面 (7)1.4.2.2新增区域 (7)1.4.2.3巡检设备变更到其他区域 (7)1.5工作岗位 (8)1.5.1用户角色 (8)1.5.2过程 (8)1.5.2.1进入工作岗位管理页面 (8)1.5.2.2新建班次 (8)1.5.2.3任务配置 (9)1.6查看巡检结果 (11)1.6.1用户角色 (11)1.6.2过程 (11)1.6.2.1进入查看巡检结果管理页面 (11)1.6.2.2组合查询巡检结果 (11)1.7查看巡检项目结果 (11)1.7.1用户角色 (12)1.7.2过程 (12)1.7.2.1进入查看巡检结果管理页面 (12)1.7.2.2组合查询巡检项目 (12)第一章巡检管理模块使用手册巡检管理是电厂运行管理中的一项重要日常管理工作,通过运行人员对设备的日常巡回检查工作,检查设备的运行情况,及时找出设备安全运行隐患。
在巡检管理过程中,将巡检工作标准化、规范化,确保巡检工作质量和巡检“到位率”,提高巡检人员的工作效率,有效防止设备劣化。
巡检管理在本系统中主体流程是这样的,首先建立需要巡检的设备和设备包含的巡视项目,下一步建立巡检区域,把设备关联到区域中去,一个设备关联一个区域,一个区域包含多个设备。
最后一步建立巡检班次,把区域和设备配置到具体的班次里面,并指定巡检周期,这样系统就根据配置情况产生各班次的巡检任务。
HDS 存储巡检手册
关RKHE组件和RKA/RKAAT组件的电源模块的开关。
若切断电源供电超过24小时,必需在正常关机并确认Cache Power灯不亮后,关备份电池的开关Backup Battery Switch。实施本步骤之前,请预先知会HDS公司。
HDS存储巡检手册
第
一
一
一
一
一
磁盘RKHE和RKA/RKAAT组件前面的指示灯和开关功能如下:
Name
Function
ALARM LED(Red)
Indicates that a failure has occurred which makes the subsystem inoperable.
WARNINGLED(Orange)
Indicates that a failure occurred, but the subsystem is currently operational.
READY LED (Green)
Indicates that the subsystem is operational.
POWER LED(Green)
若客户发现磁盘系统运行异常,包括蜂鸣报警、指示灯异常、操作系统磁盘访问异常等。检查并记录面板指示灯、磁盘指示灯、控制器指示灯、ENC/SENC指示灯等信息。
第
二
确认主机已停止对磁盘系统的访问。
按RKHE组件前面的Main switch off开关,磁盘系统将顺序下电。设备下电完成后,RKHE组件和RKA/RKAAT组件的POWER指示灯都不亮。
(2) 观察 USP系统风扇及空气过滤网是否积尘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是"轨表"(tracked tables):是指启用了flashback archive特性的表。
RMSn
说明: The Oracle RAC management processes,负责执行Oracle RAC的管理任务,比如RAC相关资源的创建和集群中新实例的
ARCH(Archive Process)用于将重做日志的事物变化复制到归档日志中,该后台进程只有在archivelog模式下才有意义。
Oracle 11g新增的后台进程
DBRM
说明:数据库资源管理进程(The database resource manager process),负责设置资源计划和其他的资源管理的工作.
lock process(LCK)锁管理进程
DIAG:DIAGNOSABILITY DAEMON失败进程的诊断信息捕获进程
Operating System-Dependent(OSD)操作系统资源访问进程
LMS - Gobal Cache Service Process全局缓存服务进程
LMD - Global Enqueue Service Daemon全局查询服务守护进程
添加。
DSKM
说明: The slave diskmon process,负责oracle实例、asm实例和磁盘的管理进程之间的io fencing信息的交换。如果
使用SAGE的存储,该进程还负责SAGE存储的一些信息的管理。
RAC进程
GSD global services daemon全局服务守护进程
查看日志
命令:
More/u01/app/oracle/product/11.2.0/db_1/network/log/sqlnet.log
有错误才有日志
Tnsname
配置情况
标准配置
位置:/u01/app/oracle/product/11.2.0/db_1/network/admin
运行情况
正常
查看状态
Tnsping tnsname(数据库实例名)
Alert
配置情况
标准配置
/u01/app/oracle/diag/rdbms/<SID>/<INSTANCE>/trace/alert_sid.log
运行情况
正常
More alert_sid.log
CRS
服务运行情况
crsctl check crs
检查crs的健康情况
使用情况
# su - grid
$ asmcmd
ASMCMD> ls
DIAG
说明:数据库诊断进程(The diagnosibilityprocess),负责维护管理各种用于诊断的转储文件,并执行oradebug命令。
DIA0
说明:另一个数据库诊断进程,负责检测Oracle数据库中的挂起(hang)和死锁的处理。
PSP0
说明: process spawner,用于产生oracle进程
PMON(ProcessMonitor)用于监视服务器进程的执行,摒弃在服务器进程失败时清除该服务器进程。
DBWR(Database Writer)用于将数据库缓存的脏缓冲区数据写入到数据文件中。
LGWR(Log Writer)用于将重做日志缓冲区所记载的全部内容写入到充作日志文件中。
CKPT(Checkpoint Process)用于发出检查点(Checkpoint),检查点会同步数据库的数据文件、控制文件和重做日志,当发出检查点时,后台进程CKPT将检查点时刻的SCN(System Change Number)写入到控制文件和数据文件头部,同时促使后台进程DBWR将所有脏缓冲区写入到数据文件中。
资源运行情况
crs_stat–t
用来查看RAC中各节点上resources的运行状况,Resources的属性等
OCR
运行情况
ocrcheck
验证OCR的状态以及空间使用情况
Voting
Disk
运行情况
crsctl query css votedisk
Votingdisk状态查询
ASM
运行情况
crs_stat -t | grep asm
LMON-Global Enqueue Service Monitor全局查询服务监视进程
LCK0 - Instance EnqueueProcess实例查询进程
进程状态
Space
使用情况
df -h
Listener
监听状态
命令:lsnrctl status
配置正常
运行情况
命令:sqlplus“/as sysdba”
reference-time counter,看起来有点类似计时器的功能。
GMON
说明:用于维护asm磁盘组的磁盘之间的关系。
KATE
说明:当ASM的磁盘离线的时候,该进程负责asm的元文件的io读写。
MARK
说明:如果有向asm离线磁盘的missed写请求,该进程将ASM分配的单元的状态标据库检测
硬件机型
HP DL580 G7
是否集群
是
系统实际用户数
10
数据库进程
进入操作系统,登陆Oracle用户,命令:su - oracle
Process
进程情况
进入操作系统,登陆Oracle用户
命令:ps -ef|grep ora_
说明
Oracle 10g后台进程
SMON(System Monitor)用于执行历程恢复、合并空间碎片并释放临时段。
FBDA
说明:涉及到flashback-data-archive新特性的一个进程,The flashback data archiver proces。用于将"轨表"(tracked
tables)的历史数据进行归档。当"轨表"上的事务提交以后,fbda进程负责将数据的前镜像保存到flashback archive区域。
SMCO
说明: space management coordinator,该进程负责空间管理协调管理工作,负责执行空间的分配和回收。
Wnnn
说明:命名为W000,W001,W002.....,由smcO动态产生执行上述相关任务。
VKTM
说明: virtual keeper of time,用于提供wall-clock time,(每秒钟更新一次)。提供每二十毫秒更新一次的