运维服务工具应用情况说明书

合集下载

华为云应用运维管理(AOM) 1.10.0 用户指南说明书

华为云应用运维管理(AOM) 1.10.0 用户指南说明书

应用运维管理(AOM) 1.10.0用户指南文档版本02发布日期2023-04-30版权所有 © 华为云计算技术有限公司 2023。

保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。

除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。

除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为云计算技术有限公司地址:贵州省贵安新区黔中大道交兴功路华为云数据中心邮编:550029网址:https:///目录1 快速入门 (1)1.1 AOM使用流程 (1)1.2 安装ICAgent (2)1.3 创建告警规则并查看 (3)2 用户指南 (7)2.1 概述 (7)2.2 监控总览 (9)2.3 仪表盘管理 (17)2.3.1 创建仪表盘 (17)2.3.2 设置全屏模式在线时长 (23)2.3.3 统计图表说明 (24)2.4 告警管理 (30)2.4.1 告警规则 (31)2.4.1.1 概述 (31)2.4.1.2 创建指标告警规则 (31)2.4.1.3 创建告警模板 (40)2.4.1.4 创建事件告警规则 (43)2.4.1.5 管理告警规则 (45)2.4.2 查看告警 (46)2.4.3 查看事件 (47)2.4.4 告警行动规则 (48)2.4.4.1 概述 (48)2.4.4.2 创建告警行动规则 (48)2.4.4.3 创建消息模板 (50)2.5 容器洞察 (53)2.5.1 工作负载监控 (53)2.5.2 集群监控 (54)2.6 指标浏览 (55)2.7 基础设施监控 (57)2.7.1 应用监控 (57)2.7.2 组件监控 (58)2.7.3 主机监控 (60)2.8 Prometheus监控 (62)2.9 日志分析 (62)2.9.1 搜索日志 (62)2.9.2 查看日志文件 (64)2.9.3 配置虚机日志采集路径 (66)2.9.4 添加日志转储 (68)2.9.5 接入LTS (71)2.9.5.1 概述 (71)2.9.5.2 管理接入规则 (74)2.10 配置管理 (76)2.10.1 ICAgent管理 (76)2.10.1.1 安装ICAgent (76)2.10.1.2 升级ICAgent (80)2.10.1.3 卸载ICAgent (80)2.10.2 日志配置中心 (82)2.10.2.1 设置日志配额 (82)2.10.2.2 配置分词 (82)2.10.3 数据订阅 (85)2.10.4 配置应用发现 (89)2.10.5 接入管理 (93)2.10.5.1 概述 (93)2.10.5.2 将Prometheus的数据上报到AOM (94)2.10.5.3 通过grafana查看AOM中的指标数据 (95)2.11 相关说明 (99)2.11.1 标签和标注 (99)2.11.2 普罗语句说明 (100)2.11.3 时间范围和统计周期的关系 (103)3 常见问题 (105)3.1 如何处理界面“ICAgent状态”为“离线”的问题 (105)3.2 如何获取AK/SK (106)3.3 资源运行异常怎么办? (106)3.4 没有消息通知服务的访问权限? (108)3.5 如何区分告警和事件? (108)3.6 AOM展示的日志是否为实时日志? (108)3.7 应用状态正常,应用下的组件状态异常,状态不一致是什么原因? (109)4 最佳实践 (110)4.1 应用发现最佳实践 (110)5 错误码参考 (113)5.1 监控模块错误码 (113)5.1.1 SVCSTG.INV.4030000 inv服务鉴权失败 (113)5.1.2 SVCSTG.INV.4000103 参数资源集ID校验失败 (113)5.1.3 SVCSTG.ALERT.4033000 接口鉴权失败 (114)5.1.4 SVCSTG.ALERT.2001 接口参数校验失败或异常 (114)5.1.5 SVCSTG.ALERT.2002 清除告警接口异常 (115)5.1.6 SVCSTG.ALERT.5002001 查询告警类型接口错误 (115)5.1.7 SVCSTG.ALERT.4000429 清除告警接口请求受限 (115)5.1.8 SVCSTG.ALERT.3001000 参数校验失败 (115)5.1.9 SVCSTG.INV.5000000 服务异常 (116)5.1.10 SVCSTG.INV.5000001 ES服务异常 (116)5.1.11 SVCSTG.INV.4000115 发现规则接口参数校验失败 (116)5.1.12 SVCSTG.INV.4000116 规则id或pid校验失败 (122)5.1.13 SVCSTG.INV.4000117 biztype或ids校验失败 (123)5.1.14 SVCSTG.INV.4000118 添加或者修改资源标签别名接口参数校验失败 (123)5.1.15 SVCSTG.INV.5000002 获取集群资源或查询应用发现规则服务异常 (123)5.1.16 SVCSTG.INV.5000003 同步应用发现规则到ICMGR服务失败 (124)5.1.17 SVCSTG.INV.5000004 新增标签时服务异常 (124)5.1.18 SVCSTG.INV.5000005 同步应用发现规则到ICMGR服务时服务异常 (124)5.1.19 SVCSTG.INV.5000007 自定义规则达到上限 (125)5.1.20 SVCSTG_AMS_4000101 指标查询请求参数不合法 (125)5.1.21 SVCSTG_AMS_4000102 inv请求参数不合法 (126)5.1.22 SVCSTG_AMS_4000103 period等参数校验失败 (126)5.1.23 SVCSTG_AMS_4000104 statistics等参数校验失败 (127)5.1.24 SVCSTG_AMS_4000105 metrics等参数校验失败 (127)5.1.25 SVCSTG_AMS_4000106 timerange等参数校验失败 (128)5.1.26 SVCSTG_AMS_4000107 参数校验失败 (129)5.1.27 SVCSTG_AMS_4000109 metricName等参数校验失败 (129)5.1.28 SVCSTG_AMS_4000110 fillValue等参数校验失败 (130)5.1.29 SVCSTG_AMS_4000111 start参数校验失败 (130)5.1.30 SVCSTG_AMS_4000112 alarm_id等参数校验失败 (131)5.1.31 SVCSTG_AMS_4000115 阈值规则相关接口参数校验失败 (131)5.1.32 SVCSTG_AMS_4000118 新增阈值规则请求evaluationPeriods等参数校验失败 (132)5.1.33 SVCSTG_AMS_4000119 查询阈值规则请求statistic参数校验失败 (133)5.1.34 SVCSTG_AMS_4000120 新增阈值规则请求comparisonOperator参数校验失败 (133)5.1.35 SVCSTG_AMS_4000121 修改阈值规则接口参数校验失败 (133)5.1.36 SVCSTG_AMS_4030000 AMS服务鉴权失败 (134)5.1.37 SVCSTG_AMS_5000000 ams-metric/ams-access服务内部错误 (134)5.1.38 SVCSTG_AMS_5030001 Cassandra服务内部错误 (135)5.1.39 SVCSTG.AMS.2000051 鉴权失败 (135)5.1.40 SVCSTG.AMS.2001000 新增或者修改阈值规则接口actionId等参数校验失败 (136)5.1.41 SVCSTG.AMS.2000001 Cassandra或服务内部异常 (136)5.1.42 SVCSTG.AMS.5011300 内部服务错误 (136)5.1.43 SVCSTG.AMS.2000002 部分成功 (137)5.1.44 SVCSTG.AMS.2001135 操作阈值规则相关接口参数校验失败 (137)5.1.45 SVCSTG.AMS.2001613 阈值规则重名 (138)5.1.46 SVCSTG.AMS.2001601 阈值规则不存在 (138)5.1.47 SVCSTG.AMS.2001604 服务内部错误 (139)5.1.48 SVCSTG.AMS.4010000 视图模板接口鉴权失败 (139)5.1.49 SVCSTG_AMS_4000001 上报的数据结构体为空 (140)5.1.50 SVCSTG_AMS_4000002 namespace参数校验失败 (140)5.1.51 SVCSTG_AMS_4000003 Dimensions参数校验失败 (141)5.1.52 SVCSTG_AMS_4000005 type参数校验失败 (141)5.1.53 SVCSTG_AMS_4000006 value参数校验失败 (141)5.1.54 SVCSTG_AMS_4000007 dimensions中的name或者value 参数校验失败 (142)5.1.55 SVCSTG_AMS_4000008 请求参数体长度校验失败 (142)5.1.56 SVCSTG_AMS_4000009 dimensions数量校验失败 (143)5.1.57 SVCSTG_AMS_4000010 collect_time参数校验失败 (143)5.1.58 SVCSTG.PE.4011001 PE接口鉴权失败 (144)5.1.59 SVCSTG.PE.4011003 权限不足 (144)5.1.60 SVCSTG.PE.4031014 帐号冻结或暂停 (145)5.1.61 SVCSTG.PE.4031002 应用不存在 (145)5.1.62 SVCSTG.PE.5003007 查询数据库失败 (146)5.1.63 SVCSTG.PE.4005003 策略组名称重复 (146)5.1.64 SVCSTG.PE.4031012 用户projectId不匹配 (146)5.1.65 SVCSTG.PE.4291004 接口负载过高 (147)5.1.66 SVCSTG.PE.5003006 创建调度任务失败 (147)5.1.67 SVCSTG.PE.5001201 存储记录失败 (147)5.1.68 SVCSTG.PE.5001202 查询指定记录失败 (148)5.1.69 SVCSTG.PE.5001203 查询记录失败 (148)5.1.70 SVCSTG.PE.5001204 更新记录失败 (148)5.1.71 AOM.04001401 查询数据订阅规则认证失败 (148)5.1.72 AOM.04001500 查询数据订阅规则时ES集群异常 (149)5.1.73 AOM.04002401 创建数据订阅规则认证失败 (149)5.1.74 AOM.04002002 规则条数达到上限 (149)5.1.75 AOM.04002500 创建数据订阅规则时ES集群异常 (150)5.1.76 AOM.04002003 创建数据订阅时规则名称已存在 (150)5.1.77 AOM.04003002 修改数据订阅时规则名称已存在 (150)5.1.78 AOM.04003500 修改数据订阅规则时ES集群异常 (151)5.1.79 AOM.04003401 修改数据订阅规则认证失败 (151)5.1.80 AOM.04004401 验证数据订阅规则中kafka配置认证失败 (151)5.1.81 AOM.04004002 验证数据订阅规则可用性,连接自定义kafka失败 (152)5.1.82 AOM.04004500 验证数据订阅规则时ES集群异常 (152)5.1.83 AOM.04006403 删除数据订阅规则认证失败 (152)5.1.84 AOM.04004403 验证数据订阅规则实例连通性认证失败 (153)5.1.85 AOM.04002403 创建数据订阅规则认证失败 (153)5.1.86 AOM.04006500 删除数据订阅规则时ES集群异常 (153)5.1.87 AOM.0103 阈值规则接口权限不足 (154)5.1.88 AOM.0403 toke鉴权失败 (154)5.1.89 AOM.0503 查询告警或者事件列表时服务异常 (154)5.1.90 AOM.04003001 修改订阅规则时参数校验失败 (155)5.2 日志模块错误码 (155)5.2.1 SVCSTR.ALS.200100 鉴权失败 (155)5.2.2 SVCSTR.ALS.200105 租户projectId鉴权失败 (156)5.2.3 SVCSTR.ALS.200322 参数校验失败 (156)5.2.4 SVCSTR.ALS.200203 日志服务异常 (156)5.2.5 SVCSTR.ALS.200207 内部服务错误 (157)5.2.6 SVCSTR.ALS.200305 添加OBS转储策略失败 (157)5.2.7 SVCSTR.ALS.200306 删除OBS转储策略失败 (157)5.2.8 SVCSTR.ALS.200309 OBS桶授权失败 (157)5.2.9 SVCSTR.ALS.200315 日志路径配置个数超过限额 (158)5.2.10 SVCSTR.ALS.200316 非法的日志采集路径 (158)5.2.11 SVCSTR.ALS.200317 添加日志采集路径到ES数据库失败 (158)5.2.12 SVCSTR.ALS.200318 请求体不合法 (159)5.2.13 SVCSTR.ALS.200322 日志采集路径个数已达上限 (159)5.2.14 SVCSTR.ALS.200500 内部服务错误 (159)5.2.15 SVCSTR.ALS.201403 token鉴权失败 (159)5.2.16 SVCSTR.ALS.403105 租户projectId非法 (160)5.3 ICMGR模块错误码 (160)5.3.1 APM.ICMGR.5000000 服务失败 (160)5.3.2 APM.ICMGR.2001401 鉴权失败 (160)5.3.3 APM.ICMGR.2001405 参数错误 (161)5.3.4 AOM.0101 请求参数无效 (161)5.3.5 AOM.0102 获取agent信息时没有访问权限 (162)1快速入门1.1 AOM使用流程应用运维管理(Application Operations Management,以下简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活的告警及丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。

运维管理系统需求说明书范文

运维管理系统需求说明书范文

运维管理系统需求说明书范文运维管理系统需求说明书1、引言1.1 编写目的本文档旨在详细描述并定义运维管理系统的需求,以便开发团队全面理解系统应具备的功能和性能。

1.2 背景随着互联网的发展,各种规模的企业都需要一个高效的运维管理系统来确保业务的稳定运行和高效维护。

2、需求概述2.1 系统目标运维管理系统的目标是提供一套完整的运维管理解决方案,覆盖服务器监控、应用程序管理、故障处理、日志管理等功能。

2.2 功能需求- 服务器监控:实时监测服务器的运行状态,包括CPU、内存、磁盘等使用情况。

- 应用程序管理:支持对部署在服务器上的应用程序进行版本管理、启动、停止和重启等操作。

- 故障处理:自动检测并对服务器故障进行告警,并提供故障修复的指导。

- 日志管理:记录服务器和应用程序的日志,并提供查看和搜索功能。

- 资源管理:管理服务器和应用程序的配置信息,包括IP地质、端口号、用户名密码等。

2.3 性能需求- 响应时间:系统对请求的响应时间应在1秒以内。

- 并发性能:系统应支持同时处理1000个并发请求。

- 可扩展性:系统应能够方便地扩展和部署。

3、界面设计3.1 登录界面- 用户名输入框- 密码输入框- 登录按钮3.2 首页界面- 左侧菜单栏:包含各个模块的入口。

- 主要内容区域:展示各个模块的概览和重要信息。

3.3 服务器监控界面- 服务器运行状态图表:展示CPU、内存、磁盘使用情况的实时图表。

- 告警信息列表:展示服务器故障的告警信息。

3.4 应用程序管理界面- 应用程序列表:展示已部署的应用程序的基本信息。

- 版本管理:对应用程序的版本进行管理和控制。

3.5 故障处理界面- 故障列表:展示待处理的故障信息。

- 故障修复方案:提供故障修复的指导和建议。

3.6 日志管理界面- 日志列表:展示服务器和应用程序的日志信息。

- 日志搜索功能:支持根据关键词进行日志搜索。

4、数据库设计4.1 用户表- 用户ID- 用户名- 密码4.2 服务器表- 服务器ID- IP地质- 端口号- 用户名- 密码4.3 应用程序表- 应用程序ID - 名称- 版本- 所属服务器ID - 状态5、数据接口5.1 登录接口- 请求URL: /login- 请求方法: POST- 请求参数:- 用户名- 密码- 响应数据:- 成功:用户信息- 失败:错误信息5.2 服务器监控接口- 请求URL: /monitoring- 请求方法: GET- 请求参数: 无- 响应数据: 服务器运行状态信息5.3 应用程序管理接口- 请求URL: /applications- 请求方法: GET- 请求参数: 无- 响应数据: 应用程序列表信息5.4 故障处理接口- 请求URL: /troubleshooting- 请求方法: GET- 请求参数: 无- 响应数据: 故障列表信息5.5 日志管理接口- 请求URL: /logs- 请求方法: GET- 请求参数:- 关键词- 响应数据: 日志列表信息附件:无法律名词及注释:1、服务器监控:监控服务器资源的使用情况,确保服务器正常工作。

软件系统运维手册(完整资料).doc

软件系统运维手册(完整资料).doc

软件系统运维⼿册(完整资料).doc【最新整理,下载后即可编辑】系统运维⼿册1、⽬的 (3)2、适⽤范围 (3)3、服务器及数据库概述 (3)3.1 服务器概述 (3)3.2 数据库概述 (3)4、系统服务程序的详细说明 (4)4.1系统服务程序的构成 (4)4.2 系统服务程序的启动、关闭及维护管理 (4)4.2.1 dhcp主服务 (4)4.2.2 dhcp从服务 (5)4.2.3 web管理模块 (5)5、服务器硬件维护(略) (6)6、windows 2003系统的⽇常维护 (6)6.1 定期检查磁盘空间 (6)6.2 维护系统注册表 (7)6.3 定期备份系统注册表 .....................................................................76.4清理system路径下的⽆⽤的dll⽂件 (7)7、备份策略 (8)7.1 备份⽅式 (8)7.2 备份计划 (8)7.3 常见故障恢复 (8)9、数据库的⽇常维护 (11)9.1 检查数据库的基本状况 (11)9.2 检查数据库⽇志⽂件 (11)9.4监控数据库表空间的使⽤情况(字典管理表空间) (11)9.4.1 判断是否需要碎⽚整理 (11)10、命令解释 (12)1、⽬的楚天⾏消费卡管理系统运营⽀撑系统使⽤的服务器中,服务器均采⽤windows xp操作系统,数据库版本为:sql server 2000,随着业务的开展,sql server 数据库中存储的数据量也不断增⼤,这样操作系统和数据库的⽇常维护就显得⼗分重要。

本⼿册详细描述了程序模块,windows xp操作系统,负载平衡及sql server 数据库等⽇常检查的主要步骤,指导现场⼯程师对其进⾏监控和维护。

2、适⽤范围使⽤者为⽹e通宽带⽹络运营⽀撑系统维护⼯程师3、服务器及数据库概述3.1 服务器概述服务器数量:4台,基本信息如下:3.2 数据库概述数据库软件分别安装在主服务器上。

易维宝智能业务应用运维 管理平台用户使用手册说明书

易维宝智能业务应用运维 管理平台用户使用手册说明书

易维宝智能业务应用运维管理平台用户使用手册V6.0目录1安装部署 (4)1.1如何下载DCS (4)1.2如何安装DCS (4)1发现资源 (4)1.1主机 (5)1.1.1Linux主机 (5)1.1.2Windows主机 (9)1.2Web Server (15)1.2.1IIS (15)1.2.2Apache (21)1.2.3Nginx (28)1.3Application Server (34)1.3.1Jetty (34)1.3.2Tomcat (43)1.4中间件 (52)1.4.1RabbitMQ集群 (52)1.4.2ElasticSearch集群 (57)1.5数据库 (62)1.5.1SQLSERVER (62)1.5.2GBase (67)1.5.3达梦 (74)1.5.4Redis (78)1.5.5PostgreSQL (84)1.5.6Oracle (90)1.5.7MariaDB (94)1.5.8MySQL (100)1.6调整资源模型视图 (103)1.6.1更换模型视图 (104)1.6.2自定义视图 (105)2业务应用创建 (106)2.1创建业务应用 (106)2.1.1填写基本信息 (106)2.1.2填写模块信息 (107)2.2编辑业务应用 (110)2.3删除业务应用 (111)2.4创建架构图 (111)2.4.1布局资源 (111)2.4.2选择监控指标 (113)2.4.3添加关联指标 (114)3首页设置 (115)3.1初始化业务应用总览 (115)3.2添加业务应用 (117)3.3调整资源模型视图 (117)3.3.1监控资源视图 (117)3.3.2首页自定义视图 (118)4告警设置 (119)4.1资源告警配置 (120)4.2编辑资源告警配置 (122)5消息通知设置 (122)5.1企业微信应用消息设置 (122)5.2企业微信群机器人设置 (123)5.3钉钉群通知机器人设置 (123)5.4SMTP邮件设置 (123)5.5第三方接口设置 (123)6账号权限管理 (123)6.1创建角色 (123)6.2创建用户 (125)7运维档案 (126)1安装部署1.1如何下载DCS使用浏览器(Chrome、Edge)打开“智能业务应用运维管理平台”,依次进行如下操作:1)点击进入“系统管理”页面2)点击左侧页签,进入“DCS信息”页面3)点击右下方“下载DCS文件”按钮4)下载自动开始,等待完成1.2如何安装DCS在采集服务器上,依次进行如下操作:1)使用root账号登录服务器,确认可以访问CCS服务器地址,可以使用ping 工具验证。

运维维护记录报告-概述说明以及解释

运维维护记录报告-概述说明以及解释

运维维护记录报告-概述说明以及解释1.引言1.1 概述:运维维护记录报告是指对运维工作过程中的维护和管理情况进行记录和总结的文件。

在企业的运维工作中,维护记录是非常重要的部分,它可以记录下各项维护的具体内容、时间点、责任人等关键信息,有助于维护工作的监督和总结。

通过对维护记录的及时整理和分析,可以更好地了解系统运行情况,提高对问题的排查和解决效率,保障系统的稳定性和安全性。

同时,运维维护记录也是运维团队之间沟通和合作的重要参考依据,能够确保工作的顺利进行。

本报告将对运维维护记录的重要性、内容和格式以及管理与应用等方面进行详细探讨,希望可以为企业运维工作的提升和改进提供一些参考和帮助。

1.2 文章结构文章结构部分的内容包括对整篇文章的布局和框架进行详细说明。

在本篇运维维护记录报告文章中,文章结构主要分为引言、正文和结论三个部分。

在引言部分,我们将首先概述运维维护记录的重要性和作用,介绍本报告的主题和目的。

然后,介绍文章的整体结构和各个部分的内容安排,帮助读者快速了解本文的主要内容和框架。

在正文部分,我们将详细阐述运维维护记录的重要性,包括对企业运营和管理的意义,以及如何有效地记录和管理运维数据。

同时,我们会展示不同类型的运维维护记录的内容和格式,包括日常维护记录、故障处理记录、系统更新记录等。

最后,我们将介绍如何管理和应用这些运维维护记录,提高运维效率和管理水平。

在结论部分,我们将对本文的主要内容进行总结并展望未来的发展方向。

同时,我们将提出一些建议和建议,帮助企业更好地进行运维维护记录,并提高系统的稳定性和安全性。

1.3 目的运维维护记录报告的目的在于记录和总结系统日常维护和运作的情况,以便后续查阅和分析。

通过定期更新和维护这些记录,可以帮助管理者和技术人员更好地监控系统的健康状况,及时发现和解决问题,提高系统的稳定性和可靠性。

同时,这些记录也是对运维工作的一种总结和反思,可以帮助团队不断改进工作流程和提升效率。

服务器运维管理手册

服务器运维管理手册

XXXX有限公司服务器运维管理手册XXXX有限公司运维服务部2012/8/30一、文档简介 (1)二、文档目的 (1)三、文档范围 (2)四、事件处理流程 (2)五、具体操作说明 (2)1)服务器硬件管理 (2)2)服务器系统管理 (4)1.Windows系统管理 (4)2.Linux系统管理 (4)六、相关文档 (6)一、文档简介本文档根据桑菲消费通信服务器硬件设备与系统应用管理需求,针对日常维护内容进行技术归类于总结,描述具体操作步骤与操作方法,积累服务器事件处理能力,使之服务运维能力更为主动可控。

二、文档目的标准服务器故障处理方法指引,服务器管理知识库积累。

三、文档范围服务器硬件故障判断与标准处理操作服务器系统日常性能检测与标准检测四、事件处理流程五、具体操作说明1)服务器硬件管理1.检查与故障判断:服务器硬件的主动检查方式主要分三种:设备面板指示灯检查硬件系统日志检查第三方工具检查(一)面板指示灯检查IBM服务器上面有,电源指示灯,硬盘/IDE设备活动指示灯,网卡指示灯,系统过热报警灯.硬盘槽还有硬盘指示灯。

HP服务器上面指示灯一般为UID,内部和外部健康灯,其他就是电源网口灯了,DELL的机种有的上面有风扇,内存,CPU,指示灯情况,图标都是很直观的,其它服务器与IBM,HP的差不多。

图示说明详细描述:(二)系统日志检查(三)第三方检测工具检查相关图解:进入诊断网页,在第一选项卡Survey中,上部有2个下拉项,左侧选择Advanced,右侧选择All,会显示出更多硬件信息,点击右下的Save按钮保存。

此界面可以看到服务器所有硬件信息。

2.硬件设备变更操作标准:判断并确定最快恢复时间判断是否有做冗余设置判断是否需要关机操作磁盘设备检测并确定阵列信息,确定有做数据备份是否对其它关联应用有影响制定回退方案,保证数据与应用的可用性设备变更操作设备兼容性测试应用系统运行测试设备变更后正式应用3.相关巡检记录单:备注:《服务器信息列表》 《服务器指示灯巡检表》2) 服务器系统管理服务器系统管理主要分为:Windows 系统管理 Linux 系统管理1. Windows 系统管理1.1. 磁盘空间使用计算机管理——磁盘管理磁盘空间使用率是否已经到达80% 1.2. 进程监控任务管理器-—进程查看进程的CPU 使用率和内存使用率是否超阀值 1.3. CPU 性能任务管理器——性能查看CPU 最高峰值与一般使用率是否超阀值 1.4. 内存性能任务管理器——性能查看内存最高峰值与一般使用率是否超阀值1.5. 网络查看任务管理器——联网检查是否能正常访问站点页面1.6. 日志记录错误报警信息 --应用程序日志由应用程序或者系统程序记录的事件 --安全性日志查看有效和无效的登录尝试事件,以及资源使用相关的事件 —-系统日志Windows 系统组件记录的事件2. Linux 系统管理1.1. 平均负载(uptime )描述:uptime命令过去只显示系统运行多久.现在,可以显示系统运行多久、当前有多少的用户登录、在过去的1,5,15分钟里平均负载时多少。

应用系统运维服务方案

应用系统运维服务方案

应用系统运维服务方案运维服务目标及服务范围服务目标我公司提供专业的应用系统软件运维服务,可进一步加强XXX法院应用系统软件运行维护,对应用软件运行维护流程提供先进的管理理念与流程,并通过专业的技术支持为运行维护工作提供专业的技术平台,可以满足多种应用运行环境稳定的要求,可以满足系统高效、可靠和安全运行的要求,可以满足运行系统统一管理、及时的故障恢复的要求,可以保证XXX法院构建的应用系统正常运行,满足省级应用系统的建设需要,达到高效、稳定、安全和高扩展性的要求,为实现省本级信息化建设的可持续发展奠定基础。

服务范围本次应用系统软件服务的范围包括XXX法院正在运行的应用系统软件,软件主要有行政办公类软件、案件信息管理类软件、司法公开类软件。

行政办公类软件主要有机关办公系统、内网网站系统、公文管理系统、人事管理系统、物资装备管理系统、档案管理系统、公共信息发布、电子签章系统等应用软件系统。

案件信息管理类软件主要有各级法院开发使用的信访管理系统、案件信息管理系统、数字审委会管理系统、开庭公告管理系统、司法统计系统、审判质量评查等软件系统。

司法公开类软件主要有裁判文书公开网系统、审批流程公开网系统、执行信息公开网系统、庭审直播等应用系统。

运维服务要求运维服务流程1、技术人员现场值守运行维护的基本操作流程如下图所示:2、定期巡检结合故障现场运行维护服务操作流程如下图所示:运维服务人员要求驻场服务:我公司安排专业软件运维技术人员在服务期间驻现场服务,负责XXX法院正在运行的应用系统软件,软件主要有行政办公类软件、案件信息管理类软件、司法公开类软件系统日常运行维护和技术支持工作,保障应用系统的正常稳定运行。

驻场基本服务内容(1)掌握XXX法院目前运行的所有应用系统软件运行情况;(2)掌握XXX法院目前运行的所有应用系统部署情况;(3)掌握XXX法院目前运行的所有应用系统常见问题情况;(4)建立XXX法院目前运行的所有应用系统软件各种故障的恢复流程及应急措施;(5)建立XXX法院目前运行的所有应用系统软件日常检查记录;(6)建立XXX法院目前运行的所有应用系统软件运维工作日志台账进行记录;(7)建立XXX法院目前运行的所有应用系统软件更新操作记录;(8)形成每日巡视制度,对XXX法院机房中相关应用系统人员进出维护进行记录。

视频云平台运维管理系统使用说明书

视频云平台运维管理系统使用说明书

目录
使用说明书
全部服务 集群 新增 集群 修改资源 升级 集群
管理 服务用户 备份管理 网络 新增服务多网映射 新增接入多网映射 新增运维多网映射 资源 资源纳管
纳管资源 修改
单个修改 批量修改 安装代理 资源监控 资源管理 新增资源 修改资源 管理磁盘 管理本地磁盘 挂载网络磁盘 查看资源清单 检测网络 诊断网络
常见图标
图标 、
说明 刷新图标。 单击该图标,刷新当前界面、列表等。 下拉框。 单击该图标,可显示下拉菜单。 文本框。 可输入数字、字母等。
图标 、、


使用说明书
说明
搜索框。
输入关键字,单击 或者按【 】键,可快速搜索到所需的信息。
支持模糊搜索。
折叠图标。
单击该图标,可展示隐藏的信息、配置项等,此时图标变为
使用说明书
第 章 系统简介
使用说明书
系统概述
视频云平台运维管理系统(以下简称“运维系统”)为满足大华视频云基线产品的统一安装部 署、升级、扩容和运行管理需求,提供了 层硬件服务、 层开源云计算框架服务、 层 业务服务的状态监控和管理,同时支持半自动修复异常服务。 运维系统致力于成为一个智能化运维平台,主要具备以下产品亮点: ● 通过视频云平台运维管理系统,开发人员能够方便地管理基础设备的网络与存储,并对其进
表示已使能。
选择框。
单击该图标,可选择对应的配置项。 表示已选中。
关闭图标 按钮。 单击该图标,可关闭窗口。
确定按钮。 单击该图标,保存当前页面所做的修改。
取消按钮。
单击该图标,取消保存当前页面所做的修改,并返回上级菜单。
使用安全须知
使用说明书
下面是关于产品的正确使用方法、为预防危险、防止财产受到损失等内容,使用设备前请仔细 阅读本说明书并在使用时严格遵守,阅读后请妥善保存说明书。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

运维服务工具应用情况说明
编制:
审核:
****公司
二〇一四年一月
所有:****公司。

保留所有权利。

目录
序言 (3)
一、运维管理类工具的应用情况 (3)
1.1 400客服故障业务受理系统 (3)
1.1.1系统业务介绍 (3)
1.1.2系统功能及原理 (4)
1.2 知识库管理工具 (5)
1.2.1系统业务介绍 (5)
1.2.2系统功能介绍 (5)
二、监控、系统维护类工具的应用情况 (6)
2.1指挥调度系统监控平台 (6)
2.2硬件系统监控工具 (7)
2.3程控交换机维护工具 (7)
三、其他运维及故障检测工具 (7)
3.1示波器 (7)
序言
****公司产品广泛应用于****单位的指挥中心,提供特服的受理及后期处理平台,由于行业的特殊性,系统的稳定性、安全性及持续运行能力尤其重要,而且随着业务发展,特服受理系统的涉及围越来越官方,对信息化的依赖程度越来越高,对系统的稳定性、维护能力也提出了更高的要求。

正是在这种情况之下,特服指挥调度系统的运行维护管理引起了公司的关注,同时也认识到一个好的运维系统需要好的运维工具支持,公司先后组建了运维工具开发团队及系统产品监控、维护工具开发团队,针对客户管理、系统故障受理系统、系统监控及系统维护等软硬件平台进行部署及开发,先对目前运维服务工具的应用情况进行说明。

一、运维管理类工具的应用情况
运维、管理类工具目前公司主要是利用400客服故障业务受理系统完成。

1.1400客服故障业务受理系统
1.1.1系统业务介绍
“400客服故障业务受理系统”主要完成公司负责承建的各类系统在运行过程中出现的故障申报的业务受理系统,该系统通过硬件及软件实现对客户的受理、处理、反馈、跟踪功能,并为客户提供7×24小时不间断服务,系统主要组成包括以下部分:
1)故障业务排队接入受理系统
2)后台业务流转通信平台
3)故障受理、登记系统
4)二级分配、处理系统
5)数字录音录时子系统
6)查询、统计、分析系统
7)用户处理情况回访系统
8)故障业务跟踪系统
1.1.2系统功能及原理
1、故障业务排队接入受理系统
故障业务受理子系统是应运维系统的门户和语音呼入呼出的通道,其稳定性和可靠性以及系统的接入速度应该作为设计的重点来考虑。

2、后台业务流转通信平台
后台业务流转通信平台是400客户故障受理系统的核心平台之一,所有消息流及数据的流转均需要通过该平台进行传送,因此公司将该平台设计为热备份系统,已保证系统的稳定及客户服务的不间断性。

3、故障受理、登记系统
客户报障呼入后,系统将自动分配至空闲座席,受理人员接通客户后,系统将自动弹出相应的受理单,受理单中的报障人呼入及录音号将自动填写如受理单。

受理人在询问客户基本信息及故障情况后进行受理单的录入,包括故障种类、故障情况、发生时间等等,如受理人员能够在中当场为客户解决故障的,则受理人员需在系统中填写相应的反馈容,包括处理方法、处理结果等信息,如受理人员无法即时解决的,则通过二级分配、处理系统将该受理单发送至二级受理部门,二级受理部门包括客服中心、项目履行部、开发部等。

4、二级分配、处理、反馈系统
一级受理人员在接收到客户的报障并进行登记后,如不能在第一时间为客户排除故障的,则需要根据具体情况将报障记录通过二级分配系统分配至其他相关部门,由其他部门根据报障单的容进一步与客户进行沟通,判断故障的原因及处理,如有必要则需安排人员携带相关备品备件至用户现场进行维修,在处理完毕后需通过二级反馈系统进行及时的处理情况反馈。

二级系统包括系统登录、业务单接收、业务单反馈等功能。

1.2知识库管理工具
1.2.1系统业务介绍
➢知识库使信息和知识有序化,是知识库对组织的首要贡献建立知识库,必定要对原有的信息和知识做一次大规模的收集和整理,按照一定的方法进行分类保存,并提供相应的检索手段。

经过这样一番处理,大量隐含知识被编码化和数字化,信息和知识便从原来的混乱状态变得有序化。

这样就方便了信息和知识的检索,并为有效使用打下了基础。

➢知识库加快知识和信息的流动,有利于知识共享与交流
知识和信息实现了有序化,其寻找和利用时间大大减少,也便自然加快了流动,使有效的知识能够迅速传遍整个企业,这就使人们获得新信息和新知识的速度大大加快。

➢知识库还有利于实现组织的协作与沟通
公司的知识库可将员工的建议存入,员工在工作中解决了一个难题或发现了处理某件事更好的方法后,可以把这个建议提交给一个由专家组成的评审小组,评审小组对这些建议进行审核,把最好的建议存入知识库,知识库中注明建议者的,以保证提交建议的质量,并保护员工提交建议的积极性。

➢知识库可以帮助企业实现对客户知识的有效管理
运维部门的信息管理一直是比较复杂的工作,一般老的运维人员拥有很多宝贵的信息,但随着他们负责项目的转变或工作的调动,这些信息和知识便会损失。

因此,知识库的一个重要容就是将运维项目的所有信息进行保存,以方便新的运维人员随时利用。

1.2.2系统功能介绍
知识库系统中包含了知识地图、我的订阅、我的知识、知识排行、全文检索、知识管理等分支容。

各分支模块中主要功能:
➢知识地图
➢我的订阅
➢我的知识
➢知识排行
➢全文检索
➢知识管理
二、监控、系统维护类工具的应用情况
2.1指挥调度系统监控平台
在系统中建立完善的监控体系,便于对整个系统进行管理和维护。

提供良好的人机管理界面,能够迅速定位故障结点,应用程序提供完整的故障日志,以便及时发现故障并进行快速维护排除故障;
公司为了便于客户及客服人员能够及时了解系统运行情况,判断系统故障所在,是系统故障能够得到及时、准确的处理,缩短系统的故障时间,在系统架构中开发了监控平台,监控平台的监控围涵盖了系统的主要核心部分及终端部分,系统中的某一环节一旦出现故障,监控系统将会对相关故障部分做出报警提示,并初步判断故障的原因。

监控系统主要包括以下部分容:
1、系统鉴权登录部分
完成授权系统管理、监控员的登录,由于监控系统可对系统的运行服务进行控制,因此要求必须有维护权限的操作员方可登录该系统
2、系统核心设备及软件监控部分
特服呼叫指挥中心的核心系统包括数字程控排队交换机、数据库、后台通信平台等,这些核心系统一旦出现故障将严重影响系统的稳定性,
监控系统可分类对核心系统进行即时监控。

另系统中如果增加了核心部件的备份或业务分担冗余节点,在监控系统中也可以增加对这些冗余节点的监控,确保冗余节点的可用性,避
免造成即使有备用系统,但在主用系统出现故障是,备用系统无法接替
主用系统工作的现象。

3、系统性能监控及告警
监控系统可对平台所有的服务器及终端设备进行性能监控,包括CPU、存、硬盘等的使用情况监控,并针对不同的应用设定不同的告警阈
值,当系统运行过程中监控组件超过阈值后系统即产生告警,告知系统
维护人员关注,告警界面如下图所示:
4、后台通信平台监控
5、系统服务控制
系统一旦发生故障后,维护人员如判断为终端服务出现故障,或其他系统故障可通过重启计算机服务来解决的,则可以利用系统监控平台
及时对故障终端进行服务的控制,停止或重新启动相应的服务,以达到
解决故障的目的。

2.2硬件系统监控工具
公司生产的部分硬件产品中增加了故障告警判断、搜集及发送模块……
2.3程控交换机维护工具
排队程控交换机作为公司的核心产品……
1、线路连接状态的跟踪及告警
2、信令跟踪
3、历史数据查询
三、其他运维及故障检测工具
3.1示波器
公司配备了电子示波器,用于对排队程控交换机、联动控制设备等系统硬件设备进行故障检测及判断的辅助工具。

公司在系统运维、故障监控及故障处理中应用了大量的硬件及软件辅助工具,规了客户故障申报的处理、跟踪过程,增强了系统运行的稳定性、故障预判能力、故障及时处理能力,提高了客户的满意度。

相关文档
最新文档