运维管理系统需求说明书

合集下载

华为云应用运维管理(AOM) 1.10.0 用户指南说明书

华为云应用运维管理(AOM) 1.10.0 用户指南说明书

应用运维管理(AOM) 1.10.0用户指南文档版本02发布日期2023-04-30版权所有 © 华为云计算技术有限公司 2023。

保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。

除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。

除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为云计算技术有限公司地址:贵州省贵安新区黔中大道交兴功路华为云数据中心邮编:550029网址:https:///目录1 快速入门 (1)1.1 AOM使用流程 (1)1.2 安装ICAgent (2)1.3 创建告警规则并查看 (3)2 用户指南 (7)2.1 概述 (7)2.2 监控总览 (9)2.3 仪表盘管理 (17)2.3.1 创建仪表盘 (17)2.3.2 设置全屏模式在线时长 (23)2.3.3 统计图表说明 (24)2.4 告警管理 (30)2.4.1 告警规则 (31)2.4.1.1 概述 (31)2.4.1.2 创建指标告警规则 (31)2.4.1.3 创建告警模板 (40)2.4.1.4 创建事件告警规则 (43)2.4.1.5 管理告警规则 (45)2.4.2 查看告警 (46)2.4.3 查看事件 (47)2.4.4 告警行动规则 (48)2.4.4.1 概述 (48)2.4.4.2 创建告警行动规则 (48)2.4.4.3 创建消息模板 (50)2.5 容器洞察 (53)2.5.1 工作负载监控 (53)2.5.2 集群监控 (54)2.6 指标浏览 (55)2.7 基础设施监控 (57)2.7.1 应用监控 (57)2.7.2 组件监控 (58)2.7.3 主机监控 (60)2.8 Prometheus监控 (62)2.9 日志分析 (62)2.9.1 搜索日志 (62)2.9.2 查看日志文件 (64)2.9.3 配置虚机日志采集路径 (66)2.9.4 添加日志转储 (68)2.9.5 接入LTS (71)2.9.5.1 概述 (71)2.9.5.2 管理接入规则 (74)2.10 配置管理 (76)2.10.1 ICAgent管理 (76)2.10.1.1 安装ICAgent (76)2.10.1.2 升级ICAgent (80)2.10.1.3 卸载ICAgent (80)2.10.2 日志配置中心 (82)2.10.2.1 设置日志配额 (82)2.10.2.2 配置分词 (82)2.10.3 数据订阅 (85)2.10.4 配置应用发现 (89)2.10.5 接入管理 (93)2.10.5.1 概述 (93)2.10.5.2 将Prometheus的数据上报到AOM (94)2.10.5.3 通过grafana查看AOM中的指标数据 (95)2.11 相关说明 (99)2.11.1 标签和标注 (99)2.11.2 普罗语句说明 (100)2.11.3 时间范围和统计周期的关系 (103)3 常见问题 (105)3.1 如何处理界面“ICAgent状态”为“离线”的问题 (105)3.2 如何获取AK/SK (106)3.3 资源运行异常怎么办? (106)3.4 没有消息通知服务的访问权限? (108)3.5 如何区分告警和事件? (108)3.6 AOM展示的日志是否为实时日志? (108)3.7 应用状态正常,应用下的组件状态异常,状态不一致是什么原因? (109)4 最佳实践 (110)4.1 应用发现最佳实践 (110)5 错误码参考 (113)5.1 监控模块错误码 (113)5.1.1 SVCSTG.INV.4030000 inv服务鉴权失败 (113)5.1.2 SVCSTG.INV.4000103 参数资源集ID校验失败 (113)5.1.3 SVCSTG.ALERT.4033000 接口鉴权失败 (114)5.1.4 SVCSTG.ALERT.2001 接口参数校验失败或异常 (114)5.1.5 SVCSTG.ALERT.2002 清除告警接口异常 (115)5.1.6 SVCSTG.ALERT.5002001 查询告警类型接口错误 (115)5.1.7 SVCSTG.ALERT.4000429 清除告警接口请求受限 (115)5.1.8 SVCSTG.ALERT.3001000 参数校验失败 (115)5.1.9 SVCSTG.INV.5000000 服务异常 (116)5.1.10 SVCSTG.INV.5000001 ES服务异常 (116)5.1.11 SVCSTG.INV.4000115 发现规则接口参数校验失败 (116)5.1.12 SVCSTG.INV.4000116 规则id或pid校验失败 (122)5.1.13 SVCSTG.INV.4000117 biztype或ids校验失败 (123)5.1.14 SVCSTG.INV.4000118 添加或者修改资源标签别名接口参数校验失败 (123)5.1.15 SVCSTG.INV.5000002 获取集群资源或查询应用发现规则服务异常 (123)5.1.16 SVCSTG.INV.5000003 同步应用发现规则到ICMGR服务失败 (124)5.1.17 SVCSTG.INV.5000004 新增标签时服务异常 (124)5.1.18 SVCSTG.INV.5000005 同步应用发现规则到ICMGR服务时服务异常 (124)5.1.19 SVCSTG.INV.5000007 自定义规则达到上限 (125)5.1.20 SVCSTG_AMS_4000101 指标查询请求参数不合法 (125)5.1.21 SVCSTG_AMS_4000102 inv请求参数不合法 (126)5.1.22 SVCSTG_AMS_4000103 period等参数校验失败 (126)5.1.23 SVCSTG_AMS_4000104 statistics等参数校验失败 (127)5.1.24 SVCSTG_AMS_4000105 metrics等参数校验失败 (127)5.1.25 SVCSTG_AMS_4000106 timerange等参数校验失败 (128)5.1.26 SVCSTG_AMS_4000107 参数校验失败 (129)5.1.27 SVCSTG_AMS_4000109 metricName等参数校验失败 (129)5.1.28 SVCSTG_AMS_4000110 fillValue等参数校验失败 (130)5.1.29 SVCSTG_AMS_4000111 start参数校验失败 (130)5.1.30 SVCSTG_AMS_4000112 alarm_id等参数校验失败 (131)5.1.31 SVCSTG_AMS_4000115 阈值规则相关接口参数校验失败 (131)5.1.32 SVCSTG_AMS_4000118 新增阈值规则请求evaluationPeriods等参数校验失败 (132)5.1.33 SVCSTG_AMS_4000119 查询阈值规则请求statistic参数校验失败 (133)5.1.34 SVCSTG_AMS_4000120 新增阈值规则请求comparisonOperator参数校验失败 (133)5.1.35 SVCSTG_AMS_4000121 修改阈值规则接口参数校验失败 (133)5.1.36 SVCSTG_AMS_4030000 AMS服务鉴权失败 (134)5.1.37 SVCSTG_AMS_5000000 ams-metric/ams-access服务内部错误 (134)5.1.38 SVCSTG_AMS_5030001 Cassandra服务内部错误 (135)5.1.39 SVCSTG.AMS.2000051 鉴权失败 (135)5.1.40 SVCSTG.AMS.2001000 新增或者修改阈值规则接口actionId等参数校验失败 (136)5.1.41 SVCSTG.AMS.2000001 Cassandra或服务内部异常 (136)5.1.42 SVCSTG.AMS.5011300 内部服务错误 (136)5.1.43 SVCSTG.AMS.2000002 部分成功 (137)5.1.44 SVCSTG.AMS.2001135 操作阈值规则相关接口参数校验失败 (137)5.1.45 SVCSTG.AMS.2001613 阈值规则重名 (138)5.1.46 SVCSTG.AMS.2001601 阈值规则不存在 (138)5.1.47 SVCSTG.AMS.2001604 服务内部错误 (139)5.1.48 SVCSTG.AMS.4010000 视图模板接口鉴权失败 (139)5.1.49 SVCSTG_AMS_4000001 上报的数据结构体为空 (140)5.1.50 SVCSTG_AMS_4000002 namespace参数校验失败 (140)5.1.51 SVCSTG_AMS_4000003 Dimensions参数校验失败 (141)5.1.52 SVCSTG_AMS_4000005 type参数校验失败 (141)5.1.53 SVCSTG_AMS_4000006 value参数校验失败 (141)5.1.54 SVCSTG_AMS_4000007 dimensions中的name或者value 参数校验失败 (142)5.1.55 SVCSTG_AMS_4000008 请求参数体长度校验失败 (142)5.1.56 SVCSTG_AMS_4000009 dimensions数量校验失败 (143)5.1.57 SVCSTG_AMS_4000010 collect_time参数校验失败 (143)5.1.58 SVCSTG.PE.4011001 PE接口鉴权失败 (144)5.1.59 SVCSTG.PE.4011003 权限不足 (144)5.1.60 SVCSTG.PE.4031014 帐号冻结或暂停 (145)5.1.61 SVCSTG.PE.4031002 应用不存在 (145)5.1.62 SVCSTG.PE.5003007 查询数据库失败 (146)5.1.63 SVCSTG.PE.4005003 策略组名称重复 (146)5.1.64 SVCSTG.PE.4031012 用户projectId不匹配 (146)5.1.65 SVCSTG.PE.4291004 接口负载过高 (147)5.1.66 SVCSTG.PE.5003006 创建调度任务失败 (147)5.1.67 SVCSTG.PE.5001201 存储记录失败 (147)5.1.68 SVCSTG.PE.5001202 查询指定记录失败 (148)5.1.69 SVCSTG.PE.5001203 查询记录失败 (148)5.1.70 SVCSTG.PE.5001204 更新记录失败 (148)5.1.71 AOM.04001401 查询数据订阅规则认证失败 (148)5.1.72 AOM.04001500 查询数据订阅规则时ES集群异常 (149)5.1.73 AOM.04002401 创建数据订阅规则认证失败 (149)5.1.74 AOM.04002002 规则条数达到上限 (149)5.1.75 AOM.04002500 创建数据订阅规则时ES集群异常 (150)5.1.76 AOM.04002003 创建数据订阅时规则名称已存在 (150)5.1.77 AOM.04003002 修改数据订阅时规则名称已存在 (150)5.1.78 AOM.04003500 修改数据订阅规则时ES集群异常 (151)5.1.79 AOM.04003401 修改数据订阅规则认证失败 (151)5.1.80 AOM.04004401 验证数据订阅规则中kafka配置认证失败 (151)5.1.81 AOM.04004002 验证数据订阅规则可用性,连接自定义kafka失败 (152)5.1.82 AOM.04004500 验证数据订阅规则时ES集群异常 (152)5.1.83 AOM.04006403 删除数据订阅规则认证失败 (152)5.1.84 AOM.04004403 验证数据订阅规则实例连通性认证失败 (153)5.1.85 AOM.04002403 创建数据订阅规则认证失败 (153)5.1.86 AOM.04006500 删除数据订阅规则时ES集群异常 (153)5.1.87 AOM.0103 阈值规则接口权限不足 (154)5.1.88 AOM.0403 toke鉴权失败 (154)5.1.89 AOM.0503 查询告警或者事件列表时服务异常 (154)5.1.90 AOM.04003001 修改订阅规则时参数校验失败 (155)5.2 日志模块错误码 (155)5.2.1 SVCSTR.ALS.200100 鉴权失败 (155)5.2.2 SVCSTR.ALS.200105 租户projectId鉴权失败 (156)5.2.3 SVCSTR.ALS.200322 参数校验失败 (156)5.2.4 SVCSTR.ALS.200203 日志服务异常 (156)5.2.5 SVCSTR.ALS.200207 内部服务错误 (157)5.2.6 SVCSTR.ALS.200305 添加OBS转储策略失败 (157)5.2.7 SVCSTR.ALS.200306 删除OBS转储策略失败 (157)5.2.8 SVCSTR.ALS.200309 OBS桶授权失败 (157)5.2.9 SVCSTR.ALS.200315 日志路径配置个数超过限额 (158)5.2.10 SVCSTR.ALS.200316 非法的日志采集路径 (158)5.2.11 SVCSTR.ALS.200317 添加日志采集路径到ES数据库失败 (158)5.2.12 SVCSTR.ALS.200318 请求体不合法 (159)5.2.13 SVCSTR.ALS.200322 日志采集路径个数已达上限 (159)5.2.14 SVCSTR.ALS.200500 内部服务错误 (159)5.2.15 SVCSTR.ALS.201403 token鉴权失败 (159)5.2.16 SVCSTR.ALS.403105 租户projectId非法 (160)5.3 ICMGR模块错误码 (160)5.3.1 APM.ICMGR.5000000 服务失败 (160)5.3.2 APM.ICMGR.2001401 鉴权失败 (160)5.3.3 APM.ICMGR.2001405 参数错误 (161)5.3.4 AOM.0101 请求参数无效 (161)5.3.5 AOM.0102 获取agent信息时没有访问权限 (162)1快速入门1.1 AOM使用流程应用运维管理(Application Operations Management,以下简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活的告警及丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。

运维管理系统需求说明书范文

运维管理系统需求说明书范文

运维管理系统需求说明书范文运维管理系统需求说明书1、引言1.1 编写目的本文档旨在详细描述并定义运维管理系统的需求,以便开发团队全面理解系统应具备的功能和性能。

1.2 背景随着互联网的发展,各种规模的企业都需要一个高效的运维管理系统来确保业务的稳定运行和高效维护。

2、需求概述2.1 系统目标运维管理系统的目标是提供一套完整的运维管理解决方案,覆盖服务器监控、应用程序管理、故障处理、日志管理等功能。

2.2 功能需求- 服务器监控:实时监测服务器的运行状态,包括CPU、内存、磁盘等使用情况。

- 应用程序管理:支持对部署在服务器上的应用程序进行版本管理、启动、停止和重启等操作。

- 故障处理:自动检测并对服务器故障进行告警,并提供故障修复的指导。

- 日志管理:记录服务器和应用程序的日志,并提供查看和搜索功能。

- 资源管理:管理服务器和应用程序的配置信息,包括IP地质、端口号、用户名密码等。

2.3 性能需求- 响应时间:系统对请求的响应时间应在1秒以内。

- 并发性能:系统应支持同时处理1000个并发请求。

- 可扩展性:系统应能够方便地扩展和部署。

3、界面设计3.1 登录界面- 用户名输入框- 密码输入框- 登录按钮3.2 首页界面- 左侧菜单栏:包含各个模块的入口。

- 主要内容区域:展示各个模块的概览和重要信息。

3.3 服务器监控界面- 服务器运行状态图表:展示CPU、内存、磁盘使用情况的实时图表。

- 告警信息列表:展示服务器故障的告警信息。

3.4 应用程序管理界面- 应用程序列表:展示已部署的应用程序的基本信息。

- 版本管理:对应用程序的版本进行管理和控制。

3.5 故障处理界面- 故障列表:展示待处理的故障信息。

- 故障修复方案:提供故障修复的指导和建议。

3.6 日志管理界面- 日志列表:展示服务器和应用程序的日志信息。

- 日志搜索功能:支持根据关键词进行日志搜索。

4、数据库设计4.1 用户表- 用户ID- 用户名- 密码4.2 服务器表- 服务器ID- IP地质- 端口号- 用户名- 密码4.3 应用程序表- 应用程序ID - 名称- 版本- 所属服务器ID - 状态5、数据接口5.1 登录接口- 请求URL: /login- 请求方法: POST- 请求参数:- 用户名- 密码- 响应数据:- 成功:用户信息- 失败:错误信息5.2 服务器监控接口- 请求URL: /monitoring- 请求方法: GET- 请求参数: 无- 响应数据: 服务器运行状态信息5.3 应用程序管理接口- 请求URL: /applications- 请求方法: GET- 请求参数: 无- 响应数据: 应用程序列表信息5.4 故障处理接口- 请求URL: /troubleshooting- 请求方法: GET- 请求参数: 无- 响应数据: 故障列表信息5.5 日志管理接口- 请求URL: /logs- 请求方法: GET- 请求参数:- 关键词- 响应数据: 日志列表信息附件:无法律名词及注释:1、服务器监控:监控服务器资源的使用情况,确保服务器正常工作。

系统运维说明及承诺书

系统运维说明及承诺书

系统运维工作说明书及售后服务承诺、]2017年11月目录1 概述 (1)服务范围和服务内容 (1)服务目标 (1)2系统现状 (1)应用系统 (1)系统功能 (1)3服务方案 (3)系统的软件bug修复 (3)业务流程 (3)3.. 流程说明 (3)定时备份xxxxxxx系统的业务数据 (4)备份业务流程 (4)备份业务流程说明 (4)按需更新xxxxxxx系统(不包含系统迁移) (5)更新流程 (5)更新业务说明 (5)及时处理xxxxxxx系统的异常数据 (6)异常数据处理流程 (6)异常数据处理说明 (6)及时解决xxxxxxx系统的咨询或培训 (7)系统咨询或培训流程 (7)系统咨询或培训说明 (7)4服务响应 (8)日常服务响应时间 (8)事故分级响应服务时间 (8)服务报告 (9)运维保障资源库建设 (9)项目管理 (9)1 概述服务范围和服务内容本次服务范围为XXXXX有限公司XXXXXX系统,软件系统位于?XXXXXXX机房内,服务内容为XXXXXX应用软件系统的系统运维工作,不包括服务器操作系统的运维及网络运维、专业安全服务等。

服务目标及时修复xxxxxxx系统的软件bug定时备份xxxxxxx系统的业务数据按需更新xxxxxxx系统(不包含系统迁移)及时处理xxxxxxx系统的异常数据及时解决xxxxxxx系统的咨询或培训2系统现状应用系统xxxxxxx系统等日常工作均在基于内网在不同应用系统上得以实现,其中优惠券类业务需要外网权限。

OS端是安卓系统,应用服务器是使用的centos系统,客户端使用的windows 和安卓系统。

系统功能xxxxxxx系统L2级系统运维的内容如下。

3服务方案 系统的软件bug 修复业务流程微信营销及支付系统bug 管理流程修复阶段提交bug验证阶段跟踪阶段关闭bug启云星航延长壳牌提交bug判断是否为系统bugBug 修复内部验证验证bug 关闭bug是否再现开始结束3.. 流程说明xxxx 公司(以下简称甲方)业务人员在实际业务的进行中,按照正常操作步骤进行操作,出现异常情况,请立即通过邮件的方式告知启xxxx 公司(以下简称乙方)。

智能运维管理系统_需求规格说明书_V2.0

智能运维管理系统_需求规格说明书_V2.0

智能运维管理系统V2.0 需求规格说明书修订目 录文档介绍文档目的 文档范围 读者对象 参考文档 术语与缩写解释 系统概述系统建设目标 系统总体结构 用户的特点 设计和实现上的限制 系统功能性需求双活中心工作运行状态监控模块 场景描述用例分析 参与者列表 专用监控功能模块 场景描述 用例分析 参与者列表 故障告警模块 场景描述 用例分析 参与者列表 用例描述 数据配置管理模块 场景描述 用例分析 参与者列表故障切换管理模块场景描述 用例分析 参与者列表 数据接口 场景描述 用例分析 参与者列表 故障处理 场景描述 用例分析 参与者列表 系统非功能性需求易用性需求 方便增加监测设备方便删除监测设备 方便定位故障或者异常设备 监测设备在启动与停止监测之间方便转换 性能、并发性需求 对性能及并发性的特殊要求 扩展性需求 采集和监控服务器的集群支持 支持公司 平台的整合 支持公司单点登录系统的整合 支持对物联网智能设备的直接监测 安全及保密性需求 敏感数据加密 敏感操作进行确认 可靠性需求运行可靠性数据可靠性 可维护性需求 监测设备配置优化 软硬件环境约束 系统备份与恢复要求系统日志 其它需求外部接口说明短信发送接口 应用软件服务监测接口文档介绍文档目的在《智能运维管理系统 立项建议书》的基础上对各个功能模块做出详细的需求分析,为项目后续的设计和开发提供依据。

文档范围本文档包括服务器监测、数据库监测、交换机监测、 平台监测、物联网智能设备监测、应用软件服务监测、个性化主题展现、配置管理的需求规格说明,同时也包括整个系统平台的建设目标、总体结构、网络结构、系统接口描述、用户界面需求和软硬件环境方面的需求规格说明。

读者对象项目的系统设计人员、系统开发人员、系统测试人员以及配置管理人员;公司内部 项目的其干系人、领导、专家等。

参考文档智能运维管理系统 立项建议书,,物联网智能数据采集和控制平台需求规格说明书,, 监控系统 用户指南,术语与缩写解释系统概述系统建设目标公司目前在监控系统方向有两个产品,都是基于 结构,一个是监控系统,另外一个是物联网智能设备监控系统。

易维宝智能业务应用运维 管理平台用户使用手册说明书

易维宝智能业务应用运维 管理平台用户使用手册说明书

易维宝智能业务应用运维管理平台用户使用手册V6.0目录1安装部署 (4)1.1如何下载DCS (4)1.2如何安装DCS (4)1发现资源 (4)1.1主机 (5)1.1.1Linux主机 (5)1.1.2Windows主机 (9)1.2Web Server (15)1.2.1IIS (15)1.2.2Apache (21)1.2.3Nginx (28)1.3Application Server (34)1.3.1Jetty (34)1.3.2Tomcat (43)1.4中间件 (52)1.4.1RabbitMQ集群 (52)1.4.2ElasticSearch集群 (57)1.5数据库 (62)1.5.1SQLSERVER (62)1.5.2GBase (67)1.5.3达梦 (74)1.5.4Redis (78)1.5.5PostgreSQL (84)1.5.6Oracle (90)1.5.7MariaDB (94)1.5.8MySQL (100)1.6调整资源模型视图 (103)1.6.1更换模型视图 (104)1.6.2自定义视图 (105)2业务应用创建 (106)2.1创建业务应用 (106)2.1.1填写基本信息 (106)2.1.2填写模块信息 (107)2.2编辑业务应用 (110)2.3删除业务应用 (111)2.4创建架构图 (111)2.4.1布局资源 (111)2.4.2选择监控指标 (113)2.4.3添加关联指标 (114)3首页设置 (115)3.1初始化业务应用总览 (115)3.2添加业务应用 (117)3.3调整资源模型视图 (117)3.3.1监控资源视图 (117)3.3.2首页自定义视图 (118)4告警设置 (119)4.1资源告警配置 (120)4.2编辑资源告警配置 (122)5消息通知设置 (122)5.1企业微信应用消息设置 (122)5.2企业微信群机器人设置 (123)5.3钉钉群通知机器人设置 (123)5.4SMTP邮件设置 (123)5.5第三方接口设置 (123)6账号权限管理 (123)6.1创建角色 (123)6.2创建用户 (125)7运维档案 (126)1安装部署1.1如何下载DCS使用浏览器(Chrome、Edge)打开“智能业务应用运维管理平台”,依次进行如下操作:1)点击进入“系统管理”页面2)点击左侧页签,进入“DCS信息”页面3)点击右下方“下载DCS文件”按钮4)下载自动开始,等待完成1.2如何安装DCS在采集服务器上,依次进行如下操作:1)使用root账号登录服务器,确认可以访问CCS服务器地址,可以使用ping 工具验证。

运维管理系统需求说明书范文

运维管理系统需求说明书范文

运维管理系统需求说明书范文本文档旨在描述并定义运维管理系统的需求说明,包括系统的功能需求、非功能需求以及用户需求等。

该系统旨在辅助运维团队提高工作效率和管理能力,并提供一整套自动化、集中化的运维管理方案。

一:引言1.1 目的本文档的目的是定义和说明运维管理系统的功能特性,以便于开发团队正确理解并实现系统需求。

1.2 范围本文档适用于运维管理系统的需求说明,涵盖了各系统模块的功能、性能和界面需求。

1.3 定义、缩略语和缩写- 运维:指维护和管理软件、硬件和网络设备的工作。

- 系统:指运维管理系统。

- UI:用户界面。

二:系统概述2.1 业务背景运维管理系统是为了管理、监控和维护企业的软件、硬件和网络设施而设计的系统。

它能够提供一系列的工具和功能,以帮助运维人员快速定位和解决问题,提高工作效率。

2.2 系统目标- 提供灵活的运维工具,支持自动化任务和故障处理。

- 提供完善的监控和报警功能,实时监控系统状态和性能。

- 提供可视化的界面,方便用户操作和查看运维数据。

- 提供权限管理和操作日志,保证系统安全和稳定性。

三:功能需求3.1 用户管理模块3.1.1 用户注册与登录- 支持用户注册新账户并验证邮箱。

- 支持用户通过账户和密码登录系统。

3.1.2 权限管理- 支持管理员对用户进行角色和权限的管理。

- 支持设置不同角色的用户对系统的访问权限。

3.1.3 用户信息管理- 支持用户查看和修改个人信息。

- 支持管理员查看和编辑所有用户信息。

3.2 任务管理模块3.2.1 自动化任务- 支持创建和管理自动化任务,如系统备份、定时脚本执行等。

- 支持设定任务的执行时间和执行频率。

3.2.2 任务调度- 支持任务的调度和调度策略管理。

- 支持设定任务的优先级和执行顺序。

3.2.3 任务执行记录- 支持查看和管理任务执行记录。

- 支持查看任务的执行状态和执行结果。

3.3 监控管理模块3.3.1 系统监控- 支持对系统的CPU、内存、硬盘等资源的监控。

智能运维管理系统-需求规格说明书-最新版本

智能运维管理系统-需求规格说明书-最新版本

智能运维管理系统V2.0 需求规格说明书修订目录1. 文档介绍 (5)1.1. 文档目的 (5)1.2. 文档范围 (5)1.3. 读者对象 (5)1.4. 参考文档 (5)1.5. 术语与缩写解释 (5)2. 系统概述 (6)2.1. 系统建设目标 (6)2.2. 系统总体结构 (7)2.3. 用户的特点 (7)2.4. 设计和实现上的限制 (8)3. 系统功能性需求 (8)3.1. 双活中心工作运行状态监控模块 (8)3.1.1. 场景描述 (8)3.1.2. 用例分析 (8)3.1.3. 参与者列表 (8)3.2. 专用监控功能模块 (9)3.2.1. 场景描述 (9)3.2.2. 用例分析 (9)3.2.3. 参与者列表 (10)3.3. 故障告警模块 (10)3.3.1. 场景描述 (10)3.3.2. 用例分析 (11)3.3.3. 参与者列表 (11)3.3.4. 用例描述 (11)3.4. 数据配置管理模块 (11)3.4.1. 场景描述 (11)3.4.2. 用例分析 (11)3.4.3. 参与者列表 (12)3.5. 故障切换管理模块 (12)3.5.1. 场景描述 (12)3.5.2. 用例分析 (12)3.5.3. 参与者列表 (13)3.6. 数据接口 (13)3.6.1. 场景描述 (13)3.6.2. 用例分析 (13)3.6.3. 参与者列表 (13)3.7. 故障处理 (13)3.7.1. 场景描述 (13)3.7.2. 用例分析 (13)3.7.3. 参与者列表 (14)4. 系统非功能性需求 (14)4.1. 易用性需求 (14)4.1.1. 方便增加监测设备 (14)4.1.2. 方便删除监测设备 (14)4.1.3. 方便定位故障或者异常设备 (15)4.1.4. 监测设备在启动与停止监测之间方便转换 (15)4.2. 性能、并发性需求 (15)4.2.1. 对性能及并发性的特殊要求 (16)4.3. 扩展性需求 (16)4.3.1. 采集和监控服务器的集群支持 (16)4.3.2. 支持公司AFP 平台的整合 (16)4.3.3. 支持公司单点登录系统的整合 (17)4.3.4. 支持对物联网智能设备的直接监测 (17)4.4. 安全及保密性需求 (18)4.4.1. 敏感数据加密 (18)4.4.2. 敏感操作进行确认 (18)4.5. 可靠性需求 (18)4.5.1. 运行可靠性 (18)4.5.2. 数据可靠性 (19)4.6. 可维护性需求 (19)4.6.1. 监测设备配置优化 (19)4.7. 软硬件环境约束 (20)4.8. 系统备份与恢复要求 (21)4.9. 系统日志 (21)4.10. 其它需求 (21)5. 外部接口说明 (21)5.1. 短信发送接口 (21)5.2. 应用软件服务监测接口 (21)1. 文档介绍1.1. 文档目的在《智能运维管理系统V2.0立项建议书》的基础上对各个功能模块做出详细的需求分析,为项目后续的设计和开发提供依据。

运维管理系统文档模板使用说明书

运维管理系统文档模板使用说明书

文 档 模 版使 用 说 明 书(V1.0)广东省邮政信息技术局二〇〇九年九月目 录1、概述 (2)2、新建文档模板 (3)3、新建模板参数 (4)4、文档模板查询 (5)1、概述文档模板模块主要用于管理相关文档的模板。

模板包括公文模板、技术模板、标准表格等,通过此模块,一方面便于保持文档模板的最新版本,另一方面,便于实现文档模板的共享,易于查找及使用。

本模块的主要功能有:z新建文档模板:建立新的文档模板,包括修改已有的文档模板。

z文档模板查询:查询相关的文档模板。

按照适用范围不同,文档模板分为省信息局文档模板和地市局的文档模板。

从信息网事务处理平台的主界面中,点击“内部管理”,就会出现如图1-1所示的内部管理界面,文档模板的位置如图1-1所示。

图1-3 进入文档模板示意图点击“文档模板”按钮,就会进入到文档模板的界面中。

如图1-2所示。

注意实际看到的界面可能会有折叠,或者是不具备权限而看不到部分视图按钮。

图1-2 文档模板主界面其中各视图含义如下:z按所属部门:按照所属部门的分类顺序显示所有省信息局的文档模板。

z按模板类型:按照模板类型的分类顺序显示所有省信息局的文档模板。

z地市局模板:显示所有的非省信息局的模板,其中按二级机构、按模板类型和按更新日期是按不同方式分类显示所有非省信息局的文档模板。

z参数设置:设置文档模板的种类和本模块的基础参数。

参数设置只能是由【管理员】用户才能修改。

2、新建文档模板点击“文档模板”按钮,进入文档模板模块之后,点击视图上方的“新建”按钮,出现如图2-1所示的界面。

在其中输入该模板的相关内容,并附加上实际的文件,然后按左上方的“保存”按钮即可。

其中红色字体的是必须输入的项目。

如果该模板是公开的模板,则可读者栏目为空,否则,只有可读者栏目中列举的用户和【管理员】用户才能看到该模板。

只有可编辑者栏目中列举的用户和【管理员】用户才能编辑该模板。

图2-1 文档模板界面示意图3、新建模板参数模板种类的设置方式如下:点击“参数设置”→“模板种类”视图,然后点击视图上方的“新建”按钮,如图3-1所示。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1概述1.1开发背景和意义随着公司规模的迅速扩大,现行的纯纸质化办公,效率低下、资料保存和查询非常困难、成本高、不利于多人协同办公,成为日常办公的严重制约。

尤其是需要审批的事项,如果遇到审批人出差或不在公司,往往需要等待,协调的成本很高,工作决策不能及时进行,大大降低了工作效率。

开发审批系统,使得申请人和审批人不受地域和时间限制,审批流程自动流转,相关人可以快键协调。

1.2开发目标系统在需求设计时要充分考虑了用户的使用习惯、模块间的相互独立性,减少系统间的相互依赖,使其能单独运行,便于开发和维护,也有利于以后的扩充,做到与其他业务系统的高内聚、松耦合。

特别强调系统的用户体验,以及与实际审批业务的贴合性,真正方便用户的申请和审批业务快键开展。

1.3主要内容系统主要内容包括:(1) 考勤管理:员工的加班、调休、请假、市内外出、出差等的申请、审批、查询和统计。

(2)转正申请:员工完成试用期,进入转正审批环节,完成该环节后,成为正式员工。

(3)物资申请:办公用物资的申请和审批。

1.4用户对象包括总公司、山西、广西、河南、湖北等办事处、分公司全部员工。

1.5业务数据时间要求针对用户对数据的要求,业务数据做永久性保存,部分业务数据可转入查询库中作为历史数据供查询使用。

2功能需求2.1功能框架2.1.1总体框架操作系统运行监控:虚拟机可用性cpu负载内存使用IO情况空间使用情况OS日志进程情况计划任务情况时钟偏差端口使用情况路由表一页查看多操作系统执行命令:中间件运行监控:取jmx的一些指标。

数据库运行监控:主目录集群状态实例状态监听器状态表空间预警归档情况rman备份情况不良sql未使用的索引大表数据量alert文件报错job失败编译失败。

性能优化:把上面的指标综合一下;虚拟机和服务整体预警:汇总超过阀值的指标。

2.1业务需求2.1.1数据管理1.功能描述该模块用于收集系统所需的数据。

数据,一般是指位于设备上的数据,比如位于服务器操作系统上的文件。

数据定义:定义需要收集的数据类型。

认证管理:为了访问受管设备或资源,一般是需要认证的,比如用户名、密码数据路径:定义该数据所在的路径,以确保程序可以找到所需的数据。

该路径,是作为抓取程序的输入参数使用。

资料库管理:定义资料库位置,收集的数据先放到磁盘上,然后再解析入数据库,在数据库里存放引用关系。

解析入库:对于存放在资料库里指定目录的文件,解析文件,进入数据库,该解析过程通常由调度程序发起调用,也可以手工发起。

2.业务处理流程总体的步骤如下图所示:抓取服务,是通过网络读取文件的过程;存储服务,是往指定的磁盘目录存放文件的过程;解析入库,是解析指定目录的磁盘文件,将数据保存进数据库的过程;数据应用,是对数据库中的文件查询和统计。

3.界面展现及输入输出认证管理:主机名称用途资源类型认证方式用户名密码haltpxzgqdyy01征管前端应用虚拟机(OLE5.9) 密码,ssh root ovsroothaltpxzgmhweb01工作门户虚拟机(OLE5.9) 密码,ssh root ovsroot受管主机文件路径管理:调度路线:这里的调度文件,引用“受管主机文件路径管理”中定义的文件。

资料库文件路径管理:/data/20141120/proc/cpuinfo解析管理:4.相关表操作5.特殊要求说明2.1.2资源监控1.功能描述资源分类定义:要管理的资源是多种多样的,比如:虚拟机、防火墙、交换机、中间件、数据库、应用程序等等。

资源属性定义:资源的属性,是和具体的资源分类相关的,比如,资源类型为虚拟机的资源属性有:是否启动、OS版本、cpu信息、内存信息、存储信息、hostname、ip地址等等;资源类型为中间件的资源属性有:是否启动、是否有异常报错、占用内存数量、连接池数量等等。

指令管理:对资源的探测、查询是需要OS级或网络级指令的,或者需要产品接口,这里定义这些指令。

2.业务处理流程资源要先定义后使用,先定义类型,再定义属性虚拟机的可用性,用ping和ssh来探测,算法是先ping,再ssh探测,都通的,认为可用性正常。

虚拟机的配置,读取文件/proc/cpus3.界面展现及输入输出资源定义:暂时先留着虚拟机可用性展示:条件:时间:当前(默认),取样时刻列表主机名称用途资源类型IP地址所在位置可用性haltpxzgqdyy01征管前端应用虚拟机(OLE5.9) 147.12.184.11 EL X3-2haltpxzgmhweb01工作门户BS设计虚拟机(OLE5.9) 147.12.184.12 EL X3-2haltpxzgapp01征管核心定时任务虚拟机(OLE5.9) 147.12.184.13 EL X3-2数据来源:这是一个字典表,需要先录入(增、删、改),"可用性"是用ping和ssh进行探测得到的结果。

可用的定义:ping成功and ssh成功不可用定义:ssh 失败(time out(20S) or connection refused)虚拟机配置展示:主机名称用途资源类型CPU 内存交换分区空间haltpxzgqdyy01征管前端虚拟机(OLE5.9) 4C 16G 16G df -h数据来源:1.前三列字段,取上图录入过的数据2. cpu的获取命令:(linux)grep 'processor' /proc/cpuinfo | sort -u | wc -l[root@localhost ~]# grep 'processor' /proc/cpuinfo | sort -u | wc -l 23.内存和交换分区大小的获取命令:cat /proc/meminfo取MemTotal的值取SwapTotal[root@localhost ~]# cat /proc/meminfoMemTotal: 12330652 kBMemFree: 1029984 kBBuffers: 297228 kBCached: 10298352 kBSwapCached: 0 kBActive: 8830664 kBInactive: 2045620 kBActive(anon): 5379076 kBInactive(anon): 1173052 kBActive(file): 3451588 kBInactive(file): 872568 kBUnevictable: 0 kB Mlocked: 0 kB SwapTotal: 10239992 kB SwapFree: 10239992 kB Dirty: 28 kB Writeback: 0 kB AnonPages: 280696 kB Mapped: 4763068 kB Shmem: 6271432 kB Slab: 234100 kB SReclaimable: 198384 kB SUnreclaim: 35716 kB KernelStack: 2248 kB PageTables: 81376 kB NFS_Unstable: 0 kB Bounce: 0 kB WritebackTmp: 0 kB CommitLimit: 16405316 kB Committed_AS: 7459572 kB VmallocTotal: 34359738367 kB VmallocUsed: 305100 kB VmallocChunk: 34359429916 kB HardwareCorrupted: 0 kB AnonHugePages: 75776 kB HugePages_Total: 0 HugePages_Free: 0HugePages_Rsvd: 0HugePages_Surp: 0Hugepagesize: 2048 kBDirectMap4k: 10240 kBDirectMap2M: 12572672 kB[root@localhost ~]#空间列,显示df -h的信息[root@localhost ~]# df -hFilesystem Size Used Avail Use% Mounted on/dev/mapper/V olGroup-LogV ol01 49G 11G 36G 23% /tmpfs 12G 6.0G 6.1G 50% /dev/shm/dev/sda1 194M 35M 150M 19% /boot/dev/mapper/V olGroup-LogV ol02 238G 18G 208G 8% /u01存储空间展示:(先不做)数据来源:该表与上表类似,从存储角度说明一个分区的挂载情况,这里是指共享存储。

进程展示:(当用户发起查看请求时获取,暂时不存放历史数据,暂时可以不放数据库中)ps -ef的文本[root@localhost ~]# ps -efUID PID PPID C STIME TTY TIME CMDroot 1 0 0 Sep28 ? 00:03:39 /sbin/initroot 2 0 0 Sep28 ? 00:00:00 [kthreadd]root 3 2 0 Sep28 ? 00:00:02 [migration/0]root 4 2 0 Sep28 ? 00:01:13 [ksoftirqd/0]root 5 2 0 Sep28 ? 00:00:00 [migration/0]root 6 2 0 Sep28 ? 00:00:11 [watchdog/0]进程名称:UID描述文本:CMD4.相关表操作5.特殊要求说明2.1.3性能管理1.功能描述性能分类定义:硬件性能、OS性能、网络性能、存储性能、中间件性能、数据库性能2.业务处理流程整体的思路是:1周期性向所有受控机器发送OS命令,执行后获得命令的输出;2.解析存放到数据库中;3.然后是相应的统计查询。

执行的命令是:top查看进程活动状态以及一些系统状况vmstat查看系统状态、硬件和系统信息等iostat查看CPU 负载,硬盘状况sar综合工具,查看系统状况mpstat查看多处理器状况netstat查看网络状况iptraf实时网络状况监测tcpdump抓取网络数据包,详细分析mpstat 查看多处理器状况tcptrace数据包分析工具netperf网络带宽工具dstat综合工具,综合了vmstat, iostat, ifstat, netstat 等多个信息3.界面展现及输入输出4.相关表操作5.特殊要求说明2.1.4故障管理1.功能描述2.业务处理流程3.界面展现及输入输出4.相关表操作5.特殊要求说明2.1.5调度管理1.功能描述类似于操作系统的计划任务,这里管理服务的调度情况。

相关文档
最新文档