智能IT运维监控平台-技术白皮书V2

合集下载

ITSM服务流程管理平台技术白皮书

ITSM服务流程管理平台技术白皮书
4.4. 预定义十九种角色
在没有进行角色划分前,员工工作职责不明确,踢皮球现象时有发生。致使工作进度严 重滞后,IT 运维得不到保障,从而影响到核心业务的开展。
4.1. 系统的合规性...............................................................................................................3 4.2. 单点登录.....................................................................................错误!未定义书签。 4.3. 流程/表单自定义特性.................................................................................................4 4.4. 预定义十三种角色.......................................................................................................4 4.5. 预定义 ITIL 标准流程.................................................................................................6 4.6. 服务目录.......................................................................................................................7 4.7. 服务级别管理...............................................................................................................8 4.8. 资产配置关系遵从国标...............................................................................................9 4.9. 可扩展的 CI 模型.........................................................................................................9 4.10. 多维度可视化视图.....................................................................................................10 4.11. 与 IT 服务流程无缝集成...........................................................错误!未定义书签。 4.12. 智能化报表分析......................................................................................................... 11 5. 产品价值.................................................................................................................................12 IT 运维服务标准化、规范化................................................................................................12 全方位管理 IT 资产...............................................................................................................12 提升企业 IT 投资回报率.......................................................................................................12 缩短故障影响时间 ................................................................................................................. 12 便捷请求 IT 服务...................................................................................................................12 提高 IT 服务质量...................................................................................................................12 提高客户满意度 ..................................................................................................................... 13 提高服务组织内员工的工作成就感 ..................................................................................... 13 6. 典型客户.................................................................................................................................13 7. 联系我们.................................................................................................................................14

数据中心基础设施智能运维白皮书

数据中心基础设施智能运维白皮书

L2 成熟运维
运维流程趋于成熟,运维质量有较好的保障,但运维效率不高,重视运维团队的建设,团队能力通 常有较好的延续性,但无法自主优化;辅助系统较为完备,部分核心子系统具备自动化能力
L3 数字运维
在 L2 的能力基础上,通过信息技术数字化运维活动,管理和驱动运维流程的执行,且基于大数据 分析能持续优化,运维质量可以准确评估,运维效率大幅提升;关键子系统如,配电和制冷实现自 动运维,基础设施资源能够感知 IT 及云业务需求变化并完成闭环管理,AI 等机器智能在节能、故 障预测等特定领域取代人类智能
阶段,以及演进和优化的目标。另一方面,对于 处在传统运维阶段的团队,本白皮书介绍了数据 中心基础设施可用性管理全景及对应的数字化, 智能化措施,利用这些信息,运维团队能更好地 规范运维管理,制定智能化运维升级的计划,并 能指导运维团队从传统运维向智能运维转型,在 智能化运维工具的帮助下,实现运维更高效、更 安全并可持续的业务目标。
运 维 流 程
传统运维
智能运维
运维演进 图1
智能化程度
2
数据中心基础设施智能运维白皮书
五大运维阶段
为了定义清楚传统运维、智能运维的变化和演进,这里划分了 L0~L5 阶段,并详细定义了每个 Level 的典型特征:
人工运维
规范运维
规范运维
数字运维
自动运维
完全自动运维
L0
L1
L2
L3
L4
L5
• 无标准化流程 • 无培训体系 • 个人承担职责 • 运维质量无法
数据中心基础设施智能运维 白皮书
数据中心基础设施智能运维白皮书
简IN介TRODUCTION
当前大部分数据中心的运维安全依赖于富有经 验、训练有素的运维团队,部分成熟的数据中心 已经开发出完善的运维流程和培训体系,并用以 减小偶发事件及人员变动对运维安全的冲击,少 数先进的数据中心已经在寻求通过数字化、智能 化手段来保障数据中心运维安全的可持续性。本 白皮书划分了从传统运维到智能化运维的 5 个阶 段,以及每个阶段的典型特征,一 方面,数据中 心的管理人员可以根据这些信息明确当前所处的

安全运维服务白皮书v2.0

安全运维服务白皮书v2.0

红科网安安全运维服务白皮书目录1.前言 (3)2.运维目标 (4)3.运维服务内容 (5)3.1日常检查维护 (5)3.2安全通告服务 (5)3.3安全评估服务 (6)3.4安全风险评估 (11)3.5渗透测试 (14)3.6补丁分发 (14)3.7安全配置与加固 (16)3.8安全保障 (17)3.9安全监控服务 (18)3.10安全产品实施服务 (19)3.11安全应急响应 (19)3.12安全培训服务 (23)4.运维体系组织架构 (26)5.运维服务流程 (28)5.1日常检查流程 (29)5.2安全评估服务流程 (30)5.3安全监控服务流程 (32)5.4安全事件处理流程 (36)5.5安全培训服务流程 (39)5.6渗透测试的流程 (40)6.安全事件处理与应急响应 (43)6.1安全事件分类 (43)6.2安全事件处理与上报流程 (44)6.3安全事件现场处理 (45)6.4安全事件的事后处理 (47)1.前言经过多年的信息化建设,大多数企业已经建立起了比较完整的信息系统。

但是,在安全运维及应急响应方面缺少一套完整的运维和应急体系来保证各类紧急事件的处理。

因此,客户通过引入专业的信息安全服务团队,来保障自身信息系统的稳定安全运行,同时通过专业的安全咨询和服务,逐步构建动态、完整、高效的客户信息安全整体,形成能持续完善、自我优化的安全运维体系和安全管理体系,提高客户信息系统的整体安全等级,为保证业务的健康发展和提升核心竞争力提供坚实的基础保障。

2.运维目标红科网安(简称:M-Sec)是国内专业的信息安全服务及咨询公司,同时,拥有国内一流的安全服务团队M-Sec Team。

我们可以为用户提供全面的、专业的、客户化的安全服务及其相关信息安全管理咨询,从而保障用户的安全系统的正常运行和持续优化。

我们以客户信息安全服务的总体框架为基础、以安全策略为指导,通过统一的安全综合管理平台,提供全面的安全服务内容,覆盖从物理通信到网络、系统平台直至数据和应用平台的各个层面的安全需求,保障信息平台的稳定持续运行。

中国信通院 企业it运维发展白皮书

中国信通院 企业it运维发展白皮书

我国信通院企业IT运维发展白皮书一、概述近年来,随着信息技术的不断发展和应用,企业的IT系统运维工作越来越重要。

作为企业信息化建设的基础和支撑,IT运维对企业的稳定运行和发展起着至关重要的作用。

我国信通院作为国内领先的通信和信息技术研究机构,对企业IT运维的发展进行了深入研究,并撰写了本白皮书,以期为企业提供参考和指导。

二、企业IT运维的发展现状1. 企业IT运维的重要性IT运维是企业信息化建设的重要环节,它关系到企业整体运行的稳定性和高效性。

合理的IT运维工作能够确保企业的业务系统正常运行、数据安全可靠、故障能够及时处理,从而为企业的发展提供有力支持。

2. 企业IT运维存在的问题虽然企业对IT运维的重视程度不断提高,但在实际运行过程中,仍然存在一些问题。

人员技术能力不足、工作流程不够规范、设备和系统管理混乱等。

这些问题严重影响了企业IT运维的效率和质量。

三、我国信通院对企业IT运维的建议1. 提高人员技术能力我国信通院建议企业加大对IT运维人员的培训和学习力度,提高他们的技术能力和服务意识。

只有拥有一支高素质的IT运维团队,企业的IT系统才能得到有效保障。

2. 规范IT运维流程规范的运维流程是确保IT系统正常运行的基础。

我国信通院提倡企业建立完善的IT运维管理制度,明确各项工作的责任和流程,保障运维工作的有序进行。

3. 部署先进的运维工具在IT运维过程中,合适的工具和系统对提高工作效率和质量至关重要。

我国信通院建议企业积极引进和使用先进的运维工具,提高系统监控、故障分析和处理的能力。

4. 加强设备和系统管理设备和系统是IT运维的基础,对其进行有效的管理能够提高IT系统的稳定性和可靠性。

我国信通院建议企业加强对设备和系统的管理,定期检查和维护,保证其正常运行。

四、结语企业IT运维的发展是一个系统工程,需要全面的考虑和有效的措施。

我国信通院将继续深入研究和探讨企业IT运维的相关问题,为企业提供更多的指导和支持。

IT运维监控系统白皮书(2024)

IT运维监控系统白皮书(2024)

引言概述:IT运维监控系统是公司或组织中至关重要的一部分,它能够实时监测、管理和维护IT系统的性能和稳定性。

本白皮书将详细阐述IT运维监控系统的重要性,以及其中包括的五个主要方面:监控需求分析、监控策略定义、监控系统实施、监控系统集成和监控系统运维,以帮助读者更好地理解和应用IT运维监控系统。

正文内容:1.监控需求分析a.确定监控目标:了解业务需求,确定监控对象、监控级别和关键性能指标。

b.确定监控范围:评估现有系统及网络基础设施,并确定需要监控的硬件、软件和网络设备。

c.确定监控频率:根据业务需求和系统重要性,确定监控频率,平衡监控精度与系统开销。

d.确定告警机制:制定告警策略,包括告警级别、告警通知方式和告警处理流程。

2.监控策略定义a.数据采集与分析:选择合适的监控工具,采集关键性能指标,并通过数据分析找出潜在问题。

b.健康状态指标定义:定义合适的健康状态指标,用于判断系统和网络设备的工作状态。

c.容量规划与性能优化:通过监控系统,收集系统负载和性能数据,为容量规划和性能优化提供依据。

d.日志记录和归档:建立日志记录机制,保存关键事件与操作,以助于系统故障的排查和整改。

3.监控系统实施a.系统选型:通过评估不同监控系统的功能和性能,选择最适合企业需求的监控系统。

b.设备部署:根据监控需求分析结果,合理布置监控设备,确保全面覆盖和高效运行。

c.数据接口配置:与现有系统进行集成和接口配置,确保数据的准确性和实时性。

d.用户权限管理:建立合理的权限管理机制,限制用户访问和操作的范围,保护系统安全性。

4.监控系统集成a.与运维管理系统集成:将监控系统与运维管理系统集成,实现故障自动报修和工单处理。

b.与服务管理系统集成:将监控系统与服务管理系统集成,建立自动化的服务交付和运维流程。

c.与安全管理系统集成:将监控系统与安全管理系统集成,实现实时威胁检测和漏洞管理。

d.与设备管理系统集成:将监控系统与设备管理系统集成,实现设备信息的自动采集和管理。

企业AIOps智能运维方案白皮书

企业AIOps智能运维方案白皮书

企业AIOps智能运维方案白皮书目录背景介绍4组织单位4编写成员5发起人5顾问5编审成员5本版本核心编写成员61、整体介绍82、AIOps 目标103、AIOps 能力框架114、AIOps 平台能力体系145、 AIOps 团队角色17 5.1 运维工程师17 5.2 运维开发工程师175.3 运维 AI 工程师176、AIOps 常见应用场景19 6.1 效率提升方向216.1.1 智能变更226.1.2 智能问答226.1.3 智能决策236.1.4 容量预测23 6.2 质量保障方向246.2.1 异常检测246.2.2 故障诊断256.2.3 故障预测256.2.4 故障自愈26 6.3 成本管理方向266.3.1 成本优化266.3.2资源优化276.3.3容量规划286.3.4性能优化287、AIOps 实施及关键技术29 7.1数据采集29 7.2数据处理30 7.3数据存储30 7.4离线和在线计算30 7.5面向 AIOps 的算法技术30说明:31附录:案例33案例1:海量时间序列异常检测的技术方案331、案例陈述332、海量时间序列异常检测的常见问题与解决方案333、总结34案例2:金融场景下的根源告警分析351、案例概述352、根源告警分析处理流程353、根源告警分析处理方法374、总结39案例3:单机房故障自愈压缩401、案例概述402、单机房故障止损流程403、单机房故障自愈的常见问题和解决方案414、单机房故障自愈的架构435、总结44背景介绍AIOps 即智能运维,其目标是,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低 IT 成本,并提高企业的产品竞争力。

Gartner 在 2016 年时便提出了 AIOps 的概念,并预测到 2020 年,AIOps 的采用率将会达到 50%。

企业AIOps智能运维方案白皮书

企业AIOps智能运维方案白皮书

企业AIOps智能运维方案白皮书目录背景介绍4组织单位4编写成员5发起人5顾问5编审成员5本版本核心编写成员61、整体介绍82、AIOps 目标103、AIOps 能力框架114、AIOps 平台能力体系145、 AIOps 团队角色17 5.1 运维工程师17 5.2 运维开发工程师175.3 运维 AI 工程师176、AIOps 常见应用场景19 6.1 效率提升方向216.1.1 智能变更226.1.2 智能问答226.1.3 智能决策236.1.4 容量预测23 6.2 质量保障方向246.2.1 异常检测246.2.2 故障诊断256.2.3 故障预测256.2.4 故障自愈26 6.3 成本管理方向266.3.1 成本优化266.3.2资源优化276.3.3容量规划286.3.4性能优化287、AIOps 实施及关键技术29 7.1数据采集29 7.2数据处理30 7.3数据存储30 7.4离线和在线计算30 7.5面向 AIOps 的算法技术30说明:31附录:案例33案例1:海量时间序列异常检测的技术方案331、案例陈述332、海量时间序列异常检测的常见问题与解决方案333、总结34案例2:金融场景下的根源告警分析351、案例概述352、根源告警分析处理流程353、根源告警分析处理方法374、总结39案例3:单机房故障自愈压缩401、案例概述402、单机房故障止损流程403、单机房故障自愈的常见问题和解决方案414、单机房故障自愈的架构435、总结44背景介绍AIOps 即智能运维,其目标是,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低 IT 成本,并提高企业的产品竞争力。

Gartner 在 2016 年时便提出了 AIOps 的概念,并预测到 2020 年,AIOps 的采用率将会达到 50%。

统一智能运维一体化监控平台V6.0 ——技术...

统一智能运维一体化监控平台V6.0 ——技术...

统一智能运维一体化监控平台 V6.0 产品白皮书
运用了先进的 Web 技术,为客户提供分角色、可视化的数据展现和管理功能。
03 产品功能
资源管理 资源管理包括了网络管理、主机管理、数据库管理、中间件管理、J2EE 服务器管理、Web 服务器管理、 邮件服务器管理、Lotus Domino 管理、目录服务器管理、标准服务管理、硬件管理。实现了 IT 系统的统 一监控、管理并对涉密信息进行加密存储,满足客户不同的监控和安全需要,可以实时了解、掌握网络硬 件软件当前的健康状况,以便评估、衡量网络的使用率,为用户进行网络系统优化和了解网络设备的处 理能力提供准确的数据,保障了客户业务的可靠运行和满足各项考核指标,预测潜在的故障,进行提前 预警。 提供了资源模型,资源模型提供了动态配置指标的功能,将指标分为多种类型,包括:信息类、性能 类、可用性,一共三类指标。信息类指标为设备的基础信息和设备的基础配置,如设备 名称、厂商、型 号、CPU 个数等;性能类为设备性能相关的指标,如设备的 CPU 占用、内存占用、端口发送流量等;可用 性为检测设备及设备的组件是否可用的指标,如设备可用性、端口开关状态等。
统一智能运维一体化监控平台是团队经过多年来持续不断的探索和实践,结合了国内外先进监测技术 进 行 研 发,拥 有 深 厚 的 技 术 沉 淀 和 严 格 的 开 发 管 理 机 制 保 证 了 系 统 运 行 的 稳 定 性、功 能 的 全 面 性 和 扩 展 性,真正打造了满足客户需求的 IT 运维管理平台,为服务运营提供支撑。系统可对客户的 IT 系统进行 7*24 小时的全面监控,提供了 IT 系统的性能监控、性能分析、故障监控、故障分析及定位、强大的报表分析 等功能,保证了客户日常运维工作的顺利开展,提升了运维工程师的网络管控水平,降低了管理层的日 常工作量,为决策层提供了可靠的数据依据。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录一、背景与需求 (3)1、背景 (3)2、需求要点 (3)二、解决方案与系统构架 (5)1、解决方案 (5)2、系统构架 (6)三、系统及运维监控功能与特点 (7)3.1 系统功能特点 (7)3.1.1 IT资源集中监控管理 (7)3.1.2、IT资源运行状态统一展示 (7)3.1.3、IT资源告警事件管理 (7)3.1.4、IT设备智能巡检 (8)3.1.5、业务维度监控 (8)3.1.6、业务维度的拓扑展示 (9)3.1.7、应用性能分析 (10)3.1.8、IT资源使用分析 (10)3.2 监控功能 (10)3.2.1、IT资源监控类型 (10)3.2.2、网络设备状态监控 (11)3.2.2、服务器状态监控 (12)3.2.3、数据库监控 (13)3.2.4、Web中间件监控 (14)3.2.5、虚拟设备监控 (17)四、部署与配置 (17)4.1、部门级部署 (17)4.2、企业应用部署 (18)4.3、集团应用部署 (19)4.4、部署要求 (20)4.5、运行环境 (20)五、效益与价值 (20)5.1、产品价值 (20)5.2、效益体现 (21)一、背景与需求1、背景随着我国工业企业及组织机构信息化建设的快速发展,越来越多的企业核心业务及机构工作的开展已经高度依赖于信息系统的应用,随着信息化的不断深入,信息系统越来越多,各类系统越来越复杂,系统间的关联度也越来越高,使得企事业单位的IT运行环境日趋复杂,各类IT设备的运行监控难度加大,由于IT系统的运行环境更加复杂,造成了机房管理、系统监控和运行维护工作变的十分困难。

目前单个的IT设备初步具有自监控的手段和方法,但由于设备的种类数量众多且分属不同的平台和厂商,导致运维监控工作各自为政,运维监控缺乏一个集中、统一的运维监控平台,使得各类设备运行事件无法做到实时统一。

由于缺少一个IT统一的监控运维平台,任何一个IT设备资源出现故障时都需要IT运维人员手工查找与排查故障产生原因和定位故障,使得运维人员对于日常的运维工作还是处于被动等待“救火式”状态之中,运维事件的发现收集操作为传统手工方式,往往是故障事件发生后,运维人员被动告知后去处理问题,严重制约IT运维的响应速度和执行效率,影响企事业单位的IT信息系统的顺利使用。

通过建立智能IT运维监控平台,对网络、硬件、安全设备、操作系统、数据库、中间件、应用系统、机房空调、UPS等资源实时监控采集,能够自动地收集信息系统中各类IT资源设备运行状态、数据库状态、中间件运行状态和网络状态等,发现各类IT 资源运行过程中的异常。

依据业务视角和设备视角分析发现已发生和潜在的各类资源问题,及时通知相关责任人和启动相关运维流程。

2、需求要点智能IT运维监控平台实现对网络、应用服务器、业务系统、各类主机资源和安全设备等运行状态的全面监控,建立对各类IT资源的各类运行状态参数的采集、分析,及时发现和定位IT设备故障,启动相关的故障解决流程。

智能IT运维监控平台可从IT视角完成对各类IT资源监控的同时,也提供从业务系统的视角对IT资源监控运维方法。

智能IT资源集中监控平台系统必须做到:●强化主动监控,实现集中管理。

以应用性能和应用系统为监控主线,集成各类监控工具,构建统一集中的IT系统资源监控平台,能够主动及时发现问题,解决被动服务的局面。

同时以自主运维为目的,主动监控,自动更新,自动实现IT运维监控管理。

●帮助定位故障,快速恢复系统运行。

建立针对IT资源的集中告警分析机制和故障预警机制,提供自动化故障处理能力,当故障产生时,可以进行故障的快速定位,很快发现问题根源并找到相应的解决方案,从而缩短故障解决时间,减少维护成本。

●提高运行效率,合理利用IT资源。

建立统一IT资源监控平台后,可以实时了解全部IT资源的使用和运行情况,根据IT业务需要从整体角度考虑资源的使用,甚至可以根据业务高峰期的不同来调剂业务系统对资源的使用。

●提供统计分析和决策支持。

通过提供各类资源的性能分析报表、资源统计报表和运维分析报表,从各个侧面、各个角度反映系统的运行状况、性能情况和运维人员工作情况,为系统升级、改造、扩容提供科学依据。

●全面直观的系统展示。

通过一个统一的门户系统,有效的展示内部的IT资源运行情况、性能状况、服务工单情况等,使得领导、管理者、技术人员能迅速了解自己关心的问题。

二、解决方案与系统构架1、解决方案智能IT资源集中监控平台以企业的实际在用IT资产和业务系统来构架监控管理的对象,建立网络管理、主机系统管理、应用服务管理和虚拟设备等IT资源的统一监控管理平台。

各项管理数据共享集中,互通互融。

IT运维监控平台即可根据IT资源类型分类监控各类IT资源,也可按照业务信息系统所依赖的IT资源建立模型,实现对业务资源模型的运维监控。

通过业务监控模型能够简化IT资源运行状态监控,提高企业IT运维的总体服务品质。

通过统一的管理系统对管辖内IT对象的运行状态和系统性能进行实时的监控,并以图形化的方式直观地展示出来。

对于系统运行的异常表现及时报警,提供故障修复功能;同时预设性能监控闸值,以帮助在系统出现问题之前提前向管理人员发出预警。

从而可以积极主动地发现问题,改变被动管理的局面,保障系统的高可用性。

整个系统以事件为核心,可将IT资源监控管理系统与ITIL运维流程系统有机地结合在一起,采用统一事件管理系统,对整个系统内的所有事件进行收集、关联分析和处理。

部分事件自动采取修复动作,同时可以有选择的将事件发送给运维流程管理系统,并按照不同类别事件预先定义的处理流程控制事件的处理。

通过事件问题管理的有效执行,将整个运维服务模式由被动支持转为主动服务。

2、系统构架如上图所示,智能IT运维集中监控系统以各种IT硬件设备的监控信息和日志信息做为数据源,以各类数据的流转和处理为功能划分依据,将总体功能分为4大类别:⏹数据采集功能:根据平台指定的运维策略,数据采集层负责从网络设备、安全设备、业务系统、服务器等采集各类运行信息、日志信息、流量信息,经过数据格式标准化、数据归并、数据压缩等处理后,提交给上层数据处理平台。

采集后的信息经过归并汇总后可在系统中进行查看和编辑。

⏹数据处理功能:平台将采集到的原始数据按照业务系统数据、IT资源状态数据、网络数据、日志数据进行分门别类,经过基于统计、基于资产、基于规则的关联分析后,科学合理的定义运维事件的性质和处理级别,作为展示平台的数据基础。

⏹数据分析功能:以丰富的报表展示手段对各类数据进行直观显示,辅助以网络拓扑图形化功能为平台用户提供方便快捷的信息获取途径。

对于运维数据分析,也会借助知识库提供的分析策略,提高数据分析的准确性。

⏹监控预警功能:实现整个平台的灵活展示和配置管理。

一方面通过丰富的图形化展示方式呈现IT资源、业务网络系统的整体运行状况和安全,提供有效的安全预警,减少IT资源故障和安全破坏的发生,降低事故所造成的损失。

三、系统及运维监控功能与特点3.1 系统功能特点3.1.1 IT资源集中监控管理通过统一的IT运维监控管理平台,企业可从设备分类和业务信息系统视角出发,实现对服务器系统、网络、安全产品、操作系统、数据库、中间件、应用系统、储存设备、IT 环境等系统的状态和性能的实时监控。

提供统一的用户界面,统一的管理手段,准确反映各类设备运行状态和性能。

对于服务器系统及网络运行的异常表现进行预警,能够实时产生趋势性能分析报告、统计报告、TOP-N报告和历史报告。

为优化IT系统性能和解决故障提供数据分析依据。

集中监控系统应支持有代理和无代理的监控方式,对各类应用服务器的配置数据、性能数据、告警数据进行采集。

同时集中监控管理系统能够通过多种监测工具自动地定期和不定期监测服务器系统、网络系统、数据库等设备的基本配置数据。

3.1.2、IT资源运行状态统一展示集中监控系统的监控视图实现对所有被监控对象告警的统一监控、集中展现。

监控视图可以展示不同监控偏重的IT资源监控视图,如网络拓扑视图、资源状态视图、业务应用视图、安全视图、存储视图等。

对不同的用户可提供不同的监控界面,显示不同的监测内容。

对管理人员显示对业务影响较为严重的告警和告警处理记录。

对具体的维护人员,根据其分工,显示不同的监测内容,不同的告警信息,便于具体IT运维人员及时发现问题和处理问题。

3.1.3、IT资源告警事件管理通过对采集的IT资源数据过滤、压缩、归并、聚合,通过关联分析技术,提取有效的告警信息上报告警中心。

系统提供了灵活的告警设置,多样的告警推送方式。

系统告警规则可实现快速设置,预置大量告警规则,提供基于设备类型指标参数的告警批量设置。

告警的推送方式支持短信、邮件、微信等。

系统提供灵活的告警查询方式,可通过告警检测指标进行统一查询,实现指标统一分析;也可通过设备IP查询该设备上所有的告警。

告警事件展示分为两种,即列表式告警事件展示和拓扑式告警展示。

列表式告警显示是展示完整、统一的图形化告警事件界面,集中显示各IT资源发生的各类告警事件,确保运维人员可以及时响应;拓扑式告警显示是在拓扑图上实时以不同的颜色标识显示告警信息,提醒运维人员注意。

3.1.4、IT设备智能巡检系统可以按照IT运维的管理要求实现不同频度对不同设备运行状态的无人智能巡检,巡检的设备运行状态数据依据自主学习的业务基线以及业界规范基准值进行分析检测;并将巡检异常以实时状态、越界统计、巡检报表、智能策略方式进行反应。

智能巡检对于不符合内置检测闸值的事件定义为越界事件,系统以越界事件的出现规律进行数据判断,提供完善的分析统计,包含等级、时间、指标、IP范围的越界比例TOP N 分析,周越界比率增长TOP N,月越界比率TOP N。

对于短期内出现越界过多的指标,系统通知相关运维人员。

3.1.5、业务维度监控系统提供灵活的业务定义方式,可以将网络、主机、数据库、应用、存储、虚拟化等IT资源作为相关业务的组成单元,从业务应用视角提供给客户对IT 资源的监控方式。

可以通过业务视图发现业务组件的故障点,从业务组件到对应的IT资源设备,实现完整IT资源监控和快速定位故障的效果。

业务信息监控系统应具有良好的开放性,提供丰富的开放接口,满足对新应用系统的监控定制需求,便于用户对新应用系统的监控部署。

⏹能够监控各业务系统的实时工作状态,及时发现各业务系统的硬件宕机和逻辑宕机故障;⏹可建立基于网络系统、服务器主机系统、数据库系统和中间件应用系统之上的企业综合业务监控管理系统;⏹能够监控各业务系统的整体运行效率;在监控整体效率的基础上,可将与业务系统相关联的IT资源分解,可监控单个IT资源的执行效率,发现影响业务系统运行效率的系统和设备;⏹能够对业务系统涉及的IT资源进行组合,形成以业务视角的运行状态监控管理方式,从业务视角可查看各IT资源单元的运行状态;⏹能够监控业务系统的关键进程和资源占用情况;能够监控业务系统所涉及IT系统的运行日志,对系统日志进行分析。

相关文档
最新文档