IT集中运行监控系统解决方案白皮书
IT数据中心运维服务白皮书

IT数据中心运维服务白皮书IT数据中心运维服务白皮书1、简介1.1 背景1.2 目的1.3 范围2、数据中心运维概述2.1 定义2.2 目标2.3 重要性3、数据中心运维流程3.1 设备监控3.1.1 监控工具3.1.2 告警处理3.2 设备维护3.2.1 定期维护3.2.2 预防性维护3.3 容量规划与增长3.3.1 现有资源评估 3.3.2 容量规划策略 3.4 安全措施3.4.1 物理安全3.4.2 逻辑安全3.5 数据备份与恢复3.5.1 备份策略3.5.2 恢复测试4、运维服务级别协议4.1 定义4.2 协议内容4.2.1 运维响应时间 4.2.2 故障处理时间 4.2.3 售后支持4.3 违约责任和违约处理5、数据中心运维团队5.1 团队组成5.2 人员角色与职责5.3 培训与发展计划6、数据中心运维最佳实践6.1 设备标准化6.2 问题管理6.3 自动化工具和流程6.4 文档管理和知识库6.5 持续改进7、附件附件二、数据中心设备监控工具推荐注释:法律名词及注释:1、运维:维护与运营的合称,是指对设备、系统或网络等进行管理、维护和保养,以确保其正常运行和可靠性。
2、数据中心:指用于集中托管大量计算机服务器、存储系统和网络设备的设施,用于处理、存储和传输大量数据和信息。
3、服务级别协议:是提供给客户和运维服务提供商之间的协议,明确了双方对于服务响应时间、故障处理、售后支持等方面的约定。
4、违约责任和违约处理:指当一方违反了服务级别协议中的约定时,另一方可以要求违约方承担相应责任,并对违约行为进行处理。
5、自动化工具和流程:指使用自动化软件和流程来提高运维效率,减少人为操作错误的发生。
6、持续改进:指持续对运维流程和实践进行审查和改进,以提高运维效率和质量。
IT运维监控系统白皮书

IT运维监控系统白皮书哎呀,要说这IT 运维监控系统,那可真是个让人又爱又恨的家伙!先给您讲讲我之前碰到的一个事儿。
有一次,我们公司的网络突然变得奇慢无比,大家都急得像热锅上的蚂蚁。
我这个负责运维的,那压力山大呀!后来一查,原来是服务器负载过高,可之前居然没发现任何预警。
从那时候起,我就深刻意识到一个强大的 IT 运维监控系统有多么重要。
那到底啥是 IT 运维监控系统呢?简单来说,它就像是一个 24 小时不眨眼的超级保安,时刻盯着咱们的 IT 设备和系统,一旦有啥风吹草动,立马发出警报。
比如说,它能监控服务器的运行状态。
像 CPU 使用率、内存占用率、硬盘读写速度等等,这些数据它都能实时掌握。
一旦某个指标超过了设定的阈值,它就会“大声嚷嚷”,提醒我们赶紧采取措施,免得服务器崩溃,造成大麻烦。
再比如说网络设备,它能监控路由器、交换机的工作情况。
哪个端口出问题啦,网络流量突然异常啦,它都能第一时间发现,让我们能够迅速定位并解决问题,保障网络的畅通无阻。
还有应用程序,不管是网站、数据库还是各种软件,它都能监控它们的运行情况。
如果某个应用程序突然卡顿或者停止响应,它也能及时通知我们,避免影响业务的正常开展。
而且啊,这 IT 运维监控系统可不只是会报警,它还能帮我们收集和分析数据。
通过长期的数据积累,我们可以发现一些潜在的问题和趋势,提前做好预防和优化,就像给机器提前打预防针一样。
比如说,通过分析服务器的性能数据,我们可能会发现某个时间段服务器的负载总是特别高,那我们就可以提前增加资源或者优化程序,避免在这个时间段出现问题。
另外,一个好的IT 运维监控系统还得操作简单、界面友好。
毕竟,咱们运维人员可不想整天对着一堆复杂难懂的界面和参数发愁。
它得能让我们一目了然地看到关键信息,快速找到问题所在。
还有哦,它得有强大的扩展性。
随着公司业务的发展,IT 设备和系统会越来越多,如果监控系统不能方便地扩展,那可就跟不上节奏啦。
IT运维监控系统白皮书(2024)

引言概述:IT运维监控系统是公司或组织中至关重要的一部分,它能够实时监测、管理和维护IT系统的性能和稳定性。
本白皮书将详细阐述IT运维监控系统的重要性,以及其中包括的五个主要方面:监控需求分析、监控策略定义、监控系统实施、监控系统集成和监控系统运维,以帮助读者更好地理解和应用IT运维监控系统。
正文内容:1.监控需求分析a.确定监控目标:了解业务需求,确定监控对象、监控级别和关键性能指标。
b.确定监控范围:评估现有系统及网络基础设施,并确定需要监控的硬件、软件和网络设备。
c.确定监控频率:根据业务需求和系统重要性,确定监控频率,平衡监控精度与系统开销。
d.确定告警机制:制定告警策略,包括告警级别、告警通知方式和告警处理流程。
2.监控策略定义a.数据采集与分析:选择合适的监控工具,采集关键性能指标,并通过数据分析找出潜在问题。
b.健康状态指标定义:定义合适的健康状态指标,用于判断系统和网络设备的工作状态。
c.容量规划与性能优化:通过监控系统,收集系统负载和性能数据,为容量规划和性能优化提供依据。
d.日志记录和归档:建立日志记录机制,保存关键事件与操作,以助于系统故障的排查和整改。
3.监控系统实施a.系统选型:通过评估不同监控系统的功能和性能,选择最适合企业需求的监控系统。
b.设备部署:根据监控需求分析结果,合理布置监控设备,确保全面覆盖和高效运行。
c.数据接口配置:与现有系统进行集成和接口配置,确保数据的准确性和实时性。
d.用户权限管理:建立合理的权限管理机制,限制用户访问和操作的范围,保护系统安全性。
4.监控系统集成a.与运维管理系统集成:将监控系统与运维管理系统集成,实现故障自动报修和工单处理。
b.与服务管理系统集成:将监控系统与服务管理系统集成,建立自动化的服务交付和运维流程。
c.与安全管理系统集成:将监控系统与安全管理系统集成,实现实时威胁检测和漏洞管理。
d.与设备管理系统集成:将监控系统与设备管理系统集成,实现设备信息的自动采集和管理。
IT综合监控平台技术白皮书

IT综合监控平台技术白皮书IT综合监控平台– APEX IMAPEX IntegrationManager是一款以业务系统的综合监控为核心,全方位的IT综合监控平台,从业务系统视角出发,对IT基础设施(网络、服务器硬件、软件及服务)进行全面监控,保障业务系统正常稳定可靠运行,支持的监控类型超过数十种,支持的监控指标超过数千个。
IM的主要功能:●网络设备、链路监控支持交换机、路由器、防火墙等网络设备的监控、支持链路流量、链路带宽利用率、链路丢包率、链路错包率等指标的监控,可以帮助网络管理员实时监控各台网络设备的可用性和负载情况,以及各条链路的当前可用性、流量大小情况,并支持通过曲线图查看链路的历史流量情况。
●服务器监控支持Windows、AIX、Linux、Solaris、HP-UX等服务器的监控,能够监控服务器的CPU使用率、物理内存/虚拟内存使用率、磁盘分区使用情况、磁盘IO (包括平均每秒IO请求数、平均每秒读字节数、平均每秒写字节数、IO等待队列深度、平均IO完成时间等关键指标)、系统进程与服务的运行情况、系统日志(EventLog与Syslog)、服务器系统时间等。
服务器硬件状态监控支持IBM、DELL、HP服务器的硬件状态(服务器需支持IPMI协议),包括机箱温度、电源电源、风扇状态和转速虚拟化监控支持对Vmware vSphere虚拟机环境进行监控,对虚拟环境的监控方式是通过vCenter Server对ESX/ESXi宿主机间接进行监控,所有的数据均从vCenter Server上获取,不直接与ESX/ESXi宿主机进行通讯。
即APEX IT监控系统与vCenter Server通过SOAP/HTTP协议集成,对整个虚拟环境进行监控。
宿主机对于物理机,也就是宿主机,支持获取该物理机的硬件配置情况,包括:宿主机上安装的ESX/ESXi软件fullName、支持的SDK API的版本号。
共济IT一体化集中监控系统方案建议书

IT一体化集中监控系统方案建议书深圳市共济科技有限公司2012年04月IT监控修订历史记录目录修订历史记录 (1)第1章背景和需求 (6)1.1.项目背景 (6)1.2.项目建设目标 (6)1.3.需求概述 (7)第2章系统设计 (8)2.1.功能模块 (8)2.2.系统部署架构 (9)2.3.软件架构 (12)2.4.系统流程 (13)2.4.1.主要流程 (13)2.4.2.数据流程 (14)第3章主要功能及监控范围 (17)3.1.主要功能 (17)3.2.监控范围 (18)第4章实时监控 (20)4.1.服务器 (20)4.1.1.监控指标 (20)4.1.2.界面展示 (22)4.2.网络安全设备 (22)4.2.1.监控指标 (22)4.2.2.界面展示 (25)4.3.存储设备 (25)4.3.1.监控指标 (25)4.3.2.界面展示 (26)4.4.数据库 (27)4.4.1.监控指标 (27)4.4.2.界面展示 (31)4.5.中间件 (32)4.5.1.监控指标 (32)4.5.2.界面展示 (33)4.6.应用软件 (34)4.6.1.监控指标 (34)第5章实时监控—设备监控 (35)5.1.设备监控列表 (35)5.2.监控指标列表 (37)5.3.列表导出 (37)第6章实时监控—监控仪表板 (38)第7章实时监控—IP冲突监控 (39)7.1.实时IP冲突管理 (39)7.2.IP历史变更记录 (40)7.3.IP验证管理 (40)第8章事件告警 (41)8.1.实时事件和告警查看 (41)8.2.告警管理 (41)8.3.事件管理 (42)第9章工单管理 (43)9.1.产生工单 (43)9.2.派发工单 (44)9.3.处理工单 (45)9.4.工单汇总 (48)9.5.工单地址管理 (48)9.6.工单故障类型管理 (49)第10章知识库 (50)10.1.工单归档 (50)10.2.历史故障经验库 (50)10.3.预案库管理 (51)第11章值班管理 (53)11.1.机房进出登记 (53)11.2.交接班登记 (54)11.3.班次管理 (56)11.4.计划作业 (58)第12章统计报表 (60)12.1.性能统计报表 (60)12.2.事件统计报表 (60)12.3.工单统计报表 (61)12.4.服务器资源统计报表 (62)第13章系统管理 (63)13.1.WEB端的系统管理 (63)13.2.监控应用服务器的系统管理 (64)第14章系统特点 (67)14.1.以高效服务业务为目的 (67)14.2.全面集中监控 (67)14.3.轻量级的产品,完成监控管一体化 (67)14.4.安全可信 (67)14.5.实施快,见效快,容易上手 (68)14.6.维护容易 (68)第15章运行环境 (69)15.1.一体化集中监控服务器的配置要求 (69)15.2.数据库服务器的配置要求 (69)15.3.告警网关的配置要求 (69)第16章典型案例 (70)第1章背景和需求1.1. 项目背景保障数据中心核心业务系统安全高效可靠地运行,是信息系统管理部门的重要职责和伟大目标,也是IT人的使命所在。
视频监控智能运维系统技术白皮书V3.8--更新断电检测

目录第一章编写目的 (3)1.1目的 (3)1.2解释权 (3)第二章系统背景 (3)2.1现状 (3)2.2发展趋势 (5)2.3政策导向 (6)第三章系统概述 (6)3.1系统简介 (6)3.2系统架构部署 (7)3.3系统优势特点 (7)3.3.1系统优势 (7)3.3.2系统特点 (8)第四章系统监控管理模块介绍 (10)4.1设备故障报警模块 (10)4.2状态巡检模块 (10)4.2.1视频图像巡检 (11)4.2.2编解码设备巡检 (11)4.3实时视频点播模块 (12)4.4视频质量诊断模块 (12)4.5录像巡检模块 (16)4.5.1录像计划巡检 (16)4.5.2录像计划巡检 (16)4.5.3硬盘状态巡检 (16)4.6历史查询模块 (17)4.6.1报表查询分析 (17)4.6.2统计分析 (18)4.6.3日报表 (18)4.7系统管理模块 (19)4.7.1诊断分组 (19)4.7.2诊断参数 (20)4.7.3诊断任务 (21)4.7.4巡检分组 (22)4.7.5巡检参数 (23)4.7.6巡检任务 (24)4.7.7 高级设置 (25)4.8客户端运维模块 (26)4.8.1运维管理 (26)4.8.2知识库管理 (27)4.8.3彩信查询 (28)4.8.4人员管理 (29)第五章系统组件介绍 (30)5.1诊断主机 (30)5.2CS监管客户端 (31)5.3管理主机 (31)第六章系统技术综述 (32)6.1整体技术架构 (32)6.2诊断算法特点 (33)6.2.1功能说明 (33)6.2.2视频质量检测项说明 (34)6.2.3诊断算法性能 (35)6.2.4诊断服务性能 (35)第一章编写目的1.1目的为了使客户从技术层面更加便捷的了解视频监控智能运维系统,特制定本技术白皮书。
本技术白皮书为本公司企业技术标准,介绍了视频监控智能运维系统的相关技术与应用。
IT运维_网络质量监测系统(PMS)白皮书

一、前言随着信息技术的迅速发展,IT系统的建设以高于30%的速度逐年递增。
通讯、金融、教育、交通、政府、企业等各个行业的迅猛发展都越来越密切的依赖于现代化的IT信息网络平台。
但是高速发展的同时,各行业巨大的IT维护和管理成本也在与日俱增,IT系统建设的健康性和可管理性越来越让人担忧。
目前,IT系统中的故障诊断通常采用被动监测的方法,这种被动采集、后续处理的方法论在简单的网络拓扑结构中,诊断由于配置错误、硬件和线路故障所造成的IT系统基础架构问题,通常能够满足运维的需求。
然而,现在的企业运维人员经常面临许多由于4-7层协议所引起的业务可用性、响应性能问题,由于缺乏系统的方法和便于操作、部署的业务、网络质量监测分析系统,对于业务、应用层面问题的诊断往往会花费大量时间且不得要领,一般情况下,还需要多次现场人工测试才能发现并解决问题。
随着企业IP网络和业务的日益融合,IT系统运维工作对于能够诊断业务可用性、响应性能下降和故障的管理方法论和管理工具的需求变得越来越迫切。
运维人员需要快速发现、隔离和修复各种复杂、间歇性的网络、业务问题,并准确地将不同层面的问题转交给合适的部门或供应商处理。
东华软件的ForceView IT运维PMS网络质量监测系统可以帮助企业运维人员在IT系统中任意节点、任意节点间快速发起准确、可靠的业务层和网络层的可用性、性能主动测量、动态监测、诊断分析,而无需派遣现场工程师到现场进行检测,提高运维工作效率,大大减少解决问题所需的时间。
二、系统概览ForceView IT运维体系是东华软件经过多年经验积累、维护实践、自主研发和技术创新的结晶。
该运维体系产品采用基于Web的集中管理模式,遵循面向对象的设计结构,实现SOA模块化管理,具有先进性、安全性、开放性、可扩展性、高效性、高可靠性等特点。
该体系融合了综合监控系统、服务管理系统、流量管理系统、桌面管理系统,以实现运维工作的可用性目标、流程化目标、有效性目标、合规性目标。
Smart数字化集中监控系统技术白皮书

Smart数字集中监控系统技术手册目录一、产品概述 (3)Smart系统简介: (3)Smart系统适用对象: (4)Smart系统结构: (4)二、产品技术特点 (6)1、先进的系统设计 (6)2、完善的管理功能 (6)3、灵活的分布式网络 (7)4、完善的专业功能 (7)5、系统稳定可靠 (7)6、友好的操作界面 (8)7、高度的实时性 (8)8、流媒体服务 (8)三、产品功能介绍 (9)1、图像预览 (9)2、网络传送 (11)3、图像回放 (12)4、系统日志 (13)5、报警联动 (14)6、系统计划 (16)7、集中存储 (17)8、电视墙 (18)9、外部扩展 (18)10、WEB访问 (21)11、用户权限管理 (22)11、电子地图 (22)四、典型应用 (23)五、软件性能指标 (26)六运行环境 (29)七、服务与支持 (29)序言Smart数字集中监控系统为耗时一年,投入大量人力物力,专门为大型联网集中监控系统精心打造的软件系统,其内容涵盖了目前集中监控系统所需要的所有元素,如实时监控,跨地市级别联网,多种监控设备的兼容使用,分布式集中存储等。
该系统针对目前视频监控行业的发展也实时地提出了自己的一些设计理念,如软件模块的多功能化,智能回放录像文件,网络上采用完成端口技术提高网传效率。
其整体框架由本行业资深研发人员设计,采用模块化组合技术,所有的功能由不同的模块实现,其中最基本的集中监控管理平台、流媒体服务器、嵌入式适配器和前端视频采集服务器等都是独立的模块,根据不同的需求可以任意组合拆卸,为了最大程度保证系统整体性能以及安全性,良好的框架结构适合目前以及将来视频集中监控系统的各种需要,该系统是目前监控行业搭建新系统以及改造原有的监控系统的首选。
术语定义集中监控管理平台:是Smart数字化集中监控系统的组成单元,一个Smart系统可以拥有任意个集中监控管理平台,提供实时远程预览,智能远程回放,集中存储录像文件、报警联动、远程控制前端设备等功能;前端设备:与集中监控管理平台连接的设备,用于向集中监控管理平台提供信号和信息;如:板卡式DVR、嵌入式DVR或DVS、模拟摄像机、数字摄像机、网络摄像机、报警主机、云台等;一、产品概述Smart系统简介:Smart是一个大型网络化集中监控管理系统,采用分布式网络拓扑结构,支持流媒体转发和网络直接连接前端视频采集服务器:1、具有很强的扩展性,根据客户需求可以任意扩充监控点,一个监控点就是一个集中监控管理平台。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
广州中软信息技术有限公司目录1 概述 (3)2 解决方案 (3)2.1技术架构 (3)2.1.1总体逻辑架构 (3)2.1.2系统部署架构 (5)2.2功能设计 (6)2.2.1数据采集及处理中心 (6)2.2.2集中展现平台 (11)2.2.3统一管理数据库 (20)2.2.4系统外部接口 (24)3 运行环境 (24)3.1 硬件 (24)3.2 软件 (25)4 应用案例 (26)1 概述广州中软IT集中运行监控管理系统(BHM)是一个能够促进企业的IT运维管理与业务管理相融合的IT运维综合性管理平台。
它通过透明化企业IT基础架构和透明化企业IT运维过程来满足IT运维工作在操作层、管理层、决策层等不同层次的需求,达到延长企业服务的在线时间以及提高客户对业务服务的满意度的目的。
广州中软IT集中运行监控管理系统(BHM)不仅仅是工具,结合了广州中软公司多年在各行业的运维经验,其主要特点是:订制能力强、扩展性好、覆盖范围广、可复用企业已有资源、跨平台,面向服务、支持多级部署集中展现、安全可靠、稳定高效。
广州中软IT集中运行监控管理系统(BHM)经历过大型项目的洗礼,在各行业应用的口碑,完善的售后服务保障,高效、诚信且实力雄厚的实施服务团队,较之市场上类似产品的功能堆砌(简单的数据接入)模式,广州中软IT集中运行监控管理系统(BHM)更强调的是对各领域监控数据的集中关联分析模式。
2 解决方案2.1技术架构2.1.1总体逻辑架构对系统逻辑架构的设计,广州中软建议采用多层设计,依据对IT基础设施集中监控平台的建设需求,将系统分成监控对象层、数据采集及处理中心、集中展现平台以及统一管理数据库。
如下图所示:网络及安全设备其他设备服务器/数据库/中间件(1) 数据采集及处理中心数据采集及处理中心包含了数据采集器、统一数据处理引擎、统一事件处理引擎三个逻辑组件。
其中,数据采集器根据采集策略对所有IT 资源对象的资源配置数据、性能指标数据、日志数据、状态数据等进行采集,并将采集到的数据推送给统一数据处理引擎进行处理。
统一数据处理引擎进行数据分类、资产关联、业务关联以及阈值比对后转发给统一管理数据库存储或交由统一事件处理引擎做进一步的处理。
统一事件处理引擎对接收到原始告警数据将根据告警策略对告警信息进行过滤、去重、关联、归并以及执行相应的处理动作(如:自动确认、短信通知等)。
IT 资源对象主要包括网络设备、安全设备、主机、数据库、中间件等。
(2) 集中展现平台集中展现平台作为IT 监控系统的统一人机交互界面,由业务和配置两种视图以及为这些视图提供服务的一系列组件构成,该应用支持LADP 系统安全认证方式。
(3) 统一管理数据库统一管理数据库是IT 监控系统的数据核心,保存IT 监控系统的各类数据信息。
统一管理数据库主要保存六大类数据,它们分别是资源数据(操作相关的配置信息)、资产数据(设备配置信息)、 告警数据(异常状况相关的信息)、性能数据(表明设备运行状态的信息)、元数据(对统一管理数据库中存放的系统相关数据的描述)、调和规则(系统在进行数据调和时的规则)。
2.1.2系统部署架构IT 监控系统的部署架构如下图所示:网络及安全设备其他设备服务器/数据库/中间件系统部署架构图(1)部署数据采集及处理中心通常情况下,IT监控系统内置一个信息处理中心服务器即可,但在大数据量的情况下,可线性复制多个信息处理中心样本。
应确保部署数据采集及处理中心的服务器与被监控对象之间的协议通信畅通。
(2)部署集中展现平台应确保部署集中展现平台的服务器与统一管理数据库服务器JDBC通讯畅通以及与数据采集及处理中心服务器的SOCKET以及HTTP通讯畅通。
(3)部署统一管理数据库应确保部署统一管理数据库的服务器与集中展现平台服务器JDBC通讯畅通以及与数据采集及处理中心服务器的SOCKET以及HTTP通讯畅通。
2.2功能设计2.2.1数据采集及处理中心数据采集及处理中心主要负责采集并处理监控对象的数据,并根据业务需求将数据分发到集中展现平台和统一管理数据库,它是由多个数据采集器、一个数据缓存池以及一系列数据处理引擎组合而成。
2.2.1.1数据采集器数据采集器持续采集监控对象相关的配置、运行、性能、告警等数据,为IT 监控系统对设备实施监控和管理提供了基础。
2.2.1.1.2采集器功能要求(1)支持动态采集策略定义根据使用情况自动或者手动调整数据获取的周期、范围和方式等策略。
(2)采集器支持汇聚采集具有灵活的分布式部署机制,可以实现汇聚采集也可以进行单独采集。
(3)高效的采集设计尽可能少的占用被管对象资源进行数据采集。
(4)数据预处理采集器经过预加工实现数据的过滤加工。
(5)支持自定义采集脚本开发不修改代码的前提,实现非标数据的自定义采集。
无代理系统管理解决方案无需安装任何程序,通过标准的接口或者协议方式获取监测数据。
(1)SNMP采集器支持SNMPv1、v2、v3 标准,采集器通过查询(Polling)和自陷(Trap)相结合的方式获取被管设备的性能数据、事件数据、配置数据。
采集的范围:♦主机的性能、配置和日志数据。
♦网络设备的性能、配置、日志数据。
♦安全设备的性能、配置、日志数据。
(2)JDBC采集器通过对被监控数据库基表的查询采集数据库的运行状况信息。
采集的范围:数据库的配置、性能、日志信息。
(3)JMX采集器通过JMX的方式采集中间件的运行状况信息。
采集的范围:中间件的配置、性能、日志信息。
(4)其他采集器支持Telnet、SSH 和WMI 等无代理方式的数据采集。
通过脚本开发实现可配置的数据采集。
采集的范围:Windows、各种Unix/Linux操作系统的配置、性能数据。
2.2.1.2统一数据处理引擎2.2.1.2.1性能数据处理当收集到的性能数据值超越定义的门限时,会向指定人员发出相应的越限告警,告警参数包括:告警源、告警时间、告警级别、告警原因、阈值信息。
性能数据存储在系统中,系统应能对定期收集到的数据进行统计、分析和处理,结合资源的构成情况,将收集到的性能数据通过一定的算法进行分析和处理,以此来反映被监控对象的性能质量。
2.2.1.2.2配置数据处理对采集到的配置数据与配置库进行比对,系统能够自动判断其是否出现变更,并在发现异常时生成配置变更告警。
2.2.1.2.3事件数据处理事件处理是集中监控管理中一个重要的组成部分,IT监控系统应提供统一的事件处理机制,实现对IT设备事件的集中处理。
统一事件管理要求遵循以下步骤:1.事件信息分类事件信息类别:系统平台事件,包括:主机事件、数据库事件、中间件事件、应用系统事件等。
事件信息内容:事件的序列、事件标识、事件初次发生时间、事件最后发生时间、事件次数、事件类型、事件级别、事件源、事件负责人、事件标题、事件内容、被管对象联系人等。
事件的结构可进行增加和修改,可以灵活定制事件的显示格式,增加的扩展属性都可以定义到事件的显示内容中,不同类别的事件支持不同的显示模板。
2.事件信息的汇总信息汇总过程中支持信息的过滤,过滤条件可以灵活制定,如按照事件的类型、对象、级别、描述、位置、发生时间等条件以及多种条件的组合,可以根据用户的事件管理需要进行过滤规则的定义。
提供信息格式统一化规则,将不同来源的管理信息,如网络、系统、应用的事件信息标准化,为后期的处理和分析提供方便。
3.重复事件压缩4.事件关联分析5.事件自动化处理6.事件信息丰富将事件信息与相关资源信息(如该设备的位置,负责人等)进行关联,使管理人员在收到报警的同时,直接就可以查看到相关的内容,不用进行额外的手工查询工作。
7.事件报警通知及任务分配提供基础的告警通知流程功能,如哪些事件应该由什么人处理,故障在一定时间内没有解决应该如何进行升级和通知等,统一事件管理平台要能够根据策略驱动不同的报警程序。
告警事件在产生后,可自动分配给负责的支持人员,或者由值班人员手工转发给相应支持人员。
事件数据处理需支持多种方式报警,包括电子邮件、声音、页面提示、手机短信等多种方式通知。
告警事件的内容包含告警来源、告警标题、告警级别、发生时间等,信息可以灵活定制。
2.2.2集中展现平台集中展现平台位于IT集中运行监控系统的最上层,是系统和用户之间的接口,提供给用户监控、浏览、操作整个系统的唯一通道。
集中展现平台通过对监控对象的异常情况、事件进行告警通知、处理,最终形成一个集发现、展示、告警、处理为一体的综合监控平台。
2.2.2.1资产管理资产管理视图满足用户对监控对象的配置信息维护要求,支持网络设备、安全设备、服务器、数据库、中间件,业务系统等监控对象的配置以及地理位置等信息维护;可维护对象之间的关联关系,如网络连接的对端设备、应用软件所处宿主服务器;监控对象资源树视图维护,可按照设备类型、业务系统或自定义分组来组织监控对象资源树,建立更加合理的管理视图。
资产管理视图具体由以下基本视图构成:2.2.2.2性能分析视图性能分析视图满足用户查看各种监控设备的性能信息要求,包括网络设备、主机设备、中间件、数据库等性能信息。
性能分析视图由以下基本视图组成:2.2.2.3业务系统分析视图通过业务系统分析视图可对已有的各个业务应用系统的软、硬件的组成情况以及它们的运行状况一目了然。
同时,从业务的视角对业务应用系统的关键交易进行响应情况的实时展现,从而更加直观的反映该业务系统的可用性。
业务系统分析视图具体由以下基本视图构成:2.2.2.4告警管理视图告警管理模块汇聚了安全告警、性能告警、故障告警、状态告警等所有IT 设备的告警并进行集中展现。
通过告警管理视图可方便的进行故障定位、查看告警的详细信息、快捷的找到类似告警的处理意见、并可实现告警的确认、取消确认、短信通知、邮件通知、告警升级等告警处理操作。
告警管理功能模块通过与IT服务管理系统等系统进行结合,可实现问题的闭环管理。
告警分析视图具体由以下基本视图构成:➢告警总览视图告警总览主要通过告警类型、告警级别、告警状态以及业务系统等几个维度,对告警状况进行图形化展现,通过直观的方式为用户展现告警的各方面状况信息。
➢综合查询视图告警综合查询视图提供了一个全面的告警搜索查询列表,用户可根据设定各方面的条件对告警进行查询以及处理。
告警的处理方式包括:确认、取消确认等。
2.2.2.5统计分析报表2.2.2.5.1资产统计报表能够反映资源资产情况,按照生产厂商、业务系统、设备型号、设备类型、联系部门、地理位置等多种维度组合查询功能,使维护人员能够清晰地了解IT 系统中各种设备、软件、应用的资源配置情况。
报表查询可以按照整体统计或设备明细进行,通过统计报表的向下钻取也可得到明细报表。