网络故障告警关联技术的讨论

合集下载

一种基于相关度统计的告警事件关联算法

一种基于相关度统计的告警事件关联算法
Ev n : e t Sa t mp > :< < Ev ntI > ;< Ev n — me > ;< S u c e —D e tNa o r e> ;< Tme i — , > :< V ra l ls a i be it>
_
体 的运行状 态 和行 为 J是 网络故 障管 理 的基 本依 据。然 而 , ,
第2 7卷 第 6期
21 0 0年 6月
计 算机 应 用与软 件
Co u e pl ai n n o t r mp trAp i to sa d S fwa e c
V0 . 7 No. 12 6
Jn 0 0 u .2 1

种 基 于相 关 度 统 计 的告 警 事 件 关 联 算 法
而触 发的消息。一个 网络 事件 可以是 网络对象 直接产 生 , 可 也
0 引 言
大规模 分布式网络包含 大量 的网络 实体 , 它们在 运行 过程
中会 产 生 各 种 各 样 的 网络 事 件 , 些 事 件 潜 在 地 展 示 了 网 络 实 这
以由网络 监视器轮询产生 。所有能够感知该状态 变化 的网络 对 象都 可能触发网络事件 。形式化表示 :
oN Co RRELATI oN STATI TI S CS
LuQa g Y n u x n H a gG o ig i in a gY e i g a u n apn
(colfC m ue S 4 0 7 H n n C ia Sh o o o p t c neN t a i rt o D c eh oo ,h n sa,1 03, u a , hn ) r e o U v syf g
i h sp p rw e a ae te a a le e t it o te e t a d c n u r n v n s w ih a e c u e y t e s me fu t T r u h t esait so n t i a e e s p r t h l r v ns n o ro v n s n o c r t e t , h c r a s d b h a a l h o g h tt i f u e e . sc

光纤通信工程中光缆线路故障告警技术

光纤通信工程中光缆线路故障告警技术

0引言随着现代化社会的不断发展,在光线通信工程中,光缆线路的故障检测与维护问题备受瞩目。

光纤通信工程师对线路故障进行实时检测和判断,不仅可以及时处理故障,还可以提升光纤通信的网络传输速率。

运用故障排查设备检测光纤线路,对光纤毁损、断纤、老化、受潮、弯曲等故障信息进行整合,减少附加损耗的产生。

同时,可以结合光传感技术与计算机网络技术在线监测光纤网络,实现对光纤故障的准确定位和实时预警,提高光纤通信质量,提升通信工程管理的数字化、智能化水平及光缆兼容性[1]。

近年来,随着光缆数量不断增加,早期的故障检测设备更新缓慢,导致线路中的故障问题越来越频繁地出现。

在光缆线路维护工作中,存在寻找故障难,排查故障用时久的问题,严重影响光纤通信过程中的通信质量,还会造成较严重的经济和人身财产等损失[2]。

因此,应用光缆线路故障告警技术对光缆线路进行实时监控,及时发现并处理光缆线路中存在的各种安全问题和线路老化问题,以降低光缆隐患、减少光缆阻断的概率,对提高通信网络的可靠性和稳定性具有重要的作用。

为最大限度地消除故障告警冗余,本文以光纤通信工程中的光纤故障为研究对象,结合工程项目的实际运行情况进行分析与实验。

1光缆线路故障告警技术1.1OTDR 测试判断断点位置动态分析光缆故障位置,利用OTDR 接收和发射光的功能,将光的脉冲发射至光缆线路中,当脉冲的光遇到光的断裂点时,部分光被反射,就能得到OTDR 的曲线中的断点位置信息。

OTDR 数据结构示意图如图1所示。

光耦合器图1OTDR 结构示意图【作者简介】曹明,男,河南漯河人,任职于中国联合网络通信有限公司广东省分公司,工程师,研究方向:云承载网及算网运营优化、光缆网建维优一体化运营。

【引用本文】曹明.光纤通信工程中光缆线路故障告警技术[J ].企业科技与发展,2023(11):79-82.光纤通信工程中光缆线路故障告警技术曹明(中国联合网络通信有限公司广东省分公司,广东广州510235)摘要:在光纤通信工程线路中,传统故障告警技术实时告警率低、冗余告警现象严重,为解决上述问题,文章研究设计了一种光纤通信工程中光缆线路故障告警技术,该技术通过光纤注入脉冲收集散射信号,利用小波变换法对光时域反射仪(OTDR )曲线数据进行预处理,得到具体的断点位置,将故障点位置测试数据去噪;引入GIS 系统,结合管线资源系统的GIS 图层,建立拓扑结构并分析得到故障位置;提取告警事件信息获取告警时间,利用时间序列和滑动窗口的组合方式,消除故障信息中的时间冗余和传输不同步的现象,从而实现对光纤通信线路故障的有效告警。

移动网络管理论文:事件关联技术在移动网络管理中的研究与应用高爱国

移动网络管理论文:事件关联技术在移动网络管理中的研究与应用高爱国

移动网络管理论文:事件关联技术在移动网络管理中的研究与应用高爱国摘要:为了处理海量告警信息,事件关联技术在网络管理系统中起着不可替代的作用.分析了移动网络管理中故障管理所面临的问题,应用CORBA技术,设计了一种移动网络全网告警相关性分析系统的体系结构,并对其中数据源平面、数据存储平面、逻辑平面的功能结构进行了分析.关键词:事件关联;告警相关性分析;分布式结构;数据处理事件关联(Event Correlation)是一种通过分析系统产生的事件集而得到我们所关注的信息技术,在网络的运行维护领域中有着极大的应用价值,事件关联正在成为海量事件信息管理的一种核心技术[1].随着近几年电信网络管理、运营支撑系统的体系结构以及计算机技术的演进,事件关联的技术方法、应用方法以及体系结构等都有巨大的拓展[2].1移动网络管理体系结构1.1问题的提出移动运营商的网络模型通常包括:无线接入网、核心交换网和传输网部分.无线接入网包括采用GSM或窄带CDMA的第2代移动通信技术以及采用WCDMA、CDMA2000或TD/SCDMA的第3代移动通信技术.核心交换网分为电路交换网以及分组交换网,随着第3代移动通信技术以及IP技术的演进,目前的核心交换网逐步由电路交换演变为ATM交换,直至采用纯IP技术的交换体系.传输网则主要基于SONET.随着移动运营商逐步引入运营支撑系统(BOSS),针对该系统的管理也成为移动网络管理系统的一个实施目标.移动运营商的每个专用子网,都已经存在一个或者多个专用的网管系统.每个网管系统的故障管理(告警信息的采集、分析)、安全管理的实现机制和体系结构(语法表达)均有较大差别;不同的管理系统管理相同的网络,它们针对该网络所收集、处理、发布的信息的语义同样是千差万别.所以,为了达到全网故障管理的目标,综合网管系统必须提供数据适配能力,以便集成各种遗留的专用网管系统.“故障定位”是在网络发生问题之后确保网管人员能够及时修复故障的前提.但是,网络管理系统是一种集中事务处理系统,告警监视功能集向管理中心呈现的告警信息数量随着网络规模的扩大而急剧上升.而在某些临界状况下,比如雷暴天气到来时,GSM网络的网元会向管理终端发送巨大数量的告警,异构网络类型的增多也导致告警信息类型的不断增长.在众多告警信息类型和数量中,完全采用人工方法定位原始故障变得越来越困难.1.2事件关联技术的必要性为了解决人工处理海量告警信息的问题,将事件关联技术引入电信管理网络模型TMN(Telecommunicaions Management Network Model)故障管理功能域,通常称之为“告警相关性分析”(AlarmCorrelation).一个广泛为大家接受的定义是:对多个告警的总体解释构成告警相关性分析的过程,这些解释赋予了原始告警信息新的含义[3-5].相关性分析的目标之一是减少呈现给网管人员的告警数量,增加被呈现告警的语义信息,从而为网管人员提供更加有效的信息内容,以提高故障定位的速度和准确性.如果要构造一个告警相关性分析系统,应具备如下特性:(1)能够适应不同类型网络(比如GSM接入网、SDH传输网和IP网);(2)对网络拓扑结构变化不敏感;(3)具备自学习、自适应调整能力.在90年代,国外发展出了许多告警相关性分析方法.近几年的研究则趋向于结合多种方法,提高相关性分析的准确性、适应性,并且注重与现代分布式网管系统以及运营支撑系统的融合能力.已经发展出的方法包括:概率方法和采用有限状态机对网络实体建模的方法,基于规则的推理方法,基于范例的推理方法,基于模型的推理方法,基于贝叶斯置信网络的方法,基于编码的方法,数据挖掘的方法,基于人工智能的混合方法[6-10]等.上述的任何单一方法,都无法实现这个目标.但是,人们可以通过适当地应用分布式软件技术以及标准数据交换技术,构造一个混合的分析系统,并且能够符合现代分布式网络管理系统以及NGOSS的体系结构要求.2事件关联系统的体系结构目前支持分布式计算的技术包括CORBA,J2EE,MQ等.J2EE的分布式思想源自CORBA,但被限定在JA VA语言环境中,对异构系统互联有很多制约;MQ支持消息处理,但在对象互操作方面不如CORBA方便.以CORBA环境为基础,给出一个分布式告警相关性分析系统的体系结构,并将数据处理分解为3个平面.2.1 CORBA技术的应用事件关联技术在移动网络管理中的研究与应用39CORBA技术能够为软件开发提供一个分布及异构计算机环境下的公共框架,使得软件具备面向对象、可重用、可移植以及可互操作的特点,软件总线ORB 可以简化本地与远程对象间的通信,使之以透明方式实现互连、互通与互操作,每个立方体示例都以CORBA对象的形式实现,这些对象能够分别部署在不同的物理网络环境以及异构的操作系统平台上.CORBA中事件通道(Event Channel)提供事件消息的多路分发和推/拉访问机制.任一个CORBA对象在通告服务中注册后即可访问事件通道中的事件消息.各种相关性分析逻辑采用该机制共享全网告警信息并且提取与其相关的告警信息.2.2数据处理在本系统中,数据处理部分包括数据源、数据存储和逻辑等3个平面.2.2.1数据源平面该平面提供相关性分析系统所必须的数据,例如:异种网络的告警信息、网络的拓扑信息等.平面中包括多种网管系统以及为这些网管系统做接口适配的ORB.这些网管系统实现了对各种异构网络的故障管理,包括采集相应网络的告警信息和网络拓扑信息等.数据源平面与数据存储平面的接口可以采用XML或者CORBA等工业标准进行数据交换.2.2.2数据存储平面该平面适配不同网管系统(NMS)的告警信息,以统一格式存储,能够保存.2.2.3逻辑平面经过数据存储平面的格式适配,来自异种网络的告警信息具有相同的语法表达.这些信息以“结构化事件”的格式输入CORBA事件通道,便于CORBA通告服务加载过滤条件,提高信息处理效率.各种逻辑算法作为CORBA对象,在通告服务中注册,能够依据过滤条件接收告警信息.引擎调度模块协调各种逻辑分析算法,合作处理异种网络的告警信息.来自于异种网络(无线接入网、交换网、传输网)的告警事件进入事件通道后,通过初步的计数、压缩、泛化和抑制处理后,经由CORBA通告服务的条件过滤机制进入不同的相关性分析引擎.无线接入网和IP网的告警信息可以同时输入模型推理引擎,而模型推理引擎在引擎调度模块的协调下,依据网络的拓扑信息调整模型,以适应网络拓扑的变化.规则推理引擎则可自动应用数据挖掘引擎由历史数据中发现的相关性规则.多个相关性分析引擎针对同一网络告警信息产生的分析结果,可以作为网管人员的参考,便于合作克服单一分析方法带来的误差.3结论本文描述的基于CORBA环境的分布式告警相关性分析系统结构,为移动运营网络的告警数据采集以及分发,相关性分析过程所需的其他数据的采集(如网络拓扑信息)提供了解决方法,这有助于提高移动网络管理系统的集中监控能力.目前存在的另一个困难问题是,如何将各种不同分析算法有效结合在一起,协同工作,以达到比单一算法更准确的分析结果.参考文献:[1]Jakobson G,Weissman M.Alarm correlation[J].IEEE Network,1993,7(6):88-90.[2]刘康平,张劲,杨帆.TMN告警信息存储及预处理技术[J].微机发展,2000(2):70-73.[3]江涛.基于TMN的移动网管故障管理子系统设计[D].杭州:浙江大学,2005.[4]冯婧垚,李兴明.基于加权关联模式的通信网告警相关性分析[J].电信科学,2007(11):57-60.[5]王恒,高玉琢.基于事件关联技术的网络故障发现网络安全[J].2007(11):28-30[6]郭道荣.基于数据挖掘的电信网络故障诊断技术的研究[D].重庆:重庆大学,2003.[7]秦拯,沈亚敏.基于贝叶斯网络的告警相关算法研究[J].长沙电力学院学报(自然科学版),2005,20(3):69-72.[8]邓歆,孟洛明.基于贝叶斯学习的告警相关性分析[J].计算机工程,2007,33(12):40-42.[9]彭熙,李艳,肖德宝.网络故障管理中几种事件关联技术的分析与比较[J].计算机应用研究,2003(9):145-148.[10]杨洪涛,王继龙.网络事件管理系统中关联技术的选择及实现[J].计算机工程,2006,32(4):197-199,213.。

NFV时代告警关联与挑战

NFV时代告警关联与挑战

山东通信技术Shandong Communication Technology第39卷第[期2019年3月Vol.39 No 」Mar. 2019NFV 时代告警关联与挑战张宁刘红梅李训潮王宝(中国移动山东公司,济南250001 )摘 要:本文研究了中国移动引入NFV 架构实现三层解耦,并根据NFV 故障管理流程,提供了分层结构下故障关联和分析的方法,为NFV 场景下的故障定位及处理提供了指引,同时给出了基于人工和机器学习的故障定位 方法、故障自愈实现方案。

关键词:NFV 告警关联 机器学习 故障自愈1引言网络功能虚拟化(NFV, Network FunctionVirtualiation )是未来电信网络演进的基础性技术,是 实现传统网络实体软硬件分离、网络功能软件化的必要途径。

NFV 部署在云计算资源池中,可以实现对 硬件资源的共享、网络功能的快速部署和容量按需灵活分配,同时将深刻改变运营商的规划建设模式、业 务运营模式、运维模式等。

NFV 作为电信网络演进方向已成为业界共识,中国移动已经开始大力推进NFV 技术产品走向成熟,并开展技术验证、现网试点及局部商用工作。

2当前面临的问题如图1所示,中国移动NFV 部署以三层解耦为 目标架构,旨在充分发挥网络编排能力,构建一张资源可全局调度、架构可灵活调整、容量可弹性伸缩、能力可全面开放的新型网络。

引入新一代网络功能虚 拟化编排器(NFVO, Network Function VirtualiationOrchestrator )概念,统一管理NFV 编排和传统FCAPS 网络管理五大功能。

通过三层解耦,实现网络设备开放化,软硬件可以独立演进,但是三层解耦虽然实现了资源的分层管理,但单层故障可能触发多 层告警,不仅需要传统已有的横向关联,还要实现云化后的纵向关联,极大增加了网管维护的难度。

根据现有情况,NFV 时代中国移动在故障告警及处理方面将面临如下新的挑战:图1中国移动NFV系统架构15山东通信技术2019年(1)三层解耦后,硬件、虚机、虚拟网元都会产生各自的告警,告警量成倍增加,极有可能产生告警风暴。

光传输网告警相关性分析

光传输网告警相关性分析
摘 要 :随 着光 传输 网络 的迅 速 发 展 和 通 信 业 务 的拓 展 , 对 光 网络 的 管理 与维 护 变得
越来越 困难。告警 相关性在光 网络故 障维护 中起 着十分关键 的作 用。文 中介 绍 了 警关 告
联 关 系 ,讨 论 了对 告 警 的 处 理 规 则 。 关键 字 :光 网络 告 警 相 关 性 故 障 定位
规 则举 例 :
・根告警和衍生告警位于同一个网元上
网 A板 出 元 光 输 端 ;

输 入 光 功 率 检
网 A分 板 元 波
输 出无 光告 警
测端口
举例说 明 ( 中箭头表示业务路径的方向 ) 图 :
( 根源 告警 )
输 入 无光 告警 ( 生 告警 ) 衍
客 户层
根告警和衍生告警位于同一个网元上网元a光板输出端输入光功率检输出无光告警测端口输入无光告警根源告警衍生告警根告警检测点和衍生告警的检测点都位于oms层
i 0
㈡l
i Biblioteka l ¨ ¨ 一羧 ¨0 。 》 季 ¨ l
光传输 网告 相 性 警 关 分
李峰 武汉邮电科 学研究院光纤通信技 术和 网络 实验室 武汉 4 07 30 4

引言
B 处于客户层 , 告警 A和告警 B 可能属于 同一个网元或不同网元 。
在 光 网络 中 由于 网络 和 设 备 的 复 杂 性 导 致 了 同一 个 故 障产 告 警 A的 产 生 导致 同 时产 生 告 警 B 。
生经常会接收到 多个告警事件。 在此种情况 收到的告警报告 中 含很多冗余信息 . 给准确分离和定位产生故障的原因带来很 多困
以上 为 S H光板 上 的 MS I告 警 导 致 在 支路 板 上 出现 T — D —AS U

关联规则在网络告警数据挖掘中的应用研究

关联规则在网络告警数据挖掘中的应用研究
术 中的 规则相 吻 合 。数 据 挖 掘技 术 中 的关 联规 则 反 映一 个 事件 和其它 事件 之 间依 赖 或关联 的关 系 , 如果 两项 或 多项 属性 之 间存在 关联 , 那么 其 中一 项 的属性
值就 可以依 据其 它属性 值 进行 预测 。利用 关联 规则 ,
些项 的集合 , x T, 若 则称 事务 T支持 项 目集 x 。设 I I项 目集 I在 数 据 集 D上 的支 持 度 是 指 包 含 I , 的事务 在 D中的百 分 比。D中包 含 I 的事 务数 称 为
( c ol fnom tnE g er g otes D al U i. Ji 3 0 2 C ia Sho o fr a o n i e n ,N r at i i n , in12 1 , hn ) I i n i h n v l
A sa :in k w d t r ar t a a p a lint rm a mnad a t a e h 。 b r t n g n ! g in w k lmdas p ya i o nren e o a g e ien - ip t c M i o e en e o a ab e lslm r to w k n e tn m nn c T s a t
维普资讯
20 0 7午 第 l ( J
文 章 编 号 :0 62 7 ( o7 1 -0 10 10 -4 5 2 o ) 00 5 -3

计 算 机 与 现 代 化 J U N 1Y I N A H A I A J U XA D IU S
tn nd e e tv l r mot h n elg n ewok ma a e n . i g a f ci ey p o e te it lie tn t r n g me t Ke y wor ds: s o ai n r l a scito u e;daa mi i g; F te t n n P-re

基于关联规则的SDH网络告警分析方法及应用


D , / 事务数据库 s f f 支持 霞
输 出: L , / 大项 目集 A p r i o r i 算法 :
K= 0:
L = ;
ห้องสมุดไป่ตู้
图1 长春某网络全年告警量统计


关 联 规 则 介 绍
数据 挖掘( D a t a M i n i n g ) , 就 是从存 放在数 据库 , 数 据仓 库或其 他信 息库 中的大量 的数 据 中获取 有效的 、 新 颖的 、 潜 在有用 的 、 最终可理解
f o r e a c hI i ∈Ck d o
Ci =0 ;
or f e a c ht j ∈D d o
or f e a c hI i ∈t j t h e n
Ci =Ci +l ; or f e a c hI i ∈Ck d o I f Ci 至f S X I DI t h e n

L k = L kUI i ;
关 联规则 X Y的支持度( s ) 是数据库 中包 含 xUY的事务 占库 中
所有 事物的百分 比, 记为 s u p p o  ̄( X Y) = P ( XUY) 。
L = LUL k ; C k + 1 = A p r i o r i — g e n ( L k ) ;
Un t i l Ck +l = ;
关 联规则 X Y的置 信度或强度 ( O t ) 是包含 xUY的事务 数与包
含 x的事务数的 比值 , 记为 c o n f i d e n c e ( X Y) = P ( x I Y ) 。 给定 一组 项 目I = { I I , 1 2 , 1 3 , 1 4 , …, I m l 和 一个 事 务数 据 库 D = { t l , t 2 , t 3 ,

基于FP-Growth的电力调度通信网告警信息关联分析

基于FP-Growth的电力调度通信网告警信息关联分析作者:刘习义龙林刘明辉刘普森肖雪来源:《长江技术经济》2022年第04期摘要:随着电力数字化的快速发展,对电力调度通信网具备“万物”互联能力的要求不断提高,这不仅使整个网络变得复杂且庞大,其自身的运维难度也不断提高。

如何有效利用其监控系统产生的海量告警信息,提升通信网络的运维、检修的有效性和精确性,是亟待解决的问题。

利用海量历史告警数据分析了电力调度通信网的基本结构与特点,基于FP-Growth算法提出了一种电力调度通信网告警信息关联分析方法,构建告警信息挖掘模型,对某电厂某时段的历史告警数据进行分析验证,发掘到电力调度通信网具有强关联的告警信息规则。

研究成果可为网络运维检修提供指导。

关键词:电力调度;通信网;告警信息;关联分析;FP-Growth算法中图法分类号:TP311.1 文献标志码:A1 研究背景随着电力发电领域数字化、智能化技术的快速发展,作为承载多样电厂业务的电力调度通信网的网络规模、网络结构、延伸覆盖面和承载能力得到迅速发展。

作为发电厂内部各种发电、输电、配电设备等众多分散节点之间信息传输的主要通道,电力调度通信网运行可靠性将直接影响智能配电网调度和控制能力。

因此,需要及时发现并清除通信系统运行过程中产生的告警与故障,而随着电力调度通信网络逐渐庞大,各类通讯设备数量极大、种类繁多,涉及的设备类型和网管系统也多种多样,其关联性难以直接梳理,给电力通信网的告警、故障识别与处理带来了困难。

数据挖掘是近年来新发展起来的融合了统计学、机器学习、数据存储信息检索等最新研究成果的多学科领域。

随着计算机计算能力的不断提升,在越来越多的领域得到应用[1-5]。

数据挖掘在从大量、复杂的数据提取有效关联数据方面的优势明显,通常可表示为概念、规则、规律、模式等形式,可以被用于信息管理、查询优化、决策支持和过程控制以及数据自身的维护等[3-4]。

目前,该技术也被应用于解决电力行业中存在的一些问题。

基于神经网络的通信网络告警关联分析及应用

神 经 网 络默 认 采 用 三 网 络 模 型 , II 3所 ,J 隐 】 经 元 数 按 照 输 入 层 神 经 元 数 量 (学 样 本 集 l 每 个 杆 小 的 维 数 )的 I.5~2倍 确 定 , 采 用 可 变 率 的 误 等 反 m 传 播 (BP)学 习算 法 , 刊牢 默 认 值 为 0 075, f】~1之 洲 整 ,激 励 函 数 采 J2 ̄Sigmoidr-f-i数 或 Purelin函 数 , 目标 误 芹 为 10一。 关 F激 励 函 数 的 选 择 ,通 常 是 隐 层 采 J HSig no d函 数 , 输 出 层 采 用 Purelin函 数 ,但 也需 根 据 网 络 收 敛 情 况 进 行 适 当 调 整 ,所 遵 循 的 原 则 是 简 告臀 关 联 采 J1]P ,relin函 数 加 快
过 滤 (过 撼 觇 则 和 l}1J川I倚 I 1), 时 迎 过 过 啦
后 作 为帙 7I 』输 入 .并 对 输 j¨ 进 iJ -H}J 肌 , 观 父
联 , 体 1所 示 =
2.1 神 经 网 络 横 型 冲 络 模 采 川 多 层 感 矢¨ 模 型 , j 小 信 息 处
只 隧 完 成 知 n 】题 的 处 , 灵 活 性 和 适 膨 性 差 神 经 网 络 的
分 衔 式 信 息 储 和 并 汁钟 能 力 、多 输 入 多 输 出非 线 性 映 射
能 7J、姒大 的 容 错 能 力 ,使 得 神 经 网 络 能 够 充 分 挖 掘 已 有 的
告 警 数 据 、利 』f=j专 家 经 验 知 以 ,在 实现 规 则 化 知 识 之 外 实 现
断 杂 化 , 巾 此 带 米 规 则 推 理 的逻 辑 实 现 的 复 杂 化 , 传 统

基于网络拓扑结构的告警事件关联分析算法研究

龙源期刊网 http://www.qikan.com.cn 基于网络拓扑结构的告警事件关联分析算法研究 作者:刘军 楚家辉 来源:《数字技术与应用》2017年第04期

摘要:网络告警是网络故障定位与解决的关键,而目前告警事件太多,太杂,直接影响了故障的快速定位与解决。通过基于拓扑结构的关联分析算法,实现对告警事件的归并、压缩和关联分析,筛选出关键告警,提高故障发现与解决的效率,保障网络及其相关IT基础架构运行的稳定。

关键词:告警;拓扑关系;关联分析 中图分类号:TP393.01 文献标识码:A 文章编号:1007-9416(2017)04-0144-01 1 前言 随着信息技术的迅猛发展,现代企业对于信息资源的依赖性越来越强,网络规模也越来越庞大。目前,电网公司为了提升管理能力和业务水平,建成了各类型的众多业务系统。所有的系统对于电网公司的正常运转都至关重要,如何保障业务系统的运行,提高业务系统的稳定性和可用性就成为了目前最重要的问题,只有保证网络及其相关IT基础架构的稳定,才能保证业务系统的稳定。

作者通过研究网络事件的关联分析算法,提供一种从大量的网络事件中提取关键、核心事件的算法,以便快速定位网络故障的源头和影响范围,避免关键故障告警被大量“无用”事件淹没,提高故障发现与解决的效率,保障网络及其相关IT基础架构运行的稳定。

2 研究背景 网络事件主要分为两类:一种是根据资源的运行数据,如CPU的使用率,内存的使用率,按照预先配置好的阀值规则而生成的事件。一种是由资源,如网络设备,根据自身系统的设定而生成的事件。这类事件是由设备的厂商按照一定的原则定义,不仅包括故障信息,还包括一些审计信息,如用户的操作行为等。

目前,在网络管理领域,针对网络事件关联分析进行了一系列的研究,但是没有考虑网络拓扑结构对事件关联分析的重要性。 龙源期刊网 http://www.qikan.com.cn 针对现有网络事件关联分析设计的不足和电网公司网络结构的特点,本文提出了一种基于拓扑关系的网络事件关联分析机制,该机制充分考虑了网络拓扑结构在事件关联分析中的重要作用,将两类事件进行统一分析,有效地提高了网络事件关联分析的准确性和实时性,并提供了一定趋势分析能力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络故障告警关联技术的讨论
摘要:随着信息检索、数据交换、多媒体信息传输等网络应用的增多,网络管理越发显得重要。

本文介绍几种具有代表性的故障管理告警关联技术,并指出网络规模越大,网络结构越复杂,网络故障的预测、分析和处理越是必不可缺;有效的网络故障管理已成为企业级网络运行维护中的关键性工作。

关键词:流程网络故障管理告警关联矩阵网络拓扑结构
网络复杂、牵涉的方面多,硬件的问题、软件的漏洞等等都可以引起网络的故障。

对于硬件一般都是由架构网络的设备引起的网络故障,我们一般可以通过PING命令查看出来。

网络故障可以导致网络系统瘫痪或网络性能下降到不能接受的程度。

故障管理是网络中可以实现的最为广泛的一种管理,它是网络管理的最基本功能。

故障管理的目的在于保证网络的正常连接,并保证网络的高效可靠运行。

一、基本概念
故障管理是基本的网络管理功能,是网络管理功能中与故障检测、故障诊断和恢复等工作有关的部分,其目的是保证网络能够提供连续可靠的服务。

故障管理的重点和难点在于对故障的定位和诊断,定位准确,才能对报警信息进行相关性处理。

通常网络故障产生的原因都比较复杂。

在本文中会介绍几种具有代表性的故障管理告警关联技术,并通过对这些关联技术进行对比分析,从而完成对网络中所有节点动作状态的监控、故障记录的追踪、检查以及定位。

计算机网络服务发生意外中断是很常见的,这种意外中断在某些重要的时候可能会对社会或生产产生很大的影响。

但是,与单个计算机系统不同的是,在大型计算机网络中,当发生失效故障时,往往不能轻易、具体地确定故障所在的准确位置,需要相关技术的支持。

因此,需要有一个稳定的故障管理系统,科学地管理网络中发生的所有故障,并记录每个故障的产生及相关信息,最后确定并改正那些故障,保证网络能提供连续可靠的服务。

二、告警关联技术分析与对比
1.基于规则推理的告警关联
查找软件故障比较困难,最好使用规则分析仪。

这是一种高档设备,它作为一个特殊工作站连接在网上,收集、显示和分析LAN上传输的数据,并将这些数据保存起来。

该仪器解决了大量的网络查错问题。

但必须要有高水平的专家才能评价其结果。

基于规则的系统推理机制是一个从识别到动作的循环过程,必须满足形成一个由所有规则所组成的冲突集,在网络发生冲突时,选择冲突集中最优匹配的规则来执行。

这样重复执行一个过程,直到冲突解决为止。

此方法的优点在于其表达直观、表现灵活、便于推理、格式清晰、设计和检测方便、可进行模块化处理。

缺点则是系统中规则的提取和维护比较困难,求解效率比较低,不具备自学的能力,不适用于求解复杂的系统等。

2.基于案例推理的告警关联
基于案例推理的基本思想是将过往解决问题的实际经验以案例的形式存储在案例库中,当遇到问题时,就到案例库中查找类似案例的成功解决方法,从而顺利解决问题。

也可编写故障日志,形成故障信息记录库,并对故障日志进行分析。

完整的案例推理系统由以下五个部分组成:案例表示、案例获取、案例重用、案例修改和案例保留。

此方法的优点是在平时处理网络故障的过程中建立案例库比较便捷,案例存放比较简单,查找速度快,参考价值很大,可进行自我修订。

缺点则是这种方法通用性不强,只适用于一些专门领域,而且处理网络故障的告警能力不足,影响了此方法的进一步发展。

3.基于模型推理的告警关联
在控制对象、任务与环境日益复杂的背景下,模型推理关联技术近年来已在过程系统的智能设计、规划和故障诊断等某些具体领域得以应用。

使用冗余网络对象代替故障对象来提供临时的网络服务,如Windows NT或Windows 2000系统中使用备份域控制器替代主域控制器来提供身份验证的服务。

网络由许多被管对象组成,一个对象可以是一个网络、一个节点、一个物理媒体,也可以是协议层、软件进程或者虚拟电路等。

根据不同的应用要求,可以获得不同的信息,从而建立不同的模型。

每个模型之间可以通过自身的被管网元与其他模型之间进行通信,从而分析自身所处的网元是否发生网络故障。

这种方法的优点在于具备解决网络故障新问题的潜力,但是其不足之处是一旦超出模型所代表的网元范围,它的处理能力就显得很微弱,使得网络故障得不到及时解决。

4.基于数据挖掘的告警关联
数据挖掘是在海量数据中发现新模式的一种分析技术,它在解决告警关联分析问题时,首先通过大量历史告警信息的一些统计规律来发现告警关联规则,然后根据规则分析和预测网络中可能出现的故障。

将数据挖掘技术引入到告警关联中,目的是为了揭示出隐含在海量原始低层故障征兆信息后面有意义的知识和规则,从更全面的视角解释网络故障及性能问题,使网络管理者能快速地进行故障定位并进一步作出故障决策和
预测。

这种告警关联分析技术能够很好地适应网络的动态变化,从而将有效的历史告警数据集合起来,依靠挖掘工具确定告警关联规则。

但是它只能反映局部范围的规律,而且需要和其他方法结合起来进行处理,才能获得较好效果。

5.基于代码方法的告警关联
代码方法的基本原理是对可能出现的网络故障进行预防,针对潜在的问题和表现这些问题的症状,建立关联矩阵,并对其进行问题定位。

使用代码方法进行告警关联大致分为四个步骤:为系统中的部件建立事件模型和传播模型;为所监控系统中可能存在的问题和它们的症状生成规范表示,也就是矩阵;通过一定的方法减少矩阵中的信息量,直到可以唯一标识问题,找到最小代码书;不断监测并通过代码书解码症状定位所发生的问题。

这种方法简单实用、适用范围较广、速度快、错误率低,但是自身适应性不够、独立性不强,需要人为过多参与。

三、结论
在大型计算机网络中发现故障时,我们往往不能确定故障所在的具体位置,这就需要故障管理提供逐步隔离和最后定位故障的一整套方法和工具。

有时候,我们所发现的故障是随机性的,需要经过很长时间的跟踪和分析,才能找到其产生的原因。

这就需要有一个故障管理系统,有多种分析网络故障的关联技术,科学地管理网络所发现的所有故障,具体记录每一个故障的产生,然后跟踪分析,直到最后确定并排除故障。

使用不同方法进行告警关联,有些已经应用到实际的产品中,有些还处在研究开发阶段。

不同的告警关联方法各有其优点和不足,而且告警关联应用的目的和场合也不尽相同,因此,进行关联时所采用的方法也有所不同。

总之,不同告警关联技术之间的优缺点可以互补,从而让用户可以自行选择合适的方法或者多种关联方法结合使用,对网络故障进行诊断和定位。

网络故障错综复杂,没有什么方法和产品能够保障网络永远稳定地运行。

当我们遇到网络故障时,借助科学技术来分析网络系统,才能快速找到和解决网络故障,使我们的工作和生活不受影响,这才是最重要的。

参考文献:
[1]彭熙,李艳,肖德宝.网络故障管理中几种事件关联技术的分析与比较[J].计算机应用研究,2003(9).
[2]郑庆国,吕卫锋.通信网络中的告警相关性研究[J].计算机工程与应用.2002(2).。

相关文档
最新文档