利用告警关联分析技术实现网络故障定位

合集下载

网络监控系统的解决方案(3篇)

网络监控系统的解决方案(3篇)

第1篇一、引言随着互联网技术的飞速发展,网络已经成为人们日常生活和工作中不可或缺的一部分。

然而,网络环境复杂多变,安全问题日益突出。

为了确保网络安全,维护网络稳定运行,网络监控系统应运而生。

本文将针对网络监控系统的解决方案进行详细阐述。

二、网络监控系统概述1. 网络监控系统的定义网络监控系统是指对网络设备、网络流量、网络安全事件等进行实时监控、分析、预警和处理的系统。

它能够帮助管理员及时发现网络故障、异常行为和安全威胁,从而保障网络的安全稳定运行。

2. 网络监控系统的功能(1)实时监控:实时监控网络设备状态、网络流量、网络拓扑结构等,确保网络运行正常。

(2)故障诊断:快速定位网络故障,减少故障处理时间,提高网络运行效率。

(3)安全防护:实时检测网络入侵、病毒攻击等安全威胁,防止安全事件发生。

(4)性能优化:分析网络性能,提供优化建议,提高网络运行效率。

(5)数据统计与分析:对网络运行数据进行统计和分析,为网络规划和优化提供依据。

三、网络监控系统解决方案1. 系统架构(1)网络设备层:包括交换机、路由器、防火墙等网络设备,负责数据传输和路由。

(2)数据采集层:通过数据采集器、流量分析器等设备,实时采集网络流量、设备状态等信息。

(3)数据处理层:对采集到的数据进行预处理、分析、过滤等操作,提取有价值的信息。

(4)展示层:通过图形化界面展示网络状态、流量、安全事件等信息。

(5)管理控制层:实现对网络监控系统的配置、管理和维护。

2. 数据采集方案(1)网络流量采集:采用镜像技术,将网络设备的数据包镜像到数据采集器,进行流量分析。

(2)设备状态采集:通过SNMP协议,采集网络设备的运行状态、性能指标等信息。

(3)安全事件采集:利用入侵检测系统(IDS)和防火墙日志,实时采集安全事件。

3. 数据处理与分析方案(1)数据预处理:对采集到的数据进行去重、去噪等操作,提高数据质量。

(2)数据过滤:根据需求,对数据进行过滤,提取有价值的信息。

ECM

ECM

ECM-INMS电力通信网综合网管系统上传日期:2006-2-20 16:11:12本图片被浏览1341次产品图片相关说明:ECM-INMS电力通信网综合网管系统是由南京南瑞集团公司通信分公司基于先进的TMN通信网络管理的设计思想,参照TMN信息体系结构、功能、规范、管理服务模式,自行开发的通信网综合网络管理系统。

ECM-INMS系统通过协议转换或直采技术,从远端通信站采集各种实时信息,并利用通道技术,将实时信息传送到网管服务器端,经过系统提供的多种数据处理模块的集中分析处理,结合对象数据和对象之间的关系,达到对网络或设备运行情况的了解,从而实现告警分析、告警定位、历史告警的管理、故障影响的分析,强化对网络的管理。

系统功能实时监控功能:指对电力通信网络系统、通信子系统、通信电路、通信设备的运行状态进行的监视、性能参数进行的监测、电源及环境设备进行的控制功能。

包括:通过数据采集系统及协议转换方式采集各通信设备和系统的运行状态信息;显示故障告警,使各种告警信息分级别处理;记录故障发生、修复等相关信息,统计发生告警故障的次数、类型、故障原因、地点、相应设备名等信息。

网管系统功能体系:INMS网管系统的功能结构用国际流行的网元管理层、网络管理层、服务管理层、事务管理层四层模式,保证网管系统与国际流行的通信网管系统之间能顺利接轨,为网管系统广泛的兼容性提供了条件。

网管系统数据接口功能:网管满足各种通信网络设备的接入需求。

通过开放式、对象化的设计,统一化、标准化的接口约定和协议转换代理机制,保证能接入各种通信设备、通信系统的管理信息数据。

通过增加中间转换单元(MD)和采用标准的Q系列和CORBA接口协议来确保监控管理系统能适应各种通信系统的多平台环境。

网管系统应用功能:利用统一的通信网络数据库MIB使通信网络的数据更具有开放性、安全性,统一的信息服务接口OMIP使数据的应用更规范化,更安全、可靠;在数据及数据服务标准化的基础上提供开放式开发接口,支持不同厂家、不同平台开发的应用程序,保证丰富的多样化的应用程序。

基于知识图谱的5G 网络故障分析方法

基于知识图谱的5G 网络故障分析方法

doi:10.3969/j.issn.1003-3114.2022.04.023引用格式:谷奉锦ꎬ贺楚闳ꎬ潘庆亚ꎬ等.基于知识图谱的5G网络故障分析方法[J].无线电通信技术ꎬ2022ꎬ48(4):751-757.[GUFengjinꎬHEChuhongꎬPANQingyaꎬetal.5GNetworkFaultAnalysisMethodBasedonKnowledgeGraph[J].RadioCommunica ̄tionsTechnologyꎬ2022ꎬ48(4):751-757.]基于知识图谱的5G网络故障分析方法谷奉锦1ꎬ贺楚闳1ꎬ潘庆亚1ꎬ王㊀晔2ꎬ朱晓荣1∗(1.南京邮电大学江苏省无线通信重点实验室ꎬ江苏南京210003ꎻ2.中国移动通信集团江苏有限公司ꎬ江苏南京210003)摘㊀要:随着移动通信网络的发展ꎬ未来网络逐渐趋于异构化㊁密集化ꎬ如何对网络故障进行高效的诊断与分析面临着巨大挑战ꎮ传统基于数据的网络故障诊断方法存在可解释性差㊁应用性低等问题ꎬ结合知识图谱技术ꎬ提出了一种基于知识和数据双驱动的网络故障分析方法ꎮ首先通过本体构建㊁知识抽取以及知识融合等步骤利用Neo4j图数据库搭建面向网络故障诊断的知识图谱ꎻ然后结合机器学习进行智能化网络故障诊断与分析ꎬ将网络故障诊断问题拆分成不同子问题ꎬ对比不同机器学习算法的准确性ꎬ为不同诊断问题匹配准确度最高的机器学习算法ꎻ并利用Neo4j图数据库提出基于子图匹配的知识检索方法ꎬ将网络分析结果以知识图谱子图的形式展示ꎮ仿真结果表明ꎬ所提方法可以有效提高网络故障诊断的准确性ꎬ提高了在实际工程中的应用性ꎮ关键词:知识图谱ꎻ故障诊断ꎻ机器学习中图分类号:TN915.85㊀㊀㊀文献标志码:A㊀㊀㊀开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2022)04-0751-075GNetworkFaultAnalysisMethodBasedonKnowledgeGraphGUFengjin1ꎬHEChuhong1ꎬPANQingya1ꎬWANGYe2ꎬZHUXiaorong1∗(1.SchoolofCommunicationandInformationEngineeringꎬNanjingUniversityofPostsandTelecommunicationsꎬNanjing210003ꎬChinaꎻ2.ChinaMobileJiangsuCo.ꎬLtd.ꎬNanjing210003ꎬChina)Abstract:Withthedevelopmentofmobilecommunicationnetworksꎬfuturenetworkstendtobeincreasinglyheterogeneousanddense.Sohowtodiagnoseandanalyzenetworkfaultsefficientlyisfacinggreatchallenges.Traditionalnetworkfaultdiagnosismethodsbasedondatahaveproblemsofpoorinterpretabilityandlowapplicability.Inthispaperꎬanetworkfaultanalysismethodbasedonknowl ̄edgeanddatawasproposedbycombiningknowledgegraphtechnology.Firstlyꎬtheknowledgegraphfornetworkfaultdiagnosiswascon ̄structedbyusingNeo4jgraphdatabasethroughontologyconstructionꎬknowledgeextractionandknowledgefusion.Thentheintelligentnetworkfaultdiagnosisandanalysiswascarriedoutbycombiningmachinelearning.Thenetworkfaultdiagnosisproblemsweredividedintodifferentsub ̄problemsꎬandtheaccuracyofdifferentmachinelearningalgorithmswascomparedtomatchthemachinelearningalgo ̄rithmwiththehighestaccuracyfordifferentdiagnosisproblems.AknowledgeretrievalmethodbasedonsubgraphmatchingwasproposedbyusingNeo4jgraphdatabaseꎬandtheresultsofnetworkanalysiswerepresentedintheformofknowledgegraphsubgraph.Simulationresultsshowedthattheproposedmethodcaneffectivelyimprovetheaccuracyofnetworkfaultdiagnosisꎬandtheapplicationofthepro ̄posedmethodinpracticalengineeringwasimprovedbydisplayingthefaultanalysisresultsintheformofknowledgegraph.Keywords:knowledgegraphꎻfaultdiagnosisꎻmachinelearning收稿日期:2022-05-23基金项目:国家自然科学基金(61871237ꎬ92067101)ꎻ江苏省重点研发计划(BE2021013-3)FoundationItem:NationalNaturalScienceFoundationofChina(61871237ꎬ92067101)ꎻJiangsuKeyResearchandDevelopmentPlanofJiangsuProv ̄ince(BE2021013 ̄3)0 引言随着移动通信网络的发展ꎬ未来网络将不是单一存在或仅使用单一技术ꎬ而是多种技术的共存互补和共同发展ꎮ在这种网络异构化㊁密集化的发展趋向下ꎬ如何对网络故障进行高效的诊断与分析成为一个巨大挑战ꎮ传统的故障管理完全基于操作人员的专业知识进行ꎬ但实际上ꎬ专业知识是有限的以及通过人工维护是困难的ꎮ一方面ꎬ面对各种网络故障ꎬ网络诊断程序需要非常短的响应时间ꎻ另一方面ꎬ网络规模和复杂性的增加以及人工操作员有限的处理能力ꎬ将使网络故障的诊断不可能在没有自动化的情况下有效地执行ꎮ此外ꎬ由于现有系统的缺陷ꎬ运营商很难提前预测网络可能产生哪些故障ꎮ在移动通信网络环境下ꎬ故障会不时地发生或产生级联效应ꎬ因此ꎬ如何对网络故障进行及时准确的诊断分析具有重要的研究意义ꎮ传统运维人员基于经验ꎬ根据故障的基本信息和故障症状ꎬ逐步分析出故障的原因及故障的解决措施ꎮ但如果单纯基于经验与已知故障信息无法分析出故障原因等措施ꎬ就需要增加诊断措施ꎬ甚至是查阅相关的材料(如故障分析案例等)来分析故障并找到解决措施[1]ꎮ近年来ꎬ随着人工智能技术(ArtificialIntelligenceꎬAI)和大数据挖掘的发展ꎬ越来越多的基于机器学习(MachineLearningꎬML)的智能故障诊断方法受到科研工作者的的喜爱[2]ꎮ目前ꎬ基于机器学习的网络故障诊断技术得到了广泛应用ꎬ其中应用最广泛的主要有基于支持向量机(SupportVectorMachinesꎬSVM)的故障诊断方法㊁基于人工神经网络(ArtificalNeuralNetworkꎬANN)的故障诊断方法[3]以及基于深度学习(DeepLearningꎬDL)的网络故障诊断方法等[4]ꎮ基于机器学习进行故障诊断的方法可以充分利用大数据对可能发生的故障模式以及故障原因等做出诊断ꎬ但纯粹基于数据的网络故障诊断方法会有两个缺陷ꎬ首先是可解释性ꎬ传统的基于机器学习和深度学习的模型对于用户而言是一个黑匣子ꎬ无法向用户解释最终的故障诊断结果ꎬ降低了其在实际工程中的应用ꎻ其次ꎬ它不能有效利用现有的先验知识ꎬ如故障诊断记录等非结构化的知识ꎬ导致一些数据资源的浪费[5]ꎮ知识图谱概念自2012年被谷歌提出后引起了业界广泛关注[6]ꎬ近年来在很多领域有了广泛的应用[7]ꎮ知识图谱可以把大量的信息㊁数据和连接关系汇集成知识ꎬ让信息资源能够更方便计算㊁理解和评价ꎬ可以更有效地表达㊁管理组织和利用现有的海量异构且动态的大数据ꎬ使网络更加智能ꎬ与人类的认知思维更加贴合[8]ꎮ知识图谱近年来在很多领域有了广泛的应用ꎬ文献[9]提出调度知识图谱的详细构建方法ꎬ并详细介绍了构建的电力系统调度知识图谱ꎬ讨论了知识图谱在实际电力系统调度场景中的好处ꎮ文献[10]为了解决电力系统调度知识繁杂ꎬ且对于调度决策的实时性要求较高等问题ꎬ提出一种基于知识图谱的配电网故障辅助决策方法ꎬ充分利用现有专家经验㊁故障案例和配电网调度规则等先验知识ꎬ构建了同时包含配电网调度㊁配电网故障处理㊁配电网业务流程等知识的配电网故障调度知识图谱ꎬ辅助电网工作人员快速响应处理电网调度出现的故障ꎮ近年来ꎬ知识图谱还被广泛运用在医疗㊁教育以及故障诊断等领域ꎮ文献[11]通过分析中医诊疗过程ꎬ提取中医核心概念ꎬ构建本体层ꎮ使用深度学习从非结构化数据中提取实体及其关系以构建中医知识图谱ꎬ构建了一个基于知识图谱的端到端平台TCMKGꎬ来提供知识检索ꎮ文献[12]运用知识图谱和机器学习算法对大量实验室检查数据和实验诊断数据进行训练和分析ꎬ建立一个由知识和数据双驱动的ꎬ兼具鲁棒性和可解释性的检验AI系统ꎬ其核心功能是准确诊断疾病并提供合理的解释ꎮ在通信故障诊断领域ꎬ也广泛应用知识图谱技术ꎬ文献[13-14]将工作人员日常维护日志以及相关的操作经验等非结构化的知识结构化ꎬ通过知识图谱相关技术构建了基于知识图谱的智能故障诊断架构ꎬ通过自动关联告警信息㊁自动匹配设备信息㊁智能获取业务影响范围等手段ꎬ实现了通信故障的快速发现与准确定位ꎮ文献[15]提出了一种基于知识图谱的地铁故障推荐模型ꎬ该模型可以辅助地铁维修工作人员更快更准确地响应地铁可能发生的故障ꎬ提高了工作效率ꎮ文献[4]充分利用已有的先验知识ꎬ构建了一种面向飞机电源系统故障诊断的知识图谱ꎬ应用其进行飞机电源系统故障诊断与排查ꎬ使整个过程安全且高效ꎮ文献[1]提出了一种基于知识图谱的智能故障诊断方法ꎬ充分利用电信网络领域的专家经验构建电信领域知识图谱ꎬ并运用知识推理等技术ꎬ进行智能网络故障诊断ꎬ辅助解决网络运维方面的的问题ꎮ文献[16]构建了用于故障诊断和分析的知识图谱系统ꎬ使得故障诊断和分析效率更加高效㊁便捷ꎮ目前各种利用深度学习㊁神经网络等工具与知识图谱相结合ꎬ以此来解决实际问题的方法逐渐变成主流[17-18]ꎮ因此为了降低运维门槛ꎬ提升网络运维效率ꎬ本文设计了一种基于知识图谱与机器学习的网络故障智能分析方法ꎬ利用专家经验及故障案例等知识搭建网络故障知识图谱ꎬ应用知识图谱进行智能化故障分析ꎮ首先利用已有的专家知识ꎬ构建5G网络故障知识图谱本体ꎬ利用现有数据通过知识抽取㊁知识融合等步骤搭建网络故障知识图谱ꎻ其次利用机器学习方法进行网络故障诊断ꎬ将数据转化为知识ꎬ针对不同的诊断问题匹配不同的机器学习算法ꎬ提高故障诊断的准确性ꎻ最后应用知识图谱提出一种基于知识和数据双驱动的网络故障分析方法ꎬ并提出了一种基于知识子图匹配的网络故障知识检索方法ꎮ1㊀系统模型1.1㊀知识图谱应用架构如图1所示ꎬ网络故障领域知识图谱应用架构覆盖数据层㊁构建层以及应用层等3个等级ꎮ数据层负责获取数据并解析ꎬ构建层是整个架构的核心层ꎬ首先根据网络故障诊断领域专家知识以及知识图谱应用需求构建本体ꎬ确定图谱中所包含的实体与关系类型ꎮ图1㊀网络故障领域知识图谱应用架构示意图Fig.1㊀Schematicdiagramofapplicationarchitectureofnetworkfaultdomainknowledgegraph本体构建结束后要对现有的数据进行知识抽取ꎬ知识抽取包括实体抽取与关系抽取两部分ꎮ对于从不同数据来源抽取的知识ꎬ需要进行知识融合ꎬ以此来减少知识的冗余ꎮ完成知识抽取与知识融合之后ꎬ将知识以三元组的形式存放在Neo4j图数据库中ꎬ搭建完整的面向网络故障诊断的知识图谱ꎮ在上述工作基础上ꎬ基于搭建好的网络故障知识图谱ꎬ结合机器学习进行智能化网络故障诊断与分析ꎮ1.2㊀本体构建知识图谱从宏观上可以分为两大类ꎬ通用知识图谱和行业(领域)知识图谱ꎮ网络故障知识图谱是针对故障诊断领域构建的行业知识图谱ꎬ采用自顶向下的设计方式ꎮ首先根据专家知识构建图谱的本体ꎬ本文选择使用专家知识人工构建本体ꎮ构建本体包括规定实体类型㊁关系类型和关系类型的头尾实体类型ꎮ在网络故障领域定义以<实体-属性-属性值>和<概念-关系-概念>为核心的知识图谱ꎮ根据专家经验构建了网络故障知识图谱上层本体ꎬ如图2所示ꎬ包含 故障模式 故障原因 故障解决方案 故障可能引发事故 故障发生位置 等概念及其相互之间的关系ꎮ图2㊀网络故障知识图谱本体Fig.2㊀Networkfaultknowledgegraphontology1.3㊀知识抽取及知识融合针对网络故障知识图谱而言ꎬ数据来源主要分为结构化数据㊁半结构化数据和非结构化数据3种类型ꎬ如图3所示ꎮ图3㊀知识抽取数据来源Fig.3㊀Datasourceofknowledgeextraction故障数据库中包含的数据为结构化数据ꎬ对于结构化的数据知识抽取较简单ꎬ可以根据数据源与本体进行一一映射直接抽取ꎮ对于员工日志㊁网络故障案例等半结构化或非结构化数据需要根据其具体结构和内容ꎬ设计相应的抽取算法进行知识抽取ꎬ一般有基于规则模板的算法㊁基于机器学习的算法和基于神经网络的算法ꎮ传统的知识抽取方法是以一种流水线的方式进行的ꎬ即将实体抽取和关系抽取分步执行ꎬ即首先利用命名实体识别技术来抽取实体ꎬ然后对这些实体间的关系进行识别ꎬ进而生成三元组ꎮ由于两次抽取操作分步进行ꎬ流水线方法存在误差传递㊁信息冗余与忽视两个子任务间联系等问题ꎮ本系统采用实体关系联合抽取算法ꎬ使用网络故障领域文本语句预训练语言模型ꎬ同时抽取实体及其之间关系ꎮ通过该联合抽取模型ꎬ输入一个句子ꎬ可直接得到<实体-关系-实体>三元组ꎮ基于故障诊断方面的知识抽取实例如图4所示ꎮ从不同的数据来源中所抽取到的知识ꎬ会出现知识重复和冗余的问题ꎬ知识融合过程是通过实体对齐㊁属性对齐等技术来消除冗余ꎮ图4㊀知识抽取实例Fig.4㊀Knowledgeextractionexamples1.4㊀基于Neo4j的知识图谱构建图数据库能够直观地对数据进行管理ꎬ并能够实现数据之间的关系链接ꎬNeo4j是图数据库中比较典型的代表ꎮNeo4j图数据库具有较强的扩展能力ꎬ可以与多种编程语言和开发平台相结合ꎬ如Java和Python等ꎮ同时Neo4j采用的图存储结构具有自由邻接的特点ꎬ因此具有比较强的关系处理能力ꎬ同时可以很好地实时更新数据ꎮ因此本文选择Neo4j图数据库作为搭建及展示知识图谱的载体ꎮ本文构建的网络故障知识图谱部分结构如图5所示ꎮ图5㊀网络故障知识图谱部分结构图Fig.5㊀Partialstructurediagramofnetworkfaultknowledgegraph2㊀基于知识和数据双驱动的网络故障分析2.1㊀整体架构在构建的网络故障知识图谱的基础上ꎬ本文提出了一种基于知识和数据双驱动的网络故障分析方法ꎬ该方法利用现有数据训练机器学习算法ꎬ进行网络故障诊断ꎬ通过诊断是否发生故障及故障原因ꎬ将已有的数据转化为知识的形式ꎬ将诊断结果作为已知条件输入到知识图谱中ꎬ利用知识检索与知识推理进行网络故障分析ꎬ并最终通过知识子图的形式输出故障分析结果ꎬ整体的系统流程如图6所示ꎮ图6㊀系统流程图Fig.6㊀Systemflowchart2.2㊀数据预处理本文对机器学习模型训练所使用的实验数据为在南京某区域采集的真实数据ꎬ数据集经专业人员分析整理ꎮ数据提供了12000条带有标签的故障数据ꎬ其中主要包含了RSRP㊁RSRQ㊁RSSI和SINR等14项衡量指标ꎬ具体如表1所示ꎮ表1㊀数据所包含主要衡量指标Tab.1㊀MainmeasurementindicatorsincludedinthedataKPI含义RSSI手机接收到的总功率RSSI0通道0手机接收到的总功率RSSI1通道1手机接收到的总功率RSRP参考信号接收功率RSRP0通道0参考信号接收功率RSRP1通道1参考信号接收功率RSRQ参考信号接收质量RSRQ0通道0参考信号接收质量RSRQ1通道1参考信号接收质量SINR信干噪比SINR0通道0信干噪比SINR1通道1信干噪比RSRQ_1邻区1参考信号接收质量RSRP_1邻区1参考信号接收功率数据预处理主要包括两部分:标准化和特征筛选ꎮ(1)标准化假设给定了k个指标X1ꎬX2ꎬ ꎬXkꎬ其中Xi=x1ꎬx2ꎬ ꎬxn{}ꎬ(1)对各KPI标准化后的值为Y1ꎬY2ꎬ ꎬYkꎬ则Yij=Xij-min(Xi)max(Xi)-min(Xi)ꎬ(2)其中ꎬk=14ꎬn=1ꎬ2ꎬ ꎬ12000ꎮ(2)特征选择本文利用XGboost算法统计各个KPI对系统模型的权重ꎬ权重越大证明其对最终决策结果影响越大ꎮ经计算ꎬ权重具体值如表2所示ꎮ表2㊀指标权重Tab.2㊀IndexweightKPI权重RSRP00.296RSRP0.258RSSI0.097SINR0.075RSRP10.064RSRP_10.048SINR00.043RSRQ0.022SINR10.020RSSI00.018RSRQ10.016RSRQ_10.016RSRQ00.014RSSI10.011从表2可以看出ꎬ不同的指标在模型中起到的作用不同ꎮ在故障诊断模型中ꎬ重要度较高的5个指标为RSRP0㊁SINR㊁RSRP1㊁RSRP_1和SINR0ꎮ得到具体权重值并进行排序后ꎬ运用XGboost进行测试ꎬ发现当保留8个特征值时ꎬ此时模型的正确率趋于稳定ꎬ具体特征值个数与结果准确率关系如图7所示ꎮ图7㊀特征值数量与准确率关系Fig.7㊀Relationshipbetweeneigenvaluequantityandaccuracy2.3㊀机器学习算法对比本文旨在针对不同的故障诊断问题匹配不同的机器学习算法ꎬ在检测到发生故障且确定故障类型后ꎬ对不同的故障类型使用不同的机器学习算法诊断对应的故障原因ꎮ本文以弱覆盖以及过覆盖两种故障类型为例ꎬ具体诊断其故障发生原因ꎮ针对同一问题往往有多种模型可以解决ꎬ但每种模型都有着自身的特点和适合解决的问题ꎬ本文在相同的数据集基础上ꎬ训练对比了逻辑回归㊁支持向量机㊁线性判别分析㊁朴素贝叶斯㊁K近邻以及决策树6种机器学习算法的准确度ꎬ最终为当前问题选择最佳的机器学习算法模型ꎮ表3㊀6种机器学习算法准确度对比Tab.3㊀Accuracycomparisonofsixmachinelearningalgorithms算法诊断问题弱覆盖原因诊断过覆盖原因诊断逻辑回归0.9860.907线性判别分析0.9830.996K近邻0.9910.973决策树0.9860.992朴素贝叶斯0.9010.964支持向量机0.9900.972通过表3可以看出ꎬ不同的问题有各自最适合的机器学习算法ꎮ对于弱覆盖原因诊断问题而言ꎬK近邻算法的准确度最高为99.1%ꎬ对于过覆盖原因诊断问题而言ꎬ最合适的算法为线性判别分析算法ꎮ2.4㊀基于子图匹配的知识检索方法本文提出一种基于子图匹配的知识检索方法ꎬ应用故障数据在通过网络故障诊断模型后ꎬ输出网络故障类型及故障原因ꎬ在知识图谱中检索与相关结果有关的所有信息ꎮ具体流程如图8所示ꎮ步骤1㊀通过机器学习算法ꎬ将已有的数据信息输出为知识信息ꎬ将其作为已知条件输入至网络故障知识图谱ꎬ采用实体识别技术进行核心实体识别ꎮ步骤2㊀判断故障知识图谱中是否包含该实体ꎮ步骤3㊀从核心实体出发ꎬ在知识图谱中搜索与核心实体距离为1的实体ꎮ步骤4㊀输出包含核心实体及与其距离为1的所有实体及关系的知识图谱子图ꎮ图8㊀基于子图匹配的知识检索流程Fig.8㊀Knowledgeretrievalprocessbasedonsubgraphmatching3㊀仿真结果分析通过对本文故障诊断模型与传统故障诊断模型行对比分析ꎬ分析比较两种系统模型在故障诊断数据集上的准确度ꎬ结果如表4所示ꎮ表4㊀不同故障诊断模型准确性比较Tab.4㊀Accuracycomparisonofdifferentfaultdiagnosismodels模型准确率/%传统故障诊断模型91.3本文故障诊断模型98.7由结果可见ꎬ相比于传统的单纯基于一种机器学习算法的方法ꎬ通过细化诊断问题为不同的诊断问题匹配不同的机器学习算法准确率有较大提升ꎮ图9为以弱覆盖为核心实体输出的知识图谱子图ꎬ从图中可清楚看到对于故障的描述(弱覆盖是基站所需要覆盖面积大ꎬ基站间距过大ꎬ或者建筑物遮挡而导致边界区域信号较弱ꎻ弱覆盖一般都是在Rxlev<-90dBm)及故障解决方案(增加基站建设)等信息ꎮ图9㊀以弱覆盖为核心实体的知识图谱子图Fig.9㊀Subgraphofknowledgegraphwithweakcoverageascoreentity4㊀结束语本文提出了一种基于知识和数据双驱动的网络故障分析方法ꎮ通过本体构建㊁知识抽取以及知识融合等技术利用Neo4j图数据库搭建面向网络故障诊断的知识图谱ꎻ结合机器学习进行智能化网络故障诊断与分析ꎻ将网络故障诊断问题拆分成不同子问题ꎬ对比不同机器学习算法的准确性ꎬ为不同诊断问题匹配准确度最高的机器学习算法ꎻ利用Neo4j图数据库提出基于子图匹配的知识检索方法ꎬ将网络分析结果以知识图谱子图的形式展示ꎮ本方法可以利用历史故障分析案例辅助工程师更加快捷精准探查故障问题根源ꎬ并更快指定对应的改善措施ꎬ同时通过知识图谱平台进行学习ꎬ可以提升信息探索速率ꎬ加速知识和经验的沉淀ꎮ在今后的工作中ꎬ将加入更多的数据来源ꎬ构建更大规格的网络故障知识图谱ꎬ辅助提升网络故障分析效率ꎮ此外针对网络故障诊断问题ꎬ改进现有机器学习算法ꎬ从而更加精确地进行网络故障诊断ꎮ参考文献[1]㊀刘瑞宏ꎬ谢国强ꎬ苑宗港ꎬ等.基于知识图谱的智能故障诊断研究[J].邮电设计技术ꎬ2020(10):30-35. [2]㊀曾毅.人工智能技术在网络故障诊断中的运用[J].信息与电脑(理论版)ꎬ2021ꎬ33(21):157-159. [3]㊀涂光辉.基于机器学习的网络故障诊断技术研究与应用[D].成都:电子科技大学ꎬ2017.[4]㊀朱晓荣ꎬ张佩佩.基于GAN的异构无线网络故障检测与诊断算法[J].通信学报ꎬ2020ꎬ41(8):110-119. [5]㊀聂同攀ꎬ曾继炎ꎬ程玉杰ꎬ等.面向飞机电源系统故障诊断的知识图谱构建技术及应用[J/OL].航空学ꎬ2021:1-19(2021-10-25)[2022-05-19].https:ʊhkxb.buaa.edu.cn/CN/10.7527/S1000-6893.2021.25499. [6]㊀杭婷婷ꎬ冯钧ꎬ陆佳民.知识图谱构建技术:分类㊁调查和未来方向[J].计算机科学ꎬ2021ꎬ48(2):175-189. [7]㊀JISꎬPANSꎬCAMBRIAEꎬetal.ASurveyonKnowledgeGraphs:RepresentationꎬAcquisitionꎬandApplications[J].IEEETransactionsonNeuralNetworksandLearningSystemsꎬ2022ꎬ33(2):494-514.[8]㊀陶源ꎬ黄涛ꎬ李末岩ꎬ等.基于知识图谱驱动的网络安全等级保护日志审计分析模型研究[J].信息网络安全ꎬ2020ꎬ20(1):46-51.[9]㊀乔骥ꎬ王新迎ꎬ闵睿ꎬ等.面向电网调度故障处理的知识图谱框架与关键技术初探[J].中国电机工程学报ꎬ2020ꎬ40(18):5837-5849.[10]王骏东ꎬ杨军ꎬ裴洋舟ꎬ等.基于知识图谱的配电网故障辅助决策研究[J].电网技术ꎬ2021ꎬ45(6):2101-2112. [11]ZHENGZꎬLIUYꎬZHANGYꎬetal.TCMKG:ADeepLearningBasedTraditionalChineseMedicineKnowledgeGraphPlatform[C]ʊ2020IEEEInternationalConferenceonKnowledgeGraph(ICKG).Nanjing:IEEEꎬ2020:560-564.[12]井杰.知识和数据双驱动的检验人工智能疾病诊断系统的构建[D].上海:中国人民解放军海军军医大学ꎬ2021.[13]刘绪忠ꎬ宋春咏ꎬ孙磊ꎬ等.基于知识图谱的故障智能诊断手段研究[J].山东通信技术ꎬ2019ꎬ39(2):18-20. [14]刘鑫.面向故障分析的知识图谱构建技术研究[D].北京:北京邮电大学ꎬ2019.[15]冯朝政ꎬ程良伦.基于知识图谱的地铁故障推荐系统研究[J].工业控制计算机ꎬ2021ꎬ34(4):107-108ꎬ111. [16]舒宁ꎬ葛智君ꎬ罗剑武ꎬ等.基于知识图谱的故障诊断系统[J].电子产品可靠性与环境试验ꎬ2021ꎬ39(S1):11-13.[17]肖发龙ꎬ吴岳忠ꎬ沈雪豪ꎬ等.基于深度学习和知识图谱的变电站设备故障智能诊断[J].电力建设ꎬ2022ꎬ43(3):66-74.[18]朱广宇ꎬ张萌ꎬ裔扬.基于知识图谱的城市轨道交通突发事件演化结果预测[J/OL].电子与信息学报ꎬ2022:1-9(2022-04-22)[2022-5-19].https:ʊt.cnki.net/kcms/detail?v=WYAYGqfr92rTFEvj2aNEP4 ̄CuMEfMAeHh93OxA_RlKc88Phekp1JBAu_a230YrEiVWqWYkQ2dH9yRPGT_vStRNzdc3rBzNz3qFuFH1fyqmCFyHagvPMryg==&uniplatform=NZKPT.作者简介:㊀㊀谷奉锦㊀硕士研究生ꎮ主要研究方向:知识图谱㊁4G/5G网络故障诊断等ꎮ㊀㊀贺楚闳㊀本科在读ꎮ主要研究方向:知识图谱㊁5G网络智能部署和优化等ꎮ㊀㊀潘庆亚㊀硕士研究生ꎮ主要研究方向:网络规划㊁网络故障诊断等ꎮ㊀㊀王㊀晔㊀博士ꎬ就职于中国移动通信集团江苏有限公司ꎮ主要研究方向:工业互联网㊁车联网先导区建设ꎮ承担工信部㊁省科技厅㊁中国移动超过5项重大科研和产业建设项目ꎮ㊀㊀(∗通信作者)朱晓荣㊀博士ꎬ南京邮电大学教授ꎬ博士生导师ꎮ主要研究方向:5G通信系统㊁异构网络㊁物联网等关键技术及系统研发ꎮ。

大规模智能告警收敛与告警根因技术实践

大规模智能告警收敛与告警根因技术实践
• 图数据库更灵活。图这种通用结构可以对各种场景进行建模,如社交网络、道 路系统等。不管有什么新的数据需要存储,都只需要考虑节点属性和边属性。 不像关系型数据库中,需要更新表结构,还要考虑和其他表的关联关系等。
2020
16
4.1.1图数据库选型
开源图数据库 Neo4j
ArangoDB Nebula Graph
构建流程:
物理机
虚拟机
软件
CMDB原始CSV
主机组
DU->IP
JBOSS->中间件
调用链trace API
DU->DU
系统->系统
调用链调用 API
物理机
交换机
路由器
物理设备网络连接
2020
22
4.2.2 CMDB以及链路、设备数据
CMDB数据样例
例如:能够构建出 HOST->VM->SOFTWARE->GROUP及GROUP(WildFly)->GROUP(Nginx)的关系图谱
性能对比图
性能测试结果如下:
场景 ArangoDB单机
导入时间
292s
onehop
0.34ms
twohop
1.87ms
ArangoDB集群 283s
0.35ms 4.33ms
Neo4j 32s
0.41ms 2.15ms
Nebula单机 150s
0.89ms 22.35ms
Nebula集群 71s
0.87ms 21.78ms
告警知识图谱展示的是各种告警之间的因果关系,比如物理机宕机告警会导致虚拟机 宕机告警,虚拟机磁盘IO使用率告警会导致机器上一些软件的告警等。关系同样包 括 constitute(构成)、cluster(汇聚)、ship(承载)、host(宿主) 等,其原型如下:

H3C iMC智能管理中心平台介绍

H3C iMC智能管理中心平台介绍

产品概述随着网络建设的不断深入发展,除了单纯的追求高带宽、高速率外,安全的网络、高效的网络和可运营的网络成为越来越多的用户关注的焦点,网络精细化管理也越来越深入人心,一套好的管理软件无疑对网络的精细化管理起到至关重要的作用。

在目前的企业网中,一方面网络规模不断扩大,对设备资源的控制要求不断提高;另一方面,网络业务不断丰富,针对网络业务管理的需求越来越迫切;同时,接入节点规模庞大,对用户接入的控制和管理也成为不少网络必备的要求。

传统的单一的网络管理、业务管理工具或用户及接入管理往往缺乏相互融合,导致管理手段孤立、有效信息无法共享、管理力度不足、管理操作复杂。

企业迫切需要一种融合的网络、用户和业务融合管理的系统,使得用户、网络、业务统一管理、互相协同、操作简便、满足多种接入场景所需。

iMC智能管理中心,是H3C推出的下一代业务智能管理产品。

它以业务管理和业务流程模型为核心,采用面向服务(SOA)的设计思想,为客户提供网络业务、资源和用户的融合管理解决方案,帮助客户实现网络业务的端到端管理;同时以全开放的、组件化的架构原型,向平台及其承载业务提供分布式、分级式交互管理特性;并为业务软件的下一代产品提供最可靠的、可扩展的、高性能的业务平台。

iMC智能管理平台(IntelligentManagementCenter)是整个iMC智能管理系统的基础管理平台,iMC的各个业务组件都必须安装在这个公用的平台上才能使用。

iMC智能管理平台不仅为系统各业务组件的集成提供了包括统一权限控制、SOA框架、统一操作日志管理、各组件License控制、分布式安装等基本功能,而且还为用户提供了包括操作员管理、资源管理、拓扑管理、性能管理、告警管理、配置管理、Syslog管理、及操作日志管理等网络管理功能,以及资产管理、VLAN管理、ACL管理、虚拟化网络管理、安全控制中心、来宾接入管理、报表管理等基础业务功能。

产品特点1?首页个性化定制✍??支持各业务在首页发布widget,每个widget具有折叠、还原、最大化、拖拉、关闭、新窗口打开等功能。

电力通信管理系统(TMS)

电力通信管理系统(TMS)

电力通信管理系统(TMS)一、研发背景长期以来, 电力通信按照分层、分级、分区模式进行管理, 各级电力企业已建综合网管系统基本上都是孤立的、非标准化的, 业务和信息集成度相对较差,无法进行有效的数据共享,容易形成“资源孤岛"和“信息孤岛”。

“十二五”期间, 国家电网公司通信网建设将在广度和深度上都有了新的巨大发展,同时也面临新的重大挑战.根据当前形势和要求,国家电网公司提出了“提升支撑网管控能力,构建一体化通信管理系统,覆盖各级骨干网和接入网,打破以前无法纵向级联贯通的瓶颈, 强化通信管理的集团化运作和集约化发展”的总体要求, 通过建立集通信网络设施管理、承载业务管理、通信资源管理、专业职能管理功能于一体的综合管理系统,满足智能电网和“三集五大”对通信专业工作的新要求,促进信息通信公共资源融合, 提升大规模通信网络运行能力、资源优化配置能力、业务保障能力及专业管理能力。

二、技术原理所研制的电力通信管理系统作为一个整体,其总体架构由总部(分部)、省两级系统和互联网络组成。

上层由总部(分部)系统组成, 下层由省级系统组成。

上层系统间通过跨区域网络互联, 实现跨区域系统的互联互通和信息共享, 形成对跨区域骨干通信网络的综合管理能力; 上下两层系统间通过跨省网络互联,实现跨省系统的互联互通和信息共享,形成对跨省骨干通信网络的综合管理能力; 下层系统通过省内网络互联,实现省内各层级系统的互联互通和信息共享,形成对省内通信网络的综合管理能力.图1 通信管理系统总体架构图各层级通信管理系统的数据采集控制通过北向接口采集传输网、业务网、支撑网等设备网管的各类配置、告警和性能信息。

数据采集控制系统将采集数据通过单向隔离装置上传到基础平台并保存到数据库中, 在基础平台上构建实时监视、资源管理、运行管理等应用功能。

各层级通信管理系统之间通过标准数据互联接口进行数据交换和信息共享。

本系统在技术架构上采用基于SOA的服务架构, 服务端采用Java技术, 客户端采用HTML/JavaScript/Flex等B/S展现技术.系统由网络控制和数据采集层、平台层、管理应用层三层组成.网络控制和数据采集层: 由各种下层系统(设备网管、动力环境和其他数采系统)和数据采集系统组成。

银行BPC业务性能监控平台技术方案

银行BPC业务性能监控平台技术方案

银行BPC业务性能监控平台实施方案Service-Oriented Business Performance Center1目录1实施背景 (5)1.1概述 (5)2BPC方案 (6)3实施部署 (7)3.1实施范围 (7)3.2实施目标 (9)4实施信息情况概述 (10)4.1内容摘要 (10)4.2实施项目概述 (10)4.3实施时间 (11)4.4实施人员 (12)4.4.1用户参与人员 (12)4.4.2厂商参与人员 (12)5BPC产品实施 (12)25.1服务路径图展现 (12)5.1.1服务路径图编辑 (12)5.2协议解码 (14)5.3实时监控 (14)5.3.1服务运行Dashboard (14)5.3.2系统动态运行图 (17)5.4业务指标统计 (17)5.4.1应用层视图 (17)5.4.2应用层快照 (18)5.4.3多维度统计 (19)5.5交易追踪 (20)5.5.1交易查询 (20)5.6告警功能 (21)5.6.1告警配置 (21)5.6.2告警显示 (23)5.7系统管理 (25)5.7.1配置方面 (25)35.7.2管理方面 (26)6BPC产品优势总结 (27)6.1丰富的协议解码积累 (27)6.2精确的数据指标 (28)6.3快速实施落地能力 (28)6.4支持多中心多活部署架构 (28)6.5支持灵活的银行业务场景 (29)6.6上线时间短 (30)6.7运行稳定 (30)6.8解码配置灵活 (30)7BPC实施总结 (30)41实施背景1.1概述随着银行业务的不断扩展,IT运维人员需要一种有效手段能够对核心服务的性能进行管理,敏捷应对业务变化,掌握运维的主动性。

它不但需要能够真实刻画核心服务的运行情况,还需要能够跨越多种技术架构,并且囊括防火墙和应用交付设备。

同时,还需要易于建设和使用。

5无全局可视性从应用本身到网络、安全等设备每个环节均有可能成为故障点及性能瓶颈,运维人员缺乏全局的可视性来快速发现定位包括防火墙、负载均衡等应用交付设备的每一个故障点。

系统日志分析与故障定位

系统日志分析与故障定位

系统日志分析与故障定位一、引言在现代信息技术高度发展的背景下,各种类型的计算机系统、网络设备和应用软件的数量正在不断增加。

然而,随着系统规模的扩大和复杂性的提高,系统故障的发生也变得愈发频繁和复杂化。

因此,对系统的运行状态进行监控和分析,以便快速定位故障并解决问题,成为维护人员必备的技能之一。

本文将介绍系统日志分析的重要性,以及如何通过系统日志进行故障定位的方法。

二、系统日志分析的重要性系统日志是记录系统运行情况和事件发生的关键信息,对于维护和诊断系统故障具有重要意义。

通过系统日志分析,可以实现以下目标:1. 发现潜在问题:通过对系统日志的监测和分析,可以及时发现潜在的问题和异常情况,预防故障发生。

2. 定位故障原因:系统日志记录了系统运行过程中的各种事件和错误信息,可以帮助维护人员更快速地定位故障原因,提高故障处理效率。

3. 优化系统性能:通过对系统日志的深入分析,可以了解系统的负载情况、资源利用率等指标,从而优化系统配置和调整性能,提高系统运行效率。

三、系统日志分析的方法系统日志分析需要根据具体的场景和需求选择适合的方法和工具。

下面介绍几种常用的系统日志分析方法:1. 关键字搜索:通过在日志文件中搜索关键字,如错误代码、异常提示等,快速定位到与故障相关的信息。

这种方法适用于简单的故障场景,但在大规模日志分析时效率较低。

2. 日志聚合:将多台服务器的日志聚合到一个平台,通过统一的界面进行检索和分析。

这种方法适用于分布式系统或多台设备同时出现故障的场景,可以有效提高工作效率。

3. 数据可视化:通过可视化技术将系统日志数据以图表、曲线等形式展示,帮助维护人员直观地了解系统的运行状态和趋势,有助于提前发现潜在问题。

4. 机器学习:利用机器学习算法对系统日志进行分析和建模,自动识别和预测故障。

这种方法可以大大减少人工分析的工作量,提高故障定位的准确性。

四、故障定位的步骤和技巧在进行系统故障定位时,通常可以按照以下步骤进行:1. 收集日志信息:收集相关的系统日志文件,并进行预处理(如过滤无关信息、整理格式等),以便后续分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

利用告警关联分析技术实现网络故障定位
摘要电信网络的规模和复杂程度越来越大,每时每刻,网络上都会发生很多各种各样的故障,每个故障都会导致系统发出一个或多个告警通知网络运行维护人员,面对这些海量的告警数据,必须快速定位故障来源,本文主要研究利用告警关联分析技术实现快速故障定位,更好更快的处理解决故障,提升电信服务的品质。

关键词告警关联:关联规则:集中告警
1引言
电信运营公司为了降低企业的运营成本,提高服务质量,以谋求企业的竞争优势,必须有效地管理好自己的网络,使网络安全,稳定、高效地运行。

但是,随着电信网规模的不断扩大,电信设备、网络结构复杂度的不断提高以及网络带宽的迅速增长,电信网产生的告警数量也不断增多,使得对网络的实时监控和故障管理变得更加困难,面对故障处理反应迟钝,对于问题的处理往往都是采用被动响应式的管理模式,其主要特征是:一般是客户觉察到业务故障,相电信的业务部门投诉和告警(这时往往发生故障有一段时间),业务部门通知后台运行维护部门被动地采取诊断措施。

直到最后故障的解决。

其显著的特点是,由于故障发生到采取恢复措施之间的时间差,导致业务中断的时间较长,效率相对低,对于客户的SLA服务水平不够。

这就必须要有,机制和系统能够接受到海量告警后,及时进行告警关联分析,以最快的速度定位故障。

通信设备作为统一的整体,各个部分相互协作实现各项功能,设备某一部分出现问题影响到功能的实现时,设备中其他相关部分也不能很好的完成预定功能,这些相关部分就会各自发出相关告警,这些告警虽然发生在不同网无之上,发生时间也有一定的先后顺序,但实际上表述的是同一个故障源引发的故障,表达了相同或者相近的意思,因此可以合并成一条或几条,以便于维护人员从浩如烟海的告警中迅速分析出故障发生原因,快速定位故障和解决故障,这就是告警的关联分析技术。

2故障与告警
2.1故障与告警的基本关系
首先要说明的是故障和告警不是同一会事情,告警是一个事件的通知。

在某些故障管理系统中,这个事件就是一些故障。

告警不光只用于网络告警,同样也用于其他领域。

例如:交通运输管理,告警将会提供某个区域内车流量上升的信息。

告警都会有一个生命周期。

一些告警会有一个预先设定的生命周期,另外一些告警的生命周期开始于一个开始(sEt)告警,然后结束于一个清除(cLEAR)告警。

在故障管理中,告警就是一个故障的征兆。

可能是一个单一的故障产生了很多的故障告警。

举例:如图2.1,这张图上,节点x到Y之间的链路断开了。

然后当节点A 试图和B通讯时,发现无法联通,就产生告警。

节点A知道于节点B不能通讯,一定是有什么故障在他们之间产生了,但并不知道故障产生在哪个确切位置。

因此A产生了告警来通知网络管理者。

节点A不知道到底是什么导致故障,这个故障可能是节点A本身。

也可能是节点B。

在这种情况下,这些节点网元只能做简单的测试,但无法定位故障。

所以他们只有发出告警来让网络管理者知道发生了什么事,让网络管理者综合各种情况来判断并定位故障来源。

节点网元B 同样接受不到来自节点网元A的信息,因此节点网元B同样发出一个告警。

节点网元x和节点网元Y同样不能从A、B节点接受信息,因此他们也会产生告警。

大多数情况下,一个网元设备针对一个故障会产生多条告警,就是多条不同类型的告警。

例如:节点网元x可能会发送两条告警,一个告警可能是连接失败,另一个告警可能是数据丢包。

并且故障没有解决前,节点网元x会在每次试图发送信息,并且失败时发送一个故障告警,那么就会有持续不断的告警发出。

我们所说的告警关联要作的工作就是从这些事件的繁多的告警征兆中挑选出我们所需要的告警信息,并且从中找到故障根源。

2.2告警对象介绍
根据TMN(电信管理网)的信息架构定义,告警被认为是一个对象。

告警对象的属性用来描述产生告警的原因。

3告警关联算法
告警关联算法的目的是发现根源故障,排除衍生故障。

该算法设定了一个固定的时间窗口,数值为两分钟,在这个时间窗口内,抽取当前最新的得到的告警,以客户/业务/电路/节点四个层次从资源模型中抽取数据,从该条告警数据的节点出发,根据资源模型中的父子关系,向节点四周的节点逐步搜索,并匹配该时间窗口内其他告警记录,设定拓展的深度为3,那么从该条告警发生节点开始搜索,搜索深度为3,会得到一张与该告警节点关联的告警网状图。

网络故障一定就发生在这张网状图的任意一个节点或任意两个节点之问的链路上。

根据此算法,基于资源模型对告警进行了分组,分组中加入了时间窗口的考虑,并对各告警的跨专业关联进行了分析;分组完成后,基于告警影响的程度大小,影响到最多业务和电路的告警一般是根源告警,这样就判定了根源告警,抑制了衍生告警。

在告警关联实际的工作中,上面的方法也不一定完全能准确对故障定位,首先面对海量告警和巨大的网络,对资源模型中的数据进行网络搜索是一个计算量很多的工作,处理效率低,判断报告警速度慢,影响了快速故障定位。

其次影响到最多业务和电路的告警也不一定是根源告警。

所以必须结合实际工作中掌握的经验。

对于告警的规律,我们将其进行提炼和总结。

可以将这些相关知识通过关联卡片的方式录入到算法中作为算法运行。

当知识库逐步庞大的时候,算法分析出来的告警根源和告警关联关系的结果也将越来越符合实际情况。

具体算法的运行步骤如下:
(1)利用时间关系和资源关系,进行告警分组操作;
(2)进行分组的同时,依照关联卡片中记录的根源告警数据,进行根告警过滤。

将所有可能是根源告警的告警选取出来;
(3)依据关联卡片信息,建立根源一衍生告警之间的具体关联关系:
(4)参考告警影响的业务数量和卡片信息,判定最终根源告警。

5结论
系统利用运维人员经验,填写了关联卡片四百余条记录,并录入了系统,应用于算法分析中。

根据对模拟结果的测试,得到结论,关联卡片能够准确的关联上两条在一条电路上同一端口上的不同告警类型的告警,其中有一条是根告警,并能够准确的关联上一组在一条电路上端口与端口所属网元型号都不同的告警。

据实际应用测试,对系统在15天内的运行结果进行了统计,获取了41组关联分析结果。

在资源数据准确的情况下,得到了100%的分组准确率。

另在具备一定关联卡片知识的前提下,有80%的分组中的根源告警准确定位,具有较高的准确性。

总的来说,本文的告警关联分析算法以实际在网资源数据为基础,结合了时间影响和业务影响的判断,结合运维实际经验的先验知识库,对告警根源和告警关系进行分析判断,具有一定的先进性。

相关文档
最新文档