分布式网络故障管理系统论文
分布式计算机网络故障管理系统分析

管理站收集被管对象的网络信息,通常代理 利用预先定义的闹值对这些数据进行分析, 如果发现问题则向管理者发送事件报告。代 理程序的数目 取决于被管设备的多少。由干 许多厂商的设备都提供了对SNMP 的支持, 因此有些设备的代理程序是由厂商自己提供
的,系统只要实现事件接收机制,即可完成 对这些设备的管理。
T 技 术
良〕 汇限芜 邑 丁 自 俐0 〔 F 池丫 } ;0 只 M MA l lO N
分布式计算机网络故障管理系统分析
彭玉娟
(类底职业技术学院
1 4 7000 )
摘 要: 文章介绍了一种分布式计算机网络故障管理模型, 实现了 具体的分布式计算机网络故障管理系统。该系 统有效地提高了故障 诊断的准确性、实时性 ,从而能够保障网络正常、可靠、有效地运行, 关键词: 故障管理 计算机网络 分布式 中图分类号: TM7l l 文献标识码: A 文章编号: 1672一 3791(2007)05(a卜0071一 01
, 计ቤተ መጻሕፍቲ ባይዱ机网 络故障管理
计算机网络故障管理主要负责检测、隔 离和纠正故障。具体任务有接收和响应故障 报告、 监视网 络的状态、 动态问题追踪、 备份 和重新配置、 诊断和修复。 故障管理的目 的首 先是进行故障预防, 减少故障发生的次数。 这 就需要系统能时刻监视网络状态和一些性能 参数, 络通路情况、 如网 流量等, 分析可能发 生的变化,对可能出现的问题进行事先预防 和处理。故障管理的第二个目的在于缩短故 障的时间。 要求系统在发现错误之后, 能迅速 而准确地找到故障的位置,并提供解决问题 的方法或直接排除故障,以缩短停机的时间。
3 分布式故障管理系 统
分布式故障管理系统的主要任务是及时 发现并排除网络故障。 应具有故障检测、 故障 报警、 故障信息过滤和关联、 检索分析故障信 息、 排错、 故障管理配置等功能。 对于大中型 网络, 由干故障较多,可采用优先级的办法划 分网络故障, 对高优先级的故障及时处理, 对 低优先级的故障可暂缓处理,这样既能迅速 处理严重故障又可有效减少所占用的网络宽 带。实现上述功能需要四个步骤: ( 1 收集网 ) 络状态信息; (2 发现网络故障; ) (3 查找、 ) 分析和分离故障原因。 4 ( )尽可能自 动排除故障, 给管理者提 或者 供排除故障的帮助。 3. ,故障数 据采集 模块 故障数据采集模块可以自动采集古籍出 版社管理所需的相关数据,并整理和过滤所 得数据,形成固定格式的记录信息。利用 I CMP 和S NMP 所提供的T R AP 机制及 SNMP 的GET 操作 作为基本的数据获取手段 来实现对故障事件的采集、 过滤和规格化。 通 过进程间通信, 实现程序的协同工作。 该模块 主要涉及到3个进程: (1 设备状态轮询。 ) 故障 数据采集是网络管理系统对设备的主动行为, 因此采用轮询方式主动采集数据并对采集到 的数据进行归并后插入或修改故障管理数据 库。主动轮询方法可以帮助故障管理系统可 靠地发现网络故障。 )TRAP 信息收集。基于 2 ( SNMP TRAP 机制的故障数据采集是被管对 象对管理系统的主动行为,以保证对信息获 取的实时性,该进程对采集到的信息进行归 并处理最后插入或修改故障管理数据库。 故 (3 ) 障信息归并。对搜集的故障信息进行过滤分 类,形成故障记录。 3.2 故障报 警模块 故障报警模块可提供相应的报警机制。 它通过检索故障管理数据库获取故障设备的 管理信息和当前运行状态。通过检索系统配 置模块中的故障管理策略库获取对应的报警 策略等信息,根据报警策略以弹出窗口、声 音、电 子邮件等实施故 障报告。故障警告必 须包括足够多的信息,详细说明出现异常的 地点、原因和特征、告警参 的门限值以及
分布式系统中的错误处理与异常处理(二)

分布式系统中的错误处理与异常处理引言:随着信息科技的迅速发展,分布式系统已经成为了现代计算机网络的核心组成部分。
然而,由于分布式系统的复杂性和规模,错误和异常问题也变得不可避免。
本文将探讨分布式系统中的错误处理与异常处理方法,以及如何提高系统的鲁棒性。
一、错误处理1. 错误的类型和原因:在分布式系统中,错误可以分为硬件错误和软件错误两大类。
硬件错误可能是由于服务器故障、网络中断等引起的,而软件错误则通常是由于程序设计错误、数据错误或者资源不足等导致的。
2. 错误的检测和定位:为了有效地处理错误,分布式系统需要具备错误的检测和定位能力。
其中,错误的检测可以通过使用监控工具和日志记录来实现,而错误的定位则需要通过分析日志和调试信息来确定错误发生的位置和原因。
3. 错误的恢复和重试:一旦错误被检测到并定位,分布式系统需要采取措施进行错误的恢复和重试。
其中,错误的恢复可以是自动的,例如通过备份服务器接管故障服务器的任务;或者是需要手动干预的,例如重新启动软件或重置硬件。
而错误的重试则需要根据具体情况进行调整,例如重新发送未成功的网络请求,直至成功为止。
二、异常处理1. 异常的类型和处理方式:异常是指在程序运行过程中遇到的非正常情况,包括但不限于输入错误、网络超时、资源不足等。
分布式系统中的异常处理需要建立多层次的异常处理机制,包括异常检测、异常传播、异常处理和异常恢复等。
2. 异常的检测和传播:分布式系统可以使用异常检测技术来检测异常的发生,例如监控网络连接状态和资源使用情况。
一旦异常被检测到,分布式系统需要将异常信息传播给相应的处理单元,例如通过消息队列、日志记录等方式。
3. 异常的处理和恢复:异常的处理包括异常的分类和处理策略的制定。
分布式系统可以根据异常的不同类型,采取针对性的处理方法,例如重新发送网络请求、自动切换到备用服务器等。
而异常的恢复则需要考虑数据的一致性和完整性,例如通过日志回滚、数据备份等手段进行恢复。
智能分布式配电网自愈控制系统设计

智能分布式配电网自愈控制系统设计1. 引言1.1 背景介绍自愈控制系统作为智能配电网的重要组成部分,其设计目的在于提高配电网的抗干扰能力和自我修复能力。
在传统配电网中,一旦出现设备故障或异常,往往需要人工干预才能进行修复,造成了供电中断时间过长和供电可靠性不高的问题。
而自愈控制系统则能够通过智能化算法和自动化控制手段,实现对配电网故障的快速诊断和定位,从而实现快速恢复供电和降低故障影响范围的目的。
本研究旨在设计一套智能分布式配电网自愈控制系统,结合先进的物联网、人工智能和大数据技术,实现对配电网故障的智能化识别和快速恢复,从而提高配电网的可靠性和安全性。
本文将围绕智能配电网技术概述、自愈控制系统设计原理、自愈控制系统关键技术、系统实验与验证和系统性能评价等方面展开深入研究与讨论。
1.2 研究目的本研究旨在设计和实现一种智能分布式配电网自愈控制系统,以提高配电网的可靠性、安全性和灵活性。
具体目的包括:1. 研究现有智能配电网技术的发展现状,分析其特点和应用领域,为自愈控制系统的设计提供理论基础;2. 探讨自愈控制系统的设计原理,包括如何实现对配电网异常情况的及时监测、快速诊断和智能决策;3. 分析和总结自愈控制系统的关键技术,包括智能监测装置、智能决策算法、信息通信技术等,为系统的设计提供技术支持;4. 设计并实现一个具有自愈功能的分布式配电网控制系统,并通过实验验证系统的性能和可靠性;5. 最终评价系统性能,总结研究成果,展望未来智能分布式配电网自愈控制系统在实际应用中的发展前景。
1.3 研究意义智能分布式配电网自愈控制系统设计的研究意义主要体现在以下几个方面:智能分布式配电网自愈控制系统的设计将推动配电网技术的进步和发展,提高配电网的可靠性和稳定性。
配电网是电力系统中的最后一道防线,其稳定性直接影响到电力系统的安全运行。
自愈控制系统设计的研究可以帮助提升配电网的智能化程度,实现故障自动定位和快速恢复,从而减少故障对用户造成的影响,提高系统的可靠性。
网络IP的分布式系统和集群管理

网络IP的分布式系统和集群管理随着互联网的发展,信息技术的迅速进步,网络IP的分布式系统和集群管理在网络架构和管理中变得越来越重要。
本文将探讨网络IP 的分布式系统和集群管理的概念、原理以及相应的技术。
一、概述网络IP的分布式系统和集群管理是指将大量的网络IP地址资源分布在多台服务器之间,通过集群管理技术实现网络资源的高效利用和运营管理。
在传统的网络架构中,IP地址通常是集中管理和控制的,但随着网络规模的不断扩大和业务需求的不断增加,集中式管理已经不能满足快速增长的需求。
因此,采用分布式系统和集群管理的方式成为了一种趋势和解决方案。
二、分布式系统1. 概念和原理分布式系统是指将多台服务器通过网络连接起来,共同完成某个任务或者提供某个服务的系统。
在分布式系统中,各个服务器之间相互协作,共享资源和负载,实现高性能和高可用性。
分布式系统可以通过多种协议和技术实现,例如TCP/IP协议、DNS负载均衡、数据复制和同步等。
2. 分布式系统的优势分布式系统的优势在于提供了更高的性能和可靠性。
通过将网络IP地址资源分布在多台服务器之间,可以充分利用服务器的计算和存储能力,提高系统的吞吐量和响应时间。
同时,分布式系统还可以实现负载均衡和故障恢复,当某一台服务器发生故障时,其他服务器可以接管工作,保证服务的连续性。
三、集群管理1. 概念和原理集群管理是指对分布式系统中的多台服务器进行集中化管理和控制的技术。
通过集群管理,管理员可以对服务器进行集中配置、监控和维护,提升系统的可管理性和运维效率。
集群管理还可以实现负载均衡和故障转移,确保系统的稳定性和可用性。
2. 集群管理的技术集群管理可以通过各种技术来实现,例如集群软件、集群文件系统、集群监控和自动化运维工具等。
集群软件可以实现服务器的集中管理和配置,例如通过SSH协议实现远程登录和操作。
集群文件系统可以实现数据在多台服务器之间的共享和同步,例如NFS和GlusterFS等。
网络故障范文

网络故障范文网络故障。
近年来,随着信息技术的飞速发展,网络已经成为人们生活中不可或缺的一部分。
然而,随之而来的网络故障问题也逐渐凸显出来。
网络故障不仅给人们的生活和工作带来了诸多不便,还可能造成严重的经济损失。
因此,如何有效应对和解决网络故障问题成为了当前亟需解决的重要课题。
首先,网络故障的原因主要有两个方面,一是硬件设备的故障,二是软件系统的问题。
硬件设备的故障可能是由于设备老化、电源问题、线路故障等引起的,而软件系统的问题可能是由于系统漏洞、病毒攻击、网络拥堵等引起的。
因此,要解决网络故障问题,首先需要对网络设备和软件系统进行全面的检查,找出故障的具体原因。
其次,针对不同类型的网络故障,需要采取相应的解决措施。
对于硬件设备的故障,可以采取更换设备、修复线路、加强设备维护等方式来解决;对于软件系统的问题,可以采取更新系统补丁、安装杀毒软件、优化网络配置等方式来解决。
此外,还可以通过增加带宽、优化网络拓扑结构、加强网络安全管理等手段来预防和减少网络故障的发生。
再次,及时有效地处理网络故障对于保障网络安全和稳定运行至关重要。
一旦发生网络故障,需要立即启动应急预案,迅速定位和解决故障,避免造成更大的损失。
同时,还需要建立完善的网络监控和管理体系,及时发现和排除潜在的故障隐患,提高网络的稳定性和可靠性。
最后,要加强网络故障处理的技术培训和人员配备。
网络技术日新月异,需要不断更新和提升网络维护人员的技能和知识水平,提高他们的应急处理能力和解决问题的能力。
同时,还需要合理配置网络维护人员的数量和岗位,确保网络故障处理工作的顺利进行。
总之,网络故障是一个复杂而又严重的问题,需要全社会的共同努力来解决。
只有通过科学有效的手段和方法,加强网络设备和软件系统的维护和管理,提高网络维护人员的技术水平和应急处理能力,才能更好地预防和解决网络故障问题,保障网络的安全和稳定运行。
相信在不久的将来,网络故障将不再是人们生活和工作中的难题,网络将成为更加安全、稳定和畅通的信息交流平台。
分布式系统中的安全问题与挑战

分布式系统中的安全问题与挑战一、引言随着计算机技术的持续发展,分布式系统已经成为了相当流行的系统架构。
它不仅可以提高计算能力和系统可用性,还能为企业带来巨大的商业价值。
然而,分布式系统也带来了许多强制性的安全挑战。
在分布式系统中,安全问题成为了一大关注的焦点。
二、分布式系统中的安全问题分布式系统由多个组件、节点和服务组成,这也就为安全问题提供了更多的入口和机会。
以下这些是常见的安全问题:1. 访问控制和权限管理在分布式系统中,访问控制和权限管理是非常关键的一环,要保证应用只能被授权的用户或服务访问。
如果这些措施不完善或者存在漏洞,那么数据就有可能会遭到泄露或攻击。
2. 保护数据和通信在分布式系统中,通信是最基本的操作,但是这也为攻击者提供了机会,其可能截获或篡改数据包。
因此,必须采用加密和安全通信协议来保护通信和数据的安全。
3. 确保数据的一致性在分布式系统中,数据会同时存储在多个地方,因此可能存在数据不一致的情况。
因此,需要一些机制来确保数据的一致性,如数据同步。
4. 避免逆向工程和篡改大部分分布式系统软件的代码是公开的,因此攻击者可能通过分析代码的方法来找到漏洞。
为了尽可能地避免这种情况,软件应该采用各种技术来保护代码,如反编译和代码混淆。
5. 恶意攻击分布式系统面临的大多数威胁都是恶意攻击。
在这些攻击中,攻击者可能会打破系统的访问控制并获取数据或控制系统。
这种攻击可能还会导致拒绝服务、窃取密码等问题。
三、分布式系统中的安全挑战1. 网络隔离:分布式系统中的不同节点通常是通过网络连接在一起的。
通常情况下,可以采用网络隔离来确保分布式系统中的安全。
网络隔离涉及许多方面,其中包括物理隔离、虚拟隔离、逻辑隔离等。
2. 多节点管理:在分布式系统中,有多个节点需要统一管理。
因此,需要一种方法来确保各个节点的安全和管理。
这通常可以通过中央控制器的方式来实现,但也可能给攻击者留下漏洞。
效,导致数据的不一致,这时需要一种机制来解决这种问题,即自我保护机制。
基于事例推理的分布式网络故障管理系统的研究

基 于事 例 推 理 的分 布 式 网络故 障管 理 系统 的研 究
张 弄 ,张德 远 ,吴 瞻
( 西安交通大学电子与信息工程学院,? 04 ,西安) 10 9
摘要 :提 出了一种基于事例推理的分布式网络故障管理技术. 采用分布式代理技 术进行报警采集, 并利用神经网络和基于事例推理技术. 在代理和管理站的配合下实现了网络故障检测的学习; 最终 故 障诊 断 由分 布在 网络 中的代 理 来完成 , 允许根 据 网络 的变化 不断地 更新检 测模 型. 了验 证 该技 为
Z a g Yo g, Zh n De u h n n ag y n. W u Z a h
( c o l 1E et n c a dI fr t n E g n eig Xi nJa tn ies y i n 7 0 4 、C ia S h o l r i n o ma i n 1e r . ’ ioo g Unv ri 、X 1 0 9 h n ) o co s n o n a t a
术 . 立了一 个原 型 系统 并进 行 了测试 . 建 结果证 明该技 术是 有 效的.
关键词:网络故障管理 ; 基于事例推理 ; 代理 ; 神经网络
中图分 类号 :TP 9 文 献标识 码 :A 33
Re e r h o sr b td Ne wo k Fa l a g me s a c fDiti u e t r u tM na e nt Ba e n Ca eRe s n ng sd o s a o i
网络故 障管理 主要是 负责 检测 和解决 网络运行 中存在 的各 种故 障+目前 阿络 管 理 软 件所 采 用 的技 术主要 是 基于 闭值 的判 断 , 当某一 性 能指 标 超 过 即 某 一 阈值 时 . 就认 为是一 个故 障. 这种故 障检 测 机制
毕业论文---Zabbix企业级分布式系统

集成企业Zabbix监控系统设计与实现系学2017年10月30 日目录摘要 (1)关键词 (1)1 绪论 (2)2 监控系统的开源软件及原理探究 (2)2.1 监控系统的开源软件 (2)2.1.1 流量监控 (2)2.1.2 性能告警 (3)2.2 Zabbix的原理探究 (3)3 Zabbix特点及运行流程 (3)3.1 Zabbix的特点 (3)3.2 ZabbIx的运行流程 (4)4 总体设计 (4)4.1 设计思路 (4)4.2 环境参数 (5)5 Zabbix安装环境及前期准备 (5)5.1 Zabbix安装环境 (5)5.2 Zabbix服务器安装前期准备 (5)6 安装Zabbix服务器 (6)6.1 搭建LAMP平台、安装Zabbix依赖包 (6)6.2 整合LAMP架构 (7)6.3 部署Zabbix (7)6.4 创建Zabbix_agentd服务 (8)6.5 建立监控数据库 (8)6.6 部署PHP页面 (9)6.7 锁定安装界面并启动Zabbix服务 (11)7 被监控端配置 (12)7.1 前期准备 (12)7.2 安装Zabbix_agentd代理程序 (12)7.3 启动Zabbix_agented服务 (13)8 使用Zabbix管理平台 (13)8.1 创建主机分组 (13)8.2 测试监控性能 (14)9 总结 (16)参考文献 (17)致谢 (18)集成企业Zabbix监控系统设计与实现摘要“运筹帷幄之中,决胜千里之外。
”在IT运维中,监控占据着重要的地位,按比例来算,说30%一点儿也不为过。
对IT运维工程师来说,构建一个真正可用的监控告警系统是一项艰巨的任务,能够真正解决自己业务问题的监控系统软件却凤毛麟角。
运维离不开监控,就像鱼离不开水,一款功能强大的监控系统可以有力地保证业务性能的稳定。
近几年,Zabbix最为监控系统的新兴贵族迅速崛起,Zabbix灵活的设计为用户提供了易用的二次开发接口,让用户既可以使用Zabbix本身提供的功能,又可以自定义更多的接口功能,从硬件监控,到操作系统,再到服务进程,以及网络设备,它无所不能的监控功能令人叹为观止。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分布式网络故障管理系统研究摘要:人类社会跨入信息时代,在高技术特别是信息技术的推动下,信息成为了许多领域成功的关键因素。
随着网络应用的发展,越来越多的专业人士重视分布式网络故障系统,除了要依靠网络设备本身和网络架构的可靠性之外,网络管理是一个关键环境,结构越来越复杂和规模越来越大的网络系统需要网络故障管理系统来确保其正常运作,以保证网络高效、可靠地运转。
分布式网络故障管理系统已成为网络不可或缺的重要部分。
关键词:分布式网络故障管理系统研究1.前言分布式网络故障管理系统的任务是及时发现并帮助网络管理人员排除网络故障,它是网络管理中基本而且重要的任务。
故障管理系统包括对网络设备状态数据的采集、存储,实现报警信息通知、故障过滤、报警显示、报警统计、故障定位等功能。
2.分布式网络管理体系结构分布式体系结构融合了集中式体系结构和分层体系结构的特点,采用多个对等平台,其中一个平台作为一组对等平台的管理者,每个对等平台都有整个网络的完整数据库,使其可以执行多种任务并向中央系统发送报告。
分布式网络管理体系结构的基本思想是将大规模的网络管理划分为若干个对等的次级管理域,一个域由一个管理者负责,管理者之间互相沟通,当需要另一个域的信息时,管理者对他的对等系统进行通信。
每一个管理域的网络管理系统都有一个相应的mib,负责收集管理域内的管理信息和数据,并把全部数据汇总到中心服务器的mib中。
中心网络服务器可以有选择地接受次级管理域的mib 数据,或者在需要的时候向次级管理域的mib索取相应的信息。
相对于剧中管理模式,分布式网络管理模型降低了网络管理流量,避免网络拥塞的产生。
并且,由多个管理域组合而成的网络管理系统提高了可靠性,在功能上提供了较好的可扩展性,是英语复杂的网络结构。
分布式体系结构是集中式体系结构和分层体系结构的结合,因此它具备了这两者的优点:①任何一个地方都能获得所有的网络信息;②不纯粹依赖于单一的计算机系统;③网络管理任务分布执行;④网络监控分布于整个网络,实现信息共享化。
3.分布式网络系统经常遇到的故障类型3.1物理故障(1)由电力故障引发的物理故障,设备的正常运行需要有符合其要求的电力供应,由于电力原因引起的网络设备不能提供正常的服务,在网络故障中占有较大的比例。
(2)传输线路故障,假如传输线路出现故障,势必将影响整个网络通信的质量,甚至会造成连接中断和网络瘫痪。
(3)硬件故障,硬件故障主要包括网络设备硬件故障、集线器或交换机端口故障、网络接口卡故障。
(4)因配置错误引起的故障,串行链路的同步与异步、接口被关闭、双工配置。
3.2数据链路层故障(1)传输路径与网络性能(2)封闭类型错误(3)地址解析错误4.分布式网络故障管理承担的工作4.1网络故障的判断和恢复网络故障的判断工作并不是简单地从发现网络故障才开始的,如果一个网络管理员总是到网络故障出现时才考虑这个问题,那么网络故障的判断将非常困难和棘手。
(1)发现故障之前的工作。
“凡事预则利,不预则弊”,在发现故障前应该做到以下几点:①了解网络拓扑关系、了解网络设备,了解网络客户端,了解使用网络的群体。
②贴上标签。
为每一条线路两端贴上标签,在网络故障发生时,这些标签可以为判断网络故障发生位置提供非常大的帮助。
③日志和笔记,每一次网络故障的发现、分析、排除、遗留问题都应该有相关的记录存档。
(2)告警过滤和根源故障分析。
网络故障的分析与分离相对于网络故障的发现而言相对困难和复杂得多。
它的目的是高校快速找到网络故障的确切原因,为排除故障直接指明方向。
当然,依赖于网络管理者的经验和方法来分析、分离故障也是可以实现的,但这就不利于提高故障处理的自动化程度。
事实上,网络中产生的很多相关故障都可能是由同一个原因引起的。
假如系统能够自动在向管理者报告前对故障信息进行分析和过滤,就能更为有效的协助管理者处理网络故障,而不仅仅是一种纯粹的向管理者报告一些局部的不具指导性且没有关联的故障报警。
这就需要对采集来的故障信息进行告警过滤和根源故障分析的处理。
(3)发现故障时的工作。
①判断故障是否是一个真正的故障,并做好相应的记录。
②寻找最近的修改,从近期的修改入手,排除非故障因素的干扰。
③查看操作系统和网络设备的报警和错误日志,在其中网络管理员能够找到网络故障有用的信息④运用专业的方法,排除、划分、克服故障。
4.2分布式网络故障的维护方法(1)预防性维护。
这是按照预定的周期和规定的标准对设备进行测试、诊断和修理等一系列检查和保养等维护工作(2)纠正性维护。
这是在监测设备检出故障,报警设备发出故障告警,或接到来自用户或操作员的申告之后才开始进行测试、诊断、维修等一系列维护工作(3)受控性维护。
受控性维护是介于上述两种维护方法之间的一种维护策略。
受控性维护的目标是在服务质量所要求的性能水平和必要的维护工作之间取得最佳平衡。
5.分布式网络故障管理系统服务于故障分析定位网络故障管理系统通常同时使用异步告警和主动轮询这两种方法收集网络状态信息。
由于网络设备的类型、生产厂家不同,因此各种设备的警报信息不相同。
如果能够在向网络管理员报告前对故障信息进行分析和过滤,就更有效地帮助管理员处理网络故障。
许多故障管理系统能够将采集到的信息依据定义的规则进行过滤,并将报警信息以直观的形式显示在图形界面上。
借助网络故障管理系统的报警信息,网络管理员可以根据自己的知识和经验来分析、定位故障的原因。
一些自动化程度高的网络故障管理系统还能够通过对警报信息进行相关性处理,定位故障发生的位置和原因。
这些故障管理系统对网络故障的分析定位主要有两种方法。
第一是根据网络配置管理系统提供的网络设备基本信息、网络的拓扑结构信息以及在故障之前和之后发生的其他网络故障时间进行分析定位。
有效地分析和定位许多网络连通性故障。
第二是根据故障管理系统保存的网络故障历史记录进行分析,通过合理的设计故障处理记录和故障分析策略,在分析过程中引入移动的agent方法调用相应的规则进行推理,对复杂的故障进行分析定位,为管理员提供有价值的参考信息。
5.1网络故障管理系统还可以依据以下资源来完善管理工作(1)技术文档,网络设备的技术文章为设备的初始化及设备的配置提供详细的指导,为各种类型硬件的安装以及删除提供了详细的指导。
技术文档不仅对安装有作用,还对排除故障时替换硬件也有帮助。
在动手解决问题之前,先阅读有关设备的文档,对排除网络故障起到事半功倍的效果。
(2)知识库,知识库是一个具体技术领域方面的经验信息数据库。
对于网络管理来说,知识库提供了一个巨大的排除网络故障的经验库,是寻找网络故障答案和解决方案的一个非常有效的工具。
(3)分布式网络故障管理是检测和确定网络环境中异常操作所需要的一组措施,其目的是保证网络能够提供联系可靠的服务。
网络管理系统作为网络的重要组成部分,是保证网络高效、可靠、经济和安全运行的重要支撑手段。
它寻求最大限度地增加网络的可用时间,提高网络设备的利用率、网络性能、服务质量和安全性,简化多厂商混合网络环境下的管理,控制网络运行成本,提供网络的长期规划。
当今,信息网络特别是计算机网络的高速发展,给人民带来了极大的方便,但与此同时,发展中的网络也向人们提出了挑战,表现在网络规模不断扩大,网络结构日渐复杂,网络复杂性日益提高。
因此,网络管理系统一直是网络建设中的焦点和难点问题。
6.基于agent的分布式网络故障管理系统的研究从本质上来说,网络环境实际是一个分布式计算的环境,网络的管理就是在分布式计算环境中涉及的一种计算模式。
移动agent 本质上是一种可以从网络上的一台主机移动到另一台主机的代码或程序,并且可以自主地选择移动的时间和地点,因此这种代码被称为移动只智能体。
agent在移动过程中,它的自身状态被保存,并封装成信息传送到新的主机,从而在新的主机上继续运行,因此面对分布式网络故障管理,agent是一个行之有效的选择;在客户机/服务器体系中它可以明显改善延迟和提高网络宽带的利用率;在网络状态不佳时,还可以降低通信中端的概率等。
移动agent系统作为一个网络管理平台,它和其他传统的管理者、代理系统之间的不同在于其管理方式,移动agent属于一种委托式管理。
其具备以下优势:①平台无关性。
由于移动agent是用解释性语言编写的,其基本的执行环境为该语言的解释器,这就屏蔽了网络设备之间的平台差异,从而使故障管理异构网络变得更加容易。
②较少占用网络资源。
移动agent可依据网络管理意图,获取相应管理集策略及路由,认为地或自主地迁移至靠近被管设备的地点运行,降低了网络通信量及管理者轮询的密度,避免了管理者与代理之间通信占用过多的网络宽带,减少了信息拥堵引发的故障。
③将大大减轻网络管理系统的负担。
由于agent本身具备一定的智能个性,它可以在本地完成其能力范围内的管理操作,而只将无法处理的事件交由网管系统处理。
④灵活性和可扩展性好。
由于agent是动态生成的,并具有一定的生存周期,因此在原有的管理系统上对其功能进行修改和扩展都非常简便。
⑤提高了分布式系统的自治和可恢复性。
如当时去与网管站上的管理进程的联系时,移动agent可以激活自治管理程序,这样在发生网络连接故障的情况下,也可以执行管理任务。
⑥网络管理自适应性。
移动agent可以依据网络管理任务,寻求最佳迁移路由及任务执行顺序,主动适应网络结构的变化,力求网络任务正常完成。
7.分布式网络数据融合技术在网络故障管理中的运用分布式网络的目地在于提高系统的可升级性、鲁棒性和生存能力,分布式可使用“即插即用”系统成为可能,传感器能够方便地装载或卸载,从而达到最佳系统性价比。
分布式的优势不仅如此,更重要的是它还可以使整个网络上的所有平台实现信息交互和融合,这也是当前许多国家军队网络中心的根本需要和关键。
分布式网络由通信链路及其连接的处理节点集合组成,是一种拓扑结构,每个节点利用与它相连的节点的信息执行特定的计算任务,而网络中不存在控制整个网络的“中心”节点。
应该强调指出,分布式网络数据融合中最突出的问题是上述信息冗余的影响。
特别是在很多过滤波网络中,来自信息源的信息甚至无法融合,除非它们是彼此独立或是巨头已知的相关度。
为了解决这个问题,关键在于找到一种不需要独立假设的数据融合机制。
8.分布式网络故障管理系统升级的建议(1)完善升级利用分层检查网络故障定位分析,网络故障的分层检查包括物理层、链路层、网络层、传输层以及上层应用等。
应完善每个检查的环节相应的分布式网络检查方案体系,以达到快速检测故障,解决故障的效果(2)全面升级分段检查网络故障定位分析体系,包括对用户端、介入设备、主干交换设备、中级设备之间的链路连通及相关端口状态检查体系的升级。
(3)利用纵向和横向逐级分析方法升级分布式网络故障管理,纵向分析与横向分析构成了全面分析网络故障的逐级体系,为网络故障的有效排除提供了详细的方案指导。