华为交换机网络环路识别和问题定位
什么是网络环路?如何避免及解决?

什么是网络环路?如何避免及解决?
通俗的讲就是在同一台交换机上用一条网线插到交换机的两个口上了。
或者是网线在中途所有的数据线都靠在一起了。
交换机环路判断
当网络中存在环路时,可能导致网络拥塞、连接中断等现象。
当用户感知到这些现象时,需要分析导致网络无法正常通信的原因,判断是否为交换机环路引起的。
根据网络特征判断交换机环路的流程,网络设备配置不当、网络攻击、网络病毒等都有可能造成网络运行不正常。
运维人员可以根据广播风暴、MAC地址漂移等特征来判断网络中是否存在交换机环路。
【交换机】交换机RLDP(环路检测链路检测)功能介绍及配置说明

【交换机】交换机RLDP(环路检测链路检测)功能介绍及配置说明功能简介RLDP 全称是Rapid Link Detection Protocol,是锐捷⽹络⾃主开发的⼀个⽤于快速检测以太⽹链路故障的链路协议。
⼀般的以太⽹链路检测机制都只是利⽤物理连接的状态,通过物理层的⾃动协商来检测链路的连通性。
但是这种检测机制存在⼀定的局限性,在⼀些情况下⽆法为⽤户提供可靠的链路检测信息,⽐如在光纤⼝上光纤接收线对接错,由于光纤转换器的存在,造成设备对应端⼝物理上是linkup 的,但实际对应的⼆层链路却是⽆法通讯的。
再⽐如两台以太⽹设备之间架设着⼀个中间⽹络,由于⽹络传输中继设备的存在,如果这些中继设备出现故障,将造成同样的问题。
利⽤RLDP 协议⽤户将可以⽅便快速地检测出以太⽹设备的链路故障,包括单向链路故障、双向链路故障、环路链路故障。
⼀、组⽹需求:企业各部门⽤户通过设备Switch A、Switch B 接⼊⽹络。
由于链路中断或者⽤户⼈为造成⽹络环路等⾮设备因素造成⽹络中断,通过配置RLDP 环路检测以及单双向链路检测功能,能迅速定位并处理故障,从⽽及时恢复⽹络,降低⽹络中断给企业带来的业务损失。
主要需求有:1、⼀旦检测到环路故障或者单双向链路故障,则根据配置的故障处理⽅法作故障处理;2、若配置了shutdown-port 故障处理的端⼝出现故障,要求主动恢复其RLDP 检测,并使所有RLDP 检测失败的端⼝重新开始检测。
⼆、组⽹拓扑:三、配置要点:1、配置全局RLDP 后再配置端⼝RLDP,同时配置诊断类型和故障处理⽅法。
注意:对环路检测来说,下联端⼝(在企业各部门⽤户或服务器上连接设备的端⼝)不能开启RLDP;对单双向链路检测来说,设备对接端⼝RLDP 都需开启。
若端⼝为路由⼝,则只能⽤warning、block 或shutdown-port 故障处理⽅法,不⽀持shutdown-svi故障处理⽅法。
华为交换机启用端口环回监测 避免网络环路

华为交换机启用端口环回监测避免网络环路在规模较大的局域网网络中,时常会遇到网络通道被严重堵塞的现象,造成这种故障现象的原因有很多,例如网络遭遇病毒攻击、网络设备发生硬件损坏、网络端口出现传输瓶颈等。
不过,从网络堵塞现象发生的统计概率来看,网络中发生过改动或变化的位置最容易发生故障现象,因为频繁改动网络时很容易引发网络环路,而由网络环路引起的网络堵塞现象常常具有较强的隐蔽性,不利于故障现象的高效排除。
那么我们能否找到一种合适的办法,来高效解决由网络环路引起的网络通道堵塞现象呢?其实,巧妙配置交换机的环回监测功能,我们可以快速地判断局域网中是否存在网络环路,那样一来由网络环路引起的故障现象就能被快速解决了!判断网络环路的思路由于现在新买回来的交换机几乎都支持端口环回监测功能,巧妙地利用该功能,我们就能让交换机自动判断出指定通信端口中是否发生了网络环路现象。
一旦我们在指定的以太网通信端口上启用环回监测功能后,交换机设备就能自动定时对所有通信端口进行扫描监测,以便判断通信端口是否存在网络环路现象。
要是监测到某个交换端口被网络环回时,该交换端口就会自动处于环回监测状态,依照交换端口参数设置以及端口类型的不同,交换机就会自动将指定交换端口关闭掉或者自动上报对应端口的日志信息,日后我们只要查看日志信息或根据端口的启用状态,就能快速判断出局域网中是否存在网络环路现象了。
现在,本文就以H3C S3050型号的交换机为操作蓝本,向各位详细介绍一下利用环回监测功能判断网络环路现象的具体配置步骤。
启用端口环回监测为了能让交换机自动判断出本地局域网中是否存在网络环路现象,我们需要启用交换机的端口环回监测功能,同时还要启用端口环回监测受控功能,不过在默认状态下,这些功能都处于关闭状态,我们需要手工配置交换机,才能将交换机指定端口环回监测功能以及端口环回监测受控功能启用起来。
在启用交换机的端口环回监测功能时,我们可以先以系统管理员权限远程登录进入交换机后台管理界面,在该界面的命令行提示符下输入字符串命令“sys”,单击回车键后,将交换机切换到系统视图状态;接着在系统视图状态下,执行字符串命令“loopback-detection enable”,这样一来交换机的全局端口环回监测功能就被成功启用了。
5.华为交换机故障定位及处理方法

常用的调试命令(二)
– display task 该命令必须在隐藏模式下执行,占用CPU时间CPU Time : 10/135 ,分子10为当前占用的时间,分母135为启动以来占 用CPU最长的时间;如果在CPU占用率高的情况时当前占用CPU 时间最长的任务就是有问题的任务。 [Quidway-hidecmd]display task ID Name Priority Status CPU Time 1 WEIL 10 Ready 3/10 2 STmr 225 Ready 1/4 3 SYST 180 Ready 0/2
案例1:速率不匹配导致链路时断时 通(二)
• 可能原因分析 – 网线问题,需检查网线的好坏; – 检查Sun E450网卡的好坏和3026E 接口的好坏; – 从告警可以估计到与传输速率有关,需进行配置分析。因 为3026E以太网口默认情况是自适应的,而SUNE450的网 卡也是自适应的,两者很可能因为速率不匹配,造成网络 的物理连接时通时断。 • 处理过程 – 监测网线,正常 – 监测Sun E450网卡,正常
常用的调试命令(四)
– display hwfib 该命令在系统模式下执行,显示硬件中的最长匹配转发表, 即配置或学习的缺省路由、间接网段路由和虚接口网段 (路由较多时,只有部分虚接口网段写入最长匹配转发 表)。 [Quidway]display hwfib Hardware fib entry information: Destination/Mask RtIf VTag Port Mac 0.0.0.0/1 2 2 Ethernet0/2 00e0-fc05-07c0 128.0.0.0/1 2 2 Ethernet0/2 00e0-fc0507c0 这时,要注意3526e的规格,3526e硬件路由表项只有16 条,超过16条则未解析的报文上cpu处理。
华为交换机排障方法

华为交换机排障方法华为交换机是一种重要的网络设备,负责实现数据在不同网络之间的传输和转发。
然而,在使用华为交换机的过程中,可能会遇到一些故障问题,需要进行排障。
本文将介绍一些常见的华为交换机排障方法。
当发现华为交换机出现故障时,我们需要进行基本的故障排查。
首先检查网络连接是否正常,包括网线连接、端口状态等。
如果发现连接异常,可以尝试重新插拔网线或更换端口,以排除物理故障引起的问题。
我们可以通过登录华为交换机的管理界面进行故障排查。
华为交换机通常提供Web界面和命令行界面两种登录方式。
通过这些界面,我们可以查看交换机的运行状态、配置信息等。
例如,可以通过查看交换机的日志信息来了解是否有异常报错信息,进一步确定故障原因。
华为交换机还提供了丰富的命令行工具,用于故障排查和性能监测。
例如,通过使用ping命令可以测试网络连通性,traceroute命令可以追踪数据包的路径,diagnose命令可以进行更深入的故障排查。
这些命令可以帮助我们快速定位故障点并进行修复。
华为交换机还支持日志和告警功能,可以帮助我们及时发现并解决潜在故障。
通过配置交换机的日志和告警功能,可以将关键事件和异常信息记录下来,并通过邮件或短信等方式进行通知。
这样,即使在故障发生时,我们也能够及时做出响应。
如果遇到华为交换机无法启动或者出现严重故障的情况,我们可以尝试进行硬件故障排查。
首先,可以检查交换机的电源是否正常,是否有异常热量或噪音。
如果发现异常,可以尝试更换电源或风扇等硬件部件。
另外,还可以通过检查交换机的指示灯状态来判断是否有硬件故障,例如端口是否正常工作、电源是否供电等。
如果以上方法都无法解决故障,我们可以联系华为的技术支持团队进行进一步的帮助。
华为拥有全球范围的技术支持团队,可以提供专业的故障排查和解决方案。
我们可以通过电话、邮件或在线支持平台等方式与技术支持团队联系,向他们描述故障现象和排查过程,以便他们更好地帮助我们解决问题。
华为S5700网络环路检测

操作步骤1.当设备处于存在环路的网络中,设备的反应速度可能比较缓慢。
查看所有Up接口下的流量,存在环路的接口上InUti和OutUti两个计数会逐步增加,甚至接近100%,远远超过业务流量。
2.<HUAWEI> display interface brief | include up3....4.Interface PHY Protocol InUtiOutUti inErrors outErrors5.GigabitEthernet0/0/1up up96%96%0 0...可以多次执行该命令,进行观察。
将回显中的端口流量和正常业务情况下的端口流量做对比,如果端口流量比正常业务大很多,可能出现环路:∙如果只有一个端口风暴,可能是上述环路类型的本端自环和下游设备环路场景。
∙如果是两个端口风暴,则可能是上述环路类型的不同端口之间环路和环形组网的场景。
∙如果有更多的端口风暴,则可能是上述环路类型的几种情况组合之后的复杂场景。
6.执行display cpu-usage命令检查CPU的利用率。
网络环路会导致CPU利用率一直很高,某些ping报文未来得及处理就被丢弃。
导致出现业务断断续续的情况。
<HUAWEI> disp cpu-usageCPU Usage Stat. Cycle: 60 (Second)CPU Usage : 7% Max: 76%CPU Usage Stat. Time : 2016-05-27 18:43:15CPU utilization for five seconds: 7%: one minute: 7%: five minutes: 7%Max CPU Usage Stat. Time : 2016-05-20 00:16:01.7.梳理网络拓扑并识别环路。
梳理网络拓扑,排查网络中交换机是否存在网线误接的情况,对照手册,确认基本配置是否正确;8.若正常业务受到严重影响且亟需尽快恢复业务时,根据业务需要,可采用端口退出成环VLAN破环、Shutdown成环端口破环或拔出成环光纤破环等方法来破除环路。
环路定位处理思路与方法

接入层环路定位思路与方法昨天查看忻州市局布署的日志服务器发现,环路告警比平时多很多,而且有新故障在不断上报。
和原平维护人员沟通后了解到,忻州这几天一直有雷雨,因此也损坏了不少设备!如果其它县市也是这样的情况,在光远关闭汇聚层接口后,是需要现场代维人员去接入层排查、确认故障点的。
也只有真正将故障节点处理后,再次放通才不会对网络汇聚、核心层造成影响。
否则,未处理而开启故障节点端口,很可能会造成较大范围,甚至整个县区内的业务故障(具体要看VLAN分布的范围),对此,大家应该慎重处理。
对于查看接入层设备环路,步骤不多,相对来说也较为简单。
本以为大部分代维人员都能够独立定位、处理,但端午节期间接了几个兄弟打来的咨询电话才知道,问题并不是那么乐观,这些兄弟甚至在不同版本下进入业务端口都会存在问题,对此,让我确实有些无语。
在此,我将接入层排查确认环路的思路与步骤罗列如下,供各位兄弟参考,方便的话,也可以将其下发给代维公司的相关人员,以供学习。
定位处理思路:我们通常所说的环路其实有两种,一种是网络设备之间因为存在冗余的链路、不合理的数据配置而造成的环路,在此我简单将其称之为设备间环路。
这类环路在我们CMNET网络中出现的机率很小,可以不用过多观注。
另一种环路是针对某台设备而言的,我们称之为单端口环路。
为什么叫其单端口环路,就是因为这类环路的故障范围对于这台设备而言是在某个业务端口之下。
此类环路是我们网络中时常出现的一种故障类型。
对于这种故障,华为交换机使用私有检测协议协助处理定位、处理故障。
这个私有协议就是loopback-detection。
为了帮助大家消化、理解,在此我把协议的检测原理向大家做以介绍。
Loopback-detection 是一种单端口环路检测技术,现实原理非常简单。
如果在端口开启了这样的功能以后,交换机会定期向此端口发送广播类型的环路检查报文。
当下行存在环路,那么检测报文会被再次转发回本交换机。
怎样在交换机判断是否出现环路了呢?

怎样在交换机判断是否出现环路了呢?怎样在交换机判断是否出现环路了呢?通过查看mac地址就可以判断出来,有的mac地址⼀会出现在这个接⼝,⼀会⼉⼜会出现在另⼀个接⼝,这就是mac地址漂移,如果主机少了这么判断可以,如果主机特别多,就难以这么判断了;幸好有的⼚家的交换⾃带环路检测功能,通过下⾯这条命令就可以判断出来Display mac-address mac-move<JN-JR-01>Display mac-address mac-moveMAC address VLAN Current port Source port Last time Times000a-f74b-a449 1 XGE1/0/52 GE1/0/32 2013-01-18 07:16:41 16063102f-a306-7f59 1 XGE1/0/52 GE1/0/32 2013-01-01 06:52:53 1102f-a306-80f6 1 XGE1/0/52 GE1/0/32 2013-01-01 06:53:04 19e4f1-4c1d-ee60 1 XGE1/0/52 GE1/0/32 2013-01-01 06:53:03 16000a-f74b-a449 1 GE1/0/32 XGE1/0/52 2013-01-18 07:15:44 15901102f-a306-7f59 1 GE1/0/32 XGE1/0/52 2013-01-01 06:52:54 1102f-a306-80f6 1 GE1/0/32 XGE1/0/52 2013-01-01 06:53:05 18e4f1-4c1d-ee60 1 GE1/0/32 XGE1/0/52 2013-01-01 06:53:04 16第⼀条说明这个mac地址所属于vlan1,在g1/0/32和1/0/52之前不断漂移,最后⼀次漂移的时间是1⽉18⽇,共次漂移了16063次;注意当前时间是1⽉22号,也就是上述是曾经的漂移记录,当前并没有;<JN-JR-01>dis clock00:41:34.451 UTC Tue 01/22/2013。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
第一步:通过流量异常发现环路风暴
[Quidway]disp interface Ethernet brief | in up PHY: Physical *down: administratively down (l): loopback (b): BFD down InUti/OutUti: input utility/output utility Interface PHY Auto-Neg Duplex Bandwidth InUti OutUti GigabitEthernet0/0/2 up enable full 100M 0% 0.01% GigabitEthernet0/0/16 up enable full 1000M 76% 76% GigabitEthernet1/0/12 up enable full 1000M 76% 76% … …
4
display interface brief | include up
[Quidway]display interface brief | in up PHY: Physical *down: administratively down (l): loopback (b): BFD down InUti/OutUti: input utility/output utility Interface PHY Auto-Neg Duplex Bandwidth InUti OutUti Trunk GigabitEthernet0/0/2 up enable full 100M 0% 0.01% -GigabitEthernet0/0/16 up enable full 1000M 76% 76% 1 GigabitEthernet1/0/12 up enable full 1000M 76% 76% 1 MEth0/0/1 up enable half 100M 0.01% 0.01% --
[Quidway]disp cpu-defend arp-request statistics slot 3 CPCAR on slot 3 ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) arp-request 91720644 61001339156 1348833 897078517 -------------------------------------------------------------------------------
如何快速恢复环路
如何快速破环
以太网的环路,会在短时间内形成数据风暴,对业务质量有严重影响。在确 认网络发生异常环路后,可以通过如下方式快速破环恢复业务。
1 端口退出成环VLAN破环 2 shutdown成环端口破环 3 直接拔出成环光纤破环
14
如何分析环路的成因
网路环路一般都很网络变动相关,需要先从近期的网络变动排查起。 1. 是否由于近期施工或者客户操作操作引入环路。
对于流量出入都异常大的端口,需要特别关注,可能都是网络异常环路上的端口。
5
display cpu-defend statistics
<Quidway>disp cpu-defend statistics ? all CPCAR information of all boards. slot Specify the slot number | Matching output <cr> [Quidway]disp cpu-defend statistics packet-type arp-request ? all CPCAR information of all boards 针对单板或全局看出各个cpcar的丢包情况, mcu CPCAR information of main board 也可以指定特定cpcar查看 slot Specify the slot number
如何快速恢复环路
loop-detect eth-loop alarm-only
[Quidway-vlan100]loop-detect <cr> eth-loop alarm-only ?
框式设备默认全局已经使能,盒式设备需要在 vlan下使能
[Quidway]display loop-detect eth-loop vlan 100 VLAN Block-time RetryTimes Block-action --------------- --------------- --------------- --------------100 0 0 alarm-only Total items:1
<Quidway>display cpu-defend arp-request statistics slot 3 CPCAR on slot 3 ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) arp-request 91728872 61001759940 1348954 897084705 -------------------------------------------------------------------------------
如何快速恢复环路
如何快速识别环路
第一步: 检查流量是否异常 否 第二步: 全局或VLAN部署 MAC漂移检测 否 第三步: VLAN或端口部署 LDT环路检测
端口流量 异常或CPCAR持续大 量丢包 是否存在反复的 大量MAC漂移?
是
是
可能存在 环路
是否检测到环路?
是
不存在二层环路
LSW1
MAC-Flapping示意图
LSW2 LSW3
11
第三步:通过LDT发现环路
对于单端口网络环路,还可以通过LDT(loop-detection)进行发现
[Quidway]loop-detection enable 使能某个VLAN下所有接口的环路检测功能 [Quidway]loop-detection enable vlan 100 [Quidway]display loop-detection 查询该VLAN下是否有接口存在环路 Loop Detection is enabled. Detection interval time is 5 seconds. Following vlans enable loop-detection: vlan 100 Following ports are blocked for loop: … … 成环的端口会在此显示出来
框式设备的告警信息如下:
L2IFPPI/4/MAC_FLAPPING_ALARM:OID 1.3.6.1.4.1.2011.5.25.42.2.1.7.12The mac-address has flap value. (L2IfPort=0,entPhysicalIndex=0, BaseTrapSeverity=4, BaseTrapProbableCause=549, BaseTrapEventType=1, MacAdd=0025-9e6e1c55,vlanid=1001, FormerIfDescName=GigabitEthernet2/1/23,CurrentIfDescName=GigabitEthe rnet2/1/22,DeviceName=9303-222.157)
。
注:LDT可以发现单端口环回,并默认将该端口做DOWN处理,体配置可参考用户手册。
12
目录
查询命令行
display工具 定位思路 第一步:通过端口流量发现环路风暴
如何快速识别环路
第二步:通过持续MAC漂移判断环路
第三步:通过大量的CPCAR丢包判断环路 第四步:通过LDT功能检测环路 如何快速破环 如何分析环路的成因 典型环路场景 破环后网络优化
Trunk -1 1
1. 如果只有一台设备的一个端口出入方向流量较大,可能是单端口环回。 2. 如果只有一台设备的两个端口流量较大,可能是本设备两个端口环回,如上所示。 3. 如果某端口只有单方向流量,需要重点排查,该端口下设备可能存在环路。
9
第一步:通过流量异常发现环路风暴
还可以通过CPCAR丢包来发现网络异常环路。 通常情况下,ARP报文的交互是有序进行,短时间内不会出现大量ARP报文的丢弃。 当交换机作为汇聚网关时,出现上述情况后,可能是ARP广播报文在网络物理环路 中转发,形成ARP广播风暴冲击交换机,进而被交换机CPU限速(CPCAR)丢弃。 如下所示,arp-request大量丢弃,可能存在网路环路:
大量的协议报文被丢弃,Drop比Pass多很多,这种情况要怀疑由协议报文在网络 异常环路中风暴导致的,需要排查网络环路。
6
目录
诊断命令行
display工具 定位思路 第一步:通过端口流量发现环路风暴
如何快速识别环路
第二步:通过持续MAC漂移判断环路
第三步:通过大量的CPCAR丢包判断环路 第四步:通过LDT功能检测环路 如何快速破环 如何分析环路的成因 典型环路场景 破环后网络优化
Vlan下使能后通过此命令查看,框式设备默认已经使能, 如果有漂移打开terminal debugging 、 terminal monitor就可以查看。