环路故障专题案例
宽带环路故障处理

第4章宽带环路故障处理随着网络地不断发展,DSLAM设备地应用也越来越广,随之而来地网络故障也越来越复杂,其中网络环路是比较难troubleshooting地一种故障.下面,我们将现网中所能出现地几种环路情况,一一模拟并寻找出解决思路,定出判断故障地关键点.虽然目前地DSLAM版本都已经有环路检测功能,但下面几个案例主要是讲解环路地发生过程,和故障现象,希望让大家在以后处理环路问题时有一个较清晰地思路.4.1 案例分析4.1.1 案例一:单个用户申请两条DSL线路造成环网组网:图4-1城域网中采用L2汇聚各个DSLAM,上行汇聚到同一个三层接口.某网吧用户为了提高上网速度申请了两条DSL线路并接入用户局域网地同一个VLAN.当两条线路同时激活时,上层两个DSLAM上网速度变慢,直至中断.b5E2RGbCAP注意:在同一台DSLAM两条DSL线路接入同一个用户局域网也会造成同样地问题.原因分析:上面地组网是一个典型地环网,其中关键地两个点是1)两台DSLAM采用同一个3层接口,2)用户侧两条DSL线路没有作二层隔离.只要以上两个条件满足,L2上既使将两台DSLAM使用VLAN隔离开,仍然会使业务中断.p1EanqFDPw形成环网业务中断地原因一般有两个:1)上层交换机启动STP后阻塞DSLAM地上行端口导致DSLAM上行链路DOWN掉2)交换机、DSLAM上网关MAC地址漂移造成业务时断时续.上行交换机启动STP后,跟交换机会定时向各个VLAN发送STP监测报文,如果一段时间后交换机从某端口收到了自己发出地STP监测报文,则说明该端口和报文地发送端口<报文中携带了发送端口信息)形成环网,交换机会根据端口优先级将低优先级地端口阻塞掉,就会造成其中一个DSLAM业务中断.正常情况下,交换机CAM中学习到地网关MAC地址对应地是上行到L3地端口,但是形成环网之后,网关发送地广播报文在用户侧环回并从DSLAM上发给L2,导致CAM中网关MAC对应地端口变成连接DSLAM地端口,这样DSLAM上来正常地业务报文<目地地址是网关MAC)就会被丢弃或者错误转发<LSW芯片转发某个报文时,如果查找CAM中报文目地MAC对应地端口和报文地进入端口一致,有两种处理方式,一种是直接丢弃,一种是广播,这取决于LSW芯片地种类,但是这两种方式都会造成严重后果),直到L3网关发过来地报文重新刷新CAM表中对应端口.此时上网业务就表现为时断时续.DSLAM上MAC地址漂移地现象和L2上类似,也是网关地MAC地址在上行端口和下行端口来回漂移,造成用户上行报文大量丢弃.在L2上DSLAM进行VLAN隔离是否能够解决此问题呢?答案是无法解决,因为:1)有一些L2地LSW芯片CAM刷新时是以MAC地址作为第一索引地,而不是以VLAN作为第一索引,也就是说一个MAC地址在CAM中只能占用一个表项,对应一个端口.2)L2上划分VLAN不能解决DSLAM上网关MAC地址漂移地问题,关键是用户侧两条DSL线路是二层互通地,一条线路发下来地广播报文会广播到另外一条线路.解决方法:解决此问题地方法就是解决前面提到地两个关键点:1)两台DSLAM采用同一个3层接口,2)用户侧两条DSL线路没有作二层隔离.这两个条件任意一个不满足都可以解决环路问题,其中第二个条件更为合理一下,将两条DSL线路桥接在用户局域网上不但不能起到增加上网带宽地作用,还会造成广播风暴<用户侧地交换机也会出现网关MAC地址漂移地现象,而且会因为广播报文不断循环造成广播风暴),一定要使用三层设备将两条DSL线路和用户局域网隔离开,一方面解决了以上问题,另外用户地组网问题也不会影响到运营商地城域网.隔离地办法很多,使用代理服务器、路由器或者带路由功能地MODEM都可以,其中使用路由功能地MODEM成本较为低廉.建议设置如下:1)两个MODEM广域网接口采用1483B地PPPOE拨号或者1483B协议地静态IP方式<根据运营模式而定)2)两个MODEM都启动NAT和DHCP,配置地址池,两个MODEM地地址池不要交叉,例如MODEM1采用192.168.0.2-192.168.0.128,MODEM1地址池采用192.168.0.129—192.168.0.254,可以预留部分地址给服务器、打印机、路由器.3)局域网中所有需要上网地计算机配置自动获得IP地址.这样配置之后,计算机就会分别从两个MODEM获取地址和网关,上网业务也就实现了分流,有效地提高了上网速度,同时也实现了用户网络和城域网地隔离.EmxvxOtOco4.1.2 案例二:用户侧ADSL互通时MODEM问题导致环网组网:图4-2为了实现企业和分支机构之间地互通,在DSLAM上做了两个ADSL用户之间地互通,并且两个ADSL 用户还存在有上网地PVC,上图中蓝色线条代表ADSL互通PVC,红色代表两个用户地上网PVC.当建了蓝色PVC后,上行业务就开始中断.SixE2yXPq5原因分析:这个案例中业务中断地原因和上一个例子相同都是环网造成上行端口阻塞或者地址漂移后地报文丢失和广播风暴.我们主要分析一下这种组网是如何构成环网地.上图中可以看出,如果RTU上如果两条桥接PVC能够二层互通,则就构成了一个环网.关键是RTU上是否允许两条桥接PVC之间互通?很不幸,相当多地MODEM都是这样作地,这和MODEM内部软件实现地协议栈有关<特别是采用alcatel解决方案地MODEM),这样作地原因是内部地二层转发模块按照“广播包转发给所有地桥接逻辑端口”地原则转发,而不关心该逻辑端口是广域网PVC还是局域网以太口.6ewMyirQFL解决方法:a. 更换用户侧地RTU由于没有详细地测试那些MODEM不具有以上地问题,所以无法推荐出合适地RTU,不过华为地MT800可以满足要求.kavU42VRUsb. ADSL互通地PVC使用IPOA协议端口间地PVC不使用桥接方式,采用3层接口对接,这样就和上网地PVC无法构成环网,配置举例:RTU1图4-3上网PVC:VPI/VCI=0/35,桥接方式或者PPPOE<RFC2684桥接协议)互通PVC:VPI/VCI=0/36,IPOA方式<RFC2684路由协议),广域网IP=10.71.52.1/24,对端IP=10.71.52.2以太网口地址=192.168.1.1/24用户局域网IP=192.168.1.2---192.168.1.254RTU2上网PVC:VPI/VCI=0/35,桥接方式或者PPPOE<RFC2684桥接协议)互通PVC:VPI/VCI=0/36,IPOA方式<RFC2684路由协议),广域网IP=10.71.52.2/24,对端IP=10.71.52.1以太网口地址=192.168.1.1/24用户局域网IP=192.168.1.2---192.168.1.254广域网IP地址和掩码可以自己随意确定,只要保证本地RTU配置地对端IP和对端RTU地广域IP相等.本地RTU地以太网口IP地址和本地局域网同一网段.DSLAM上建一个ADSL端口到ADSL端口地PVC即可,两端地VP/VCI=0/36.C. 需要互通地ADSL用户采用单独地VLAN在L2上进行互通前面采用IPOA地PVC互通适合于位于同一个DSLAM下地用户互通,如果互通地ADSL用户位于不同地DSLAM上,则必须给用户配置一个二层地VPN用于互通,这种方法安全性比较好.配置方法是:<1) L2上给互通用户做一个单独地VLAN,并修改L2和DSLAM地配置,保证DSLAM和L2端口都是TAG端口.<2)两个DSLAM上都建一个VLAN-ADSL端口地PVC,VPI/VCI = 0/36.<3)两边地RTU上配置VP/VCI=0/36地PVC,协议是桥接协议LLC封装.这种方法由于是二层互通,用户可以方便地实现VPN功能,并且采用单独VLAN,安全性较好.4.1.3 案例三:用户局域网内地环网问题这种现象也比较常见,有以下几种情况:1)用户局域网内交换机成环,这种问题一般都比较好发现,因为此时用户网络也是无法使用地.交换机抓包时可以抓到大量广播包和转发错误地单播报文<转发1端口地报文却在2端口收到)2)网内某个计算机采用了双网卡并使用了网卡绑订软件现在有很多人采用双网卡并使用网卡绑订软件来充当服务器,但是由于网卡工作模式设置不正常<类似于交换机地trunk,有多种工作模式,如果设置模式错误地话会形成环网),就导致广播报文从一个网卡广播到另外一个网卡,这种方式不建议使用.4.2 建议和总结随着技术地发展,各种网络设备和软件层出不穷,组网出问题地几率会越来越大,要解决这些问题,一方面要尽量使用路由方式地MODEM,将用户网络和城域网隔离,另一方面要针对性对网吧、企业用户组网进行指导和监督,规范网络拓扑,在设计时就考虑这方面问题,避免日后维护中遇到此类故障.。
环路问题导致用户上网异常故障处理案例

环路问题导致用户上网异常故障处理案例TAC 中心网络拓扑结构:以下是典型的接入层网络拓扑结构,两台S2126G 在同一VLAN 内(VLAN 2);S3550开启相应的三层接口,默认路由指向核心设备。
故障现象:用户反映S3550下挂业务上网速度慢,有时打开网页时没有反映。
故障排查方法:1、 将测试PC 连接到S3550(Fa0/24),配置和用户PC 在同一VLAN 内;2、 测试PC 不断PING 核心网络设备,并在交换机不断的查看MAC 地址表项; Switch#show mac-address-tableVlan MAC Address Type Interface---------- -------------------- -------- -------------------2 0016.3606.92f2 DYNAMIC Fa0/242 00d0.f88b.6228 DYNAMIC Fa0/32 00d0.f88b.ae18 DYNAMIC Fa0/2Switch#show mac-address-tableVlan MAC Address Type Interface---------- -------------------- -------- -------------------2 0016.3606.92f2 DYNAMIC Fa0/32 00d0.f88b.6228 DYNAMIC Fa0/32 00d0.f88b.ae18 DYNAMIC Fa0/2通过以上反馈信息可以看到测试PC 的MAC 地址发生漂移,可以定位在S2126G_B 上发生环路。
在实际网络环境当中,交换机可能学习到众多的MAC 地址,我们可以通过show mac-address-table address H.H.H 命令查看测试PC 的MAC 地址是否产生漂移。
Switch#show mac-address-table address 0016.3606.92f2Vlan MAC Address Type Interface---------- -------------------- -------- -------------------接入层网络拓扑结构1 0016.3606.92f2 DYNAMIC Fa0/24 Switch#show mac-address-table address 0016.3606.92f2 Vlan MAC Address Type Interface ---------- -------------------- -------- -------------------1 0016.3606.92f2 DYNAMIC Fa0/3。
CFM56-5B发动机火警系统环路故障分析

Internal Combustion Engine&Parts0引言航线人员在日常飞机维护过程中,经常遇到发动机火警环路故障,排故思路具有代表性,现将以“ENG1FIRELOOP A FAULT”为例具体讲述故障排除思路与方法,以及提出一些维护建议。
1发动机火警探测系统工作原理由两个相同的探测环路(LOOP A和LOOP B)并行安装。
每条探测环路包含3个探测环路元件(风扇、核心机、吊架)。
两条环路由火警探测组件(FDU)监控。
每架飞机有两部FDU,FDU1监控左发,FDU2监控右发。
FDU 向飞行警告计算机(FWC)发送火警和故障信号用于ECAM显示。
1.1探测环路由传感元件与响应阀体组成。
含有一个钛芯,周围螺旋缠绕。
螺旋是由特殊性质的惰性材料制成的,可以释放与吸收气体。
传感器与管壁之间的间隙充满氦气,氦的初始压力与为传感元件选择的预设定温度阈值有关,传感元件根据理想气体定律进行反应。
传感元件的一端是焊接,另一端与响应阀体相连。
响应阀体里面有包含两个压力开关电门:报警电门与监控电门。
两个电门中出来线路与飞机线路相连。
正常情况下,环路内的报警电门断开,内部的气体压力使监控电门闭合;当有火警时,环路线内气体压力升高,报警电门接通,给出火警信号;一旦环路线受损,内部气体泄露导致压力降低,监控电门脱开,给出故障信号。
FDU位于电子舱,处理从火警探测环路接收到的信号,发送到ECAM、CFDS、发动机火警控制面板。
有三个功能模块:两个独立通道、一个仅用于维护目的的监控电路。
每个通道从相关的检测回路连续接收和分析信号产生警告。
1.2故障逻辑当环路发生故障时,例如:ENG1FIRE LOOP A FAULT,FDU1向ECAM和中央故障显示接口组件(CFDIU)发送环路故障信号。
如果满足以下任一条件,FDU1将生成一个故障信号。
①电气故障(失去电源,例:插头没有连接或插钉污染)。
②一个探测环路故障(监控电门断开)。
案例某检察院网络环路故障分析报告

案例-某检察院网络环路故障分析报告某检察院网络环路故障分析报告目录故障现象描述................................................... - 4 -基本环境描述........................................... - 4 -分析方案设计................................................... - 5 -分析目标................................................... - 5 -抓包位置................................................... - 5 -分析情况........................................................... - 5 -终端分析,............................................... - 5 -网络出口分析........................................... - 6 -分析结论........................................................... - 6 -故障现象描述该院一些员工当天发现访问内部网站慢或无法访问,该院管理员ping网站服务器和内部网关掉包严重,有时跟本无法ping通。
基本环境描述该院网络内部网络不能访问互联网,由楼层交换机接入核心交换机(交换机都为二层),其中有一些办公室使用家用8口或5口小型交换机。
分析方案设计分析目标确认网内掉包严重网络故障是由何种原因造成的抓包位置经初步了解,将抓包位置确定在核心交换机。
分析情况终端分析,通过对协议分析发现网络中大量使用UDP协议。
网络出口分析从上图可以看出网络中有大量不正常广播流量。
路由环路问题解析

路由环路问题解析
本文为大家讲解路由环路问题,希望能帮到大家。
路由环路问题
Network N
①
①
①
①
⑩
A
B
C
D
路由环路是由于网络拓扑中存在的环形结构引发的路由环路会引起循环路由、慢收敛、路由不一致等问题。
路由环路问题是当网络拓扑结构发生变化,由于网络中存在的环状结构所引发的。
上图是一个简单的例子。
如图所示,路由器 D 与目标网络 N 直接相连,而路由器 A、B、C 之间组成了一个环形网络,连接路由器的路径旁边的数字显示了路径对应的权值。
这样在路由器 A 上就有一条经过路由器 D 的去往目标网络的路由,权值为 1,而路由器 B、C 上分别有一条经过路由器 A 的去往目标网络的路由,权值为2。
假设,路由器 A 与 D 之间的通信出现了问题,这时候就有可能产生路由环路问题,并导致慢收敛。
为了简单起见,我们假设所有的路由器都同时发送路由更新报文,下表显示了路由器 A、B、C 上到达目标网络的路由随时间的变化。
时间 T --〉
路由器A 不可达 (C,3)(C,4)。
(C,10) (C,11)
路由器B (A,2)(C,3)(C,4)。
(C,10) (C,11)
路由器C (A,2)(B,3)(B,4)。
(A,10) (D,10)
虽然算法最终收敛,但在漫长的收敛过程中在各个路由器上的路由并不能反映网络的真实结构,A、B、C 三台路由器之间相互欺骗,把错误的路由信息在网络中相互传递。
环路故障演示实验报告

一、实验目的1. 了解环路故障在网络中的表现和危害。
2. 学习识别和排除环路故障的方法。
3. 提高网络维护和故障处理的实际操作能力。
二、实验器材1. 以太网交换机 2 台2. 以太网网线 4 根3. 电脑 2 台4. 万用表 1 个5. 路由跟踪工具 1 个三、实验原理环路故障是指在网络中形成的闭合回路,导致数据包在网络中循环传输,无法到达目的地。
环路故障会导致网络性能下降,甚至网络瘫痪。
本实验通过搭建简单的网络拓扑,人为制造环路故障,观察并分析故障现象,学习排除故障的方法。
四、实验步骤1. 搭建网络拓扑:- 将两台交换机分别连接到两台电脑,实现两台电脑之间的通信。
- 将两台交换机之间的连接线重新连接,形成环路。
2. 观察环路故障现象:- 使用路由跟踪工具检测数据包在网络中的传输路径,发现数据包在网络中循环传输,无法到达目的地。
- 观察两台电脑之间的通信情况,发现无法正常通信。
3. 分析故障原因:- 通过观察网络拓扑和故障现象,判断环路故障是由交换机之间的连接线重新连接引起的。
4. 排除故障:- 断开交换机之间的连接线,消除环路。
- 使用路由跟踪工具检测数据包在网络中的传输路径,确认环路故障已排除。
- 观察两台电脑之间的通信情况,确认通信恢复正常。
5. 验证故障排除效果:- 重新连接交换机之间的连接线,再次观察故障现象。
- 发现重新连接后,环路故障现象再次出现,证明故障排除效果良好。
五、实验结果与分析1. 环路故障导致数据包在网络中循环传输,无法到达目的地,从而影响网络通信。
2. 通过观察网络拓扑和故障现象,可以初步判断故障原因。
3. 断开形成环路的连接线,可以排除环路故障,恢复网络通信。
六、实验总结本实验通过搭建简单的网络拓扑,人为制造环路故障,观察并分析故障现象,学习排除故障的方法。
实验结果表明,环路故障会对网络通信造成严重影响,因此网络维护人员需要具备识别和排除环路故障的能力。
在实验过程中,我们掌握了以下技能:1. 了解环路故障在网络中的表现和危害。
ONU环路故障排除案例

环路故障排错案例刘颐-401●概述:一、网络拓扑结构二、现场情况三、故障处理流程四、总结●内容介绍一、网络拓扑结构1)每个变电站的拓扑结构均相同,业务划分由路由器完成,每个路由器将将此次自能网改造业务流划分到VLAN 499中通过VPN安全隧道汇聚到主站服务中。
每个变电站网段均不相同,变电站之间设备均不能互访。
2)主网默认情况下使用老的SDH网,路由器业务传输上联使用STM-12 2M的数据网,现计划改造成路由器业务传输上联使用100M 数据网,改善上联瓶颈问题。
3)默认情况下,如果没有PTN设备,业务走SDH网络,如果有PTN设备,业务走PTN网络。
两个网络形成冗余备份,提供保护。
4)我司C8000属于接入层设备,按要求创建VLAN 499 过交换机trunk模式走业务流。
另外VLAN 1000走PTN形成局域网走OLT管理流。
5)二、现场情况设备联调过程中发现终端设备向上通信质量较差,通过ping发现有比较明显的丢包过程。
经过多次验证及长ping发现确实有丢包现象,丢包率在60%以上。
三、故障处理流程1)逐级ping初步定位故障点终端ping ---- olt ping------ 交换机ping ----- 路由器ping通过ping发现,从路由器向上ping 丢包率为0 ,从交换机及OL T向上ping均丢包率在60%以上。
初步定为故障点在变电站。
2)远程登录OLT查看ARP表及MAC表nanfang(config)# show arp infoLINK LEVEL ARP TABLEDestination LL Address Flags Refcnt Use Interface---------------------------------------------------------------------20.23.38.254 00:23:89:a4:04:02 0x8405 1 228 sc2192.168.1.1 00:1a:69:01:36:68 0x8405 1 27363 fei1192.168.1.2 00:1a:69:01:36:7e 0x8405 0 58927 fei1192.168.1.3 00:1a:69:01:36:74 0x8405 0 109134 fei1192.168.1.4 00:1a:69:01:36:88 0x8405 0 22536 fei1anfang(config)# show mac-addr vlan 499Index MacAddr VLAN State Dest-port-------------------------------------------------------------------1 00:90:e8:29:05:23 499 dynamic 2/42 00:90:e8:29:9f:8d 499 dynamic 2/23 00:90:e8:29:a0:d9 499 dynamic 1/44 00:90:e8:29:a0:ef 499 dynamic 3/25 00:23:89:a4:04:02 499 dynamic 12/16 00:90:e8:29:05:77 499 dynamic 2/27 00:90:e8:29:9e:e1 499 dynamic 2/1注意:00:23:89:a4:04:02这个MAC地址,这个地址是路由器的上联接口MAC。
环路故障专题案例.

【交换机在江湖】环路故障专题(3)扁鹊问道下篇----临床案例环路故障纷繁错杂,难寻其理。
愿广为搜罗现网案例,合览汇编,以求至简至约,开卷了如指掌。
1.1.1 对接设备故障1.1.1.1 其他厂商设备上出现华为MAC地址漂移故障案例涉及产品和版本S交换机V200R002及先前版本组网情况如图1-1所示,防火墙设备上连接了三台交换机。
图1-1其他厂商设备上出现华为MAC地址漂移问题案例组网图现象描述防火墙设备上能够看到00e0-fc09-bcf9 MAC地址的漂移,对防火墙的业务转发有影响。
原因分析华为自研交换机上只有NDP会用00e0-fc09-bcf9作为协议报文的源MAC,而NDP是默认使能的,所以在这个场景中会导致防火墙设备报漂移,进而影响防火墙的转发;这个MAC地址发生漂移一般情况下对业务没有影响(如果设备上对MAC漂移配置了动作则除外)。
NDP协议报文是BPDU报文,而BPDU报文是不应该学习MAC地址的,交换机最新版本已经不会学习BPDU报文了,防火墙设备也不应该学习该MAC地址。
处理步骤执行命令ndp disable,去使能交换机全局NDP功能。
总结与建议无。
1.1.1.2 ATAE软件问题导致与交换机MSTP对接失败的故障案例涉及产品和版本S交换机所有产品和版本组网情况如图1-2所示,新接入的ATAE机框与Switch-1和Switch-2交换机组成口字型环路。
图1-2A TAE软件问题导致与交换机MSTP对接失败的故障案例组网图现象描述在启用STP后发现环路无法正常收敛:Switch-1、ATAE-SW-8均为根桥,Switch互连端口、A TAE互连端口可正常收敛,而Switch-1、Switch-2与连接的其他A TAE机框STP无法正常收敛。
原因分析Switch-1配置为根桥,设备的系统MAC为:4c1f-cc82-d659。
新接入的ATAE机框软件版本为V200R013SPC005,该版本存在一个软件问题:对于收到的根桥MAC以59结尾的STP报文不能正常处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【交换机在江湖】环路故障专题(3)扁鹊问道下篇----临床案例环路故障纷繁错杂,难寻其理。
愿广为搜罗现网案例,合览汇编,以求至简至约,开卷了如指掌。
1.1.1 对接设备故障1.1.1.1 其他厂商设备上出现华为MAC地址漂移故障案例涉及产品和版本S交换机V200R002及先前版本组网情况如图1-1所示,防火墙设备上连接了三台交换机。
图1-1其他厂商设备上出现华为MAC地址漂移问题案例组网图现象描述防火墙设备上能够看到00e0-fc09-bcf9 MAC地址的漂移,对防火墙的业务转发有影响。
原因分析华为自研交换机上只有NDP会用00e0-fc09-bcf9作为协议报文的源MAC,而NDP是默认使能的,所以在这个场景中会导致防火墙设备报漂移,进而影响防火墙的转发;这个MAC地址发生漂移一般情况下对业务没有影响(如果设备上对MAC漂移配置了动作则除外)。
NDP协议报文是BPDU报文,而BPDU报文是不应该学习MAC地址的,交换机最新版本已经不会学习BPDU报文了,防火墙设备也不应该学习该MAC地址。
处理步骤执行命令ndp disable,去使能交换机全局NDP功能。
总结与建议无。
1.1.1.2 ATAE软件问题导致与交换机MSTP对接失败的故障案例涉及产品和版本S交换机所有产品和版本组网情况如图1-2所示,新接入的ATAE机框与Switch-1和Switch-2交换机组成口字型环路。
图1-2A TAE软件问题导致与交换机MSTP对接失败的故障案例组网图现象描述在启用STP后发现环路无常收敛:Switch-1、ATAE-SW-8均为根桥,Switch互连端口、ATAE互连端口可正常收敛,而Switch-1、Switch-2与连接的其他ATAE机框STP无常收敛。
原因分析Switch-1配置为根桥,设备的系统MAC为:4c1f-cc82-d659。
新接入的ATAE机框软件版本为V200R013SPC005,该版本存在一个软件问题:对于收到的根桥MAC以59结尾的STP报文不能正常处理。
处理步骤1.检查各端口的STP收敛情况,发现存在两个根桥Switch-1手动配置为STP根桥,ATAE-SW-8也选择为根桥:<ATAE-SW-8> disply stp briefMSTID Port Role STP State Protection0 GigabitEthernet0/7 DESI FORWARDING BPDU0 GigabitEthernet0/15 DESI FORWARDING NONE //ATAE互联0 GigabitEthernet0/18 DESI FORWARDING NONE //连接Switch-22.检查ATAE-SW-8 GigabitEthernet0/18端口的STP信息和收发报文情况ATAE-SW-8上没有部署任何业务,GigabitEthernet0/18端口入方向组播报文计数有增加,但display stp信息中端口接收的MSTP报文计数一直为0:Input(total): 818962 packets, 114519592 bytes757300 broadcasts, 24 multicasts----[Port18(GigabitEthernet0/18)][FORWARDING]----Port Protocol :enabledPort Role :CIST Designated PortPort Priority :128Port Cost(Dot1T ) :Config=auto / Active=10000Desg. Bridge/Port :32768.80fb-06ad-6d07 / 128.18Port Edged :Config=disabled / Active=disabledPoint-to-point :Config=auto / Active=trueTransit Limit :3 packets/hello-timeProtection Type :NonePort Stp Mode :StpPort Protocol Type :Config=auto / Active=legacyPortTimes :Hello 2s MaxAge 20s FwDly 15s RemHop 20BPDU Sent :82117TCN: 0, Config: 3391, RST: 0, MST: 78726BPDU Received :0TCN: 0, Config: 0, RST: 0, MST: 03.对ATAE-SW-8 GigabitEthernet0/18配置端口镜像,确认已经收到来自Switch-1的STP报文经ATAE研发确认,出问题的ATAE交换板使用的是V200R013SPC005版本,该版本存在已知软件问题:收到根桥MAC以59结尾的STP报文不能正常处理。
V200R013SPC006及以上版本已经解决该问题。
将根桥切换到Switch-2后,MSTP收敛正常。
<ATAE-SW-8> display versionVRP (R) Software, Version 3.10, RELEASE 0010Copyright (c) 2000-2008 HUAWEI TECH CO., LTD.uptime is 0 week,0 day,2 hours,38 minutesOSTA 2.0 V200R013 CN21XCBA switch systemOSTA 2.0 V200R013 CN21XCBA switch version: V200R013SPC005128M bytes SDRAM16384K bytes Flash MemoryConfig Register points to FLASHHardware Version is VER.ARelease Logic Version is 0x03Back Board Hardware Version is VER.ABack Board Logic Version is 0x02Back Board Type is CN21XCRA升级ATAE交换板软件版本到最新的V200R013SPC007。
总结与建议多设备形态的对接问题尽量控制在网络部署阶段。
对于与其他设备对接的STP问题,首先排查配置是否存在问题、报文收发是否正常。
1.1.1.3 S交换机和CX600路由器端口UP时间不一致导致RRPP临时环路故障案例涉及产品和版本S交换机所有产品和版本组网情况如图1-3 所示,S5700设备上配置RRPP协议,S5700_1和S5700_2分别作为RRPPdomain 1和domain 2的主结点,其他中间S5700做为RRPP传输结点,CX600路由器未配置RRPP协议,它们之间通过不同的VPLS VSI透传RRPP协议报文和数据业务。
图1-3交换机和路由器端口UP时间不一致导致RRPP临时环路问题案例组网图现象描述当CX600_1的1号板故障重启后,发现CX600_1设备GE1/1/1端口比S5700_1的GE0/0/1端口UP的时间滞后8s或者最长能达到1分钟,单板恢复后会形成几秒钟的临时环路,可能导致业务异常。
原因分析1.CX路由器单板复位重启后,不管两边端口协商模式是强制或自协商,底层端口物理层状态都会先UP。
单板在配置恢复过程中,会检查配置恢复有没有结束,如果没有结束的话,就不取物理状态向软件层报UP事件,路由端口UP时间滞后可达到1分多钟。
CX路由器端口比交换机端口UP时间有很明显的滞后。
2.由于交换机端口先UP,RRPP协议会在端口UP以后6s放开临时阻塞,而路由器还没有向软件层报UP。
等到路由器软件层上报UP时,有的数据VSI已经先透传数据报文。
路由器的RRPP VSI可能起来得比较晚,或者起来可能短时间也不能正常透传。
由于CX单板起来比较繁忙,而RRPP协议透传VSI还没有通,这时候就会形成临时环路,根据CX单板业务配置多少及其繁忙程度,可能有时临时环路会达到10s左右。
如果中间交换机受到严重冲击,环路恢复可能需要更长的时间。
处理步骤CX路由器优化软件版本,加快UP事件的上报。
总结与建议无。
1.1.2 设备硬件连接问题1.1.2.1 S9300 交换机单板松动导致RRPP未生效故障案例涉及产品和版本框式设备组网情况如图1-4所示,四台S9300组成RRPP环形组网。
工程师反馈客户组成RRPP环网后,主节点上的从端口没有被阻塞。
图1-4RRPP环形组网图现象描述一线工程师反馈客户组成RRPP环网后主节点上的从端口没有被阻塞。
原因分析设备上主控板上HG口没有转发RRPP报文,原因为单板连接松动。
处理步骤1.组成RRPP环网后主节点上的从端口未被阻塞,初步怀疑是RRPP协议功能下发存在问题。
2.执行命令display diagnostic-information,收集设备信息时,发现HG口未加入相应的控制VLAN。
推测可能是当时通道不稳定丢包导致部分设置没有下发成功。
3.对于通道不稳定的情况,进行单板插拔处理,发现问题不再发生,确认为单板连接问题。
4.重新插拔后,报文正常转发,故障解除。
总结与建议协议下发失败,流量不通等问题,可以从光纤、光模块故障、单板连接不稳定等方面来进行排查验证,在环境允许的情况下可以进行光模块替换、单板重新插拔等硬件故障处理方法。
1.1.2.2 设备连线错误导致环路风暴的故障案例涉及产品和版本S交换机所有产品和版本问题现象描述及组网如图1-5所示,某运营商工程网络部署阶段,未合理规划,连线非常复杂,在连线过程中误连接导致网络业务受影响。
图1-5连线错误导致协议环路失效风暴的故障案例问题根因说明现网中S交换机之间端口连接方式绝大多数使用Access类型,VLAN没有很好规划和隔离,连线非常复杂,非常容易误操作连线,导致环路后冲击上层核心设备。
问题判断方法忽略判断方法,主要关注解决或规避方案。
解决方案1.合理规划组网,VLAN合理划分,进行有效隔离,减少不必要的连线,增加风暴抑制功能。
2.复杂组网要经过正规流程评审。
3.网络开局调试阶段,必须shutdown和现网所有连接端口。
4.恢复新建和现网网络连接端口时,至少观察20分钟看端口上是否有异常的广播或组播流量,发现异常要立即shutdown上行端口。
5.若交换机端口灯有高速频繁闪烁或常亮的现象,可能端口上有大量流量转发,检查是否有环路。
经验总结无。
1.1.3 组网及配置变更1.1.3.1 服务器组网不合理引发交换机MAC地址漂移导致业务中断故障案例涉及产品和版本S交换机所有产品和版本组网情况如图1-6所示,两台服务器的两块网卡捆绑在一起,按照负载分担方式进行报文转发。