经典案例-传输CN2设备拥塞导致用户丢包速率恶化问题定位与处理

经典案例-传输CN2设备拥塞导致用户丢包速率恶化问题定位与处理
经典案例-传输CN2设备拥塞导致用户丢包速率恶化问题定位与处理

传输CN2设备拥塞导致用户丢包速率恶化

问题定位与处理

1 问题描述

自6月30日起,华为区域除武汉外其他地市(恩施、襄阳、宜昌、十堰、荆门、江汉均发现该问题)网速慢投诉量突增,从之前的日均30次提升至57次左右。通过绿网DPI平台对这些地市TCP时延进行分析,发现整网TCP时延趋势随时间变化明显,其中一二次握手时延基本无变化,二三次握手时延变化明显,如下图所示:

图1全网TCP握手时延变化趋势

2 原理介绍

2.1 DPI数据说明

DPI 全称为“Deep Packet Inspection”,称为“深度包检测”。所谓“深度”是和普通的报文分析层次相比较而言的,“普通报文检测”仅分析IP包的层4 以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型,而DPI 除了对前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。

一般情况下,DPI技术在LTE网络数据的应用可分为3类:基于特征字的识别技术、应用层网关识别技术和行为模式识别技术。

基于特征字的识别技术:现阶段DPI数据解析中最主要的DPI技术,其原理就是不同的业务或应用通常有特殊的“指纹”,这些指纹可能是特定的字符串或者比特流,例如URL就是典型的特征字,依此可以确定该用户业务流承载的具体应用和业务类型;

应用层网关识别技术:部分业务的业务流和控制流是分开的,从业务流中无法找到相应的特征字,所有特征信息及控制流与业务流的关联信息都存在于控制流中,,和这种情况下就使用应用层网关识别技术,其实就是控制流识别技术,受限识别出控制流,从控制流信息中提取出业务流信息,再基于此对业务流进行识别。使用应用层网关识别技术进行包检测的典型协议就是FTP协议。

行为模式识别技术:基于对对终端已经实施的行为的分析,判断出用户正在进行的动作或者即将实施的动作。通常用于无法根据特征字判断的业务的识别。比如路测仪表模拟生成业务流和普通的业务流从内容上看是完全一致的,只有通过对用户行为的分析,才能够准确的识别出路测业务行为。一般可以通过构建包含发送请求的速率、间隔的时延、重复的周期等参数的行为模型来进行识别。

图2 传统IP数据包检测与DPI深度数据包检测

2.2 DPI技术在电信网络的应用

目前运营商在部署DPI设备时一般有两种方式,一种为串联式,即把DPI解析设备串联在业务流的通路上,另一种为并联式,即通过分光器或者路由器镜像的方式。当前中国电信使用的为方式2,将DPI探针部署在S1-U口上,如下图所示:

图3 DPI探针结构图

3 问题分析

3.1 分析思路

湖北电信LTE网络组网结构如下图所示:

图4 湖北电信LTE网络组网图

基于DPI数据TCP23次握手时延波动较大,可推断为S1-U口以下的问题,即为传输网、无线网的原因导致。

图5 湖北电信LTE网络组网图

由于众多地市几乎同时存在这个问题,排除无线网的原因,依据湖北电信LTE组网结构,预判可能存在的原因有基站到IPran网元、CN2设备、MME、SGW等链路导致,具体是哪个网元需要通过eNodeB端口镜像抓包才能进一步判断。

3.2 eNodeB端口镜像抓包方法

DPI数据中的TCP时延或是HTTP时延可准确定界S1-U端口两侧,当TCP23次握手时延大时,可判断为S1-U口以下问题导致,但无法判断传输网的哪一条链路出现了问题,此时需要eNodeB端口镜像抓包方法进一步定位。

基站侧eNodeB镜像抓包分析与DPI探针分析原理类似,对基站侧传输的TCP包进行握手时延定位,12次握手时延为基站以上时延,23次握手时延为基站以下时延。通过启动eNodeB平台提供的端口重定向功能,将S1/X2链路所在的1号光口报文镜像到0号电口,同时0号电口口与电脑网卡直连,通过电脑上的Wireshark软件抓取镜像的报文进行分析。

Step1:

1)电脑上启动wireshark软件,按照下图进行设置操作。

图6 Captuer---Interfaces

2)选择需要抓取网口的IP点击Start进入到报文捕获界面。

图7 设置目标IP

3)设置抓包包长为150byte,设置每500M保存1个文件

图8 设置抓包相关参数

step2:

通过WebLMT或者OMC启动端口重定向功能,按照前面组网的描述,源端口为S1链路所在的1号光口,目的端口是与电脑直连的0号电口。同样此命令执行后有老化时间,在时间选项可以设置,实际取值范围:30s~3600s,可以按照自身需求进行合理设置。

图9 启动端口重定向功能

【注意事项】

1) 源端口和目地端口填反会导致抓不到数据

2) 时间设置不能太短,否则可能导致抓包不全

3)端口重定向的源端口、目的端口必须是业务口

4)端口闪断、端口复位会导致端口重定向丢包

5)一个单板最多只能起一个端口重定向

对于UMPT板,如果已有业务使用的是PORT0(FE/GE0),端口镜像抓包时需要使用光电转换器(SFP转换为RJ45),镜像口FE/GE1才能通过网线连接电脑网口。

图10 FE/GE 口在UMPT板面板中的位置

图11 FE/GE 口在LMPT板面板中的位置

当需要停止端口重定向或者需要查询端口重定向状态是可以执行如下命令:

1)停止端口重定向。

图12 停止重定向命令

2)查询端口重定向信息

图13 查询重定向信息

step3:

启动端口重定向STR PORTREDIRECT命令后,S1链路所在1号光口的报文将会镜像到0号电口上,电脑页面上启动Wireshark软件将会抓取镜像出来的报文,抓取完成后点击停止按钮

图14 Wireshark抓包界面

File——Save As 选择保存路径,将抓取的报文保存后进行分析。

4 测试验证过程

4.1 传输侧网络测试分析

结合湖北电信组网结构,以及指标恶化时间规律,均在午忙时和晚忙时出现,对传输网络进行测试,7月2日晚忙时分别对宜昌和荆门27个BBU进行基站PING测试(每个BBU进行PING5次),从基站侧分别PING MME和B设备,分段排查丢包原因。

4.1.1BBU侧_PING测试结果

?PING 其他BBU设备:无丢包;

?PING EPC设备:平均丢包率4%,如下图所示:

图15 BBU侧_PING传输网络测试结果

4.1.2B设备_PING测试结果:

?PING ER设备:无丢包(4G-ER:8.68.143.254)

图16 B设备PING ER设备

?PING EPC设备:存在丢包 (EPC:6.64.95.1)

图17 B设备PING EPC设备

4.2 终端侧对比测试分析

武汉本地BBU不经过经过CN2设备,对比武汉和宜昌在早晚忙时下载业务速率以及终端丢包现象,宜昌速率以及丢包明显高于武汉。

4.2.1终端FTP下载测试对比

通过下载业务测试分析,武汉的早晚忙时业务下载均值速率在70Mbps左右,宜昌的早忙时业务均值速率为50Mbps,晚忙时业务下载均值速率速率30Mbps左右。

图18 DT数据中的下载速率对比

4.2.2终端的TCP抓包丢包分析

业务下载测试时,同时进行Wireshark抓包测试,宜昌晚忙时丢包率0.5%明显高于早忙时0.2%;武汉早晚忙时丢包均小于0.2%左右,如下图所示:

图19 Wireshark抓包中的TCP丢包率对比

具体抓包如下所示:

?武汉早忙时统计

图20 武汉早忙时TCP Retransmission ?宜昌晚忙时统计

图21 宜昌早忙时TCP Retransmission

?武汉晚忙时统计

图22 武汉晚忙时TCP Retransmission ?宜昌晚忙时统计

图23 宜昌晚忙时TCP Retransmission

5 解决方案及实施效果

在忙时高峰期时间段,连接CN2设备的地市网络在传输侧丢包现象以及终端侧感知速率和TCP丢包率均明显高于武汉,证明CN2设备存在拥塞瓶颈。建议将湖北CN2设备尽早实施扩容。

8月18日凌晨对PE设备的CN2实施了扩容,扩容后,相关区域网速慢投诉有明显的下降,通过DPI数据,TCP23次握手时延也恢复平稳,未超过80ms,如下图所示:

图24 CN2扩容前后全网TCP23次时延变化趋势

6 总结

该案例需要掌握LTE组网结构,基于绿网的DPI数据分析法定界问题,需要掌握TCP 时延的变化特征。要想准确定位问题,还需要借助Wireshark抓包软件端到端的测试。

该案例描述清晰,方法论合理,可供一线工程师参考。

相关主题
相关文档
最新文档