PTN重要告警类型
PTN L3网络典型故障分析(2014年)

典型原因归纳
请归纳常见PTN L3业务故障的原因,并描述这两起故障可能的原因:
光路两点中断。
节点失效,且保护失败 单点故障,且保护失败
硬件故障
单站配置数据/路由错误 端到端各节点路由配合错
以上的组合
9
目录
1
典型故障案例
1 L2转L3节点间同步协议通道故障案例 2 明细路由成环的案例 3 典型原因归纳
PTN1至PTN2、PTN1至PTN3开有伪线双归的以太网业务,业务通过L2转L3桥接 后,进入3层网络,最终落地点是MME/SGW PTN2和PTN3zhi之间设置DNI PW,同时还配置有ICB(同步协议通道)承载ARP 热备和MC-LAG协议报文。 在L2转L3桥节点,将L2VE(该E-Line业务VLL的V-UNI)和L3VE(静态L3VPN业务 的V-UNI)进行桥接,并分别将VE绑定到业务/隧道。
由于作者水平所限,课件可能存在一些不完善之处,还请各位同仁们指正。
2
目录
1
典型故障案例
1 L2转L3节点间同步协议通道故障案例 2 明细路由成环的案例 3 典型原因归纳
2
1 基本思路
如何处理PTN L3网络故障
2 网内关键检查点
3 重要手段 4 总结与提高
3
L2转L3节点间同步协议通道故障案例
LTE业务组网如图,其中接 入环网元(PTN1)为Optix PTN950设备,核心环的网 元(PTN2、PTN3、PTN4及 PTN5)均为OptiX PTN 3900 设备。PTN2和PTN3为L2/L3 网元(其中,正常情况下, PTN2为主用桥接点), PTN4和PTN5为L3网元。
3、从收发包分析:PTN1没有收到PTN2 的包。说明LTE业务下行在该区域发生由检查: 正常情况下,业务路径 应该是PTN1—PTN2—PTN4—MME/SGW , 各节点优先级,应该是沿此路径方向优先 级高,备用保护方向优先级低。当前PTN1 的优先级有变化,上行路径为:PTN1-PTN3--PTN5--PTN4--MME/SGW,即PTN3承 担了上行业务流量。这与PW发生倒换的事 件吻合。
《华为PTN产品介绍》PPT课件

GMSCe
PTN3900
GGSN MSCe RNC
骨干
CES E1
客
IMA E1
户
接
口
ATM STM-1
业
FE/GE
务 子
卡
STM-1
PTN产品系统构造
交换平面 GE
时钟单元
POS
网
络
GE
接
口
业
务 子
ML_PPP E1
卡
STM-1
辅助单元〔电源、风扇〕
主控单元
网管接口
走线区
风扇 Slot 40
PTN 1900子架
接口板区 电源板区
业务子卡
主控、穿插、多协议处 理板区
风扇区
子架尺寸 (mm) 子架重量 (kg)
436(宽)×295(深)×220.6(高) 空子架:9 / 满配置:15
PTN 1900子架(续)
业务交换能力:10G
SLOT 10
(FANB)
SLOT 8 (PIU) SLOT 9 (PIU)
槽位对应关系 1-1 3, 4
1-2 5, 6
2-1 3, 4 2-2 5, 6
1 3-7 2 3-7
PTN 950子架
主控、穿插、多协 议处理板区
业务板处理板区
子架尺寸 (mm) 子架重量 (kg)
风扇区 电源区 442(宽)×220(深)× 2U(高)
空子架:2.8
目录
2.PTN设备介绍
2.1 机柜、子架 2.2 单板 2.3 PTN设备级保护
300mm 600mm 300mm 600mm
4
8
1
2
PTN技术详解(中)

101
OAM有关术语
PTN
• ME:Maintain Entity,维护实体。在T-MPLS中,基本的ME是T-MPLS路径。ME 之间可以嵌套,但不允许两个以上的ME之间存在交叠。 • MEG: Maintain Entity Group,维护实体组,表示一组满足以下条件的ME:1) 属于同一管理域,2)属于同一个MEG层次,3)属于相同点到点或者点到多点TMPLS连接。 • MEL: MEG Level表示一个MEG所属的级别,代表它所处的域,用来区分不同域 的OAM。 • MEP:MEG End Point:MEG的端点,生成和终结OAM分组。 • MIP:MEG Intermediate Point,是MEG的中间节点,它能够响应某些OAM帧, 但除环回信号(LB)外,不会发起OAM帧,对途径的网络流量也不采取任何动作。
T-MPLS的OAM为了满足这些要求,采取了一系列方法:增强和扩展了MPLS原 有OAM的一些功能,强化了OAM的嵌套机制; 在实现OAM的体制方面,也取消了MPLS的基于状态的OAM远端、近端状态转移 处理体系,采取了与传统传送网相类似的基于OAM功能的错误管理、性能检测 OAM体系。
105
分组传送网OAM标准
T-MPLS的OAM介绍
PTN
107
108
故障管理
PTN
• IEEE802.1agCFM和ITU-T的Y.1731定义了主动和按需的故障管理机制。现 已定义的OAM故障管理消息包括: 连续性检查消息: • 连续性检查消息:这是一种主动 OAM功能,它可以用于检测处于一个MEG中 的任一对MEP间的连续性丢失(LOC),可用于检测两个MEG之间的错误连 接,也可用于检测在一个MEG中出现与错误MEP相连的情况,以及其他一些 缺陷情况。连续性检查消息可应用于故障管理、性能监测或保护倒换。 环回消息: • 环回消息:它用于检验一个 MEP与一个MIP,或者一个MEP与对等一个或多 个MEP间的连通性,该功能类似于PING。 链路追踪消息: • 链路追踪消息:它是一种按需 OAM功能,用于以下两个目的:邻接关系检索 和故障定位。 • 远端缺陷指示: MEP使用以太网远端缺陷指示功能通知对等的MEP它遇到 了一个缺陷情况,例如信号故障和AIS等缺陷情况都能导致带有远端缺陷指 示信息帧的发送,只有当以太网连续性检查功能被激活时远端缺陷指示功能 才会被使用。 • 告警指示消息;锁定信号消息;测试信号消息;维护通信通道消息;设备制 通信通道消息;设备制 造商专用和试验用OAM消息。 消息
PTN典型故障处理

– 取消设置人为误码、告警和LCK的插入。
典型故障处理
OAM故障处理
故障分析和处理
业务配置错误,配置故障主要表现网元相关配置错误和业务相关 配置错误。
– 检查网元环回地址、IP地址和网元类型等的配置。 – 检查设备收发两端的业务配置是否一致戒者匹配,业务端口选择是
连接错误、光功率过强戒过弱、接口接触问题。
– 排除连接错误。
– 通过光模块光纤自环, 检查光模块是否正常。
– 检查光模块的型号,决定是否更换光模块戒增加光衰。
– 检查业务电缆是否有虚焊、漏焊、接触丌良现象,此原因会导致个 别2M业务丌通现象。对2M支路信号迚行终端侧环回,并接入误码 仦测试,如果误码仦2M电信号丢失告警丌消失,则判定原因可能 是2M接口板的接口丌好、2M线断戒配线架同轴头未焊好,可更换 2M接口戒更换电缆解决。
否正确等等。
典型故障处理 APS保护故障处理 故障现象 保护丌能正常启劢,业务中断。 保护丌能正常启劢, OAM告警能够正常消失产生。 保护丌能正常启劢, OAM告警丌能正常消失产生。 通过强制倒换,可以正常切换。 断纤倒换丌能正常。 强制倒换丌能正常切换。
故障原因
外部原因
– 供电电源故障 – 光纤、电缆故障 – 光纤连接错误
OAM故障处理
故障原因
人为操作失误原因
– 人为插入告警戒误码 – 人为设置OAM LCK
设备/单板故障
故障定位流程
如右侧流程图
开始
设备是否运行正常 (如设备是否自动重启、网元
断链、子卡不在位)
YES
查看与设备连接的 端口是否正常UP,光功率接收
是否在正常范围
YES
业务是否正常
PTN概况

承载技术的选择
现有网络面对快速发展的新业务都有不同的缺陷!
PTN的引入
PTN与别的承载技术的关系
PTN性能、功能的比较
SDH帧和PTN帧的比较
运营商的情况
,提出IAN技术
PTN标准情况
国际标准
国内标准标准
没有设备标准 正在制定技术标准
PTN总体要求草案 设备要求草案
现状: 没有统一的标准! 设备厂家在按 用户要求定制相应功能!
理论上,支持无穷的标签嵌套。从而提供无 限的业务支持能力,MPLS的最大魅力。
采用T-MPLS的PTN层次化结构
T-MPLS的层次化结构
tunnel
Tunnel mode
T-MPLS映射实例
NNI采用以太网接口
MPLS网络
MPLS 标签转发过程
LSP形成的过程
PWE3
由于IETF PWE3工作组在TDM业务透传标准制定方面起主导作 用,其制定的TDM业务透传标准最为完整,因此成为该领域主 流标准,下面将通过对TDM PWE3技术方案的分析来介绍TDM 透传技术。
PTN PWE3
PWE3(Pseudo Wire Edge to Edge Emulation) 端到端的伪线仿真,是 一种端到端的二层业务承载技术。 PWE3 在PTN 网络中, 可以真实地模仿ATM 、帧中继、以太网、低 速TDM 电路和SONET/SDH等业务的基本行为和特征。 PWE3以LDP(Label Distribution Protocol)为信令,通过隧道(如 MPLS 隧道)模拟CE(Customer Edge)端的各种二层业务,如各种二 层数据报文、比特流等,使CE端的二层数据在网络中透明传递。 PWE3可以将传统的网络与分组交换网络连接起来,实现资源共用和网 络的拓展
(完整word版)PTN运行维护篇

PTN运行维护篇目录1.1网络故障处理基本思路和方法 (3)1.1.1PTN与MSTP告警对比 (3)1.1.2常见告警故障处理方法 (5)1.1.3以太网业务丢包类故障处理方法 (7)1.1.4OAM/PING调试法 (7)1.1.5环回逐段定位法 (10)1.2PTN网络例行监控 (11)1.1 网络故障处理基本思路和方法PTN的组网、业务配置愈发复杂,需分组厂商网管尽快做好SDH-Like功能。
为尽快恢复业务,将检测的故障点最小化,需了解SDH原理、IP网络原理知识、告警信号流及告警产生机理、PTN设备和网管基本操作、常用仪表的基本操作,了解网络拓扑,业务配置,设备运行状态。
✓告警、性能分析法✓OAM/PING调试法✓环回法PTN对于Tunnel的故障可用MPLS OAM来检测,MPLS OAM包括CV/FFD、Ping和Traceroute。
通过CV(Connectivity Verification)/FFD(Fast Failure Detection)检测可以检测LSP的连通性。
CV检测和FFD检测的过程基本一致,其不同在于CV检测发送CV报文的频率固定为1帧/s并且不可设置,而FFD检测发送FFD报文的频率是可以自行定义的。
MPLS Ping/Traceroute为用户提供了发现LSP错误、并及时定位失效节点的机制。
MPLS Ping/Traceroute使用MPLS Echo Request和MPLS Echo Reply检测LSP的可用性。
MPLS Echo Request中携带需要检测的FEC(Forwarding Equivalence Class)信息,和其他属于此FEC的报文一样沿LSP发送,从而实现对LSP的检测。
为了更好的理解PTN,我们就把PTN与熟悉的SDH的业务层面告警类比一下,与大家共享。
1.1.1 PTN与MSTP告警对比对应于业务模型,PTN的告警分为物理层、数据链路层、Tunnel层、PW层、仿真业务层五个层次。
PTN设备典型故障处理

典型故障处理
IMA业务故障处理
故障原因
人为操作失误原因
– 人为插入告警戒误码 – 人为设置环回
设备/单板故障
故障定位流程
如右侧流程图
开始
设备是否运行正常 (如设备是否自动重启、网元
断链、子卡不在位) YES
查看与设备连接的 端口是否正常UP,光功率接收
是否在正常范围 YES
同一设备的共同出口 的其他业务是否正常
2M支路信号迚行终端侧环回,并接入误码仦 测 试 , 如 果 误 码 仦 2M电信号丢失告警丌消失, 则判定原因可能是2M接口板的接口丌好、2M线断戒配线架同轴头未焊好,可更换 2M接口 戒更换电缆解决。
人为误码告警和环回的插入。
– 取消设置人为误码、告警和环回的插入。
典型故障处理
以太网业务故障处理
钟,并且AB设备和CE设备之间必须要同步; 如A端配置auto 钟, B端可配置auto戒loopback时钟。
典型故障处理 IMA业务故障处理 故障现象 业务全部丌通,同时网管上报告警戒性能。 业务全部丌通, 同时网管上无任何告警戒性能。 部分子卡业务丌通。 子卡上的某些支路业务丌通。 业务出现误码。 故障原因 外部原因 – 供电电源故障 – 光纤、电缆故障 – 接地异常 配置原因 – 网元相关数据配置错误 – 业务相关数据配置错误
典型故障处理
IMA业务故障处理
故障分析和处理
连接错误、光功率过强戒过弱、接口接触问题。
– 排除连接错误。 – 通过光模块光纤自环, 检查光模块是否正常。 – 检查光模块的型号,决定是否更换光模块戒增加光衰。 – 检查业务电缆是否有虚焊、漏焊、接触丌良现象,此原因会导致个别2M业务丌通现象。对
如右侧流程图
PTN和MSTP区别

PTN和MSTP二者的区别在网上,有朋友问,PTN和MSTP究竟有啥区别?1引言3G时代的高速上网、视频通话、手机电视、手机购物、手机网游等新业务有两个共同的特点:IP化和宽带化。
具体分析这些业务的承载需求可以看到,大量基于分组的实时业务对服务质量提出了很高的要求,同时业务类型多样化和业务质量要求差异化也越来越明显。
为了满足对各种电信业务的统一承载需求,必须将IP网络技术与传输网络技术进一步融合,取长补短,PTN(Packet Transport Network,分组传送网)技术应运而生。
PTN结合了SDH和传统以太网的优点,一方面它继承了SDH传送网开销字节丰富的优点,具有和SDH非常相似的分层模型(图1),具备很强的网络OAM能力;另一方面,它又具备分组的内核,能够实现高效的IP包交换和统计复用。
图1 PTN与SDH技术分层模型对比目前,中国移动集团已明确在3G基站回传网络中大规模采用PTN设备组网,PTN组网需要考虑的核心问题之一是保护技术。
一方面PTN组网可以借鉴SDH组网的成功经验,另一方面还需要引入IP网络的优势技术,以形成PTN独特的网络保护技术,充分发挥PTN 技术的优势。
2保护技术选择网络的生存性是衡量网络质量是否优良的重要指标之一,为了提升网络的生存性,业内设计了各种网络保护恢复方式,其中自愈保护是最常用的保护方式之一。
所谓自愈是指在网络发生故障(例如光纤断裂)时,无需人为干预,网络自动地在极短的时间内(50ms)重新建立传输路径,使业务自动恢复,而用户几乎感觉不到网络出了故障。
PTN技术形成了一套完善的自愈保护策略,常用的几种保护技术及分类详见图2:图2 PTN保护技术分类图PTN网络的保护技术可分为设备级保护与网络级保护。
设备级保护就是对PTN设备的核心单元配置1+1的热备份保护。
核心层和汇聚层的PTN设备下挂系统很多,一旦设备板卡故障对网络的影响面就非常广,因此在做设备配置时,设备核心单元应严格按照1+1热备份配置;对于接入层的紧凑型PTN设备,设备厂家为了降低网络投资,可能仅对电源模块做了1+1热备份,主控、交换和时钟单元集成在一块板卡上,不提供热备份,接入层设备做配置时可根据网络情况灵活选择是否采用紧凑型的设备。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PTN重要告警类型
1、BD_STATUS
单板不在位。
2、CFCARD_FAILED
对CF卡操作失败而产生的告警
CF卡故障;主控故障。
3、CLK_LOCK_FAIL
时钟同步失败。
或者上游站未配置时钟,可能产生两侧断纤引起
4、COMMUN_FAIL
当主控板和其他单板之间的通讯中断时就会上报此告警。
可能单板在处于复位状态。
5、CPU_BUSY
当主控板检测到CPU占用率超过上门限时,即上报此告警。
6、DCNSIZE_OVER(PTN-3900)
当网关网元的主控板检测到DCN子网内非网关网元的数量超过上限值时,即上报此告警。
7、ETH_APS_SWITCH_FAIL
表示保护倒换失败告警。
当端口发送的APS(Automatic Protection Switching)帧中请求信号与收到的APS帧中桥接信号不一致并达到50ms时,表示倒换失败,上报该告警。
(tunnel层面工作和保护同时中断发生倒换失败)
8、ETH_APS_TYPE_MISMATCH
ETH_APS_TYPE_MISMATCH为保护类型信息不一致告警。
收到的APS帧中的信息
与本端配置的APS保护类型不一致时,即上报此告警。
例如:工作tunnel1和保护tunnel2配置为1:1双端保护,而保护组中工作tunnel1配置为恢复模式而保护tunnel2配置为非恢复模式。
9、FAN_FAIL
为风扇故障告警。
当风扇故障时就会上报此告警。
10、LAG_DOWN
聚合组不可用告警。
11、LASER_MOD_ERR
告警表示单板上可插拔光模块与光口类型不匹配。
12、LTI
告警表示时钟同步源丢失。
如果网元的所有同步源丢失,则上报此告警。
13、MEM_OVER
为内存使用率过高告警。
当单板检测到内存使用率超过上门限时,即上报此告警。
单板配置了大量业务,并同时启动大量的告警监控和性能统计任务,导致内存使用率过高。
一般为设备软件未升级造成软件不兼容硬件。
14、NE_COMMU_GNE_SWITCH
表示网元网关发生倒换,从主用网关倒换备用网关。
15、NESOFT_MM
告警表示主备区软件不一致告警。
16、POWER_ABNORMAL
为电源失效告警。
如果单板电源异常,就上报此告警。
17、S1_SYN_CHANGE
时钟源丢失,一般网元托管后产生的告警。
18、SERVICE_OUTAGE
业务伴随告警,对业务无影响可忽略。
19、SWDL_BD_EXCLUDE
是包加载升级单板隔离告警。
在包加载升级过程中,单板由于离线、存储空间不足、或者与主控通信不通等导致升级失败,单板被加入隔离列表中,就会上报该告警。
20、TEM_HA
表示激光器温度过高。
光模块故障或者工作环境温度过高。
21、TEMP_OVER
为单板工作温度越限告警。
当系统检测到单板的工作温度超过所设置的温度上限值或低于所设置的温度下限值时,就会上报该告警。
温度过高或过低,比如风扇故障引起散热不良导致温度过高,寒冬设备裸露工作温度过低。
22、TIME_NO_TRACE_MODE
单板高精度时间处于非跟踪状态。
单板高精度时间功能打开时,当单板当前跟踪源为内部源(D0)时上报该告警。
23、TR_LOC
线路板可能存在故障。
告警表示交叉板时钟故障告警。
当单板检测到交叉板时钟丢失,帧头丢失或交叉板故障时,即上报此告警。
24、WRG_BD_TYPE
告警表示所插板类型错误。
当所配置的逻辑板与设备实际的物理板类型不一致时会产生此告警。