华为PTN告警处理规范

合集下载

华为PTN告警处理规范

华为PTN告警处理规范

华为PTN告警处理规范1.ETH_LOS告警解释:ETH_LOS为以太网端口连接丢失告警。

该告警表示以太网端口接收不到以太网信号。

产生原因:以太网端口的电缆或光纤没有连接好。

电缆或光纤故障。

本端网元接收光功率过低。

单板故障。

处理步骤:检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。

检查电缆或光纤是否存在故障,更换故障的电缆或光纤。

检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。

更换上报告警的处理板。

若告警未消除,更换对端网元对应的处理板。

2.MPLS_TUNNEL_LOCV告警解释:MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。

连续3个周期内没有收到希望的CV/FFD报文时出现此告警。

产生原因:PW对端停止CV/FFD。

物理链路故障。

PW对端单板正在复位。

业务接口配置错误。

网络出现严重拥塞。

处理步骤:在网管上查看PW对端是否停止了CV/FFD。

在网管上检查该链路两端网元是否存在单板或光模块相关的告警。

若告警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。

在网管上检查对端单板是否上报COMMUN_FAIL告警。

若存在,说明对端单板可能正在复位。

清除COMMUN_FAIL告警后,查看本告警是否清除。

对照网元规划表,在网管上查看业务接口是否配置错误。

如果是,重新配置业务接口后,查看告警是否消除。

检查故障Tunnel的带宽是否已被完全占用。

如果是,增大Tunnel带宽配置或消除非法发送大数据量的根源。

查看告警是否清除。

3. BD_STATUS告警解释:BD_STATUS为物理单板离线告警。

当用户在网管上配置了逻辑单板而物理子架上却没有插入实际单板时就会上报此告警。

产生原因:单板正在硬复位。

单板未插上,或单板插上,但与母板接触不良。

板间通讯故障。

处理步骤:在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。

等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否消除。

华为PTN故障处理手册v1.0版

华为PTN故障处理手册v1.0版

华为PTN故障处理手册v1.0公司网络维护中心2010年12月目录一、概述 (5)二、网络故障分析定位方法 (5)2.1 告警分析法 (5)2.2 性能统计分析法 (7)2.3 OAM分析法 (9)2.4 配置数据分析法 (13)2.5 仪表测试分析法 (15)2.6 环回法 (16)2.7 排除法 (17)三、业务中断故障和业务恢复 (18)3.1 流程图 (18)3.2 查询误操作 (20)3.3 检查告警 (20)3.4 检查环回和装载 (21)3.5 检查业务配置 (22)3.6 应急恢复方案 (22)3.6.1 倒换 (22)3.6.2 复位 (23)3.6.3 通过更换单板恢复业务 (23)四、常见故障处理方法 (24)4.1 带DCN故障处理 (24)4.2 MPLS Tunnel故障处理 (29)4.3 PW故障处理 (31)4.4 CES业务故障处理 (33)4.5 以太网业务故障处理 (38)4.6 offload故障处理···············错误!未定义书签。

4.7 时钟故障处理 (42)4.8 QoS故障处理 (44)4.9 线性MSP故障处理 (48)4.10 TPS故障处理 (52)4.11 LAG故障处理 (55)4.12 MPLS APS故障处理 (59)五、部件更换注意事项 (63)4.13 部件分类说明 (65)4.14 更换处理板 (66)4.15 更换子卡 (68)4.16 更换接口板 (70)4.17 更换XCS单板 (71)4.18 更换带有1+1保护的SCA单板 (73)4.19 更换没有1+1保护的SCA单板 (76)4.20 更换风扇板 (79)4.21 更换PIU板 (80)4.22 更换可插拔光模块 (81)4.23 更换CF卡 (83)一、概述PTN网络故障处理在日常维护中显得至关重要,为了更好的开展PTN网络的日常维护,特编制PTN网络故障处理手册。

华为告警处理手册1.0

华为告警处理手册1.0

目录1. MSC SERVER处理分册 (3)1.1 告警箱处于离线状态 (3)1.2、FE端口故障 (3)1.3、WCKI时钟参考源丢失 (4)1.4、控制框与业务框通信失败 (5)1.5、BAM到主机通讯失败 (6)1.6、BAM到主机连接中断 (7)1.7、与NTP服务器断连 (8)1.8、Q922链路故障 (9)1.9、TCP链路故障 (11)1.10、CPU过载 (12)1.11、单板网口协商失败 (13)1.13、许可证文件即将失效 (14)1.14、计费中心长时间未取话单 (16)1.15、心跳中断 (17)1.16、双机倒换 (18)1.17、私网中断 (19)1.18、IP资源失效 (20)1.19、备份连接失败 (21)1.20、单板故障 (22)1.21、许可证即将过期告警 (23)1.22、许可证已经过期告警 (24)1.23、电源输出开关关闭 (25)1.24、H.248 SCTP链路故障 (26)1.25、MGW退出服务 (28)1.26、MTP目的信令点不可达 (29)1.27、MTP路由传输禁止 (31)11.28、MTP链路故障 (32)1.29、MTP缓冲区拥塞 (34)1.30、M2UA链路故障 (35)1.31、SCCP目的信令点禁止 (37)1.32、SCCP子系统禁止 (38)N => 联系对端局点确认其子系统是否恢复。

(40)2. MGW处理分册 (40)2.1 FE级联网口故障 (40)2.2 风扇框通讯故障 (42)2.3 NET单板时钟检测异常 (44)2.4 NET单板时钟失锁 (47)2.5 GE级联光口故障 (48)2.6 NET单板时钟失锁 (50)2.7 NET单板时钟配线故障 (52)2.8 级联光口故障 (54)2.9 GE通道光模块故障 (56)2.10 TDM通道光模块故障 (58)3.11 BLU时钟检测异常 (60)2.12 信令链路故障告警 (62)2.13 SPF扣板链路故障 (64)2.14 L2UA链路组故障 (67)2.15 L2UA链路故障 (68)2.16 单板软件异常告警 (70)2.17 SIWF故障告警 (72)2.18 控制平面拥塞 (74)2.19 单板故障 (75)2.20 告警箱断链 (77)2.21 单板上存在故障的半永久 (78)2.22 参考源丢失 (80)2.23 虚拟媒体网关迁移出业务态 (82)1. MSC SERVER处理分册1.1 告警箱处于离线状态告警含义1. 告警解释当BAM与告警箱之间通信中断时间超过10秒钟后,系统将产生该告警。

华为PTN故障定位指导

华为PTN故障定位指导

HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 4
MLPPP简介及常见故障定位
PPP简介 简介
PPP(Point-to-Point Protocol ):在支持全双 工的同步或异步的点到点 链路上提供传送和封装网 络层数据包的数据链路层 协议。 MP简介 简介 ML-PPP(Multilink-PPP): ML-PPP属于PPP的扩展协 议。通过MLPPP协议可将 多个物理链路捆绑成一个 逻辑链路,扩展传输带宽。 MLPPP属于位于PPP和网 络协议层之间的高级数据 链接协议。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 6
MLPPP常见故障
MLPPP DOWN
查询当前告警, 确认是否存在物理端口告警如
E1端口: T_RLOS VC12通道: BIP_EXC /V5_VCAIS /TU_AIS_VC12/LP_UNEQ_VC12/TU_LOP_VC12 光口: R_LOS
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 13
MPLS案例
土耳其沃达丰TUNNL没有使能导致 没有使能导致ATM业务中断 土耳其沃达丰 没有使能导致 业务中断 1.现象和问题描述 . 土耳其沃达丰在对某条Tunnel进行优化操作后,业务断了 进行优化操作后, 土耳其沃达丰在对某条 进行优化操作后 2. 定位流程
IMA组无法协商: 组无法协商: 组无法协商
查询本端和对端的IMA链路的E1帧格式是否一致;不一致则设置成一致,如果告警 存在则进行下一步处理; 查询该通道是否有E1信号丢失告警;如果有请消除此告警,如果告警依然存在,则 进行下一步处理; 查询IMA组链路的状态;如果异常则进行下一步处理; 通过环回设备电缆的方法检查本通设备是否工作正常;如果异常则进行下一步处理。 若告警未消除,硬复位或插拔该单板,查看告警是否消除。 若告警仍未消除,则本单板故障,更换该单板,告警会自动消除。 如果步骤4正常,则是由于对接参数不匹配引起的协商问题.需要检查如下参数:

PTN告警处理情况

PTN告警处理情况

恢复设备供电或修复链上设备的光缆后消除
未处理自行恢复 恢复设备供电或修复链上设备的光缆后消除 未处理自行恢复
直接清除告警
检测现网设备电源正常,怀疑为误报,已告知中移和华为人员进行检查分析, 部分告警自行恢复 现网检查告警均为LTE业务的工作或保护PW 失效导致,目前检查处理约20条 业务后发现重新配置业务的TUNNEL并更换至PW 后可消除告警,但原 TUNNEL也正常。部分告警自行恢复或闪报。需要华为进行分析故障原因 检查PW 中断原因并处理,多为光缆或停电导致的TUNNEL中断故障导致 未处理自行恢复 处理MPLS_PW_LOCV、PW_APS_DEGRADED、PW_APS_OUTAGE等告 警后消除
次要 次要 重要 次要 重要 紧急 重要 重要 总数
安全管理员组用户修改其他用户密码告警 任务执行失败告警 数据库备份 数据库表记录数达到阈值 数据库日志异常 数据库占用率过高告警(次要) 数据库自增长失效 隧道组断开 总数
告警原因 网管服务器提示告警---性能值越限事件日志越限
TUNNEL两端设备的一端不支持MPLS OAM Y.1731模式
设备掉电导致的设备通信中断或脱管
网元反复复位5次上报该告警 设备掉电导致的设备通信中断或脱管 输出光功率过高或过低
网元默认密码未修改的提示告警
设备电源模块故障或只接一路电源
带保护业务的工作或保护业务中断导致保护降级
PW APS保护业务中的一条PW 中断 PW APS保护业务的主备通道均中断 PW APS保护业务未配置保护通道,现网告警多为 MPLS_PW_LOCV、PW_APS_DEGRADED、 PW_APS_OUTAGE的伴随告警
联系华为人员后反馈不影响业务,可直接清除,彻底解决需要软件升级

PTN 950的告警级别

PTN 950的告警级别

重要告警
次要告警
提示ቤተ መጻሕፍቲ ባይዱ警
该级别告警的产生是由于网络 立即处理。 中的某服务已经受到了严重影 响,并且需要立即进行正确的处 理。例如,某个被管理对象完全 失效,它的功能需要被恢复到正 常运转时的状态,则上报该级别 告警。 该级别告警的产生是由于网络 紧急处理。 中影响服务的条件正在逐渐形 成,并且需要紧急的、正确的处 理。例如,某个被管理对象的功 能产生了严重的衰退,该功能需 要被恢复到正常运转时的状态, 则上报该级别告警。 该级别告警的产生是由于网络 及时查找告警原因,消除隐患。 中出现了一些目前尚未影响服 务的异常状况,但如不进行正确 的处理,则会产生更严重的异常 状况(如业务中断) 。例如,当 检测到的情况并没有使被管理 对象当前的处理能力下降,则上 报该级别告警。 该级别告警的产生是由于在重 经分析后消除潜在威胁。 大异常状况发生之前,系统检测 到了潜在的、会对服务产生影响 的异常状况。在这种情况下,需 要对该异常情况进行判断,并且 解除潜在的威胁,以免发生更严 重的、影响服务的故障。

PTN 950 的告警级别 告警级别用于标识一条告警的严重程度和重要性、 紧迫性, 按告警的严重程度递减的顺序可 以将告警分为以下四个级别:紧急告警、重要告警、次要告警和提示告警。 不同级别的告警及其处理方式如下表所示。 表 1 告警级别 告警级别 紧急告警 定义 处理原则

PTN 告警分析与建议

PTN 告警分析与建议

是否要下 站点 否 否
处理结果
是 否 否

2011-10-26
华为机密,未经许可不得扩散
第2页,共2页
66225048.xls
文档密级:
告警名 DCNSIZE_OVER LAG_MEMBER_DOWN DCN域过大
可能原因
成员端口不能激活也不能作为备用时,上 报此告警,指示原因
ETH_APS_LOST SWDL_PKGVER_MM SWDL_ROLLBACK_FAIL
1、对方没有配置保护; 2、保护通道业务中断; 软件包描述文件中描述的软件版本信息和 实际的软件文件版本信息不一致 网元回滚时有板回滚失败 1、本端物理端口故障; 2、本端没有接收到对端的OAM报文; 3、两端的OAM11-10-26
华为机密,未经许可不得扩散
第1页,共2页
66225048.xls
文档密级:
处理意见 升级SPH505补丁,之后如果还报告警,则 要缩减DCN域 1)检查对端是否配置了保护组,修改配置, 保持两端配置一致; 2)检查保护通道是否存在故障,消除保护通 道的故障; 重新进行一次包加载 重新进行一次包加载 1)检查物理链路是否正常,更换出故障的器 件(比如光纤/单板/光模块等); 2)检查对端设备是否使能了P2P OAM协议, 修改配置,两端配置保持一致;

PTN常见故障处理(阅读)

PTN常见故障处理(阅读)
Page 20
Tunnel常见故障处理方法(续)
原因3:Tunnel 所在的物理链路故障。 1. 查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL 或 MP_DOWN 等告警,指示Tunnel 使用的物理链路故障。 2. 若存在,优先处理HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL 或 MP_DOWN 告警。 3. 查看并处理系统中存在的下列告警:MPLS_TUNNEL_BDI、 MPLS_TUNNEL_Excess、MPLS_TUNNEL_FDI、MPLS_TUNNEL_LOCV、 MPLS_TUNNEL_MISMATCH、MPLS_TUNNEL_MISMERGE、 MPLS_TUNNEL_SD、MPLS_TUNNEL_SF、MPLS_TUNNEL_UNKNOWN 4. 检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备的异 常情况。 原因4:保护倒换失败。 1. MPLS APS 保护倒换失败,参考保护故障处理。
常见原因
原因1:路由失败。 原因2:交叉创建失败。 原因3:Tunnel 所在的物理链路故障。 原因4:保护倒换失败。
Page 19
Tunnel常见故障处理方法
原因1:路由失败。 1. 对照网络规划,检查Tunnel 两端端口参数配置是否正确,例如端口IP。修正不正 确的端口参数后,再次创建Tunnel。 2. 检查Tunnel 首末节点所在的网元间是否存在完整可达的链路。若不存在,修复链 路中残缺或故障的部分。 3. 可选: 确认动态Tunnel 配置的“Route Constraint”条件和“Color”(亲和属性)是 否正确。修正不正确的参数信息,具体操作请参见使用路径方式创建动态MPLS Tunnel 和FRR 保护。 4. 可选: 如果Tunnel 配置了带宽,检查链路带宽是否满足Tunnel 的要求。 原因2:交叉创建失败。 1. 检查网络中是否存在不同的网元使用相同的网段。如果存在,需要修改端口IP地 址。 2. 检查Tunnel 是否配置了不兼容的保护特性。详细内容请参见《版本说明书》。 3. 查看Tunnel 所经过的网元或单板,确认已创建Tunnel 个数是否已经达到了最大值。 如果是,需要重新规划或删除冗余的Tunnel。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检查单板是否存在TR_LO(告警,指示单板收到的38M系统时钟故障。若 存在,优先清除TR_LO告警。检查单板是否存在POWER_ABNOR告AL,指示单板电压异常。若存在,优先清除POWER_ABNOR告AL检查单板 是否存在HARD_BA告警,指示单板硬件故障。若存在,硬复位单板后, 查看告警是否清除。若告警未清除,更换上报HARD_BA告警的单板,并
对照网元规划表,在网管上查看业务接口是否配置错误。如果是,重新
配置业务接口后,查看告警是否消除。
检查故障Tunnel的带宽是否已被完全占用。如果是,增大Tunnel带宽 配置或消除非法发送大数据量的根源。查看告警是否清除。
3.
告警解释:BD_STATU为物理单板离线告警。当用户在网管上配置了逻辑单
板而物理子架上却没有插入实际单板时就会上报此告警。
在网管上查看两端端口是否存在LOOP_AL告警,若存在,优化清除LOOP_AL告警后,查看本告警是否清除。
对照网元规划表, 查看上报告警的端口是否错插了纤缆, 造成两端端口工 作模式不一致。
在网管上查看两端网元的相关单板是否存在HARD_BA等硬件类告警。若 存在,更换存在硬件类告警的单板后,查看本告警是否清除。
产生原因:
单板正在硬复位。
单板未插上,或单板插上,但与母板接触不良。
板间通讯故障。
处理步骤:
在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若 是,则该单板处于硬复位状态。等待3至5分钟,该单板的工作状态转 成绿色后,查看本告警是否消除。
检查相应槽位的单板是否插入。若未插入,请插入相应物理单板,告警 将自动清除。 检查单板与母板是否接触良好, 母板连接器的导针是否歪 斜。修正歪斜的导针,重新插拔单板使之与母板良好接触,告警将自动 清除。
5.
告警解释:ETH_LINK_DOW为网口协商失败。
产生原因:
本端网元和对端网元的端口工作模式不一致,造成协商失败。
端口内环回。
纤缆连接到错误的端口。
单板故障。
处理步骤:
在网管上查看两端网元的以太网端口工作模式是否一致。 若不一致, 修改 设置,使两端的端口工作模式一致后,查看告警是否清除。
电缆、光纤或光模块故障导致链路信号变差或中断。
处理步骤:
在网管上查询是否存在LTI告警或其它时钟相关告警,导致时钟没有同 步,缓冲区入与出速率不一致。 若存在, 优先清除LTI告警和时钟相关告
警后,查看本告警是否清除 在网管上查看CES业务两端网元参数配置是否一致, 例如“64K时隙”等。 若不一致,修改配置参数,使两端一致。
6.
告警解释:CES_CEBOUND_PKT为OSES业务网络侧报文丢失告警。当网络侧
连续丢包超过设置的阈值上限或当连续3s以上没有收到报文,即上报此 告警。
产生原因:
业务承载层中断。
网络侧链路不稳定。
处理步骤:
在网管上查询是否存在ETH_LO、MP_DOV或NPW_DOV告警。若存在,优 先清除ETH_LOSMP_DOW或NPW_DOW告警后,查看本告警是否清除。
华为
告警解释:ETH_LO为以太网端口连接丢失告警。该告警表示以太网端口接
收不到以太网信号。
产生原因:
以太网端口的电缆或光纤没有连接好。
电缆或光纤故障。
本端网元接收光功率过低。
单板故障。
处理步骤:
检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。
检查电缆或光纤是否存在故障,更换故障的电缆或光纤。
在网管上查询是否上报告警的单板或主控板是否存在HARD_BA或
COMMUN_FAIL警。若存在,更换上报告警的单板,查看告警是否消除。
4.
告警解释:HARD_BA为硬件故障告警。当单板检测到硬件出现异常且会影响 业务运行时,就会上报该告警。
产生原因:
外接电源失效。
单板与母板未良好接触。
单板硬件故障。
物理链路存在错连。
处理步骤:
在网管上查看业务所在Tunnel或PW的带宽配置是否过低。如果是,重新 为该Tunnel或PW配置较大的带宽,查看告警是否清除。
查看物理链路是否存在错连。 若存在, 修正错误的物理链路后, 查看告警 是否清除。
9.
产生原因:
单板处于硬复位状态。
单板故障。
38M系统时钟故障。
在网管上查看业务所在Tunnel或PW的带宽配置是否过低。如果是,重新 为该Tunnel或PW配置较大的带宽,查看告警是否清除。
检查并确认电缆或光纤与接口良好连接。
8
告警解释:CESPW_REMOTE_LOSPCESPW远端丢包告警。当本端网元收到R比特置位为1的报文时,即上报该告警。
产生原因:
网络拥塞。
若接口板上报HARD_BA告警,可能是对应的处理板出现故障。
处理步骤:
确保正常电源接入后,查看告警是否清除。
拔出故障单板,确认背板上的导针无异常。重新插入单板,使单板与母 板良好接触。
硬复位上报告警的单板,查看告警是否清除。若告警未消除,更换上报 告警的单板。
硬复位接口板对应的处理板,参看告警是否清除。
电源板故障,造成主控板电压异常。
主控板不在位或故障。
主控板的EXT接口直接连接HUB或者交换机。
处理步骤:
查看告警,明确与主控板通信失效的单板。在网管的“运行态”槽位视图 中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。 等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否清除。
检查并确认电缆或光纤与接口良好连接。
7.
告警解释:CES_LOSPKT_EXC单位时间内CES业务的报文丢包数超过阈值告 警。当单板检测到一定周期内(10s),每秒平均帧丢失个数超出上限阈 值(缺省为100)时,即上报此告警。
产生原因:
时钟未同步。
CES业务两端网元参数配置不一致。
Tunnel或PW带宽配置过低,链路拥塞。
检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。
更换上报告警的处理板。若告警未消除,更换对端网元对应的处理板。
2
告警解释:MPLS_TUNNEL_LOC\Tunnel连通性丢失告警。连续3个周期内
没有收到希望的CV/FFD报文时出现此告警。
产生原因:
PW对端停止CV/FFD
物理链路故障。
PW对端单板正在复位。
业务接口配置错误。
网络出现严重拥塞。
处理步骤:
在网管上查看PW寸端是否停止了CV/FFD
在网管上检查该链路两端网元是否存在单板或光模块相关的告警。若告 警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。
在网管上检查对端单板是否上报COMMUN_FA告L警。若存在,说明对端 单板可能正在复位。清除COMMUN_FA&警后,查看本告警是否清除。
相关文档
最新文档