网管系统告警产生和处理机制
中兴皖通网管常见告警分析

ZXWT-A80常见告警分析在设备安装维护工作中会遇到很多告警,对告警的有效分析是解决问题的关键。
要找到问题的根源,首先要从告警产生的原因着手,查清问题后运用有效的处理方法排除故障。
以下针对ZXWT-A80传输设备的一些常见告警,给出产生原因及处理方法,在以后工作中可以作为同事们的参考。
1、R-LOS告警告警名称:R-LOS Loss of signal 接收线路侧信号丢失告警级别:紧急告警原因:1)断纤;2)线路衰耗过大或光功率过载;3)对端站发送部分故障线路发送失效;4)对端站交叉板故障或不在位处理方法:1)一般是光纤断、光纤衰耗太大、接收光功率过载、单板故障等原因;2)检查光缆是否完好,光接头是否接触良好,清洁光缆连接器;3)如果接收光功率过载,加入衰耗器;4)如果是单板故障,更换单板。
2、R-LOF告警告警名称:R-LOF loss of frame接收线路侧帧丢失告警级别:紧急告警原因:1)接收信号衰减过大;2)对端站发送信号无帧结构;3)本板接收方向故障处理方法:1)一般是光纤衰耗太大,检查光纤是否完好;2)检查光纤接头接触是否良好,清洁光纤接头;3)检查对端站发送信号的帧结构;4)如果是单板故障,则更换单板。
3、R-OOF告警告警名称:R-OOF Out of frame接收线路侧帧失步告警级别:紧急告警原因:1)接收信号衰减过大;2)传输过程误码过大;3)对端站发送部分故障;4)本站接收方向故障处理方法:1)一般是光纤衰耗太大、接收光功率过载、单板故障等原因;2)检查光缆是否完好,光接头是否接触良好,清洁光缆连接器;3)检查对端站发送部分4)如果是单板故障,更换单板4、MS-AIS告警告警名称:MS-AIS Multiplex section alarm indication复用段告警指示告警级别:主要告警原因:1)对端站发送MS-AIS信号;2)对端站时钟板故障;3)本板接收部分故障处理方法:1)检查对端站线路板是否有问题,可通过复位或更换单板来检查告警是否消失; 2)检查本站线路板,同样可通过复位或更换单板的方法来检查告警是否消失。
SDH常见告警及处理方法

华为SDH故障1.1 R_LOS告警名称或故障现象:R_LOS告警表示接收线路侧信号丢失(Receive loss of signal),为紧急告警。
告警产生原因:1、断纤;2、线路衰耗过大;3、本板接收方向故障;4、对端站发送部分故障,线路发送失效;5、对端站交叉时钟板故障或不在位。
告警处理方法:1、现场用光功率计检测告警单板的接收光功率是否正常。
如果接收光功率正常,请转至步骤8。
2、检查光缆是否有故障,排除光缆故障后,查看告警是否排除。
3、清洁本站尾纤接头和线路板接收光口,查看告警是否排除。
4、检查本站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘和光衰减器后,查看告警是否排除。
5、用光功率计检查对端站的发射光功率是否正常,如果发射光功率不正常,更换线路板。
6、如果发射光功率正常,清洁对端站的尾纤接头,查看告警是否排除。
7、检查对端站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘和光衰减器后,查看告警是否排除。
8、更换本站上报告警的线路板,查看告警是否排除。
9、更换对端站的线路板,查看告警是否排除。
1.2 R_LOF、R_OOF告警名称或故障现象:R_LOF告警表示接收线路侧帧丢失(Receive loss of frame),为紧急告警。
告警产生原因:1、接收信号衰减过大;2、对端站发送信号无帧结构;3、本板接收方向故障。
告警处理方法:1、在网管上查看是否有高级别的R_LOS告警,优先处理这些高级别告警后,查看告警是否排除。
2、检测告警单板的接收光功率是否正常。
如果接收光功率正常,请转至步骤9。
如果收光不正常,让现场定位衰耗点在机房内还是在线路上,如果在线路上,转至步骤8。
3、清洁本站尾纤接头和线路板接收光口,查看告警是否排除。
4、检查本站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘和光衰减器后,查看告警是否排除。
5G网络典型告警分析和问题处理方法

可能原因:电源柜、电源线故障;DCDU/电源柜空开不足;市电电压不足
处理建议及方法:
电
1. 检查DCDU空开、电压 2. 检查电源柜空开
力 3. 检查市电电压
类 2、射频单元维护链路异常告警
告警解释:BBU和射频单元之间电缆或者光纤中断
可能原因:射频单元交流掉电、射频单元直流掉电、未上电或运行异常;BBU与射频单元之间或者上下级射频单
故障处理流程图
历时故障处理
新增告警处理
联系后台确认故障
配置类告警先 处理
未处理恢复
确认详细故障和工 具,上站处理
处理恢复
现场处理故障
处理恢复
未处理恢复
联系后台确认故 障是否全部解决
详细记录故障无 法处理原因,为 下次上站做好准
备
检查设备标签、 维护资料
处理结束
故障的定位排查
故障定位常用办法
定位方式
查野战光缆、跳纤或者光模块(光模块波长与无源波分端口是否匹配、光模块 硬件)问题 3. 如部分光路出告警,优先排查野战光缆、跳纤或者光模块(光模块波长与无源 波分端口是否匹配、光模块硬件)问题,再排查无源波分部分端口故障
CPRI接口故障涉及的硬件组成
BBU侧常见的故障
2、传输光接口异常告警、传输光接口性能恶化告警
BBU侧常见的故障
常见故障
BBU直流输出异常告警、单板下电告警、gNodeB退服告警、网元连接中断
1、BBU直流输出异常告警
告警解释:BBU内UPEU单板输出过压或欠压 、UPEU单板功率不足
可能原因:UPEU单板硬件故障、UPEU未上电、UPEU供电不足、电源或电缆连接不正确、输入配电不正常 UPEU电源板供电异常
SDH原理告警与性能部分

告警与性能一:综述在SDH设备中,除了信号丢失等告警信号,其余所有的告警及性能都在SDH帧的开销中得到体现,并根据开销在每个网元的处理将开销字节终结、从新向下一个网元发起(前被终结的内容重新发起)、以及回送对告信息。
告警及性能的产生:根据当前光纤、支路线路的状态,以及根据误码的算法,要么向网管发出告警信息,要么向相应的开销字节写入内容同时向网管上报数值。
开销字节的终结即是将开销提取出来,上告网管报告为告警及性能记数,以及如需要的话,对SDH发出相应的保护倒换(同样是通过写开销字节来达到目的)等动作。
开销字节的从新发起即是将本网元已经终结的字节按照当前状态写入,或重新进行性能的记数等,然后发给下一网元。
回送对告信息即是在收到对端的各种告警及性能记数(如B2、B3、V5性能以及K2状态),根据SDH开销字节含义,将对告的信息写入对告的字节(如M1、G1、REI、K2等)里,通过光纤发往对端。
如上图,以B点为需要描述的网元:对B点来说,A点以及光纤、支路线路是告警以及性能的发起源(C点与A点同),B点根据SDH标准处理某部分开销字节,从处理的开销字节中得到相应的告警及性能记数,上报网管,并在此处将此部分开销内容终结,及不往下一个站点下发,其余的未处理开销根据交叉直通等不做改变的发到下一个网元,此处如C 网元。
同时B点将需要对告的信息写入A的帧开销中,发往A点,A点得到一些对告的告警及性能,即在网管上产生相应的远端告警及远端性能。
同样B点接收到从C点发来的开销同样处理。
A、C点同样如B点描述。
告警与性能的理解需要对SDH的帧结构有详细了解,如图所示:9×10×二:告警及性能分类1.传输类:LOS、LOF、LOP、AIS、标识失配等包括MS、HP、LP、AU、TU,即复用段、再生段、告阶/低阶通道本端、远端RDI设备类:拔板、故障、不匹配、时钟丢失等性能超值B1、B2、B3、PJ、V5、CV等软件告警网管、时隙分配等2.性能记数:B1、B2、B3、PJ、V5、CV等本端记数、远端FEBBE、ES、SES、UASB1、B2、B3、PJ、V5、CV属于各个开销段的内容。
SDH传输设备的告警分析及故障排除

SDH传输设备的告警分析及故障排除□王新辉(台州市黄岩广播电视局,浙江台州318020)中图分类号:TN943.6 文献标识码:A 文章编号:1007-7022(2003)06-0103-02 SDH光传输设备在日常工作中承担着越来越繁忙的工作,技术维护人员几乎每天都会面对告警的发生,因此正确理解SDH的告警,将有助于对故障的正确分析和判断,及时地定位及解决。
下面给出几个故障事例,通过对这些故障的分析,有益于加深对故障处理的认识。
1 光路发生阻断后,设备告警信号的分析及处理如图1所示,光缆发生阻断时,在网管上会发出OOF,LOF,RS-LOS等光路通道上的告警。
如果是单纤断,B网元收到OOF,LOF,RS-LOS 等告警,A网元则有MS-RDI类似的告警(此时告警的产生是由于K2字节的b6b7b8=110所造成的)。
图1 此时维护人员应该根据告警,并使用光功率计对收方向的光纤进行测量,若收到光信号,则可能是本端光接头或入端的光尾纤或光盘的问题;若收不到光信号,则是光缆阻断或是对端站的问题,由此来对故障进行分段查找,用O TDR再进一步定位故障点。
同时,当收端无时钟信号输入时,也会产生R-LOS告警,此时需根据网管上显示的告警进一步判断。
2 误码告警的分析及处理施,防止高频头进水;冬季下雪后要及时清扫天线的积雪,以保证信号质量。
另外,我们定期检查卫星天线接地线是否接地良好,这项检查很重要,接地良好可以防止雷击损坏卫星接收设备及机房设备。
3 播出机房设备的维护检测为了保证有线电视的安全优质播出,我们制定了一套维护管理制度,对机房设备进行周检、月检、季检和年检等定期检修和日常维护。
我们每周都对调制器的图像载波电平、伴音载波电平及音量进行调整,并做好记录,若发现某个频道电平变化较大,则尽快查找原因。
坚持对录像机进行月检,进行内部除尘,清洗磁头,对卫星接收机、视频分配器等输出的视频信号幅度每月进行一次调整。
GPON常见故障处理方法

华为GPON故障1.1 分支光纤断或OLT检测不到预期的单ONT的光信号(LOSi)告警名称或故障现象:分支光纤断或OLT检测不到预期的单ONT的光信号(LOSi)(闪断则伴随有SD,RDI)告警产生原因:1、ONU上联光纤断裂:ONU到分光器间光缆断裂;2、单个ONU频繁闪断;告警处理方法:1、派网服维护人员到现场检查ONU,并检查检查ONU到分光器前ODF间尾纤;2、单个ONU的分支光纤断裂告警只影响该ONU的业务,检查光路。
3、单个ONU的闪断会引起该PON口所有ONU的质差并一起闪断,查看历史告警,以告警时间的先后次序去激活ONU,直至PON口下其他ONU的闪断结束,可以定位闪断源头为刚才去激活的ONU,按第2步处理,要求收光在-10dBm~-22 dBm。
4、配合网服维护人员更换分光器后的ODF架位到ONU端的尾纤,或是跟换分光器到ODF架位间的楼间光缆中纤芯;1.2 主干光纤断或OLT检测不到预期的光信号(LOS)告警名称或故障现象:主干光纤断或OLT检测不到预期的光信号告警产生原因:1、分光器到OLT光功率过低;2、分光器到OLT间光缆故障;2、分光器损耗过大;告警处理方法:1、检查分光器与OLT之间的光路,跟换好一点的光纤;2、检查分光器端口及整体耗损,更换分光器端口或者整体替换;1.3 以太光口LOS告警名称或故障现象:OLT上以太光口LOS,若是单上联的OLT同时会引起OLT托管;告警产生原因:OLT与城域网间尾纤、光缆光功率低告警处理方法:1.该故障会引起OLT单边,检查光路,通知城域网检查对端交换机端口状态。
1.4 以太网端口链路状态从up变化为down告警名称或故障现象:OLT的以太网端口链路状态从up变化为down告警产生原因:1、端口光口未打开;2、光路衰耗过大,超过门限;3、光模块损坏;4、单板故障;告警处理方法:1、在网管上检查设备端口有没有打开光口;2、派线路代维携带光功光源及相应光模块到两端现场检查光路,两端光缆收光功率应在-10dBm到-22dBm以下;3、若光缆正常,查看是否是设光模块问题;4、若检查单板是否正常,则更换单板;1.5 风扇电源模块故障告警名称或故障现象:网管上报OLT上上报下带ONU风扇电源模块故障或是OLT风扇故障告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口及相关资料查找相应ONU,派网服维护人员到指定ONU检查;2、网服人员到现场后先观察ONU设备上风扇指示灯;3、重启相应设备的风扇电源;2、更换相应设备的风扇;1.6 风扇配置或运行状态异常告警名称或故障现象:网管上报OLT上上报下带ONU风扇配置或运行状态异常或是OLT风扇故障告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口及相关资料查找相应ONU,派网服维护人员到指定ONU检查;2、网服人员到现场后先观察ONU设备上风扇指示灯;3、重启相应设备的风扇电源;2、更换相应设备的风扇;1.7 上行以太端口连线故障或端口状态异常告警名称或故障现象:OLT上报上行以太端口连线故障或端口状态异常,此是电口上行板特有告警告警产生原因:OLT设备的上行以太端口连线故障或端口异常告警处理方法:1、派维护人员到OLT现场检查网线;2、更换相应单板;1.8 单板芯片发生故障告警名称或故障现象:OLT上报单板芯片发生故障告警产生原因:1、设备单板吊死;2、设备芯片超负荷,被烧坏;告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.9 GPON OLT发送失败(TF)告警名称或故障现象:OLT上报GPON OLT发送失败(TF)告警产生原因:1、设备单板吊死;2、设备光模块被烧坏;3、数据吊死;告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.10 单板硬件异常告警名称或故障现象:OLT上报单板硬件异常告警产生原因:1、设备单板吊死告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.11 单板通讯故障告警名称或故障现象:OLT上报单板通讯故障1、设备单板吊死告警处理方法:1、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.12 以太光口发射功率不在门限范围内告警名称或故障现象:OLT上报以太光口发射功率不在门限范围内告警产生原因:1、光缆光纤光功率过低或过高;2、光模块故障;3、设备板件故障;告警处理方法:1、派维护人员到现场检查光缆收发光功率,更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.13 单板掉电告警名称或故障现象:OLT上报单板掉电告警产生原因:1、设备单板吊死2、设备单板电源故障;告警处理方法:1、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.14 网管与设备通讯失败告警名称或故障现象:OLT上报网管与设备通讯失败,该板OLT业务全阻1、OLT设备掉电;2、主控板吊死,或者通信故障;3、OLT设备上联光路故障;4、OLT的网关IP设备问题;告警处理方法:1、查看主控板是否有告警,有高级别的告警优先处理;2、检查设备供电是否正常,检查上联光路是否正常;3、ONU的管理IP是否错设为OLT的网关IP1.15 ONT远端误码(RDIi)告警名称或故障现象:OLT上报 ONT远端误码(RDIi)告警产生原因:1、ONT(ONU)设备吊死;2、ONU到OLT的光纤故障;告警处理方法:1、网管复位ONT(复位会中断业务3到5分钟),仍然无法消除则检查光路;2、更换ONU,重做数据1.16 ONT信号退化(SDi)告警名称或故障现象:OLT上报 ONT信号退化(SDi)告警产生原因:1、ONT(ONU)设备吊死;2、ONU到OLT的光纤故障;告警处理方法:1、网管复位ONT(复位会中断业务3到5分钟),仍然无法消除则检查光路;2、更换ONU,重做数据;阿尔卡特GPON故障2.1 网元脱管告警名称或故障现象:OLT上报网元脱管,该板OLT业务全阻告警产生原因:1、OLT设备掉电;2、主控板吊死,或者通信故障;3、OLT设备上联光路故障;4、OLT的网关IP设备问题;告警处理方法:1、查看主控板是否有告警,有高级别的告警优先处理;2、检查设备供电是否正常,检查上联光路是否正常;3、ONU的管理IP是否错设为OLT的网关IP2.2 风扇配置失效(Rack fan missing Alarm)告警名称或故障现象:OLT上报风扇配置失效(Rack fan missing Alarm)告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口及相关资料查找相应,派维护人员到场检查;2、维护人员到现场后先观察设备上风扇指示灯是否正常;3、重启相应设备的风扇电源;2、更换相应设备的风扇;2.3 单板丢失(BDMISSING)告警名称或故障现象:OLT上报单板丢失 (BDMISSING)告警产生原因:1、OLT单板不兼容;2、OLT设备单板吊死,或者被损坏;告警处理方法:1、热插拔该板件;2、更换相应单板;3、联系厂家工程师配合处理;2.4 GPON发送失败(TXFAIL)告警名称或故障现象:OLT上报 GPON发送失败(TXFAIL)告警产生原因:1、OLT数据吊死;2、OLT设备单板吊死,或者被损坏;告警处理方法:1、热插拔该板件;2、更换相应单板;3、联系厂家工程师配合处理;2.5 NT以太网链路端口停用告警名称或故障现象:OLT上报 NT以太网链路端口停用,同时该告警产生原因:1、上联城域网的端口故障;2、上联城域网的链路问题;3、城域网交换机端口或者设备故障;告警处理方法:1、优先联系城域网检查相应交换机端口情况;2、派维护人员到机房检查连接城域网设备的光路是否正常;3、检查连接两端的链路是否正常;2.6 PON信号丢失告警名称或故障现象:ONU上报 PON信号丢失告警产生原因:1、分光器到OLT光功率过低;2、分光器到OLT间光缆故障;2、分光器损耗过大;告警处理方法:1、检查分光器与OLT之间的光路,更换光纤;2、检查分光器端口及整体耗损,更换分光器端口或者整体替换;2.7 ONT未激活告警名称或故障现象:ONU上报 ONT未激活告警产生原因:1、ONU上联光纤断裂:ONU到分光器间光缆断裂;2、单个ONU频繁闪断;告警处理方法:1、该告警只影响该ONU的业务,报维护人员检查光路。
传输网综合网管系统中告警流程的设计与实现

网管系统 ( 包括 备 S DH子 网管和 WDM 子 网管 ) 系统 实时 地接收 各 子 网管 系统 上报 的告 警信 息 ,利 管 一 用各种 关 联性资 源 对接 收 到的 告警 信 息进行 相 关性 采 集 到的 数据 通 过接 口适 配服 务器适 配后 送 入综 合
为 了消除 或减 少各 种 设备 之 间的 差异性 ,有效 单 一 的管 理 语法 。 由于 综 合 网管 系统可 以 统一 管理
地 对全 网资源进 行 管理 ,网络 的 综合 化管 理 至关 重
一
多套 网管 系统 ,跨子 网业 务 的管 理 以及故 障 分析
要 。 告警 以及故 障 的管 理是 综 合 网管 系统 中重 要 的 成 为 了可能 ,并 能在 全 网范 围内统 一 调 配资 源 。 传输 网综 合 网管 系统 结 构如 图 l所示 ,所有 被 个功 能 ,密切 关 系 到 网络 的 运营 质量 。综 合 网管
维普资讯
网络技术
NETW o ak TE(H N1 【 E ’ 0
团固圈AMEP' R曰叼RII AYI圃,O I  ̄A(N O' I lCU PA W I ! F
VI N O卷5 1 圳 ‘ . I 5 . 5 5
支 书编 :10 -4 1(06 50 3—4 0 58 5 2 0 )0 -040
. 】综 = I 】 【 I ) q 多样性 以及 各设 备 厂家 之 间设 备的 相 对独立 性 ,使 11 传输 II 龠 I符 系统 传输 网综 合 网管 系统 基于 现有 的 S DH 和 WDM 得现 有 的 网管 系统 缺乏 对全 网资源 、 网络 拓 扑 的宏 观把 握 和 数据分 析 ,缺乏 对全 网资源 进行 有效 分 配 子 网管 系统 ,将 备子 网内的所有 网元设 备统一 管理 , 对 下 层子 网管提 供统 一 的 网络接 口和标 准 , 并提供 的手 段 和 宏观 调控 。
网管系统告警产生和处理机制

网管系统告警产生和处理机制1.1.1告警来源和产生机制1、SYSLOG日志(被动接收方式)通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。
告警采集程序通过rules将SYSLOG日志记录解析为告警记录。
一条典型的华为端口DOWN告警解析过程:Jul 15 19:54:11 133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:Interface Ethernet1/0/5 Turns into DOWN state针对上面的告警,通过rules,主要解析出如下内容告警来源IP:133.63.254.190告警类型:IFNET/5/UPDOWN告警对象:Ethernet1/0/5告警原始级别:5告警描述:Interface Ethernet1/0/5 Turns into DOWN state2、Snmp Trap告警(被动接收方式)告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。
举例说明:10.102.16.2:TRAP[requestID=0, errorStatus=Success(0), errorIndex=0,VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1 = 808584704]]根据中兴提供的TRAP告警定义:(1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。
(2)808584704 代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网管系统告警产生和处理机制1.1.1告警来源和产生机制1、SYSLOG日志(被动接收方式)通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。
告警采集程序通过rules将SYSLOG日志记录解析为告警记录。
一条典型的华为端口DOWN告警解析过程:Jul 15 19:54:11 133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:Interface Ethernet1/0/5 Turns into DOWN state针对上面的告警,通过rules,主要解析出如下内容告警来源IP:133.63.254.190告警类型:IFNET/5/UPDOWN告警对象:Ethernet1/0/5告警原始级别:5告警描述:Interface Ethernet1/0/5 Turns into DOWN state2、Snmp Trap告警(被动接收方式)告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。
举例说明:10.102.16.2:TRAP[requestID=0, errorStatus=Success(0), errorIndex=0,VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1 = 808584704]]根据中兴提供的TRAP告警定义:(1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。
(2)808584704 代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。
解析翻译后的告警如下:告警来源IP:10.102.16.2告警类型:zxAnEponOnuErroredSymbolPeriodEvent告警对象:10.102.16.2告警级别:4告警描述:10.102.16.2 F820(0/4/4/5) : ONU错误符号间隔事件3、网元状态Polling告警(主动检测方式)(1)告警产生采用定期调度(根据设备的重要程度可设定不同的策略)对设备先进行SNMP连接测试,再进行ICMP PING测试:a、如果SNMP Ping不通,ICMP Ping也不通,发送网元中断告警;如果只有SNMP Ping不通,只发送网元不可管理告警b、如果SNMP Ping通,不管ICMP Ping通不通,都不发送任何告警c、如果原来只是SNMP Ping不通,但ICMP Ping也开始不通,再发送一条网元中断告警说明:网元不可管理和网元中断告警,默认只发送一次,不重复发送(即发生次数为1)。
(2)告警恢复对于处于网元不可管理或网元中断状态的设备,同时进行SNMP Ping和ICMP Ping跟踪:a、如果SNMP Ping通,根据设备的告警状态,发送相应的恢复告警,分两种情况:设备只有网元不可管理告警:发送网元不可管理恢复告警设备同时有两种告警:同时发送网元不可管理和网元中断的恢复告警b、如果SNMP Ping仍不通,但ICMP Ping开始通(也就是说原来两者都不通),发送一条网元中断恢复告警。
4、端口状态Polling告警(主动检测方式)端口Polling在端口流量采集时进行(检测周期与性能采集周期相同,5min一次)。
判断标准:本次端口流量采集采到的端口操作状态跟上次采到的端口状态做对比,如果发生了状态变化则发送告警,即:如果是up->down,就发端口DOWN告警;如果是down->up,就发恢复告警。
告警示例:告警类型:端口状态告警描述:如:172.28.12.4 GigabitEthernet0/1/13(端口) 端口down告警级别:严重说明:端口状态告警,只发送一次,不重复发送(即发生次数为1)。
5、性能告警(主动检测方式)告警产生机制:根据性能采集后的数据结果和性能告警设置进行比较,如果满足性能告警设置条件,发送相应的性能告警。
恢复告警:如果发生了“满足性能告警设置条件”->“不满足性能告警设置条件”的变化,则发送相应的恢复告警。
性能告警分类:(1)阈值性能告警:通过阈值设置产生的性能告警(2)基线性能告警:偏离基线时产生的性能告警(3)梯度性能告警:梯度变化满足一定条件时产生的性能告警(4)高级性能告警:满足给定的组合条件时产生的性能告警说明:性能告警,如果满足性能告警设置条件,则每5分钟发送一次,直到告警恢复为至。
6、其它告警:翻转告警、资源预警、进程告警等(主动检测方式)(1)翻转告警:根据翻转设置条件,产生的告警,不能自动恢复。
告警类型为“翻转告警”。
(2)资源预警:根据资源预警设置条件,判断设备的槽位占有或端口利用率是否超过给定阈值,如果超过,则发送相应的资源预警告警。
告警类型为“资源预警”。
(3)采集进程告警:采集进程正常时,能够定时主动发送心跳信息给应用服务器,系统每3分钟检测一次,根据采集进程的心跳信息是否及时更新来判断采集进程是否正常,如果超过设定时间,心跳信息没有更新,则认为进程down,进而产生相应的告警(重复发送)。
如果进程启动,心跳信息恢复,则发送恢复告警。
告警类型为“网管服务进程”。
1.1.2 告警数据处理流程告警从采集,到入活动库,最后进入历史库,这个过程称为告警的生命周期。
采集为始,入历史库为终。
从始到终,其数据流程如下图所示:流程说明:1、 收到的所有SYSLOG 和TRAP 告警都进行记录。
2、 只有SYSLOG 和TRAP 告警需要经过RULES 解析和翻译环节,其它告警来源无此过程。
3、 被RULES 过滤掉的SYSLOG 和TRAP 告警直接丢弃,而非进入历史库,SYSLOG 和TRAP 告警在原始库中可以找到(TRAP 原始报文默认不入库,如果要入库,需要打开进程参数)。
4、 告警先进行重定义,在进行预处理规则过滤,被预处理过滤的告警,直接进入历史库(也可以选择直接丢弃),对应的删除类型为“预处理删除”;没有过滤的告警入活动库,同时发布JMS 消息。
5、 告警是排队入库的,每次从入库队列中取一定数量的告警依次入库。
分为三种情况:(1) 如果活动库中存在相同的告警事件(告警源和事件相同),则进行告警更新(更新发生次数和发生时间);(2) 如果活动库中不存在相同的告警事件,则插入一条新的活动告警记录; (3) 如果告警为恢复告警,则将活动库中对应的告警事件清除,进入历史库。
6、 活动库的告警被删除后,进入历史库。
这里的删除有以下几种情况(1) 界面手工删除恢复过滤 过滤 未通过 告警重定义 历史库活动库 丢弃 解析翻译 封装告警 SYSLOG 主动检测告警:设备PING ,端口Polling ,性能告警,资源告警,拨测告警等 各种规则预处理是 未过滤 未过滤告警接收Socket 服务告警验证 时间窗口处理 告警风暴处理 资源关联通过否 JMS 消息服务AlarmOperator TRAP 原始告警库丢弃对应的删除类型为“用户手工删除”。
(2)自动恢复删除收到恢复告警后,自动与对应的活动告警结对合并,合并后的告警入历史库。
合并后的告警,清除时间为恢复告警的发生时间,清除类型为“自动恢复删除”,其余字段保留原告警信息。
也就是说,恢复告警是与成对的活动告警合并成一条告警后入历史库。
(3)告警条件删除根据在告警设置里设置的定时删除规则,定时删除符合条件的活动告警。
对应的删除类型为“告警条件删除”。
(4)告警过多删除低级告警当活动库的告警超过设置的容量时,系统自动启动的删除低级别(未定和警告)告警的策略。
删除的告警的级别为未定和警告。
对应的删除类型为“告警过多删除低级告警”。
(5)成对合并直接入历史库如果收到的某个告警发生和恢复时间非常接近(1秒左右),入库线程从告警队列里取告警后,发现有这种成对的情况,就不再走活动库而是直接合并入历史库,这种情况下告警删除类型为“成对合并直接入历史库”。
(6)等价告警剔重目前仅适用于端口down告警。
当上来某条端口down告警时,但活动库中已经存在该端口的其它PORT_DOWN告警,则该端口down告警直接入历史库,删除类型为“等价告警剔重”。
1.1.3告警关联机制告警关联机制包括:(1)告警结对清除收到恢复告警后,自动与对应的活动告警结对合并成一条告警,合并后的告警从活动库转入历史库,这种情况下告警删除类型为“自动恢复删除”;(2)告警压缩合并收到告警时,自动与活动库中存在的相同告警事件(告警源和事件相同)进行合并,同时更新告警的发生次数和发生时间;(3)告警合并直接入历史库如果收到的某个告警发生和恢复时间非常接近(1秒左右),入库线程从告警队列里取告警后,发现有这种成对的情况,就不再走活动库而是直接合并入历史库,这种情况下告警删除类型为“成对合并直接入历史库”;(4)告警同源处理目前主要用于端口DOWN告警。
端口DOWN告警的来源主要有SYSLOG和端口状态Polling两种,尽管告警类型在不同的厂商定义中不尽相同,但反映的是同一告警事件,系统把这些告警类型归属到同一个告警类型组“PORT_DOWN”,同一个告警类型组下的告警,认为是等价的。
为避免由于SYSLOG日志缺失或解析规则不完整造成的端口DOWN告警不准确,系统采用了端口状态Polling作为辅助手段,对端口状态事件进行监控,但与SYSLOG告警进行了关联处理。
具体策略:a、PORT_DOWN告警类型组下的所有告警类型,可以互相清除,即对于同一个端口,某个告警类型的恢复告警,可以清除其它PORT_DOWN告警。
b、上来某条端口down告警时,但活动库中已经存在该端口的其它PORT_DOWN告警,则该端口down告警直接入历史库,删除类型为“等价告警剔重”。
c、当活动库中存在某个端口的PORT_DOWN告警,而端口状态Polling检测到该端口的操作状态为up时,则发送端口状态恢复告警,用于清除该端口的所有PORT_DOWN告警。
目前PORT_DOWN告警类型组包括的告警类型:告警类型来源说明端口状态端口状态PollingLINK-3-UPDOWN SYSLOGLINEPROTO-5-UPDOWN SYSLOGLINK_DOWN SYSLOGLINK-SP-3-UPDOWN SYSLOGPKT_INFRA-LINK-3-UPDOWN SYSLOGPKT_INFRA-LINEPROTO-5-UPDOWN SYSLOGIFNET/4/LINK UPDOWN SYSLOGPHY/4/PHY_STA TUS_UP2DWN SYSLOGPKT_INFRA-LINK-5-CHANGED SYSLOGL2INF/5/PORT LINK STATUS CHANGE SYSLOG……每个现场的配置有所不同。