TA000303 光网络设备网上人为重大事故分析ISSUE1.0
网络信息安全中的网络安全事件分析与报告

网络信息安全中的网络安全事件分析与报告近年来,随着互联网的迅猛发展,网络安全问题逐渐成为全球范围内的重要议题。
网络安全事件的频繁发生已经对个人、企业甚至整个国家的信息安全造成了严重威胁。
因此,对网络安全事件的分析与报告变得尤为重要。
本文将从网络安全事件的定义、常见类型、分析方法和报告撰写等方面展开论述,以期为网络安全事件的研究提供一些有益的参考。
一、网络安全事件的定义网络安全事件是指在计算机网络中发生的,有可能泄露、篡改、破坏或失去数据、软件、硬件和网络系统完整性、可用性和机密性的事件。
这些事件可能是恶意的攻击活动,也可能是由于系统的漏洞、错误配置等导致的非意外因素。
二、常见的网络安全事件类型1. 网络入侵事件:黑客通过各种手段,越过系统的防御机制,进入并控制网络系统,获取敏感信息、破坏系统的完整性等。
2. 恶意软件事件:包括病毒、木马、蠕虫等恶意软件的侵入和传播事件,这些恶意软件常常用于窃取敏感信息、破坏系统功能等目的。
3. 社交工程事件:攻击者通过欺骗、诱骗等手段,获取用户的个人信息、账户密码等,从而实施进一步的攻击。
4. 信息泄露事件:组织内部或外部的人员泄露敏感信息,如客户数据、商业机密等,给组织造成巨大损失。
5. 拒绝服务攻击(DoS)、分布式拒绝服务攻击(DDoS):攻击者通过发送大量请求或占用大量系统资源,导致系统无法正常提供服务。
三、网络安全事件的分析方法1. 数据收集:收集与网络安全事件相关的日志记录、系统报告、网络流量数据等,以获取事件的详细信息。
2. 事件分类与整理:对收集到的数据进行分类与整理,确定事件的类型、攻击手法、受影响的系统等。
3. 威胁分析:通过对事件相关数据的综合分析,确定网络安全事件对组织的威胁程度以及可能带来的潜在损失。
4. 溯源追踪:通过对网络日志、系统日志等的分析,追踪攻击者的来源、攻击路径和攻击手法,为后续的应对工作提供参考。
5. 修复与防护建议:根据分析结果,提出相应的修复措施和防护建议,以减少网络安全事件的发生和影响。
网络安全重大事件判定指南

网络安全重大事件判定指南一、网络安全重大事件判定标准1. 关键信息基础设施中断:关键信息基础设施整体中断30分钟或主要功能故障2小时以上。
2. 核心设备渗透控制:关键信息基础设施核心设备已被渗透控制或恶意程序在设施内部大范围传播或设施内部数据批量泄露。
3. 影响人口比例:影响单个地市级行政区30%以上人口的工作、生活。
4. 资源供应影响:影响10万人以上用水、用电、用气、用油、取暖或交通出行。
5. 个人敏感信息泄露:泄露5万人以上个人敏感信息。
6. 直接经济损失:造成5000万元以上直接经济损失。
7. 违法有害信息传播:党政机关门户网站、重点新闻网站、大型网络平台被攻击篡改,导致反动言论或谣言等违法有害信息大范围传播。
8. 门户网站无法访问:地市级以上党政机关门户网站或重点新闻网站受到攻击,导致6小时以上不能访问。
二、网络安全事件分级网络安全事件分为四级:特别重大网络安全事件、重大网络安全事件、较大网络安全事件、一般网络安全事件。
1. 特别重大网络安全事件:包括重要网络和信息系统遭受特别严重的系统损失,造成系统大面积瘫痪,丧失业务处理能力;国家秘密信息、重要敏感信息和关键数据丢失或被窃取、篡改、假冒,对国家安全和社会稳定构成特别严重威胁。
2. 重大网络安全事件:包括重要网络和信息系统遭受严重的系统损失,造成系统长时间中断或局部瘫痪,业务处理能力受到极大影响;国家秘密信息、重要敏感信息和关键数据丢失或被窃取、篡改、假冒,对国家安全和社会稳定构成严重威胁。
3. 较大网络安全事件:包括重要网络和信息系统遭受较大的系统损失,造成系统中断,明显影响系统效率,业务处理能力受到影响;国家秘密信息、重要敏感信息和关键数据丢失或被窃取、篡改、假冒,对国家安全和社会稳定构成较严重威胁。
4. 一般网络安全事件:除上述情形外,对国家安全、社会秩序、经济建设和公众利益构成一定威胁、造成一定影响的网络安全事件。
以上判定标准和分级指南为网络安全事件的管理提供了明确的指导,有助于组织和个人在面对网络安全事件时能够迅速、准确地进行响应和处理。
光传输网络故障维护及案例分析

光传输网络故障维护及案例分析作者:沈晶来源:《科学与财富》2014年第11期摘要:传输系统是通信网络的重要组成部分,它的优劣直接影响着通信网络的发展。
如何在实践中根据设备网管告警及仪器仪表测试,在短时间内恢复故障处理是每一位运行维护人员应具备的基本业务素质。
本文主要讲述理论传输故障处理的一般原则、定位和处理方法及案例分析。
关键词:告警;故障定位;故障处理1 前言光传输设备经过工程技术人员的精心安装、调测,都能正常安全稳定地运行,但有时由于多方面的原因,如受系统外部环境的影响、部分元器件的老化损坏、维护过程中的误操作等,都可能导致传输没备进入不正常运行状态。
此时,如何维护好传输设备,迅速、准确的定位故障点及正确处理传输故障,是我们传输维护人员最关心的问题。
维护人员必须做好以下准备工作:1.1掌握基本专业技能?誗熟练掌握SDH的基本原理。
?誗熟练掌握光网络设备和网管的基本操作。
?誗熟练掌握传输常用仪表的基本操作,光网络设备在维护中常用的仪表包括:2M误码仪、光功率计、SDH分析仪、万用表等。
1.2熟悉网络基本组网信息?誗熟悉网络组网情况。
?誗熟悉网络业务配置。
?誗熟悉设备运行状况。
1.3做好故障现场数据的采集与记录在故障处理过程中,可将现场告警数据进行采集和保存,为快速定位设备故障提供支撑。
故障结束时应将故障时间、现象、原因、分析处理过程及结果等详细信息做记录整理保存,为日后网络维护提供案例及经验。
2 故障定位方法2.1故障定位关键将故障准确定位到单站是故障定位的关键。
光传输网络是由光传输设备以及它们之间的光纤组成,网络中绝大部分的故障是由于网络中某些网元或某段光纤的故障引起,因此如何将故障点定位到某一个特定区域的单个网元是故障定位的关键。
2.2故障定位原则故障定位的一般原则是:“先外部,后传输;先网络,后网元;先高速,后低速;先高级,后低级”。
?誗先定位外部,后定位传输:在定位故障时,应先排除外部的可能因素,如光纤断,对接设备故障或电源等。
网络安全泄露事故

网络安全泄露事故网络安全泄露事故是指在网络使用过程中,由于各种原因导致相关的个人隐私、敏感信息或者商业机密泄露出去的事件。
这类事故给个人和组织带来了巨大的损失,不仅可能导致经济和声誉的损失,还可能对个人隐私和安全造成重大威胁。
2018年,某银行成为了网络安全泄露事故的受害者。
这家银行的网络系统存储了大量的客户敏感信息,包括银行账号、交易记录、身份证号码等。
然而,由于银行网络的漏洞没有及时被发现和修复,黑客成功入侵了系统,并窃取了大量的客户信息。
随后,黑客通过互联网将这些信息公之于众。
这次泄露事故给银行和客户带来了巨大的损失。
首先,银行的声誉受到了严重损害,客户对该银行的信任度大幅降低,导致大量客户流失。
其次,客户个人信息的泄露给他们带来了很大的困扰,甚至一些不法分子利用这些信息实施了违法犯罪行为。
最后,银行不得不面对巨额的赔偿责任,并采取各种措施加强网络安全,增加了银行的成本开支。
这个事例引起了整个社会对网络安全的关注和重视。
人们开始意识到,网络安全不仅仅是IT部门的责任,它事关个人和整个社会的安全。
在这次事件之后,政府对网络安全的监管和控制力度也加大了。
各个企业和组织也纷纷加强自身的网络安全防护措施,提高员工的网络安全意识培训。
因此,网络安全泄露事故不仅是一次痛苦的教训,更是引起整个社会对网络安全问题的高度关注和重视。
每个人都应该意识到网络安全的重要性,时刻保护好自己的个人信息和敏感数据。
同时,企业和组织也应该投入更多的资源和精力来加强网络安全防护,保护自己和客户的信息安全。
网络安全泄露事故给银行和客户敲响了警钟,也给整个社会敲响了警钟。
唯有加强对网络安全的管理、监控和防御,才能确保网络空间的安全和稳定。
只有每个人都积极参与到网络安全防护中,才能共同构建一个安全的网络环境。
电信生产安全事故案例分析教材课件

企业安全管理不到位、安全制 度不健全等管理缺陷也是导危害与影响
人员伤亡
电信生产安全事故可能导致人员伤亡 ,给家庭和社会带来巨大的伤痛和损 失。
财产损失
事故可能导致电信设备损坏、网络中 断或数据丢失,造成财产损失。
服务中断
电信生产安全事故可能导致电信服务 中断,影响用户正常通信,对社会经 济和生活造成一定影响。
定期开展安全生产培训,提高员工的安全意识和技能水平。
建立安全教育长效机制
通过安全教育长效机制,不断加强员工的安全意识,形成良 好的安全文化氛围。
安全检查与隐患排查
定期安全检查
定期对电信生产场所进行安全检查,确保各项安全措施得到有效执行。
隐患排查与整改
及时发现和排查电信生产中的安全隐患,采取有效措施进行整改,防止事故发 生。
演练后进行总结和评估,针对不足之处进行改进和完善。
应急处置流程
总结词:在电信生产安全事故发生后 ,应迅速启动应急处置流程,确保事
故得到及时、有效的处理。
详细描述
事故发生后,立即启动应急处置流程 ,按照预案进行资源调配和人员分工 。
迅速确定事故的性质、影响范围和严 重程度,采取相应的处置措施。
加强与相关部门的协调配合,共同应 对事故。
企业声誉受损
重大或特大电信生产安全事故可能损 害企业的声誉,影响企业形象和市场 竞争力。
02
电信生产安全事故案例分析
电信生产安全事故案例分析
• 请输入您的内容
03
电信生产安全防范措施
设备维护与保养
定期检查设备运行状况
对电信设备进行定期检查,确保设备 正常运行,及时发现并解决潜在问题 。
及时更新换代
随着技术不断发展,及时更新换代电 信设备,提高设备的安全性和稳定性 。
网络安全事故处理与汇报规定

网络安全事故处理与汇报规定1. 引言网络安全事故的发生可能给组织带来严重的损失,因此,制定网络安全事故处理与汇报规定对于保护组织的信息安全至关重要。
本文档旨在规范网络安全事故的处理和汇报流程,以确保组织能够及时、有效地应对和应对网络安全事故。
2. 定义2.1 网络安全事故网络安全事故是指由于计算机网络或系统遭受攻击、病毒感染、数据泄露等事件而导致的信息系统的中断、瘫痪、数据丢失或信息泄露等严重后果。
2.2 网络安全事故等级划分为了更好地评估网络安全事故的严重性,我们将网络安全事故划分为三个等级:- 一级:严重影响组织的信息系统安全和业务运行的事故;- 二级:一定程度影响组织的信息系统安全和业务运行的事故;- 三级:对组织的信息系统安全和业务运行造成较小影响的事故。
3. 处理流程3.1 发现网络安全事故任何人员在发现网络安全事故后,应立即向网络安全部门报告,网络安全部门接到报告后应立即启动事故处理流程。
3.2 事故确认与等级划分网络安全部门应对报告的事故进行确认,并根据事故的严重程度对其进行等级划分。
3.3 事故处理根据网络安全事故的等级,网络安全部门应采取相应的应急响应措施,包括但不限于:- 隔离受影响的系统或网络;- 收集和保留相关的证据;- 进行安全事件分析和溯源调查;- 修复受影响的系统或网络;- 完善安全防护措施,防止类似事故再次发生。
3.4 事故汇报网络安全部门应及时向上级主管部门和相关责任人汇报网络安全事故的情况,包括但不限于:- 事故的等级和严重程度;- 事故发生的时间、地点和影响范围;- 事故的原因和责任追究情况;- 事故的处理措施和效果;- 针对类似事故的改进措施建议。
4. 监督与评估为了确保网络安全事故处理与汇报规定的有效实施,应建立监督和评估机制,包括但不限于:- 定期对网络安全事故处理和汇报流程进行评估,发现问题及时进行改进;- 定期开展网络安全演练,提高网络安全事故应对能力;- 成立网络安全事故应对小组,及时处置网络安全事故。
网络安全意外事故案例分析与教训
网络安全意外事故案例分析与教训随着互联网的发展和普及,网络安全问题日益引起人们的关注。
由于个人隐私、商业机密和国家安全等因素的存在,网络安全意外事故给个人、企业和政府带来了巨大的损失。
本文将通过一些网络安全事故案例的分析,探讨这些事故给我们带来的教训。
首先,让我们回顾一下2013年发生的“目标泄密事件”。
当时,美国最大的零售商之一,目标公司,遭受到严重的网络攻击,导致客户的信用卡信息被盗取。
这次事故让目标公司付出了巨大的代价,他们遭受了数十亿美元的损失。
这个案例给我们的教训是,企业在构建网络安全防御体系时不能掉以轻心。
不仅要有强大的防火墙和入侵检测系统,还需要时刻保持对新兴网络攻击技术的了解,并及时采取相应的防范措施。
接下来,我们来看看2017年英国国家卫生服务系统(NHS)遭受到的网络勒索软件攻击事件。
这个事故不仅影响了英国,还波及到了全球多个国家的医疗机构。
由于网络勒索软件的攻击,NHS的计算机系统瘫痪,导致医院无法运行,患者不能得到及时的医疗救援。
这个案例揭示了一个问题,那就是重要机构和企业需要建立系统备份和紧急恢复计划。
及时备份和恢复数据将起到关键作用,帮助机构在遭受网络攻击后快速恢复正常运营,减少损失。
除了企业和机构,个人网络安全也不容忽视。
就在近几年,我们经常听说通过社交媒体传播个人信息的案例。
许多人无意间泄露了自己的姓名、电话号码、住址等个人敏感信息,给不法分子提供了可乘之机。
这些信息可能被用来实施身份盗窃、恶意欺诈等违法行为,危及个人财产安全和个人隐私。
针对这一问题,我们需要时刻保持警惕,不要轻易在社交媒体上泄露个人信息。
此外,我们还应该定期更改密码并使用复杂的密码组合,以增加账户的安全性。
网络安全事故的案例还有很多,每一个都能给我们带来宝贵的教训。
在随着互联网的不断发展和普及的同时,我们必须时刻保持警觉,采取适当的措施来保护自己的网络安全。
企业和机构也需要不断提升网络安全意识,加强网络防御体系的建设。
网络安全D类事故
网络安全D类事故网络安全D类事故是指网络系统或者网络设备发生的事故,造成轻微的损失,但仍然需要进行处理和解决的情况。
网络安全D类事故相对较轻,但也不能忽视,以下是一个关于网络安全D类事故的案例分析。
某公司的服务器系统在一天晚上突然发生故障,导致公司的业务系统无法正常运行。
经过初步调查,发现这是一次拒绝服务(DDoS)攻击造成的。
攻击者通过大量的虚假请求,使服务器系统过载,导致系统崩溃。
经过紧急修复和数据恢复,系统恢复正常,但公司的业务开销和声誉受到了一定影响。
在进一步的调查中,发现该公司的网络安全措施相对薄弱,没有有效的入侵检测和防护系统。
攻击者利用这一漏洞进行了DDoS攻击。
另外,公司员工的网络安全意识也较低,存在密码泄露、使用弱密码等情况。
这给攻击者提供了便利。
为了应对这一事件,公司采取了一系列措施。
首先,公司增加了网络安全投入,更新了服务器系统,在系统层面加强了安全防护措施,例如安装入侵检测和防护系统、加强访问权限控制等。
其次,公司进行了员工网络安全意识教育培训,提高员工对网络安全的重视和防范意识。
同时,公司建立了网络安全检测和监控机制,及时发现和应对任何潜在的安全风险。
通过以上措施的实施,一段时间后,公司的网络安全问题得到了有效解决。
系统再次发生类似的网络安全D类事故的概率大大降低,公司的业务和声誉也得到了恢复。
同时,公司也认识到网络安全的重要性,加大了网络安全投入,建立起了完善的网络安全体系。
网络安全D类事故虽然相对较轻,但也不能掉以轻心。
例如,公司的业务系统无法正常运行,可能会导致公司的业务受损,造成经济损失。
另外,由于信息泄露等原因,公司的业务和客户数据可能被盗取,造成严重的后果。
因此,任何一起网络安全事故都应该引起足够的重视,并采取相应的措施防止和解决类似事件的再次发生。
2023年注册网络工程师考试真题(事故案例分析)
2023年注册网络工程师考试真题(事故案例分析)简介本文档旨在对2023年注册网络工程师考试中的一道事故案例题进行分析和解答。
通过对该事故案例的详细讨论,可以帮助考生更好地理解网络工程中可能发生的问题和解决方案。
案例描述请根据以下案例描述,回答相应的问题。
案例:某公司网络故障某公司的网络在一个工作日的下午突然出现了故障,导致全公司无法正常上网和访问内部系统。
经过初步排查,发现是路由器发生故障,导致网络中断。
以下是相关信息:- 故障发生时间:2023年5月10日下午3点- 故障持续时间:约2小时- 影响范围:公司内部所有员工和部门- 预估经济损失:每小时约10万人民币问题:1. 故障发生后,公司的应急响应团队应该采取哪些措施来解决网络故障,并恢复正常工作?2. 怎样避免类似故障再次发生?请提出一些建议。
解答问题1:应急响应和故障恢复在故障发生后,公司的应急响应团队可以采取以下措施来解决网络故障,并尽快恢复正常工作:- 备份恢复:首先,应该检查网络设备的备份设置,如果存在备份,可以尝试将备份数据恢复到新的路由器上。
- 组件替换:如果备份恢复不可行,应立即采购新的路由器,并将故障设备替换掉。
在替换过程中,需要确保其他网络设备的正常运行。
- 故障排查:一旦网络恢复,应对故障原因进行详细的排查。
这可能涉及网络设备硬件故障、配置错误、软件问题等多个方面。
- 日志分析:通过分析网络设备的日志,可以进一步了解故障原因,并采取相应的措施来避免未来类似故障的发生。
问题2:预防措施为了避免类似故障再次发生,可以考虑以下建议:- 定期备份:定期对网络设备进行备份,并确保备份数据的完整性和及时性。
在发生故障时,可以快速恢复到之前的工作状态。
- 设备监控:使用设备监控工具对网络设备进行实时监控,及时检测并解决潜在的问题,以防止大规模故障的发生。
- 维护与更新:定期维护网络设备,包括对硬件进行检查和更换老化部件,以及对软件进行升级和修复已知漏洞。
网络安全突发事件处置
对社会秩序的影响
可能导致社会恐慌,影响社会 稳定和公共安全。
对公共利益的影响
可能导致公共服务中断,影响 公众的正常生活和工作。
对个人安全的影响
可能导致个人信息泄露,威胁 个人隐私和财产安全。
02
网络安全突发事件的预防
安全漏洞扫描与评估
定期进行安全漏洞扫描
制定风险控制策略
根据风险评估结果,制定相应的风险控制策略,包括访问控制、数据加密、安全审计等方面的措施。
安全策略制定与实施
制定安全策略
根据组织的安全需求和风险承受能力,制定相应的网络安全策略,明确安全目标、责任 和要求。
策略实施与监督
确保安全策略得到有效实施,并对实施过程进行监督和审计,及时发现和纠正不符合安 全策略的行为。
THANKS
感谢观看
案例三:数据泄露事件
数据泄露事件是指敏感信息被非法获取和传播,可能导致用户隐私泄露和企业声 誉受损。
处置建议:立即停止数据泄露源,对已泄露的数据进行加密或删除处理;同时启 动内部调查,查明原因并加强安全措施。
案例四:钓鱼攻击事件
钓鱼攻击是一种网络欺诈行为,通过伪装成合法网站或邮件 诱骗用户点击恶意链接或下载病毒。
协作配合
加强与相关部门的协作配合,共同应对网络 安全突发事件。
社会舆论引导
通过媒体等渠道及时发布权威信息,正确引 导社会舆论。
总结反馈
对处置工作进行总结反馈,向上级主管部门 汇报,提出改进建议和意见。
04
网络安全突发事件的恢复
数据备份与恢复
要点一
数据备份
定期对重要数据进行备份,确保在发生安全事件时能够快 速恢复数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
光网络设备网上人为重大事故分析目录序言 (1)第1章误操作 (1)1.1 光缆错连导致的全网业务中断 (1)1.2 未成环由于复用段协议启动使业务中断 (4)1.3 更改2500+高阶开销穿通模式导致过环业务中断 (6)1.4 时钟级别设错导致断纤后出现时钟互锁使基站中断 (8)1.5 网管误做VC4环回导致业务和ECC中断 (10)1.6 网管误操作导致复用段节点参数设置错误 (12)第2章违反日常维护建议 (14)2.1 PGND接地不良造成单板频繁损坏 (14)2.2 备份网管与网元数据不一致下载后业务中断 (16)2.3 风扇长期未清扫设备产生大量误码引起业务中断 (18)2.4 换纤时没有注意光衰减器导致光功率过载出现误码 (20)2.5 老鼠咬断光纤导致业务中断 (22)序言本手册中涉及到的案例,主要是针对目前网上运行的华为光网络设备在日常运行过程中,由于维护人员在进行维护操作时违反日常维护建议或操作规范而引发的重大事故,在这里,我们的侧重在于以下几方面:1、规范性:涵盖工程安装(包括相关设备如电源、空调、中继电缆的布放等)的规范性和日常维护操作的规范性;2、安全性:设备安全性的规范要求,如防雷接地是否符合要求,达到标准等;3、事故处理方面:这主要是指在事故发生后,我们怎样才能提高事故的处理速度,如寻求技术支持及加强沟通协调,将事故的影响降低到最低程度。
至于设备或版本等问题,我们在其他教材如《故障分析处理》中都有较多详细的论述。
我们将网上日常操作维护中的重大事故汇集于此,是基于“前车之鉴,后事之师”的考虑,希望借助这本案例集,能使大家从中得到借鉴,能在以后的工作中关注这些容易导致事故的因素,加强操作维护的规范性,以降低这类事故的发生或提高这类事故的解决速度。
这些事故既有人为因素,也有因为其它相关设备(如电源等)以及天灾等方面的因素,这些因素有些是不可避免的,但有些是可以通过我们加强规范维护操作,是可以将发生事故的几率降低的。
如雷击,大部分是因为中继线布放不规范、电源接地不符合规范等因素所致,虽然雷击本身不可避免,但如果我们在工程中严格遵循防雷规范,则雷击的几率肯定是可以大幅度减少的。
此外,这本小册子中的案例是2001年网上发生的实例,我们没有注明事故发生的具体时间、地点等信息,重点在于说明发生事故的主要原因以及对我们的借鉴意义。
如果在以后还有其他类型的事故出现,我们会及时补充进去,归整到华为技术支持的网站,大家可以随时从上面下载最新的案例。
第1章误操作1.1 光缆错连导致的全网业务中断【事故级别】三级重大事故【系统概述】某用户使用华为公司20多套OptiX155/622设备组成一通道保护环,集中型业务。
在工程中主站一侧最后一段光缆未好,全网处于倒换状态,支路显示PS告警,业务正常。
【故障现象】某天下午,光缆施工完毕,将最后一段光路打通,业务正常。
10分钟后,全网业务中断。
【故障分析及排除】将该段尾纤拔掉,业务立刻恢复正常。
可见为主用通道故障,再次检查配置,无问题;怀疑交叉板故障,因网上有业务,不便处理;后想到用户方面原因,可能为最后一段光缆接错,让用户仔细检查,确实为光缆接错。
【事故原因】通道环原来处于倒换状态,业务正常。
当最后一段光缆连好,因光缆连错且该段光缆恰为我司另一个环的光缆,含有正常光信号,光板无法分辨是否为正确的光信号,RLOS告警消失,不再下插AIS,支路检测不到TU-AIS,根据通道倒换原理,10分钟后选收主用通道。
但因为此时光缆接错,主用通道中无正常的业务信号,故实际业务中断且网上无任何告警。
【事故总结】光缆接错是用户在升级扩容和熔接光缆时最常见问题,其原因一般多为连接光缆时太随意或光缆没有按照维护要求粘贴标签;这类事故发生后通常会造成大面积的业务中断,酿成重大事故。
这里从维护的角度,向维护人员说明讲解一下这类故障的现象与常用定位故障的方法。
1)当此类事故发生后,一般表现的现象;a、组网为通道保护环:如果光纤自环或连接错误,不会有什么异常告警,但在光缆连接正常十分钟后业务会中断;因为此时断纤西向的站点会默认为主环光路恢复正常,而把备环的业务倒回倒主环,导致业务中断。
b、组网为复用段环:如果光纤自环或连接错误,光板上的R-LOS告警消失,但全网仍处于复用段保护倒换状态下,业务没有中断;由于光纤连接错导致断纤两端的网元无法从短径正常收发K1K2字节,因此复用段保护环始终处于保护倒换状态下,无法恢复。
2)预防措施:在进行光缆操作之后,网管维护人员应确认光缆是否存在连接错误的现象,防止事故隐患。
如何定位光缆是否连接错误a、用网管检查ECC通道是否正常,判断光缆是否接错:正常情况下,ECC路由应该走最短路径,并且其每个DCC通道的收发字节应在同一数量级;b、用网管向光板下插MS-RDI告警,通过查询下游站对应光板的告警信息来判断光缆连接是否正确。
注意:由于MS-RDI告警也是通过更改K1K2字节实现的,所以在复用段环情况下,可能会导致复用段倒换异常!!!c、用网管软件更改线路板的J1字节,通过查询下游站的告警信息是否上报HP-TIM告警来判断光缆连接是否正确。
(由于HP-TIM告警可能会下插AIS,此方法不适用于OptiX155/622设备的老子架,在OptiX 系列设备与其他厂家设备进行对接时也不推荐使用此方法)1.2 未成环由于复用段协议启动使业务中断【事故级别】三级重大事故【系统概述】某工程由OptiX 2500+设备组成STM-16双向复用段保护环,1号站接网管,组网如图所示。
由于5号站和6号站之间的光缆可能很长时间不能到位,在开局时按复用段配置,但停止了复用段协议。
各个站到1号站都有业务。
【故障现象】某日,维护人员在网管上增加3号站到1号站之间的业务,对1、2、3号站的配置进行了修改。
配置修改完成后,交换机房反映4、5、6、7号站的业务出现了中断。
【故障分析及排除】查询告警,发现1号站对应于4、5、6、7号站的业务出现了TU-AIS 告警,而且1、2、3号站出现了PS告警。
检查复用段状态,发现1号站为“倒换西向”、2号站为“穿通”、3号站为“倒换东向”。
将1、2、3号站的复用段协议停止后,业务恢复正常。
【事故原因】由于修改配置导致了复用段协议的异常启动,影响了业务。
修改配置主机要进行校验,会使复用段协议自动重新启动。
如,1号站复用段协议启动时,由于其两侧的站复用段协议是停止状态,1号站发出的用于检测环路是否正常的K字节在环上不能穿通回到1号站,而且其它站对1号站发出的K字节也不会有响应,这种情况下1号站认为两侧网元失效,1号站协议启动并进入双端失效的状态,双端失效并不会改变交叉板的数据。
但在2号站协议启动时,由于1号站收到了2号站的K字节,1号站认为其东向正常会进入倒换西向,将导致1号站西向工作通道上的业务甩开,而且2号站也进入倒换东向。
在1、2、3号站协议都启动后,将出现1号站倒换状态为“倒换西向”、2号站为“穿通”、3号站为“倒换东向”的现象。
【事故总结】在主机复位、掉电重起、重新配置的情况下都可能导致复用段协议自动启动,由于这些情况很难预料,目前华为公司的工程规范要求对于没有成环的网络按链配置。
1.3 更改2500+高阶开销穿通模式导致过环业务中断【事故级别】三级重大事故【系统概述】某工程组网如下图所示,由4个OptiX 2500+设备组成STM-16双向复用段保护环。
在1号站和3号站之间有一条155M业务,此业务在2号站穿通。
在1号站和3号站分别用SQ1板与A厂家的SDH设备对接,开通过OptiX 2500+环的业务。
A【故障现象】某日维护人员在OptiX网管上操作,对网管的一些功能进行验证时,忽然交换机房反映A设备经过OptiX 2500+环的过环业务中断。
维护人员在A的网管上检查发现A1、A2设备与OptiX 2500+ SQ1板对接的155M光板上有HP-TIM告警。
【故障分析及排除】维护人员用网管对3号站的SQ1光板相应光口作内环回,在1号网元挂表进行测试,发现正常,基本排除OptiX 2500+的设备VC4不通导致业务不通。
因为A1、A2设备上报HP-TIM告警,而且A设备在J1失配的情况下会下插AIS导致业务不通,可以认为是J1字节失配导致了业务的中断。
检查A1、A2设备实际接收的J1字节内容,发现为“HuaWei OptiX”,是OptiX设备缺省的J1字节内容。
由于OptiX 2500+上测试该VC4业务是正常的,而正常情况下OptiX 2500+的高阶开销是穿通模式,A1、A2设备的高阶开销通过OptiX 2500+环时能够互相实现透传,出现HP-TIM有可能是此VC4业务在某个OptiX 2500+网元上被设置为开销终结模式。
逐步检查1、2、3站各光板相应VC4的开销模式设置,发现2号站东向光板相应VC4的开销穿通模式被设置为终结,重新设置为开销穿通后,业务恢复。
【事故原因】由于维护人员修改了OptiX 2500+的开销穿通模式,通过查看网管上的操作记录证实了这一点,而A设备在J1字节失配情况下下插AIS 导致了业务中断。
【事故总结】OptiX 2500+将VC4级别业务的高阶开销自动设置为穿通模式,方便了不同厂家设备之间的对接,尤其是能顺利实现与ATM/IP业务的开通对接。
如果错误的修改了开销穿通模式,对高阶业务会影响开销的透传。
在进行STM-N口对接时,某些厂家的设备,当检测到J1或C2字节与期望值不一致时,缺省会下插AIS,导致业务中断。
而OptiX设备在缺省情况下,J1失配不会下插AIS,如果需要下插AIS可以通过软件设置来实现。
对VC4级别业务,在SDH的高阶开销无论是处于穿通还是终结的模式下,用仪表测试结果都能显示正常的原因是仪表没有处理高阶开销失配。
时钟级别设错导致断纤后出现时钟互锁使基站中断【事故级别】三级重大事故【系统概述】某工程组网如图1所示,4个OptiX 设备组成单向通道保护环,1号站为中心点,集中型业务,2、3、4号站西向跟踪1号站的时钟。
网管为NES网管。
【故障现象】某日,2号站与3号站之间发生断纤,业务正常倒换未受影响。
30分钟后,3号站和4号站所带基站业务中断,但3号站和4号站所带的交换等业务未受影响,光纤恢复后,所有业务自动恢复。
为定位故障,在光纤恢复后,维护人员模拟断纤倒换,故障现象再现。
检查告警和性能数据,发现除大量的指针调整事件外,未发现其他异常告警和性能事件,光纤连接正常后,所有告警和性能事件消失。
【故障分析及排除】从指针调整事件上分析,在2号站与3号站断纤后,3号站和4号站与1号站不同步,导致频繁发生指针调整。
查询各站当前跟踪源:进入NES网管的“配置/时钟板/同步状态”菜单,查询各个站的当前时钟源。