最全的网络故障案例分析及解决方案

第一部:网络经脉篇2

[故事之一]三类线仿冒5类线,加上网卡出错,升级后比升级前速度反而慢2

[故事之二]UPS电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网络变慢、数据出错4

[故事之三]光纤链路造侵蚀损坏6

[故事之四]水晶头损坏引起大型网络故障7

[故事之五] 雏菊链效应引起得网络不能进行数据交换9

[故事之六]网线制作不标准,引起干扰,发生错误11

[故事之七]插头故障13

[故事之八]5类线Cat5勉强运行千兆以太网15

[故事之九]电缆超长,LAN可用,WAN不可用17

[故事之十]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网18 [故事之十一]网线共用,升级100Mbps后干扰服务器21

[故事之十二]电梯动力线干扰,占用带宽,整个楼层速度降低24

[故事之十三]“水漫金山”,始发现用错光纤接头类型,网络不能联通27

[故事之十四]千兆网升级工程,主服务器不可用,自制跳线RL参数不合格29

[故事之十五]用错链路器件,超五类线系统工程验收,合格率仅76%32

[故事之十六]六类线作跳线,打线错误造成100M链路高额碰撞,速度缓慢,验收余量达不到合同规定的40%;34

[故事之十七]六类线工艺要求高,一次验收合格率仅80%36

第二部:网络脏腑篇39

[故事之一] 服务器网卡损坏引起广播风暴39

[故事之二]交换机软故障:电路板接触不良41

[故事之三]防火墙设置错误,合法用户进入受限44

[故事之四]路由器工作不稳定,自生垃圾太多,通道受阻47

[故事之五]PC机开关电源故障,导致网卡工作不正常,干扰系统运行49

[故事之六]私自运行Proxy发生冲突,服务器响应速度“变慢”,网虫太“勤快” 52

[故事之七]供电质量差,路由器工作不稳定,造成路由漂移和备份路由器拥塞54

[故事之八]中心DNS服务器主板“失常”,占用带宽资源并攻击其它子网的服务器57

[故事之九]网卡故障,用户变“狂人”,网络运行速度变慢60

[故事之十]PC机网卡故障,攻击服务器,速度下降62

[故事之十一]多协议使用,设置不良,服务器超流量工作65

[故事之十二]交换机设置不良,加之雏菊链效应和接头问题,100M升级失败67

[故事之十三]交换机端口低效,不能全部识别数据包,访问速度慢70

[故事之十四]服务器、交换机、工作站工作状态不匹配,访问速度慢72

第三部:网络免疫篇75

[故事之一]网络黑客程序激活,内部服务器攻击路由器,封闭网络75

[故事之二]局域网最常见十大错误及解决(转载)78

[故事之三] 浅谈局域网故障排除81

网络医院的故事

时间:2003/04/24 10:03am来源:sliuy0 整理人:蓝天(QQ:12015152)

[引言]网络正以空前的速度走进我们每个人的生活。网络的规模越来越大,结构越来越复杂,新的设备越来越多。一个正常工作的网络给人们带来方便和快捷是不言而喻的,但一个带病

工作的网络也常常给人带来无穷的烦恼甚至是巨大的损失。网络世界中最忙乱、心里最感底气不足的人恐怕要数网络管理人员和运行维护人员了。他们时时刻刻都在为他们的网络担心,病毒、黑客、速度变慢、网络崩溃....

[小康档案]:三年前负责管理Coneill公司,一家快速成长的公司的网络,曾自认为是NT和Novell、Unix等平台以及Oracle方面的专家,擅长协议分析和网管软件的使用,每天忙于安装设置不断加入网络的设备和系统,应付不断增加的各种意外事件、报警和陷井,处理网络设备经常性的增加、删除、更改和系统设置、连接等方面的故障和问题。至于如何提高网络的运行效率、如何合理调整网络流量并配置网络设备、如何防止网络问题的发生、如何采用宽带网络设备组网及应用等则基本上无暇顾及。一年前,小康从网络健康学院毕业后到网络医院就职,负责网络的体检(测试)和故障诊断,专门为哪些网络发生严重问题的“病人”提供帮助。现在他已经是一位经验丰富的网络健康维护的医生,巡诊故事多多。

第一部:网络经脉篇

[故事之一]三类线仿冒5类线,加上网卡出错,升级后比升级前速度反而慢

[症状]今天是我第一次巡诊,病人抱怨他的大多数站点上网连接速度比系统升级前还慢,有的站点时断时续,有的则根本不能上网。原来用的是10M以太网,工作非常稳定,性能优良。升级后全部更换为100M系统,出现上述症状。用户总数未有增加,也没有启用大型软件或多媒体应用软件。重装系统软件、应用软件,重新设置服务器和网站,查杀病毒,Reset 所有联网设备均不奏效。其中,有两台机器换到另一地点后能基本正常工作。用笔记本连接到这两个不正常链路的集线器端口上网,也能正常工作。更换这两根网线后现象依旧。将机器还原到原位置,更换网卡(原卡商标为3COM卡)后恢复正常,不知何故。由于以太网大多数用户不能工作,只好暂时退回到10M以太网系统。

[诊断过程]从10M系统的网管上观察,网络的平均流量为3%,低于40%,由于未运行大型软件和多媒体软件,应该不会感到任何速度上的“折扣”。将FLUKE的F683网络测试仪接入Hub端口,测试网络流量为35%。碰撞率为23%,远远高于5%的健康标准。报告的错误类型有:延迟碰撞、FCS帧错误、少量本地错误。基本可以断定是布线系统的严重问题。遂对线缆进行测试,结果显示除了测试点的两根电缆线外,其余所有布线链路的衰减和近端串扰均不合格,用3类标准测试这些电缆则显示全部合格。查看线缆外包装上印有Lucent Cat5的字样,可以断定是仿冒产品。测试

两台工作站的链路长度分别为78米和86米,测试其网卡端口,显示网卡发射能力(信号幅度)不足,并且仪器上没有内置的3COM厂商标记显示。

[诊断点评]用3类线外覆5类线产品标记在假冒伪劣产品中为数不少。用户在10M以太网环境中不会出现应用上的问题,一旦升级到100M环境在只有少数短链路能勉强使用。对于两台更换地点后能正常工作的网站,查明链路长度只有3米,且为标准的5类线(平时此站点用于临时测试)。原地点测试长度为45米和37米,由于网卡发射能力弱,信号在100M 系统衰减大,造成上网困难。改在3米链路连接时,衰减的影响小,故可以正常上网。网卡测试显示为仿冒卡。

[后记]一个月后,“病人”打电话告述我,重新布线后网络工作完全正常,即使跑一些多媒体软件也丝毫没有停顿的感觉。不好的消息是,原来的系统集成商已不知去向,无法索赔了。

[故事之二]UPS电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网络变慢、数据出错

[症状]今天的病人是一家著名的证券公司。上午9:45,用户来电请求紧急救援,说大户室中的一群声称遭受巨额无端损失的愤怒的股民们正聚集在营业部计算中心的机房门前,质问为

什么实时交易的动态信息显示屏幕出现大片空白,数据刷新和交易的速度都极慢,且经常中断,根本无法进行交易。扬言如果不立即恢复交易,将砸掉证券交易所的计算机。交易大厅的散户门也开始向机房云集,如果不及时处理,情绪激动的股民们很可能真的会将营业部计算中心的网络设备砸个希巴烂。放下电话直立即直奔该营业部,途中继续用移动电话了解得知,该网络为10M以太网,用户数为230个。从卫星接收广播的行情数据,并回传交易信息。由于从卫星接收机监测口观察接收数据完全正常,故网管人员初步判定是网络系统的问题。两个月前就开始有传输数据错误的现象出现,有时数据更新出现空白,数据更新速度偶尔变慢,有时出现断续。虽用网管和协议分析仪检查过,但因这种“症状”并不连续出现,且对网络的速度和股民的交易基本没有影响,故一直心存侥幸,没有彻底查找真正的故障根源。前天参加“第二轮证券系统Y2K统一认证测试”,顺利通过。利用剩余时间对硬件设备进行了检测和维护,之后进行联网检查,网络表现正常。不料今天开市就出现严重问题。

[诊断过程]用F683网络测试仪监测网络30秒,观察网络流量为81%(但网管报告为0.2%),错误帧97.6%。错误类型为Ghosts(占93%)、FCS错误(又称CRC错误)和Jabber,即幻象干扰、帧校验错误和超长帧,这表明网络中有大量的非法数据包存在。此类症状一般以电磁干扰和接地回路方面的问题居多。为了确定干扰源的准确位置,将大部分与工作站相连的集线器组电源关断,服务器继续工作,观察错误率降为87%,仍然很高。重新打开集线器组电源,用F43电源谐波测试仪观察,发现谐波含量严重超标(最高970mV)。该网络用一台大型UPS电源给所有网络设备供电,测试UPS输入电源谐波,约为输出电源谐波含量的30%,明显低于输出端的指标,断定为内谐波含量超标。启动小型备用UPS后,网络恢复正常工作(为减少负荷,网络设备分批轮换接入),但网络测试仪显示仍有错误存在,错误率(幻象干扰)下降为1.3%。再次关断集线器组的电源,类型为Ghosts的幻象干扰错误率下降为0.8%,证实仍存在由接地回路串入的幻象干扰,且应该是从主通道进入。摇动卫星接收机的数据输出电缆,幻象干扰时有时无,拔下电缆则干扰消失。网管人员回忆前日维护机器时曾动过该电缆。由此造成连接不良。为使股民能继续交易,稳定情绪,在更换电缆后又将原UPS启动继续工作提供服务。收市后再更换大型UPS,故障彻底排除。

[诊断点评]故障原因有二,一是UPS对电源的净化能力下降,网络外谐波容易从电源系统串入网络系统,为重大故障的发生提供了基础,但只是累积的内谐波超标还不足以引发致命问题。二是接地回路问题,给大量的内谐波串入网络提供了通道。内谐波是指从电源净化设备的输出端比如UPS的输出端测得的谐波功率,由各种用电设备产生(网络设备绝大多数都采用开关电源,本身就是一个较大的谐波源)。本案中,大量的内谐波功率叠加后从卫星接收机数据输出电缆串入交易网络,一方面以幻象干扰的形式侵蚀网络带宽(此时网络测试仪监测到的错误类型即为Ghosts),当以太网的网络总流量高于80%时,会导致绝大多数的网络瘫痪;另一方面,串入的内谐波将干扰正常数据传输(与正常的卫星广播数据叠加,表现为FCS帧错误和少量长帧),使卫星接收机接收到的数据出错,显示屏出现大片空白或不能实时更新数据。本故障为累积故障,两个月前因UPS性能下降就开始出现少量干扰超标,不过这没有引起网管人员的足够重视。前天维护设备后又增加了电缆接地回路的干扰问题。但因当时未将卫星接收机连入网络,网管人员仅检查了网络部分的工作状况,所以此时的网络表现肯定是正常的。直到今天临近股市开市,当接通卫星广播数据的输入通道时,问题才爆发出来。此时内谐波干扰信号大举入侵网络,几乎造成网络瘫痪。

关断集线器组电源,内谐波总功率下降,干扰信号强度减弱,错误率自然有所下降。更换UPS电源后,错误率大幅下降(理论上应降为零)。但因接地回路问题使50Hz电源及其高次谐波感应信号仍能进入网络形成较小数量的错误帧。需要注意的一点是,一般人在更换UPS 后看到网络恢复正常工作即认为故障已经排除,因此很容易忽视仪器监测指示仍存在的少量错误(1.3%),这可能使“接地回路问题”这一重大故障隐患得以长期存在下去。

此故障的诊断网管系统基本上无能为力。

[建议]电源谐波功率含量和网络错误率要定期测试,当发现错误帧时一定不要掉以轻心。另外,一路电源能带动的工作站建议不要超过30台,否则应象划分网段那样重新划定供电区域。以免内谐波功率累积过大,超过设备的容许范围。如果您的网络可靠性要求很高,或者您的网络对您来说非常重要,那么建议您将主要的网络设备如服务器、路由器等,在网络规划设计时就选择由单独的UPS供电。

[故事之三]光纤链路造侵蚀损坏

[症状]周末,要下班了,我正在计划如何安排假期,接某银行来电,报告该行某支行下辖的西区营业部网络瘫痪,营业部所管理的33台ATM取款机也全部不能提供取款服务,用户反响强烈。已经两天了,解决都没有问题,要求网络医院立即派人帮助排除。

西区营业部和支行在同一个大院的两幢大楼内,之间用一对90米的光纤将营业部的网络与支行的网络连接起来,路由器、服务器等都设在支行计算中心(100BaseT以太网)。营业部的网络结构为10BaseT以太网,五天前发现网络速度变慢,用户抱怨ATM取款机等待时间太长。由于营业部没有配备任何网络测试和维护的工具,为了定位故障,请支行计算中心的网管人员协助检查。从支行一端的网络监测显示,一切正常。从计算中心打开营业部交换器的Mib,观察流量正常,为5%,发现只有很少量CRC/FCS错误,没有发现严重异常,用协议分析仪捕捉数据包观察,也未发现严重的问题,遂怀疑是病毒侵害营业部子网。昨日夜间进行了查杀病毒,重装系统,恢复数据等工作,症状大大减轻。但未能经受住昨夜暴风雨的考验(本周天气除昨天下午间晴外,连续降雨),最终于今晨“死网”。

为便于观察,支行网管人员在计算中心将连接营业部的交换机用集线器暂时取代,结果导致支行网络速度也变慢。检查营业部内的交换数据无障碍,断定是传输通道的问题。拔下光纤,支行速度恢复正常,插上光纤则上述现象重新出现。进一部测试光纤链路,连接和衰减均符合要求。故障排除工作陷于停顿。

[诊断过程]据网管人员介绍的上述情况,光纤和交换机已经过了网管人员初步检测,基本正常。可以初步判定问题出在链路通道上。将F683网络测试仪接入营业部交换机,观察网络基本正常。进行通道测试,检测营业部到支行的ICMP Ping测试结果,成功率约0.8%,路由追踪支行服务器,成功率约0.5%。从支行集线器上观察,流量18%,属正常范围,但发现大量“幻象干扰”错误“Gosts”(16%),拔除光纤,则错误为0%,至此可以肯定错误与营业部网络及其通道有关。将营业部与支行连接的交换机接口串入一个4端口的集线器,用F683网络测试仪观察网络,流量5%,发现大量幻象干扰(97%),拔除光纤,错误消失。寻找光纤接线箱,发现支行一侧的接线箱外包装已被撞击变形、破损(据说是半年前安装空调时被吊车臂碰坏),雨水已将3号接头完全浸蚀(3号接头用于连接营业部)。清洁接线箱内的所有光纤接头,用电吹风加热干燥光纤的插头插座,重新更换并密封接线箱,故障彻底消失。[诊断评点]光纤链路经常被忽视。本故障中,光纤接头因雨水侵蚀和污染,从营业部送来的信号被大量反射,此时若只测试光纤链路的物理性能是合格的。但由于此段光纤只有90米,强反射信号经过较少的衰减后与正常信号叠加,破坏了数据的结构(包括数据帧帧头信号格式),网络测试仪即认为这是幻象干扰信号而不是正常的数据信号。此时只有少数信号可能侥幸通过。由于集线器和交换器不具备前期碰撞的识别能力,所以从网管上只能观察到数据帧后半部分被破坏后所表现出来的少量FCS/CRC类型的错误,此错误往往被人忽视。

昨天重装系统后因天气转晴,光纤接头性能有所好转,症状减轻。昨夜暴雨又使网络陷入灾难境地。加上今天测试光纤链路显示正常,致使故障排除陷于停顿,束手无策。

[建议]交换器对均衡网络负荷、隔离故障网段对网络的影响有很好的效果,但也因此经常成为网管系统监测中的“黑洞”。用网络测试仪定期监测网络可以将故障消灭在萌芽状态之中。

定期测试分很多种,我们将在以后的连载中陆续介绍。本故障如不及时处理,其它光纤接头连接的网络也会陆续出现严重问题。

[故事之四]水晶头损坏引起大型网络故障

[症状]某大公司IT经理黄先生是我的朋友,新年将近,喜事却不多。今天来电要求帮忙查找“元凶”。

事情是这样的,公司规模发展很快,两周前对网络实施了一次比较大的扩容工程,新增加了200台工作站(为新员工配备),网络规模由2000个站点增加到2200个站点,全部在一个网段中。该公司采用100BaseT以太网结构,用两个路由器实现与生产基地和开发基地的连接(新换2个155ATM骨干),以前我曾建议他们将网段划分小一些,以便管理和隔离故障,但因网络未出现什么大的故障,加上黄先生本人的丰富经验和自信以及维护经费未落实等原因,网络一直保持了这种大型网段的“危险结构”。这次扩容同时将两条广域网骨干链路升级到155ATM,但网段结构仍然未作根本调整,计划留待下期工程时再作打算。本周内网络已多次出现阻塞现象,每天至少两次,每次阻塞时间10~30分钟不等。逐个仔细检查了新安装的200台工作站,没有发现任何问题。由于故障不是持续存在,Boss催得又紧,故令黄先生颇有些“精疲力尽”的感觉。

[诊断过程]上午10:00,打开路由器的MIB库,记录的参数基本正常,网络平均流量13%。其中有约1.5%左右的碰撞,表明网络结构的绝大部分构件是好的。给新增加的200台工作站Share一个软件,然后每40台一组同时下载并操作该软件,结果证明200台工作站工作基本正常。将F683网络测试仪接入网络,同时将F693网络流量分析仪也接入网络进行监测。下午14:21分,网络阻塞现象出现,持续时间15分钟,F693流量分析仪监测的流量正常,平均流量从9%上升到13%,一分钟后下降为8%,但F683网络测试仪的流量报告为84%左右,其中碰撞帧占82%~87%,少量FCS损坏帧(约2%~4%左右)。记录该时间前后的Protocol Matrix协议对话图谱,发现在15分钟阻塞时间内

共有137个工作站曾发送或接收过数据,其中4个工作站一直在持续收发数据,有一个工作站发送的数据包流量一直占其它工作站流量总和的15倍左右。幸好黄先生以前对站点的Mac地址做过文档备案,依据仪器显示的Mac地址我们立即确定了这4个工作站的使用者(流量最大者是财务科陈小姐的地址)。随即询问他们最近有无更动过硬件和网线,有无增删或调整过软件,回答均是“没有”。询问陈小姐刚才在使用何种软件与生产基地的小张联络(Protocol Matrix协议矩阵指示为小张的工作

站)。回答是“机器一直就连在网上,但刚才没有使用计算机”。将网络测试仪连接到陈小姐的台式机网卡接口上,模拟发送流量,结果碰撞随流量的增加而大幅增加。测试该链路的网卡和网线,显示插头为3类插头,链路近端串扰超差比较多。重新更换5类插头后,网络恢复正常。

经过私下再三询问原因,陈小姐才道出了实情。

[诊断评点]本故障是由更换不适当的3类插头引起的。新员工小张是陈小姐的多年不见的同学,也是个网虫。此次与陈小姐在新公司相遇,自然倍感亲切。一周前小张在帮陈小姐安装新声卡时不慎将插头损坏,随意用一个3类插头更换之。临近新年,陈小姐在小张的指点下从网上陆续下载了不少大容量的贺年卡,均为动态电影格式,可以在网络上实时传送播放并加上双方对话,非常有趣。该站点平时使用的财务软件无论是传输速度和数据量都很小(3k 左右),对整个网络系统影响不大。但在向小张放送解压后的动态电影贺年卡时数据流量约在3~4Mbps左右。由于网线问题,事后推算传输的数据帧约有13%是有效的,其余均被反射和串绕所破坏须重新发送,表现为网络上大量的碰撞帧和少量的FCS帧。

[建议]大型网络不划分网段既不便于管理又很难隔离网络故障,此种结构是非常少见的,同

时也是非常危险的。该公司网络大部分采用的是集线器,只有很少几台交换机,这对故障隔离也是不利的。另外,一定要对员工进行上机前教育,不能随意增删、更改软件和网络设置。所幸的是黄先生本人经验非常丰富,平时已将文档备案工作做得很细致(国内多数网络在文档备案时不将网卡的Mac地址备案),否则是不可能在半小时内查出本故障,一般来讲,可能会耗费1~3天左右的时间才行。

[后记]黄先生经过此次“洗礼”,也悟出一点当好IT经理经理的绝招。至少他已不再认为仅凭经验就可以“打遍天下无敌手”。网络维护是一门艺术,更是一门科学或工程,没有适用的工具和科学的方法是达不到这最高的“艺术境界”的。至于陈小姐,我们还是愿意善意地再为她,也为小张保守一段时间的“秘密”。

[故事之五] 雏菊链效应引起得网络不能进行数据交换

[症状]下午某市工商局信息中心来电,其下辖的某县工商局今晨与市局的联网出现问题,速度与往常相比速度慢了许多。其中与该县工商大厦七楼的计算机基本上不能进行数据交换。而与其它楼层的计算机通信虽然速度较慢但还基本上能维持正常的数据交流。由于该市在规划计算机网络广域联网方案时没有考虑将来自身维护的问题,只是简单地在工程合同中将维护工作交给工程承包商负责,自己没有配备专门的工具和培训专门的人员来维护网络。该工程承包商当时负责此项工程的人员早已离开这家公司,故对今日的故障只能表示爱莫能助。经人介绍找到了网络医院。

[诊断过程]我们当晚即乘火车抵达该市并连夜开始查找故障。该市网络规模挺大,下辖7县6区87个工商所,市县局之间用64K的DDN链路连接,工商所与县区局之间用电话线连接。从市局向故障的县局用F683网测试仪作通道测试,速度4K时就上不去了,响应时间804ms,ICMP Ping显示县局路由器连接成功率在1/7左右。将县局网下挂的所有网络设备断电并拔下所有与路由器相连的联线插头,只留下路由器和一台集线器、一台笔记本电脑与之相连,再作通道测试速度为54k,响应时间46ms,ICMP Ping成功率100%。由此证明故障不在DDN链路,而在县局网络本身。

驱车前往县局工商大楼,恢复大楼网络设备的供电,插上全部线缆插头,然后将Fluke公司的F683网络测试仪接入网络进行网段扫描,30秒后显示双路由器IP地址错误,伴随少量FCS类型帧错误。显然,故障与地址设重的这台路由器有直接关系,但网管人员不知道这另一台路由器来自何方,查机器文档备案资料也无此路由器的资料。经再三询问网络管理人员,才想起原来有一个废弃的备份路由器,半年前就早已经不工作了。虽未从早期不用机架上拆下来,但一直未让其上电工作(电缆联线也未摘下)。我们检查该路由器时却发现它正在上电工作!!,系何人所为暂且不查,立即将电源插头拔下另路由器断电,一分钟后市局来电网络速度恢复正常。此时F683网络测试仪虽然显示双重地址消失,但仍然有少量FCS类型帧错误,这说明网络还存在问题,而且主要是布线及链路设备的问题。联系七楼数据交换比其它楼层困难的故障现象,用F683向各楼层的计算机定点发送流量,结果发现与一楼、二楼和市局的定点数据发送FCS帧错误明显增高,其它楼层正常。基本可以断定是由于雏菊链效应造成的典型故障。据网络管理人员介绍,本网络平时就感觉七楼与市局和一楼、二楼的网络连接速度有时变慢,偶尔会有中断现象。查工程图纸,上面只标有一到五楼的布线及网络设备的分布图。六楼七楼的设备由于是半年前该局自己增加的,所以没有标示。无赖我们只得沿集线器布线方向查找网络连接结构。简单的计数就可以知道,七楼的设备与一楼、二楼的设备(路由器在二楼)集线器总数为5个,这很容易引起数据包的延迟碰撞(在10Base-T网络中则表现为

FCS类型错误帧)。

[诊断评点]雏菊链效应是指局域网(10M网)内任何两个站点之间的集线器数量超过4个后引

起的数据传输时间超长而引发的网络错误现象。本案中七楼、六楼为后来增加的网络,网络管理人员没有规划网络就想当然地将集线器按级连方式连接起来,结果出现雏菊链效应。如果不是有人昨天将备份路由器偶然接入网络造成广域网故障,雏菊链效应还将作为一隐患长期潜伏下来。

一般来讲,路由地址竞争将引发严重的路由瓶颈问题,另外路由与服务器、交换器等地址竞争也同样会引起严重的带宽平衡问题。路由与工作站地址竞争情况会好一点。

该市工商局的网络维护和管理可以说基本上处于空白状态,这也是国内许多网络维护管理的典型现状。如果说前几年主要精力放在了网络的建设上,那么现在该是将网络的健康维护工作提到议事日程上来的时候了。否则随着网络规模、速度和复杂性的增加将会后患无穷。[诊断建议]改变六楼、七楼的集线器连接方式,或者重新做正规布线;指定专人妥善管理备份路由器;培训网络维护和管理人员,配备适当的维护工具,对网络的工作状态做一些必要的定期测试和登记。另外,网络的文档备案工作非常重要,一定要仔细做好这项日常工作,硬件备案时一定要将机器的Mac地址一一对应备案。

[后记]三周后该市工商局对全局系统的网络作了一次全面清理,我们随后应邀对其网络进行了一次抽查,情况基本良好。至于上次的“备份路由器上电案”一直没有人“承认”之。

[故事之六]网线制作不标准,引起干扰,发生错误

[症状]某证券公司求诊,要求查找错误源。近日股市火爆,新增不少用户,但一周内已经三次出现交易数据错误,数据恢复也进行了三次。虽然涉及的金额不大,与证券交易所的资料核对不上,昨晚对历史记录和当日交易记录进行了比较,发现在同一时刻往往有几个用户的交易数据出错。怀疑存在病毒或恶意用户捣乱的可能,用多套软件查杀病毒,并重新安装系统,恢复备份的数据。不料今日故障现象依旧出现。

[诊断过程]该网络99年2月进行了改扩建,全部采用NT平台。最近又新增家50个站点。根据一般经验,先对新增加的工作站极其联网系统的状况进行常规检查。由于现在已经休市,网上错误无法观察。用流量发生器模拟网上流量进行体能检查,结果如下:正常数据帧下限帧长64Byte各类型帧体能检查,网络致瘫流量为99%,上限帧长1518Byte的致瘫流量为99.5%,错误帧50Byte短帧致瘫流量为90%,错误帧4000Byte超长帧致瘫流量为97%,碰撞最高时为6.4%,略偏高。无新的错误类型出现。从交换机处测试只发现少数传输延迟数据包,以上数据说明,被检查的网络是一个“身体素质”相当好的证券网络。仔细研究发生错误的工作站,发现是在同一个新增用户的集线器组当中,该网段通过一交换机接口与服务器相连。除了对交易服务器和行情服务器分别进行体能检查外,对该网段内的工作站也进行体能检查,各站表现正常。各工作站模拟流量和交易也都正常。可以基本判定,该网络是一个承受能力很强的优秀网络。由此我们怀疑可能存在“恶意用户”(注:恶意用户是指在工作站上安装自备软硬件或将工作站网卡插头拔下并将自带笔记本电脑私自接入的用户,其目的叵测)。为了跟踪数据出错的情况,将F683网络测试仪接入该网段作长期监测。第二天故障现象没有出现。第三天下午开始后10分钟,即13:10分,网络测试仪监测到该网段大量错误出现,其中FCS帧错误占15%,幻象干扰占85%,约持续了1分钟。FCS帧涉及本网段的3个用户。该证券系统装备有CCTV闭路视频监控系统,从长时录像机中可以发现故障对应时刻13:10有一个用户使用了手机,仔细辨别图像画面发现其使用的是对讲机。

无风不起浪,对讲机的功率比微蜂窝手机的功率要大得多,使用频率也更接近网络基带传输的频带,容易对网络造成近距离辐射干扰。但是,一个合格的、完整的UTP电缆系统在5米外还完全能抵抗不超过5W的辐射功率。从故障现象推断,本网络的电缆或接地系统可能有一些问题。随即决定查找本网段50个站点的布线系统(扩容时没有经过认证测试),用Fluke 的DSP2000电缆测试仪进行测试,测试结果全部通过。只在中心集线器与交换机端口的插

头发现接头线做得很差,外包皮与接头之间有15厘米的缺失,线缆散开排列,双绞关系被破坏。交换机的物理位置离用户仅隔一面玻璃幕墙,直线距离1.5米左右。可以基本断定,对讲机发出的较大功率的辐射信号就是由此处串入系统的。

重新按TIA568B标准的要求打线,连接好系统。

[诊断评点]出问题的网线接头是扩容施工时的最后一根遗漏的网线,为本部工作人员自己临时增补上的。他们不了解TIA568B所要求的打线标准,乃随意为之。系统中串入干扰的途径有多种,比如大动力线与网线并行距离太近或干脆就在同一个走线槽内;与某些辐射源(包括日光灯、电焊机、对讲机、移动电台等)距离太近;系统设备的接地回路不良等等。本案是由散列的网线接头引入近距离的辐射干扰造成。由于对讲机用户比较特殊,他们的干扰是短时的,查找时有时需要“守株待兔”。当然,如果网线全部经过严格的测试,应该不会出现本例故障。

[诊断建议]建议按标准化的布线环境来设计布线系统,更改系统结构后一定要测试电缆。合格的UTP电缆系统抵抗辐射干扰的能力是很强的,但要求电缆系统必须经过严格的测试(事实上多数布线系统只测试过物理连通性,未做严格认证测试,存在着大量的隐患)。大量的问题都出在不起眼的接头上。建议年检时将布线系统作为年检内容全部检查一遍(也可以以一年或两年为周期平时进行轮测,测试标准可选用北美标准TIA568A/568B或ISO11801等)。营业室内最好禁止使用大功率对讲机,部分大功率模拟手机也要列入禁用清单。

故障检测中,应重点检查最近动过的或变更过的设备,此为经验之谈。不过,一个有趣的现象是,当你向某个事后证明他确实更改过设置的用户询问时,经常得到的答复却是:没有动过任何东西。

[后记]按约定时间接到了该证券公司的通报,系统已稳定地工作了两周,没有再出现同类问题。施放干扰的用户是一位具有合法使用对讲机权利的公务人员(在此不便披露具体细节),利用工作之便业余炒股,每天会到股市“例行巡查”一番,已接受劝告。

[故事之七]插头故障

[症状]某电信移动计费中心,用户反映,近三个月移动用户总数增加了近30%,但移动计费的营业收入却只增加了5%,怀疑计费系统是不是有问题。从计费服务器查看收费记录,没有发现什么问题。检查计费服务器软件,工作正常。从路由器另一侧的财务服务器检查,内部的财务服务器显示的计费数据与计费服务器的数据没有差错。查找电话局局端记录,发现记录次数超出移动计费的记录次数。最后作实地测试,用移动电话拨打50次,记录次数45次,记录时间与实际通话时间一致的次数为30次。历时一周,还不能确定故障位置。

[诊断过程]计费服务器连接到一台16端口交换机Bay28115的第一插槽5号端口。第6号端口下挂一个100Mbps的以太网,网管机HP Open View也设置在此。打开网管系统,准备观察5号端口的工作情况,这时才发现无法打开5号端口的工作表数据记录。询问网络管理人员,告知3个月前因交换机故障自行更换过备用的Bay28115交换机,更换后系统工作很正常。查看维护工作记录登记和日志,没有任何关于Bay18115的维护说明,也没有关于网络工作参数的记录(记录上显示的还是系统开通时的原始数据)。询问网管人员为何不设置并打开交换机工作表的Mib。答曰网管系统是一年前安装的,平时只用来看看系统设备是否连接以及是否有报警信号,更多的功能也不会用。前任网络管理员已调任工作岗位,实际上现在已没有人会使用和设置网管系统。由于系统开通是有系统承包商负责的,自行更换交换机后没有发现什么问题,也没再仔细检查。

用网络测试仪的协议对话分析功能从网管机所在网段观察计费服务器的工作情况,发现服务器对约有1/3的数据包没有回应。为了不影响系统工作,于凌晨3:00在移动用户使用率底的时候用F683网络测试仪模拟服务器测试5号端口,显示链路工作于10Mbps速率(原始记

录显示此端口的速度应该是100Mbps)。由于交换机没有启动SNMP支持功能,故临时在5号端口安装了一只10Mbps的集线器与服务器连接,用网络测试仪从这个集线器的任意端口对计费服务器发送数据并观察服务器数据流工作情况。发现大量碰撞和错误的FCS帧,当流量为30%时,碰撞及错误流量占21%。用电缆测试仪检查服务器电缆,发现靠交换器一端的插头处近端串扰NEXT严重超差。重新更换插头并正确打线,碰撞率下降为0.5%,错误率为0%。去掉临时集线器,重新启动交换器的SNMP功能,从交换器某空闲端口向服务器发送流量,用网管系统观察5号计费服务器端口,当流量为40Mbps时,碰撞率、错误率、广播率等参数均表现优良。服务器自适应恢复为100Mbps链路速度。

重新进行两组各50次实际拨打测试,计费数据完全正确。可以基本肯定计费功能已全部恢复正常。

[诊断评点]本次故障的原因非常简单(一个插头问题),但表现出来的现象则稍微复杂一些。该服务器使用的是一个10/100Mbps的自适应以太网卡,设计链路速度为100Mbps。网管人员在更换交换器时曾不小心将插头拉坏,随即更换了接头,但确留下隐患,不过,维护人员并未及时发现速度方面异常。服务器链路此时的实际工作速度已经下降为10Mbps。新交换器没有启动SNMP支持功能,网管系统也就不能观察计费服务器的端口工作状态。在平时的维护工作中,该计费中心的维护人员基本上不用网管系统定期观测并记录网络的工作参数,当故障出现时就不能觉察到服务器工作速度的变化。有趣的是,如果电缆没有问题,即使将链路速度设置为10Mbps,计费服务器应该还是能正常工作的(计费信息的网络流量一般不高)。在本故障中,计费服务器繁忙时由于碰撞率和错误率太高,服务器无法处理一部分数据包,其中已经被“挂号”的部分数据包将被丢弃,造成计费数据不准确。

[诊断建议]布线系统平时要定期轮测(一至两年轮测意义遍)。更换链路元件后一定要对链路进行测试(尤其是100Mbps链路,必须用电缆测试仪测试)。网管系统要指定专人进行维护使用,一般来讲,网管系统可以覆盖约35%左右的网络故障,因此强烈建议重要的网络要安装支持SNMP或RMON协议(多数网络设备都支持SNMP协议,部分支持RMON),启动已有SNMP、RMON等功能的网络设备,否则网管系统将形同虚设。维护工作要求有及时完整的记录,这对提高处理故障的速度是非常必要的。

[后记]经过一个月的运行,收费系统“贡献”了35%的收入额,大喜。初步尝到了甜头,计费中心上周决定派两名维护人员到“网络学院”参加为期一周的“网络维护及故障诊断技术”培训课程。

[故事之八]5类线Cat5勉强运行千兆以太网

[症状]某期货交易所,网络改造为千兆以太网后只有1个网段能正常工作,其它12个网段工作均不正常,数据时有出错,连接经常会莫名其妙地中断。每个网段用千兆以太网连接起来,下挂的网段均是100Mbps用户端口。起初怀疑是系统运行的平台或者软件有问题,经过多次重新安装和设置仍不能解决问题,而且同样的系统在其它地方的交易网络中应用是正常的。因而转向怀疑是否是布线系统的问题,比如电缆不合格或是有干扰信号串入以及接地系统等方面的问题。每个网段均利用升级前铺设的电缆系统连接起来,未作大的更改。由于计算机网络的布线系统采用的是标准的5类线方案,根据千兆网的设计标准,采用4对线全双工工作,5电平编码,占用的信号物理带宽正好是100MHz,故5类线应该是完全可以胜任的,况且一般情况下期货交易网络现有的流量水平远不能达到满载运行的程度,流量很低。重新用专业电缆测试仪作过严格的认证测试,显示参数合格并且不存在脉冲噪声干扰或接地方面的问题。

所谓能工作的那一个网段是因为行情和交易服务器都安装在该网段中,本网段内的工作站与服务器除了个别站点外都可以上网连接工作,进行行情浏览和交易割接。其它网段内的服务

器对内连接时除了个别工作站外也基本正常,共同特点都是不能与行情服务器和交易服务器所在网段实现良好连接。系统升级时原布线电缆全部保留不动,经过测试也全部合格,不知原因何在?

[诊断过程]不能连接的因素很多,象网络硬件设备的功能设置问题、布线系统的问题、操作平台的安装设置问题、应用软件的安装设置和软件冲突方面的问题等等。从用户所反映的情况分析,各个网段内的站点基本上全部能工作,网段之间的连接比较困难,可以初步确定故障出现在网络设备设置和布线系统性能等方面的可能性大一些。

将网络测试仪F68X接入能连接服务器和交易服务器的网段(100Mbps),观察网络流量5分钟平均为12%,FCS帧校验错误帧约11%,碰撞率1.7%(正常范围)。显然FCS帧校验错误比例偏高,查看错误源,显示为其它网段站点产生FCS帧错误的比例占错误帧总量的97%。各网段的错误帧比例差别不大。由于有大量的FCS帧普遍存在,所以各网段内的各站点同时出问题的可能性很小,用F683向各网段内的服务器或站点发送流量,FCS帧错误随流量增高而迅速增加,各站点或服务器反映基本一致。启动网络测试仪的ICMP Ping功能,统计对各网段内选定的站点和交换机、路由器等的测试结果,表现基本一致,即:ICMP Ping断层约96%,ICMP Monitor显示目标不可达占91%。

改在其它网段内作同样内容的测试,对行情服务器和交易服务器所在网段的路由器和交换机结果基本与前项测试相同。所不同的一点是,对其它网段内的交换机和路由器等网络设备的测试结果显示是正常的,数值为:ICMP Ping断层为0%,全部可以通达,ICMP Monitor目标不可达为0%。基本可以肯定,故障出在行情服务器网段与其它网段的连接链路上。用FLUKE公司的DSP-4000电缆认证测试仪选用TIA Cat5n Channel UTP100标准测试,显示长度为25米,链路测试不合格。其中,回波损耗RL和衰减串扰比ACR等参数超差。改用同样长度的一根超5类线Cat5e代用之,启动系统,除了各网段内个别站点外,整个网络恢复正常。监测高峰时的流量,服务器所在网段最高时平均流量为3%,可见故障时12%的流量主要都来自大量的重发帧流量。

[诊断评点]千兆以太网可以满足网络用户对大带宽应用的“贪婪”胃口,无疑是网络下一步的重点发展方向。千兆以太网的设计者在选用电缆类型时对5类线Cat5已经存在的应用规模考虑比较多,所以选择的物理带宽为100MHz。这样,原则上5类线是可以运行千兆以太网的。但实际的统计结果表明,仍有1%~5%的用户不能上网或连接出现断续和困难。也就是说,千兆以太网对5类线的参数要求更严格一些。只要用户对5类线布线系统进行过严格的认证测试,可以保证绝大多数的站点是可以联网工作的。少数站点因为某些参数余量小可能有上网困难的现象。影响比较大的参数有综合近端串扰PS NEXT、综合远端串扰PS FEXT、等效远端串扰ELFEXT、综合等效远端串扰PS ELFEXT、回波损耗RL、衰减串扰比ACR等。此时需要对5类线进行Cat5n标准测试,该标准是专为用5类线运行千兆以太网的用户准备的,如果依循该标准测试都合格,则可以放心地用5类线系统运行千兆以太网。新的Cat5n标准中,回波损耗对系统的影响比较大,并且,由于电缆匹配方面的阻抗不连续问题,越短的电缆链路反而越容易出问题。本例中,由于电缆长度为25米,虽然衰减串扰比ACR参数也不合格,但,回波损耗引起本故障的可能性要大些。

[诊断建议]对5类线的认证测试可以适当考虑选用Cat5n标准进行测试,这样可保运行千兆以太网网时不出问题。如果选用超5类线Cat5e进行布线,则一般不会有不能运行千兆以太网之虞。对用Cat5n标准诊断出来有问题的5类线链路,为了以最小的成本换来网络性能的提高,一个最简单的办法就是用超5类线Cat5e代换参数不良的个别链路。注意,联结模块最好一并更换,以保证链路的安装质量。

[后记]遵循我们的建议,两周后该期货交易所将全部的安装链路用DSP-4000电缆测试仪选用TIACat5n标准进行了测试,全部站点数为1300个,不合格链路21个。对不合格的链路

改用超5类电缆后所有站点均工作正常,网络状态保持优良(该网络平均流量高峰时才3%)。

[故事之九]电缆超长,LAN可用,W AN不可用

[症状]今天的病人是某进出口公司,开通DDN专线后部分用户抱怨数据交换的速度变慢,且经常有联结中断的现象。网络支持人员虽经多方查找仍不得要领,故请求网络医院出诊援救。

该公司的网络结构原先是单纯的局域网,分布在三层楼面中,共有300个站点,每个楼层有100个左右的用户。配线间设在最上面一层的楼层中,用交换机将各楼层共分成三个网段。以前员工均使用拨号上网方式实现与Internet的联结,自我感觉网络速度还比较快,工作一直很正常。新近增加了路由设备,并申请开通了DDN专线。每个楼层用集线器将用户联结起来,结果最低楼层的员工反映有时速度很慢,并常有莫名其妙的中断现象。由于该公司没有配备任何网络监测工具,且在局域网内传输数据不受影响,只在上Internet网时才有麻烦,故直到工程竣工两周后才向网络医院求援。

[诊断过程]该公司的网络为10Base-T局域网,此次只增加了DDN设备和路由器,其它配置基本不变。故将网络测试仪F68X从最低楼层的某个用户端接入网络进行观察,平均流量为1.2%,未发现异常。改用流量发送功能作流量逐级递增的体能测试,也未发现任何异常。表面上看,该网段似乎没有什么问题。为快速定位网络故障,将流量发送到其它网段,同时观察网络状况。随着发送流量的增加,1分钟后发现错误帧,帧类型为FCS错误帧,并指示FCS帧来自第二层的某个用户。显然,只据此现象就判断故障原因为该工作站的网卡损坏或网卡驱动程序错误,似乎显得“证据不足”,因为整个楼层的用户反映的故障现象是相同的。继续观察到5分钟,发现FCS错误帧数量增加为10个用户左右,由此可以断定不是某个工作站的问题。为此,令其它楼层多个用户与故障楼层用户交换数据(比如拷贝文件),结果发现多个FCS帧错误。打开交换机端口工作表观察,本楼层的记录中也显示FCS帧错误,而其它的交换机端口工作表中没有FCS错误记录(交换机为非切发型交换机),这说明是本网段内存在者线缆超长的链路。再试着向Internet某个已知用户发送流量,并且进行ICMP Ping 测试,结果发现损失率为90%左右。由于刚才本网段内的体能测试未发现异常,所以

只能是集线器与交换机联结的单条链路有问题。测试该电缆,长度指示为175米!超长。[诊断评点]根据网络规范,以太网为碰撞侦听共享介质方式工作的。每个工作站到集线器的网线长度应不超过100米,方可保障无延迟碰撞(同轴电缆)或FCS帧错误。由于175米超常链路在集线器和交换机之间,所以本网段内的用户在交换数据时可以顺利进行。但与其它网段的用户交换数据时就可能处问题。但由于网络平均流量低,虽然在整个局域网内存在FCS 帧错误影响,对低流量局域网内的数据交换而言,其对速度的影响甚微。当同时有多个用户通过DDN进行W AN数据交换时,FCS帧错误将导致64K的出口流量浪费加大。这是因为64K比10Mbps的速度要低得多,流量中错误帧的比例较高,进入W AN链路时可能要经过多次重发才能实现远程数据交换,感觉网络速度明显变慢。且由于经常有FCS错误帧,较容易引起W AN链路联结时因错误而中断,综合表现为故障楼层的所有用户都抱怨速度变慢且常中断。

[诊断建议]网络速度低时很多故障现象都将被掩盖起来。建议网络拥有者在新的网络工程结束时应该进行两项验收:网络布线系统现场认证测试和网络验收测试(最起码要作体能测试和加载条件下的逐个工作站的模拟上网测试)。

[后记]一周后该公司重新划分网段施工结束,用户来电报告一切正常。

[故事之十]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网[症状]某船运公司,为满足日益增长的业务需求,三周前开始网络升级改造工程,按设计规

划将10BaseT网络全部升级为100BaseTX以太网,电缆系统不作任何改动。昨天设备安装调试工程全部结束,今天凌晨开始网络割接作业。所有工作站更换100BaseTX以网太网卡,然后分批接入网络。此时工程人员发现一些奇怪现象,比如:有些工作站不能联入网络;有些工作站第一次可以联入网络,过一段时间再次连接则无法进入;有的工作站开始时能联入网络并且工作很正常,但过一段时间后则出现连接断续或数据出错的现象。集成商起先以为是网络平台安装不当,遂将系统平台重新清理并安装了一次,出问题的工作站系统软件和应用软件也进行了重新安装,结果毫无改善。“折腾”了将近一整天,也无法为用户提供服务,业务基本中断。

[诊断过程]接到报告后立即赶到“出事地点”,启动包括故障工作站在内的全部系统成员进入网络运行。用F683网络“万用表”对故障网络首先作常规健康测试,一分钟后测试结果如下:网络利用率1.3%(此时员工已经全部下班),碰撞率8%,错误率11%,广播9%。显然网络碰撞率和错误率比较高,打开错误诊断定位功能,显示FCS帧错误、本地碰撞、碎帧等错误计数。这说明网络可能存在网卡工作失常、电缆系统故障、干扰或接地回路等方面的问题。查看具体的FCS错误帧测试结果,发现有许多工作站发出错误的FCS数据帧。一般来将,同时存在多个网卡失效的故障是不大可能的,此时的FCS帧错误多数由电缆问题尤其是有超长链路的电缆问题所引起而不是由网卡所引起。但为慎重起见,我们先随机抽查其中两张网卡进行测试,结果正常,再测试对应的集线器端口,其物理参数结果正常,工作协议匹配无异。由此则可以有把握地确定故障的原因是由电缆系统的问题引起的。

用户告知,本系统采用的是五类线,共有270台工作站,划分为6个网段,有一个专网路由器和一个公网路由器,升级前一直工作在10BaseT以太网状态,整个系统除了业务一部经常反映网络速度偏慢和偶尔的连接断续外,其它部门使用状况一直很正常(业务一部工作量最大)。

今天开始升级工作后部分工作站出现上面提到的各种故障现象,涉及范围大约有近三分之一的工作站。询问用户以前是否对布线系统进行过测试,答曰:“只测试过通断,因为在10BaseT 以太网一直能上网,所以布线系统应该不会有问题。”

为快速定位故障,随机抽取了其中10条有问题的链路进行测试,结果为:一分二插座故障8个,3类线连接模块3个,综合近端串扰PS NEXT参数不合格4个。检测结论:该系统布线工程存在严重问题。

[诊断评点]网络布线工程的低劣质量一直是综合布线工程中的一个让人担心的严重问题。目前虽然有成熟的测试标准和方法,但多数用户并不知悉或不要求按标准进行现场认证测试。本系统的电缆故障存在多种原因,均是由于工程设计、施工和验收不规范造成。现分述如下:a)一分二插座故障:系由接线错误所至。用户在设计时没有考虑到扩容的需要,所以在新增用户时采用了这种不规范的一分二插座,一个插座可以连接2个PC机。从原理上讲这种用法是基本上可行的,这种接法要求将1-2/3-6两线对联接一台PC机,而将4-5/7-8两线对联接到另一台PC机上。但实际的测试结果却发现线对接法是1-2/3-6和4-5/3-6,用户把3-6线对当成了直接的“共享媒体检测总线”!!在10BaseT网络中这种错误接法可以勉强工作。虽然这会造成全部网络流量中的数据帧会存在不少错误,但由于多数现存网络的利用率(流量)不高,用户是难于察觉布线中程中的此种异常情况的。

100BaseTX网络对阻抗不匹配和近端串扰比较敏感,升级后这种错误接法会导致上网困难;(注:同轴电缆可以用三通匹配连接器将工作站接入网络,此时阻抗仍保持连续,但双绞线不可以直接并联,否则阻抗异常。)

b)该系统在用户数增加,网线数量不敷使用时网管人员进行了自行扩容,不幸的是他们选用的是假冒的5类插头(实际上是3类插头)。在10BaseT网络3类插头不会影响网络正常运行,但升级后近端串扰NEXT等参数将严重影响工作站与网络连接并经常导致数据出错。不经

测试,此3类插头将会长期潜伏而不被发现。

c)由于采用一分二插座,测试电缆的近端串扰指标时必须考虑其它线对的综合影响(非一分二接头的链路多数只使用两对线的网卡),因此,在数据流量大时,综合近端串扰PS NEXT 等参数不合格的链路有可能出错或导致工作站连接困难。

[诊断建议]网络投入运行前,布线系统(电缆、光缆)要首先进行认证测试,用户可以选择的标准很多,目前多建议选用TSB-67或ISO11801等国际流行标准进行测试。只测试物理通断后就认为链路肯定可用,这一认识是非常片面的也是非常有害的。采用一分二插座的链路一定要测试综合近端串扰、综合远端串扰等高端参数,最好选择Cat5n标准进行认证测试。为此,我们建议船运公司将全部布线链路连夜进行测试和清理,并对清理后PS NEXT等高端参数仍不合格的链路进行最后标记,以便日后进行更换。

[后记]第二天清晨,测试工作全部结束,共发现连接错误的一分二插座88个(全部接错),误用3类插头54个。在纠正了所有插座故障和误用的3类线插头后,除了少数几条链路外,所有工作站均能投入正常运行。中午时分,中断了一天多的各项业务终于得以全面恢复。随后进行的网络性能评测也基本合格。

对于个别高端参数不合格的链路,我们建议网管人员随后更换链路或先暂时取消一分二的连接方式,以保证数据传输的正确性。

[故事之十一]网线共用,升级100Mbps后干扰服务器

[症状]今天的“病人”是某移动电话公司计费中心。据该中心的网络主管人员介绍,为了缓解移动电话用户解交电话费难的问题,该中心三个月前投巨资对原计费中心的网络进行了调整和升级。与四家被委托代收手机费的银行之间的网络连接速度从标准的64Kbps速率DDN 专线全部扩展为E1(2.048Mbps)速率,计费中心网络从10Mbps以太网全部升级为以交换机为主的100Mbps以太网。升级前各委托收费银行经常反映网络连接时常莫名其妙地中断,但一般能迅速恢复,业务妨碍不算大。升级后网络速度提高了很多,但其下辖的各营业网点(共计120个)在为手机用户办理交费收费手续时计算机屏幕上常会提示“网络远端故障,无法提供数据”或“数据传输不稳定,请检查网络”,此时营业网点的收费服务会暂停,用户意见很大。有时虽然还能提供服务,不过数据处理速度明显变慢,最差的时候处理一笔业务查询竟然需要反反覆覆操作5、6分钟(正常时一般在10秒钟以内)。比网络设备升级前反而要慢得多。

此故障每星期都要出现1到2次,每次从1小时到2小时不等。

由于一直没有查明升级前网络时常中断的真正故障原因,网络管理人员在做此次网络升级规划时曾心存侥幸地寄希望于通过设备升级来彻底排除这些遗留网络故障。遗憾的是,他们的运气实在太差,非但老问题没有解决,反而惹出了更大的新问题。遂向网络医院“挂号”求诊。[诊断过程]由于银行网和电信计费网不在同一个地方,出了“网络医院”我们需要决定先去哪里?从上述的故障现象初步分析,银行络网和移动通信公司计费中心网络以及其连接的链路都有可能存在问题。计费中心的网络设备和路由设备大部分在此次升级时都更换过,升级后故障依旧存在且表现更严重,基本可以排除新入网设备存在严重问题的可能性。网络测试可以从银行网络和计费网络同时着手。途中从银行各营业厅网络使用者处了解到,手机收费出现“麻烦”时银行的其它业务流程均保持正常,并不受此影响(此时电信计费中心网络的用户也没有反映网络异常)。这说明银行网络存在问题的可能性要比计费网络及其连接链路存在问题的可能性低。而问题出现在手机计费网络和与银行网络的路由设备范围内的可能性比较大,故我们决定先前往设在移动通信公司机房的手机计费网络进行检查测试,首先检查计费网络及其连接链路。

第一次网络测试是在网络没有出现故障时进行的,结果显示各项测试指标都显示网络工作完

全正常。将F683网络测试仪接入计费网络的交换路由器,监测网络的工作状况,显示路由器利用率为1%(相当于E1链路中有20Kbps左右的业务流量),错误统计为0%,与网管系统观察的数据完全一致,将F683网络测试仪改为与计费服务器并联的方式监测,测试结果相同,这表明此时网络工作很正常。在与计费网络所在地的局域网使用和维护人员交谈中了解到,网络工作人员从来没有感觉到他们的LAN有异常情况,虽然他们也知道手机用户在经常抱怨,但从计费LAN处检查不出什么实质问题,计费服务器表现也正常。故障出现时从网管系统上观察,路由器、交换机、计费服务器都没有问题。用OneTouch网络助理(即网络故障一点通)仿真用户流量对银行的路由器、银行网业务转接服务器(以上测试在银行进行)、移动通信公司的计费网络与银行网络的连接路由器、网络通道上的交换机、计费服务器等进行2分钟80%持续流量冲击测试(上述测试在计费中心),用F683网络测试仪监测移动监测各关键设备,结果基本相同,利用率为均80%,无错误出现,除了计费服务器处的碰撞率2%外,其它各处均为0%;ICMP Ping测试均在3ms以内,ICMP监测测试无拥塞、数据不可达、重定向、数据参数错误等显示,这说明,网络的通道测试结果是比较好的。在这种情况下,一般可以采用两种测试方法继续检查故障,一种是被动监测法,即将网络测试仪、流量分析仪、网管等监测设备启动,对网络实施不间断监测,等待问题的重新出现;另一种是主动测试法,即将所有涉及到的网络设备和终端设备及其业务均启动或进行人为地仿真模拟,然后监测网络的工作状态,进行故障定位。为了尽快定位故障,经与计费网、银行网网络管理人员商定,我们决定采用第二种方法进行监测和测试(注意,此测试方案需要动用很多的人力和物力),即将所有有关的网络设备网络终端设备启动,并安排人员进行业务流程模拟操作。

第二次测试在当天业务结束后进行。在启动所有网络设备5分钟后,预期的故障现象果然出现。从网管系统上观察,计费网和银行网的连接路由器流量上升为3%,交换机流量增加1倍,计费服务器流量减少70%,网络没有发现异常情况。用F683网络测试仪对整个计费通道的有关链路和设备进行移动监测,结果显示:路由器和交换机的数据与网管系统的观察结果一致,而计费服务器的流量为68%,正常数据7%,错误数据61%(幻象干扰Ghosts、FCS 错误碎帧等)。很显然,计费服务器与交换机之间的这条链路很可能有问题。

暂停业务,从计费服务器网卡上拔下电缆插头进行电缆测试,结果显示只有1-2和3-6两对电缆,4-5和7-8线对没有连接。网管人员解释,升级后除了新增加的布线外,电缆系统多数没有变动,只有少数链路进行了调整。进一步检查发现4-5和7-8线对连接到了另一台备份服务器上,该服务器用于每周两次人工对各种关键数据进行审查、备份并上报局有关单位。恢复业务,启动备份服务器进行数据备份和传输,结果故障现象出现。

将备份服务器临时用一条新链路单独连接,故障彻底消失。对换下的电缆进行测试,近端串扰NEXT不合格(超差-2dB,综合近端串扰PSNEXT-8dB)

[诊断评点]网络电缆内含4对(8根)细电缆线,一般的10Base-T和100Base-Tx网络只使用其中的1-2和3-6线对,4-5和7-8线对不用,在10Base-T网络中曾流行将4-5或7-8线对用来传输电话,或者用4-5和7-8线对用来连接另一台电脑。在100Base-Tx以太网中,由于网络工作频率和数据率很高,串扰量很大,故这类用法是不被允许的。计费网络升级前有部分站点用一条电缆连接两台计算机,升级后这部分电缆没有变动,由于离新增加的交换机比较近,故将备份服务器接入了并用电缆。备份服务器平时虽然基本不用,但连接脉冲仍然会对计费服务器造成干扰,只是干扰量很少而已,这就是我们在交换机链路中观察到2%碰撞率记录的产生原因。由于该电缆的综合近端串扰PSNEXT不合格,数据备份服务器在工作时对计费服务器会产生很大干扰,破坏传输数据,使得同一个数据包不得不多次重传和多次重新处理,真实流量急剧上升到68%,重处理流量由0%上升到6.98%。由于服务器使用的是价格便宜的工作组交换机,所以网管系统无法从交换机端口发现链路中存在的严重问题。

升级前业务偶然有中断的现象,这也是由于并用线缆串扰造成的,由于当时是10Base-T网络,速度低,所以这种影响比较小,往往只是偶尔且是瞬间的影响。

[诊断建议]在10Base-T以太网中存在着大量的非标准化布线以及大量不合格的布线链路,由于10Base-T网络工作速度低,这些严重质量问题往往被掩盖起来。直到升级到100Base-Tx 以太网后这些问题才会明显地暴露出来。10Base-T网络布线系统中表现不明显的问题同时也给集成商、工程商和广大用户造成一种错觉,认为布线系统只要是物理上联通的就不会有问题,从而忽视了影响链路质量的布线产品品质问题、施工工艺问题对网络造成的严重影响。建议网络设计者首先采用标准化的设计方案,且只有工程商和用户在签订建造网络的合同时选用标准化的施工工艺和标准化的现场认证测试方案,才能初步保证综合布线系统的质量。《网络测试和维护方案》中一般建议每年(必要时每半年)对布线系统轮测一遍,以保证布线系统的性能合格,排除因布局变动、用户数量增删和人为调整等原因对布线系统造成的损害。另外,网络的业务工作和故障情况要有比较准确完整的记录,这样才能有助于故障的查找。如果“病人”对自己网络的业务流程比较熟悉,则可以避免动用众多人员加班配合排除故障。[后记]一周后电话回访该“病人”,得知已经全部将并用链路更换为单独的合格链路,计费网络工作非常良好,手机用户再没有“交费难”的抱怨了。

[故事之十二]电梯动力线干扰,占用带宽,整个楼层速度降低

[症状]某大型家电制造企业计算机中心主任,今天极其沮丧地了报告了该公司的一起顽固的网络故障。该故障表现虽奇特但比较有规律,具体表现是:公司主办公楼的网络在员工上班的时候运行速度会变得很慢,下班后速度回升,有时基本上能回复到往常水平。故障时间大约三个月,准确“发病”的日期已无从记起。每天上午8:00左右开始发作,症状范围是三楼的整个楼层,现象是速度突然变慢,无论是从互联网上下载文件、收发电子邮件都很慢且经常中断和出错。本楼层中的用户之间在传输文件时、与其它楼层的用户传送文件时或是其它楼层的用户与本楼层的用户交换文件时都要用很长时间,但其它楼层的用户之间互相交换文件则不受影响。第一此发作,故障一直持续了三天我们也没有查明原因。由于三楼是公司设计开发部门,每日都要使用网络环境进行大量的数据交换、资料查询等工作,为了不影响新产品开发进度,当时将研发部的工作时间暂时推迟到下午6:00上班。两周后情况仍未见好转,故障仍然存在。不得以公司决定将研发部与二楼的行政管理部门临时对调,以保证已经开始习惯于上“夜班”研发部员工正常的作息时间。谁知一“临时”就是三个月之久。网管人员将布线系统、网络平台、所有主机和服务器、路由器都彻底检查或互换过,一直未能查出故障琐在。听某知名系统集成商介绍可能是电缆系统的问题,随即将布线系统进行了一次认证测试。结果还真的查出了不少严重问题。比如,原来的5类线系统全部不合格,系采用假冒伪劣的5类线,现场测试只能通过三类线指标。为正宗的“假货”。接插件和模块也大部分不能通过5类线标准测试。进一步对整个大楼的布线进行检查,发现与三楼的情况相同。公司网络基本上还是10Mbps系统,工作一直正常。由于布线工程是三年前做的,现在已经无法联系上当时的系统集成商。公司董事会责成计算机中心将整个布线系统全部更新。经过一个月的紧张施工,工程于前天结束,满心希望通过这次工程能将原有的故障及隐患彻底清理干净,谁曾想,昨天开机调试系统时发现原来的故障依然“顽强”地存在!虽想尽了办法,面对我们的艰苦努力,第三楼层的网络系统仍“无动于衷”。计算机中心的全体员工均感倍受打击,且愧于无法向研发部的员工和董事会“交差”。

[诊断过程]根据以往的统计,越是顽固的故障对“网络医院”来说往往越可能是最简单的“病因”引起的。从“病人”“主述”的情况看,布线系统还存在问题的可能性不大。由于网络的设备都经过多次的检查,发生问题的概率应该是比较低的。如果说是网络有关平台安装、应用软件安装和使用以及路由通道等方面的有问题,那么其它楼层的用户应该有类似的问题。分

析故障出现的特点,由于故障出现的时间是上班时间,所以故障原因应该与某些定时工作的设备或工作环境有很大关联性。故障造成整个楼层速度受影响,为公共部分故障的概率较高。根据计算机中心主任介绍,包括其它楼层在内的每台设备都进行过逐个关机筛选检查,每台供电设备都进行过替代检查,所以可以保证设备都是正常且合格的。

分析网络的拓扑结构,每个楼层都是用集线器搭建的10Base-T传统网络。各楼层以及邻近大楼的网络用户之间用一台故障前添置的核心交换机连接起来,端口为10Mbps,路由器与核心交换机经过128k帧中继链路与Internet连接,其它分部及分公司则用DDN和ISDN、VPN连接。在计算机中心设有一台网管机,但没有配置其它维护工具。由于故障只影响一个楼层,很可能是在一个碰撞域内的问题。因公司网络与Internet相连,所以我们从网络医院对该公司的网络先简单地做一下远程诊断。启动网络测试仪F683的便携网管功能,由该中心主任输入其公司路由器密码后,查看路由器和交换机的端口管理信息库,结果发现交换机上与三楼连接的接口存在大量碰撞和错误帧记录。数据如下:流量2%,错误为35%,其中CRC错误占83%,传输延迟96%,碰撞10%。中心主任说从网管机上也看到过类似的数据,只是不清楚其含义,也不知道这些数据会与故障诊断有关(网管机从来不用)!我们需要确定这些数据的具体来源,故第二天抵达现场进行测试。

将网络测试仪F683接入三楼网络观察,显示网络流量在67%~95之间摆动,错误的流量则在60%~90%之间摆动。其中多数为Ghost错误,占错误流量的77%,其次为碰撞和FCS 帧错误,合计占23%。Ghosts错误(幻象干扰)一般指示网络存在严重的干扰。由于干扰比特没有以太网的帧结构特征,在碰撞域内又可以随处游荡,所以这类故障在没有测试工具的条件下一般很难进行诊断。

用F43电力谐波分析仪测试供电质量,谐波含量指标较大,但未超标,说明电力质量尚可。用场强计测试970MHz以内的空间电场强度,合格。那么干扰信号是从何处进入网络的呢?一般可以用如下方法检查:检查接地系统,检查设备接地,检查周边大型用电设备,检查无线通信环境,采用“二分法”断电检查串入位置。从故障的特点看,为定期定时故障发生,所以与周边大型用电设备的关系比较大。由于是办公楼,大型用电设备一般以空调、电梯和照明系统等为主,故决定先将电梯、空调等供电系统切断。当切断电梯电源时,故障消失。重新接通电梯电源,故障重现。说明接地或布线系统串如了电梯动力强干扰谐波。检查三楼布线系统,发现一台饮水机的用电电源与布线系统走线槽在一起。立即测试饮水机电源,发现大量高强度干扰谐波,请电工从配电室切断这条电缆,故障消失。

[诊断评点]故障原因是电梯动力干扰经过新散装的饮水机电源线传递到网络布线系统,致使网络中的干扰比特流量占很大数值,争用网络有效带宽,破坏网络正在传输的有效数据(表现为大量的FCS帧错误),使得网络速度大大下降,网络“垃圾”骤增。由于电梯在上下班时间一直有人使用,所以网络工作也“定期”受到严重干扰。下班后,电梯运行频次降低,干扰减少,网络逐步回复到正常运行速度。

以下是电工和研发部员工的回忆。

原来,为了改善工作环境,公司于三个月前为每个部门和科室配备了冷热饮水机。由于三楼休息室电源插座无电,电工检查后发现该插座的电缆没有与配电盘相连(建筑施工时遗留问题),于是随意将其联线的远端连接到电梯供电动力线的配电盘上为饮水机供电。当时正值炎夏,员工们本来好不开心,心想从此可以随意冷热饮“自助”,没料想却是从此恶梦不断,网络工作异常,严重影响到了他们的正常工作和生活。

没有人记得这条供电电缆与布线系统安装在了同一个线槽内,并与三楼布线系统穿入同一根PVC管内。本来,有一次机会可以解决故障,那就是如果在这次网络更新工程时能严格地按标准化施工,那么这根电源线将会被分开安装,更新后的网络便可能正常运行。另外,由于有多根网线同时受到干扰,所以在采用“二分法”分割故障区域时只能得出干扰与设备数量

有关系这一模糊结论,此非但不能有助于定位真正的故障部位,反而可能将故障诊断工作复杂化。

[诊断建议]标准化设计、标准化施工、标准化验收(认证测试)是保证网络工程质量的重要手段和方法。其中一条就是要求动力线和计算机网络布线系统必须分开走线。如果采用金属穿管的方法近距离屏蔽,则金属管必须要有良好的接地措施。否则极易获得“得不偿失”的回报。测试统计显示,现阶段并不是所有动力线谐波含量都很大,多数动力线谐波含量还是很小的。但用电环境的变化趋势是非线性用电设备的用量越来越多,谐波污染也会越来越严重,且呈加速趋势。为了避免后患,还是少存侥幸心理为妙。

[后记]一周后电话回访用户,得知经过检查,还发现其它楼层的布线系统也存在电缆线与布线系统同槽敷设的情况,该电缆上谐波污染可能比较小,没有造成严重的网络“不良反映”。现在已经全部更改,并计划对其它相关建筑的布线也进行一次全面检查。

[故事之十三]“水漫金山”,始发现用错光纤接头类型,网络不能联通

[症状]某新落成的甲级办公大厦,按智能大厦标准设计,其中的计算机综合布线系统包括用超5类线和多模光纤组成的水平及垂直布线系统。全部电缆系统都经过了严格地选用的超5类线现场认证标准进行的验收测试和检验,现正在一边招商一边调试网络及通信系统。智能控制系统的多数信道均采用IP协议,并将原设计的各自独立的17个分系统的控制平台重新设计和整合为同一个快速100Base-Tx以太网,这样大大压缩了网络系统的造价。今天该大厦工程的布线集成商向网络医院求诊,报告其66层的网络联络中断,无法调通,而以前一直工作正常。故障开始于前天上午,第66层的网络系统用户无法与其它楼层的用户联系,也无法通过大厦的帧中继专线与互联网联接。第66层通过一对200米的多模光纤链路与2楼的网络监控中心联接,经过检查发现设在40层的光缆转接箱内的接头被上层楼面的溢水事故所污染,工程人员临时改变光缆走向,将光缆用一段跳线从另一弱电井中绕道联入,采取这样的措施后只增加了约30米的光缆长度和一个光接头。根据估算应该可以联通。原先被污染的光缆接头也已经更换,但网络仍然无法实现联接。

[诊断过程]从故障统计的规律看,一般在网络维护的过程中,维护人员动过或更改过的地方故障出现的概率比较高,此即所谓“动哪儿查哪儿”的故障诊断顺序第一原则。根据报告的故障情况初步判断光缆出问题的可能性比较大,当然也不排除网络设备的问题,比如光卡、交换机等同时出现故障的可能性(今天的检查过程中维护人员也插拔并检查过光卡)。20分钟后,我们抵达目的地,我们将网络测试仪接入2楼网络中心,检查网络工作状态,正常,只是无法发现66楼的用户。电话询问66楼用户,回答说平时虽然能联通,但也不是十分通畅。有时速度会很慢,偶尔还会出现连接中断的现象。我们将电缆测试仪换上多模光纤测试模块,主机移动到66楼,远端机留在2楼对这对光缆链路进行测试。A光缆测试衰减值为3.7dB,B光缆衰减为7.8分贝,虽然B光缆的衰减相当大,但因为还在一般光卡允许的接收灵敏度范围之内,应该不会影响光卡的信号接收,除非光卡正好也有灵敏度方面的问题。为了简化诊断程序,我们用邻近的光卡做替换试验,将2楼和66楼的光卡同时更换,然后从66楼用网络故障一点通(One Touch)接入网络进行测试,结果是可以发现本楼层

的用户,但还是无法找到其它楼层的任何用户。这说明故障仍然在光缆链路,或者是交换机的光卡接口有问题。为了确认故障的准确地点,我们从另一弱电井倒换出一对光缆代替这对光缆,并用跳线将原来的光卡连接起来,当光卡插入交换机后网络立即恢复正常。这说明交换机及其光卡和光卡接口是正常的。重点还是要检查这对光缆链路。重新测试的结果与上此测试的结果基本一致,我们将测试方向颠倒一下再度进行测试,结果发现B光缆的衰减量为27dB,A光缆仍然为3.7dB。继续对B光缆进行分段测试,44楼以下的一段光缆测试结果为2.3dB,基本可用。跳线衰减量测试1.28dB,基本可用。44楼和66楼之间的光缆测试

衰减为20dB,严重超差。说明这条链路有比较严重的问题。

拧下44楼的光卡接头,用放大镜仔细观察,光缆芯线直径圆润,与其它接头并无二至。随后检查66楼光缆接头,发现其芯线直径比其它接头的芯线直径要小许多。可以判定,此接头很可能为单模光缆接头。将这对光纤的接收和发射位置对调使用,插入光卡后网络恢复正常工作。

[诊断评点]光缆链路在标准化的认证测试过程中按要求进行双向测试,本大厦的光缆布线系统全都只做了单向测试。当遇有光纤直径不匹配、光纤气泡或接头质量差等情况时,光纤在两个方向上的衰减量会有差异。一般来讲,差异不会超过10%。此次故障的光纤双向测试衰减量差值达20dB,故怀疑光纤直径存在严重的不匹配,且出现在接头处的可能性最大,所以我们对44楼和66楼之间的光卡接头进行检查。结果发现了误用的单模光纤接头。单模光纤的芯线直径为9微米左右,对1310微米和1550微米的单模激光衰减量较小。多模光纤芯线直径为62.5微米左右,在计算机网络中多用于850微米的多模光信号传输。单模光纤链路和多模光纤链路由于传输的光模式、优势波长和衰减机理完全不同,不可以混用。本故障的接头当从正向测试B链路的衰减量时,由于单模光纤一端与多模光纤熔接,不少多模光能量仍可以进入单模光纤,并从接头处的小直径处(单模9微米)全部射入大直径(多模62.5微米)的多模光卡的光接头内,表现为衰减量比正常链路大(实测为7.8dB),但信号基本可用。当从逆向进行测试时,大直径的多模光能量在接头处被小接头的单模光纤大部分阻断,表现为逆向衰减量很大,实测值为27dB。由于光卡的接收灵敏度较高,衰减余量大,故“水漫金山”事件之前,光卡接收到的信号能量处在光卡灵敏度的边缘,逆向信号勉强可以使用,此时的网络表现不稳定,有时速度很慢,有时偶尔中断(受气温和空气压力的波动影响)。“水漫金山”事件后,由于在重新处理链路时增加了一段30米长的跳线和一个光接头,致使光卡的接收能量超出边缘值,网络连接因此中断。

多模光卡都是成对单向使用光纤,即光卡发射用一根光纤,接收用另一根光纤,所以当对调接收和发射的光纤时,光卡接收和发射的信号都利用了单向衰减量小的方向,接收到的光信号能量较强,网络可以恢复正常运行。

本故障如果利用光时域反射计(OTDR)可以直接从仪器的屏幕上观察到回波曲线的不连续状态,有经验的测试者一般可以立即判定是链路混用的问题。

[诊断建议]首先,尽快更换误用的单模接头。第二,根据标准化施工施工和验收要求对所有光纤链路都要进行双向测试。第三,我们发现该大厦的设计图纸上无光纤链路的衰减量计算值标注,只标注了光纤的设计长度。由于实测的光纤衰减量无论是表现正常的链路或是不正常的链路其结果都比设计值偏高,估计存在使用劣质光纤和劣质接头的情况,且不排除用多段零碎光纤拼接链路的可能性。所以建议业主要求集成商检查所有实际的接头和熔接头数量。

[后记]五天后用户来电报告:他们测试了大部分的光缆链路,实际测试的光纤衰减值(扣除接头损耗后)基本符合标准,没有发现零碎拼接的情况。但所用的连接器和接头则绝大部分都不符合标准要求,为伪劣产品。好在接头的更换比较容易,不至于严重影响已有网络用户使用,损失也相对较小,计划全部更换之。

[故事之十四]千兆网升级工程,主服务器不可用,自制跳线RL参数不合格

[症状]某知名的大型电信产品开发商,最近对网络进行了升级,其负责通信及计算机网络的IT经理Grace小姐今天向网络医院报告,有数台新安装的服务器基本不能用,其它服务器也偶尔存在数据出错和访问速度停顿的问题,有的明显,有的则不太明显。在网络用户少时,对服务器进行Ping测试一般都能通过,但用户数量稍微增加时则有10%~30%的Ping测试损失。这几台服务器即使在用户数量很少时,也不能很好地登录和访问。奇怪的是,登录过

程有时候很顺利,有时候则根本无法登录,等待时间最高能达到5分钟,方能进入。

骨干网原计划用A TM架构,后更改设计为千兆以太网交换机作骨干交换机。公司总部所在大厦内的用户近3000个,楼高28层,每层用一台千兆以太网交换机作为核心交换机,下面则只设一级100兆工作组交换机,然后直接100兆交换到桌面。服务器安装的都是千兆以太网卡,直接与各层分布的千兆以太网交换机相连。网络维护人员对服务器工作平台进行了多次彻底地检查,并重新安装了工作平台,但现象依旧。经人指点,曾经怀疑是电缆问题,遂对相关的服务器连接电缆全部用Fluke公司的DSP100电缆测试仪进行了测试,结果都合格。试着更换部分电缆,无效。观察这几台服务器,多数时候访问流量不足1%。不知道何故?[诊断过程]服务器访问受阻,而且是同时有几台受阻,这其中的故障原因必定有某些共性存在。Grace告知,本次新安装的服务器共有17台,其中7台有明显问题,另10台大致正常。负责安装的是同一个人,由公司资深网络工程师潘先生直接执行,应该不存在由于安装上的差异而导致部分可用部分不可用的问题。

我们将网络测试仪接入用户端对网络工作状态进行初步了解。观察有明显连接问题的7台服务器与交换机的连接端口,发现流量均低于1%,但延迟数据包的比例很高,占86%~93%左右,错误的FCS帧比例也不低,约为5%~11%左右。这说明确实有大量的数据包指向了服务器而服务器却没有理会。另外的5%~11%的FCS错误数据包则可能来自服务器。对准服务器做ICMP Ping测试,损失约为90%~100%之间。以上故障提示电缆问题和电缆与服务器、交换机的接口物理性能有问题。用DSP-4000电缆分析仪测试服务器与交换机之间的硬跳线,7台有问题的服务器均显示回波损耗RL(Return Loss)参数不合格!继续测试另10台服务器与交换机的跳线,其回波损耗RL参数也全部不合格!用电缆分析仪定位的RL不合格点就在跳线电缆的端头处。故重新制作接头并测试,仍不合格。换用我们随身携带的软跳线接入一台服务器,服务器工作立刻恢复正常。看来确实是跳线电缆的问题。用我们提供的合格接头重新制作一段跳线,测试还是不合格。由此可知,问题出在跳线材料上。我们将随身携带的仅有的4根软跳线接入其中4台服务器中,这4台服务器全部恢复正常。用DSP4000选择五类线测试标准对电缆进行测试,全部合格。查看电缆外包皮则为Cat5e。[诊断评点]我们知道,电缆内有4对双绞线,在千兆以太网链路中,由于采用是4对线全双工5电平编码工作方式,每对负担250Mbps的双向数据流量,实际的信号等效物理带宽为100MHz,也就是说,五类线就基本可以满足千兆以太网的链路要求。实际使用当中则不然,千兆以太网对其它参数的要求更高,故一般建议使用超五类线承载千兆以太网应用。五类线则一般限于100兆以太网和A TM155等以内的速率应用。如果打算用五类线运行千兆以太网,则必须增加几项测试参数。Grace介绍他们采用的是超五类电缆,但经过DSP4000电缆分析仪实地认证测试证明只是五类电缆而已,也就是说Grace采用的是用五类线仿冒的超五类线。改用Cat5n标准测试,仍然不合格。这表明他们选用的五类线芯的品质本身也比较差,不能通过五类线的千兆应用标准Cat5n测试。这是因为,正规厂商提供的五类线在增加的千兆应用Cat5n标准测试中,不合格的产品比例一般都不会超过20%。

DSP100电缆测试仪只能测试五类线,所以测试结果全部合格。但工程设计采用的是超五类线,所以该仿冒的超五类线经DSP4000电缆分析仪测试被判为不合格。

4台不合格的跳线,长度均在2米以内,而另10台工作不良的服务器,与交换机的连接长度均在15米以上。这也是回波损耗RL不合格的典型表现:

即在RL不合格的链路中,电缆越短故障症状越严重。

这是因为,RL不合格将会导致信号反射增加,短链路的衰减量小,所以,反射的能量大多数会在链路的另一段在此反射从而叠加到中常的数据信号之中,造成信号的大量畸变,反映为错误的FCS帧,另一方面,访问服务器的流量由于无法正常传递到服务器,反映到交换机则是大量的延迟帧累积。在较长的不合格RL链路中,由于信号的衰减较大,多数反射能

量不能有效地叠加到正常信号之上,所以故障症状会轻一些,表现为错误较高或间歇性的停顿,尤其是流量高时错误帧较高,停顿频繁,但一般不会全部数据包都通不过链路。用户登录网络时受当时的平均流量和瞬间流量影响都很大,表现为登录时间的大幅度摆动,有时会比较顺利,因为此时的瞬间流量和平均流量都低,有时则表现为长时间等待,此时的平均流量或瞬间流量高,错误操作和重复操作大量出现。

[诊断建议]鉴于Grace采用的电缆为仿冒的超五类线,加之其它服务器也偶尔有数据错误和停顿的表现,故建议她将所有的服务器超五类链路重新进行检查,以确保网络的工作质量。[后记]第二天Grace电话告知,他们当天共抽测了包括全部服务器链路在内的200条链路,其中工程前期敷设的电缆基本上合格,后期敷设的电缆都不合格。后期的电缆数量约站40%,显然是工程施工中出了问题。他们将在近期内将链路全部测试一遍,以便确定到底有多少链路存在品质问题。粗略估计,重新返工敷设这些电缆至少也要耗费200万以上。

[故事之十五]用错链路器件,超五类线系统工程验收,合格率仅76%

[症状]某著名系统集成商今天来电反映严重质量问题,其主代理的某更加著名的电缆生产商的超五类电缆产品用于一项15000点的样板工程,布线系统每条电缆链路已经经过严格的现场认证测试,全部合格。正准备安排工程款结算,但一周前业主突然提出,工程商的现场认证测试报告有问题,工程款项暂停给付。理由是:测试报告上的电缆标准与选用的电缆类型不一致。集成商重新查验了工程商的全部测试报告,认为参数没有问题。测试报告上选用的是北美五类线测试标准。业主认为必须选用相应的超五类线标准进行认证测试,才算有效。集成商遂责成工程商重新选用超五类线标准进行现场认证测试,结果约有9%的链路不合格,15%的参数告警。

该工程由集成商总包,布线工程由另一家工程商负责施工。

[诊断过程]我们应邀立即赶往现场,随机抽取了100条链路进行测试,结果与工程商重新测试的结果基本一致,这应该是一起严重的质量事件。从抽测的参数结果统计分析,基本上是综合近端串扰PSNEXT、综合衰减串扰比PSACR和回波损耗RL三项参数不合格,最大超差分别是-1.5dB、

-1.0dB和-2.8dB,占9%,15%的参数在标准规定的边沿附近波动。由于波动范围在仪器的误差限以

内,所以测试参数显示为告警。启动DSP-4000电缆分析仪的自动诊断功能,仪器显示“故障”点在被测试链路的接头位置,即水平电缆的两端。仪器提示“检查接头或更换接头”。用随身携带的超五类接头/座更换之,重新测试仪器显示“PASS”。用工程商提供的连接模块连续更换了三条不合格的链路接头,然后进行验证测试,结果三条链路有两条不合格,而其中一条由原来的不合格转为合格。这说明,工程商选用的超五类电缆并未配用超五类连接模块,而是五类模块。工程商提供的数据是,电缆全部采用超五类线,接头“可能”采用的是五类线,准确信息不明。

[诊断评点]一般来讲,标准规定的五类线现场测试标准应该用在五类线系统的认证测试中而不能用于超五类布线系统中。许多工程商在进行超五类线工程认证测试是都选用五类线认证测试标准,理由之一是:超五类线国际标准在工程施工时还未出台,只有部分草案和建议,而厂商声称其产品的实际参数均超过即将出台的超五类线标准,所以只要不是施工工艺上的明显问题,链路参数都会合格;理由之二是:实际执行的测试程序在一段时间内大多数工程商都是事实上选用五类系统现场认证测试标准进行测试。因此本工程在上述背景下也无例外地选用了五类线标准进行现场认证测试。在与用户签订的验收测试程序中不指明使用何种具体标准进行现场认证测试。本项工程结束后,用户在验收全部合格后才“偶然”发现检测报告的标准是北美五类线标准,与选用的超五类线的电缆系统不相符,遂提出异议,并要求工程

服务器网络故障排除的实际案例与解决方案分享

服务器网络故障排除的实际案例与解决方案 分享 近年来,随着互联网的快速发展,服务器网络故障成为了许多企业 面临的一项紧迫问题。本文将分享一些实际案例,并提供一些解决方案,帮助您迅速排除服务器网络故障,确保业务的连续性和稳定性。 案例一:DDoS攻击造成的服务器宕机 在互联网环境中,DDoS攻击是一种常见的网络安全威胁。一家电 商公司就曾遭受了一次规模庞大的DDoS攻击,导致服务器宕机,所 有业务无法正常运行。为了排除故障,技术团队采取了以下措施: 1. 迅速检测攻击:通过实时监测网络流量,技术团队迅速发现了异 常流量的涌入,并确定这是一次DDoS攻击。 2. 提高带宽:为了抵御攻击,技术团队与网络服务提供商紧密合作,临时增加服务器的带宽,以缓解攻击带来的冲击。 3. 过滤恶意流量:技术团队配置了防火墙和入侵检测系统,对恶意 流量进行过滤,并将正常流量导向服务器,保证正常业务的运行。 经过上述措施,电商公司成功排除了服务器网络故障,业务迅速恢 复正常。 案例二:硬件故障导致的服务器宕机

服务器硬件故障也是一种常见的网络故障类型。一家在线游戏公司曾遇到了一次由于硬盘故障引起的服务器宕机。为了快速恢复业务,他们采取了以下解决方案: 1. 及时备份数据:游戏公司定期备份重要数据,确保在出现硬件故障时能够迅速恢复。 2. 更换故障硬件:技术团队迅速识别故障的硬盘,并将其更换为新的硬盘。在更换过程中,保证了其他硬件的正常运行,确保业务的连续性。 3. 数据恢复与测试:经过硬件更换后,技术团队进行了数据恢复和服务器测试,确保服务器能够正常运行,并验证数据的完整性。 通过以上措施,在线游戏公司成功恢复了服务器的运行状态,用户能够继续畅玩游戏。 总结与展望 服务器网络故障是现代企业所面临的一项严峻挑战,但通过科学的解决方案和快速的响应,这些问题是可以得到解决的。在处理服务器网络故障时,我们应该: 1. 实时监测与检测:建立强大的网络监测系统,能够及时发现并识别异常流量和故障。 2. 合作与沟通:与网络服务提供商建立良好的合作关系,共同应对网络故障的挑战。

最全的网络故障案例分析及解决方案

第一部:网络经脉篇2 [故事之一]三类线仿冒5类线,加上网卡出错,升级后比升级前速度反而慢2 [故事之二]UPS电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网络变慢、数据出错4 [故事之三]光纤链路造侵蚀损坏6 [故事之四]水晶头损坏引起大型网络故障7 [故事之五] 雏菊链效应引起得网络不能进行数据交换9 [故事之六]网线制作不标准,引起干扰,发生错误11 [故事之七]插头故障13 [故事之八]5类线Cat5勉强运行千兆以太网15 [故事之九]电缆超长,LAN可用,WAN不可用17 [故事之十]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网18 [故事之十一]网线共用,升级100Mbps后干扰服务器21 [故事之十二]电梯动力线干扰,占用带宽,整个楼层速度降低24 [故事之十三]“水漫金山”,始发现用错光纤接头类型,网络不能联通27 [故事之十四]千兆网升级工程,主服务器不可用,自制跳线RL参数不合格29 [故事之十五]用错链路器件,超五类线系统工程验收,合格率仅76%32 [故事之十六]六类线作跳线,打线错误造成100M链路高额碰撞,速度缓慢,验收余量达不到合同规定的40%;34 [故事之十七]六类线工艺要求高,一次验收合格率仅80%36 第二部:网络脏腑篇39 [故事之一] 服务器网卡损坏引起广播风暴39 [故事之二]交换机软故障:电路板接触不良41 [故事之三]防火墙设置错误,合法用户进入受限44 [故事之四]路由器工作不稳定,自生垃圾太多,通道受阻47 [故事之五]PC机开关电源故障,导致网卡工作不正常,干扰系统运行49 [故事之六]私自运行Proxy发生冲突,服务器响应速度“变慢”,网虫太“勤快” 52 [故事之七]供电质量差,路由器工作不稳定,造成路由漂移和备份路由器拥塞54 [故事之八]中心DNS服务器主板“失常”,占用带宽资源并攻击其它子网的服务器57 [故事之九]网卡故障,用户变“狂人”,网络运行速度变慢60 [故事之十]PC机网卡故障,攻击服务器,速度下降62 [故事之十一]多协议使用,设置不良,服务器超流量工作65 [故事之十二]交换机设置不良,加之雏菊链效应和接头问题,100M升级失败67 [故事之十三]交换机端口低效,不能全部识别数据包,访问速度慢70 [故事之十四]服务器、交换机、工作站工作状态不匹配,访问速度慢72 第三部:网络免疫篇75 [故事之一]网络黑客程序激活,内部服务器攻击路由器,封闭网络75 [故事之二]局域网最常见十大错误及解决(转载)78 [故事之三] 浅谈局域网故障排除81 网络医院的故事 时间:2003/04/24 10:03am来源:sliuy0 整理人:蓝天(QQ:) [引言]网络正以空前的速度走进我们每个人的生活。网络的规模越来越大,结构越来越复杂,新的设备越来越多。一个正常工作的网络给人们带来方便和快捷是不言而喻的,但一个带病

计算机网络故障分析及解决方案

计算机网络故障分析及解决方案 计算机网络故障分析及解决方案 引言 随着信息技术的飞速发展,计算机网络已经成为人们生活和工作中不可或缺的一部分。然而,在使用过程中,网络故障难免会发生,给用户带来不便。本文旨在探讨计算机网络故障的原因,并提出相应的解决方案,以便用户更好地应对网络故障问题。 背景 计算机网络故障是指在计算机网络运行过程中出现的问题,导致网络无法正常工作。根据故障性质和影响范围的不同,网络故障可以分为硬件故障、软件故障、人为故障等。硬件故障包括网络设备损坏、线路断裂等;软件故障包括操作系统故障、病毒攻击等;人为故障包括操作失误、恶意攻击等。 原因分析 计算机网络故障的原因多种多样,下面我们将从设备、软件和人为因素三个方面进行深入分析。 1、设备故障:网络设备如路由器、交换机、防火墙等出现硬件故障或配置错误,可能导致网络连接不稳定或无法连接网络。

2、软件故障:操作系统、网络协议、应用程序等软件出现问题,可能导致网络服务中断或数据传输异常。 3、人为因素:网络管理人员的操作失误、安全意识不强或恶意攻击,可能导致网络系统受损或数据泄露。 解决方案 针对以上网络故障原因,我们可以采取以下解决方案: 1、设备维护:定期对网络设备进行检查和维护,确保设备的硬件和配置处于正常工作状态。 2、软件升级:及时更新操作系统、网络协议和应用程序,以修复漏洞和排除故障。 3、人员培训:加强对网络管理人员的培训,提高他们的操作技能和安全意识,防止人为因素导致的网络故障。 实例分析 以下是一个实际案例,说明如何应用上述解决方案来解决计算机网络故障。 一家公司突然发现其内部网络无法访问外部互联网,且内部服务器无法连接数据库。经过初步排查,发现是网络防火墙出现了问题。进一步检查发现,网络防火墙的配置出现了错误。为解决这一问题,我们

宽带故障处理案例

宽带故障处理案例:无法上网的家庭用户 背景 某城市的一家宽带运营商,提供宽带服务给家庭用户。在该城市有大量用户使用该运营商的宽带服务。其中,有一个家庭用户报告无法上网的问题。该用户家庭共有4人,都需要使用互联网进行工作和学习。 过程 1.用户报障 –用户通过电话联系运营商的客服中心,向客服人员反映无法上网的问题。 –客服人员记录了用户的姓名、联系方式和住址,并为该用户开立了一份故障工单。 2.故障排查 –运营商将故障工单派发给网络维护团队,由他们负责故障排查。 –网络维护团队首先电话联系了用户,进一步了解情况,并约定了上门维修的时间。 –维修人员按照约定时间到达用户住址,并与用户进行面对面沟通。 –维修人员检查了用户家中的路由器、光猫等设备,并发现所有设备都正常工作。 3.线路检测 –维修人员怀疑是线路出现问题,需要进行线路检测。 –维修人员使用专业的测试仪器对用户家中的宽带线路进行了检测。 –检测结果显示,线路信号强度正常,不存在明显的故障。 4.交换设备 –维修人员决定将用户家中的光猫和路由器更换为新设备,以排除设备故障的可能性。 –新设备安装完成后,维修人员进行了相应的设置和测试。 5.故障解决 –经过更换设备后,用户仍然无法上网。 –维修人员决定联系运营商的网络运维中心,请他们进一步排查问题。 6.网络运维中心介入 –网络运维中心通过远程访问用户家中的网络设备,对其进行了排查和诊断。 –在诊断过程中,发现用户家中使用的路由器固件版本较旧,并且存在一个已知的软件漏洞可能导致无法上网。 7.路由器更新

–网络运维中心向用户提供了新版本的固件,并指导用户如何更新路由器固件。 –用户按照指导进行了固件更新,并重新启动了路由器。 8.故障修复 –经过固件更新和路由器重启后,用户成功连接到了互联网,问题得到了解决。 结果 通过以上的故障处理过程,用户的宽带故障问题最终得到了解决。运营商的客服中心、网络维护团队和网络运维中心共同协作,通过电话沟通、上门维修、线路检测和设备更换等方式,逐步排查并解决了问题。最后,在网络运维中心的指导下,用户成功更新了路由器固件,恢复了上网功能。 这个案例具有代表性和启发性。它展示了宽带故障处理的一般流程,并强调了团队合作和专业知识的重要性。在处理宽带故障时,需要全面考虑各种可能性,并采取适当的措施进行排查和修复。同时,及时与用户沟通并提供有效的解决方案也是非常关键的。

【干货】典型网络故障案例及处理思路

【干货】典型网络故障案例及处理思路 很多朋友经常提到网络故障,其中在交换机组网时常见的故障比较多。为了便于大家排除这些故障,在此介绍一些常见的典型故障案例及处理思路。 故障1:交换机刚加电时网络无法通信 故障现象 交换机刚刚开启的时候无法连接至其他网络,需要等待一段时间才可以。另外,需要使用一段时间之后,访问其他计算机的速度才快,如果有一段时间不使用网络,再访问的时候速度又会慢下来。 故障分析 由于这台交换机是一台可网管交换机,为了避免网络中存在拓扑环,从而导致网络瘫痪,可网管交换机在默认情况下都启用生成树协议。这样即使网络中存在环路,也会只保留一条路径,而自动切断其他链路。所以,当交换机在加电启动的时候,各端口需要依次进入监听、学习和转发状态,这个过程大约需要3~5分钟时间。

如果需要迅速启动交换机,可以在直接连接到计算机的端口上启动“PortFast”,使得该端口立即并且永久转换至转发状态,这样设备可以立即连接到网络,避免端口由监听和学习状态向转发状态过渡而必须的等待时间。 故障解决 如果需要在交换机加电之后迅速实现数据转发,可以禁用扩展树协议,或者将端口设置为PortFast模式。不过需要注意的是,这两种方法虽然省略了端口检测过程,但是一旦网络设备之间产生拓扑环,将导致网络通信瘫痪。 故障2:5口交换机只能使用4口 故障现象 办公室中有4台计算机,但是只有一个信息插座,于是配置了一台5口(其中一口为UpLink端口)交换机。原以为4台计算机刚好与4个接口连接,1个UpLink端口用于连接到局域网,但是接入到网络之后,与UpLink端口相邻的1号口无法正常使用。 故障分析 UpLink 端口不能被看作是一个单独的端口,这是因为它与相邻端口其实就是一个端口,只是适用的连接对象不同而已。借助UpLink端口,集线设备可以使

网络故障原因和解决方法

网络故障原因和解决方法 在生活和工作中,我们难免会遇到网络故障,尤其是在交换机组网时会遇到更多的问题,为了方便大家的工作,今天小编就给大家介绍一些经典的案例故障和解决方案。 1.交换机刚加电时网络无法通信 故障现象:交换机刚启动时无法连接网络,等待一段时间后才可以。使用一段时间后访问其他计算机的速度才加快,如果有一段时间不使用网络,再访问的时候速度又会慢下来。 故障分析:由于这台交换机是一台网管交换机,为避免网络中的拓扑环引起网络瘫痪,可以选择让网管交换机在默认情况下启用生成树协议。这样即使网络中存在环路,也会保留一条路径,自动切断其他链路。因此,但当交换机刚加电启动时,各端口会依次监听、学习和转发状态,这个过程大约需要3-5min。 解决方案:如果需要在交换机家电之后快速实现数据转发,可以选择禁用扩展树协议,或者将端口设置为诶portfastMOSHI。但是需要注意的是,这两种方法都能省略端口检测过程,但是一旦网络设备之间产生拓扑环,将导致网络通信瘫痪。 2. 升级千兆网络后,服务器连接出现断网 故障现象:刚开始服务器采用的是10/100mbit/s网卡,运行一切正常。但是更换1000mbit/s网卡后,连接至交换机1000Base-T端口后,服务器和网络就开始出现时断时续,连接不稳定的现象。经过测试,发现网线本身的连接没有问题。

故障分析:在100m的时候连接正常,只是在升级到1000m之后才出现故障,看来导致这种故障的原因可能是超五类布线问题。虽然超五类布线理论上能够支持1000m的网络,但是如果双绞线、配线架、网线和其他网络设备的品质不太好的话,很有可能无法实现这种带宽。 解决方案:分析中我们有提到过是超五类布线不能满足千兆网的问题,因此可以把网线更换为六类布线产品解决故障。 3. LINK灯一直在闪,但是网速超慢 故障现象:服务器上网速度很慢,开始打开网页的速度很慢,后来连网页也无法打开,ping网站也无法解析。刚开始怀疑是dns设置好u哦者服务器故障,但是这些都正常。尝试ping其他计算机,发现丢包率很高,而此时交换机的link灯不停闪烁,数据的交换非常频繁,这就说明计算机在不停发送和接收数据包。交换机关闭后重新打开,故障现象会得到缓和,但过一段时间又会出现故障。 故障分析:从故障来看,这是因为网络内的广播风暴所致,广播风暴的产生是因为很多原因,比如蠕虫病毒、交换机端口故障、网卡故障、链路冗余而没有启用生成树协议、网线线序错误或受到干扰等。在网络故障发生的时候查看交换机指示灯是一个很快捷的判断方法,可以直接查看网络连通性和网络流量。 解决方法:就目前来看,蠕虫病毒是造成网络瘫痪的最主要的原因。及时升级服务器,安装新版本的病毒查杀软件,基本可以解决问题。

宽带故障分析与案例

宽带故障分析与案例 一、EOC终端安装及指示灯说明(E320) 1、连接步骤 (1)将LAN1端口连接到一台电脑,用于上网(LAN2端口预留给IP机顶盒,用于视频点播业务)。 (2)、将STB/TV接口与机顶盒连接,用于接入用户收看数字电视使用。 (3)、使用同轴电缆将COAX NETWORK端口连接到同轴网络(接到用户的入户电缆上)。 (4)、将电源适配器输出端口与12VDC接口连接,将电源插头插入电源插座。 (5)、如果以上连接皆准确无误,并且电源正常供电,LED指示灯会显示客户终端E320的状态:如图一 图一(“猫”指示灯正常显示)

2、LED指示灯说明 (1)、LAN1 — RJ-45接口,连接网络设备的以太网接口; (2)、SYNC指示灯—显示客户终端设备E320与头端设备E220同步; (3)、HPNA指示灯—显示客户终端设备E320与头端设备E220建立数据通道; (4)、LAN1指示灯—显示LAN1接口的链接和数据活动; (5)、LAN2指示灯—显示LAN2接口的链接和数据活动; (6)、POWER指示灯—显示设备电源状态; (7)、STB/TV接口— F型连接器,连接机顶盒或电视机。 二、故障分析、解决办法及应用案例 注意:以下案例都是在用户终端“猫”及头端EOC完好的情况下进行的。 1、故障类型:线路接触不良(单一用户和局部用户)。 分析:数据信号对线路连接的可靠性要求较高,线路接触不良(—5头、—9头、分支分配器氧化、进水、损坏以及做头工艺未达标)会导致数据信号时断时续,用户不能上网或者用户能连接网络,但是网络极差。用户家“猫”的SYNC指示灯显示为不停地闪烁。 解决方法:仔细检查用户家“猫”到头端EOC这一段线路,将线路中氧化、进水、损坏以及做头工艺未达标的—5头、—9头、分

常见的网络故障分析与处理

常见的网络故障分析与处理 常见的网络故障分析与处理 随着网络在人们工作和生活中得到广泛应用,它给人们带来诸多便利的同时也带来了很多烦恼,即网络故障。下面YJBYS店铺为大家搜索整理了关于常见的网络故障分析与处理,欢迎参考阅读,希望对大家有所帮助!想了解更多相关信息请持续关注我们应届毕业生培训网! 如今,计算机网络技术飞速发展,在社会生活和工作中的重要性日趋凸显。它给人们带来了极大的便利,但是同时,层出不穷、种类繁多的网络故障也给人们带来了很多的烦恼。本文将简单介绍一些常见的网络故障及其处理方法。 一、计算机网络故障分类 网络故障按性质分为物理故障和逻辑故障;按对象分为线路故障、路由器故障和主机故障。 物理故障主要有网卡、网线、交换机、路由器等故障。 逻辑故障主要有网络协议、网络设备配置等故障。 二、物理故障分析与处理 1、线路故障 线路故障的发生率很高,包括线路损坏和线路受到严重电磁干扰。 处理方法:观察网线两端口处是否松动、磨损或断开,如发现问题则处理;否则继续处理如下:若线路短,可将网线一端插入正常RJ45插座内,另一端插入正常HUB端口,然后用Ping命令检查线路与网管中心服务器端口是否连通。若线路长,或网线不方便移动,就用网线测试器测量网线的好坏。目前,大约有70%的网络故障是由此类故障引起的。 2、集线器(或路由器)故障 集线器(或路由器)物理损坏,导致网络不通。 处理方法:替换排除法,用通信正常的网线将主机和集线器连接,如能正常通信,则可确定集线器正常;否则更换一个端口排查是端口故障还是集线器故障,如更换端口后能正常通信,则确定为端口故障;如

若始终不能正常通信,则可能是集线器故障。更换一个能正常使用的集线器,如能正常通信则确定为集线器故障。 3、主机物理故障 包括网卡松动,网卡物理故障,主机网卡插槽故障。 处理方法:网卡松动可重新拔插固定网卡;主机网卡插槽故障可更换一个网卡插槽;网卡物理故障可将其插到正常工作的主机上测试,若仍无法工作,即更换网卡。 四、逻辑故障分析与处理 1、路由器逻辑故障 包括路由器端口参数设定有误,路由器路由配置错误、路由器CPU利用率过高和路由器内存余量太小等。 逻辑故障最常见的是配置错误导致网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器路由配置错误以至于路由循环或找不到远端地址,或路由掩码设置错误等。比如,掩码为255.255.255.0,IP地址为192.168.0.1的主机就ping不通IP地址为192.168.1.1的路由器。 处理方法:该故障可用ping命令或用traceroute 命令(路由跟踪程序)查看远端地址中哪个节点出现问题,对该节点参数进行检查和修复。上述故障可通过修改掩码为255.255.0.0解决,也可以修改IP地址为同一网段解决。 2、一些重要进程或端口关闭 一些有关网络连接的'重要进程或端口受某种影响而意外关闭。这时网络管理系统将失去对该网络的控制。 处理方法:Ping线路近端的端口看是否能Ping通,如不通则检查该端口是否处于down状态,若是则说明该端口已经给关闭了。只需重新启动该端口,即可恢复线路的连通。 3、主机逻辑故障 包括网卡驱动程序安装不当、网卡设备有冲突、主机网络地址参数设置不当、主机网络协议或服务安装不当和主机安全性故障等。 1.网卡驱动程序安装不当

网络故障原因分析方法与典型案例

网络故障原因分析方法与典型案例 一、引言 随着互联网的普及和信息技术的发展,网络故障已经成为我们工作和生活中常见的问题之一。无论是企业组织还是个人用户,都可能遭遇网络故障导致的服务中断和信息丢失。因此,准确快速地找出网络故障的原因,并采取有效措施解决问题,成为了当今网络运维和管理中的关键任务。 本文旨在介绍网络故障原因分析的常用方法,并通过典型案例,分析具体的故障原因及解决方案,以帮助读者更好地理解和应对网络故障问题。 二、网络故障原因分析的常用方法 1. 硬件故障分析 硬件故障是网络故障中常见的原因之一。当网络设备或服务器出现硬件故障时,会导致整个网络的不稳定或服务中断。这时候,可以通过以下几种方式进行故障排查: (1)检查设备状态:查看设备指示灯,确认硬件设备是否工作正常。 (2)检测传输线路:检查网线和网络连接是否松动或损坏,以及交换机或路由器端口是否正常工作。

(3)使用诊断工具:例如网络测试仪、故障诊断工具等,对网络 设备进行全面的诊断和检测,以确定故障点。 2. 软件故障分析 软件故障是网络故障中另一个常见的原因。软件故障可能是由于配 置错误、程序漏洞或操作系统问题等引起的。在分析软件故障时,可 以采用以下方法: (1)检查配置文件:仔细检查路由器、交换机或防火墙等设备的 配置文件,查找配置错误或冲突。 (2)查看系统日志:通过查看操作系统和应用程序的日志,可以 快速定位故障点,了解故障发生的原因。 (3)更新软件版本:及时更新软件版本可以修复已知的漏洞和问题,提高系统的稳定性。 3. 网络安全问题分析 网络安全问题是导致网络故障的另一个主要原因。例如,网络入侵、病毒感染和DDoS攻击等都可能导致网络不稳定或服务中断。对于网 络安全问题,应采取以下措施: (1)加强防火墙和入侵检测系统(IDS/IPS)的设置:保持设备和 网络的安全性,阻止未经授权的访问。 (2)定期进行病毒扫描和漏洞评估:及时发现并修复系统中的漏洞,防止病毒感染或黑客攻击。

宽带常见故障及典型案例分析

维护专用!! 宽带常见故障处理办法及典型案例分析 1 ADSL故障处理方法 1.1故障分类 (1)按故障现象分类 ADSL按故障现象分为无法上网、频繁掉线、网速慢三类故障。无法上网故障通常指网络不通,不能拨号或拨号后无法浏览网页。频繁掉线故障主要指网络出现短暂的中断,重新拨号后可以恢复正常。网速慢是指网络速度大大低于用户申请带宽。 (2)按产生故障的因素分类 ADSL按故障现象分为用户端故障、线路故障、局端设备故障。 ——用户端故障约占ADSL总故障率的80%左右。包括用户端线路故障、用户端设备故障。用户端线路故障包括电话副机并机接线错误、语音/数据分离器使用方法错误、室内线路接触不良、线路质量劣化等。用户端设备故障包括用户电脑设备软硬件故障、ADSL modem故障、语音/数据分离器故障。 ——线路故障包括主干故障和下户线故障。其中下户线部分故障主要原因有交接箱和分线盒接线端子接触不良,下户线使用了较长距离的并行线,下户线线路质量劣化等。主干故障主要原因有主干线路质量劣化,主干线路距离超长。 ——局端故障包括DSLAM设备端口故障、接入服务器故障、数据错误。 1.2 无法上网的故障判断流程和相应的处置措施

用户申报无法上网故障,有近60%的原因是用户电脑软件或硬件故障,用户对网络缺乏操作使用常识等引起;约有20%的原因是由于用户室内线路故障、语音/数据分离器故障、电话并机接线错误等因素引起。 不能 能

不正常 正常 局域网通过路由器上网,或使用Modem路由方式,无法判断是否拨号成功 能拨号

其它错误号不能拨号 678错误号 不正常

常见网络故障实例及解决方案

常见网络故障实例及解决方案 网络故障是指在计算机网络中出现的各种异常情况,可能导致网络信 号中断、数据传输失败、网络速度缓慢等问题。以下是一些常见的网络故 障实例及其解决方案。 1.网络连接中断:当网络连接中断时,无法访问互联网或局域网。解 决此问题的方法包括: -检查网线是否插好,并确保网线没有被损坏。 -检查无线网络状况,确定无线网络是否工作正常。 -重启路由器和调制解调器,以恢复网络连接。 -确保路由器没有被过多连接设备拖慢速度。 -重启路由器,以清除缓存并恢复网络速度。 3.无法访问特定网站:当无法访问特定网站时,可能是因为网站服务 器故障或本地网络设置问题。解决此问题的方法包括: -检查其他设备是否可以正常访问该网站,如果可以,则可能是本地 设备的问题。 - 清除浏览器缓存和 cookie,尝试刷新网页或使用其他浏览器访问。 -检查网络代理设置,确保没有设置不当导致无法访问该网站。 4.IP地址冲突:当多个设备同时使用相同的IP地址时,会导致网络 故障。解决此问题的方法包括:

-检查设备是否设置为自动获取IP地址,避免手动设置相同的IP地址。 -重启路由器,以重新分配IP地址或释放占用的IP地址。 5.DNS解析失败:当无法解析域名时,无法访问互联网或特定网站。解决此问题的方法包括: -检查本地DNS设置,确保正确配置了DNS服务器。 - 使用公共 DNS 服务器,如 Google DNS 或 Cloudflare DNS,以避免 ISP 的 DNS 问题。 6.网络安全问题:网络故障也可能是由于网络安全问题引起的,如病毒、入侵等。解决此问题的方法包括: -安装杀毒软件和防火墙,保护计算机免受恶意软件和网络入侵。 -定期更新操作系统和软件,以修复已知的安全漏洞。

网络故障案例

网络故障案例 1.故障现象:运行正常的单位局域网突然出现网络阻塞现象,在计算机终端进 行网络数据的收发异常缓慢,当对这两台计算机执行ping测试时,出现严重的丢包现象。 故障判断:一是可能因局域网中有终端感染冲击波或震荡波等病毒,从而造成网络严重阻塞;二是网络中心交换设备可能出现了故障,从而造成设备交换性能降低、传输异常。 故障解决:对网络中心机房里的设备进行检查,发现一台24口交换机所有接入用户口的数据指示灯由闪烁状态变为了长亮。然而该交换机在正常通信时,指示灯应该为闪烁状态。 笔者怀疑该交换机已经死机,但在重新启动交换机后,故障现象依旧。断开接入的级联线,交换机指示灯恢复正常显示,接入级联线后故障出现。 对接入的级联线进行逐级排查后,发现故障源来自五楼的四个用户。笔者利用软件对这四个端口进行数据流量监控,发现这四个用户对外一直不停地发送UDP数据广播包。笔者顺藤摸瓜,到用户端进行了查看,发现这几个人正利用几台视频服务器接入局域网进行网络视频传输实验。 通过对视频传输编解码器进行查看,笔者发现他们将网络传输方式全部设置为了UDP 数据广播,造成几个设备同时向外发送广播包,给网络造成了严重的广播风暴干扰,致使此次网络故障发生。 在了解情况后,笔者根据用户的视频传输需求,对设备本身的网络传输模式以及传送协议类型进行了更改,网络广播风暴得到消除,局域网通信恢复正常。 总结 部分视频网络传输设备为了便于网络视频点播,常常采用广播数据包的形式对外进行发送。采用这种方式后,在专用网络中,网络拥挤现象并不突出,但在用户通信流量较大的局域网中,拥挤现象则表现得较为突出。因此,可以通过相关设置来避免此类传输方式对全网的影响,也可建立专用网络信道来保障不同模式下的视频数据流传输,或通过划分网络交换机端口、设置VLAN等方式减少大数据流量对全网的影响,确保整个局域网的正常工作。 2.不久前公司因业务需要,对网络进行了升级。将原来10Mbps端口的交换机 全部更换为10/100Mbps自适应的Cisco交换机,其他设备保持不变,如代理服务器等。网络升级后,用户都反映访问网上邻居比以前快多了,这主要是

网络故障案例

网络故障案例 在当今信息化社会,网络已经成为人们生活和工作中不可或缺的一部分。然而,随着网络规模的不断扩大和网络设备的复杂化,网络故障也时有发生。网络故障不仅会给我们的生活和工作带来诸多不便,还可能导致重大的经济损失。因此,及时有效地解决网络故障显得尤为重要。 网络故障的种类繁多,可能是硬件故障、软件故障、网络拥堵、网络攻击等多 种因素导致的。在这里,我将结合实际案例,介绍一起网络故障的解决过程,以期能够帮助大家更好地理解和解决网络故障问题。 案例一,企业网络拥堵。 某公司的网络在每天下午的高峰期都会出现网络拥堵的情况,导致员工的工作 效率明显下降。经过排查,发现是因为部分员工在高峰期使用大量带宽的应用程序,导致网络带宽不足而引起的网络拥堵。 解决方案,首先,我们需要对网络流量进行监控和分析,找出高峰期的网络流 量分布情况。然后,通过网络设备的配置,对网络流量进行合理分流,避免某些应用程序占用过多带宽。同时,可以考虑增加网络带宽,以满足高峰期的需求。最后,对员工进行网络使用规范的培训,引导他们在高峰期避免集中使用大量带宽的应用程序。 案例二,家庭网络硬件故障。 某用户家庭的无线路由器突然无法连接互联网,经过检查发现是路由器硬件故 障导致的无法正常工作。 解决方案,首先,需要对路由器进行重启,看是否能够恢复正常工作。如果重 启无效,可以尝试更新路由器的固件或者恢复出厂设置。如果这些方法仍然无法解

决问题,可能需要更换新的路由器。在更换路由器之后,还需要重新配置路由器的网络参数,以确保网络能够正常连接。 案例三,网络安全漏洞。 某企业的内部网络遭受了来自外部的网络攻击,导致公司重要数据泄露,给公司的经济利益和声誉带来了严重损失。 解决方案,首先,需要对公司的网络安全设备进行全面检查,确保设备的防护功能正常运行。同时,可以考虑加强网络安全设备的配置,增加网络入侵检测和防御的能力。另外,对公司内部员工进行网络安全意识的培训,加强员工对网络安全的重视和防范意识,避免因为员工的疏忽而导致网络安全漏洞。 总结: 网络故障是我们在日常生活和工作中经常遇到的问题,解决网络故障需要我们对网络设备和网络环境有深入的了解,同时还需要我们具备一定的网络故障排查和解决能力。希望通过以上案例的介绍,能够帮助大家更好地理解和解决网络故障问题,提高网络故障的解决效率,保障我们的网络安全和正常使用。

企业IT网络常见故障案例分析

企业IT网络常见故障案例分析 随着信息技术的不断发展,企业IT网络已经成为企业运营的重要基 础设施。然而,由于网络系统的复杂性和规模,网络故障仍然是企业IT 运维工作中常见的问题之一、本文将分析企业IT网络常见故障案例,并 探讨解决策略。 一、网络连接故障 网络连接故障是企业IT网络中最常见的问题之一、该问题通常由以 下原因引起:网络线路故障、设备故障、网络配置错误等。一旦发生连接 故障,企业内部的通信和对外部的连通性都会受到影响。 解决策略: 1.检查网络线路连接是否正常,确保连接丝插好且紧固。 2.检查设备是否正常工作,例如路由器、交换机、网卡等设备的指示 灯是否正常。 3.检查网络配置,如IP地址、子网掩码、网关等是否正确设置。 4. 使用网络故障诊断工具(例如ping命令)检测网络连接是否正常,并根据诊断结果进行相应的调整。 二、网络速度慢 解决策略: 1.分析网络流量,找出网络拥堵的瓶颈。可以使用网络监控工具来检 测哪些设备或应用程序占用了大量的带宽。

2.扩大带宽,以满足企业的网络需求。可以与网络服务提供商协商, 购买更高带宽的网络连接。 3.升级设备,如路由器、交换机等,以提供更高的性能。可以通过更 换设备或优化设备配置来提升网络速度。 4.对网络流量进行优化,如使用流量控制措施、调整网络访问策略等。 三、网络安全问题 随着网络攻击的增多,企业IT网络的安全问题变得越来越重要。网 络安全问题包括入侵、数据泄露、恶意软件等。一旦出现安全问题,企业 的商业机密和数据资产都会受到严重威胁。 解决策略: 1.设置防火墙和入侵检测系统,对网络入侵进行实时监控和防护。 2.加强对网络设备的管理和配置,及时修复设备的安全漏洞,并保持 设备软件的更新。 3.加强员工网络安全培训,增强员工的网络安全意识,防止社会工程 学攻击和网络钓鱼等形式的攻击。 4.定期备份企业数据,并设置访问控制和加密措施,确保数据的安全 存储和传输。 四、移动设备接入问题 随着移动设备的普及,员工使用移动设备接入企业网络的情况也越来 越多。然而,由于移动设备的多样性和复杂性,移动设备接入问题也成为 企业IT网络的一个重要难题。

服务器网络故障排除的实际案例与解决方案

服务器网络故障排除的实际案例与解决方案近年来,随着互联网的快速发展和技术的不断进步,服务器已成为 许多企业和组织中不可或缺的重要设备。然而,由于各种原因,服务 器网络故障问题时有发生,给企业的正常运营带来了严重困扰。本文 通过实际案例分析,探讨了服务器网络故障的解决方案,希望能为读 者提供一些有益的参考。 案例一:硬件问题引发的服务器故障 某ABC公司的服务器突然无法正常启动,导致了办公网络的瘫痪。经过初步排查,发现服务器的硬件出现了故障。为了快速解决问题, 该公司采取了以下解决方案: 1. 联系供应商:首先,他们联系了服务器的供应商,请求提供技术 支持和维修服务。供应商派遣了专业的工程师上门检修,并且在维修 期间提供了临时的替代服务器,以保证企业的运营不受太大影响。 2. 数据备份恢复:为了保护企业数据的安全,该公司定期进行数据 备份。当服务器故障时,他们可以迅速恢复备份的数据,以确保业务 的连续性。 3. 质量检测和维护:针对服务器硬件故障的原因进行了深入分析, 并制定了更加严格的质量检测和维护计划,以提高服务器的稳定性和 可靠性。 案例二:网络攻击导致的服务器崩溃

某XYZ公司的服务器在一次网络攻击后突然崩溃,无法恢复正常运行。为了解决这个问题,该公司采取了以下措施: 1. 强化网络安全:对网络进行全面的安全评估,并加强了网络防护措施。他们安装了防火墙、入侵检测和防护系统,并配置了强密码和访问控制策略,以抵御潜在的网络攻击。 2. 安全备份和恢复:该公司建立了完备的数据备份和恢复系统,确保服务器数据的安全和可靠性。定期进行备份,并在发生故障时可以快速恢复,以减少损失和停机时间。 3. 灾难恢复计划:制定了灾难恢复计划,明确了重要数据和应用的备份和恢复流程。在服务器崩溃后,他们能够迅速恢复业务连续性,并最大限度地减少了损失。 总结与展望 通过以上两个实际案例的分析,我们可以看出,在排除服务器网络故障时,正确的解决方案对于企业来说至关重要。供应商的支持和技术服务是解决硬件故障的关键,及时备份和恢复数据是保障企业连续性的重要手段。同时,加强网络安全意识和防护措施,建立灾难恢复计划,都能有效预防和减少服务器故障带来的影响。 未来,随着技术的不断进步,我们相信服务器网络故障排除的解决方案将会更加完善和有效。同时,企业和组织应该增强风险意识,加强网络安全的投入,确保服务器的稳定运行。只有在不断探索和改进

网络故障处理案例分析

网络故障处理案例分析 网络故障处理案例分析 对网络整体结构的掌握,是处理网络故障的前提,下面是YJBYS收集的网络故障的案例分析,希望对你有帮助! 案例二: [网络故障] 某大型化工股份有限公司信息中心报告网络故障,新近进行网络的更新升级和扩容,由10M网全部提升为100M以太网,核心交换机为千兆以太网。完工后系统试机时发现,大部分的网络成员感觉速度慢,有时数据出错,但子网段内拷贝数据速度基本不受影响。Ping测试检查所有工作站和服务器均正常。 遵照网络医院上周的建议他们对网络布线系统进行严格认证测试,布线施工质量优良,全部电缆光缆链路按超五类标准测试参数均合格,没有发现任何问题。由于信息中心除了电缆和光缆的认证测试仪外,没有其它测试维护工具,无法对网络进行评测。虽然仔细进行了网络系统及平台的重新安装,仍无济于事。 由于总公司希望全面提高ERP系统的覆盖范围,新增的网络设备比较多,网上成员也增加了二倍多,工作站从原来的220台猛增至680台,办公区和生产区之间、生产区和生产区之间均用光缆和路由器连接起来,因此洪主任抱怨现在网络的管理成了问题,查找故障不象从前那样容易了,一来网络规模比以前大多了,故障数量和种类增多,二来网络结构变得比以前复杂多了,故障的定位分析和隔离变得比较困难。 该网络各子网段基本上采用核心交换机和工作组交换机作网络骨架,用桌面交换机和集线器混用的方式构成基层用户接入平台,核心交换机之间为千兆以太网连接,用户全部为100M到桌面。为了便于维护和管理,同时也从安全角度考虑,设计方案中将大多数数据服务器均安装在了网管中心。 [诊断过程]

网络为新扩容的网络,从拓扑图上看不出网络结构设计有何不合理之处。由于在各子网段内拷贝数据时速度基本不受影响,所以分析数据多在跨网段时受阻。将网络测试仪接入办公区网络的网管中心,打开网段内的全部4个路由器的端口观察,网段间的流量为27%~42%之间,由于网络没有多媒体应用启用,因此如此高的流量记录是不正常的。我们需要观察这些流量的走向,于是在办公区将网络测试仪串入路由器与交换机之间(100M端口)监测,启动IP矩阵监测和以太网MAC矩阵监测功能,观察数据流向。结果如下,大部分的数据流向均指向办公区的WINS服务器,而WINS响应流量极少。查看拓扑图,该WINS服务器直接与一台工作组交换机相连,打开工作组交换机的端口记录检查,流量记录为13%,伴随少许碰撞指示记录。 为了不影响用户的使用,下班后我们从测试仪所在端口向WINS 服务器所在交换机端口P32的邻近端口P31发送高额流量,选值为90Mbps流量冲击,并在此邻近端口P31观察接收到的流量记录,记录显示为89.7Mbps,这说明端口P31的通道测试是合格的。然后对准WINS服务器所在端口P32发送90Mpbs的高额流量,观察P32端口流量冲击记录,结果显示为13.5%,并出现大量延迟帧,表明该端口通道测试不合格。将流量发送方向指向与该端口连接的上游端口P17,观察P17流量显示为90Mbps。 问题很清楚,被丢弃和延迟的流量就在P32口。对WINS本身作WINS查询,10次测试响应只有2次,响应地址正确,响应率20%。重新测试WINS链路电缆,合格。测试WINS服务器网卡,合格;测试交换机的端口P32,低效。在此临时将WINS服务器端口P32改接到端口P33,重新启动系统,5分钟后进行上述测试,全部合格。为了验证P32口低效,用网络测试仪接入该端口并向P17发送90M流量,收到流量为12%。由于这台工作组交换机为新品,尚在保用期之内,因此建议立即更换之。 [诊断评点] 网络中的大多数数据服务器由于设置在办公区的网管中心,所以公司整个系统的工作依赖集中式系统中的这些专用数据服务器,链路

网络常见故障分析及处理方法

网络常见故障分析及处理方法 网络常见故障分析及处理方法 1、线路故障: 线路故障最常见的情况就是线路不通,诊断这种故障可用ping 检查线路远端的路由器端口是否还能响应,或检测该线路上的流量 是否还存在。一旦发现远端路由器端口不通,或该线路没有流量, 则该线路可能出现了故障。这时有几种处理方法。 首先是ping线路两端路由器端口,检查两端的端口是否关闭了。如果其中一端端口没有响应则可能是路由器端口故障。如果是近端 端口关闭,则可检查端口插头是否松动,路由器端口是否处于down 的状态;如果是远端端口关闭,则要通知线路对方进行检查。 进行这些故障处理之后,线路往往就通畅了。如果线路仍然不通,一种可能就得线路本身的问题,看是否线路中间被切断;另一种可能 就是路由器配置出错,比如路由循环了。就是远端端口路由又指向 了线路的近端,这样线路远端连接的网络用户就不通了,这种故障 可以用traceroute来诊断。解决路由循环的方法就是重新配置路由 器端口的静态路由或动态路由。 2、路由器故障: 事实上,线路故障中很多情况都涉及到路由器,因此也可以把一些线路故障归结为路由器故障。但线路涉及到两端的路由器,因此 在考虑线路故障是要涉及到多个路由器。有些路由器故障仅仅涉及 到它本身,这些故障比较典型的就是路由器CPU温度过高、CPU利 用率过高和路由器内存余量太小。 其中最危险的是路由器CPU温度过高,因为这可能导致路由器烧毁。而路由器CPU利用率过高和路由器内存余量太小都将直接影响 到网络服务的质量,比如路由器上丢包率就会随内存余量的下降而 上升。

检测这种类型的故障,需要利用MIB变量浏览器这种工具,从路由器MIB变量中读出有关的数据,通常情况下网络管理系统有专门 的管理进程不断地检测路由器的关键数据,并及时给出报警。而解 决这种故障,只有对路由器进行升级、扩内存等,或者重新规划网 络的拓扑结构。 另一种路由器故障就是自身的配置错误。比如配置的协议类型不对,配置的端口不对等。这种故障比较少见,在使用初期配置好路 由器基本上就不会出现了。 3、主机故障: 主机故障常见的现象就是主机的配置不当。比如,主机配置的 IP地址与其他主机冲突,或IP地址根本就不在子网范围内,这将 导致该主机不能连通。如泰州无线电管理处的网段范围是 172.17.14.1—172.17.14.253,所以主机地址只有设置在此段区间 内才有效。 还有一些服务设置的故障。比如E-Mail服务器设置不当导致不 能收发E-Mail,或者域名服务器设置不当将导致不能解析域名。主 机故障的另一种可能是主机安全故障。比如,主机没有控制其上的finger,rpc,rlogin等多余服务。而恶意攻击者可以通过这些多 余进程的.正常服务或bug攻击该主机,甚至得到该主机的超级用户 权限等。 4、还有一些主机的其他故障: 比如不当共享本机硬盘等,将导致恶意攻击者非法利用该主机的资源。发现主机故障是一件困难的事情,特别是别人恶意的攻击。 一般可以通过监视主机的流量、或扫描主机端口和服务来防止可能 的漏洞。当发现主机受到攻击之后,应立即分析可能的漏洞,并加 以预防,同时通知网络管理人员注意。现在,各市都安装了防火墙,如果防火墙地址权限设置不当,也会造成网络的连接故障,只要在 设置使用防火墙时加以注意,这种故障就能解决。

路由器故障典型案例分析

路由器故障1:不堪重负,路由器外网口关闭 1、网络环境 某单位使用的是Cisco路由器,租用电信30MB做本地接入和l0MB教育网双线路上网,两年来网络运行稳定,路由器也没有发生故障。随着网络用户数量增加,原来电信30MB已不能满足需要,于是决定租用电信1OOMB来解决带宽问题。电信采用光纤接入到单位机房后,使用百兆光电转换器经转换后通过双绞线接到路由器外网口上面,该路由器使用是千兆电口作为外网口,由于光电转换器只有1O0MB,该端口连接后速度显示100MB。 2、外网端口流量为零 经过几天的运行,管理员发现每天当路由器外网口流量超过50Mbps/s后,该端口就会出现“Receive Errors” ,流量超大,错误信息很多。突然有一天,出现外网不能上了,Telnet到路由器上面,发现电信对应的外网口没有流量,显示状态为UP,路由器上其他端口工作正常。第一反映是电信的那边出现问题了,是电话通知电信那边查检一下,对方很快回应说没有什么问题,并询问是否光电转换器死机了。于是管理员将光电转换器重启后,故障依然。没有办法,只好将路由器重启一下,故障排除。谁知,过了不到一个小时,故障又重现。Telnet到路由器后将该外网口执行shutdown 和undo shutdown后,故障排除。谁知,将所有有关病毒的安全策略应用到该端口,将tcp mss修改为2048(厂商默认1460),故障依然出现。 3、故障分析 管理员发现在故障发生时,CPU显示23%,Memory为33%,不算太高,关键是其他接口都正常工作,看样子问题还是出现在这个端口上面。可这个端口已用了两年了,升级扩容以前没有出现端口不能正常通讯的情况,端口硬件应该是有什么问题。通过网管软件对端口关闭前的流量检测,发现该端口关闭前有很大的流量通过(超过80Mbps/s) ,显示端口的错误信息也比较多。通过分析得知应该是网络流量太大,利用率过高所致。流量超过80%后,造成端口不能正常。如果该端口能工作千兆模式下,100MB带宽仅利用该端口10%,这样端口可以轻松处理。 4、解决方案 在找到症结后,推荐的解决方案是购买千兆光电转换器代替原来的百兆设备,而且价格也比较便宜。但为了保证网络运行的稳定性,该单位决定直接购买一个千兆光口路由模块,直接利用光纤进行通讯,减少网络延时。电信则通过端口限速来控制保证提供百兆带宽。通过一段时间运行,发现该端口除了有少量错误信息外,再没有出现过端口无故关闭情况。 路由器故障2:路由器为何发包失败 在路由器的配置过程中,经常会碰到这样的问题:网络通信正常,路由器可以成功路由数据包到目标网络,但是从路由器发的数据包却传送失败,故障表现为路由器ping目标网络失败,下面就是一个典型的案例。 (1).现象描述 某单位的网络配置完成后,管理员在测试网络连通性时发现:从PC机(6.159.245.195) 向目标网络 (6.159.245.65/26)发送Ping时,路由器R1可以成功转发数据包,然而从R1向目标网络(6.159.245.65/26) 发送ping时,出现ping失败。 (2).排错过程

相关主题
相关文档
最新文档