服务器故障解决思路

服务器故障解决思路
服务器故障解决思路

遇到服务器故障,问题出现的原因很少可以一下就想到。基本上都会从以下步骤入手:

一、尽可能搞清楚问题的前因后果

不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。

必须搞清楚的问题有:

?

故障的表现是什么?无响应?报错? ?

故障是什么时候发现的? ?

故障是否可重现? ?

有没有出现的规律(比如每小时出现一次) ?

最后一次对整个平台进行更新的内容是什么(代码、服务器等)? ?

故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? ?

基础架构(物理的、逻辑的)的文档是否能找到? ?

是否有监控平台可用? (比如Munin 、Zabbix 、 Nagios 、 New Relic … 什么都可以) ? 是否有日志可以查看?. (比如Loggly 、Airbrake 、 Graylog…)

最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。只能再继续摸索了。

二、有谁在?

1 2 $ w $ last

用这两个命令看看都有谁在线,有哪些用户访问过。这不是什么关键步骤,不过最好别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。(ne cook in the kitchen is enough.)

三、之前发生了什么?

1 $ history

查看一下之前服务器上执行过的命令。看一下总是没错的,加上前面看的谁登录过的信息,应该有点用。另外作为admin 要注意,不要利用自己的权限去侵犯别人的隐私哦。

到这里先提醒一下,等会你可能会需要更新 HISTTIMEFORMAT 环境变量来显示这些命令被执行的时间。对要不然光看到一堆不知道啥时候执行的命令,同样会令人抓狂的。

四、现在在运行的进程是啥?

1 2 $ pstree -a

$ ps aux

这都是查看现有进程的。 ps aux 的结果比较杂乱, pstree -a 的结果比较简单明了,可以看到正在运行的进程及相关用户。

五、监听的网络服务

1 2 3 $ netstat -ntlp

$ netstat -nulp

$ netstat -nxlp

我一般都分开运行这三个命令,不想一下子看到列出一大堆所有的服务。netstat -nalp 倒也可以。不过我绝不会用 numeric 选项 (鄙人一点浅薄的看法:IP 地址看起来更方便)。

找到所有正在运行的服务,检查它们是否应该运行。查看各个监听端口。在netstat 显示的服务列表中的PID 和 ps aux 进程列表中的是一样的。

如果服务器上有好几个Java 或者Erlang 什么的进程在同时运行,能够按PID 分别找到每个进程就很重要了。

通常我们建议每台服务器上运行的服务少一点,必要时可以增加服务器。如果你看到一台服务器上有三四十个监听端口开着,那还是做个记录,回头有空的时候清理一下,重新组织一下服务器。

六、CPU 和内存

1 2 3 4 $ free -m

$ uptime

$ top

$ htop

注意以下问题:

?

还有空余的内存吗? 服务器是否正在内存和硬盘之间进行swap?

? 还有剩余的CPU 吗? 服务器是几核的? 是否有某些CPU 核负载过多了? ? 服务器最大的负载来自什么地方? 平均负载是多少? 七、硬件

1 2 3 $ lspci

$ dmidecode

$ ethtool

有很多服务器还是裸机状态,可以看一下:

?

找到RAID 卡 (是否带BBU 备用电池?)、 CPU 、空余的内存插槽。根据这些情况可以大致了解硬件问题的来源和性能改进的办法。

? 网卡是否设置好? 是否正运行在半双工状态? 速度是10MBps? 有没有 TX/RX 报错? 八、IO 性能

1 2 3 4 $ iostat -kx 2

$ vmstat 2 10

$ mpstat 2 10

$ dstat --top-io --top-bio

这些命令对于调试后端性能非常有用。

?

检查磁盘使用量:服务器硬盘是否已满?

? 是否开启了swap 交换模式 (si/so)?

? CPU 被谁占用:系统进程? 用户进程? 虚拟机?

? dstat 是我的最爱。用它可以看到谁在进行 IO : 是不是MySQL 吃掉了所有的系统资源? 还是你的PHP 进程? 九、挂载点 和 文件系统

1 2 3 4 5 6 7 $ mount

$ cat /etc/fstab

$ vgs

$ pvs

$ lvs

$ df -h

$ lsof +D / /* beware not to kill your box */

?

一共挂载了多少文件系统? ?

有没有某个服务专用的文件系统? (比如MySQL?) ?

文件系统的挂载选项是什么: noatime? default? 有没有文件系统被重新挂载为只读模式了? ?

磁盘空间是否还有剩余? ?

是否有大文件被删除但没有清空? ? 如果磁盘空间有问题,你是否还有空间来扩展一个分区?

十、内核、中断和网络

1 2 3 4 5 $ sysctl -a | grep ...

$ cat /proc/interrupts

$ cat /proc/net/ip_conntrack /* may take some time on busy servers */ $ netstat

$ ss -s

?

你的中断请求是否是均衡地分配给CPU 处理,还是会有某个CPU 的核因为大量的网络中断请求或者RAID 请求而过载了? ?

SWAP 交换的设置是什么?对于工作站来说swappinness 设为 60 就很好, 不过对于服务器就太糟了:你最好永远不要让服务器做SWAP 交换,不然对磁盘的读写会锁死SWAP 进程。 ?

conntrack_max 是否设的足够大,能应付你服务器的流量? ?

在不同状态下(TIME_WAIT, …)TCP 连接时间的设置是怎样的? ? 如果要显示所有存在的连接,netstat 会比较慢, 你可以先用 ss 看一下总体情况。

你还可以看一下 Linux TCP tuning 了解网络性能调优的一些要点。 十一、系统日志和内核消息

1 2 3 4 $ dmesg

$ less /var/log/messages

$ less /var/log/secure

$ less /var/log/auth

? 查看错误和警告消息,比如看看是不是很多关于连接数过多导致?

? 看看是否有硬件错误或文件系统错误?

? 分析是否能将这些错误事件和前面发现的疑点进行时间上的比对。 十二、定时任务

1 2 $ ls /etc/cron* + cat $ for user in $(cat /etc/passwd | cut -f1 -d:); do crontab -l -u $user; done

?

是否有某个定时任务运行过于频繁?

? 是否有些用户提交了隐藏的定时任务?

? 在出现故障的时候,是否正好有某个备份任务在执行? 十三、应用系统日志

这里边可分析的东西就多了, 不过恐怕你作为运维人员是没功夫去仔细研究它的。关注那些明显的问题,比如在一个典型的LAMP (Linux+Apache+Mysql+Perl )应用环境里:

?

Apache & Nginx ; 查找访问和错误日志, 直接找 5xx 错误, 再看看是否有 limit_zone 错误。 ?

MySQL ; 在mysql.log 找错误消息,看看有没有结构损坏的表, 是否有innodb 修复进程在运行,是否有disk/index/query 问题. ?

PHP-FPM ; 如果设定了 php-slow 日志, 直接找错误信息 (php, mysql, mem cache, …),如果没设定,赶紧设定。 ?

Varnish ; 在varnishlog 和 varnishstat 里, 检查 hit/miss 比. 看看配置信息里是否遗漏了什么规则,使最终用户可以直接攻击你的后端? ? HA-Proxy ; 后端的状况如何?健康状况检查是否成功?是前端还是后端的队列大小达到最大值了?

结论

经过这5分钟之后,你应该对如下情况比较清楚了:

?

在服务器上运行的都是些啥?

? 这个故障看起来是和 IO/硬件/网络 或者 系统配置 (有问题的代码、系统内核调优, …)相关。

? 这个故障是否有你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache 后台进程。

你甚至有可能找到真正的故障源头。就算还没有找到,搞清楚了上面这些情况之后,你现在也具备了深挖下去的条件。继续努力吧!

十大X86服务器常见故障——硬件篇

十大X86服务器常见故障——硬件篇 ?摘要:由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过…… ?标签:X86服务器常见故障 说起X86平台的CPU,我们可能会如数家珍的报出N多种,Inter的至强5600、至强7500,AMD强劲的12核心x86处理器--“Magny-Cours”(马尼库尔)等等。在它的基础上,辅以带ECC、ChipKill、热插拔技术的内存;防止数据异常丢失的RAID硬盘;提供不中断电力供应的冗余电源等等共同构建出一个完整的X86服务器。 由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。因此,X86应该算是我们广为熟知的架构了。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过…… 硬件故障篇 Top10 网卡 服务器网卡 故障回放:近几日,内网用户通过代理服务器进行连接时不太稳定,ping的速度有时低于1ms,有时高达500多ms,数值相差之大也说明了网络时好时坏。起先判断是蠕虫病毒作祟,但经过详细筛查,确定非病毒引发的故障;再对网线进行测试,衰减、串扰、回波损耗等各项技术指标都在正常指标之内,最后更换网卡故障才得以解决。 解决方案:我们知道一款优秀的网卡除了拥有高速率外,还需要关注2个技术指标,TOE(TCPOffloadEngine,TCP减负引擎)技术和RSS(Receive-sideScaling接收端调节)技术,它们能大幅减轻CPU的资源,解决了输入/输出流(I/O)的瓶颈,使网络吞吐大幅提升,这两项技术可以使系统的响应指标的TPS值能提升2.1到2.5倍,所以一块好的网卡是保证服务器快速、稳定连接的保障。 一般来说,网卡出现故障的状况较低,即便是损坏也可以使用独立网卡代替,它的危害程度也不是很高。 危害程度:★★ 控制难度:★

计算机网络故障处理与维护方法(毕业论文)

五年制高职商贸信息专业毕业论文 计算机网络故障处理与维护方法 班级 姓名 学号 指导老师

目录 【摘要】 (1) 一、计算机网络故障的分类 (1) (一)计算机网络物理故障 (4) (二)计算机网络逻辑故障 (3) 二、计算机网络常见故障的处理 (1) (一)本地连接断开 (1) (二)本地连接收限制或无连接 (1) (三)本地连接正常,但浏览器无法连接网页 (1) 三、如何加强网络的维护 (1) (一)概括的说,应做到: (4) (二)具体来说,应该做到: (3) 四、结论 (8) 【参考文献】 (3)

计算机网络故障处理与维护方法 【摘要】 本文就网络中常见故障进行分类,针对各种常见网络故障提出相应的解决方法,并就如何加强网络的维护进行了概括论述。 网络出现故障是极普遍的事,其种类也多种多样,在网络出现故障时对出现的问题及时进行维护,以最快的速度恢复网络的正常运行,掌握一套行之有效的网络维护理论方法和技术是至关重要的。 【关键词】 网络故障分类处理维护 一、计算机网络故障的分类 计算机网络故障主要是指,用户在使用计算机网络过程中或网络在运行过程中出现的问题,导致计算机网络不能正常使用。通常计算机网络故障可以按照其故障的性质,分为物理故障和逻辑故障。 (一)物理故障: 物理故障也就是硬件故障,一般是指网络设备或线路损坏、接口松动、线路受到严重干扰,以及因为人为因素导致的网络连接错误等情况。出现该类故障时,通常表现为网络断开或时断时续。物理故障主要包括: (1)线路故障

线路故障的发生率在日常的网络维护中非常高,约占发生网络故障的60%~70%。线路故障包括线路的损坏和线路受到严重干扰。 (2)接口故障 接口故障通常包括插头松动和端口本身的物理损坏。如:双绞线RJ45接头的损坏。 (3)交换机或路由器故障 交换机或路由器故障在这里是指设备出现物理损坏,无常工作,导致网络不能正常运行的情况。 (4)网卡故障 网卡也称网络适配器,大多安装在计算机的主机部。通过主机完成配置和。网卡故障主要包括网卡松动、主机网卡插槽故障、网卡本身物理故障等。 (二)逻辑故障: 逻辑故障也称为软件故障,主要是指软件安装或网络设备配置错误所引起的网络异常。与硬件故障相比,逻辑故障往往要复杂得多。常见的网络逻辑故障有:主机逻辑故障、进程或端口故障、路由器故障等。 (1)主机逻辑故障 主机逻辑故障通常包括网卡驱动程序、网络通信协议或服务安装不正确、网络地址参数配置有误等。对计算机网络用户来讲,该类故障是十分常见的网络故障之一。 (2)进程或端口故障 进程或端口故障是指一些有关网络连接的进程或端口由于受到病毒或系统

网络维护及常见故障排除

网络维护及常见故障排除 第一章排除故障过程 1.1识别故障现象 在你排故障之前,也必须确切地知道网络上到底出了什么毛病,是不能共享资源,还是找不到另一台计算机,如此等等。知道出了什么问题并能够及时识别,是成功排除故障最重要的步骤。为了与故障现象进行对比,你必须知道系统在正常情况下是怎样工作的,反之,你是不好对问题和故障进行定位的。 识别故障现象时,应该向操作者询问以下几个问题: (1)当被记录的故障现象发生时,正在运行什么进程(即操作者正在对计算机进行什么操作)。 (2) (2)这个进程以前运行过吗? (3)(3)以前这个进程的运行是否成功? (4) (4)这个进程最后一次成功运行是什么时候? (5)(5)从那时起,哪些发生了改变? (6)带着这些疑问来了解问题,才能对症下药排除故障。 1.2对故障现象描述 当处理由操作员报告的问题时,对故障现象的详细描述显得尤为重要。如果仅凭他们的一面之词,有时还很难下结论,这时就需要你亲自操作一下刚才出错的程序,并注意出错信息。对此在排除故障前,可以按以下步骤执行: (1)收集有关故障现象的信息; (2)对问题和故障现象进行详细描述; (3)注意细节; (4)把所有的问题都记下来; (5)不要匆忙下结论。

第二章网络故障原因 2.1 网络连通性故障 1、故障表现 连通性故障通常表现为以下几种情况: ①计算机无法登录到服务器; ②计算机无法通过局域网接入Internet; ③计算机在"网上邻居"中只能看到自己,而看不到其他计算机,从而无 使用其他计算机上的共享资源和共享打印机 ④计算机无法在网络内实现访问其他计算机上的资源; 2、故障原因 以下原因可能导致连通性故障: ①网卡未安装,或未安装正确,或与其他设备有冲突; ②网卡硬件故障; ③网络协议未安装 ④IP地址设置错误; ⑤网线、信息模块故障; 3、排除方法 ①确认连通性故障 当出现一种网络应用故障时,如无法接入Internet,首先尝试使用其他网络应用,如查找网络中的其他计算机,或使用局域网中的Web浏览等。如果其他网络应用可正常使用,如虽然无法接入Internet,却能够在"网上邻居"中找到其他计算机,或可ping到其他计算机,即可排除连通性故障原因。如果其他网络应用均无法实现,继续下面操作。 ②用ping命令排除网卡故障 使用ping命令,ping本地的IP地址或计算机名,检查网卡和IP网络协议是否安装完好。如果能ping通,说明该计算机的网卡和网络协议设置都没有问题。 因此,应当检查网线和交换机的接口状态,如果无法ping通,只能说明TCP/IP协议有问题。这时可以在计算机的"控制面板"的"系统"中,查看网卡是否已经安装或是否出错。如果在系统中的硬件列表中没有发现网络适配器,或网络

运维故障处理思路 (3)

事件/故障处理应该要有什么思路 导读: 在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但是原因还未定位。 经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、“交易中断了吗?”…… 运维人员赶紧敲键盘,写sql,看交易量;敲键盘,写命令,看系统资源、情况…… 最终,定位到问题原因是其中一个功能没有控制返回数量,导致内存泄露。 针对这个故障,业务希望运维能否更快的解决故障的恢复,经理希望制定优化呼叫中心故障处理流程,做了以下几件事: 1.优先故障处理过程的时间-—”能通过鼠标完成的工作,不要用键盘“ 2.提前发现故障,加强监控——“技术早于业务发现问题,监控不仅是报警, 还要协助故障定位” 3.完善故障应急方案——“应急方案是最新的、准确的、简单明了的” 4.长远目标:故障自愈——”能固化的操作自动化,能机器做的让机器做“ 下面将从故障常见的处理方法开始介绍,再从故障前的准备工作(完善监控、制定应急方案等方式)来解决经理提出的问题,并提出未来解决故障的想法。 1、常见的方法: 1)确定故障现象并初判问题影响 在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。 确认了故障现象后,才能指导运维人员初判断故障影响。 2)应急恢复

网络运行维护及机房应急方案计划

网络运维小组应急预案 随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。 本预案共分为应用系统故障应急流程和机房突发事件应急流程 系统故障应急流程 一、系统故障应急流程说明 1、故障发生 系统运维服务小组可从以下途径得知故障的发生: 1.1、运维服务中心通过网管告警发现故障 1.2、维护站点通过维护巡检发现故障 1.3、用户发现故障,报给呼叫中心 1.4、驻场工程师发现故障 2、报障受理 监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。 3、信息研判 运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。 4、预案启动 如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。 5、资源确认

系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源: 我公司技术支持人员; 相关厂家技术支持人员; 我公司聘请的技术专家 6、预案执行 按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。 7、预案终止 预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。 8、结果上报 预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急领导小组。

浅谈网络常见问题与故障及解决办法

浅谈网络常见问题与故障及解决办法1.两台机器相互之间无法ping通 网友问题:我有两台电脑,都装的是XP的系统,连接到启动DHCP 的宽带路由器上,实现internet共享,两台机器都可以上网,但是 在“网上邻居”里看不到对方,而且ping对方也ping不通。两台计算机都打开了来宾账户,而且都删除了Guest选项。 分析故障:这种情况的发生,有可能是XP系统内之置的网络防火墙功能没有关闭所造成的,将其网络防火墙关闭,之后再建一个同名用户并创建密码,并且均使用该用户名登陆问题应该可以解决。 2.两台机器无法实现直连 网友问题:我和同学有两台计算机,都装的是XP的系统,想使用双绞线连接起来,可是就是连接不到对方网络,网卡本身没有问题,这个问题应该怎么处理?需要安装什么戏协议和有哪些步骤? 分析故障:这个问题出现在网线本身上了,两台电脑直连时应该使用交叉线,这种网线与平时我们连接到交换机或者路由器上的网线有所不同(具体的不同大家可以在网上搜索到,这里不作解释)。另外由于在安装网卡驱动的时候,XP会自动安装TCP/IP协议,并且可以自动为计算机分配到IP地址,因此无需安装其它协议设置IP地址信息。 两根网线连接三台计算机上网 网友问题:我家有三台计算机,要使用两块网卡和三根网线将三台计算连接在一起,并实现Internet共享。不过,无论怎么连接两台计算机,都显示网线未插好,开始以为是网卡的问题,但是,轮流使用每一块网卡连接网络都正常,后来怀疑是网线的问题,不过用这些网线把网卡Modem连接在一起时,Internet连接也都正常,这是怎么回事那? 故障分析:这个故障的情况和上一个的基本一致,问题还是出现在网线本身上,要想直接连接两台计算机,必须使用交叉线才可以,不过要注意的是:另外一台计算机与Modem连接时,因该使用直通线。从网友的故障情况看,这三根网线都是直通线,这就是为什么用这些网线把网卡Modem连接在一起时,Internet连接也都正常,解决的方法很简单,只要再做一条交叉线来连接两台计算机就可以了。此外,还应把安装两块网卡的计算机设置为ICS主机,实现连接共享。 无法同时连接以太网和无线网 网友问题:我的电脑里有两块网卡,一块是内置的有线网卡,通过双绞线连接Internet;另一块是无线网卡,通过无线路由器连接

问题解决思路讲解

解决问题的方法--问题解决七步法 俗话说:授人以鱼,不如授人以渔。 教人解决一个问题,不如教人解决问题的方法。问题解决七步法作为开展现场改善的基本方法,要解决的就不只是单个问题,而是如何去解决成百上千 问题的思路。将通常进行改善的PDCA过程,细分成七个关键的步骤,整理出来形成指导改善开展的方法,就是问题解决七步法。有问题就应该解决,似乎顺理成章,然而,很多时候问题并未得到有效解决。究其原因,一是欠缺解决问题的意识,二是缺少解决问题的方法。而七步法在这方面有其良好的效果。一方面,问题解决七步法为你提供了解决问题的方法,特别是当你遇到有较大不确定因素的问题,没有太多相似案例可以借鉴时,七步法很容易派上用场,它告诉你的是一种有效的思维逻辑。另一方面,当你需要借助解决问题的过程,培养员工的问题意识和解决问题的能力时,问题解决七步法更能体现其价值。因为仅仅解决单个问题不过是就事论事,养成解决问题的习惯才是一个团队学习能力的体现。 以下对七个步骤加以简单介绍。 STEP-1现状把握 说明:现状把握告诉我们在解决问题之前,首先要明白问题之所在,这是有效解决所有问题的前提。仅仅笼统地说这里不好、那里不好,并不能帮你更好地分析问题。以下三点有助你更准确地把握问题之所在: 1、从习惯找“问题”到习惯找“问题点” 问题:零件摆放混乱 问题点:待检/合格/不良等不同状态的零件未明确区分 问题:工作台脏乱差 问题点:边角料和工具配件随手扔、灰尘污垢未清扫 问题:工人效率低 问题点:搬运作业时间长,所占作业比重过大 2、从习惯“统述问题”到习惯“分述问题(现象+影响)” 统述问题:

每天出入库都有木踏板被损坏,严重点的通常都丢掉了,浪费了不少钱,也不利于节约资源,不利于环保,破损轻点的又弃之可惜,有几次随产品出货还被海外客户投诉了。 分述问题:(现象+影响) 1)有部分损坏的木踏板全部废弃,耗费资源; 2)每天约废弃18块,成为环境污染源,不利于环保; 3)整个木踏板大部分完好未再利用,浪费公司资金; 4)木踏板有少部分损坏弃之可惜,出货至海外后引起投诉。 3、从习惯“抽象”谈问题到习惯“量化”谈问题 抽象: 1)操作时行程较远 2)生产效率低。 量化: 1)操作时单程平均距离1米(1PCS) 生产数:1800PCS/日 员工每日来回行程:1800×1×2=3600米 2)生产1PCS行走约5秒每天生产1800PCS 花在行走的时间: 1800×5×264工作日/年=660小时 当然问题的关键还在于员工是否有兴趣去发现问题,也就是我们常说的问题意识。我认为有两方面值得 关注: 1、上级对待问题的态度所营造的氛围 2、责任人自身对手头工作的热爱程度。 >>>方法:

网络运维方案

网络运维方案-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

1服务体系 1.1总体原则和基本措施 1.1.1我公司在提供服务时要根据辽宁XX的服务需求情况和要求,遵循下 述基本原则: 以保证辽宁XX业务系统稳定正常为目标,全力保障所维护设备的正常 运行为最高指导原则 统一组织管理和调度针对本服务项目的技术资源,保证在客户需要时 能提供符合要求的人员和设备支持 以单一的接口保证双方的沟通能够简捷有效,并易于落实责任 建立快速响应机制,保证在特殊情况下,能够通过快速机制提供响应 通过责任到人、过程监控制等保证服务的效率和质量 1.1.2我公司采取如下主要措施: 采取7×24小时轮流值班制度,保障客户问题能在第一时间得到响 应; 采用问题升级制度,即在响应不到位或问题难以尽快解决的情况下, 将问题升级给更高级别的技术管理层。 根据辽宁XX的需要和知识产权的许可与辽宁XX共享与本项目服务相 关的部分技术信息资源。 通过我公司客户服务系统管理服务请求的登录和服务过程的监控等, 通过对过程记录文档的审计总结保证服务质量和服务过程改进。 1.1.3我公司与国内各大运营商有长期的合作关系,在沈阳本地设有分支机 构。我公司与本合同的维保设备原厂家具有一定的合作和授权关系。

1.1.4在项目实施后,我公司项目组与客户技术人员协商,制定出更合理的 资源配置方案。 1.2服务组织和人员 1.2.1公司人员 1.2.1.1我公司技术服务人员应有设备厂家的技术资格认证和多年维 护客户设备类型的工作经验,并根据客户设备种类、数量、分布、服务 要求,配备足够人员。我公司应有经过认证的专业技术服务人员可以作 为本项目的储备力量,当有紧急事情需要协助时,可以随时进行调配。 1.3备件管理 1.3.1在本地拥有专业的售后服务部门和备件库,配备有较强的技术支持和 服务资源,我公司能够利用这些资源对辽宁XX提供良好的快速响应和支持。 1.3.2我公司提供本项目维保设备相关的备件库、备品备件清单、所在地情 况和提供服务情况,备件库情况要求能随时接受检查。 1.3.3如需进行备件更换,须提供原厂商配件,不得使用假冒伪劣配件等。 发生硬件损坏时,应根据服务级别尽快提供备件以便及早解决故障。服务商须保证备件来自合法渠道。 1.4服务方式 1.4.1要求我公司提供包含并不限于如下服务方式: 7x24小时响应。 远程技术支持。 现场技术支持。

网络常见故障诊断排除论文

浅谈网络常见故障的诊断与排除 摘要:网络故障极为普遍,网络故障的种类也多种多样,要在网络出现故障时及时对出现故障的网络进行维护,以最快的速度恢复网络的正常运行,掌握一套行之有效的网络维护理论、方法和技术是关键。就网络中常见故障进行了分类,并对各种常见网络故障提出了相应的解决方法。 关键词:网络故障;网络维护;分类;解决办法 中图分类号:tp393.06 文献标识码:a 文章编号:1007-9599 (2011) 22-0000-01 network fault diagnosis and troubleshooting sun jie (china shipbuilding industry corporation 715 institute,lianyungang 222006,china) abstract:network failure is extremely common,but also a variety of types of network failure,network failure in a timely manner to maintain a network failure,the fastest to restore the normal operation of the network,an effective network control maintenance theory,methods and techniques is the https://www.360docs.net/doc/4011087303.html,mon faults on the network have been classified in a variety of common network problems and corresponding solutions proposed. keywords:network failure;network

大型网络监控故障处理思路和方法

大中型网络IPC如果出现摄像头延迟,图像时常掉线,各几天就出现问题等一系列有关网络视频信号达不到的IPC的问题。如何快速定位是那个设备或者线材出现问题呢? 首先施工选材方面我们要使用国标的网线和抗拉性强的网线,(电源线,网络摄像头和有关网络摄像头其它配件,不在本文介绍,回头我会详细介绍。本文重点阐述问题是有关网络摄像头图像延迟,无图像问题) 现在市场上有好多种材质的网线,我以市场常见的网线为例子,一个个说明: 1)铜包钢网线:它的电阻100米大概是75-100欧姆左右!这种网线也是市场上最便宜的网线,电阻水通信效果也不怎么好!! 2)铜包铝网线:它的电阻100米大概是24-28欧姆左右!这种网线在市场上比较好卖,因为它便宜,且通信距离和效果都不错,可是他的使用寿命不是很长,因为他的抗氧化性差! 3)铜包银网线:铜包银网线又叫高导铝网线,材质比铜包铝要纯,它的电阻大概是100米15欧姆左右,这种网线算是网线的新品种,价格也不贵,上网距离比铜包铝网线要远几十米,但是它的不足跟铜包铝网线是一样的,寿命都是不长,一样的弱点,抗氧化性差!说好听的是铜包银网线,说不好听的也是铜包铝网线,但是它的成本是比铜包铝实实在在的贵好几十块钱,当然他的性能也是铜包铝网线没法比的! 4)铜包铜网线:这种网线电阻也不小,100米电阻值大概是42欧姆左右,上网性能一般,但是他抗氧化性强,使用寿命比铜包铝那些长得多! 5)无氧铜网线:无氧铜网线电阻是最小的,100米电阻大概是9.5欧姆左右,这种网线是目前市场上性能最好的网线!最优质的网线!电阻小,传输距离远,速率高且使用寿命长!基本上现在市场上就是以上面五种材质网线为主,其他的就暂时是不说了,希望可以相互促进和学习! **以上是选材方面,如果使用的线材质量过关。摄像头出现问题,那就可以直接排除了。接下来阐述如何检测故障原因。看图

运维常见问题详细解决方案

运维工作及常见解决方案

1.概述 1.1编写目的 编写本解决方案的目的是对运维人员在遇到问题的时候提供一个可参考的依据。运维人员以此解决方案作为今后在运维工作中遇到相同问题的一个指南和依据,指导运维人员如何去解决类似问题。也为新来运维人员熟悉运维工作。本解决方案主要从问题类型、问题描述和解决方案等方面进行说明。 1.2适用范围 适用于运维人员、新来运维人员及相关人员。 2.运维工作流程 ?客户打找运维服务,接到电话,先判断是由运维做还是的 人做; ?运维分机号为1,,先记录房间号,报修时间,服务开始时 间,故障现象及记录接线人。 ?负责人先想解决方法,告知运维人员大体方向,运维人员 根据了解的情况想解决方案,在去见客户的时候知道如何 操作; ?负责人给运维人员派工单,运维人员去执行; ?执行完之后跟负责人交待此次工作结果;

?回复,双方接收 ?每周的运维工作数据及运维工作报告的电子档须在下周一 十点前发送到负责人邮箱中。 3.运维工作内容 1)终端软件维护 2)网络调整 3)电话调整 4)机房巡检 5)服务器操作:应用系统包括安全系统、移动执法系统、备份系 统、机房监控系统;网络设备包括交换机、路由器、防火墙、 流量控制系统。 6)机房清洁 7)空调维护 8)其他 4.常见问题解决方案 4.1电脑装应用软件的步骤 新台式机和笔记本: ●装OFFRICE,正版序列号为 ●杀毒软件

●360安全卫士,修复系统漏洞,点击修复,在安装路径中产生 一个hotfix文件夹,然后把工具中的hotfix文件夹里面所有文 件拷贝到安装路径下的hotfix文件夹; ●装常用的工具:Wara,暴风影音,Adobe,QQ,MSN,以及用户要求 的免费软件 旧电脑: ●IP设置,每次都要记录IP,在用完之后把IP设置为原来的IP ●旧机器在装系统之前,我的文档及桌面上的文件要备份,用U 盘拷贝出来再装系统(要特别注意财物室的机器重装系统, 在装系统之前还需要把C盘里面的某些文件给拷贝出来) 注意事项: 1.不装克隆XP 2.不安装盗版软件 4.2常见问题类型 4.2.1打印机

常见网络故障排查

计算机网络故障及其维修方法 目标: 1.常见计算机网络故障检测、分析能力;掌握计算机网络故障维修方法; 2.会配置小型计算机网络系统;了解常见计算机网络故障原因;了解计算机网络故障处理方法; 3.能利用所学知识和经验(灵活性)创造性地解决新问题。 内容: 一、了解常见计算机网络故障原因 (一)硬件故障 硬件故障主要有网卡自身故障、网卡未正确安装、网卡故障、集线器故障等。 首先检查插上计算机I/O插槽上的网卡侧面的指示灯是否正常,网卡一般有两个指示灯“连接指示灯”和“信号传输指示灯”,正常情况下“连接指示灯”应一直亮着,而“信号传输指示灯”在信号传输时应不停闪烁。如“连接指示灯”不亮,应考虑连接故障,即网卡自身是否正常,安装是否正确,网线、集线器是否有故障。 1.RJ45接头的问题 RJ45接头容易出故障,例如,双绞线的头没顶到RJ45接头顶端,绞线未按照标准脚位压入接头,甚至接头规格不符或者是内部的绞线断了。

镀金层厚度对接头品质的影响也是相当可观的,例如镀得太薄,那么网线经过三五次插拔之后,也许就把它磨掉了,接着被氧化,当然也容易发生断线。 2.接线故障或接触不良 一般可观察下列几个地方:双绞线颜色和RJ-45接头的脚位是否相符;线头是否顶到RJ-45接头顶端,若没有,该线的接触会较差.需再重新压按一次;观察RJ-45侧面。金属片是否已刺入绞线之中?若没有,极可能造成线路不通;观察双绞线外皮去掉的地方,是否使用剥线工具时切断了绞线(绞线内铜导线已断,但皮未断)。 如果还不能发现问题,那么我们可用替换法排除网线和集线器故障,即用通信正常的计算机的网线来连接故障机,如能正常通信,显然是网线或集线器的故障,再转换集线器端口来区分到底是网线还是集线器的故障,许多时候集线器的指示灯也能提示是否是集线器故障,正常对应端口的灯应亮着。 (二)软件故障 如果网卡的信号传输指示灯不亮,这一般是由网络的软件故障引起的。 1.检查网卡设置 普通网卡的驱动程序磁盘大多附有测试和设置网卡参数的程序。分别查验网卡设置的接头类型、IRQ、I/O端口地址等参数,若有冲突.只要重新设置(有些必须调整跳线),一般都能使网络恢复正常。

服务器故障排除方法

服务器故障排除方法 本文主要是针对一些服务器出现的简单的故障进行排查处理,主要分三部分,第一部分讲的是服务器故障排除的基本原则性问题,第二部分讲述了一些服务器硬件故障排除的实例,第三部分讲述了一些服务器软件故障排除的实例 第一部分服务器故障排除的基本原则性问题 一、服务器开机无显示应怎么办 1.检查供电环境,零-火;零-地电压? 2.检查电源指示灯,如果亮,正常吗? 3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗? 4.是否更换过显示器,更换另一台显示器。 5.去掉增加内存。 6.去掉增加的CPU 7.去掉增加的第三方I/O卡 8.检查内存和CPU 插的是否牢靠 9.Clear CMOS 10.更换主要备件,如系统板,内存和CPU 二、服务器故障排错的基本原则是什么 1.尽量恢复系统缺省配置

a:硬件配置:去除第三方厂商备件和非标配备件; b:资源配置:清除CMOS,恢复资源初始配置; c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序; d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗? 2.从基本到复杂 a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。 b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。 c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。 3.交换对比 a:在最大可能相同的条件下,交换操作简单效果明显的部件; b: 交换NOS载体,既交换软件环境; c:交换硬件,既交换硬件环境; d:交换整机,既交换整体环境; 三、服务器故障排除需要收集哪些信息? 服务器信息: 1.机器型号 2.机器序列号(S/N: 如:NC00075534)

运维故障处理思路

事件/故障处理应该要有什么思路 导读: 在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务就是否正常、查日志就是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但就是原因还未定位。 经理过来了解情况:“系统恢复了不?”、“故障影响就是什么?”、“交易中断了不?”…… 运维人员赶紧敲键盘,写sql,瞧交易量;敲键盘,写命令,瞧系统资源、情况…… 最终,定位到问题原因就是其中一个功能没有控制返回数量,导致内存泄露。 针对这个故障,业务希望运维能否更快的解决故障的恢复,经理希望制定优化呼叫中心故障处理流程,做了以下几件事: 1.优先故障处理过程的时间——”能通过鼠标完成的工作,不要用键盘“ 2.提前发现故障,加强监控——“技术早于业务发现问题,监控不仅就是报 警,还要协助故障定位” 3.完善故障应急方案——“应急方案就是最新的、准确的、简单明了的” 4.长远目标:故障自愈——”能固化的操作自动化,能机器做的让机器做“ 下面将从故障常见的处理方法开始介绍,再从故障前的准备工作(完善监控、制定应急方案等方式)来解决经理提出的问题,并提出未来解决故障的想法。 1、常见的方法: 1)确定故障现象并初判问题影响 在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。 确认了故障现象后,才能指导运维人员初判断故障影响。 2)应急恢复

运维故障处理思路

事件/故障处理应该要有什么思路 导读: 在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一 例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、 查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但 是原因还未定位。 经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、“交易中 断了吗?”…… 运维人员赶紧敲键盘,写sql,看交易量;敲键盘,写命令,看系统资源、情况…… 最终,定位到问题原因是其中一个功能没有控制返回数量,导致内存泄露。 针对这个故障,业务希望运维能否更快的解决故障的恢复,经理希望制定优化 呼叫中心故障处理流程,做了以下几件事: 1.优先故障处理过程的时间——”能通过鼠标完成的工作,不要用键盘“ 2.提前发现故障,加强监控——“技术早于业务发现问题,监控不仅是报 警,还要协助故障定位” 3.完善故障应急方案——“应急方案是最新的、准确的、简单明了的” 4.长远目标:故障自愈——”能固化的操作自动化,能机器做的让机器做 “ 下面将从故障常见的处理方法开始介绍,再从故障前的准备工作(完善监控、 制定应急方案等方式)来解决经理提出的问题,并提出未来解决故障的想法。 1、常见的方法: 1)确定故障现象并初判问题影响 在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方 案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。

确认了故障现象后,才能指导运维人员初判断故障影响。 2)应急恢复 运维最基本的指标就是系统可用性,应急恢复的时效性是系统可用性的关键指标。 有了上述故障现象与影响的判断后,就可以制定故障应急操作,故障应急有很多,比如: 服务整体性能下降或异常,可以考虑重启服务; 应用做过变更,可以考虑是否需要回切变更; 资源不足,可以考虑应急扩容; 应用性能问题,可以考虑调整应用参数、日志参数; 数据库繁忙,可以考虑通过数据库快照分析,优化SQL; 应用功能设计有误,可以考虑紧急关闭功能菜单; 还有很多…… 另外,需要补充的是,在故障应急前,在有条件的情况需要保存当前系统场景,比如在杀进程前,可以先抓个CORE文件或数据库快照文件。 3)快速定位故障原因 是否为偶发性、是否可重现 故障现象是否可以重现,对于快速解决问题很重要,能重现说明总会有办法或 工具帮助我们定位到问题原因,而且能重现的故障往往可能是服务异常、变更 等工作导致的问题。 但,如果故障是偶发性的,是有极小概率出现的,则比较难排查,这依赖于系 统是否有足够的故障期间的现场信息来决定是否可以定位到总是原因。 是否进行过相关变更 大部份故障是由于变更导致,确定故障现象后,如果有应的变更,有助于从变 更角度出现分析是否是变更引起,进而快速定位故障并准备好回切等应急方案。 是否可缩小范围 一方面应用系统提倡解耦,一支交易会流经不同的应用系统及模块;另一方面,故障可能由于应用、系统软件、硬件、网络等环节的问题。在排查故障原因时 应该避免全面性的排查,建议先把问题范围缩小到一定程序后再开始协调关联 团队排查。 关联方配合分析问题

计算机网络常见故障及解决方案

一、计算机网络常见故障及解决方案 1 无法连接上网的故障 解决方案:检查调制解调器的驱动是否正常。检查调制解调器是否处于可以使用状态:双击“控制面板→系统→设备管理”,在列表中选择调制解调器并单击“属性”,确认是否选中“设备已存在,请使用”选项。检查端口的正确性:双击“控制面板→调制解调器”,单击选择调制解调器,然后单击“属性”,在“通用”选项卡上,检验列出的端口是否正确。如果不正确。请选择正确的端口,然后单击“确定”按钮。确认串口的I/O地址和IRQ设置是否正确:双击“控制面板→系统→设备管理”,再单击“端口”,选取一个端口,然后单击“属性”。单击“资源”选项卡显示该端口的当前资源设置,请参阅调制解调器的手册以找到正确的设置,在“资源”对话框中。检查“冲突设备列表”以查看调制解调器使用的资源是否与其它设备发生冲突,如果调制解调器与其它设备发生冲突,请单击“更改设置”,然后单击未产生资源冲突的配置。检验端口设置:双击“控制面板→调制解调器”,单击选择调制解调器,然后单击“属性”,在出现的菜单中选择“连接”选项卡以便检查当前端口设置,如波特率、数据位、停止位和校验等。 2 无法浏览网络 解决方案:第一是因为在Windows启动后,要求输入Microsoft网络用户登录口令时,点了“取消”按钮所造成的,如果是要登录NT服务器。必须以合法的用户登录,并且输入正确口令。第二种是与其它的硬件产生冲突。打开“控制面板→系统→设备管理”。查看硬件的前面是否有黄色的问号、感叹号或者红色的问号。如果有,必须手工更改这些设备的中断和 I/O地址设置。第三是防火墙导致网络不通。在局域网中为了保障安全,安装了一些防火墙。这样很容易造成一些“假”故障,例如Ping不通但是却可以访问对方的计算机,不能够上网却可以使用QQ等。判断是否是防火墙导致的故障很简单,你只需要将防火墙暂时关闭。然后再检查故障是否存在。例如用户初次使用IE访问某个网站时,防火墙会询问是否允许该程序访问网络,一些用户因为不小心点了不允许这样以后都会延用这样的设置,自然导致网络不通了。比较彻底的解决办法是在防火墙中去除这个限制。 3 IE默认的搜索引擎被篡改 在IE工具栏中有一个搜索引擎的工具按钮,点击之可以进行网络搜索。IE默认使用微软的搜索引擎。如果IE的搜索引擎被恶意网站篡改,只要你点击那个“搜索”按钮,就会链接到恶意网站。 解决方案:单击“开始/运行”,输入“Regedit”打开注册表,定位到 HKEY_LOCAL_MACHINE\Software\Microsoft\Internet Explorer\Search分支,找到“SearehAssistant”键值名,在右面窗口点击“修改”,将其值改为某个搜索引擎的网址,然后再找到“CustomizeSeareh”键值名,将其键值改为某个搜索引擎的网址。 4 上网速度慢 解决方案:

服务器维修故障诊断思路大全

前言: 相对PC机而言服务器出故障的机率是小多了,但是它的故障给企业也带来了一些影响。作为服务器工程师除要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才能最快速的解决问题也可以减少故障停机时间。 本文并不是针对某个厂家服务器故障完全手册,而是根据个人经验总结出来的一些经验思路还有一些总结案例。按照下面思路和方法基本上能够解决目前服务器更换式维修的大多数问题。而且里面的一些操作风险性也不是很大,因为服务器本身就是坏的,最坏的情况下就是它一点都不能工作了呗,(主要确认是否有数据,数据无价啊)而且现在很多厂商都有自己的客服电话关于产品问题打个电话也很方便,所以安心做啦 当然如果服务器在保修期内就打电话让售后工程师上门服务,毕竟顾客就是上帝嘛,但是如果上帝比较着急使用,一般小故障自己解决一下就好了,因为一般报修最快都是第二天(大客户如银行等除外,一般当天还得是晚上才能停机解决) 目录: 一、服务器常见故障分类 二、服务器常见故障现象及其对应排错方法 三、服务器排错基本原则 四、服务器故障需要收集哪些信息 五、服务器硬件故障排错实例 六、服务器软件故障排错实例 七、服务器常见内存故障现象 一、服务器常见故障类型分类: A. 开机无显示 B. 加电BIOS自检阶段故障 C. 系统和软件安装阶段故障和现象 D. 操作系统启动失败 E. 系统运行阶段故障 二、服务器常见故障现象及其对应的排除方法

A.服务器开机无显示(加电无显示和不加电无显示) 1. 检查供电环境 2. 检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。) 3. 按下电源开关时,键盘指示灯是否亮、风扇是否全部转动 4. 是否更换过显示器,尝试更换另外一台显示器 5. 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试 6. 是否添加了CPU,如果有增加CPU尝试去掉 7. 去掉增加的第三方I/O卡包括Raid卡等 8. ClearCMOS (记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服) 9. 尝试更换主板、内存等主要部件 10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下 B.加电BIOS自检报错 1. 根据BIOS自检报错信息提示 2. 查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重启 3. 做最小化测试 4. 尝试清除CMOS 5. 看能否正常进入BIOS C. 系统安装阶段故障和现象 1.查看服务器支持操作系统的兼容版本(从厂商能查到兼容性列表) 2.系统安装蓝屏(对蓝屏故障代码诊断) 3.安装在分区格式化的时候找不到硬盘 (阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装) 4.大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡) (使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可) 5.安装过程是死机 (检查兼容性列表---查看硬盘接口选择是否正确---阵列驱动安装是否正确---尝试最小化配置安装检查是否为内存和CPU等问题) 6.引导光盘安装失败

服务器常见故障及解决办法

服务器常见故障排除 服务器常见故障一、造成服务器无法启动的主要原因: 1)市电或电源线故障(断电或接触不良) 2)电源或电源模组故障 3)内存故障(一般伴有报警声) 4)CPU故障(一般也会有报警声) 5)主板故障 6)其它插卡造成中断冲突 服务器常见故障二、服务器无法启动? 1)检查电源线和各种I/O接线是否连接正常。 2)检查连接电源线后主板是否加电。 3)将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。 4)检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。 5)如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板) 服务器常见故障三、系统频繁重启? 造成系统频繁重启的原因: 1)电源故障(替换法判断解决) 2)内存故障(可从BIOS错误报告中查出) 3)网络端口数据流量过大(工作压力过大) 4)软件故障(更新或重装操作系统解决) 服务器常见故障四、服务器死机故障判断处理: 服务器死机故障比较难以判断,一般分为软件和硬件两个方面: 1)软件故障 首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。 电脑病毒的原因。 系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。 软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决 2)硬件故障 硬件冲突 电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。 硬盘故障(通过扫描硬盘表面来检查是否有坏道) 内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断) 主板故障(使用替换法来判断) CPU故障(使用替换法) 板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)

运维外包服务方案

运维外包服务方案 一、资产管理 1、维护设备/终端资产管理 对维护目标系统、设备、模块进行资产登记及相关配置信息的整理和记录 2、网络设备拓扑管理 掌握目标维护系统各个网络的拓扑结构,包括路由配置、vlan 划分、端口使用、IP 规划、设备位置等信息的资料设备维保信息管理 对目标维护系统的网络设备、板卡、安全设备、终端、IP 电话、视频监控的硬件以及软件维保信息、厂家维护人员等管理 二、文档管理 1、配置文档维护和管理 1) 《墙插或地插信息点与配线架端口对应表》及《配线架端口与交换机端口对应表》 2) 《网络系统连接图》 3) 《设备间链路端口表》 4) 《接入终端IP 子网表》(此表含L2 VLAN-ID 属性)、

5) 《设备链路IP 子网表》(此表含L2 VLAN-ID 属性) 6) 《设备管理IP 子网表》 2、设备使用手册管理 针对维护的硬件设备、软件系统整理用户操作手册,形成规范化的配置文档,对实际操作经验进行总结和积累,逐步提高自身对相关系统、设备的维护能力。 3、设备资料信息维护和管理 建立ITRMS 资源管理平台,对所维护的的设备、板卡等硬件设备建立“机历卡”进行详细资 料的管理,包括:设备详细配置、上线时间、故障记录等等进行记录。 三、设备监控 1. 监控系统部署 部署专业的设备监控软件,实现对相关网络设备、信息安全设备、终端、排队机、IP 电话 等设备的7*24 小时监控,并提供短信、邮件等告警信息,及时发现及处理设备网络故障。 2. 网络流量监控 结合相关的网络流量监控设备和软件,监控网络整体流量情况,对异常情况进行告警和处理; 3. 信息安全设备监控 定期检查防火墙、上网行为管理设备日志和策略,及时了解和发现异常安全事件,并及时进行处理和加固。

相关文档
最新文档