服务器故障解决思路

合集下载

服务器硬件故障排查技巧与解决方案

服务器硬件故障排查技巧与解决方案

服务器硬件故障排查技巧与解决方案在服务器管理和维护过程中,硬件故障是不可避免的。

服务器的正常运行对于企业的稳定运作至关重要,因此及时有效地排查和解决服务器硬件故障是服务器管理员的重要任务之一。

本文将介绍一些常见的服务器硬件故障排查技巧和解决方案,旨在帮助管理员更好地应对这些问题。

一、电源故障1. 故障现象:服务器无法开机或突然关机。

2. 解决方案:首先检查电源供应是否正常连接,确认电源线是否损坏。

若排除电源线问题,可以更换电源尝试解决。

另外,还应该检查服务器内部的电源插座是否松动,如果是,则需要重新固定。

二、硬盘故障1. 故障现象:服务器无法识别硬盘或读写速度极慢。

2. 解决方案:首先检查硬盘接口是否松动,如果是,则需要重新连接。

如果接口连接正常,则可以尝试更换接口线或更换硬盘。

在更换硬盘时,需要注意备份服务器中的数据,以免数据丢失。

三、内存故障1. 故障现象:服务器频繁死机或出现蓝屏。

2. 解决方案:首先检查内存条是否插好,如果存在松动,则需重新插好。

其次,可以通过更换内存条的位置来解决内存故障。

此外,还可以通过“memtest”等软件来进行内存测试,以确认是否出现故障。

四、网卡故障1. 故障现象:服务器无法上网或网络连接异常。

2. 解决方案:首先,检查网线是否插紧以及网线是否存在损坏。

如果网线连接正常,则可以尝试更换网线或更换网卡来解决故障。

此外,还需要确保服务器的网卡驱动程序是最新的,如果不是,则需要更新驱动程序。

五、风扇故障1. 故障现象:服务器温度过高,风扇噪音大或停止转动。

2. 解决方案:首先,检查风扇是否插好,如果存在松动,则需重新插好。

其次,可以通过清理风扇周围的灰尘来提高散热效果。

如果风扇仍不能正常工作,则需要更换风扇。

六、CPU故障1. 故障现象:服务器运行缓慢或频繁死机。

2. 解决方案:首先,检查CPU是否插好,如果存在松动,则需重新插好。

其次,可以通过清洁风扇和散热器来提高散热效果。

服务器故障排除指南解决常见服务器问题的技巧和方法

服务器故障排除指南解决常见服务器问题的技巧和方法

服务器故障排除指南解决常见服务器问题的技巧和方法服务器故障排除指南:解决常见服务器问题的技巧和方法在现代互联网时代,服务器作为承载网站、应用和数据的关键设备,经常遇到各种故障和问题。

本文将为您提供一份详尽的服务器故障排除指南,帮助您解决常见的服务器问题,以确保服务器的稳定和正常运行。

一、服务器无法启动1. 确保电源供应正常:检查服务器电源线是否连接牢固,并检查电源插座是否正常供电。

2. 检查硬件连接:检查主板、内存、硬盘等硬件是否正确连接,并确保连接牢固。

3. 诊断故障组件:逐一拔下内存、硬盘等组件,尝试重新启动服务器,以确定故障产生的具体组件。

4. BIOS设置检查:进入BIOS设置界面,确保硬件配置正常,没有被错误地禁用或修改。

二、服务器运行缓慢1. 资源利用率分析:通过服务器监控工具,查看CPU、内存、磁盘等资源的利用率,找出资源占用过高的进程或服务。

2. 优化操作系统:对操作系统进行优化配置,如关闭不必要的服务、禁用不常用的功能、合理调整系统缓存等。

3. 硬件升级:考虑升级服务器硬件,如增加内存、替换更高速的处理器或存储设备,以提升性能。

4. 考虑负载均衡:当服务器运行多个服务时,考虑引入负载均衡设备或技术,将负载分担到多台服务器上,提高整体性能。

三、服务器频繁重启1. 温度检查:检查服务器散热是否正常,确保风扇和散热器清洁,并避免服务器长时间在高温环境中运行。

2. 电源供应稳定性检查:排查是否有电源不稳定或电压波动的问题,可以使用稳压电源等设备,以确保电源供应的稳定性。

3. 错误日志分析:查看服务器的错误日志,了解具体的重启原因,可能是操作系统故障、硬件故障或驱动程序不兼容等。

4. 固件和驱动程序升级:及时更新服务器固件和驱动程序,修复已知的问题和漏洞,提高服务器的稳定性和兼容性。

四、网络连接问题1. 检查网络线缆连接:确保服务器的网络线缆连接松动或损坏,尝试更换线缆或重新插拔连接。

2. 防火墙和路由器设置:检查服务器所在的网络设备防火墙和路由器设置,确保正确配置端口转发和网络访问规则。

了解常见的服务器故障及解决方法

了解常见的服务器故障及解决方法

了解常见的服务器故障及解决方法服务器是现代网络世界中不可或缺的重要设备,它承担着存储数据、提供服务、传输信息等重要功能。

然而,由于各种原因,服务器在运行过程中可能会出现各种故障,给网络运行和数据安全带来风险。

因此,了解常见的服务器故障及解决方法对于保障网络稳定运行至关重要。

一、硬件故障硬件故障是服务器故障中比较常见的一种情况。

硬件故障可能包括主板故障、硬盘故障、电源故障等。

当服务器出现硬件故障时,首先需要进行硬件检测,确定具体故障原因,然后采取相应的解决方法。

1. 主板故障主板是服务器的核心组件之一,一旦主板出现故障,服务器将无法正常运行。

主板故障可能导致服务器无法启动、无法识别硬件等问题。

解决主板故障的方法一般是更换主板,确保新主板与服务器兼容,并进行相应的配置。

2. 硬盘故障硬盘是服务器存储数据的关键部件,硬盘故障可能导致数据丢失、系统崩溃等严重后果。

在硬盘故障时,可以尝试使用数据恢复工具进行数据恢复,如果无法修复,需要更换新的硬盘,并进行数据备份和恢复操作。

3. 电源故障电源故障可能导致服务器无法正常供电,造成服务器无法启动或突然关机等问题。

解决电源故障的方法是更换故障电源,确保新电源符合服务器的电源需求,保证服务器正常供电。

二、软件故障除了硬件故障外,服务器还可能出现各种软件故障,如操作系统崩溃、应用程序错误等。

软件故障可能导致服务器无法正常运行、服务中断等问题。

以下是一些常见的软件故障及解决方法:1. 操作系统崩溃操作系统是服务器的核心软件,一旦操作系统崩溃,服务器将无法正常运行。

在操作系统崩溃时,可以尝试使用系统恢复工具进行修复,如果无法修复,需要重新安装操作系统,并进行数据备份和恢复操作。

2. 应用程序错误应用程序错误可能导致服务器上的某些服务无法正常运行,影响用户体验。

在应用程序错误时,可以尝试重新启动应用程序或重启服务器,如果问题仍然存在,需要检查应用程序配置和日志,找出问题原因并进行修复。

服务器硬件故障排除的常见问题和解决方法

服务器硬件故障排除的常见问题和解决方法

服务器硬件故障排除的常见问题和解决方法近年来,随着互联网的快速发展和技术的推进,服务器成为了现代企业不可或缺的一部分。

然而,服务器硬件故障时有发生,这给企业的正常运营带来了很大的困扰。

本文将为您介绍一些常见的服务器硬件故障问题,并提供相应的解决方法,帮助您更好地排除这些问题。

一、电源故障电源故障是服务器硬件故障中最常见的问题之一,可能导致服务器无法正常启动。

解决电源故障的方法如下:1. 检查电源连接:确保服务器的电源线正确连接,插头没有松动或损坏。

尝试使用其他电源线或插头来排除故障可能性。

2. 替换电源:如果电源线没有问题,可能是电源本身出现故障。

可以尝试替换故障电源,使用备用电源来启动服务器。

3. 检查UPS电源:如果服务器连接了UPS备用电源,检查UPS电源的工作状态,确保其能够正常提供电能。

如果UPS电源故障,尝试将服务器直接连接到市电,并联系服务商进行维修。

二、硬盘故障硬盘故障是另一个常见的服务器硬件问题,可能导致数据丢失或无法读取。

下面是解决硬盘故障的一些方法:1. 检查连接:检查硬盘的数据和电源连接是否牢固。

如果连接松动,重新连接并确保牢固。

2. 数据恢复:如果硬盘故障导致数据丢失,您可以尝试使用数据恢复软件来恢复丢失的数据。

但请注意,如果硬盘受到物理损坏,最好将其交给专业的数据恢复服务提供商进行处理。

3. 替换硬盘:如果硬盘严重损坏,无法修复或数据恢复失败,考虑替换故障硬盘。

在替换前,备份服务器上的数据是非常重要的。

三、内存故障内存故障可能导致服务器变慢甚至崩溃。

以下是解决内存故障的几种方法:1. 重新插拔内存:先尝试重新插拔内存条,确保它们正确连接。

有时候,只是松动的内存条会造成故障。

2. 更换内存槽:如果重新插拔内存无效,尝试将内存条与其他可用的内存槽进行互换。

这可以帮助您确定是否是内存槽本身出现了问题。

3. 替换故障内存:如果确认是内存条本身出现故障,考虑替换故障的内存条。

确保选择与服务器兼容的内存并按照正确的安装步骤进行安装。

服务器故障处理与恢复指南

服务器故障处理与恢复指南

服务器故障处理与恢复指南在当今信息化社会中,服务器已经成为各行各业不可或缺的重要设备。

然而,服务器故障时有发生,一旦服务器出现故障,将会给企业和个人带来严重的损失。

因此,及时有效地处理服务器故障并恢复正常运行是至关重要的。

本文将为大家介绍服务器故障处理与恢复的指南,希望能够帮助大家更好地解决服务器故障问题。

一、故障排查与诊断1. 确认故障现象当服务器出现故障时,首先需要确认故障现象是什么,比如服务器无法启动、无法访问、运行缓慢等。

通过观察和记录故障现象,有助于后续的故障排查和解决。

2. 检查硬件设备服务器的硬件设备是故障的主要原因之一,因此需要检查服务器的硬件设备是否正常,包括主板、CPU、内存、硬盘、电源等。

可以通过查看硬件设备的指示灯、听取设备的声音等方式来初步判断硬件是否存在故障。

3. 检查网络连接如果服务器无法访问或网络连接异常,需要检查网络连接是否正常。

可以通过ping命令测试网络连通性,检查网线是否连接正常,路由器和交换机是否正常工作等。

4. 查看系统日志系统日志是记录服务器运行状态和异常信息的重要依据,可以通过查看系统日志来了解服务器的运行情况,找出可能的故障原因。

常见的系统日志包括/var/log/messages、/var/log/syslog等。

5. 使用诊断工具在故障排查过程中,可以使用一些专业的诊断工具来帮助定位故障原因,比如memtest86+用于检测内存是否存在问题、smartctl用于检测硬盘是否损坏等。

二、故障处理与恢复1. 备份数据在处理服务器故障之前,首先需要备份重要数据,以防数据丢失造成更大的损失。

可以使用备份软件或命令来进行数据备份,确保数据的安全性。

2. 重启服务器有时候服务器出现故障只是临时性的问题,可以尝试通过重启服务器来解决。

在重启服务器之前,需要确保已经保存好数据并关闭相关应用程序。

3. 更换硬件设备如果经过排查确认是硬件设备故障导致的服务器故障,需要及时更换故障设备。

服务器故障排除常见问题及解决方案

服务器故障排除常见问题及解决方案

服务器故障排除常见问题及解决方案在日常的服务器管理运维工作中,面对服务器故障是必不可少的一部分。

本文将介绍一些常见的服务器故障问题,并提供相应的解决方案,旨在帮助系统管理员更好地排除服务器故障。

一、连接问题1. 无法远程连接服务器解决方案:首先确认目标服务器是否正常运行。

如服务器正常,可能是由于网络配置、防火墙设置等原因导致无法远程连接。

可通过检查网络配置和防火墙规则,确保远程连接所需的端口开启和访问权限设置正确。

2. 网络延迟或丢包解决方案:在命令行窗口中使用ping命令测试服务器的网络连通性,如果延迟高或丢包率过高,可能是网络设备故障或网络拥堵引起的。

可尝试重启相关网络设备并优化网络设置,提高服务器的网络连接质量。

二、硬件问题1. 服务器无法开机或开机后立即关机解决方案:检查服务器是否有电源供应,确认电线、插头等硬件设备工作正常。

如果电源无问题,可能是由于硬件故障引起的。

此时,建议检查主板、内存、硬盘等关键硬件部件是否正常连接,如有需要可以更换故障硬件件。

2. 硬盘故障导致数据丢失解决方案:当服务器出现硬盘故障时,主要面临数据丢失或不可读取的问题。

首先,应立即停止对硬盘的读写操作,以免进一步损坏数据。

然后,可以尝试使用数据恢复工具来尝试恢复数据。

如果数据较为重要,建议寻求专业数据恢复服务。

三、软件问题1. 操作系统崩溃或无法启动解决方案:操作系统崩溃可能由于系统文件损坏、驱动程序冲突等原因引起。

针对此问题,可尝试通过操作系统安装光盘或启动盘进行系统修复,或者重新安装操作系统。

2. 服务无法启动或崩溃解决方案:服务无法启动或崩溃可能由于配置错误、依赖关系异常等原因引起。

对于此问题,可以通过检查相关服务的配置文件、日志文件等进行排查。

一些第三方服务可尝试重启或重新安装来解决。

四、安全问题1. 病毒或恶意软件感染解决方案:服务器病毒感染会严重影响系统性能和数据安全。

应该首先安装杀毒软件,并及时更新病毒库,进行全盘扫描。

五大常见服务器故障及解决方法

五大常见服务器故障及解决方法

五大常见服务器故障及解决方法在日常工作中,服务器故障是一种常见的问题,可能会给工作和生活带来不便。

为了更好地应对这些问题,我们需要了解一些常见的服务器故障及其解决方法。

本文将介绍五大常见服务器故障及解决方法,希望能帮助大家更好地处理服务器故障。

一、硬件故障硬件故障是服务器故障中比较常见的问题之一。

硬件故障可能包括硬盘故障、内存故障、电源故障等。

当服务器出现硬件故障时,首先需要检查硬件设备是否正常连接,是否有明显的物理损坏。

如果确定是硬件故障,可以尝试更换硬件设备或者联系厂家进行维修。

二、网络故障网络故障也是常见的服务器故障之一。

网络故障可能导致服务器无法正常连接到网络,影响服务器的正常运行。

在遇到网络故障时,可以先检查网络连接是否正常,是否有网络设备故障。

可以尝试重新启动网络设备或者联系网络运营商进行排查和处理。

三、软件故障软件故障也是服务器故障中比较常见的问题之一。

软件故障可能包括操作系统崩溃、应用程序崩溃等。

在遇到软件故障时,可以尝试重新启动服务器,检查是否有软件更新或者修复程序可用。

如果问题仍然存在,可以尝试重新安装软件或者联系软件厂商进行解决。

四、安全漏洞安全漏洞是服务器故障中比较严重的问题之一。

安全漏洞可能导致服务器被黑客攻击,造成数据泄露、服务中断等严重后果。

在遇到安全漏洞时,可以尝试及时更新服务器的安全补丁,加强服务器的安全设置,定期进行安全检查和漏洞扫描,确保服务器的安全性。

五、性能瓶颈性能瓶颈是服务器故障中比较常见的问题之一。

性能瓶颈可能导致服务器运行缓慢,影响用户体验。

在遇到性能瓶颈时,可以尝试优化服务器配置,增加硬件设备,优化软件程序,提升服务器性能。

可以通过监控工具对服务器性能进行实时监控,及时发现并解决性能瓶颈问题。

综上所述,服务器故障是工作中常见的问题,但只要我们了解常见的服务器故障及解决方法,就能更好地处理这些问题,确保服务器的正常运行。

希望本文介绍的五大常见服务器故障及解决方法能对大家有所帮助,让工作和生活更加顺畅。

服务器故障排除和问题解决技巧

服务器故障排除和问题解决技巧

服务器故障排除和问题解决技巧在现代互联网时代,服务器是各大企业和组织保持正常运行的基石。

然而,服务器问题的发生是不可避免的,这可能导致服务中断、数据丢失以及企业形象受损等严重后果。

因此,了解服务器故障的排除和问题解决技巧对于网络管理员和系统工程师至关重要。

本文将探讨一些常见的服务器故障,并提供相应的解决技巧。

一、服务器无法启动当服务器无法启动时,很可能是由于硬件故障或操作系统问题造成的。

管理员可以考虑以下几个方面来进行排查和解决:1. 检查电源和电缆连接是否正常,并确保电源开关已打开。

2. 检查服务器硬件是否完好无损,例如内存、硬盘等是否插好、连接稳定。

3. 确认操作系统是否存在问题,可以通过重新启动服务器或者进入安全模式来检查。

二、网络连接问题网络连接问题可能是服务器无法访问外部网络或外部网络无法访问服务器的主要原因。

解决网络连接问题的技巧如下:1. 确保服务器的网络设置正确,包括IP地址、子网掩码、默认网关和DNS服务器等。

2. 检查网络设备(例如交换机、路由器)是否正常工作,并确保它们与服务器的连接稳定。

3. 使用ping命令检查服务器是否能够与外部网络进行通信,如果不能,可以尝试重启网络设备。

三、存储问题存储问题可能导致数据丢失或无法访问服务器上的文件。

以下是解决存储问题的技巧:1. 检查硬盘连接是否松动或损坏,并确保电源充足。

2. 检查服务器上的存储设备是否已满。

如果是,请删除不必要的文件或扩充存储容量。

3. 如果存储设备损坏,可以尝试使用数据恢复软件或寻求专业的数据恢复服务。

四、安全问题服务器安全问题可能会导致敏感数据泄露和未经授权的访问。

以下是解决安全问题的技巧:1. 安装和更新防火墙软件,以确保网络安全。

2. 定期更新服务器上的操作系统和应用程序,以填补安全漏洞。

3. 使用强密码和加密技术,以保护服务器上的敏感数据。

五、性能问题服务器性能问题可能导致响应变慢或无法满足用户需求。

以下是解决性能问题的技巧:1. 监控服务器的资源使用情况,例如CPU、内存和磁盘等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

遇到服务器故障,问题出现的原因很少可以一下就想到。

基本上都会从以下步骤入手:
一、尽可能搞清楚问题的前因后果
不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。

不然你很可能就是在无的放矢。

必须搞清楚的问题有:

故障的表现是什么?无响应?报错? ∙
故障是什么时候发现的? ∙
故障是否可重现? ∙
有没有出现的规律(比如每小时出现一次) ∙
最后一次对整个平台进行更新的内容是什么(代码、服务器等)? ∙
故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? ∙
基础架构(物理的、逻辑的)的文档是否能找到? ∙
是否有监控平台可用? (比如Munin 、Zabbix 、 Nagios 、 New Relic … 什么都可以) ∙ 是否有日志可以查看?. (比如Loggly 、Airbrake 、 Graylog…)
最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。

只能再继续摸索了。

二、有谁在?
1 2 $ w $ last
用这两个命令看看都有谁在线,有哪些用户访问过。

这不是什么关键步骤,不过最好别在其他用户正干活的时候来调试系统。

有道是一山不容二虎嘛。

(ne cook in the kitchen is enough.)
三、之前发生了什么?
1 $ history
查看一下之前服务器上执行过的命令。

看一下总是没错的,加上前面看的谁登录过的信息,应该有点用。

另外作为admin 要注意,不要利用自己的权限去侵犯别人的隐私哦。

到这里先提醒一下,等会你可能会需要更新 HISTTIMEFORMAT 环境变量来显示这些命令被执行的时间。

对要不然光看到一堆不知道啥时候执行的命令,同样会令人抓狂的。

四、现在在运行的进程是啥?
1 2 $ pstree -a
$ ps aux
这都是查看现有进程的。

ps aux 的结果比较杂乱, pstree -a 的结果比较简单明了,可以看到正在运行的进程及相关用户。

五、监听的网络服务
1 2 3 $ netstat -ntlp
$ netstat -nulp
$ netstat -nxlp
我一般都分开运行这三个命令,不想一下子看到列出一大堆所有的服务。

netstat -nalp 倒也可以。

不过我绝不会用 numeric 选项 (鄙人一点浅薄的看法:IP 地址看起来更方便)。

找到所有正在运行的服务,检查它们是否应该运行。

查看各个监听端口。

在netstat 显示的服务列表中的PID 和 ps aux 进程列表中的是一样的。

如果服务器上有好几个Java 或者Erlang 什么的进程在同时运行,能够按PID 分别找到每个进程就很重要了。

通常我们建议每台服务器上运行的服务少一点,必要时可以增加服务器。

如果你看到一台服务器上有三四十个监听端口开着,那还是做个记录,回头有空的时候清理一下,重新组织一下服务器。

六、CPU 和内存
1 2 3 4 $ free -m
$ uptime
$ top
$ htop
注意以下问题:

还有空余的内存吗? 服务器是否正在内存和硬盘之间进行swap?
∙ 还有剩余的CPU 吗? 服务器是几核的? 是否有某些CPU 核负载过多了? ∙ 服务器最大的负载来自什么地方? 平均负载是多少? 七、硬件
1 2 3 $ lspci
$ dmidecode
$ ethtool
有很多服务器还是裸机状态,可以看一下:

找到RAID 卡 (是否带BBU 备用电池?)、 CPU 、空余的内存插槽。

根据这些情况可以大致了解硬件问题的来源和性能改进的办法。

∙ 网卡是否设置好? 是否正运行在半双工状态? 速度是10MBps? 有没有 TX/RX 报错? 八、IO 性能
1 2 3 4 $ iostat -kx 2
$ vmstat 2 10
$ mpstat 2 10
$ dstat --top-io --top-bio
这些命令对于调试后端性能非常有用。


检查磁盘使用量:服务器硬盘是否已满?
∙ 是否开启了swap 交换模式 (si/so)?
∙ CPU 被谁占用:系统进程? 用户进程? 虚拟机?
∙ dstat 是我的最爱。

用它可以看到谁在进行 IO : 是不是MySQL 吃掉了所有的系统资源? 还是你的PHP 进程? 九、挂载点 和 文件系统
1 2 3 4 5 6 7 $ mount
$ cat /etc/fstab
$ vgs
$ pvs
$ lvs
$ df -h
$ lsof +D / /* beware not to kill your box */

一共挂载了多少文件系统? ∙
有没有某个服务专用的文件系统? (比如MySQL?) ∙
文件系统的挂载选项是什么: noatime? default? 有没有文件系统被重新挂载为只读模式了? ∙
磁盘空间是否还有剩余? ∙
是否有大文件被删除但没有清空? ∙ 如果磁盘空间有问题,你是否还有空间来扩展一个分区?
十、内核、中断和网络
1 2 3 4 5 $ sysctl -a | grep ...
$ cat /proc/interrupts
$ cat /proc/net/ip_conntrack /* may take some time on busy servers */ $ netstat
$ ss -s

你的中断请求是否是均衡地分配给CPU 处理,还是会有某个CPU 的核因为大量的网络中断请求或者RAID 请求而过载了? ∙
SWAP 交换的设置是什么?对于工作站来说swappinness 设为 60 就很好, 不过对于服务器就太糟了:你最好永远不要让服务器做SWAP 交换,不然对磁盘的读写会锁死SWAP 进程。


conntrack_max 是否设的足够大,能应付你服务器的流量? ∙
在不同状态下(TIME_WAIT, …)TCP 连接时间的设置是怎样的? ∙ 如果要显示所有存在的连接,netstat 会比较慢, 你可以先用 ss 看一下总体情况。

你还可以看一下 Linux TCP tuning 了解网络性能调优的一些要点。

十一、系统日志和内核消息
1 2 3 4 $ dmesg
$ less /var/log/messages
$ less /var/log/secure
$ less /var/log/auth
∙ 查看错误和警告消息,比如看看是不是很多关于连接数过多导致?
∙ 看看是否有硬件错误或文件系统错误?
∙ 分析是否能将这些错误事件和前面发现的疑点进行时间上的比对。

十二、定时任务
1 2 $ ls /etc/cron* + cat $ for user in $(cat /etc/passwd | cut -f1 -d:); do crontab -l -u $user; done

是否有某个定时任务运行过于频繁?
∙ 是否有些用户提交了隐藏的定时任务?
∙ 在出现故障的时候,是否正好有某个备份任务在执行? 十三、应用系统日志
这里边可分析的东西就多了, 不过恐怕你作为运维人员是没功夫去仔细研究它的。

关注那些明显的问题,比如在一个典型的LAMP (Linux+Apache+Mysql+Perl )应用环境里:

Apache & Nginx ; 查找访问和错误日志, 直接找 5xx 错误, 再看看是否有 limit_zone 错误。


MySQL ; 在mysql.log 找错误消息,看看有没有结构损坏的表, 是否有innodb 修复进程在运行,是否有disk/index/query 问题. ∙
PHP-FPM ; 如果设定了 php-slow 日志, 直接找错误信息 (php, mysql, mem cache, …),如果没设定,赶紧设定。


Varnish ; 在varnishlog 和 varnishstat 里, 检查 hit/miss 比. 看看配置信息里是否遗漏了什么规则,使最终用户可以直接攻击你的后端? ∙ HA-Proxy ; 后端的状况如何?健康状况检查是否成功?是前端还是后端的队列大小达到最大值了?
结论
经过这5分钟之后,你应该对如下情况比较清楚了:

在服务器上运行的都是些啥?
∙ 这个故障看起来是和 IO/硬件/网络 或者 系统配置 (有问题的代码、系统内核调优, …)相关。

∙ 这个故障是否有你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache 后台进程。

你甚至有可能找到真正的故障源头。

就算还没有找到,搞清楚了上面这些情况之后,你现在也具备了深挖下去的条件。

继续努力吧!。

相关文档
最新文档