Linux-监控命令

合集下载

Unix,Linux 磁盘 IO 性能监控命令

Unix/Linux 磁盘I/O 性能监控命令磁盘I/O 性能监控指标和调优方法在介绍磁盘I/O 监控命令前，我们需要了解磁盘I/O 性能监控的指标，以及每个指标的所揭示的磁盘某方面的性能。

磁盘I/O 性能监控的指标主要包括：指标1：每秒I/O 数（IOPS 或tps）对于磁盘来说，一次磁盘的连续读或者连续写称为一次磁盘I/O, 磁盘的IOPS 就是每秒磁盘连续读次数和连续写次数之和。

当传输小块不连续数据时，该指标有重要参考意义。

指标2：吞吐量（Throughput）指硬盘传输数据流的速度，传输数据为读出数据和写入数据的和。

其单位一般为Kbps, MB/s 等。

当传输大块不连续数据的数据，该指标有重要参考作用。

指标3：平均I/O 数据尺寸平均I/O 数据尺寸为吞吐量除以I/O 数目，该指标对揭示磁盘使用模式有重要意义。

一般来说，如果平均I/O 数据尺寸小于32K，可认为磁盘使用模式以随机存取为主；如果平均每次I/O 数据尺寸大于32K，可认为磁盘使用模式以顺序存取为主。

指标4：磁盘活动时间百分比（Utilization）磁盘处于活动时间的百分比，即磁盘利用率，磁盘在数据传输和处理命令（如寻道）处于活动状态。

磁盘利用率与资源争用程度成正比，与性能成反比。

也就是说磁盘利用率越高，资源争用就越严重，性能也就越差，响应时间就越长。

一般来说，如果磁盘利用率超过70%，应用进程将花费较长的时间等待I/O 完成，因为绝大多数进程在等待过程中将被阻塞或休眠。

指标5：服务时间（Service Time）指磁盘读或写操作执行的时间，包括寻道，旋转时延，和数据传输等时间。

其大小一般和磁盘性能有关，CPU/ 内存的负荷也会对其有影响，请求过多也会间接导致服务时间的增加。

如果该值持续超过20ms，一般可考虑会对上层应用产生影响。

指标6：I/O 等待队列长度（Queue Length）指待处理的I/O 请求的数目，如果I/O 请求压力持续超出磁盘处理能力，该值将增加。

Linux进程实时IO监控iotop命令详解

Linux进程实时IO监控iotop命令详解介绍Linux下的IO统计⼯具如iostat, nmon等⼤多数是只能统计到per设备的读写情况, 如果你想知道每个进程是如何使⽤IO的就⽐较⿇烦. iotop 是⼀个⽤来监视磁盘 I/O 使⽤状况的 top 类⼯具。

iotop 具有与 top 相似的 UI，其中包括 PID、⽤户、I/O、进程等相关信息。

实例直接运⾏就好iotop输出如下Total DISK READ: 6.01 M/s | Total DISK WRITE: 3.85 K/sTID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND 20074 be/4 hadoop 6.01 M/s 0.00 B/s 0.00 % 4.54 % java -Dproc_datanode -Xmx8192m -server org.apache.hadoop.hdfs.server.datanode.DataNode 6371 be/4 hadoop 0.00 B/s 3.25 M/s 0.00 % 0.00 % java -Dproc_datanode -Xmx8192m -server org.apache.hadoop.hdfs.server.datanode.DataNode 8497 be/4 hadoop 0.00 B/s 3.67 M/s 0.00 % 0.00 % java -Dproc_datanode -Xmx8192m -server org.apache.hadoop.hdfs.server.datanode.DataNode1 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % init2 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [kthreadd]通过输出结果，我们可以清楚地知晓是什么程序在读写磁盘，速度以及命令⾏，pid 等信息。

Linux系统进程监控脚本使用Shell脚本监控系统进程并自动重启

Linux系统进程监控脚本使用Shell脚本监控系统进程并自动重启Shell脚本作为一种自动化脚本语言，可在Linux系统中编写和执行各种任务。

其中，一项重要的任务是监控系统进程并在必要时自动重启。

本文将介绍如何使用Shell脚本来实现Linux系统进程监控和自动重启的功能。

一、编写监控脚本首先，我们需要编写一个监控脚本来监控系统中的进程。

以下是一个示例的监控脚本：```#!/bin/bashprocess_name="example_process" # 要监控的进程名称while truedoprocess_num=$(pgrep $process_name | wc -l) # 统计进程数量if [ $process_num -eq 0 ]; then # 如果进程数量为0echo "进程 $process_name 未运行，正在尝试重新启动..."# 重新启动进程的命令，例如：# /path/to/example_process &# 注意加上后台运行符号&fisleep 60 # 休眠60秒，避免频繁检测done```在上述脚本中，首先定义了要监控的进程名称为`example_process`，然后使用一个无限循环来检测进程是否在运行。

通过`pgrep`命令和`wc -l`命令可以统计指定进程名称的进程数量。

如果进程数量为0，则输出提示信息，并执行重启进程的操作（根据实际情况自行修改重启命令）。

最后，使用`sleep`命令休眠60秒，以避免频繁检测。

二、保存并设置执行权限将上述脚本保存为一个以`.sh`为后缀的文件，例如`monitor_process.sh`。

然后，通过命令`chmod +x monitor_process.sh`为脚本文件添加执行权限。

三、设定定时任务为了让监控脚本能够定期执行，我们可以使用Linux系统中的定时任务功能。

Linux服务器性能追踪以及服务器监控常用命令linux服务器应用电脑资料

Linux效劳器性能追踪以及效劳器监控常用命令linux效劳器应用电脑资料在网站性能优化中，我们经常要检查效劳器的各种指标，以便快速找到害群之马，1. 内存检查：free -m注意，重点看的是第二行，-/+ buffers/cache行，第一个数字是实际消耗的内存，第二个是实际空闲的内存。

2. 系统进程监控 topTop命令注意看输出的第二、第三行。

第二行（Tasks）表示系统运行的进程数，这个数值一般不能太大，比方超过300、甚至400-500，这个比拟容易理解，我们一般开启的效劳、进程外加系统进程都不会太多，太多肯定有问题。

第三行表示CPU的使用情况。

Top可以按 M按内存使用排序，P按CPU使用情况排序。

3. 进程监控加强版 htophtop 提供了比top更强大的功能，推荐安装。

能排序、查找、显示进程树等功能。

htop 还有一个强大的功能的，就是strace，按s可以直接对选中进程进行strace。

strace效果图如下：4. 找出害群之马（ps命令）如果通过top、 htop 、free以及 iostat 、vmstat（后面会讲）对系统分析后，我们接下来就要找系统的问题进程了。

在top、htop 中我们一般可以直观的看出到底是那个进程出问题了，不过有时这两个命令不能完全确定，我们还要使用ps确认系统中的最差进程。

自定义输出格式 -o 可以定义我们想要显示的列，列名根本和输出的表头一样，只是要小写，如下：ps -A -o %mem, %cpu找到实例运行过多的进程（效劳器监测特别有用）可以看到d进程比拟多，（uniq可能是只要各行的，不再计重复行，重新数），因此我们可以再加个sort （k表示按那一列排序），如下：这样d进程可以看到18个，有助于我们找到异常的效劳器行为。

如果要区分用户，可以加一个output，如:找到内存使用最多的进程同理，找到CPU消耗最多的进程（其实主要的是理解sort -k和ps -o就可以）4. IO监控 iostatiostat 也是系统监控常用的命令，可以看到各个磁盘的IO情况，其他参数不再赘述，主要说明一个参数，定义：%util: 一秒中有百分之多少的时间用于 I/O 操作，或者说一秒中有多少时间 I/O 队列是非空的。

Linux系统的网络流量监控和分析方法

Linux系统的网络流量监控和分析方法随着网络的发展和应用的广泛，对于网络流量的监控和分析变得越来越重要。

在Linux系统中，有许多方法可以实现对网络流量的监控和分析。

本文将介绍一些常用的Linux 系统的网络流量监控和分析方法，并分析其优缺点。

1. 使用ifconfig命令ifconfig命令是一个非常简单且常用的命令，用于配置和显示网络接口。

它可以用来监控网络接口的发送和接收数据量。

通过使用ifconfig命令，可以查看网络接口的IP地址、子网掩码、网络状态等信息。

然而，ifconfig命令只提供基本的网络接口信息，无法进行深入的网络流量分析。

2. 使用netstat命令netstat命令用于显示与IP、TCP、UDP和ICMP协议相关的统计数据。

使用netstat命令可以查看当前连接状态、监听端口、路由表等信息。

此外，netstat命令还可以用于查看网络接口的流量统计，包括接收和发送数据包的数量。

然而，与ifconfig命令类似，netstat命令只提供基本的网络流量信息，无法进行详细的流量分析。

3. 使用tcpdump命令tcpdump命令是一个功能强大的网络抓包工具。

它可以捕获网络接口上的数据包，并将其以文本形式显示出来。

tcpdump命令可以根据用户定义的过滤器来捕获特定类型的数据包，如IP地址、端口号、协议类型等。

通过分析捕获的数据包，可以了解网络流量的来源、目的地、传输协议等信息。

但是，tcpdump命令对于非专业人士来说有一定的学习曲线，并且在大规模网络环境下处理大量数据包时，可能会影响系统性能。

4. 使用nload命令nload命令是一个简单易用的网络流量监控工具。

它能够实时显示网络接口的流量情况，包括接收和发送的数据量、网络带宽利用率等信息。

nload命令提供了一个直观的图形界面，可以方便地监控网络接口的流量变化。

然而，nload命令只提供基本的流量监控功能，无法进行深入的流量分析。

linux 监控命令ps 与top详解

一：psps -l 查看属于自己这次登录的PID与相关信息列出来(只与自己的bash有关)F：代表这个进程标志（process flags），说明这个进程的权限，常见号码有：若为4表示此进程的权限为root；若为1则表示此子进程仅可进行复制（fork）而无法执行（exec）；S：代表这个进程的状态（STAT),主要的状态有：R（Running）：该进程正在运行中；S（Sleep）：该进程目前正在睡眠状态（idle），但可以被唤醒（signal）；D：不可被唤醒的状态，通常这个进程可能在等待I/O的情况（ex>打印）；T：停止状态（stop），可能是在工作控制（后台暂停）或出错（traced）状态；Z（Zombie）：“僵尸”状态，该进程已经终止但却无法被删除至内存外。

UID/PID/PPID:代表此进程被该UID所拥有的/进程的PID号码/此进程的父进程PID号码。

C：代表CPU使用率，单位为百分比。

PRI/NI：Priority/Nice的缩写，代表此进程被CPU所执行的优先级，数值越小代表此进程越快被CPU执行。

ADDR/SZ/WCHAN:都与内存有关，ADDR是kernel function,指出该进程在内存的哪个部分，如果是个running的进程，一般会显示“—”。

SZ代表此进程用掉多少内存。

WCHAN表示目前进程是否在运行中，同样，若为“—”表示正在运行中。

TTY：登录者的终端位置，若为远程登录使用动态终端接口（pts/n）。

TIME:使用CPU的时间，注意，是此进程实际花费CPU运行的时间，而不是系统时间。

CMD:就是command的缩写，造成此程序的触发进程的命令为何。

ps aux 查看系统所有进程数据(静态)USER:该进程属于哪个用户账号的；PID:该进程的进程标识符；%CPU:该进程使用掉的CPU资源百分比；%MEM：该进程所占用的物理内存百分比；VSZ:该进程所占用的虚拟内存量（KB）；RSS:该进程所占用的固定的内存量（KB）；TTY：该进程在哪个终端机上面运行，若与终端机无关则显示？另外，tty1~tty6是本机上面的登录者程序，若为pts/0等的，则表示为由网络连接进主机的进程；STAT:该进程目前的状态，状态显示与ps -l的S标识相同（R/S/T/Z）；TIME:该进程实际使用CPU的时间；COMMAND:该进程的实际命令。

Linux系统服务监控脚本使用Shell脚本实现对Linux系统服务运行状态的监控和报警

Linux系统服务监控脚本使用Shell脚本实现对Linux系统服务运行状态的监控和报警在Linux系统中，运行着许多关键的服务，如网络服务、数据库服务等。

它们在系统运行中扮演着重要的角色。

然而，有时候这些服务可能会出现故障或停止运行，给系统的正常运行带来风险。

为了保证系统的可靠性和稳定性，我们需要实现对这些服务的监控和报警。

本文将介绍如何使用Shell脚本来实现Linux系统服务监控，并在需要时发送报警通知。

一、监控服务状态1. 创建监控脚本首先，我们需要创建一个Shell脚本，用于监控特定的服务。

使用文本编辑器，创建一个后缀名为.sh的文件，比如monitor.sh，并设置相应的执行权限。

2. 编写监控脚本代码在monitor.sh文件中，我们将使用systemctl命令来检查服务的状态。

以下是一个示例脚本，用于监控Apache Web服务器的运行状态：```bash#!/bin/bash# 定义服务名称SERVICE="httpd"# 检查服务状态status=$(systemctl is-active $SERVICE)# 判断服务状态if [[ $status != "active" ]]; thenecho "服务 $SERVICE 未运行!"# 在此处添加发送报警通知的代码fi```在脚本中，我们使用systemctl is-active命令来获取服务的状态，并将其存储在变量status中。

然后，使用条件语句判断服务状态是否为"active"，如果不是，则输出一条错误信息。

3. 添加更多服务监控根据需要，你可以在脚本中添加更多的服务监控代码。

只需将上述步骤中的SERVICE变量修改为你要监控的服务名称，并添加相应的判断逻辑即可。

二、实现报警功能当监控脚本检测到服务状态异常时，我们希望能够及时收到报警通知。

linux下查看日志和监控日志--tail命令

linux下查看⽇志和监控⽇志--tail命令⼀、tail命令
tail命令从指定点开始将⽂件写到标准输出.使⽤tail命令的-f选项可以⽅便的查阅正在改变的⽇志⽂件,
tail -f filename会把filename⾥最尾部的内容显⽰在屏幕上,并且不但刷新,使你看到最新的⽂件内容。

⼆、tail的命令参数：
-f 循环读取
-q 不显⽰处理信息
-v 显⽰详细的处理信息
-c<数⽬> 显⽰的字节数
-n<⾏数> 显⽰⾏数
--pid=PID 与-f合⽤,表⽰在进程ID,PID死掉之后结束.
-q, --quiet, --silent 从不输出给出⽂件名的⾸部
-s, --sleep-interval=S 与-f合⽤,表⽰在每次反复的间隔休眠S秒
————————————————
三、⽰例
⽐如我们要查看laravel.log⽇志的内容：
1、tail -f laravel.log
该条命令会输⼊laravel.log的变化，实现时时监控的⽬的
2、tail -n 3 laravel.log
该条命令会输出倒数前3条的⽇志内容
3、tail -n +3 laravel.log
该条命令是从⽇志的第三条开始打印⽇志的内容
————————————————
四、停⽌命令：
1、ctrl+C
2、kill -9 pid。

使用watch命令在Linux终端中定时监视命令输出

使用watch命令在Linux终端中定时监视命令输出在Linux系统中，有许多强大的命令可以帮助我们更好地管理和监视系统。

其中，watch命令是一个非常实用的工具，它可以定时执行指定的命令，并将命令的输出实时显示在终端上。

本文将介绍watch命令的使用方法和一些常见的应用场景。

一、watch命令的基本用法watch命令的基本语法如下：watch [options] command其中，options可以指定一些参数来控制watch命令的行为，command则是要执行的命令。

1. 默认情况下，watch命令每2秒钟执行一次指定的命令，并将输出结果实时显示在终端上。

例如，我们可以使用watch命令来监视系统的网络连接情况：watch ss -s上述命令将每2秒钟执行一次ss -s命令，并将其输出实时显示在终端上。

这样我们就可以通过观察终端上的输出，实时了解系统当前的网络连接状态。

2. 除了默认的刷新频率2秒之外，我们还可以通过使用选项来自定义刷新频率。

例如，我们可以将刷新频率设置为5秒：watch -n 5 ss -s上述命令将每5秒钟执行一次ss -s命令，并将其输出实时显示在终端上。

3. 有些命令的输出结果较长，导致无法完整显示在终端上。

为了解决这个问题，我们可以使用选项来限制输出结果的宽度。

例如，我们可以将输出结果限制为80个字符宽度：watch -n 5 -t "ls -l | cut -c 1-80"上述命令将每5秒钟执行一次“ls -l | cut -c 1-80”命令，并将输出结果限制为80个字符宽度显示在终端上。

二、watch命令的常见应用场景1. 系统性能监控通过使用watch命令，我们可以实时监控系统的性能指标，如CPU 使用率、内存占用等。

例如，我们可以使用top命令来监视系统的CPU使用情况：watch -n 1 top -b -n 1上述命令将每1秒钟执行一次top -b -n 1命令，并将其输出实时显示在终端上。

linuxjstat命令监控gc情况

linuxjstat命令监控gc情况jstatJstat⽤于监控基于HotSpot的JVM，对其堆的使⽤情况进⾏实时的命令⾏的统计，使⽤jstat我们可以对指定的JVM做如下监控：- 类的加载及卸载情况- 查看新⽣代、⽼⽣代及持久代的容量及使⽤情况- 查看新⽣代、⽼⽣代及持久代的垃圾收集情况，包括垃圾回收的次数及垃圾回收所占⽤的时间- 查看新⽣代中Eden区及Survior区中容量及分配情况等jstat⼯具特别强⼤，它有众多的可选项，通过提供多种不同的监控维度，使我们可以从不同的维度来了解到当前JVM堆的使⽤情况。

详细查看堆内各个部分的使⽤量，使⽤的时候必须加上待统计的Java进程号，可选的不同维度参数以及可选的统计频率参数。

jstat [ generalOption | outputOptions vmid [interval[s|ms] [count]] ]generalOption - 单个的常⽤的命令⾏选项，如-help, -options, 或 -version。

outputOptions -⼀个或多个输出选项，由单个的statOption选项组成，可以和-t, -h, and -J等选项配合使⽤。

statOption：根据jstat统计的维度不同，可以使⽤如下表中的选项进⾏不同维度的统计，不同的操作系统⽀持的选项可能会不⼀样，可以通过-options选项，查看不同操作系统所⽀持选项，如：Option Displays...⽤于查看类加载情况的统计⽤于查看HotSpot中即时编译器编译情况的统计⽤于查看JVM中堆的垃圾收集情况的统计⽤于查看新⽣代、⽼⽣代及持久代的存储容量情况⽤于查看垃圾收集的统计情况（这个和-gcutil选项⼀样），如果有发⽣垃圾收集，它还会显⽰最后⼀次及当前正在发⽣垃圾收集的原因。

⽤于查看新⽣代垃圾收集的情况⽤于查看新⽣代的存储容量情况⽤于查看⽼⽣代及持久代发⽣GC的情况⽤于查看⽼⽣代的容量⽤于查看持久代的容量⽤于查看新⽣代、⽼⽣代及持代垃圾收集的情况HotSpot编译⽅法的统计-h n⽤于指定每隔⼏⾏就输出列头，如果不指定，默认是只在第⼀⾏出现列头。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

常用的linux系统监控命令

记录一下自己常用的linux系统命令，方便以后查阅，发觉记忆越来越不行了

找到最耗CPU的java线程

ps命令
命令：ps -mp pid -o THREAD,tid,time 或者 ps -Lfp pid
结果展示：

这个命令的作用，主要是可以获取到对应一个进程下的线程的一些信息。比如你想分析一下
一个java进程的一些运行瓶颈点，可以通过该命令找到所有当前Thread的占用CPU的时
间，也就是这里的最后一列。

比如这里找到了一个TID : 30834 ，所占用的TIME时间最高。
通过 printf "%x\n" 30834 首先转化成16进制，继续通过jstack命令dump出当前的jvm
进程的堆栈信息。通过Grep命令即可以查到对应16进制的线程id信息，很快就可以找到
对应最耗CPU的代码快在哪。
简单的解释下，jstack下这一串线程信息内容：

Java代码
1. "DboServiceProcessor-4-thread-295" daemon prio=10 tid=0x00002aab047a9800 nid
=0x7d9b waiting on condition [0x0000000046f66000]

nid : 对应的linux操作系统下的tid，就是前面转化的16进制数字
tid: 这个应该是jvm的jmm内存规范中的唯一地址定位，如果你详细分析jvm的一些内存
数据时用得上，我自己还没到那种程度，所以先放下
top命令

命令：top -Hp pid
结果显示：

和前面的效果一下，你可以实时的跟踪并获取指定进程中最耗cpu的线程。再用前面的方
法提取到对应的线程堆栈信息。

判断I/O瓶颈

mpstat命令
命令：mpstat -P ALL 1 1000
结果显示：

注意一下这里面的%iowait列，CPU等待I/O操作所花费的时间。这个值持续很高通常可能
是I/O瓶颈所导致的。
通过这个参数可以比较直观的看出当前的I/O操作是否存在瓶颈

iostat命令

命令: iostat -m -x 1 1000

同样你可以观察对应的CPU中的%iowait数据，除此之外iostat还提供了一些更详细的I/O
状态数据，比如比较重要的有：
avgqu-sz : The average queue length of the requests that were issued to the device. (磁
盘队列的请求长度，正常的话2,3比较好。可以和cpu的load一样的理解)
await : The average time (in milliseconds) for I/O requests issued to the device to be
served. (代表一个I/O操作从wait到完成的总时间)
svctm和%util都是代表处理该I/O请求花费的时间和CPU的时间比例。判断是否瓶颈时，
这两个参数不是主要的

r/s w/s 和 rMB/s wMB/s 都是代表当前系统处理的I/O的一些状态，前者是我们常说的tps，
后者就是吞吐量。这也是评价一个系统的性能指标

pid命令

命令: pidstat -p pid -u -d -t -w -h 1 1000

结果显示：

相当实用的一个命令，可以基于当个进程分析对应的性能数据，包括CPU,I/O,IR , CS等，
可以方便开发者更加精细化的观察系统的运行状态。不过pidstat貌似是在2.6内核的一些
较新的版本才有，需要安装sysstat包。
ubuntu下，可以通过sudo apt-get install sysstat进行安装。
sar命令

命令：sar -x pid 1 1000

sar也可以指定对应的pid，关注固定的几个参数，没有pidstat那么强大。看不到对应的I/O,
IR等信息。
sar的功能可以覆盖mpstat , iostat的相关功能。
dstat命令

命令：dstat -y --tcp 1 1000

通过dstat --tcp可以比较方便的看到当前的tcp的各种状态，不需要每次netstat -nat去看

其他命令

netstat -natp : 查看对应的网络链接，关注下Recv-Q , Send-Q , State。
lsof -p pid : 查找对应pid的文件句柄
lsof -i : 80 : 查找对应端口被哪个进程占用
lsof /tmp/1.txt ：查找对应文件被哪个进程占用

tcpdump / wireshark ：抓包分析工具
jstat / jmap / jstack / jps 等一系列的java监控命令

最后

如果你想做一些性能调优的工作，一定要善于利用一些工具进行关注相应的状态。通过
linux命令你可以比较方便的观测到CPU , I/O , network等一些比较外围的状态，很多时候
就已经可以解决大部分的问题。jvm内部的一些运行状态监控，得需要借助一些特有的工具
进行细粒度的观测。