vmstat查看分析Linux系统负载性能 _LINUX系统

相逢意气为君饮，系马高楼垂柳边。这篇文章主要讲述vmstat查看分析Linux系统负载性能相关的知识，希望能为你提供帮助。

vmstat??命令??是用来获得有关进程、内存、页面交换空间及 CPU活动的信息。这些信息反映了系统的负载情况。

一、简介
vmstat??命令??：用来获得有关进程、内存、页面交换空间及 CPU活动的信息。这些信息反映了系统的负载情况。

文章图片

Desk cluttered with business documents
二、使用vmstat
参数用法

vmstat [-a] [-n] [-S unit] [delay [ count]]
vmstat [-s] [-n] [-S unit]
vmstat [-m] [-n] [delay [ count]]
vmstat [-d] [-n] [delay [ count]]
vmstat [-p disk partition] [-n] [delay [ count]]
vmstat [-f]
vmstat [-V]
-a：显示活跃和非活跃内存
-f：显示从系统启动至今的fork数量。
-m：显示slabinfo
-n：只在开始时显示一次各字段名称。
-s：显示内存相关统计信息及多种系统活动数量。
delay：刷新时间间隔。如果不指定，只显示一条结果。
count：刷新次数。如果不指定刷新次数，但指定了刷新时间间隔，这时刷新次数为无穷。
-d：显示磁盘相关统计信息。
-p：显示指定磁盘分区统计信息
-S：使用指定单位显示。参数有 k 、K 、m 、M ，分别代表1000、1024、1000000、1048576字节（byte）。默认单位为K（1024 bytes）
-V：显示vmstat版本信息。

三、vmstat信息查看
常用命令如下：

vmstat 1 10

1表示每隔1秒采集一次服务器状态，10表示只采集10次。

文章图片

Procs(进程)：
r：运行队列中进程数量，这个值也可以判断是否需要增加CPU。(长期大于1)，当这个值超过了CPU数目，就会出现CPU瓶颈了。这个也和top的负载有关系，一般负载超过了3就比较高，超过了5就高，超过了10就不正常了，服务器的状态很危险。
b：等待IO的进程数量，及阻塞的进程。
Memory(内存)：
swpd：使用虚拟内存大小，如果大于0，表示你的机器物理内存不足了，如果不是程序内存泄露的原因，那么你该升级内存了或者把耗内存的任务迁移到其他机器。
注意：如果swpd的值不为0，但是SI，SO的值长期为0，这种情况不会影响系统性能。
free：空闲物理内存大小
buff：用作缓冲的内存大小，inux/Unix系统是用来存储，目录里面有什么内容，权限等的缓存
cache：用作缓存的内存大小 (这里是Linux/Unix的聪明之处，把空闲的物理内存的一部分拿来做文件和目录的缓存，是为了提高程序执行的性能，当程序使用内存时，buffer/cached会很快地被使用。)
注意：如果cache的值大的时候，说明cache处的文件数多，如果频繁访问到的文件都能被cache处，那么磁盘的读IO bi会非常小。
Swap：
si：每秒从交换区写到内存的大小，由磁盘调入内存，如果这个值大于0，表示物理内存不够用或者内存泄露了，要查找耗内存进程解决掉。
so：每秒写入交换区的内存大小，由内存调入磁盘，如果这个值大于0，同上。
【vmstat查看分析Linux系统负载性能】注意：内存够用的时候，这2个值都是0，如果这2个值长期大于0时，系统性能会受到影响，磁盘IO和CPU资源都会被消耗。有些朋友看到空闲内存(free)很少的或接近于0时，就认为内存不够用了，不能光看这一点，还要结合si和so，如果free很少，但是si和so也很少(大多时候是0)，那么不用担心，系统性能这时不会受到影响的。
IO：(现在的Linux版本块的大小为1kb)
bi：每秒读取的块数，块设备每秒接收的块数量，这里的块设备是指系统上所有的磁盘和其他块设备，默认块大小是1024byte。
bo：每秒写入的块数，块设备每秒发送的块数量，例如我们读取文件，bo就要大于0。bi和bo一般都要接近0，不然就是IO过于频繁，需要调整。
注意：随机磁盘读写的时候，这2个值越大(如超出1024k)，能看到CPU在IO等待的值也会越大。
系统：
in：每秒中断数，包括时钟中断。
cs：每秒上下文切换数。每秒上下文切换次数，例如我们调用系统函数，就要进行上下文切换，线程的切换，也要进行上下文切换，这个值要越小越好，太大了，要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中，我们一般做性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程可以由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，我们的代码就会进入内核空间，导致上下文切换，这个是很耗资源的，也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，导致CPU干正经事的时间少了，CPU没有充分利用，是不可取的。
注意：上面2个值越大，会看到由内核消耗的CPU时间会越大。
CPU(以百分比表示)：
us：用户进程执行时间百分比(user time)
注意： us的值比较高时，说明用户进程消耗的CPU时间多，但是如果长期超50%的使用，那么我们就该考虑优化程序算法或者进行加速。
sy：内核系统进程执行时间百分比(system time)，系统CPU时间，如果太高，表示系统调用时间长，例如是IO操作频繁
注意：sy的值高时，说明系统内核消耗的CPU资源多，这并不是良性表现，我们应该检查原因。
wa：IO等待时间百分比，等待IO时间，wa的值高时，说明IO等待比较严重，这可能由于磁盘大量作随机访问造成，也有可能磁盘出现瓶颈。
注意：wa的值高时，说明IO等待比较严重，这可能由于磁盘大量作随机访问造成，也有可能磁盘出现瓶颈(块操作)。
id：空闲时间百分比，空闲 CPU时间，一般来说，id + us + sy = 100,一般我认为id是空闲CPU使用率，us是用户CPU使用率，sy是系统CPU使用率
wt：等待IO CPU时间。
?
?