Linux负载高不等于CPU高,需结合运行队列、I/O等待和D状态进程综合判断;load值反映单位时间运行或不可中断睡眠态进程均值,>逻辑核数即存在争用,长期>2倍需立即排查;D状态进程是常见主因,可用ps、/proc/PID/stack定位;I/O瓶颈看iostat -x的await、%util与avgqu-sz;还需排查内存不足、内核bug及cgroup限制。

Linux系统负载过高,不等于CPU使用率高,需从运行队列、I/O等待、不可中断状态进程三方面综合判断。直接看top或htop里的%CPU容易误判,关键要看uptime或cat /proc/loadavg输出的三个数字(1/5/15分钟平均负载),再结合vmstat、iostat、ps等工具定位根因。
看懂load值到底代表什么
Load值反映的是单位时间内处于运行态或不可中断睡眠态(D状态)的平均进程数。比如单核CPU上load=3,意味着平均有3个进程在争抢CPU或等待磁盘I/O,其中2个大概率在排队。注意:load高 ≠ CPU满,可能是大量进程卡在磁盘读写、NFS挂载、锁竞争或内核态等待中。
- load值 > CPU逻辑核数,说明系统存在资源争用
- load长期高于CPU核心数×2,需立即排查
- 对比
uptime和mpstat -P ALL 1,若CPU空闲率高但load飙升,基本可排除纯CPU瓶颈
快速定位D状态进程(最常见诱因)
D状态进程无法被信号中断,通常卡在内核I/O路径(如坏盘、NFS超时、RAID重建、cgroup限制、ext4 journal阻塞)。它们不消耗CPU,却持续计入load,是load虚高主因。
- 执行
ps aux | awk '$8 ~ /D/ { print $0 }'列出所有D状态进程 - 重点检查其
WCHAN列(内核等待函数),常见如nfsservd、ext4_journal_start、call_rwsem_down_read_failed - 用
cat /proc/查看该进程内核调用栈,确认卡在哪个驱动或子系统/stack
检查I/O延迟与存储瓶颈
即使没有D状态进程,高I/O等待(%iowait)也会推高load。但要注意:%iowait在现代内核中统计口径有变化,不能单独依赖它;更可靠的是看iostat -x 1中的await(平均I/O响应时间)、%util(设备忙时百分比)和avgqu-sz(平均队列长度)。
-
await > 10ms(SSD)或> 50ms(HDD)表明I/O响应变慢 -
%util接近100%且avgqu-sz持续>4,说明设备已饱和 - 用
lsof +D /path或pidstat -d 1定位高I/O进程
排查其他隐蔽因素
部分场景下load升高与常规资源无关,需针对性验证:
-
内存严重不足:触发直接回收或OOM Killer前,进程频繁进入D状态等待内存页释放,查
free -h、cat /proc/meminfo | grep -i "oom\|commit" -
内核bug或驱动异常:如某些网卡驱动在高包量下导致软中断堆积,用
cat /proc/interrupts观察CPU间中断分布是否严重不均 -
cgroup资源限制:容器或systemd服务配置了
CPUQuota或MemoryLimit,进程被节流后排队,查systemctl show| grep -i limit








