%util 接近 100% 不代表磁盘真卡顿,因其仅反映设备忙时百分比,不体现队列深度或延迟;应优先关注 await、r_await/w_await 及 avgqu-sz,结合 iostat -x 持续采样判断真实瓶颈。

怎么看 iostat 输出里 %util 接近 100% 却不一定真卡在磁盘?
%util 是 iostat -x 最常被误读的指标:它表示设备忙于处理 I/O 请求的时间百分比,但不反映请求队列深度或响应延迟。SSD 或 NVMe 设备即使并发高、%util 满,实际 await(平均等待时间)可能仍低于 1ms;而一块老旧 SATA 盘,%util 刚到 60%,await 却飙到 50ms,才是真正瓶颈。
- 优先看
await和r_await/w_await:持续 >10ms(HDD)或 >1ms(SSD/NVMe)需警惕 - 对比
avgqu-sz(平均队列长度)和svctm(已废弃,忽略):若avgqu-sz> 1 且await显著升高,说明请求在队列中堆积 - 用
iostat -x 1持续采样,避免单次快照误导
为什么 iotop 显示某进程 IO 很高,但 strace -e trace=io io 没抓到系统调用?
常见于使用 libaio(异步 I/O)或 mmap 写入的程序,比如 MySQL(InnoDB with innodb_use_native_aio=ON)、PostgreSQL(同步写模式关闭时)、某些数据库代理或自研存储服务。这类 I/O 不经过标准 read/write 系统调用路径,strace 默认看不到。
- 确认是否启用异步 I/O:
cat /proc/,看到/stack | grep -i aio io_submit或io_getevents即为异步 - 用
perf record -e block:block_rq_issue,block:block_rq_complete -p抓块层事件,更底层可靠 -
iotop -o只显示有实际 I/O 的进程,但无法区分同步/异步;搭配/proc/中的/io syscr/syscw(系统调用次数)与read_bytes/write_bytes对比,若后者远大于前者,大概率是异步或直接 I/O
用 blktrace 分析 IO 路径延迟,关键字段怎么看?
blktrace 输出原始事件流,真正价值在于定位延迟发生在哪一环:调度器排队?设备驱动?物理介质?
- 关注事件类型:
Q=queue(进队列),G=get_request(获取请求结构体),M=merge(合并),I=issue(下发到底层驱动),D=driver(驱动处理),C=complete(完成) - 计算关键延迟:
I-Q是调度+合并耗时,C-I是设备侧耗时(含驱动+硬件)。若C-I长且I-Q短,问题在磁盘或驱动;反之则可能是调度策略(如 CFQ 已淘汰,noop/deadline/io-cost 更常用)或队列深度限制 - 用
blkparse -i trace.bin | head -20快速预览;真实分析建议导出为 CSV:blkparse -i trace.bin -f "%5T.%9t %5p %2a %3d %8s %4n %12S\n" > trace.log
检查 /sys/block/*/queue/ 下哪些参数会显著影响随机 IO 性能?
这些 sysfs 参数直接控制内核块层行为,改错一个就可能让 SSD 随机读写掉一半性能。
-
/sys/block/nvme0n1/queue/scheduler:NVMe 设备应设为none(绕过电梯算法);SATA SSD 推荐mq-deadline或kyber;HDD 仍可用bfq(但需确认内核支持) -
/sys/block/nvme0n1/queue/nr_requests:默认 128,对高并发随机写可提到 512~1024(需配合设备支持的队列深度) -
/sys/block/nvme0n1/queue/discard_granularity和discard_max_bytes:影响fstrim效率,TRIM 不及时会导致 SSD 写放大升高、延迟波动 - 修改后验证:
echo "deadline" > /sys/block/sda/queue/scheduler立即生效,无需重启,但要配合dd if=/dev/zero of=/tmp/test bs=4k count=10000 oflag=direct测试延迟变化
echo "none" > /sys/block/nvme0n1/queue/scheduler echo 1024 > /sys/block/nvme0n1/queue/nr_requests echo 1 > /sys/block/nvme0n1/queue/iostatsIO 瓶颈从来不在单一指标上,
iostat、iotop、blktrace、/sys/block 是四把不同刻度的尺子——用错对象,或者只看一把,都容易把 NVMe 当 HDD 优化,或者把应用层锁竞争当成磁盘慢。











