软中断高导致系统抖动的典型现象是负载不高但响应延迟突增,%si持续超10%,perf top显示net_rx_action或tasklet_action_common占比异常高;排查需重点关注/proc/softirqs中NET_RX、TIMER、SCHED三列,结合硬中断分布、RPS配置及netdev_budget参数综合分析。

软中断高导致系统抖动的典型现象
系统负载不高但响应延迟突增,top 里 %si(softirq)持续高于 10%,perf top -e 'irq:softirq_entry' 显示 net_rx_action 或 tasklet_action_common 占比异常高——这基本就是软中断压垮 CPU 的信号。
/proc/softirqs 看哪几列才有效
/proc/softirqs 每行是软中断类型,每列是每个 CPU 的触发次数。排查时不看总量,只盯三列:NET_RX(网络收包)、TIMER(定时器)、SCHED(调度器)。如果某 CPU 的 NET_RX 值比其他 CPU 高出一个数量级,说明该核被网卡硬中断绑定后,软中断无法均衡分发。
- 用
cat /proc/interrupts | grep eth0查硬中断分布 - 用
cat /sys/class/net/eth0/device/msi_irqs/*确认 MSI-X 向量数 - 检查
/proc/sys/net/core/rps_cpu_mask是否为空(RPS 关闭时会加剧单核软中断堆积)
.net.core.netdev_budget 调大反而更卡?
net.core.netdev_budget 控制每次软中断上下文处理多少个数据包,默认 300。调大看似能“一次清完”,但实际会让 NET_RX 软中断占用 CPU 时间片过长,阻塞其他任务(尤其是实时进程),抖动更明显。
echo 60 > /proc/sys/net/core/netdev_budget
建议值:千兆网卡设为 60–120,万兆设为 120–240;必须配合 net.core.netdev_max_backlog(如设为 5000)和 RPS 开启,否则只是把丢包压力转成延迟压力。
确认是否真由软中断引起抖动
仅看 %si 不够,要交叉验证:perf record -e 'syscalls:sys_enter_nanosleep,irq:softirq_entry' -C 0 -g -- sleep 10,然后 perf script | grep -E '(net_rx|nanosleep)'。如果 nanosleep 调用大量被 net_rx_action 中断打断,且堆栈显示在 __do_softirq 里耗时超 1ms,才是软中断直接拖慢业务线程。
RPS、RSS、XPS 配置不匹配时,软中断抖动往往伴随 soft lockup 日志(dmesg | grep "watchdog"),这种不能只调参数,得重配队列映射关系。








