Go 实现容器监控需读取 cgroups v1/v2 指标文件,结合容器运行时元数据采集 CPU、内存、IO 使用量,通过轮询计算差值并阈值告警,支持自动干预与资源约束策略。

用 Go 语言实现容器资源监控,核心是通过读取 /sys/fs/cgroup(Linux cgroups v1)或 /sys/fs/cgroup/(cgroups v2)下的指标文件,结合容器运行时(如 Docker、containerd)的元数据,实时采集 CPU、内存、磁盘 I/O 等使用情况,并在超出阈值时触发告警或自动干预。
获取容器对应的 cgroup 路径
每个容器在宿主机上对应一个独立的 cgroup 子目录。Docker 容器通常位于:
-
cgroups v1:
/sys/fs/cgroup/cpu/docker/、/sys/fs/cgroup/memory/docker/ -
cgroups v2(推荐):统一挂载点如
/sys/fs/cgroup/system.slice/docker-,所有资源指标在同一目录下.scope/
可通过 docker inspect 获取 ID;也可从 /proc/ 反查进程所属 cgroup 路径(适用于非 Docker 场景,如直接 run 的 containerd 容器)。
读取关键资源指标
以 cgroups v2 为例(更简洁、统一):
立即学习“go语言免费学习笔记(深入)”;
-
CPU 使用量:读
cpu.stat中的usage_usec字段,配合时间差计算 CPU 使用率(需结合cpu.max得出配额占比) -
内存使用量:读
memory.current(当前用量),对比memory.max(硬限制)判断是否接近上限;memory.stat中的pgmajfault可辅助识别内存压力 -
IO 统计:读
io.stat(v2)解析设备+读写字节数和 IO 次数,注意格式为键值对多行(如8:0 rbytes=123456 wbytes=7890)
Go 中可用 os.ReadFile 直接读取文本文件,用 strings.FieldsFunc 或正则提取数值,避免依赖外部库。
构建轻量级轮询监控器
不依赖 Prometheus Exporter,用纯 Go 实现最小可行监控循环:
- 用
time.Ticker控制采集频率(如每 5 秒一次) - 并发遍历目标容器列表(可从
docker ps --format '{{.ID}}\t{{.Names}}'动态获取) - 对每个容器路径,安全读取指标并计算 delta(如 CPU usage_usec 差值 ÷ 采样间隔 → us/s)
- 若
memory.current > memory.max * 0.9或 CPU 持续超限,记录日志、发 HTTP 告警、或调用docker update --memory-reservation降级(需宿主机有 docker CLI 权限)
防止资源过度消耗的主动策略
监控只是基础,关键在“防”:
- 启动容器时强制设置
--memory=512m --memory-swap=512m --cpus=1.0,避免无约束运行 - 在 Go 监控程序中集成熔断逻辑:连续 3 次检测到内存 >95%,自动执行
docker stop并通知运维 - 对批量任务类容器,预留 buffer:将
memory.max设为应用预期峰值的 120%,再用监控观察真实波动,动态调优 - 避免在容器内运行监控 agent —— 推荐宿主机侧采集,减少干扰和资源嵌套开销










