最轻量可靠的容器资源监控方式是直接读取cgroup文件:v1路径为/sys/fs/cgroup/cpu/docker//cpuacct.usage和memory.usage_in_bytes,v2路径为/sys/fs/cgroup/docker//{cpu.stat,memory.current};需两次采样差值计算CPU使用率,结合total_rss与failcnt评估真实内存压力,并做好路径存在性、权限及版本兼容的防御性检查。
cgroup 文件系统直接读取容器资源数据容器(如 Docker)在 Linux 下本质是进程组,其 CPU、内存使用量都通过 cgroup v1 或 v2 暴露为文件。Golang 无需额外 SDK,os.ReadFile 读取对应路径即可——这是最轻量、最可靠的方式,不依赖 Docker API 或守护进程状态。
关键路径取决于 cgroup 版本和容器 ID:
/sys/fs/cgroup/cpu/docker//cpuacct.usage (纳秒),内存在 /sys/fs/cgroup/memory/docker//memory.usage_in_bytes
/sys/fs/cgroup/docker// ,指标在 cpu.stat 和 memory.current
docker ps -q --filter "name=xxx" 或 /proc/1/cgroup 中解析(若在容器内运行监控程序)cpuacct.usage 得到实际 CPU 使用率cpuacct.usage 是单调递增的纳秒计数器,不能直接反映“百分比”。要算出近似 CPU 使用率,需两次采样做差,再除以采样间隔 × CPU 核心数。
示例逻辑:
func readCPUUsage(path string) (uint64, error) {
data, err := os.ReadFile(path)
if err != nil {
return 0, err
}
return strconv.ParseUint(strings.TrimSpace(string(data)), 10, 64)
}
// 假设已获取 prevUsage, currUsage, intervalSec = 1.0, numCPUs = 4
cpuPercent := float64(currUsage-prevUsage) / (float64(intervalSec) 1e9 float64(numCPUs)) * 100.0
注意点:
cpuacct.usage 会重置,需检测突降(如下降 >90%)并重置基准cpu.cfs_quota_us 和 cpu.cfs_period_us 可用于判断是否限频,避免误将限频当高负载memory.usage_in_bytes 时区分 active/inactive 内存memory.usage_i 返回的是当前总用量,但其中包含可被内核立即回收的 inactive file cache。真实应用压力更应关注 
memory.stat 中的 pgpgin/pgpgout 或 total_rss(RSS 不含 page cache)。
推荐组合读取:
memory.usage_in_bytes:总内存上限突破预警(对比 memory.limit_in_bytes)memory.stat 中的 total_rss:用户态进程真实驻留内存(类似 ps aux 的 RSS)memory.failcnt:OOM 被触发次数,非零即说明已发生内存压力示例提取 total_rss:
func readMemoryStat(path string) (map[string]uint64, error) {
data, err := os.ReadFile(path)
if err != nil {
return nil, err
}
stats := make(map[string]uint64)
for _, line := range strings.Split(string(data), "\n") {
if strings.HasPrefix(line, "total_rss ") {
fields := strings.Fields(line)
if len(fields) == 2 {
if v, e := strconv.ParseUint(fields[1], 10, 64); e == nil {
stats["rss"] = v
}
}
}
}
return stats, nil
}Golang 程序若直接假设路径存在,容易在容器未启动、cgroup 版本切换、或挂载点未共享(如 Kubernetes Pod 中未挂载 /sys/fs/cgroup)时 panic。必须做防御性检查:
os.ReadFile 前先 os.Stat 判断路径是否存在且可读/proc/self/cgroup 解析(若监控程序本身在目标容器中运行)memory.limit_in_bytes 返回 -1,表示无内存限制,别拿它做除数/sys/fs/cgroup 默认只读挂载,需在 Pod spec 中加 securityContext.privileged: true 或显式挂载 hostPath真正难的不是读数据,而是把路径、版本、权限、生命周期这四层嵌套问题理清楚——少一个条件,监控就静默失效。