目录gops 工具在 Cilium 中的应用指南什么是 gopsCilium 环境中的 gops 实战演示场景 1: 列出所有 Go 进程场景 2: 获取进程统计信息场景 3: 查看内存统计场景 4: 检查 Goroutine 泄漏Cilium 诊断实战当前节点 (qfusion2 / .148) 状态节点对比分析使用 Prometheus 替代 gops问题诊断流程结论参考链接gops 工具在 Cilium 中的应用指南什么是 gopsgopsGo pprofGo 语言官方的诊断工具用于分析运行中的 Go 程序。安装: go install github.com/google/gopslatestCilium 环境中的 gops 实战演示场景 1: 列出所有 Go 进程# 使用 gops$ gops983go-test-ci* go1.13.4 /usr/local/bin/go-test-ci52153gops go1.12 /Users/user/go/bin/gops# 在 Linux 上模拟 gops$psaux|grep-Ecilium|etcd|kube-apiserver|grep-vgreproot1293553.50.5cilium-agent --config-dir/tmp/cilium/config-map root282783312.20.7etcd --advertise-client-urlshttps://... root282837031.25.2kube-apiserver --advertise-address...场景 2: 获取进程统计信息# 使用 gops$ gops stats129355goroutines:32OS threads:32GOMAXPROCS:16# 模拟 gops stats$cat/proc/129355/status|grepThreads Threads:32$ps-p129355-o pid,comm,pcpu,pmem,etime PID COMMAND %CPU %MEM ELAPSED129355cilium-agent3.50.523:47:25场景 3: 查看内存统计# 使用 gops$ gops memstats129355alloc:1234567bytes total-alloc:987654321bytes sys:12345678bytes lookups:1234mallocs:56789frees:44444heap-live:1234567bytes# 模拟 gops memstats$cat/proc/129355/status|grep-EVm(RSS|Size|Data)VmSize:934700kB VmRSS:162020kB VmData:211628kB场景 4: 检查 Goroutine 泄漏# 正常状态Threads:32✅ 正常(50)# 警告状态Threads:150⚠️ 轻度增高(50-200)# 异常状态Threads:500❌ Goroutine 泄漏(200)Cilium 诊断实战当前节点 (qfusion2 / .148) 状态 Cilium Agent 状态 PID: 129355 运行时间: 23:47:25 CPU: 3.5% 内存: 162 MB (RSS) Threads: 32 文件描述符: 148 Hubble: 4095/4095 (100%) ⚠️ Flows/s: 186.74节点对比分析节点PodsThreads内存Hubble状态qfusion153--4095/4095 (100%)队列满qfusion2932162MB4095/4095 (100%)队列满qfusion352--4095/4095 (100%)队列满使用 Prometheus 替代 gops由于 Cilium 默认不暴露 gops 端点使用 Prometheus metrics# 获取运行指标$curlhttp://127.0.0.1:9962/metrics|grep-Egoroutine|gc_duration|memory# 诊断命令$ kubectlexec-n kube-system cilium-xxx -- cilium status verbose $ kubectl logs -n kube-system cilium-xxx --tail100问题诊断流程1. 发现问题: CPU 高 ↓ 2. 使用 gops/gops.sh 定位进程 ↓ 3. 检查 Threads/Goroutines 数量 ↓ 4. 检查内存使用情况 ↓ 5. 检查文件描述符 ↓ 6. 检查 Hubble 队列状态 ↓ 7. 使用 Prometheus metrics 确认 ↓ 8. 定位根本原因并解决结论gops 是强大的 Go 诊断工具但需要程序支持Cilium 使用 Prometheus metrics作为主要监控方式可以模拟 gops 功能使用 /proc 和 ps 命令Hubble 队列溢出是导致 CPU 高的主要原因解决方法: 增加hubble-event-queue-size参数参考链接gops GitHub: https://github.com/google/gopsCilium Monitoring: https://docs.cilium.io/en/stable/observability/metrics/