Kubernetes 生产排障:先看事件,再看日志
Kubernetes 生产排障先看事件再看日志一、K8s 排障别一上来进容器很多人排 Kubernetes 问题第一反应是kubectl exec进容器看日志。不是不行但顺序常常错了。Pod 起不来、反复重启、镜像拉不下来、调度失败这些问题在事件里已经写得很清楚。先看事件少走弯路。K8s 排障要有节奏资源状态、事件、描述、日志、指标、节点。不要像无头苍蝇一样到处敲命令。生产环境里排障速度来自固定路径。二、排障链路从对象状态到节点flowchart TD A[发现异常] -- B[kubectl get] B -- C[kubectl describe] C -- D[查看 Events] D -- E[查看 Logs] E -- F[检查 Node 与资源]Events 能告诉你很多真相FailedScheduling、ImagePullBackOff、BackOff、Unhealthy、Killing。看到这些关键词就能迅速缩小范围。三、命令清单先拿到证据kubectl get pod -n prod -o wide kubectl describe pod ai-infer-xxx -n prod kubectl logs ai-infer-xxx -n prod --previous kubectl get events -n prod --sort-by.lastTimestamp--previous很重要。容器重启后当前日志可能看不到崩溃前信息。上一轮容器日志经常能直接看到 panic、OOM 或配置错误。四、工程边界别把所有问题都怪 K8sK8s 只是把问题暴露得更明显。探针写错会导致重启资源限制太小会 OOM镜像过大导致拉取慢应用启动慢但 readiness 没处理会被提前打流量。很多所谓 K8s 问题本质是应用没有按云原生方式设计。取舍方面探针严格能快速摘除坏实例但误杀风险高探针宽松减少误杀但坏实例可能继续接流量。生产里要根据服务特性设置。AI 服务、JVM 服务、前端 SSR 服务启动时间都不同探针不能复制粘贴。还要保留排障上下文。事故时记录 Pod 状态、事件、最近发布、节点资源和关键日志。恢复后这些信息可能消失。没有证据的复盘只能写“疑似资源抖动”这种复盘没价值。节点层面也不能漏。Pod Pending 可能是资源不足、亲和性规则太窄、污点不可容忍也可能是 PVC 绑定失败。kubectl describe node、节点 allocatable、磁盘压力和镜像缓存都要看。很多排障卡住是因为只盯 Pod不看它落在哪个节点。如果是线上核心服务建议准备固定排障脚本把 get、describe、events、logs、top、recent rollout 一次性收集。事故时人会紧张脚本能保证证据不漏。排障不是临场 freestyle越关键越要有固定鼓点。最后复盘要回到预防。是资源 request 写错就补准入检查是探针误杀就修模板是镜像拉取慢就做预拉取或镜像治理。排障结束不等于问题结束。排障时还要注意时间线。报警什么时候触发发布什么时候发生Pod 什么时候重启节点什么时候出现压力事件顺序能帮助判断因果。不要看到两个现象同时出现就直接认定相关。K8s 现场信息多时间线能把噪声压下去。如果涉及多集群或多命名空间要先确认影响范围。只影响一个 namespace可能是配额或配置影响整个节点池可能是节点资源或网络影响全集群才去看控制面。范围判断越快排障越稳。五、总结Kubernetes 生产排障要先看对象状态和 Events再看日志和节点资源。固定排障路径比临场乱敲命令更可靠。很多 K8s 问题根因其实在应用设计。

相关新闻

如何用VRCT实现VRChat跨语言实时沟通?2025全面操作指南

如何用VRCT实现VRChat跨语言实时沟通?2025全面操作指南

如何用VRCT实现VRChat跨语言实时沟通?2025全面操作指南 【免费下载链接】VRCT VRCT(VRChat Chatbox Translator & Transcription) 项目地址: https://gitcode.com/gh_mirrors/vr/VRCT 在全球化的VRChat虚拟社交平台上,语言差异常常成为国际交…

2026/7/3 2:00:20 阅读更多 →
颠覆未来:2026武汉人形机器人及具身智能展览会开启智能新纪元

颠覆未来:2026武汉人形机器人及具身智能展览会开启智能新纪元

颠覆未来:2026武汉人形机器人及具身智能展览会开启智能新纪元武汉9月大展聚焦具身智能,引领科技浪潮人形机器人走进现实,武汉展会揭秘未来应用场景当人形机器人从科幻走进现实,这场汇聚全球顶尖科技的盛会即将在武汉拉开帷幕。202…

2026/7/3 2:00:20 阅读更多 →
内蒙古本地实体企业线上获客指南:GEO + 官网 + 短视频组合打法

内蒙古本地实体企业线上获客指南:GEO + 官网 + 短视频组合打法

对于内蒙古的实体企业,尤其是制造业工厂、商贸经销商、本地服务商而言,客源高度集中在本地及周边盟市,传统线下拓客成本越来越高,线上获客又常常找不到精准方向,泛流量多、意向客户少。针对本地实体企业的特性&#xf…

2026/7/3 1:58:20 阅读更多 →

最新新闻

居家饮食百搭冲调,庆葆堂菊粉固体饮料,日常纤维好搭档

居家饮食百搭冲调,庆葆堂菊粉固体饮料,日常纤维好搭档

均衡的日常饮食离不开足量植物纤维,今天分享一款百搭便捷的菊粉固体饮料,来自山东庆葆堂,以菊苣根为单一萃取原料,打造干净纯粹的日常冲饮选择。 产品全程植物提纯,做到 0 蔗糖、0 脂肪,粉质细腻轻盈&#…

2026/7/3 3:06:45 阅读更多 →
基于STM32单片机WIFI云平台物联网 空气质量 烟雾温湿度PM2.5 1(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_

基于STM32单片机WIFI云平台物联网 空气质量 烟雾温湿度PM2.5 1(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_

基于STM32单片机WIFI云平台物联网 空气质量 烟雾温湿度PM2.5 1(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_ WIFI云平台传输烟雾PM2.5温湿度声光报警 版本0:STM32F103C8T6单片机进行数据处理PM2.5检测当前粉尘浓度DHT11温湿度传感…

2026/7/3 3:04:43 阅读更多 →
调试与对拍:算法竞赛的“除虫指南”

调试与对拍:算法竞赛的“除虫指南”

引言这是每个算法竞赛选手都经历过的“至暗时刻”:你在本地跑了样例,完美通过;你甚至自己构造了几组边界数据,也都通过了。你满怀信心地提交代码,几秒钟后——Wrong Answer。你盯着屏幕看了十分钟,反复检查…

2026/7/3 3:04:43 阅读更多 →
2026最新3款基础版免费AI编程工具vibe coding权威实测上手教程

2026最新3款基础版免费AI编程工具vibe coding权威实测上手教程

朋友找我帮忙做一个微信小程序,预算不高、时间紧。我说试试用 AI 全自动开发,他半信半疑。三天后小程序上线了。我是一名独立全栈开发者,前后端开发都负责,累计靠vibe coding落地8个完整商业项目,日常大量口述需求交付…

2026/7/3 3:02:43 阅读更多 →
Adobe-GenP破解工具:3分钟快速激活Adobe全家桶完整指南

Adobe-GenP破解工具:3分钟快速激活Adobe全家桶完整指南

Adobe-GenP破解工具:3分钟快速激活Adobe全家桶完整指南 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe Creative Cloud订阅费用高昂,让…

2026/7/3 3:02:43 阅读更多 →
FFXIV TexTools:终极FF14模组管理解决方案,告别手动安装烦恼

FFXIV TexTools:终极FF14模组管理解决方案,告别手动安装烦恼

FFXIV TexTools:终极FF14模组管理解决方案,告别手动安装烦恼 【免费下载链接】FFXIV_TexTools_UI 项目地址: https://gitcode.com/gh_mirrors/ff/FFXIV_TexTools_UI FFXIV TexTools是一款专业的《最终幻想14》模组管理框架,为玩家提供…

2026/7/3 3:00:42 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻