ceph平台-未及时移除故障osd导致根目录100%问题的故障记录
项目场景一个甲方的ceph集群osd日志拉满导致根目录100%问题描述甲方联系说有点问题远程处理。首先登陆到控制节点发现根目录满了检查定位到日志目录所有osd日志大小几乎一致。然后检查所有存储节点都有类似问题。打开日志文件分析原因下面放三个osd日志的截图全部在16:57 指向到secret_id:44281原因分析千问的回答auth: could not find secret_id44281含义Ceph Monitor或 OSD在验证某个客户端身份时找不到 ID 为 44281 的密钥。✅ 这个 secret_id 是 Ceph 内部生成的唯一标识用于关联一个实体如 osd.5的认证密钥。cephx: verify_authorizer could not get service secret for service osd secret_id44281含义使用 cephx 协议验证时无法获取对应 osd 服务的密钥。❌ 表明该 OSD 的 keyring 已被删除、损坏或未正确同步到 MON 数据库。.accept: got bad authorizer含义连接被拒绝因为客户端提供的认证票据无效。⚠️ 通常出现在OSD 使用旧密钥尝试连接 MONOSD 被删除后仍在运行keyring 文件被手动修改或丢失操作感觉是坏掉的osd没有及时删除的问题。第一步 先处理根目录100%所有ceph节点的所有osd日志追空第二步执行ceph osd命令ceph命令没有返回检查mon服务全死。挨个mon节点重启mon服务第三步通过osd相关命令找到坏掉的osd然后完全删除掉执行删除命令后集群进入恢复模式第四步观察集群恢复同时不定期检查osd日志大小看是否还有异常forXin{1..14};dosshXX.XXX.X.$Xhostname ; rm -rf /var/log/ceph/*.gz ;ls -ln -h /var/log/ceph/ ;done第五步等待集群恢复完毕后重启所有osd服务第六步持续多天检查osd日志大小和集群状态解决方案osd坏了及时换盘没有的话要及时完全删除掉

相关新闻

Jina Rerankers 为 Elastic 推理服务(EIS)带来了快速、多语言的重排序能力

Jina Rerankers 为 Elastic 推理服务(EIS)带来了快速、多语言的重排序能力

作者:来自 Elastic Sean Handley, Brendan Jugan 及 Ranjana Devaji Elastic 现在在 EIS 上提供了 jina-reranker-v2-base-multilingual 和 jina-reranker-v3,使得可以直接在 Elasticsearch 中进行快速多语言重排序,实现更高精度的检索、RAG …

2026/7/2 22:15:54 阅读更多 →
多智能体协同评估企业创新能力

多智能体协同评估企业创新能力

多智能体协同评估企业创新能力 关键词:多智能体协同、企业创新能力评估、智能体模型、创新指标体系、机器学习算法 摘要:本文聚焦于利用多智能体协同方法对企业创新能力进行评估。首先介绍了该研究的背景、目的和预期读者,阐述了相关术语和核心概念。接着详细讲解了多智能体…

2026/7/3 14:43:43 阅读更多 →
大语言模型部署难题破解:三大优化方向全解析,程序员必藏干货

大语言模型部署难题破解:三大优化方向全解析,程序员必藏干货

大语言模型 (LLM) 因其在各种任务中的卓越表现而备受关注。 然而大语言模型的部署推理并不简单,尤其是针对在给定资源受限场景下,巨大的计算和内存需求给LLM推理部署带来了挑战,具体如:高延迟、低吞吐、高存储等。 一、前期知识 …

2026/7/3 8:07:57 阅读更多 →

最新新闻

2026年多模态AI爆发的三大工程临界点

2026年多模态AI爆发的三大工程临界点

1. 项目概述:这不是预测,是正在发生的产业切片 “2026年4月下旬AI爆发”这个标题乍看像媒体噱头,但作为连续跟踪大模型产业落地六年的从业者,我必须说:它不是时间锚点,而是技术演进的临界刻度。过去三个月&…

2026/7/3 20:21:16 阅读更多 →
【信息科学与工程学】计算机科学与自动化——第五十七篇 计算性与不可计算性01

【信息科学与工程学】计算机科学与自动化——第五十七篇 计算性与不可计算性01

编号 类型 领域 问题 问题的数学分析 关联知识 1 不可计算性 计算理论 停机问题:判断任意图灵机在给定输入上是否会终止 采用对角线法构造矛盾:假设存在通用停机判定器 H,则构造新图灵机 D 利用 H 判定自身并做相反操作,导致悖论,故不存在这样的算法。 图灵机、…

2026/7/3 20:21:16 阅读更多 →
基于Playwright的UI自动化测试平台:从架构设计到CI/CD集成

基于Playwright的UI自动化测试平台:从架构设计到CI/CD集成

1. 项目概述:为什么需要一个基于PlayWright的UI自动化测试平台?如果你是一名测试工程师或者开发工程师,每天还在为Web应用的UI自动化测试脚本的编写、维护、执行和报告而头疼,那么“基于PlayWright的UI自动化测试平台”这个项目&a…

2026/7/3 20:19:15 阅读更多 →
三步实现IDM永久激活:免费解锁下载神器的终极指南

三步实现IDM永久激活:免费解锁下载神器的终极指南

三步实现IDM永久激活:免费解锁下载神器的终极指南 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 你是否厌倦了Internet Download Manager&#xff0…

2026/7/3 20:19:15 阅读更多 →
相机、激光雷达与事件相机动态感知原理对比

相机、激光雷达与事件相机动态感知原理对比

1. 项目概述:为什么“动态感知”成了自动驾驶与机器人领域的生死线?你有没有注意过,一辆车在暴雨中急刹时,传统摄像头拍到的画面几乎是一片模糊的水幕,而激光雷达却能稳稳锁定前方突然窜出的电动车轮廓;又或…

2026/7/3 20:09:12 阅读更多 →
DreamScene2:免费开源Windows动态桌面终极解决方案

DreamScene2:免费开源Windows动态桌面终极解决方案

DreamScene2:免费开源Windows动态桌面终极解决方案 【免费下载链接】DreamScene2 一个小而快并且功能强大的 Windows 动态桌面软件 项目地址: https://gitcode.com/gh_mirrors/dr/DreamScene2 厌倦了千篇一律的静态壁纸?想要让Windows桌面焕发新生…

2026/7/3 20:09:12 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻