ceph平台-未及时移除故障osd导致根目录100%问题的故障记录
项目场景一个甲方的ceph集群osd日志拉满导致根目录100%问题描述甲方联系说有点问题远程处理。首先登陆到控制节点发现根目录满了检查定位到日志目录所有osd日志大小几乎一致。然后检查所有存储节点都有类似问题。打开日志文件分析原因下面放三个osd日志的截图全部在16:57 指向到secret_id:44281原因分析千问的回答auth: could not find secret_id44281含义Ceph Monitor或 OSD在验证某个客户端身份时找不到 ID 为 44281 的密钥。✅ 这个 secret_id 是 Ceph 内部生成的唯一标识用于关联一个实体如 osd.5的认证密钥。cephx: verify_authorizer could not get service secret for service osd secret_id44281含义使用 cephx 协议验证时无法获取对应 osd 服务的密钥。❌ 表明该 OSD 的 keyring 已被删除、损坏或未正确同步到 MON 数据库。.accept: got bad authorizer含义连接被拒绝因为客户端提供的认证票据无效。⚠️ 通常出现在OSD 使用旧密钥尝试连接 MONOSD 被删除后仍在运行keyring 文件被手动修改或丢失操作感觉是坏掉的osd没有及时删除的问题。第一步 先处理根目录100%所有ceph节点的所有osd日志追空第二步执行ceph osd命令ceph命令没有返回检查mon服务全死。挨个mon节点重启mon服务第三步通过osd相关命令找到坏掉的osd然后完全删除掉执行删除命令后集群进入恢复模式第四步观察集群恢复同时不定期检查osd日志大小看是否还有异常forXin{1..14};dosshXX.XXX.X.$Xhostname ; rm -rf /var/log/ceph/*.gz ;ls -ln -h /var/log/ceph/ ;done第五步等待集群恢复完毕后重启所有osd服务第六步持续多天检查osd日志大小和集群状态解决方案osd坏了及时换盘没有的话要及时完全删除掉

相关新闻

Jina Rerankers 为 Elastic 推理服务(EIS)带来了快速、多语言的重排序能力

Jina Rerankers 为 Elastic 推理服务(EIS)带来了快速、多语言的重排序能力

作者:来自 Elastic Sean Handley, Brendan Jugan 及 Ranjana Devaji Elastic 现在在 EIS 上提供了 jina-reranker-v2-base-multilingual 和 jina-reranker-v3,使得可以直接在 Elasticsearch 中进行快速多语言重排序,实现更高精度的检索、RAG …

2026/7/2 22:15:54 阅读更多 →
多智能体协同评估企业创新能力

多智能体协同评估企业创新能力

多智能体协同评估企业创新能力 关键词:多智能体协同、企业创新能力评估、智能体模型、创新指标体系、机器学习算法 摘要:本文聚焦于利用多智能体协同方法对企业创新能力进行评估。首先介绍了该研究的背景、目的和预期读者,阐述了相关术语和核心概念。接着详细讲解了多智能体…

2026/7/3 14:43:43 阅读更多 →
大语言模型部署难题破解:三大优化方向全解析,程序员必藏干货

大语言模型部署难题破解:三大优化方向全解析,程序员必藏干货

大语言模型 (LLM) 因其在各种任务中的卓越表现而备受关注。 然而大语言模型的部署推理并不简单,尤其是针对在给定资源受限场景下,巨大的计算和内存需求给LLM推理部署带来了挑战,具体如:高延迟、低吞吐、高存储等。 一、前期知识 …

2026/7/3 8:07:57 阅读更多 →

最新新闻

LENA-R8与STM32F427ZI构建全球连接与高精度定位系统

LENA-R8与STM32F427ZI构建全球连接与高精度定位系统

1. LENA-R8与STM32F427ZI的硬件组合解析这个项目最吸引人的地方在于将LENA-R8蜂窝通信模块与STM32F427ZI高性能MCU相结合,构建了一个既能实现全球网络连接又能进行高精度位置跟踪的嵌入式系统。我们先拆解这两个核心硬件:LENA-R8是u-blox推出的多模LTE C…

2026/7/3 19:51:07 阅读更多 →
免费开源项目文档:基于BP神经网络的雾霾天气交通标志识别系统设计与实现

免费开源项目文档:基于BP神经网络的雾霾天气交通标志识别系统设计与实现

摘要:随着国民经济的持续发展和城市化进程的不断推进,机动车保有量呈现出快速增长的态势,随之而来的交通安全问题也日益突出。交通标志作为道路交通系统中传递管理信息、规范驾驶行为的重要载体,其能否被驾驶员及时、准确地识别&a…

2026/7/3 19:51:07 阅读更多 →
神经网络概念优先教学:从认知直觉到灰盒理解

神经网络概念优先教学:从认知直觉到灰盒理解

1. 项目概述:这不是又一本“手撕矩阵”的神经网络书“NN#6 — Neural Networks Decoded: Concepts Over Code”这个标题一出来,我就在咖啡机旁多按了两次萃取键——不是因为兴奋,而是本能地警觉。过去十年里,我带过三十多个AI方向…

2026/7/3 19:49:06 阅读更多 →
XGBoost面试深水区:从参数调优到系统诊断的实战逻辑

XGBoost面试深水区:从参数调优到系统诊断的实战逻辑

1. 这不是一份“背诵清单”,而是一份XGBoost面试实战手记我带过二十多届数据科学方向的实习生,也作为技术面试官参与过上百场中高级算法岗的终面。每次聊到XGBoost,总有人一上来就背“XGBoost是GBDT的工程优化版本”“用了二阶泰勒展开”——…

2026/7/3 19:49:06 阅读更多 →
一次修改闭源 Entity Provider 程序集以兼容新 EntityFramework 的过程

一次修改闭源 Entity Provider 程序集以兼容新 EntityFramework 的过程

读完本文你会知道,如何在没有源码的情况下,直接修改一个 DLL 以去除 DLL 上的强命名限制,并在该程序集上直接添加你的“友元程序集(一种特殊的 Attribute,将它应用在程序集上,使得程序集内的 internal 类型…

2026/7/3 19:47:05 阅读更多 →
PIC18F87K22与DS28EC20的1-Wire EEPROM存储方案

PIC18F87K22与DS28EC20的1-Wire EEPROM存储方案

1. 项目背景与核心需求 在嵌入式系统开发中,持久化存储用户设置和偏好是一个常见但关键的需求。想象一下,你开发了一个智能温控器,用户精心调整的温度偏好、定时设置和界面主题,如果每次断电后都需要重新设置,那体验会…

2026/7/3 19:47:05 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻