项目场景一个甲方的ceph集群osd日志拉满导致根目录100%问题描述甲方联系说有点问题远程处理。首先登陆到控制节点发现根目录满了检查定位到日志目录所有osd日志大小几乎一致。然后检查所有存储节点都有类似问题。打开日志文件分析原因下面放三个osd日志的截图全部在16:57 指向到secret_id:44281原因分析千问的回答auth: could not find secret_id44281含义Ceph Monitor或 OSD在验证某个客户端身份时找不到 ID 为 44281 的密钥。✅ 这个 secret_id 是 Ceph 内部生成的唯一标识用于关联一个实体如 osd.5的认证密钥。cephx: verify_authorizer could not get service secret for service osd secret_id44281含义使用 cephx 协议验证时无法获取对应 osd 服务的密钥。❌ 表明该 OSD 的 keyring 已被删除、损坏或未正确同步到 MON 数据库。.accept: got bad authorizer含义连接被拒绝因为客户端提供的认证票据无效。⚠️ 通常出现在OSD 使用旧密钥尝试连接 MONOSD 被删除后仍在运行keyring 文件被手动修改或丢失操作感觉是坏掉的osd没有及时删除的问题。第一步 先处理根目录100%所有ceph节点的所有osd日志追空第二步执行ceph osd命令ceph命令没有返回检查mon服务全死。挨个mon节点重启mon服务第三步通过osd相关命令找到坏掉的osd然后完全删除掉执行删除命令后集群进入恢复模式第四步观察集群恢复同时不定期检查osd日志大小看是否还有异常forXin{1..14};dosshXX.XXX.X.$Xhostname ; rm -rf /var/log/ceph/*.gz ;ls -ln -h /var/log/ceph/ ;done第五步等待集群恢复完毕后重启所有osd服务第六步持续多天检查osd日志大小和集群状态解决方案osd坏了及时换盘没有的话要及时完全删除掉