AI 正在进入一个新阶段模型不再只“回答问题”而是开始自主规划、调用工具、读写文件、访问网络、与外部系统交互——真正意义上的AI 智能体Agent正在走向真实世界。但问题也随之升级了。如果一个智能体能自己做决策、自己执行操作那当它出错时——我们真的知道它错在哪一步、因为什么错、风险是怎么一步步形成的吗现实是大多数安全系统并不知道。为了解决这一“可用但不可控”的行业难题上海人工智能实验室开源发布AgentDoGAgent Diagnostic Guardrail—— 首个面向 AI 智能体行为的诊断式安全护栏框架。它不仅判断风险更能解释风险。Technical report: https://arxiv.org/abs/2601.18491GitHub: https://github.com/AI45Lab/AgentDoGHugging Face: https://huggingface.co/collections/AI45Research/agentdog一、智能体时代的安全断层问题不再是“说错话”传统大模型安全核心关注的是内容层面的违规输出。而智能体的风险发生在行为层面它可能被网页里的隐藏指令诱导读取并泄露本地隐私文件它可能误解工具参数执行真实世界的高风险操作它可能在多轮任务中逐步偏离目标却看起来“逻辑正常”它甚至可能在完全合规的对话中做出结果极不合理的决策这些风险有三个共同特征1. 多步骤产生不是一句话的问题2. 与工具和环境强耦合3. 表面行为往往“看起来合理”。而现有 Guardrail 模型大多仍停留在“Unsafe / Safe”。这种判断对于 Agent 来说远远不够。我们真正需要的是像医生看病一样的安全系统—— 不只判断是否异常还要给出“病因诊断”。二、AgentDoG 的核心突破给智能体风险建立“坐标系”AgentDoG 的第一步并不是训练模型而是先回答一个根本问题智能体风险到底该如何被系统化描述为此团队提出了一个统一的三维风险分类框架这让智能体风险从“模糊现象”变成了可定位、可组合、可分析的结构化问题空间。也正是基于这个框架AgentDoG 才能做到下一步 ——真正的诊断。三、不止拦截而是输出“风险诊断报告”AgentDoG 并不是只盯最终输出它监控的是 完整行为轨迹用户输入 → Agent 思考Thought→ 工具调用Action→ 环境反馈Observation→ 最终决策当检测到问题时它给出的不是一句 “unsafe”而是类似这样一份结构化结论Risk Source: Indirect Prompt InjectionFailure Mode: Unconfirmed / Over-privileged ActionReal-world Harm: Privacy Confidentiality Risk这意味着可以知道问题是从哪里被“带偏”的可以知道 Agent 的逻辑在哪个环节出现偏差可以把风险直接映射到真实业务影响安全从“黑盒判断”变成了可调试系统。四、它为什么能做到背后是专门为“风险”训练的数据体系AgentDoG 的能力并不是凭空产生的而是依赖一套大规模自动化数据生成体系。这套 pipeline 专门做一件事系统化制造“智能体翻车现场”核心设计包括分类法驱动的数据覆盖数据按「来源 × 失效方式 × 危害」定向生成保证各种风险类型都被充分训练。10,000 工具环境模拟远超现有安全基准规模极大增强模型面对新工具时的泛化能力。严格质量控制结构合法性、调用有效性、标签一致性多轮校验避免“假风险样本”。这让 AgentDoG 不是靠记忆规则而是真正学会理解智能体风险机制。五、真实评测结果诊断能力才是分水岭在 R-Judge、ASSE-Safety 以及自建高难度 ATBench 上测试后发现安全检测达到 SOTA 水平整体准确率与 F1 分数超越现有专用 Guard 模型并可与更大规模通用模型竞争。风险诊断出现明显代际差异通用大模型在细粒度风险溯源任务上准确率普遍只有 20%–40%。而AgentDoG-Qwen3-4B 在“风险来源”识别上达到 82.0%。这意味着大模型能“感觉有问题”但 AgentDoG 能说清问题是怎么一步步形成的。六、XAI 归因把“决策失误的触发点”挖出来AgentDoG 还进一步集成了 Agentic XAI 模块可回溯是哪句话、哪个历史步骤真正影响了这次危险决策这对智能体调优至关重要因为安全问题往往不是“最后一步错误”而是某个早期信息在后续决策中持续放大。AgentDoG 让这些“隐形影响因子”可视化真正支持工程级改进。七、为什么这件事重要当 AI 从“对话工具”变为“行动系统”安全的形态也必须从内容过滤 → 行为诊断。AgentDoG 所代表的是智能体安全的一次范式转变从判断风险走向理解风险。目前工作已全面开源面向开发者与研究社区开放开源内容包括AgentDoG 系列模型ATBench 高难度评测基准数据生成与评测工具链欢迎研究者、Agent 开发者、安全工程团队共同参与。让智能体不仅更强也更可控、更透明、更可信。AgentDoG —— 为 AI 智能体建立“可解释的安全边界”。