AI 智能体开始“自己做决定”,安全不能再是黑盒 —— AgentDoG 开源发布
AI 正在进入一个新阶段模型不再只“回答问题”而是开始自主规划、调用工具、读写文件、访问网络、与外部系统交互——真正意义上的AI 智能体Agent正在走向真实世界。但问题也随之升级了。如果一个智能体能自己做决策、自己执行操作那当它出错时——我们真的知道它错在哪一步、因为什么错、风险是怎么一步步形成的吗现实是大多数安全系统并不知道。为了解决这一“可用但不可控”的行业难题上海人工智能实验室开源发布AgentDoGAgent Diagnostic Guardrail—— 首个面向 AI 智能体行为的诊断式安全护栏框架。它不仅判断风险更能解释风险。Technical report: https://arxiv.org/abs/2601.18491GitHub: https://github.com/AI45Lab/AgentDoGHugging Face: https://huggingface.co/collections/AI45Research/agentdog一、智能体时代的安全断层问题不再是“说错话”传统大模型安全核心关注的是内容层面的违规输出。而智能体的风险发生在行为层面它可能被网页里的隐藏指令诱导读取并泄露本地隐私文件它可能误解工具参数执行真实世界的高风险操作它可能在多轮任务中逐步偏离目标却看起来“逻辑正常”它甚至可能在完全合规的对话中做出结果极不合理的决策这些风险有三个共同特征1. 多步骤产生不是一句话的问题2. 与工具和环境强耦合3. 表面行为往往“看起来合理”。而现有 Guardrail 模型大多仍停留在“Unsafe / Safe”。这种判断对于 Agent 来说远远不够。我们真正需要的是像医生看病一样的安全系统—— 不只判断是否异常还要给出“病因诊断”。二、AgentDoG 的核心突破给智能体风险建立“坐标系”AgentDoG 的第一步并不是训练模型而是先回答一个根本问题智能体风险到底该如何被系统化描述为此团队提出了一个统一的三维风险分类框架这让智能体风险从“模糊现象”变成了可定位、可组合、可分析的结构化问题空间。也正是基于这个框架AgentDoG 才能做到下一步 ——真正的诊断。三、不止拦截而是输出“风险诊断报告”AgentDoG 并不是只盯最终输出它监控的是 完整行为轨迹用户输入 → Agent 思考Thought→ 工具调用Action→ 环境反馈Observation→ 最终决策当检测到问题时它给出的不是一句 “unsafe”而是类似这样一份结构化结论Risk Source: Indirect Prompt InjectionFailure Mode: Unconfirmed / Over-privileged ActionReal-world Harm: Privacy Confidentiality Risk这意味着可以知道问题是从哪里被“带偏”的可以知道 Agent 的逻辑在哪个环节出现偏差可以把风险直接映射到真实业务影响安全从“黑盒判断”变成了可调试系统。四、它为什么能做到背后是专门为“风险”训练的数据体系AgentDoG 的能力并不是凭空产生的而是依赖一套大规模自动化数据生成体系。这套 pipeline 专门做一件事系统化制造“智能体翻车现场”核心设计包括分类法驱动的数据覆盖数据按「来源 × 失效方式 × 危害」定向生成保证各种风险类型都被充分训练。10,000 工具环境模拟远超现有安全基准规模极大增强模型面对新工具时的泛化能力。严格质量控制结构合法性、调用有效性、标签一致性多轮校验避免“假风险样本”。这让 AgentDoG 不是靠记忆规则而是真正学会理解智能体风险机制。五、真实评测结果诊断能力才是分水岭在 R-Judge、ASSE-Safety 以及自建高难度 ATBench 上测试后发现安全检测达到 SOTA 水平整体准确率与 F1 分数超越现有专用 Guard 模型并可与更大规模通用模型竞争。风险诊断出现明显代际差异通用大模型在细粒度风险溯源任务上准确率普遍只有 20%–40%。而AgentDoG-Qwen3-4B 在“风险来源”识别上达到 82.0%。这意味着大模型能“感觉有问题”但 AgentDoG 能说清问题是怎么一步步形成的。六、XAI 归因把“决策失误的触发点”挖出来AgentDoG 还进一步集成了 Agentic XAI 模块可回溯是哪句话、哪个历史步骤真正影响了这次危险决策这对智能体调优至关重要因为安全问题往往不是“最后一步错误”而是某个早期信息在后续决策中持续放大。AgentDoG 让这些“隐形影响因子”可视化真正支持工程级改进。七、为什么这件事重要当 AI 从“对话工具”变为“行动系统”安全的形态也必须从内容过滤 → 行为诊断。AgentDoG 所代表的是智能体安全的一次范式转变从判断风险走向理解风险。目前工作已全面开源面向开发者与研究社区开放开源内容包括AgentDoG 系列模型ATBench 高难度评测基准数据生成与评测工具链欢迎研究者、Agent 开发者、安全工程团队共同参与。让智能体不仅更强也更可控、更透明、更可信。AgentDoG —— 为 AI 智能体建立“可解释的安全边界”。

相关新闻

【Rust日报】bitflags 的未来发展

【Rust日报】bitflags 的未来发展

rootcause 0.11.0 发布:重大改进,向 1.0 版本迈进rootcause 是一个新的符合人体工程学的结构化错误报告库,旨在像 anyhow 一样易用(特别是 ? 操作符可以直接工作),同时提供更丰富的结构和内省功能。主要更…

2026/5/17 4:17:22 阅读更多 →
中国消费的蓝海,已从“寻找新人群”转向“量化需求缺口”

中国消费的蓝海,已从“寻找新人群”转向“量化需求缺口”

刚刚过去的2025年,关于中国消费的讨论充满了矛盾。一边是宏观层面的审慎——消费承压、理性消费、降级与平替成为高频词;另一边却是微观数据的反常识表现:天猫平台2025年新入驻的优质商家超过15万个,创历史新高,其中27…

2026/5/17 4:17:22 阅读更多 →
2026 跳槽的兄弟看看吧。。

2026 跳槽的兄弟看看吧。。

大家好,我是R哥。如果你 2026 要跳槽,我一定要推荐给你这个Java面试库,R哥这几年一直在运营这个Java面试库,不要再找乱七八糟的面试题了,浪费时间不说,还会被误导。小程序Java面试库里面的内容都是我工作这…

2026/7/3 11:51:02 阅读更多 →

最新新闻

2026普通人AI使用指南:看懂参数、混合思考与国产模型三大核心

2026普通人AI使用指南:看懂参数、混合思考与国产模型三大核心

1. 这不是科幻预告片,是普通人下周就该打开手机查的“技术天气预报”2026年4月这个时间点,听起来像科幻小说里随手写的年份,但如果你最近刷过几条国产大模型发布会的短视频,或者留意过身边朋友突然开始用“文心一言新版本”写周报…

2026/7/4 23:17:06 阅读更多 →
Let‘s Encrypt泛域名证书申请与自动化续期实战指南

Let‘s Encrypt泛域名证书申请与自动化续期实战指南

1. 项目概述与核心价值最近在折腾自己的个人博客和几个内部服务,域名下挂了好几个子域名,每次给每个子域名单独申请SSL证书,不仅麻烦,续期更是让人头大。直到我开始用Let‘s Encrypt的泛域名证书,配合自动化续期脚本&a…

2026/7/4 23:17:06 阅读更多 →
多维聚合实战:超越GROUP BY的OLAP数据操作指南

多维聚合实战:超越GROUP BY的OLAP数据操作指南

1. 项目概述:多维聚合中的数据操作,远不止GROUP BY那么简单“Part 20: Data Manipulation in Multi-Dimensional Aggregation”这个标题乍看像教科书某章编号,但实际踩中了数据分析和商业智能工程中最常被低估、最易出错、也最具业务价值的一…

2026/7/4 23:17:06 阅读更多 →
AMD ROCm 7.1.1正式支持Windows:本地AI电影制作全栈落地

AMD ROCm 7.1.1正式支持Windows:本地AI电影制作全栈落地

1. 项目概述:当本地AI电影制作从“概念图”变成“开机键”2025年11月26日,我盯着终端里一行绿色的True输出,手有点抖。不是因为咖啡喝多了,而是因为torch.cuda.is_available()终于没再报错——它真真切切地返回了True,…

2026/7/4 23:15:05 阅读更多 →
基于OpenCV与深度学习的车牌识别系统开发实践

基于OpenCV与深度学习的车牌识别系统开发实践

1. 项目概述这个车牌识别系统是我在指导学弟学妹毕业设计时开发的一个典型案例。作为一个结合了传统图像处理和深度学习技术的实用项目,它完美展现了如何将学术知识与工程实践相结合。系统采用PythonOpenCV作为基础框架,融入机器学习算法,实现…

2026/7/4 23:13:04 阅读更多 →
突破60帧限制:WaveTools鸣潮工具箱的智能游戏优化革命

突破60帧限制:WaveTools鸣潮工具箱的智能游戏优化革命

突破60帧限制:WaveTools鸣潮工具箱的智能游戏优化革命 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 当你为《鸣潮》的帧率限制感到困扰时,当你发现高性能硬件在游戏中无法完全发挥…

2026/7/4 23:13:04 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻