论文阅读:arixv 2026 AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
总目录 大模型相关研究https://blog.csdn.net/WhiffeYF/article/details/142132328AgentDoG为AI智能体戴上「诊断项圈」https://www.doubao.com/chat/38412557588304130https://arxiv.org/pdf/2601.18491论文翻译https://whiffe.github.io/Paper_Translation/Safe/AgentDoG%EF%BC%9A%E4%B8%80%E4%B8%AA%E7%94%A8%E4%BA%8E%20AI%20%E4%BB%A3%E7%90%86%E5%AE%89%E5%85%A8%E4%B8%8E%E5%AE%89%E5%85%A8%E7%9A%84%E8%AF%8A%E6%96%AD%E6%8A%A4%E6%A0%8F%E6%A1%86%E6%9E%B6%20—%20AgentDoG_%20A%20Diagnostic%20Guardrail%20Framework%20for%20AI%20Agent%20Safety%20and%20Security.html速览一段话总结上海人工智能实验室提出的AgentDoG是面向AI智能体安全的诊断性护栏框架其核心依托三维统一风险分类体系风险来源、失效模式、现实危害构建了细粒度的智能体安全基准ATBench并实现了对智能体轨迹的细粒度上下文监控与风险根因诊断该框架推出4B、7B、8B参数量的Qwen和Llama系列模型变体在R-Judge、ASSE-Safety、ATBench等基准测试中实现SOTA性能不仅能完成二值安全分类还能精准定位风险根因同时开源了包含约2157种工具、4486轮交互的ATBench数据集及全量模型填补了现有护栏模型缺乏智能体风险感知和诊断透明度的空白。思维导图## **研究背景与问题** - AI智能体自主工具使用带来复杂安全挑战 - 现有护栏模型无智能体风险感知、诊断缺乏透明度 - 现有风险分类扁平粗糙、维度混淆、覆盖有限 ## **核心创新三维安全分类体系** - 风险来源Where用户输入、环境观测、外部实体、内部逻辑故障 - 失效模式How行为失效、输出内容失效两大类别 - 现实危害What隐私、财务、安全等10类实际损害 ## **AgentDoG框架设计** - 任务定义轨迹级安全评估、细粒度风险诊断 - 数据合成三阶段规划式流水线双层质量控制保留52%有效数据 - 模型训练基于Qwen/Llama的监督微调学习率1e-5 - 智能体XAI归因轨迹级时间动态分析句子级扰动归因 ## **ATBench基准** - 规模500条轨迹250安全/250不安全平均8.97轮1575种独有的工具 - 特点轨迹级评估、分类体系锚定、未见工具泛化测试 - 构建分类引导合成多模型标注人工验证易/难样本273/227 ## **实验与性能** - 评估基准R-Judge、ASSE-Safety、ATBench - 评估指标准确率、精确率、召回率、F1、细粒度诊断准确率 - SOTA性能AgentDoG-4B在R-Judge F1达92.7%ATBench风险来源诊断准确率82.0% - 对比结果超越现有专用护栏模型媲美大参数量通用模型 ## **研究贡献** - 提出统一的智能体安全三维分类体系 - 构建AgentDoG诊断框架实现XAI风险根因诊断 - 开源ATBench基准与多尺寸AgentDoG模型 - 实验验证SOTA的轨迹级安全评估与细粒度诊断能力 ## **局限性与未来方向** - 现有局限仅支持文本轨迹无多模态输入能力 - 未来方向拓展多模态支持、从被动监控转向主动对齐工具详细总结本文由上海人工智能实验室发布聚焦AI智能体自主工具使用和环境交互带来的安全挑战提出了诊断性智能体安全护栏框架AgentDoG并构建了细粒度安全基准ATBench通过系统性的风险分类、数据合成、模型训练与实验验证实现了智能体安全的轨迹级评估和细粒度根因诊断相关模型与数据集均开源。一、研究背景与现存问题AI智能体的发展与应用大语言模型推动智能体在深度研究、金融投资等领域落地但其高自动化和非确定性带来工具调用、环境有害信息传播等安全风险。现有护栏模型的两大缺陷缺乏智能体风险感知无法捕捉智能体依赖环境的复杂风险缺乏溯源与透明度仅输出“安全/不安全”二值标签无法诊断风险根因也忽略看似安全但不合理的行为。现有风险分类的问题扁平粗糙、维度混淆如将风险来源和现实危害视为平行类别、覆盖有限仅以枚举方式涵盖少量智能体行为。二、核心基础三维统一的智能体安全分类体系该体系为正交三维结构拆解智能体风险的来源、表现、后果消除标签重叠精准覆盖工具相关和环境介导风险是AgentDoG框架的核心基础维度核心问题核心分类/数量关键说明风险来源风险从哪来4大类/8个子类用户输入、环境观测、外部实体工具/API、内部逻辑故障失效模式风险如何表现2大类/14个子类行为失效如规划缺陷、工具误用、输出内容失效如生成有害内容、未授权信息披露现实危害造成什么损害10大类隐私保密损害、财务经济损害、安全系统完整性损害等十大类实际危害三、AgentDoG诊断护栏框架设计AgentDoG围绕三维分类体系构建实现轨迹级安全评估和细粒度风险诊断核心包含任务定义、数据合成、模型训练、XAI归因四大模块任务定义轨迹级安全评估判断智能体执行轨迹中是否存在任意一步不安全行为输出二值标签安全/不安全。细粒度风险诊断对不安全轨迹输出**(风险来源, 失效模式, 现实危害)** 三元细粒度标签。数据合成与质量控制合成流水线三阶段规划式流水线规划→轨迹合成→过滤基于三维分类随机采样风险配置生成多轮工具交互轨迹。工具规模采用超10000种工具是R-Judge114种的86倍、ASSE-Safety180种的55倍。质量控制双层验证确定性验证器LLM判断最终保留52%的生成轨迹过滤结构错误、标签不匹配的样本。数据规模最终生成超10万条多轮交互轨迹覆盖8类风险来源、14类失效模式、10类现实危害。模型训练基础模型基于Qwen3-4B、Qwen2.5-7B、Llama3.1-8B进行监督微调SFT。训练损失最小化负对数似然损失学习率统一设置为1e-5。模型变体推出4B、7B、8B参数量的AgentDoG模型覆盖Qwen和Llama模型家族。Agentic XAI归因模块核心目标诊断智能体行为的根因追溯至具体规划步骤、工具选择或上下文误解。两层归因轨迹级通过时间信息增益定位关键影响步骤句子级通过扰动策略概率下降分数概率保持分数定位关键文本内容。性能优势相比基础模型AgentDoG能更精准定位风险的核心驱动步骤/句子实现更鲁棒的风险溯源。四、细粒度安全基准ATBench为解决现有基准工具多样性低、缺乏细粒度诊断的问题构建了轨迹级的智能体安全基准ATBench作为独立评估集未参与模型训练核心规模共500条完整执行轨迹250条安全/250条不安全平均长度8.97轮覆盖1575种独有工具。关键特点轨迹级评估捕捉长程决策链、分类体系锚定基于三维分类标注、未见工具泛化工具库与训练集无重叠含2292种工具。构建流程分类引导合成→质量评分过滤剔除3分样本→四模型标注Qwen-QwQ、GPT-5.2等多数投票→人工验证易样本20%抽查难样本全量双盲审核。样本划分基于模型标注一致性分为273条易样本/227条难样本。五、实验评估与性能表现实验设置评估基准R-Judge、ASSE-Safety、ATBench三大基准。评估指标二值分类准确率、精确率、召回率、F1细粒度诊断风险来源/失效模式/现实危害准确率。对比模型闭源通用模型GPT-5.2、Gemini-3 Pro等、开源通用模型Qwen3-235B、Llama3.1-8B等、专用护栏模型LlamaGuard4、Qwen3-Guard等。核心实验结果轨迹级二值分类AgentDoG实现SOTA性能AgentDoG-Qwen3-4B在R-Judge的F1达92.7%超越GPT-5.291.8%在ATBench的F1达93.0%显著超越所有专用护栏模型且精准率/召回率平衡无现有护栏模型的低召回问题。细粒度风险诊断AgentDoG优势显著AgentDoG-Qwen3-FG-4B在ATBench的风险来源准确率82.0%、现实危害准确率58.4%远超Gemini-3 Pro风险来源36.8%、Qwen3-235B现实危害38.0%等通用模型。归因能力相比基础模型如Qwen3-4BAgentDoG能精准定位智能体不安全行为的核心驱动步骤而非无关信息归因更符合因果逻辑。关键发现通用模型因强指令跟随能力性能显著优于现有专用护栏模型现有护栏模型因训练数据为单轮对话、与智能体轨迹分布偏移在轨迹级评估中表现拉胯。六、研究贡献提出统一的智能体安全三维分类体系将传统内容风险与新型智能体风险如未授权工具使用统一分类解决现有分类维度混淆问题。构建AgentDoG诊断护栏框架集成XAI归因模块实现轨迹级安全监控和风险根因诊断突破二值标签的局限性。开源ATBench细粒度安全基准包含约2157种工具、4486轮交互为智能体安全研究提供标准化评估载体。训练并开源多尺寸AgentDoG模型4B/7B/8B实验验证其在多基准上的SOTA性能为智能体安全落地提供实用工具。提出分类引导的智能体风险轨迹合成流水线实现风险空间的系统性覆盖解决现有数据工具覆盖不足的问题。七、局限性与未来方向现有局限性AgentDoG仅支持文本基轨迹输入无法处理GUI基智能体的多模态输入。未来研究方向拓展多模态输入支持适配GUI基智能体将AgentDoG从被动监控升级为主动对齐工具如将诊断输出作为强化学习的奖励信号优化智能体行为。关键问题问题1AgentDoG相比现有AI智能体护栏模型核心突破点是什么侧重核心优势答案AgentDoG的核心突破有三方面一是依托三维统一的智能体安全分类体系解决了现有分类扁平粗糙、维度混淆的问题能系统覆盖智能体的复杂风险二是实现轨迹级安全评估细粒度风险诊断突破了现有模型仅输出“安全/不安全”二值标签的局限可精准定位风险的来源、失效模式和现实危害并通过XAI归因模块实现风险根因的溯源三是在性能上实现SOTA相比现有专用护栏模型其精准率和召回率更平衡无低召回的保守预测问题且能媲美大参数量通用模型同时适配智能体的长程工具交互轨迹解决了现有模型训练数据与智能体场景分布偏移的问题。问题2ATBench作为智能体安全基准其核心设计特点和构建流程是什么侧重基准设计答案ATBench的核心设计特点为轨迹级评估、分类体系锚定、未见工具泛化具体是评估完整的智能体执行轨迹而非孤立输出基于三维安全分类体系进行细粒度标注且工具库与AgentDoG训练集无重叠可测试模型对未知工具的泛化能力其核心构建流程为首先基于三维分类体系进行分类引导的轨迹合成其次对生成样本进行1-5分的质量评分剔除低于3分的低质样本然后采用Qwen-QwQ、GPT-5.2等四异构模型进行独立标注并通过多数投票聚合结果最后进行人工验证易样本随机20%抽查难样本全量双盲审核第三方仲裁最终形成500条轨迹250安全/250不安全的基准集。问题3AgentDoG的Agentic XAI归因模块是如何实现智能体风险根因诊断的侧重技术实现答案AgentDoG的XAI归因模块通过两层递进的归因方法实现风险根因诊断先定位关键影响步骤再精准定位步骤内的关键文本内容一是轨迹级的时间动态分析计算每个轨迹步骤的时间信息增益量化该步骤对智能体不安全行为的驱动程度信息增益越高则该步骤为关键影响步骤二是句子级的扰动策略分析对关键步骤内的每个句子计算概率下降分数剔除该句子后智能体执行目标行为的概率变化衡量句子的必要性和概率保持分数仅保留该句子时智能体执行目标行为的概率变化衡量句子的充分性将两个分数聚合为最终归因分数分数越高则该句子为驱动智能体不安全行为的核心文本内容。相比基础模型该模块能更精准定位符合因果逻辑的风险根因而非无关的执行日志信息。

相关新闻

如何解决genshin-fps-unlock启动闪退?3步恢复高帧率功能

如何解决genshin-fps-unlock启动闪退?3步恢复高帧率功能

如何解决genshin-fps-unlock启动闪退?3步恢复高帧率功能 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock genshin-fps-unlock是一款帮助《原神》玩家突破60帧率限制的工具&…

2026/7/3 6:17:39 阅读更多 →
3大维度破解魔兽争霸III兼容性难题:从启动崩溃到4K画质的全方位优化方案

3大维度破解魔兽争霸III兼容性难题:从启动崩溃到4K画质的全方位优化方案

3大维度破解魔兽争霸III兼容性难题:从启动崩溃到4K画质的全方位优化方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 副标题&#xff1…

2026/5/17 5:12:24 阅读更多 →
大气层系统配置优化:构建稳定高效的Switch自定义运行环境

大气层系统配置优化:构建稳定高效的Switch自定义运行环境

大气层系统配置优化:构建稳定高效的Switch自定义运行环境 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 面向新手用户的故障排除与性能调优指南 大气层(Atmospher…

2026/5/17 5:12:23 阅读更多 →

最新新闻

云原生技术28-K8s排障实战:20个常见问题的快速定位与解决,从CrashLoopBackOff到Running的完整指南

云原生技术28-K8s排障实战:20个常见问题的快速定位与解决,从CrashLoopBackOff到Running的完整指南

1、AI程序员系列文章 2、AI面试系列文章 3、AI编程系列文章 目录 排障思维:从"盲人摸象"到"精准定位" 2.1 自上而下 vs 自下而上 2.2 假设验证法 2.3 二分法定位 Pod问题:四大金刚的"病历本" 3.1 CrashLoopBackOff&…

2026/7/5 3:00:53 阅读更多 →
Codex 实战:AI 编程助手接入真实项目,用真实案例讲清边界

Codex 实战:AI 编程助手接入真实项目,用真实案例讲清边界

聊《Codex 实战:AI 编程助手接入真实项目,用真实案例讲清边界》之前,先说一句实在的:别急着背概念,先看它在真实项目里到底解决什么问题。摘要这篇面向想用 AI 提升研发效率的开发者和技术负责人,但不会把“…

2026/7/5 3:00:53 阅读更多 →
功能测试中的“精准打击“:避免大而全的实用策略 (2)

功能测试中的“精准打击“:避免大而全的实用策略 (2)

一、核心认知前提 等价类、边界值、场景法是标准合规的用例设计方法,合理抽样≠无差别穷举。 过度细测的本质不是用例方法用错,而是两个无效叠加行为: 在必要边界样本外,额外枚举大量逻辑完全一致的重复数据; 每一条…

2026/7/5 2:58:53 阅读更多 →
76_Python数据分析pandas入门

76_Python数据分析pandas入门

Python数据分析基石:pandas入门指南 文章目录Python数据分析基石:pandas入门指南前言一、安装与核心数据结构二、读取各种格式的数据三、数据筛选与索引四、排序与聚合五、数据修改与新增列六、实战:销售数据分析✅ 亮点总结适用场景扩展方向…

2026/7/5 2:58:53 阅读更多 →
绝了!原来论文还能这样拿高分?2026降AI率工具推荐合集

绝了!原来论文还能这样拿高分?2026降AI率工具推荐合集

还在为论文查重高、AI痕迹明显、格式乱七八糟焦虑?2026 年的论文降AIGC工具已经全面升级,从选题构思到内容润色、从降重处理到去除AI痕迹、再到专业格式排版,全流程智能辅助,帮你把写作压力降到最低,轻松拿下高分论文&…

2026/7/5 2:56:52 阅读更多 →
认识安企CMS - 系统概述

认识安企CMS - 系统概述

什么是安企CMS 安企内容管理系统(AnQiCMS),是一款使用 GoLang 开发的开源企业级内容管理系统。它的前身是 GoBlog 博客系统(2019 年启动),经过多次重构和功能扩展,于 2022 年 5 月 正式更名为 A…

2026/7/5 2:54:51 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻