论文阅读：arixv 2026 AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security-尧图手机网站定制

总目录大模型相关研究https://blog.csdn.net/WhiffeYF/article/details/142132328AgentDoG为AI智能体戴上「诊断项圈」https://www.doubao.com/chat/38412557588304130https://arxiv.org/pdf/2601.18491论文翻译https://whiffe.github.io/Paper_Translation/Safe/AgentDoG%EF%BC%9A%E4%B8%80%E4%B8%AA%E7%94%A8%E4%BA%8E%20AI%20%E4%BB%A3%E7%90%86%E5%AE%89%E5%85%A8%E4%B8%8E%E5%AE%89%E5%85%A8%E7%9A%84%E8%AF%8A%E6%96%AD%E6%8A%A4%E6%A0%8F%E6%A1%86%E6%9E%B6%20—%20AgentDoG_%20A%20Diagnostic%20Guardrail%20Framework%20for%20AI%20Agent%20Safety%20and%20Security.html速览一段话总结上海人工智能实验室提出的AgentDoG是面向AI智能体安全的诊断性护栏框架其核心依托三维统一风险分类体系风险来源、失效模式、现实危害构建了细粒度的智能体安全基准ATBench并实现了对智能体轨迹的细粒度上下文监控与风险根因诊断该框架推出4B、7B、8B参数量的Qwen和Llama系列模型变体在R-Judge、ASSE-Safety、ATBench等基准测试中实现SOTA性能不仅能完成二值安全分类还能精准定位风险根因同时开源了包含约2157种工具、4486轮交互的ATBench数据集及全量模型填补了现有护栏模型缺乏智能体风险感知和诊断透明度的空白。思维导图## **研究背景与问题** - AI智能体自主工具使用带来复杂安全挑战 - 现有护栏模型无智能体风险感知、诊断缺乏透明度 - 现有风险分类扁平粗糙、维度混淆、覆盖有限 ## **核心创新三维安全分类体系** - 风险来源Where用户输入、环境观测、外部实体、内部逻辑故障 - 失效模式How行为失效、输出内容失效两大类别 - 现实危害What隐私、财务、安全等10类实际损害 ## **AgentDoG框架设计** - 任务定义轨迹级安全评估、细粒度风险诊断 - 数据合成三阶段规划式流水线双层质量控制保留52%有效数据 - 模型训练基于Qwen/Llama的监督微调学习率1e-5 - 智能体XAI归因轨迹级时间动态分析句子级扰动归因 ## **ATBench基准** - 规模500条轨迹250安全/250不安全平均8.97轮1575种独有的工具 - 特点轨迹级评估、分类体系锚定、未见工具泛化测试 - 构建分类引导合成多模型标注人工验证易/难样本273/227 ## **实验与性能** - 评估基准R-Judge、ASSE-Safety、ATBench - 评估指标准确率、精确率、召回率、F1、细粒度诊断准确率 - SOTA性能AgentDoG-4B在R-Judge F1达92.7%ATBench风险来源诊断准确率82.0% - 对比结果超越现有专用护栏模型媲美大参数量通用模型 ## **研究贡献** - 提出统一的智能体安全三维分类体系 - 构建AgentDoG诊断框架实现XAI风险根因诊断 - 开源ATBench基准与多尺寸AgentDoG模型 - 实验验证SOTA的轨迹级安全评估与细粒度诊断能力 ## **局限性与未来方向** - 现有局限仅支持文本轨迹无多模态输入能力 - 未来方向拓展多模态支持、从被动监控转向主动对齐工具详细总结本文由上海人工智能实验室发布聚焦AI智能体自主工具使用和环境交互带来的安全挑战提出了诊断性智能体安全护栏框架AgentDoG并构建了细粒度安全基准ATBench通过系统性的风险分类、数据合成、模型训练与实验验证实现了智能体安全的轨迹级评估和细粒度根因诊断相关模型与数据集均开源。一、研究背景与现存问题AI智能体的发展与应用大语言模型推动智能体在深度研究、金融投资等领域落地但其高自动化和非确定性带来工具调用、环境有害信息传播等安全风险。现有护栏模型的两大缺陷缺乏智能体风险感知无法捕捉智能体依赖环境的复杂风险缺乏溯源与透明度仅输出“安全/不安全”二值标签无法诊断风险根因也忽略看似安全但不合理的行为。现有风险分类的问题扁平粗糙、维度混淆如将风险来源和现实危害视为平行类别、覆盖有限仅以枚举方式涵盖少量智能体行为。二、核心基础三维统一的智能体安全分类体系该体系为正交三维结构拆解智能体风险的来源、表现、后果消除标签重叠精准覆盖工具相关和环境介导风险是AgentDoG框架的核心基础维度核心问题核心分类/数量关键说明风险来源风险从哪来4大类/8个子类用户输入、环境观测、外部实体工具/API、内部逻辑故障失效模式风险如何表现2大类/14个子类行为失效如规划缺陷、工具误用、输出内容失效如生成有害内容、未授权信息披露现实危害造成什么损害10大类隐私保密损害、财务经济损害、安全系统完整性损害等十大类实际危害三、AgentDoG诊断护栏框架设计AgentDoG围绕三维分类体系构建实现轨迹级安全评估和细粒度风险诊断核心包含任务定义、数据合成、模型训练、XAI归因四大模块任务定义轨迹级安全评估判断智能体执行轨迹中是否存在任意一步不安全行为输出二值标签安全/不安全。细粒度风险诊断对不安全轨迹输出**(风险来源, 失效模式, 现实危害)** 三元细粒度标签。数据合成与质量控制合成流水线三阶段规划式流水线规划→轨迹合成→过滤基于三维分类随机采样风险配置生成多轮工具交互轨迹。工具规模采用超10000种工具是R-Judge114种的86倍、ASSE-Safety180种的55倍。质量控制双层验证确定性验证器LLM判断最终保留52%的生成轨迹过滤结构错误、标签不匹配的样本。数据规模最终生成超10万条多轮交互轨迹覆盖8类风险来源、14类失效模式、10类现实危害。模型训练基础模型基于Qwen3-4B、Qwen2.5-7B、Llama3.1-8B进行监督微调SFT。训练损失最小化负对数似然损失学习率统一设置为1e-5。模型变体推出4B、7B、8B参数量的AgentDoG模型覆盖Qwen和Llama模型家族。Agentic XAI归因模块核心目标诊断智能体行为的根因追溯至具体规划步骤、工具选择或上下文误解。两层归因轨迹级通过时间信息增益定位关键影响步骤句子级通过扰动策略概率下降分数概率保持分数定位关键文本内容。性能优势相比基础模型AgentDoG能更精准定位风险的核心驱动步骤/句子实现更鲁棒的风险溯源。四、细粒度安全基准ATBench为解决现有基准工具多样性低、缺乏细粒度诊断的问题构建了轨迹级的智能体安全基准ATBench作为独立评估集未参与模型训练核心规模共500条完整执行轨迹250条安全/250条不安全平均长度8.97轮覆盖1575种独有工具。关键特点轨迹级评估捕捉长程决策链、分类体系锚定基于三维分类标注、未见工具泛化工具库与训练集无重叠含2292种工具。构建流程分类引导合成→质量评分过滤剔除3分样本→四模型标注Qwen-QwQ、GPT-5.2等多数投票→人工验证易样本20%抽查难样本全量双盲审核。样本划分基于模型标注一致性分为273条易样本/227条难样本。五、实验评估与性能表现实验设置评估基准R-Judge、ASSE-Safety、ATBench三大基准。评估指标二值分类准确率、精确率、召回率、F1细粒度诊断风险来源/失效模式/现实危害准确率。对比模型闭源通用模型GPT-5.2、Gemini-3 Pro等、开源通用模型Qwen3-235B、Llama3.1-8B等、专用护栏模型LlamaGuard4、Qwen3-Guard等。核心实验结果轨迹级二值分类AgentDoG实现SOTA性能AgentDoG-Qwen3-4B在R-Judge的F1达92.7%超越GPT-5.291.8%在ATBench的F1达93.0%显著超越所有专用护栏模型且精准率/召回率平衡无现有护栏模型的低召回问题。细粒度风险诊断AgentDoG优势显著AgentDoG-Qwen3-FG-4B在ATBench的风险来源准确率82.0%、现实危害准确率58.4%远超Gemini-3 Pro风险来源36.8%、Qwen3-235B现实危害38.0%等通用模型。归因能力相比基础模型如Qwen3-4BAgentDoG能精准定位智能体不安全行为的核心驱动步骤而非无关信息归因更符合因果逻辑。关键发现通用模型因强指令跟随能力性能显著优于现有专用护栏模型现有护栏模型因训练数据为单轮对话、与智能体轨迹分布偏移在轨迹级评估中表现拉胯。六、研究贡献提出统一的智能体安全三维分类体系将传统内容风险与新型智能体风险如未授权工具使用统一分类解决现有分类维度混淆问题。构建AgentDoG诊断护栏框架集成XAI归因模块实现轨迹级安全监控和风险根因诊断突破二值标签的局限性。开源ATBench细粒度安全基准包含约2157种工具、4486轮交互为智能体安全研究提供标准化评估载体。训练并开源多尺寸AgentDoG模型4B/7B/8B实验验证其在多基准上的SOTA性能为智能体安全落地提供实用工具。提出分类引导的智能体风险轨迹合成流水线实现风险空间的系统性覆盖解决现有数据工具覆盖不足的问题。七、局限性与未来方向现有局限性AgentDoG仅支持文本基轨迹输入无法处理GUI基智能体的多模态输入。未来研究方向拓展多模态输入支持适配GUI基智能体将AgentDoG从被动监控升级为主动对齐工具如将诊断输出作为强化学习的奖励信号优化智能体行为。关键问题问题1AgentDoG相比现有AI智能体护栏模型核心突破点是什么侧重核心优势答案AgentDoG的核心突破有三方面一是依托三维统一的智能体安全分类体系解决了现有分类扁平粗糙、维度混淆的问题能系统覆盖智能体的复杂风险二是实现轨迹级安全评估细粒度风险诊断突破了现有模型仅输出“安全/不安全”二值标签的局限可精准定位风险的来源、失效模式和现实危害并通过XAI归因模块实现风险根因的溯源三是在性能上实现SOTA相比现有专用护栏模型其精准率和召回率更平衡无低召回的保守预测问题且能媲美大参数量通用模型同时适配智能体的长程工具交互轨迹解决了现有模型训练数据与智能体场景分布偏移的问题。问题2ATBench作为智能体安全基准其核心设计特点和构建流程是什么侧重基准设计答案ATBench的核心设计特点为轨迹级评估、分类体系锚定、未见工具泛化具体是评估完整的智能体执行轨迹而非孤立输出基于三维安全分类体系进行细粒度标注且工具库与AgentDoG训练集无重叠可测试模型对未知工具的泛化能力其核心构建流程为首先基于三维分类体系进行分类引导的轨迹合成其次对生成样本进行1-5分的质量评分剔除低于3分的低质样本然后采用Qwen-QwQ、GPT-5.2等四异构模型进行独立标注并通过多数投票聚合结果最后进行人工验证易样本随机20%抽查难样本全量双盲审核第三方仲裁最终形成500条轨迹250安全/250不安全的基准集。问题3AgentDoG的Agentic XAI归因模块是如何实现智能体风险根因诊断的侧重技术实现答案AgentDoG的XAI归因模块通过两层递进的归因方法实现风险根因诊断先定位关键影响步骤再精准定位步骤内的关键文本内容一是轨迹级的时间动态分析计算每个轨迹步骤的时间信息增益量化该步骤对智能体不安全行为的驱动程度信息增益越高则该步骤为关键影响步骤二是句子级的扰动策略分析对关键步骤内的每个句子计算概率下降分数剔除该句子后智能体执行目标行为的概率变化衡量句子的必要性和概率保持分数仅保留该句子时智能体执行目标行为的概率变化衡量句子的充分性将两个分数聚合为最终归因分数分数越高则该句子为驱动智能体不安全行为的核心文本内容。相比基础模型该模块能更精准定位符合因果逻辑的风险根因而非无关的执行日志信息。

论文阅读：arixv 2026 AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

相关新闻

如何解决genshin-fps-unlock启动闪退？3步恢复高帧率功能

3大维度破解魔兽争霸III兼容性难题：从启动崩溃到4K画质的全方位优化方案

大气层系统配置优化：构建稳定高效的Switch自定义运行环境

最新新闻

云原生技术28-K8s排障实战：20个常见问题的快速定位与解决,从CrashLoopBackOff到Running的完整指南

Codex 实战：AI 编程助手接入真实项目，用真实案例讲清边界

功能测试中的“精准打击“：避免大而全的实用策略（2）

76_Python数据分析pandas入门

绝了！原来论文还能这样拿高分？2026降AI率工具推荐合集

认识安企CMS - 系统概述

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

论文阅读：arixv 2026 AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

相关新闻

如何解决genshin-fps-unlock启动闪退？3步恢复高帧率功能

3大维度破解魔兽争霸III兼容性难题：从启动崩溃到4K画质的全方位优化方案

大气层系统配置优化：构建稳定高效的Switch自定义运行环境

最新新闻

云原生技术28-K8s排障实战：20个常见问题的快速定位与解决,从CrashLoopBackOff到Running的完整指南

Codex 实战：AI 编程助手接入真实项目，用真实案例讲清边界

功能测试中的“精准打击“：避免大而全的实用策略 （2）

76_Python数据分析pandas入门

绝了！原来论文还能这样拿高分？2026降AI率工具推荐合集

认识安企CMS - 系统概述

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

功能测试中的“精准打击“：避免大而全的实用策略（2）