[论文学习]吸引力元数据攻击:诱导LLM智能体调用恶意工具深度解析
Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools概述论文揭示了一种新型且隐蔽的LLM智能体安全威胁——吸引力元数据攻击Attractive Metadata Attack, AMA攻击者通过操纵恶意工具的名称、描述、参数模式schema等元数据无需提示注入或访问模型内部结构即可诱导LLM智能体优先选择调用恶意工具。论文提出了一套黑盒上下文学习优化框架在10个真实工具使用场景和主流LLM上实现了81%-95%的攻击成功率揭示了当前智能体架构中系统性的安全漏洞。核心研究问题定义LLM智能体通过调用外部工具完成复杂任务但工具元数据名称、描述、参数schema的开放性为攻击者提供了此前未被充分探索的攻击面。攻击者可以通过精心构造恶意工具的元数据使其在智能体的工具选择过程中获得优先调用权而无需依赖提示注入或访问模型内部结构。这种攻击手段极其隐蔽——从系统角度看恶意工具的元数据在语法和语义上完全合法难以被传统检测机制识别。创新方法论文提出了AMAAttractive Metadata Attack——一个黑盒上下文学习框架通过迭代优化生成具有高吸引力的工具元数据。该框架整合了三大核心机制①生成可追溯性——记录每个新生成工具的父代信息以明确优化方向②加权价值评估——对元数据的吸引力进行量化评估③批量生成——提升优化效率。该攻击可无缝集成到标准工具生态系统中无需修改智能体的执行框架。更关键的是AMA与注入攻击正交可相互组合以增强攻击效果。关键结果在10个真实模拟工具使用场景以及涵盖开源模型Gemma3-27B、LLaMA3.3-70B等和商业模型GPT-4o-mini的4类主流LLM智能体上的实验表明①攻击成功率达81%-95%②对主任务执行的影响可忽略不计③能绕过提示级防御、审计器检测以及MCPModel Context Protocol等结构化工具选择协议④生成的恶意工具具有跨模型可迁移性在同领域工具间保持较高攻击效能⑤可实现字段级个人身份信息PII提取和智能体级上下文泄露。实际意义AMA揭示了当前LLM智能体安全防御体系的根本性缺陷——仅依赖提示级过滤和审计器检测远远不够。在LLM智能体被广泛应用于金融分析、医疗健康、电子商务等敏感领域的背景下这一发现对构建安全的智能体系统具有紧迫的实践指导意义。️技术细节方法概述AMA的核心是一个黑盒上下文学习迭代优化框架。攻击者无需了解目标LLM的内部参数或架构只需能够向智能体提交工具定义并观察其选择行为即可发动攻击。框架通过迭代生成、评估和优化工具元数据最终构造出在语法和语义上完全合法但具有极高“吸引力”的工具描述。具体而言框架整合了三大核心机制生成可追溯性Generation Traceability每个新生成的工具记录其父代工具信息形成完整的优化路径加速收敛。加权价值评估Weighted Value Evaluation对元数据的各维度进行量化评分引导优化方向。批量生成Batch Generation同时生成多个候选元数据提升优化效率。该攻击的关键优势在于它完全遵循标准工具生态系统的规范不引入任何语法错误或明显的恶意特征因此能够绕过提示级防御和结构化协议。研究设定智能体设置采用ReActThink–Act–Observe范式通过AgentBench实现测试场景涵盖IT运维、投资组合管理等领域的10个真实世界场景目标模型涵盖开源模型Gemma3-27B、LLaMA3.3-70B和商业模型GPT-4o-mini对比基线注入攻击Injected Attack和提示攻击Prompt Attack防御机制评估动态提示重写Dynamic Prompt Rewriting等主要发现攻击有效性在多种设定下AMA的攻击成功率稳定在81%-95%之间显著优于传统攻击方法。隐蔽性强AMA无需提示注入也不依赖模型内部访问权限。恶意工具从系统角度看完全合法难以被检测。绕过现有防御AMA能有效绕过提示级过滤、审计器检测以及MCP等结构化工具选择协议。可组合性AMA与注入攻击正交两者结合可实现更强的攻击效果。跨模型迁移生成的恶意工具元数据在不同LLM之间具有迁移性。隐私泄露可实现字段级PII提取和智能体级上下文泄露。深度洞察1. 攻击面的范式转移从内容层到元数据层传统LLM安全研究主要聚焦于内容安全——防止模型输出有害信息、抵御提示注入等。AMA的提出标志着攻击面从内容层向元数据层的范式转移。攻击者不再需要“攻破”模型本身而是通过操纵模型决策的外部信号工具元数据来间接控制模型行为。这种攻击不需要任何漏洞利用纯粹利用了LLM智能体“依据元数据做工具选择”这一设计特性。2. 系统性脆弱性的体现AMA能够绕过提示级防御和MCP等结构化协议说明当前智能体架构存在系统性的设计缺陷——工具选择的信任基础建立在不具备可信性的元数据之上。这不仅是某个模型的个体问题而是整个LLM智能体范式的结构性漏洞。3. 防御思路的根本转变论文最深刻的启示在于提示级防御远远不够。现有的安全措施主要聚焦于“智能体看到了什么”输入过滤而忽视了“智能体基于什么做决策”决策依据的可信性。真正的解决方案需要向执行层延伸——在工具调用之前对工具本身进行验证或在执行过程中实施运行时监控。4. 对智能体生态的深远影响随着LLM智能体被广泛应用于金融、医疗等敏感领域AMA类攻击的实际威胁不容忽视。一个看似合法的工具名称或描述可能诱导智能体将敏感数据发送给攻击者控制的端点。这要求工具开发者、平台运营者和安全研究人员共同重新审视智能体工具调用的安全模型。实践应用对于LLM智能体开发者不应仅依赖提示级过滤需在工具调用层引入执行级验证机制例如对工具端点进行白名单管理、对工具行为进行沙箱隔离。对于平台运营者建立工具元数据审核机制对上传工具的name、description、parameters进行人工或自动化审查识别可能具有诱导性的描述模式。对于安全研究人员AMA的攻击框架GitHub: https://github.com/SEAIC-M/AMA提供了宝贵的研究素材可用于开发针对性的检测和防御方案。对于企业用户在部署LLM智能体处理敏感数据时应假设工具元数据可能被操纵对智能体的工具调用行为进行审计和异常检测。参考资料原始论文Mo, K., Hu, L., Long, Y., Li, Z. (2025). Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools.NeurIPS 2025. https://arxiv.org/abs/2508.02110NeurIPS页面https://neurips.cc/virtual/2025/loc/san-diego/poster/116046相关代码https://github.com/SEAIC-M/AMA

相关新闻

【研发类-框架和库Skills】azure-appconfiguration-py 技能

【研发类-框架和库Skills】azure-appconfiguration-py 技能

Azure App Configuration SDK for Python。用于集中式配置管理、功能标志和动态设置。 技能概述 azure-appconfiguration-py 技能提供了Azure App Configuration SDK for Python的完整使用指南。该技能帮助开发者使用Python SDK进行集中式配置管理、功能标志管理和动态设置&a…

2026/7/4 20:25:41 阅读更多 →
GISBox实战:将DXF图纸导入场景并发布为WMTS

GISBox实战:将DXF图纸导入场景并发布为WMTS

在CAD图纸与GIS应用不断融合的过程中,如何将设计图纸高效转换为可发布、可共享、可在线浏览的地图服务,已经成为很多项目实施中的常见需求。尤其是DXF这类常见的工程制图交换格式,常被用于图纸跨平台流转,而WMTS则适合作为稳定、高…

2026/7/4 20:19:40 阅读更多 →
C#工业相机ROI感兴趣区域采集:只处理你需要的部分

C#工业相机ROI感兴趣区域采集:只处理你需要的部分

核心摘要 在高速工业视觉检测中,全幅面采集往往是性能瓶颈的根源。一张25MP图像传输耗时18ms,而实际有效检测区域可能仅占10%。通过硬件级ROI(Region of Interest)技术,可将帧率提升3-8倍、带宽占用降低90%、后端处理延迟压缩至毫秒级。本文深入解析C#环境下工业相机ROI的…

2026/7/4 20:17:40 阅读更多 →

最新新闻

opmsg高级功能:Cc/Bcc支持、密钥链接和会话密钥管理

opmsg高级功能:Cc/Bcc支持、密钥链接和会话密钥管理

opmsg高级功能:Cc/Bcc支持、密钥链接和会话密钥管理 【免费下载链接】opmsg opmsg message encryption 项目地址: https://gitcode.com/gh_mirrors/op/opmsg opmsg是一款专注于消息加密的工具,提供了强大的安全通信能力。本文将深入介绍opmsg的三…

2026/7/4 21:19:58 阅读更多 →
豆包vs文心一言:中文AI助手选型实战指南

豆包vs文心一言:中文AI助手选型实战指南

1. 这不是“选软件”,而是选一个适配你工作流的智能协作者“豆包和文心这二个软件哪个更好?”——这句话我每天在技术社区、内容创作群、甚至公司内部培训现场听到不下十次。但每次听到,我都会先反问一句:你打算用它来干什么&…

2026/7/4 21:19:58 阅读更多 →
SQL CTE(公用表表达式)用法:SQL Ultimate Course复杂查询简化

SQL CTE(公用表表达式)用法:SQL Ultimate Course复杂查询简化

SQL CTE(公用表表达式)用法:SQL Ultimate Course复杂查询简化 【免费下载链接】sql-ultimate-course The most comprehensive SQL guide from a real-world expert! Learn everything from basics to advanced queries, optimizations, and real-world SQL 项目地…

2026/7/4 21:17:58 阅读更多 →
Mongood JSON Schema编辑器:轻松实现数据验证与规范化

Mongood JSON Schema编辑器:轻松实现数据验证与规范化

Mongood JSON Schema编辑器:轻松实现数据验证与规范化 【免费下载链接】mongood A MongoDB GUI with Fluent Design 项目地址: https://gitcode.com/gh_mirrors/mo/mongood Mongood是一款采用Fluent Design设计的MongoDB GUI工具,其内置的JSON Sc…

2026/7/4 21:17:57 阅读更多 →
【计算机Java毕业设计案例】休闲洗浴场馆营业数据统计管理系统的设计与实现 基于 Java 的洗浴服务项目预约管理系统(程序+文档+讲解+定制)

【计算机Java毕业设计案例】休闲洗浴场馆营业数据统计管理系统的设计与实现 基于 Java 的洗浴服务项目预约管理系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/4 21:15:57 阅读更多 →
LittleArduinoProjects完全指南:开启你的电子创意之旅 [特殊字符]

LittleArduinoProjects完全指南:开启你的电子创意之旅 [特殊字符]

LittleArduinoProjects完全指南:开启你的电子创意之旅 🚀 【免费下载链接】LittleArduinoProjects a collection of "Little Electronic & Arduino Projects", most involving electronics or an Arduino in one way or another! 项目地…

2026/7/4 21:15:57 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻