[论文学习]吸引力元数据攻击:诱导LLM智能体调用恶意工具深度解析-尧图手机网站定制

Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools概述论文揭示了一种新型且隐蔽的LLM智能体安全威胁——吸引力元数据攻击Attractive Metadata Attack, AMA攻击者通过操纵恶意工具的名称、描述、参数模式schema等元数据无需提示注入或访问模型内部结构即可诱导LLM智能体优先选择调用恶意工具。论文提出了一套黑盒上下文学习优化框架在10个真实工具使用场景和主流LLM上实现了81%-95%的攻击成功率揭示了当前智能体架构中系统性的安全漏洞。核心研究问题定义LLM智能体通过调用外部工具完成复杂任务但工具元数据名称、描述、参数schema的开放性为攻击者提供了此前未被充分探索的攻击面。攻击者可以通过精心构造恶意工具的元数据使其在智能体的工具选择过程中获得优先调用权而无需依赖提示注入或访问模型内部结构。这种攻击手段极其隐蔽——从系统角度看恶意工具的元数据在语法和语义上完全合法难以被传统检测机制识别。创新方法论文提出了AMAAttractive Metadata Attack——一个黑盒上下文学习框架通过迭代优化生成具有高吸引力的工具元数据。该框架整合了三大核心机制①生成可追溯性——记录每个新生成工具的父代信息以明确优化方向②加权价值评估——对元数据的吸引力进行量化评估③批量生成——提升优化效率。该攻击可无缝集成到标准工具生态系统中无需修改智能体的执行框架。更关键的是AMA与注入攻击正交可相互组合以增强攻击效果。关键结果在10个真实模拟工具使用场景以及涵盖开源模型Gemma3-27B、LLaMA3.3-70B等和商业模型GPT-4o-mini的4类主流LLM智能体上的实验表明①攻击成功率达81%-95%②对主任务执行的影响可忽略不计③能绕过提示级防御、审计器检测以及MCPModel Context Protocol等结构化工具选择协议④生成的恶意工具具有跨模型可迁移性在同领域工具间保持较高攻击效能⑤可实现字段级个人身份信息PII提取和智能体级上下文泄露。实际意义AMA揭示了当前LLM智能体安全防御体系的根本性缺陷——仅依赖提示级过滤和审计器检测远远不够。在LLM智能体被广泛应用于金融分析、医疗健康、电子商务等敏感领域的背景下这一发现对构建安全的智能体系统具有紧迫的实践指导意义。️技术细节方法概述AMA的核心是一个黑盒上下文学习迭代优化框架。攻击者无需了解目标LLM的内部参数或架构只需能够向智能体提交工具定义并观察其选择行为即可发动攻击。框架通过迭代生成、评估和优化工具元数据最终构造出在语法和语义上完全合法但具有极高“吸引力”的工具描述。具体而言框架整合了三大核心机制生成可追溯性Generation Traceability每个新生成的工具记录其父代工具信息形成完整的优化路径加速收敛。加权价值评估Weighted Value Evaluation对元数据的各维度进行量化评分引导优化方向。批量生成Batch Generation同时生成多个候选元数据提升优化效率。该攻击的关键优势在于它完全遵循标准工具生态系统的规范不引入任何语法错误或明显的恶意特征因此能够绕过提示级防御和结构化协议。研究设定智能体设置采用ReActThink–Act–Observe范式通过AgentBench实现测试场景涵盖IT运维、投资组合管理等领域的10个真实世界场景目标模型涵盖开源模型Gemma3-27B、LLaMA3.3-70B和商业模型GPT-4o-mini对比基线注入攻击Injected Attack和提示攻击Prompt Attack防御机制评估动态提示重写Dynamic Prompt Rewriting等主要发现攻击有效性在多种设定下AMA的攻击成功率稳定在81%-95%之间显著优于传统攻击方法。隐蔽性强AMA无需提示注入也不依赖模型内部访问权限。恶意工具从系统角度看完全合法难以被检测。绕过现有防御AMA能有效绕过提示级过滤、审计器检测以及MCP等结构化工具选择协议。可组合性AMA与注入攻击正交两者结合可实现更强的攻击效果。跨模型迁移生成的恶意工具元数据在不同LLM之间具有迁移性。隐私泄露可实现字段级PII提取和智能体级上下文泄露。深度洞察1. 攻击面的范式转移从内容层到元数据层传统LLM安全研究主要聚焦于内容安全——防止模型输出有害信息、抵御提示注入等。AMA的提出标志着攻击面从内容层向元数据层的范式转移。攻击者不再需要“攻破”模型本身而是通过操纵模型决策的外部信号工具元数据来间接控制模型行为。这种攻击不需要任何漏洞利用纯粹利用了LLM智能体“依据元数据做工具选择”这一设计特性。2. 系统性脆弱性的体现AMA能够绕过提示级防御和MCP等结构化协议说明当前智能体架构存在系统性的设计缺陷——工具选择的信任基础建立在不具备可信性的元数据之上。这不仅是某个模型的个体问题而是整个LLM智能体范式的结构性漏洞。3. 防御思路的根本转变论文最深刻的启示在于提示级防御远远不够。现有的安全措施主要聚焦于“智能体看到了什么”输入过滤而忽视了“智能体基于什么做决策”决策依据的可信性。真正的解决方案需要向执行层延伸——在工具调用之前对工具本身进行验证或在执行过程中实施运行时监控。4. 对智能体生态的深远影响随着LLM智能体被广泛应用于金融、医疗等敏感领域AMA类攻击的实际威胁不容忽视。一个看似合法的工具名称或描述可能诱导智能体将敏感数据发送给攻击者控制的端点。这要求工具开发者、平台运营者和安全研究人员共同重新审视智能体工具调用的安全模型。实践应用对于LLM智能体开发者不应仅依赖提示级过滤需在工具调用层引入执行级验证机制例如对工具端点进行白名单管理、对工具行为进行沙箱隔离。对于平台运营者建立工具元数据审核机制对上传工具的name、description、parameters进行人工或自动化审查识别可能具有诱导性的描述模式。对于安全研究人员AMA的攻击框架GitHub: https://github.com/SEAIC-M/AMA提供了宝贵的研究素材可用于开发针对性的检测和防御方案。对于企业用户在部署LLM智能体处理敏感数据时应假设工具元数据可能被操纵对智能体的工具调用行为进行审计和异常检测。参考资料原始论文Mo, K., Hu, L., Long, Y., Li, Z. (2025). Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools.NeurIPS 2025. https://arxiv.org/abs/2508.02110NeurIPS页面https://neurips.cc/virtual/2025/loc/san-diego/poster/116046相关代码https://github.com/SEAIC-M/AMA

[论文学习]吸引力元数据攻击:诱导LLM智能体调用恶意工具深度解析

相关新闻

【研发类-框架和库Skills】azure-appconfiguration-py 技能

GISBox实战：将DXF图纸导入场景并发布为WMTS

C#工业相机ROI感兴趣区域采集：只处理你需要的部分

最新新闻

opmsg高级功能：Cc/Bcc支持、密钥链接和会话密钥管理

豆包vs文心一言：中文AI助手选型实战指南

SQL CTE(公用表表达式)用法：SQL Ultimate Course复杂查询简化

Mongood JSON Schema编辑器：轻松实现数据验证与规范化

【计算机Java毕业设计案例】休闲洗浴场馆营业数据统计管理系统的设计与实现基于 Java 的洗浴服务项目预约管理系统(程序+文档+讲解+定制)

LittleArduinoProjects完全指南：开启你的电子创意之旅 [特殊字符]

日新闻

Memcached 1.6.43 发布：关键安全修复版本，多项问题得到解决

终极指南：使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

周新闻

月新闻