AI智能体系统扩展规律研究:何时何原因有效
构建智能体系统扩展科学规律的研究通过对180种智能体配置的控制性评估我们首次得出了AI智能体系统的定量扩展原理。研究显示多智能体协调在可并行任务上能显著提升性能但在序列任务上却会降低性能。我们还推出了一个预测模型能为87%的未见任务识别出最优架构。智能体系统的复杂性挑战AI智能体——具备推理、规划和行动能力的系统——正成为现实世界AI应用的常见范式。从编程助手到个人健康教练行业正从单次问答转向持续的多步骤交互。虽然研究人员长期使用既定指标来优化传统机器学习模型的准确性但智能体引入了新的复杂性层级。与孤立预测不同智能体必须导航持续的多步骤交互其中单个错误可能在整个工作流程中产生级联影响。这种转变迫使我们超越标准准确性思考我们究竟如何设计这些系统以实现最优性能从业者经常依赖启发式方法比如更多智能体更好的假设相信增加专业化智能体会持续改善结果。例如更多智能体就是全部所需报告指出大语言模型性能会随智能体数量扩展而协作扩展研究发现多智能体协作...通过集体推理经常超越单个个体。在我们的新论文构建智能体系统扩展科学中我们质疑了这一假设。通过对180种智能体配置的大规模控制评估我们得出了智能体系统的首个定量扩展原理揭示更多智能体方法经常遇到天花板如果与任务的特定属性不匹配甚至会降低性能。定义智能体任务的特性为了理解智能体如何扩展我们首先定义了什么使任务具有智能体特性。传统静态基准衡量模型的知识但它们无法捕获部署的复杂性。我们认为智能体任务需要三个特定属性我们评估了五种规范架构一个单智能体系统SAS和四个多智能体变体独立、集中、分散和混合跨越四个不同基准包括Finance-Agent金融推理、BrowseComp-Plus网页导航、PlanCraft规划和Workbench工具使用。智能体架构定义如下本研究评估的五种规范智能体架构总结包括它们的计算复杂性、通信开销和协调机制。k 每个智能体的最大迭代次数n 智能体数量r 协调器轮数d 辩论轮数p 对等通信轮数m 每轮平均对等请求数。通信开销计算智能体间消息交换。独立提供最大并行化和最小协调。分散使用顺序辩论轮数。混合结合协调器控制和定向对等通信。模型能力对智能体性能的影响为了量化模型能力对智能体性能的影响我们在三个领先模型系列中评估了我们的架构OpenAI GPT、Google Gemini和Anthropic Claude。结果揭示了模型能力与协调策略之间的复杂关系。如下图所示虽然性能通常随着更强大的模型呈上升趋势但多智能体系统并非通用解决方案——根据具体配置它们可能显著提升或意外降低性能。跨三个主要模型系列OpenAI GPT、Google Gemini、Anthropic Claude的性能比较显示不同智能体架构如何随模型智能扩展其中多智能体系统可能根据配置提升或降低性能。下面的结果比较了五种架构在不同领域的性能如网页浏览和金融分析。箱形图表示每种方法的准确性分布而百分比表示多智能体团队相比单智能体基线的相对改进或下降。这些数据突出显示虽然增加智能体可以在可并行任务上带来巨大收益但在更多序列工作流程中经常导致收益递减——甚至性能下降。特定任务性能显示多智能体协调在可并行任务如Finance-Agent上产生实质性收益81%而在序列任务如PlanCraft上降低性能-70%。在可并行任务如金融推理中例如不同智能体可以同时分析收入趋势、成本结构和市场比较集中协调相比单智能体提升了80.9%的性能。将复杂问题分解为子任务的能力允许智能体更有效地工作。相反在需要严格序列推理的任务中如PlanCraft中的规划我们测试的每个多智能体变体都降低了39-70%的性能。在这些场景中通信的开销分割了推理过程为实际任务留下了不足的认知预算。我们识别了工具-协调权衡。随着任务需要更多工具例如具有16工具访问权限的编程智能体协调多个智能体的税费不成比例地增加。架构与可靠性的关系对于现实世界部署来说最重要的是我们发现了架构与可靠性之间的关系。我们衡量了错误放大即一个智能体的错误传播到最终结果的速率。跨架构的综合指标显示集中系统在成功率和错误控制之间实现了最佳平衡而独立多智能体系统的错误放大高达17.2倍。我们发现独立多智能体系统智能体并行工作而不交流将错误放大了17.2倍。没有检查彼此工作的机制错误无控制地级联。集中系统带有协调器将这种放大控制在仅4.4倍。协调器有效地充当验证瓶颈在错误传播前捕获它们。预测最优架构的模型超越回顾我们开发了一个预测模型R^2 0.513使用可测量的任务属性如工具数量和可分解性来预测哪种架构将表现最佳。该模型正确识别了87%未见任务配置的最优协调策略。这表明我们正迈向智能体扩展的新科学。开发者现在可以查看任务的属性特别是其序列依赖性和工具密度来做出有原则的工程决策而不是猜测是否使用智能体群或单个强大模型。未来展望随着Gemini等基础模型的持续进步我们的研究表明更智能的模型不会取代多智能体系统的需求而是加速它但仅当架构正确时。通过从启发式转向定量原理我们可以构建下一代AI智能体它们不仅数量更多而且更智能、更安全、更高效。我们要感谢来自Google Research、Google DeepMind和学术界的共同作者和合作者对这项工作的贡献。QAQ1什么是智能体系统的扩展规律A智能体系统的扩展规律是指通过研究发现的定量原理揭示了多智能体协调在可并行任务上能显著提升性能80.9%但在序列任务上会降低39-70%的性能。这打破了更多智能体更好的传统假设。Q2如何选择最适合的智能体架构A可以通过预测模型来选择该模型使用任务的可测量属性如工具数量和可分解性来预测最优架构。模型能为87%的未见任务正确识别最优协调策略准确率达到R^20.513。Q3多智能体系统的错误放大问题如何解决A研究发现集中系统能最好地平衡成功率和错误控制。独立多智能体系统错误放大高达17.2倍而集中系统仅为4.4倍。协调器充当验证瓶颈能在错误传播前捕获它们。

相关新闻

基于SpringBoot的社区维修系统设计与实现任务书

基于SpringBoot的社区维修系统设计与实现任务书

基于SpringBoot的社区维修系统设计与实现任务书 一、任务背景与意义 当前社区居民日常维修需求日益增长,但传统社区维修模式存在诸多痛点:居民维修需求上报繁琐、响应不及时,维修师傅资源分散、资质难以核实,维修价格不透明、服务…

2026/7/3 15:34:09 阅读更多 →
基于SpringBoot的校园志愿者服务平台设计与实现任务书

基于SpringBoot的校园志愿者服务平台设计与实现任务书

基于SpringBoot的校园志愿者服务平台设计与实现任务书 一、任务背景与意义 当前校园志愿者服务存在信息传递不及时、志愿活动管理低效、志愿者档案混乱、服务时长统计繁琐等问题,制约了校园志愿事业的规范化发展。SpringBoot框架具有开发高效、配置简洁、易扩展的优…

2026/7/3 15:34:13 阅读更多 →
让 Q 值估计更准确:从 DQN 到 Double DQN 的改进方案

让 Q 值估计更准确:从 DQN 到 Double DQN 的改进方案

DQN 用 max Q(s,a)计算目标值,等于在挑 Q 值最高的动作,但是这些动作中包括了那些因为估计噪声而被高估的动作,素以就会产生过估计偏差,直接后果是训练不稳定、策略次优。 这篇文章要解决的就是这个问题,内容包括&am…

2026/7/4 21:38:42 阅读更多 →

最新新闻

Dify实战:从零构建生产级AI应用的工作流与RAG优化指南

Dify实战:从零构建生产级AI应用的工作流与RAG优化指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 如果你最近在尝试把大语言模型(LLM)的能力真正用起来,而不是停留在聊天对话,大概率会遇…

2026/7/5 2:42:48 阅读更多 →
webMAN MOD:PS3 上的一站式管理插件

webMAN MOD:PS3 上的一站式管理插件

文章目录webMAN MOD:PS3 上的一站式管理插件webMAN MOD:PS3 上的一站式管理插件 webMAN MOD 是一个 PlayStation 3 的自制插件,从 DeanK 的 webMAN/sMAN 分支而来,在原有基础上增加了大量功能,目前在 GitHub 上有 1,7…

2026/7/5 2:42:48 阅读更多 →
企业微信二次开发实战:API、外部群与自动化应用指南

企业微信二次开发实战:API、外部群与自动化应用指南

引言 企业微信作为腾讯推出的企业级办公平台,其开放的API生态为开发者提供了丰富的二次开发能力。通过企业微信二次开发,企业能够将内部业务流程、客户服务与协同办公深度整合,构建定制化的数字化解决方案。本文将聚焦于企业微信API、企业微…

2026/7/5 2:40:47 阅读更多 →
VMPDump实战指南:动态脱壳VMProtect 3.x的原理与逆向分析

VMPDump实战指南:动态脱壳VMProtect 3.x的原理与逆向分析

1. 项目概述:为什么我们需要VMPDump?在逆向工程和安全研究的圈子里,VMProtect(简称VMP)一直是个让人又爱又恨的存在。爱的是它强大的保护能力,恨的也是它强大的保护能力。尤其是到了3.x版本,其引…

2026/7/5 2:36:47 阅读更多 →
基于SpringBoot的合同管理系统与实现

基于SpringBoot的合同管理系统与实现

选题背景 在当今数字化、信息化高速发展的时代背景下,企业运营与管理正经历着深刻的变革。合同作为企业对外合作、对内管理、明确各方权利义务的核心法律文件与商业凭证,其管理水平直接关系到企业的经营效率、风险控制能力与合规性。传统的人工纸质合同管…

2026/7/5 2:34:45 阅读更多 →
在STM32上跑通TinyML:从理论到实践的技术指南

在STM32上跑通TinyML:从理论到实践的技术指南

一、 引言:为什么要在STM32上部署TinyML?简要介绍TinyML(微型机器学习)的概念、优势及其在边缘计算中的重要性。阐述STM32作为主流微控制器平台,在资源受限环境下运行ML模型的挑战与机遇。二、 核心概念与准备工作2.1 …

2026/7/5 2:34:45 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻