近年来基于大语言模型的多智能体系统LLM-based Multi-Agent Systems, MAS被广泛用于复杂推理任务。典型做法是让多个 agent 独立生成并通过投票或辩论等机制聚合决策从而在算术推理、常识推断与专业问答中提升准确率。随着 test-time compute推理时计算成为常见的能力提升手段一个自然的问题随之出现MAS 是否能通过不断增加 agent 数量而持续变强直觉上这个设想似乎成立类似 ensemble 或 self-consistency 的「多次采样 聚合」往往能提高覆盖正确答案的概率。来自上海交通大学、UC Berkeley、加州理工学院以及约翰・霍普金斯大学的联合研究论文 Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明多智能体系统「扩不动」的真正原因并不是 Agent 不够多而是信息冗余。 系统实验发现单纯堆规模收益迅速枯竭而引入多样性可以显著延缓饱和、以更少的 Agent 获得更强的性能。论文标题Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity论文地址https://arxiv.org/pdf/2602.03794GitHub 代码https://github.com/SafeRL-Lab/Agent-Scaling同质扩展的失效规模带来的收益迅速饱和论文首先直接检验「增加 agent 数是否有效」。在同质设置下所有 agent 共享相同底座模型与系统提示无 persona 差异配置一致采用两类常见协作机制Vote单轮独立生成后多数投票Debate多轮交互后再给出最终答案交互 4 轮。仅改变 agent 数 N在 7 个基准任务GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine上评估。结果在不同任务与模型上高度一致当 N 从 1 增至 2 或 4 时性能通常明显提升但继续增加 N 后准确率迅速进入平台期边际收益接近 0部分设置甚至出现回落。这说明在同质配置下单纯堆叠更多 agent calls 并不能持续注入新的有效信息。多样性带来的对照现象少量异质 agent 胜过大规模同质系统与同质扩展的快速饱和形成鲜明对比的是多样性配置下的实验结果。论文进一步比较了两类系统一类由同一模型多次独立运行构成另一类则由不同 backbone 模型或不同 persona prompt 组成。在匹配计算预算固定总 agent calls的前提下异质系统在同预算下整体更高并且在更大的 N 上仍能保持增益。为了更系统地理解这一现象作者在实验中将多样性拆解为不同来源包括 persona 多样性、模型多样性以及二者结合的完全多样性并在统一设置下进行对比。在 GSM8K、ARC、HellaSwag、TruthfulQA 等七个基准任务上作者系统比较了Agent 完全一致L1Agent Persona 多样性L2Base Model 多样性L3Persona多样性兼Base Model多样性(L4)结果显示每引入一层新的多样性系统整体性能都会显著上移其中模型多样性和 persona 多样性各自都具有独立贡献而二者结合时效果最为显著。这一趋势在效率层面体现得尤为明显在多个任务上仅使用 2 个完全异质的 agent就可以达到甚至超过 16 个同质 agent 的平均性能。限制多智能体扩展的不是规模而是信息冗余将这些实验结果串联起来论文在经验层面得出了一个清晰结论多智能体系统的扩展瓶颈并不来自 agent 数量不足而来自 agent 输出之间的高度相关性。在同质配置下多个 agent 往往沿着相似的推理路径生成答案新增调用所带来的大多是重复信息而多样性的作用在于引入互补视角降低输出冗余使系统能够在相同甚至更小的计算预算下获得更多有效证据。基于这一系列实验现象作者进一步提出信息论分析框架引入「有效信息通道」等概念对「规模失效」与「多样性优势」给出统一解释。与其说这项工作提出了新的 agent 架构不如说它明确指出多智能体系统里真正稀缺的资源不是调用次数而是非冗余的信息来源。信息论视角性能由「有效信息」而非「调用次数」主导作者考虑一个包含 N 个大模型智能体的多智能体系统每个智能体具有自身配置包括基座模型backbone model、系统提示词system prompt、角色设定persona与工具能力tool access。系统接收问题输入 X按预设工作流执行若干次推理记为 n 次最终输出答案。从信息论角度得到正确答案 Y 的成功率并不简单由 N 与 n 决定而取决于系统能够提供多少关于 Y 的信息。作者用条件熵 H (Y|X) 刻画任务的内在难度在给定问题 X 的情况下正确答案 Y 仍然存在的剩余不确定性。在同质配置下即便新增智能体往往也只是在相似推理路径下重复采样因而对降低不确定性帮助有限在异质配置下新增智能体更可能引入新的推理路径与既有路径互补从而更有效地减少不确定性。为刻画这一差异作者定义有效信息通道数 K系统中真正不冗余的、彼此独立 / 互补的有效信息源数量effective channels。互补率complementarity rate每增加一个有效通道后对尚未获得的任务相关证据的覆盖比例。在该设定下作者基于若干建模假设推导出一个近似形式用于刻画趋势而非精确预测。作者认为系统可获得的有效信息量并据此关联成功率主要受如下量支配该结果强调影响系统性能的关键不在于 “智能体数量或推理次数”而在于系统中有效信息通道的数量 —— 也就是多样化所带来的非冗余信息规模。它也解释了为何实践中常见「边际效益递减」当有效信息通道增长受限时新增调用带来的有效信息增量会快速衰减。作者还给出了在实践中估计有效信息通道 K 的方法并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等数据集上验证经验成功率与理论预测总体吻合。进一步地作者将系统输出拆分为「正确推理路径」与「错误推理路径」分别估算其对应的有效信息通道数量。实验一致表明当正确推理路径对应的有效信息通道更多时多智能体系统表现更好。这意味着系统设计不应盲目追求多样性本身而应追求与任务相关的推理多样性 —— 即提升与正确推理相关的有效信息通道数。总结论文的核心经验结论是多智能体扩展的关键不在于把 N 做大而在于让新增调用带来新的有效证据。只要输出高度相关同质扩展就会很快进入平台期而多样性能够提升效率是因为它更可能产生互补推理路径。换句话说多智能体系统里稀缺的不是调用次数而是非冗余信息。实践上可以用一个简单标准指导扩展当增加 agent 主要带来「同一思路的重复」 时应停止堆同质数量转而引入可控的异质性方法互补的 persona、不同模型家族、工具能力互补只有当这些改动确实带来额外增益时再继续扩大规模。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】