Dr. MAS多智能体LLM系统的稳定强化学习训练方案多智能体大语言模型系统通过角色专业化实现高级推理和工具使用但如何对其进行可靠的强化学习后训练仍是一个巨大挑战。南洋理工大学的研究团队从理论上 pinpoint 了将群体强化学习扩展到多智能体LLM系统时训练不稳定的关键原因并提出了简单有效的解决方案 Dr. MAS。论文标题Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems来源arXiv:2602.08847v1 [cs.LG] (2026年2月9日)链接https://arxiv.org/abs/2602.08847代码https://github.com/langfengQ/DrMASPS: 整理了LLM、量化投资、机器学习方向的学习资料关注同名公众号 「 AI极客熊 」 即刻免费解锁文章核心研究背景大型语言模型(LLM)在问答、代码生成等任务上展现了强大的推理能力但许多实际应用场景涉及复杂的多智能体协作。复杂信息检索、智能软件工程、开放式设备控制等任务往往需要多个参与者协同工作。将LLM组织成多智能体系统(MAS)让每个智能体专注于子任务或特定角色已成为处理复杂现实世界任务的有效趋势。强化学习(RL)在LLM后训练中扮演着基础性角色。尽管群体强化学习方法如GRPO(Group Relative Policy Optimization)在单智能体场景中表现出色但将其扩展到多智能体设置时面临着严峻的训练不稳定挑战。智能体通常以不同频率被调用导致异构数据分布极大地复杂化了端到端优化。研究问题当前多智能体LLM强化学习训练存在以下核心问题训练不稳定直接使用GRPO训练多智能体系统时经常出现梯度范数爆炸和训练震荡导致模型收敛困难。全局归一化基线与异构智能体不匹配在多智能体系统中不同智能体承担不同功能如信息检索 vs. 答案综合其奖励分布可能存在显著差异。使用单一的全局归一化基线对所有智能体进行优势估计时某些智能体的奖励分布可能持续偏离全局均值引入确定性的优势偏差。系统支持不足现有的RL后训练框架主要针对单LLM actor优化缺乏对高效多智能体编排和多个LLM协同训练的原生支持。主要贡献1. 理论洞察梯度范数膨胀问题研究团队从理论上证明了使用全局基线时智能体k的梯度二阶矩可以被放大E [ ∥ g ~ k global ∥ 2 ] E [ ∥ z i , t ( k ) ∥ 2 ] ⋅ σ k 2 ( μ k − μ ) 2 σ 2 Δ k \mathbb{E}[\|\tilde{g}_k^{\text{global}}\|^2] \mathbb{E}[\|z_{i,t}^{(k)}\|^2] \cdot \frac{\sigma_k^2 (\mu_k - \mu)^2}{\sigma^2} \Delta_kE[∥g~kglobal∥2]E[∥zi,t(k)∥2]⋅σ2σk2(μk−μ)2Δk当智能体k的奖励分布偏离全局分布时乘法因子会导致梯度范数膨胀引发训练不稳定。2. Agent-wise 归一化方案基于上述理论分析Dr. MAS 采用简单而有效的补救措施每个智能体使用自身的奖励统计量进行优势归一化A agent i , k R i − μ k σ k A_{\text{agent}}^{i,k} \frac{R_i - \mu_k}{\sigma_k}Aagenti,kσkRi−μk其中μ k \mu_kμk和σ k \sigma_kσk分别是智能体k活跃时的奖励均值和标准差。这种校准平衡了各智能体的梯度规模显著降低了策略梯度估计器的方差。3. 端到端多智能体RL训练框架Dr. MAS 提供了一个完整的训练框架支持可扩展的多智能体编排、灵活的智能体-模型分配支持LLM共享和非共享模式、每智能体独立优化配置以及共享资源池实现高效调度。方法论精要多智能体LLM系统形式化考虑包含K个不同LLM智能体的协作系统π θ 1 , . . . , π θ K \pi_{\theta_1}, ..., \pi_{\theta_K}πθ1,...,πθK。智能体共同完成复杂任务每次完整交互产生标量奖励R ∈ R R \in \mathbb{R}R∈R。交互过程展开为轨迹τ { ( s 1 , a 1 , k 1 ) , . . . , ( s T , a T , k T ) } \tau \{(s_1, a_1, k_1), ..., (s_T, a_T, k_T)\}τ{(s1,a1,k1),...,(sT,aT,kT)}其中k t k_tkt表示步骤t活跃的LLM智能体。GRPO 与梯度范数问题传统GRPO使用全局均值和标准差计算归一化优势A i global R i − μ σ A_i^{\text{global}} \frac{R_i - \mu}{\sigma}AiglobalσRi−μ梯度范数膨胀命题表明当归一化均值偏差∣ μ k − μ ∣ / σ |\mu_k - \mu|/\sigma∣μk−μ∣/σ或归一化方差比σ k 2 / σ 2 \sigma_k^2/\sigma^2σk2/σ2变大时梯度二阶矩至少线性增长可能导致训练不稳定。Dr. MAS 算法Dr. MAS 的核心是 Agent-wise 优势归一化。对于每个智能体k仅使用其活跃时的奖励统计量计算均值μ k \mu_kμk和方差σ k 2 \sigma_k^2σk2然后归一化优势。这样每个智能体的梯度二阶矩仅受其自身分数统计量的限制避免了梯度范数膨胀。系统框架设计Dr. MAS 系统架构包含多智能体编排器管理分布式交互智能体-模型分配逻辑支持共享/非共享模式每智能体独立配置超参数共享资源池通过sglang实现高吞吐低延迟解码。实验洞察实验设置数学推理任务使用两智能体循环架构求解器验证器。使用Qwen3-4B/8B模型在AIME’24、AIME’25、MATH500等基准评估。多轮搜索任务使用三智能体流水线验证器搜索答案。使用Qwen2.5-3B/7B模型在NQ、TriviaQA、HotpotQA等基准评估。主要结果数学推理性能Dr. MAS在共享和非共享设置下均优于vanilla GRPO整体提升avg16达5.6%pass16达4.6%。在挑战性AIME基准上提升最显著Qwen3-8B上AIME’24从42.7/66.7提升至54.8/80.0。多轮搜索性能在多轮搜索中不稳定性更明显错误可能在工具调用和智能体间滚雪球。Qwen2.5-7B非共享上vanilla GRPO因高梯度范数学会完全避免调用搜索智能体导致严重性能下降28.0/40.5。Dr. MAS有效缓解此风险整体提升avg16达15.2%pass16达13.1%将性能恢复至43.8/58.3。梯度范数稳定性vanilla GRPO引发频繁大幅度梯度范数尖峰而Dr. MAS通过Agent-wise补救措施使所有智能体的梯度范数在整个训练中保持更平滑且处于较低水平。消融研究仅添加每智能体均值或标准差已带来显著提升结合两者(μ k , σ k \mu_k, \sigma_kμk,σk)获得最佳结果。异构模型分配验证器使用7B模型、搜索/答案智能体使用3B模型的异构系统性能与全7B基线几乎相同但延迟降低31.6%API成本降低41.8%。结论与局限Dr. MAS从理论上识别了多智能体GRPO训练中全局基线导致的梯度尖峰问题通过Agent-wise优势归一化实现稳定训练。在数学推理和多轮搜索任务中一致性地优于vanilla GRPO同时基本消除梯度尖峰。局限Dr. MAS未解决所有不稳定性来源如跨智能体信用分配且尚未评估大量智能体场景下的资源分配和异步执行问题。