Dr. MAS:多智能体LLM系统的稳定强化学习训练方案
Dr. MAS多智能体LLM系统的稳定强化学习训练方案多智能体大语言模型系统通过角色专业化实现高级推理和工具使用但如何对其进行可靠的强化学习后训练仍是一个巨大挑战。南洋理工大学的研究团队从理论上 pinpoint 了将群体强化学习扩展到多智能体LLM系统时训练不稳定的关键原因并提出了简单有效的解决方案 Dr. MAS。论文标题Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems来源arXiv:2602.08847v1 [cs.LG] (2026年2月9日)链接https://arxiv.org/abs/2602.08847代码https://github.com/langfengQ/DrMASPS: 整理了LLM、量化投资、机器学习方向的学习资料关注同名公众号 「 AI极客熊 」 即刻免费解锁文章核心研究背景大型语言模型(LLM)在问答、代码生成等任务上展现了强大的推理能力但许多实际应用场景涉及复杂的多智能体协作。复杂信息检索、智能软件工程、开放式设备控制等任务往往需要多个参与者协同工作。将LLM组织成多智能体系统(MAS)让每个智能体专注于子任务或特定角色已成为处理复杂现实世界任务的有效趋势。强化学习(RL)在LLM后训练中扮演着基础性角色。尽管群体强化学习方法如GRPO(Group Relative Policy Optimization)在单智能体场景中表现出色但将其扩展到多智能体设置时面临着严峻的训练不稳定挑战。智能体通常以不同频率被调用导致异构数据分布极大地复杂化了端到端优化。研究问题当前多智能体LLM强化学习训练存在以下核心问题训练不稳定直接使用GRPO训练多智能体系统时经常出现梯度范数爆炸和训练震荡导致模型收敛困难。全局归一化基线与异构智能体不匹配在多智能体系统中不同智能体承担不同功能如信息检索 vs. 答案综合其奖励分布可能存在显著差异。使用单一的全局归一化基线对所有智能体进行优势估计时某些智能体的奖励分布可能持续偏离全局均值引入确定性的优势偏差。系统支持不足现有的RL后训练框架主要针对单LLM actor优化缺乏对高效多智能体编排和多个LLM协同训练的原生支持。主要贡献1. 理论洞察梯度范数膨胀问题研究团队从理论上证明了使用全局基线时智能体k的梯度二阶矩可以被放大E [ ∥ g ~ k global ∥ 2 ] E [ ∥ z i , t ( k ) ∥ 2 ] ⋅ σ k 2 ( μ k − μ ) 2 σ 2 Δ k \mathbb{E}[\|\tilde{g}_k^{\text{global}}\|^2] \mathbb{E}[\|z_{i,t}^{(k)}\|^2] \cdot \frac{\sigma_k^2 (\mu_k - \mu)^2}{\sigma^2} \Delta_kE[∥g~​kglobal​∥2]E[∥zi,t(k)​∥2]⋅σ2σk2​(μk​−μ)2​Δk​当智能体k的奖励分布偏离全局分布时乘法因子会导致梯度范数膨胀引发训练不稳定。2. Agent-wise 归一化方案基于上述理论分析Dr. MAS 采用简单而有效的补救措施每个智能体使用自身的奖励统计量进行优势归一化A agent i , k R i − μ k σ k A_{\text{agent}}^{i,k} \frac{R_i - \mu_k}{\sigma_k}Aagenti,k​σk​Ri​−μk​​其中μ k \mu_kμk​和σ k \sigma_kσk​分别是智能体k活跃时的奖励均值和标准差。这种校准平衡了各智能体的梯度规模显著降低了策略梯度估计器的方差。3. 端到端多智能体RL训练框架Dr. MAS 提供了一个完整的训练框架支持可扩展的多智能体编排、灵活的智能体-模型分配支持LLM共享和非共享模式、每智能体独立优化配置以及共享资源池实现高效调度。方法论精要多智能体LLM系统形式化考虑包含K个不同LLM智能体的协作系统π θ 1 , . . . , π θ K \pi_{\theta_1}, ..., \pi_{\theta_K}πθ1​​,...,πθK​​。智能体共同完成复杂任务每次完整交互产生标量奖励R ∈ R R \in \mathbb{R}R∈R。交互过程展开为轨迹τ { ( s 1 , a 1 , k 1 ) , . . . , ( s T , a T , k T ) } \tau \{(s_1, a_1, k_1), ..., (s_T, a_T, k_T)\}τ{(s1​,a1​,k1​),...,(sT​,aT​,kT​)}其中k t k_tkt​表示步骤t活跃的LLM智能体。GRPO 与梯度范数问题传统GRPO使用全局均值和标准差计算归一化优势A i global R i − μ σ A_i^{\text{global}} \frac{R_i - \mu}{\sigma}Aiglobal​σRi​−μ​梯度范数膨胀命题表明当归一化均值偏差∣ μ k − μ ∣ / σ |\mu_k - \mu|/\sigma∣μk​−μ∣/σ或归一化方差比σ k 2 / σ 2 \sigma_k^2/\sigma^2σk2​/σ2变大时梯度二阶矩至少线性增长可能导致训练不稳定。Dr. MAS 算法Dr. MAS 的核心是 Agent-wise 优势归一化。对于每个智能体k仅使用其活跃时的奖励统计量计算均值μ k \mu_kμk​和方差σ k 2 \sigma_k^2σk2​然后归一化优势。这样每个智能体的梯度二阶矩仅受其自身分数统计量的限制避免了梯度范数膨胀。系统框架设计Dr. MAS 系统架构包含多智能体编排器管理分布式交互智能体-模型分配逻辑支持共享/非共享模式每智能体独立配置超参数共享资源池通过sglang实现高吞吐低延迟解码。实验洞察实验设置数学推理任务使用两智能体循环架构求解器验证器。使用Qwen3-4B/8B模型在AIME’24、AIME’25、MATH500等基准评估。多轮搜索任务使用三智能体流水线验证器搜索答案。使用Qwen2.5-3B/7B模型在NQ、TriviaQA、HotpotQA等基准评估。主要结果数学推理性能Dr. MAS在共享和非共享设置下均优于vanilla GRPO整体提升avg16达5.6%pass16达4.6%。在挑战性AIME基准上提升最显著Qwen3-8B上AIME’24从42.7/66.7提升至54.8/80.0。多轮搜索性能在多轮搜索中不稳定性更明显错误可能在工具调用和智能体间滚雪球。Qwen2.5-7B非共享上vanilla GRPO因高梯度范数学会完全避免调用搜索智能体导致严重性能下降28.0/40.5。Dr. MAS有效缓解此风险整体提升avg16达15.2%pass16达13.1%将性能恢复至43.8/58.3。梯度范数稳定性vanilla GRPO引发频繁大幅度梯度范数尖峰而Dr. MAS通过Agent-wise补救措施使所有智能体的梯度范数在整个训练中保持更平滑且处于较低水平。消融研究仅添加每智能体均值或标准差已带来显著提升结合两者(μ k , σ k \mu_k, \sigma_kμk​,σk​)获得最佳结果。异构模型分配验证器使用7B模型、搜索/答案智能体使用3B模型的异构系统性能与全7B基线几乎相同但延迟降低31.6%API成本降低41.8%。结论与局限Dr. MAS从理论上识别了多智能体GRPO训练中全局基线导致的梯度尖峰问题通过Agent-wise优势归一化实现稳定训练。在数学推理和多轮搜索任务中一致性地优于vanilla GRPO同时基本消除梯度尖峰。局限Dr. MAS未解决所有不稳定性来源如跨智能体信用分配且尚未评估大量智能体场景下的资源分配和异步执行问题。

相关新闻

(七)RT-Thread物联网实战--MQTT-cJSON-OneNET

(七)RT-Thread物联网实战--MQTT-cJSON-OneNET

RT-Thread物联网实战 — MQTT cJSON OneNET云平台 前言 设备联网之后,如何将数据上传到云平台并实现远程监控?本文将串联MQTT协议、Paho MQTT库、cJSON数据解析以及OneNET云平台,构建完整的物联网数据链路:传感器 → MCU → ESP…

2026/7/4 4:19:45 阅读更多 →
有无相生的螺旋:AI时代人类进化的五个维度

有无相生的螺旋:AI时代人类进化的五个维度

有无相生的螺旋:AI时代人类进化的五个维度 系列第一篇:觉醒-从有到无《从“有生于无“到“熵减者“:一个技术人对AI时代的跨学科思考》 系列第二篇:有无相生的螺旋 从阴阳辩证到宇宙自我认知 题记 当AI掌握了"有"&am…

2026/7/4 3:38:41 阅读更多 →
React Native 深度解析:跨平台移动开发框架(2026实战版)

React Native 深度解析:跨平台移动开发框架(2026实战版)

📱 React Native 深度解析:跨平台移动开发框架(2026实战版) 🔍 引言 在移动应用开发领域,“跨平台”始终是追求效率与成本平衡的核心方向。React Native(RN)作为前端生态与原生开发的…

2026/7/5 2:02:32 阅读更多 →

最新新闻

RevokeMsgPatcher防撤回补丁:原理、风险与Windows微信/QQ/TIM实操指南

RevokeMsgPatcher防撤回补丁:原理、风险与Windows微信/QQ/TIM实操指南

1. 项目概述:为什么我们需要一个“防撤回补丁”? 在即时通讯软件里,“消息撤回”功能设计的初衷是给用户一个纠正错误的机会,比如打错字、发错人或者一时冲动说了不合适的话。但很多时候,这个功能也带来了信息不对等的…

2026/7/5 9:28:38 阅读更多 →
Folia:全屏沉浸式在线音乐播放器,多端体验+AI 主题生成带来独特听歌感受!

Folia:全屏沉浸式在线音乐播放器,多端体验+AI 主题生成带来独特听歌感受!

Folia 是一款以全屏沉浸式歌词播放为核心的在线音乐播放器,支持多平台,具备智能歌词匹配、AI 生成配色主题等功能,为用户带来独特听歌体验。项目亮点与特色Folia 支持网易云、navidrome 和本地音乐库。其独特之处在于智能歌词匹配&#xff0c…

2026/7/5 9:26:38 阅读更多 →
SQL注入攻防全解析:从原理到实战,掌握Web安全核心漏洞

SQL注入攻防全解析:从原理到实战,掌握Web安全核心漏洞

1. 项目概述:为什么SQL漏洞是面试官的“心头好”? 干了这么多年安全,也面过不少人,我发现一个挺有意思的现象:无论你是应聘渗透测试、安全开发还是安全运维,面试官几乎都会把SQL注入漏洞拎出来问一遍。从“…

2026/7/5 9:26:37 阅读更多 →
Weex架构安卓商城APP逆向工程包:含完整源码结构、APK资源解包与AndroidX/Support双兼容支持

Weex架构安卓商城APP逆向工程包:含完整源码结构、APK资源解包与AndroidX/Support双兼容支持

本文还有配套的精品资源,点击获取 简介:一套真实上线商城App的逆向分析成果,主逻辑基于Weex框架(main.js驱动),集成weex-main-jsfm.js、weex-rax-api.js等核心运行时模块,支持RAX组件开发&am…

2026/7/5 9:20:36 阅读更多 →
山东大学编译原理PL0实验代码:Java实现的词法扫描、递归下降语法分析与P-code解释器

山东大学编译原理PL0实验代码:Java实现的词法扫描、递归下降语法分析与P-code解释器

本文还有配套的精品资源,点击获取 简介:一套开箱即用的PL/0语言编译器教学实现,基于Java开发,完整覆盖编译流程三大阶段:词法分析通过GETSYM函数识别关键字、标识符、数字和分界符;语法分析采用递归下降…

2026/7/5 9:18:36 阅读更多 →
从零部署Hermes Agent:构建可自我进化的AI智能体框架

从零部署Hermes Agent:构建可自我进化的AI智能体框架

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 这次我们来看一个能自我进化的 AI 智能体项目——Hermes Agent。它由 Nous Research 团队开源,在 GitHub 上已经获得了超过…

2026/7/5 9:18:36 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻