引言拉低代码智能体训练门槛智能体训练的主流任务大致可以按环境交互强度与工程成本分两类1轻环境如检索Search Agent、简单代码执行环境相对简单2重环境以软件工程SWE Agent和图形界面GUI Agent为代表需要依赖完备的环境如Docker且长程训练难度大。我们针对第二类“重环境 长链路”的难题提供了两块互补的解法SWE-Master 打通 SWE Agent从数据合成、监督微调、强化学习到测试时扩展的完整后训练流程并开放关键细节与技巧SWE-World 则进一步使用世界模型模拟环境反馈实现完全不依赖于 Docker 的完整后训练流程从而显著降低 SWE Agent 训练门槛。SWE-World:Paperhttps://huggingface.co/papers/2602.03411Repo: https://github.com/RUCAIBox/SWE-WorldSWE-MasterPaperhttps://huggingface.co/papers/2602.03419Repo: https://github.com/RUCAIBox/SWE-MasterSWE-Master端到端的软件工程智能体后训练流水线把轨迹合成数据筛选监督微调强化学习测试时扩展以及推理工具能力增强整合为完整的方案。研究动机学术界软件工程智能体的研究相对较少主要原因有两个一是SWE数据的蒸馏与训练难度较大每一条数据都需要配套的可执行镜像二是缺乏系统化、完整的后训练流程作为研究指导。针对这一问题我们发布了详细的后训练流程旨在提供一套完整的工具和方法披露SWE Agent的训练细节推动SWE Agent领域的进一步探索与发展。框架覆盖从数据到训练到推理SWE-Master 主线包括轨迹合成与收集整合所有的开源SWE Python数据集并处理成统一的接口Docker-Server分离基于难度筛选得到高质量数据长程轨迹训练长程交互的监督微调训练在该阶段就防止GitHub的“奖励黑客”现象基于真实环境的强化学习使用可验证奖励信号进行强化学习针对性设置奖励测试时拓展使用SWE-World作为验证器验证串行扩展更多交互轮次与并行扩展多轨迹候选 verifier 选择的效果。整体表现开源代码智能体前沿在 SWE-bench Verified 上通过监督微调将Qwen2.5-Coder-32B的解决率从6.2%提高到56.8%通过强化学习训练提升到61.4%然后通过测试时拓展在TTS8上达到了70.8%达到了开源代码智能的前沿水平同时可迁移到4B模型的训练上同样取得了一定的收益。数据与筛选基于平均奖励的任务难度估计对开源数据集的issue进行精细的难度分级与筛选对每个 issue 做 N 次生成用平均解决率进行难度分级观察到“容易/困难”两端分布较集中因此在候选池中剔除极端样本保留更有训练价值的中间区间。强化学习训练超长程任务的算法与奖励设计我们使用GRPO训练范式参考先前优秀工作发现的经验性技巧如clip-higher留一法优势估计缓解固有偏差同时针对监督微调后的模型我们发现标准的奖励设置会导致训练逐渐崩溃所以我们针对不同的交互停止原因设计了不同的奖励和损失计算策略保证了训练的稳定。通过在强化学习过程中的训练动态可见在训练中平均交互轮次稳步上升同时训练集奖励也呈现出整体上升的趋势。测试时拓展测试SWE-Master的最终潜力我们测试了串行和并行的测试时拓展策略串行场景下随着交互轮数的增大SWE-Master的效果也在逐渐提升并行场景下会生成多条轨迹与补丁然后用SWE-World进行模拟奖励计算选择最佳提交随着并行生成条数的增加最终正确率也在增加在TTS8是达到70.8分。基于语言服务器协议的高阶能力接入我们引入基于Language Server Protocol的高阶工具把“跳转到定义、引用、符号解析”等 IDE 级语义能力封装成更确定、可控的工具接口从而降低纯文本搜索的脆弱性提高跨文件理解与导航效率。SWE-bench Verified中 的 pydata_xarray-6812的案例分析如下对比展示 LSP 工具对轨迹质量的影响详细分析请参见论文。SWE-World研究动机从根本上解决环境拓展问题当前主流 SWE Agent 通常依赖 Docker 执行环境来获得执行反馈和评测结果。真实执行带来了较强的可信度但也引入了现实瓶颈环境构建昂贵、可扩展性差尤其在大规模数据生成与后训练阶段会显著放大成本与工程负担。我们希望在保持“智能体-环境-反馈”交互范式不变的前提下用大语言模型模拟执行反馈与测试结果从而实现完全 Docker-free 的数据生成、训练、测试时扩展。SWE-World 架构从推理到训练的全流程支持SWE-World 把“环境能力”分解成三个部分分别覆盖轻量操作、代码执行与最终评测Sandbox处理轻量的文件导航与编辑操作SWTTransition Model模拟仓库级代码执行的单步反馈SWRReward Model在轨迹结束时充当“虚拟测试运行器”生成结构化测试报告并输出二值 reward。基于 SWE-World 训练 SWE Agent基于 SWE-World 的世界建模能力我们实现了全流程的 Docker-free 训练数据准备开源 SWE 数据集 新构建的 SWE-World Dataset。Docker-free SFT基于 SWE-World使用教师智能体生成轨迹结合规则与 SWR 过滤进行 Agentic SFT。Docker-free RL基于 SFT 得到的模型初始化训练基于SWT 提供单步反馈SWR 提供奖励信号进行 Agentic RL 。Docker-free TTS对每个问题采样多条候选轨迹用 SWR 多次打分排序提交最优的轨迹。需要注意的是从轨迹合成到 RL 训练整个过程均为 Docker-free 的。SWE-World 整体框架与训练流程实验效果环境模拟不输真实反馈在 SWE-bench Verified 上将 Qwen2.5-Coder-32B 从 6.2% 提升到 55.0%Docker-free SFTRL并通过 TTS8 达到 68.2%远超相同尺寸的SWE Agent验证了不依赖于Docker基于SWE-World进行纯粹的环境模拟仍然可以赋予模型软件工程问题求解能力。SWE-Bench Verified 评测结果详细分析RL 训练动态在基于 SWE-World 的 RL 训练过程中reward 随训练稳定上升说明 SWE-World 能提供稳定且与目标一致的训练信号SWT 的单步反馈 SWR 的可验证奖励从而支撑策略持续优化。RL训练动态测试时扩展我们基于 SWR 进行测试时扩展随着尝试次数增加模型性能单调提升且在同等设置下 SWR 的效果显著优于现有验证器表明其能提供更精确、可扩展的选择信号。测试时扩展结果SWT与SWR模拟样例在相同上下文中将SWR/SWR的模拟输出与真实输出对比表明SWT 能近乎逐行复现执行反馈SWR 可以生成与真实输出一致的评测结果表明 SWE-World 的模拟反馈真实且可信。![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/9e1ec432cf54442c83d4b0fb076a5ae7.png#pic_cSWT/SWR与真实输出对比结语SWE-Master 打通并公开了 SWE 智能体后训练的关键流程与技巧SWE-World 则用可学习的环境反馈与测试验证摆脱 Docker 依赖、支撑规模化训练与测试时拓展。我们希望它们共同降低代码智能体的训练门槛推动更多人参与代码智能体的研究与落地。参与该成果的主要研发人员人大高瓴人工智能学院宋华彤孙爽黄礼圣蒋锦昊吕智昊赵鑫许洪腾文继荣Boss直聘南北阁研究团队乐然陈宗超贾一鸣宋洋