一、引言视觉 - 语言 - 动作Vision–Language–Action, VLA模型已成为机器人操作任务的核心技术其通过语言指令和视觉观测端到端生成动作大幅提升了机器人的任务泛化能力。目前主流的 VLA 系统均基于模仿学习训练但其性能上限受限于演示数据的质量和覆盖范围难以应对复杂、长视野的机器人操作场景。强化学习RL为突破模仿学习的瓶颈提供了可行路径能够通过试错优化提升 VLA 策略性能并减少对演示数据的依赖。但传统的在线强化学习方法需要大规模的环境并行交互对于物理机器人而言该过程成本高、速度慢且需要大量人工监督难以实际部署。而基于仿真器的强化学习又面临着仿真与真实世界动力学对齐的难题尤其是在接触密集型操作任务中。为此研究人员尝试将学习型世界模型作为强化学习的仿真器利用大规模生成视频模型的进展在纯想象空间中完成策略优化。但闭环想象滚动rollout过程中不可避免地存在幻觉hallucination和长视野误差累积问题世界模型可能生成视觉合理但物理上错误的状态转移甚至产生虚假的任务成功信号导致强化学习优化信号被污染策略倾向于利用模型误差而非实现真实的任务进展。针对这一核心问题论文提出了WoVRWorld Models as Reliable Simulators for Post-Training VLA Policies with RL—— 一个基于可靠世界模型的 VLA 策略强化学习后训练框架。该框架不再假设世界模型是完美的仿真器而是通过显式调控强化学习与不完美想象动力学的交互方式从模拟器设计、交互协议重塑、策略 - 模型对齐三个层面解决幻觉问题实现了稳定的长视野想象滚动和高效的策略优化。在 LIBERO 基准测试和真实世界机器人操作任务中WoVR 将 LIBERO 平均成功率从 39.95% 提升至 69.2%29.3 个百分点真实机器人任务成功率从 61.7% 提升至 91.7%30.0 个百分点验证了学习型世界模型在显式幻觉控制下可作为强化学习的实用仿真器。原文链接WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL代码链接https://huggingface.co/Collections/RLinf/wovr、https://github.com/RLinf/RLinf沐小含持续分享前沿算法论文欢迎关注...二、相关工作2.1 VLA 模型的在线 RL 微调策略梯度类强化学习算法如 PPO、GRPO已被广泛用于 VLA 模型的微调但直接将其迁移到真实机器人面临着硬件层面的根本限制大规模并行滚动、频繁的环境重置、紧密耦合的策略 - 环境交互均难以在物理机器人上实现。为缓解该问题部分离策略方法引入了离线数据复用或人工干预但在线更新时存在可扩展性有限、性能退化的问题而构建大规模真实机器人基础设施的方案仍无法实际支持全在线策略算法的规模化训练。这些局限性表明VLA 的在线强化学习挑战是系统性的而非单纯的算法问题这也推动了解耦策略优化与真实世界交互的世界模型方法的发展。2.2 世界模型大规模通用世界模型在长视野生成、大视角变化下的空间记忆方面取得了显著进展但这类模型存在诸多缺陷依赖复杂的 Self-Forcing/DMD 训练流水线、需要海量预训练数据、无法从头训练且主要针对鼠标 - 键盘控制的导航类任务设计。而具身操作任务具有固定视角、局部约束的动力学和细粒度的物体交互特性其建模目标、数据分布和推理需求与导航任务截然不同。为此研究人员将预训练视频模型适配为动作条件世界模型采用的方法包括投影末端执行器位置、基于 AdaLN 的逐帧动作注入、交叉注意力、基于 MoE 的条件化等。但这些方法普遍存在推理速度慢、长视野自回归生成中误差累积严重、细粒度物理交互建模不稳定等问题限制了其在强化学习中的可扩展性。2.3 作为仿真器的世界模型已有研究验证了 VLA 在真实环境和学习型世界模型中的性能相关性证明了世界模型在分布外泛化中的潜力并探索了利用世界模型生成的合成数据训练 VLA。但这些方法并未将世界模型视为真正的仿真器。World-Env 和 WMPO 是将学习型世界模型作为仿真器的重要尝试旨在避免强化学习过程中昂贵的真实环境交互。但二者均将世界模型简单替换为标准仿真器将在线策略强化学习与想象滚动机械耦合未显式解决幻觉动力学下强化学习的核心挑战闭环预测误差累积导致策略利用模型误差。因此这些方法缺乏专门的机制来调控滚动视野、抑制成功后的幻觉或使策略优化与世界模型的可靠范围对齐。三、预备知识3.1 用于 VLA 微调的强化学习强化学习将 VLA 策略优化形式化为马尔可夫决策过程MDP定义为元组视觉观测空间为时刻的视觉观测动作空间VLA 策略基于和语言指令输出分块动作状态转移动力学为动作引发的下一时刻观测奖励函数为时刻的标量奖励折扣因子用于计算折扣累积回报。强化学习的目标是最大化期望折扣回报其中表示轨迹。遵循标准的在线策略强化学习策略通过策略梯度目标优化其中为优势函数定义为动作价值函数与状态价值函数的差值表示在观测下执行动作后的期望回报表示当前策略下观测的期望回报。3.2 问题形式化为解决真实世界交互的局限性研究将原始 MDP 重构为世界模型马尔可夫决策过程WM-MDP定义为其中由参数为的学习型世界模型近似的状态转移动力学由参数为的学习型奖励函数生成的奖励信号。在MWM中轨迹通过与世界模型交互生成而非物理环境给定观测和从策略采样的动作下一观测和奖励为该形式使策略能够在纯想象空间中完成闭环滚动且策略优化目标在形式上保持不变四、WoVR 框架核心方法WoVR 是一个以可靠性为导向的世界模型强化学习框架无需真实世界的并行交互专为 VLA 策略的后训练设计。其核心思想是显式控制闭环想象中的幻觉从三个相互关联的层面实现强化学习与不完美世界模型的可靠交互框架整体概览如图 2 所示。4.1 稳定的动作条件世界模型模拟器级控制WoVR 的基础是一个动作可控、滚动稳定的视频世界模型解决了长视野滚动中全局场景结构漂移、背景坍塌的幻觉问题为强化学习提供可靠的生成式仿真器。该模型基于 Wan2.2-TI2V-5B 视频扩散骨干网络构建通过双通道动作注入和首帧锚定两大核心设计实现了帧级别的动作可控性和长视野的生成稳定性模型架构如图 3 所示。4.1.1 骨干网络与双通道动作注入与传统的图像到视频生成不同具身仿真需要显式的动作条件化确保预测的状态转移与策略动作存在因果关系。WoVR 将 Wan2.2-TI2V 重构为动作条件生成器通过双通道动作注入设计在保留原始 DiTDiffusion Transformer结构的同时实现帧级可控性特征级调制通道将动作嵌入与扩散时间步嵌入融合通过 AdaLN-Zero 风格的调制直接塑造去噪动力学实现动作对特征生成的局部调控全局上下文通道保留原始的交叉注意力算子将文本嵌入替换为动作嵌入使动作能够跨层为网络提供全局上下文信息。两个通道互补既保证了动作对生成过程的细粒度控制又实现了动作与视觉特征的全局融合确保动作条件下的视频生成符合物理逻辑。4.1.2 首帧锚定的滚动稳定性设计即使具备强动作条件化分块的自回归生成仍会累积误差导致空间漂移和背景坍塌。为此WoVR 采用首帧锚定的推理上下文在每个自回归步骤中模型的条件输入为即将任务的初始参考帧与前一个分块的最新记忆帧拼接。该设计利用了自注意力机制的特性去噪过程中大量自注意力头会自然关注首帧如图 4 所示从而将全局外观和场景布局约束在初始状态有效抑制了长视野生成中的误差累积和结构漂移。4.1.3 训练与推理流程训练目标采用整流流Rectified Flow目标训练世界模型避免了传统扩散模型的采样步骤繁琐问题提升推理效率。令为目标未来潜变量为同形状的噪声采样时间得到中间潜变量训练模型预测速度损失函数为其中条件包含首帧锚定的上下文和动作。训练增强为减少闭环滚动中的训练 - 推理间隙在训练时向非参考上下文潜变量zt−c:t中注入扩散噪声避免模型过度依赖精确的上下文输入进行视觉复制提升其在长视野中处理自生成帧的鲁棒性。推理流程从首帧锚定上下文出发先通过 Wan 编码器编码为潜变量再为下一个分块采样高斯噪声潜变量将拼接后的潜变量输入动作条件 DiT 块预测未来潜变量最后解码为帧并追加到上下文中通过迭代该分块生成过程实现长视野的想象滚动。4.1.4 学习型奖励分类器真实世界机器人操作中设计稠密奖励往往不切实际训练通常依赖稀疏的成功标注。为此WoVR 引入一个轻量级的学习型奖励分类器基于世界模型预测的下一观测生成二值成功信号其中为指示函数为参数为的奖励模型输出任务成功的概率。奖励分类器通过带标签的成功状态采用二元交叉熵BCE损失训练。4.2 想象空间中的幻觉感知策略优化交互级重塑即使世界模型具备稳定性长视野滚动中仍会存在误差累积产生视觉合理但物理错误的转移和虚假成功信号。若直接将这类幻觉轨迹用于策略优化会导致策略向幻觉结果收敛而非真实任务进展。为此WoVR 从交互协议层面进行重塑通过关键帧初始化滚动Keyframe-Initialized Rollouts, KIR和掩码 GRPO减少想象交互的有效误差深度避免对幻觉成功的优化其效果如图 5 所示。4.2.1 关键帧初始化滚动KIR传统的滚动从任务初始状态开始长视野下模型需要预测到达任务关键状态前的长序列早期的误差累积会导致后续的幻觉成功。KIR 的核心思想是将部分滚动从任务关键中间状态尤其是当前策略的失败状态的关键帧ok初始化而非始终从初始状态开始。机器人操作中的许多决定性接触和修正操作都发生在关键状态附近从关键帧初始化滚动能够跳过误差易累积的长前缀将模型的预测集中在任务关键段从而大幅减少有效误差深度使模型能够生成物理上一致的预测如正确建模失败为策略学习提供可靠的优化信号。4.2.2 掩码 GRPO 策略优化WoVR 采用组相对策略优化GRPO算法结合 KIR 对策略进行更新并引入掩码和轨迹长度归一化机制抑制幻觉对优化的影响掩码后成功步骤幻觉往往在想象空间中达到任务成功后占据主导因此 WoVR 掩码掉轨迹中首次成功后的所有步骤仅使用成功前的有效步骤进行策略优化轨迹长度归一化KIR 初始化的滚动通常以更少的有效步骤达到任务结果归一化后能提升其每一时间步的梯度贡献使策略优化的梯度由短的、任务关键的段主导而非长的、易漂移的后续段。形式化上给定世界模型中采样的一组想象轨迹其中首先计算轨迹回报和组相对优势令为首次成功前的有效时间步数为策略比则掩码的、轨迹长度归一化的 GRPO 目标为4.3 PACE策略对齐的协同进化对齐级调控策略在世界模型中持续优化的过程中其动作分布会不断演化逐渐偏离训练初始世界模型所用的数据分布导致策略与世界模型之间的分布偏移进而累积模型误差降低想象滚动的可靠性。为此WoVR 提出PACEPolicy-Aligned Co-Evolution—— 策略 - 世界模型协同进化策略不再将世界模型视为固定的仿真器而是让世界模型与 VLA 策略在训练过程中共同进化通过低频的、策略驱动的模型精修恢复二者的对齐关系且无需持续的在线监督。4.3.1 协同进化流程初始世界模型训练利用基础 VLA 策略收集的轨迹训练初始世界模型WMBase策略初步优化在WMBase中对 VLA 策略进行第一阶段的强化学习优化世界模型精修利用进化后策略收集的少量额外滚动轨迹对WMBase进行精修得到进化后的世界模型WMEvo持续优化在WMEvo中继续优化策略整个过程仅进行 ** 一次或极低频率** 的模型精修。4.3.2 核心优势与传统的模型基强化学习高频率持续更新动力学模型相比PACE 的低频精修具有两大关键优势降低操作成本无需在策略训练过程中进行持续的人工监督或环境重置大幅减少了真实世界的交互开销保持训练稳定性通过将世界模型与进化后的策略分布对齐缓解了模型误差的累积在不牺牲训练稳定性的前提下维持了仿真器的可靠性。4.4 系统实现WoVR 基于RLinf框架构建支持高效的分布式想象滚动和训练将 RLinf 的环境后端替换为学习型世界模型实现了无需真实仿真器的规模化闭环滚动。为解决嵌入式场景中仿真器与生成器迭代交互导致的 GPU 数据迁移开销问题WoVR 采用改进的并置 GPU 分配策略仅在滚动阶段的开始和结束时进行生成器和仿真器的 GPU-CPU 卸载 / 加载避免了闭环想象交互过程中的重复数据传输提升了系统效率。五、实验验证论文通过大量实验从世界模型的性能、VLA 策略的任务性能、真实世界的迁移能力三个维度验证 WoVR 的有效性并通过消融实验分析各核心组件的贡献。实验主要回答三个关键问题Q1提出的世界模型是否足够稳定、可控、高效能够作为闭环强化学习的仿真器Q2与现有基于世界模型的强化学习方法相比较WoVR 能否有效提升 VLA 任务性能Q3WoVR 优化的策略能否可靠地迁移到真实世界的机器人操作任务中5.1 实验设置5.1.1 评价指标世界模型评价采用感知和时间域的标准指标衡量生成视频的视觉保真度、动力学一致性和推理效率LPIPS基于深度特征的帧级感知相似度值越小越好FID生成帧与真实帧的分布相似度值越小越好FVD视频级的真实度和运动一致性值越小越好FloLPIPS基于光流轨迹的运动对齐感知相似度值越小越好Rollout FPS推理吞吐量帧 / 秒值越大越好。策略性能评价采用 ** 任务成功率SR** 作为核心指标反映真实世界机器人操作中常见的稀疏奖励设置所有成功率均在固定初始条件下通过多次独立滚动计算。5.1.2 对比基线世界模型基线EVAC基于绝对末端执行器动作的条件生成、Cosmos-Predict2、OpenSoraWMPO 采用的骨干网络策略优化基线OpenVLA-OFT-base纯模仿学习训练的基础 VLA 策略GRPO (Online)基于真实环境交互的 GRPO 算法使用相同的滚动预算WMPO基于 OpenSora 世界模型的强化学习方法。所有实验均在 8 张 NVIDIA H100 GPU 上进行确保对比的公平性。5.2 Q1世界模型的稳定性、可控性与效率验证实验在LIBERO 环境中进行收集 3000 条长度为 512 帧的 VLA 滚动轨迹训练世界模型200 条独立轨迹用于测试所有基线模型均遵循相同的分块自回归生成协议4 帧视觉上下文 8 步动作分块预测 8 帧未来。定量结果如表 1 所示WoVR 在所有评价指标上均显著优于 EVAC、Cosmos-Predict2 和 OpenSora核心结论如下视觉保真度与动力学一致性WoVR 在所有滚动视野下均实现了最低的 LPIPS、FID、FVD 和 FloLPIPS 值且随着滚动视野的增加优势更加明显证明其在长视野自回归生成中具有更强的抗误差累积能力推理效率尽管 WoVR 采用了更大的 Wan 骨干网络~5B但其推理吞吐量达到 23 FPS远高于其他基线EVAC 2.7 FPS、Cosmos-Predict2 3.5 FPS、OpenSora 7.0 FPS。原因在于 WoVR 仅需 5 个扩散步骤并采用 3D VAE 进行时空潜变量编码而 OpenSora 等方法需要更多的采样步骤和 2D VAE 编码。上述结果验证了 WoVR 的世界模型具备稳定、可控、高效的特性能够作为闭环强化学习的可靠仿真器。5.3 Q2VLA 策略的任务性能提升验证实验在 LIBERO 的 4 个任务套件Spatial、Object、Goal、Long上进行每个套件包含 10 个任务核心设置如下基础策略以 OpenVLA-OFT 为初始化通过单轨迹监督微调得到数据预算为每个套件分配 2500 条真实环境轨迹其中 1500 条用于训练初始世界模型WMBase1000 条用于精修得到WMEvo公平性所有方法使用相同的 2500 条轨迹预算GRPO 直接用于真实环境的在线策略优化而 WMPO 和 WoVR 仅用于世界模型的训练和精修策略优化完全在想象空间中完成。定量结果如表 2 所示核心结论如下模仿学习的局限性基础策略 OpenVLA-OFT-base 的平均成功率仅为 39.9%反映了稀疏奖励和有限演示下模仿学习的性能瓶颈在线 RL 的低效性GRPO (Online) 虽比基础策略有所提升平均 44.6%但提升幅度有限且其每一次策略更新都需要近千条额外的仿真轨迹在数据稀缺的机器人场景中样本效率极低传统世界模型方法的缺陷WMPO 在短 / 中视野套件Spatial、Object、Goal上实现了一定提升但在长视野的 LIBERO-Long 套件上无任何提升原因在于其自回归生成的滚动不稳定性导致策略优化失效WoVR 的显著优势WoVR 在所有套件上均实现了最高的成功率平均达到 69.2%相比基础策略提升 29.3 个百分点显著优于 GRPO24.6 个百分点和 WMPO23.0 个百分点。尤其在长视野的 LIBERO-Long 套件上WoVR 提升 22.1 个百分点证明其抑制误差累积的设计能够有效支持长视野任务的策略优化。5.4 Q3真实世界机器人操作的迁移能力验证实验在Franka Emika Panda 机械臂上进行选择两个接触密集型操作任务Pick Banana将香蕉拾取并放置到盘子上、Pick Bread将面包拾取并放置到指定标记处实验设置如图 6 所示。实验设置收集 10 条遥操作演示轨迹预训练基础 VLA 策略收集 150 条基础策略的滚动轨迹训练世界模型在世界模型中用 WoVR 优化策略后在物理机器人上部署每个任务进行 30 次独立试验统计成功率。定量结果如表 3 所示核心结论如下WoVR 在两个真实世界任务中均实现了显著的成功率提升平均成功率从基础策略的 61.7% 提升至 91.7%提升 30.0 个百分点对于难度更高的 Pick Banana 任务WoVR 将成功率从 46.7% 提升至 93.3%提升 46.6 个百分点验证了其在复杂接触操作中的有效性所有提升均未在策略优化过程中进行额外的真实世界交互证明 WoVR 优化的策略具有强的仿真到真实sim-to-real迁移能力。六、消融实验为分析 WoVR 各核心组件的贡献论文分别对世界模型的设计机制和策略优化的关键组件进行了消融实验实验均在 LIBERO-Spatial 套件上进行。6.1 世界模型机制的消融实验研究针对世界模型的三大核心设计固定参考帧、多帧记忆窗口、上下文噪声注入设计了三个消融变体WoVR w/o ref移除上下文窗口中的固定参考帧WoVR w. mem1仅使用单帧上下文替换多帧记忆窗口WoVR w/o noisy context训练时禁用上下文帧的噪声注入。定量结果如表 4 所示定性结果如图 7 所示核心结论如下固定参考帧是核心移除参考帧后所有指标均显著退化且随着滚动视野增加退化更明显证明首帧锚定能有效抑制自回归反馈中的误差累积维持长视野生成的稳定性多帧记忆窗口提升一致性单帧上下文相比多帧记忆窗口FID、FVD 等指标均有上升证明多帧记忆能为模型提供更丰富的时序信息提升运动一致性上下文噪声注入缓解训练 - 推理间隙禁用噪声注入后短视野下性能退化温和但长视野下差距显著证明噪声注入能减少模型对精确上下文的过度依赖提升其处理自生成帧的鲁棒性定性表现消融变体在长视野滚动中均出现明显的空间漂移和物体消失而完整的 WoVR 模型能够保持与真实情况一致的视觉稳定性。上述结果验证了世界模型三大设计机制的协同作用是实现稳定、可控生成的关键。6.2 策略优化机制的消融实验研究针对策略优化的两大核心组件KIR关键帧初始化滚动和PACE策略对齐协同进化设计了两个消融变体WoVR w/o KIR移除关键帧初始化仅从随机初始状态开始滚动WoVR w/o PACE禁用世界模型与策略的协同进化保持世界模型固定。定量结果如表 5 所示核心结论如下KIR 提升策略学习稳定性移除 KIR 后成功率从 0.815 降至 0.782证明 KIR 通过减少有效误差深度为策略早期学习提供了有意义的初始状态提升了优化的稳定性PACE 是维持模型可靠性的关键禁用 PACE 后成功率大幅降至 0.710证明策略进化导致的分布偏移会严重降低世界模型的可靠性而低频的模型精修能够有效恢复策略 - 模型对齐避免误差累积对优化的影响完整的 WoVR 框架通过 KIR 和 PACE 的协同作用实现了最优的策略性能验证了交互级重塑和对齐级调控的必要性。七、结论与展望7.1 核心结论论文从可靠性视角重新审视了基于世界模型的 VLA 策略强化学习指出闭环想象交互中的幻觉是核心障碍自回归误差累积和策略诱导的分布偏移会系统性地污染优化信号导致强化学习利用模型误差而非实现真实任务进展。为解决该问题WoVR 提出了三层幻觉控制框架从模拟器设计、交互协议、策略 - 模型对齐三个层面显式调控强化学习与不完美世界模型的交互模拟器级构建基于双通道动作注入和首帧锚定的稳定动作条件世界模型提升长视野生成的稳定性和可控性交互级通过 KIR 减少想象交互的有效误差深度结合掩码 GRPO 避免对幻觉成功的优化对齐级通过 PACE 实现策略 - 世界模型的低频协同进化缓解分布偏移导致的模型误差累积。大量实验验证了 WoVR 的有效性其世界模型在稳定性、可控性和效率上均显著优于现有方法优化后的 VLA 策略在 LIBERO 基准上实现了 29.3 个百分点的平均成功率提升在真实世界机器人操作中实现了 30.0 个百分点的提升且具备强的 sim-to-real 迁移能力。论文的核心贡献在于证明当幻觉被显式控制时学习型世界模型可以作为强化学习的实用仿真器。7.2 未来展望尽管 WoVR 实现了显著的性能提升但仍存在一些局限性为未来研究指明了方向幻觉的完全消除WoVR 仅减少了幻觉并未完全消除在极长视野和超高接触敏感性的任务中仍会存在模型误差奖励建模的局限性WoVR 依赖学习型奖励分类器稀疏的二值奖励可能限制策略的细粒度优化未来可探索更鲁棒的稠密奖励建模方法真实数据的依赖WoVR 仍需要少量真实世界轨迹进行世界模型的训练和精修未来可研究无监督 / 自监督的世界模型训练方法进一步减少对真实数据的依赖更泛化的可靠性保障目前 WoVR 的幻觉控制机制是针对机器人操作任务设计的未来可探索适用于更广泛具身智能任务的通用幻觉控制框架实现世界模型强化学习的可靠性保障。八、论文核心贡献问题识别明确指出闭环想象交互中的幻觉是基于世界模型的 VLA 强化学习的核心可靠性挑战揭示了自回归误差累积和策略诱导分布偏移对优化信号的污染机制框架设计提出 WoVR—— 首个以可靠性为导向的幻觉感知强化学习框架从模拟器、交互、对齐三个相互关联的层面实现幻觉的显式控制支持纯想象空间中的稳定在线策略优化模型创新设计了稳定的动作条件世界模型通过双通道动作注入和首帧锚定实现了帧级可控性和长视野生成稳定性且推理效率显著提升方法创新提出 KIR 和 PACE 两大核心方法分别从交互协议和策略 - 模型对齐层面解决误差累积和分布偏移问题为不完美世界模型中的强化学习提供了新的思路实验验证在 LIBERO 基准和真实世界机器人操作中实现了显著的性能提升验证了学习型世界模型在显式幻觉控制下作为实用仿真器的可行性为 VLA 策略的强化学习后训练提供了新的范式。