出发点具身智能的“思维悖论”近年来Vision-Language-Action (VLA) 模型在机器人操控领域展现了巨大潜力。为了让模型处理更复杂的长程任务Long-horizon tasks研究者们引入了思维链Chain-of-Thought, CoT。通过显式的文本推理或视觉预测机器人确实变“聪明”了。但随之而来的是一个残酷的现实计算开销巨大 显式生成长文本推理链会导致 KV Cache 激增推理延迟极高。表示鸿沟Modality Mismatch 离散的文本符号或像素级预测与机器人连续的动作控制Continuous Control之间存在天然的表示不匹配。当一个机器人在抓取物体前需要先写一段“小作文”时它就已经失去了实时交互的可能。 我们能否让机器人像人类产生“肌肉记忆”一样在潜空间内完成快速思考来自西交中科院北大和北京智源的团队给出了新的答案 LaRA-VLA原文链接英伟达最新FastDriveCoTCoT思维链推理加速3-4倍…论文链接http://arxiv.org/abs/2602.01166项目链接: https://loveju1y.github.io/Latent-Reasoning-VLA/背景介绍从显式推理到隐式进化目前的 CoT VLA 主要分为两条路径文本 CoT 通过自然语言显式表达中间推理过程涵盖任务拆解与高层规划也可能把视觉信息转述为文字。 但推理依赖长序列文本生成推理阶段计算开销较大。视觉 CoT通过显式的视觉预测来表达推理例如生成未来观测或中间视觉状态。通常依赖 VQ 等机制将连续视觉表征离散化为视觉 token因而不可避免地引入表示鸿沟。这种“显式推理”的本质是牺牲速度换精度。但在具身智能场景中毫秒级的延迟往往决定了任务的成败。我们需要一种“内化Internalized”的推理机制既保留 CoT 的逻辑指导能力又具备端到端模型的响应速度。方法引入LaRA-VLA 的潜空间炼金术为了破解上述难题这篇工作提出了 LaRA-VLA (Latent Reasoning VLA)。它的核心思想是不再显式输出推理 Token而是在连续的潜空间Latent Space中进行多模态推理与预测。核心架构LaRA-VLA 将多模态 CoT 推理过程内化为潜空间中的特征演化。通过以少量文本 CoT latent 替代冗长的 CoT token并利用连续的视觉目标特征进行隐式监督以约束其语义模型得以在内部完成“意图理解”与“路径规划”从而直接驱动动作生成。三阶段课程学习 (Curriculum-based Training)如何让模型学会这种“看不见”的推理这篇工作引入了一套循序渐进的训练方案显式监督阶段通过显式的文本 CoT 监督引导模型理解任务逻辑与高层意图同时视觉信息始终以连续 latent 的形式参与建模作为稳定的语义锚点并提供前瞻性的结构约束。潜空间转换阶段逐步引入潜空间推理特征以少量文本 CoT latent 替代冗长的文本 CoT 序列并在视觉 latent 的隐式约束下将文本推理内化为潜空间表示。动作自适应阶段将潜空间中的推理动力学与动作生成深度耦合使模型直接在 latent 空间中完成意图理解与路径规划从而实现高效的行动导向控制。实验结果速度与性能的双重飞跃1. 仿真的性能sota在 LIBERO 和 SimplerEnv 两个主流基准上LaRA-VLA 分别取得 97.9% 和 68.8% 的成功率显著优于现有方法展现了其优越性能。2. 真机长程任务的鲁棒性在复杂、长时序的真实机器人操控任务中LaRA-VLA 的成功率同样显著领先于现有 SOTA 方法。3. 消融实验证明有效性通过对比实验发现课程学习范式是模型成功的关键——它有效地将文本的逻辑结构迁移到了高效的潜空间特征中。4. latent坍缩进一步分析发现模型学到的潜空间表示并未发生坍缩而是呈现出清晰且可分的语义结构验证了LaRA-VLA架构下潜空间推理的稳定性与表达能力。5. 推理延迟大幅降低实验结果显示相比传统的显式 CoT 方法LaRA-VLA 的推理延迟 降低超过 90%。这使得模型能够以更高频率进行闭环控制从容应对动态、快速变化的真实环境。结语让机器人“下意识”地行动LaRA-VLA 的意义在于它证明了深度推理并不一定要以牺牲实时性为代价。 通过将思维过程从“外部显式表达”转为“内部潜空间演化”我们离真正敏捷、聪明的通用机器人又近了一步。具身求职内推来啦近50家主流具身公司校招社招实习均可国内最大的具身智能全栈学习社区来啦具身智能之心知识星球国内最大的具身智能全栈技术社区来啦推荐阅读从零部署π0,π0.5好用高性价比面向具身科研领域打造的轻量级机械臂工业级真机教程VLA算法实战pi0/pi0.5/GR00T/世界模型等具身智能算法与落地平台来啦国内首个面向科研及工业的全栈具身智能机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~MuJoCo具身智能实战从零基础到强化学习与Sim2Real从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门视觉语言导航的主流方法有哪些是怎么用的1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等