【论文阅读】Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable VLN-尧图手机网站定制

GROUND SLOW, MOVE FAST: A DUAL-SYSTEM FOUNDATION MODEL FOR GENERALIZABLE VISION AND-LANGUAGE NAVIGATION摘要现有VLN框架的痛点剖析端到端范式的局限传统方法试图使用单一网络将复杂的视觉和语言输入直接转化为机器人的电机控制指令离散动作。这种强耦合设计导致大型VLM沉重的计算负荷直接拖慢了控制频率。物理表现劣势由于输出的是短期离散动作如“向前走一步”、“转30度”机器人的运动轨迹表现出强烈的碎片化和不连贯特征。动态环境适应性差在面对现实世界中突然出现的行人或移动障碍物时由于端到端模型的高延迟系统无法做出实时的局部避障决策。核心创新Dual-System理论渊源本文架构深刻借鉴了认知心理学中关于人类思维的双系统理论系统1负责快速、直觉的反射系统2负责缓慢、深度的逻辑推理。分层解耦DualVLN打破了传统的端到端黑盒将导航任务解耦为“高层认知理解”与“低层物理执行”实现了宏观规划与微观控制的分离。宏观规划大脑System 2运行机制慢速锚定Grounds slowly。它不需要高频运行而是以相对较低的频率处理视觉与语言信息。输出目标它不直接控制电机而是进行深度推理在图像空间中预测出下一步需要到达的中期路点mid-term waypoint goals为底层执行提供明确的引导。微观执行小脑System 1技术架构采用Diffusion Transformer作为策略网络且设计为轻量级确保了极低的计算延迟。运行机制快速移动Moves fast。它高频运行接收系统2下发的指令显式像素目标和潜在特征结合当前本体感受实时生成连续且平滑的运动轨迹从而实现精准的局部避障与平滑运动。解耦训练范式的优势保护泛化能力在传统端到端微调中大型VLM往往会丢失其预训练获得的广泛知识。解耦训练使得VLM系统2可以专注于推理任务最大限度保留其零样本和泛化能力。提升可解释性由于系统2输出显式的中间目标像素路点而系统1负责执行该目标这种模块化设计使得研究人员可以清晰地定位导航失败的原因是规划错了还是执行错了大幅提升了系统的可解释性。实验与实际部署成果全面超越在所有标准的VLN评测基准上达到State-of-the-ArtSOTA水平。真实世界鲁棒性突破了纯仿真研究的局限真实世界的机器人部署证明了该架构不仅能完成复杂的长程规划还能在充满动态干扰的真实环境中展现出极强的实时自适应能力。1. INTRODUCTION现有端到端VLN架构的本质缺陷计算与控制的失配现有方法让庞大的VLM直接输出高频的底层控制指令。大模型的推理耗时极高导致机器人动作产生严重延迟。执行轨迹碎片化直接输出短视距的离散动作如每次移动0.25米使得物理运动不够平滑缺乏连贯性。层级耦合导致决策僵化认知推理、全局路线规划和局部避障被混杂在单一网络中。这导致系统在面临突发动态障碍物时无法做出敏捷的局部修正。DualVLN双系统架构系统2慢系统采用大型基础VLM。它不负责具体运动只负责“看和想”。其输出是显式的中间像素目标为整个导航提供阶段性的宏观指引。系统1快系统采用轻量级扩散策略模型。它高频运行接收系统2的指引并将其转化为连续平滑的物理移动轨迹专门负责动态避障与精准执行。解耦顺序训练保护VLM知识不被遗忘若进行端到端微调底层物理控制数据会破坏VLM原有的语言与视觉泛化能力。解耦训练通过冻结系统2的权重完美规避了灾难性遗忘。数据需求差异化系统2可以利用海量的跨领域推理数据进行训练而系统1只需专注于小规模、高精度的局部运动数据。异步运行优势解耦使得系统1可以独立接收高频相机图像并快速推理极大提升了控制频率。显隐式双目标引导机制显式像素目标Explicit Pixel Goal系统2直接在图像上标出目标点。这保证了规划过程的可解释性一旦导航失败研究者可以直观判断是规划错误还是执行错误。隐式潜在目标Implicit Latent Goal仅靠一个二维像素点传递的信息太少。本文通过可学习的潜在查询Learnable latent queries从VLM深层网络中提取出丰富的隐语义特征。这种机制使系统1不仅知道去哪还能感知周围环境的语义细节避免双系统退化为简单的串联模块。实验验证与基准创新双域验证在连续仿真环境VLN-CE和物理写实环境VLN-PE中均达SOTA。并且在跨平台实机部署中证实了有效性。提出Social-VLN针对现有基准缺乏动态行人干扰的问题作者首创了Social-VLN基准。它专门测试机器人在遭遇移动人类时的“社会意识避让行人”以及被干扰后的“任务恢复能力”。2. RELATED WORK2.1 Vision-Language-Action Model for NavigationText-based Actions许多方法将物理导航动作直接转化为文本序列利用大模型进行下一个词预测。局限这种高维度的语义预测难以直接转化为平滑的底层连续物理运动。Pixel Grounding部分研究将导航简化为在图像上预测目标像素点。局限它们缺乏执行能力必须外挂传统导航模块才能完成实际移动。End-to-End Trajectories尝试将VLM的潜在特征直接映射为连续的运动轨迹。局限它们采用的是同步框架大模型的高延迟严重限制了系统的高频决策能力无法应对动态环境。Existing Dual-systems近期虽有提出“快-慢”推理结合的双系统架构。局限这些研究大多局限于桌面级的机械臂操作任务无法处理长视距规划或大尺度的跨空间导航。DualVLN的突破定位针对上述所有痛点本文提出了首个异步双系统架构。它专门针对长视距指令跟随、精确路径规划以及未见环境中的导航任务而设计。2.2 Visual Navigation Policy Learning传统模块化方法高度依赖显式的环境建图和自我定位。局限容易产生累计误差、系统延迟高且需要进行繁复的超参数调优。端到端学习策略为克服传统方法的缺陷基于深度学习的导航策略成为主流。当前研究主要分为两个核心分支泛化分支致力于提升模型在不同机器人形态间的零样本泛化能力。迁移分支专注于提升训练效率以及仿真到真实世界的迁移成功率。图像目标导航一种新兴范式要求机器人直接根据给定的目标图像生成控制策略。DualVLN系统1的定位本文的System-1汲取了上述学习策略的优势。它是一个纯RGB视觉输入的导航策略网络。其核心创新在于它是以VLM输出的潜在隐式目标Latent goals作为条件触发并引导的。3. METHODOverview系统2是一个基于VLM的规划器它通过在图像像素空间中预测中期路点来进行全局规划从而提供空间锚定的目标。系统1是一个多模态目标条件化的扩散策略。它以当前观测和来自系统2的异步潜在特征为条件生成连续轨迹从而在复杂环境中实现鲁棒的实时控制。3.1 SYSTEM 2: VLM-BASED PIXEL-GOAL GROUNDING WITH SELF-DIRECTED VIEW ADJUSTMENT系统2的核心模块高层像素目标锚定与自主视角调整结合系统2在一个迭代过程中将高层像素目标锚定与自主视角调整结合起来在每个导航步智能体观察当前的RGB图像帧和历史信息决定是调整视角还是输出像素目标。3.1.1 Farthest Pixel Goal Grounding基座模型Qwen-VL-2.5为了使Qwen-VL-2.5适应VLN任务我们将高层规划建模为一个最远像素目标锚定问题。将抽象的导航规划具体化为在画面中寻找能到达的最远有效点。流程输入多帧视觉文本输出2D像素坐标训练样本将智能体的3D轨迹投影到2D的第一人称观测图像上并从智能体的位置测量可见性。在投影轨迹之前利用深度图和相机到像素点的距离来识别哪些点落在当前视图的可见区域内。任何距离超过对应深度值的轨迹点都会被视为被遮挡并予以丢弃。基于这种投影机制作者将原始的VLN-CE轨迹分割成像素目标锚定的训练样本。3.1.2 Self-Directed View Adjustment将3D轨迹投影到2D像素坐标上可能会引发问题。高度视角差会导致空间位置的误判深度歧义。FOV视场角限制导致目标丢失。系统2自主决定何时扫描环境并调整相机角度。它使用如左/右转15°、上/下看15°等离散动作在预测下一个像素目标之前主动寻找信息丰富的视角。3.2 SYSTEM 1: A DIFFUSION TRANSFORMER POLICY WITH MULTIMODAL CONDITIONING3.2.1 Latent Goal Representation系统2在完成显式目标像素点预测的同时其内部的隐藏层状态已经编码了丰富的多模态上下文信息记为序列XXX附加一组可学习的潜在查询ZZZ它们被随机初始化并通过prompt tuning进行更新。将拼接后的序列[X;Z][X; Z][X;Z]输入VLM进行处理使得ZZZ能够关注并从XXX中提取与任务相关的语义信息。生成的结果Z′ZZ′构成了中间潜在目标表征它作为系统1进行精确的底层轨迹生成的条件。3.2.2 Multi-Modal Conditioning Diffusion Transformer系统1:DiT它生成平滑的轨迹32个密集的路径点输入来自系统2的低频轨迹潜在特征Z′ZZ′高频的RGB输入。由于双系统推理是异步执行的慢速的系统2快速的系统1在时间ttt生成的潜在目标保持固定。在时间tktktk系统1仍必须解释这个过时的潜在目标以准确更新轨迹它需要估计已经行驶的距离并适应动态变化。所以系统1同时编码了系统2在时间ttt的最后一帧RGB特征以及时间tktktk的当前观测特征。流程两幅图像首先由ViT编码器进行处理以提取高维视觉特征。使用自注意力模块将这两个时间步的特征进行融合。为了保持快速推理融合后的特征被Q-Former进一步压缩为32个tokenK 和 V 来自ViTQ就是要压缩的32个token一开始随机初始化。3.2.3 Flow Matching给定真实轨迹路点X0X_0X0和两个条件信号轨迹潜在特征Z′ZZ′和融合RGB tokenFFF在每个训练步首先采样一个扩散时间步u∼U(0,1)u \sim \mathcal{U}(0, 1)u∼U(0,1)和一个噪声向量ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, I)ϵ∼N(0,I)。加噪轨迹定义为XuαuX0σuϵX_u \alpha_u X_0 \sigma_u \epsilonXuαuX0σuϵ, (1) 其中αu\alpha_uαu是关于uuu的递减函数σu\sigma_uσu是关于uuu的递增函数。DiT被训练用于预测时间步uuu时轨迹的速度X˙u\dot{X}_uX˙u该预测以Z′ZZ′和FFF为条件X˙^ufθ(Xu,u,Z′⊕F) \hat{\dot{X}}_u f_\theta(X_u, u, Z \oplus F)X˙^ufθ(Xu,u,Z′⊕F)其中⊕\oplus⊕表示拼接fθf_\thetafθ是Transformer网络。与标准DDPM预测噪声不同流匹配的DiT预测的是从纯噪声指向真实数据的速度向量即向量场训练目标是最小化预测速度与真实速度之间的均方误差LflowEu,X0,ϵ[∥X˙^u−X˙u∥22] \mathcal{L}_{\text{flow}} \mathbb{E}_{u, X_0, \epsilon} \left[ \| \hat{\dot{X}}_u - \dot{X}_u \|_2^2 \right]LflowEu,X0,ϵ[∥X˙^u−X˙u∥22]3.3 IMPLEMENTATION DETAILS系统2的训练配置基座与数据采用70亿参数的QwenVL-2.57B作为基座模型并沿用StreamVLN的数据配方。微调策略进行了1个Epoch的全参数微调Fully unfrozen即视觉编码器和LLM主干网络在训练期间均参与梯度更新。系统1的网络结构特征提取与映射设定了4个可学习的潜在查询Latent queries来提取系统2的隐式目标特征。在输入扩散模型前这些特征的维度被从3584线性投影压缩至768。视觉编码器采用DepthAnythingV2-Small的ViT骨干网络来处理实时的RGB图像输入。DiT轻量化设计为了保障极低的推理延迟扩散TransformerDiT被设计得非常紧凑仅包含12个Transformer层、384的隐藏层维度以及6个注意力头。4. SOCIAL VISION-AND-LANGUAGE NAVIGATION BENCHMARK研究动机打破静态环境的局限现有缺陷传统的VLN-CE基准测试专注于静态的室内布局缺乏对动态障碍物如走动的人的模拟。核心需求在真实环境中机器人不仅需要能到达终点还必须具备社会意识Social awareness——即在遇到行人时能主动避让并在绕路后具备轨迹恢复能力Trajectory recovery继续完成原定的导航任务。Benchmark Curation技术底座该基准建立在经典的 R2R-CE 静态数据集之上并利用 Habitat 3.0 仿真器引入了逼真的动态人形智能体。策略性放置作者没有让行人在场景中漫无目的地随机游走。因为VLN的任务路径通常较短随机游走很难与机器人产生交集。因此作者将行人放置在导航的标准轨迹上。这种设计极大地增加了机器人与行人相遇并产生交互的概率从而构成了高难度的真实测试场景。可行性校验为了保证测试的合理性作者对每一个测试回合进行了严格校验确保行人不会把通道完全堵死从而排除了纯物理层面无法通行的死局。Metrics在保留传统VLN成功率等标准指标的基础上作者引入了人类碰撞率Human Collision Rate, HCR。指标意义HCR 专门用于量化机器人与动态行人发生不安全交互的失败次数。这使得 Social-VLN 能够双管齐下既评估任务完成度又严谨评估机器人在动态环境中的安全意识。Training Data Collection为了让系统1学会躲避行人作者还开发了一套自动化的数据生成流水线用于大规模采集动态避障的专家轨迹视觉触发机制在每次采集任务中系统会持续监控机器人的第一人称视角。当画面中行人掩码的像素占比超过预设的阈值时即判断行人距离过近且可能发生冲突触发避障逻辑。算法重规划一旦触发阈值系统会调用修改版的A* 算法A-star algorithm在底层物理空间中重新规划出一条无碰撞的安全绕行轨迹。数据规模依靠这套流水线作者在 60 个 MP3D 室内场景中自动生成了高达76.3万763K个包含社会导航交互的回合数据。这为训练具备高度社会适应性的导航智能体提供了庞大的基础资源。5. EXPERIMENTS5.1 SIMULATION EXPERIMENTS5.2 REAL-WORLD CROSS-EMBODIMENT EXPERIMENTS5.3 ABLATION STUDY

【论文阅读】Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable VLN

相关新闻

媒体观察｜招商的人居变革，凤城五路的价值预期拉满

突破界限！多模态AI如何重塑人机交互的未来？

ChatGPT站点开发实战：从零搭建到生产环境部署的完整指南

最新新闻

实战指南：用FoundationPose实现6D物体姿态估计与跟踪的最佳实践

锂电硬件级过压保护方案设计与STM32实现

Gemma-4 E4B技术深度解析：如何用4.5B有效参数实现多模态智能

Vue3企业级数据可视化大屏架构设计：应对多分辨率适配与实时渲染挑战

Gin-Vue-Admin代码生成器字段编辑：5个深度优化技巧与架构解析

3分钟掌握 facetype.js：终极字体转换工具完全指南

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻