这里写自定义目录标题1. VLN Paradigm2. VLN Paradigm Alg3. 模仿学习3.1 Teacher-forcing 与 Student-forcing 的异同点与搭配使用3.1.1 核心定义一句话区分3.1.2 Teacher-forcing教师强制 · 离线演示3.1.3 使用方式训练流程3.1.4 本质3.1.5 优点3.1.6 致命缺陷暴露偏差Exposure Bias3.2 Student-forcing学生强制 · 交互式演示3.2.1 使用方式训练流程3.2.2 本质3.2.3 优点3.2.4 缺陷3.3 能否搭配使用3.3.1 搭配的核心逻辑互补3.4 主流搭配使用方案工程学术标准方案1分阶段训练最常用、最简单阶段1纯 Teacher-forcing预热/预训练阶段2纯 Student-forcing精调/闭环优化方案2动态混合式强制每步随机选择方案3DAggerDataset Aggregation—— 模仿学习经典标杆本质方案4部分序列混合长视距任务3.5 搭配后为什么更“合理”3.6 总结极简版1. VLN Paradigm极简一句话总结Auxiliary Loss 训练时的 “额外小老师”用额外监督信号帮模型学得更好、更稳推理时直接下课不影响最终模型。2. VLN Paradigm Alg英文中文Behavior cloning (imitation learning)行为克隆模仿学习- Teacher-forcing: Offline demonstrator教师强制离线演示者- Student-forcing: Interactive demonstrator学生强制交互式演示者Reinforcement Learning强化学习Teacher-forcing: Offline demonstratorStudent-forcing: Interactive demonstratorcompareVLN Paradigm – Behavior Cloning在模仿学习尤其是行为克隆 BC中Teacher-forcing、Student-forcing 是两种轨迹状态输入来源的核心训练策略二者完全可以搭配使用也是解决单一策略缺陷、构建更稳定、泛化更强训练流程的主流方案。下面分三部分详细说明1两者的定义、训练流程与优缺点2能否搭配 为什么搭配更合理3具体搭配范式含经典算法 DAgger3. 模仿学习3.1 Teacher-forcing 与 Student-forcing 的异同点与搭配使用3.1.1 核心定义一句话区分Teacher-forcing教师强制每一步输入 专家演示的真实历史状态离线、监督式Student-forcing学生强制每一步输入 模型自己上一步动作产生的新状态在线、闭环交互共同目标让模型输出动作逼近专家动作核心差异状态从哪来决定训练分布与测试分布是否一致。3.1.2 Teacher-forcing教师强制 · 离线演示3.1.3 使用方式训练流程适用于纯离线行为克隆预先收集好专家轨迹数据集τ ∗ { ( s 0 ∗ , a 0 ∗ ) , ( s 1 ∗ , a 1 ∗ ) , … , ( s T ∗ , a T ∗ ) } \tau^* \{(s_0^*,a_0^*),\ (s_1^*,a_1^*),\dots,(s_T^*,a_T^*)\}τ∗{(s0∗,a0∗),(s1∗,a1∗),…,(sT∗,aT∗)}训练步骤逐时间步取专家真实状态s t ∗ s_t^*st∗作为模型输入模型输出动作a ^ t \hat{a}_ta^t损失L Loss ( a ^ t , a t ∗ ) \mathcal{L} \text{Loss}(\hat{a}_t,\ a_t^*)LLoss(a^t,at∗)MSE/交叉熵全程不与环境交互只在离线数据集上做监督学习3.1.4 本质用专家轨迹“强行纠正”每一步输入让模型始终看到标准分布的状态。3.1.5 优点训练极稳定、收敛快、不易崩完全利用离线专家数据无需环境交互初期策略学习效率极高3.1.6 致命缺陷暴露偏差Exposure Bias训练分布 专家状态分布测试/部署分布 模型自己走出来的状态分布→ 模型从未见过自己犯错后的状态一步错 → 步步错 → 轨迹快速偏离崩溃复合误差累积。3.2 Student-forcing学生强制 · 交互式演示3.2.1 使用方式训练流程适用于在线/闭环模仿学习必须与环境实时交互训练步骤从初始状态 (s_0) 开始模型输入当前状态 (s_t)由模型上一步动作与环境交互得到输出 (\hat{a}t)进入环境得到 (s{t1})损失依旧对齐专家动作或专家示范全程轨迹由模型自主生成而非来自数据集3.2.2 本质让模型在“自己会遇到的真实分布”上训练与部署环境一致。3.2.3 优点完美解决暴露偏差 / 复合误差累积测试性能与训练性能一致闭环泛化极强3.2.4 缺陷冷启动极不稳定初始模型很差 → 轨迹极差 → 训练崩溃收敛慢、需要大量在线交互容易陷入局部最优、噪声敏感3.3 能否搭配使用可以且是模仿学习最经典、最合理的训练范式。3.3.1 搭配的核心逻辑互补Teacher-forcing 负责稳定初始化、快速收敛、提供高质量监督Student-forcing 负责修正分布偏移、适应闭环部署、消除暴露偏差单独用任何一个都有明显短板混合/交替/迭代使用才能得到稳定训练 真实分布对齐 强泛化的完整流程。3.4 主流搭配使用方案工程学术标准方案1分阶段训练最常用、最简单阶段1纯 Teacher-forcing预热/预训练只用离线专家数据快速学到基础策略让模型达到中等以上性能避免冷启动崩溃阶段2纯 Student-forcing精调/闭环优化切换到模型自生成轨迹在线交互微调让模型适应自身误差与真实部署分布效果前期稳、后期准完美解决双缺陷。方案2动态混合式强制每步随机选择每一步训练中以概率 (p) 用 Teacher(1-p) 用 Student训练开始(p \approx 1)几乎全 Teacher训练后期(p \rightarrow 0)几乎全 Student也可自适应调整模型准确率越高越少用 Teacher。方案3DAggerDataset Aggregation—— 模仿学习经典标杆DAgger 就是 Teacher-forcing Student-forcing 最标准的结合算法专门解决暴露偏差。流程Teacher 阶段用专家离线数据训练初始模型 (\pi_1)Student 阶段用 (\pi_1) 与环境交互收集模型自生成状态(S_{\text{model}})Teacher 再标注让专家对 (S_{\text{model}}) 标注最优动作混合训练新标注数据 原始专家数据 → 继续 Teacher-forcing 训练 (\pi_2)迭代多次直到轨迹分布收敛本质Student-forcing 提供真实部署的状态分布Teacher-forcing 提供高质量监督信号→ 既稳定又无分布偏移。方案4部分序列混合长视距任务前 k 步用专家状态Teacher保证起点正确k 步之后切换为模型自生成状态Student逐步增加模型自主控制长度实现平滑过渡。3.5 搭配后为什么更“合理”单一策略的训练过程都存在本质矛盾Teacher训练简单但训练-测试分布不一致部署必崩Student分布一致但训练难收敛、易崩溃搭配后实现训练稳定性 ↑前期靠 Teacher 避免发散泛化能力 ↑后期靠 Student 对齐真实闭环分布数据效率 ↑离线数据 少量在线交互无需海量演示部署一致性 ↑模型在训练中就见过自己的错误不会突然崩盘3.6 总结极简版策略输入状态来源优势缺陷Teacher-forcing专家离线演示稳定、快收敛暴露偏差、测试崩Student-forcing模型自生成环境无偏差、泛化强冷启动不稳、慢搭配使用混合/交替/迭代稳定 泛化 一致工程稍复杂结论Teacher-forcing 与 Student-forcing不仅可以搭配而且必须搭配才能在模仿学习中得到稳定、高效、部署可靠的训练过程。其中DAgger是最成熟、最常用的官方级组合方案。