【VLN】VLN Paradigm Alg:模仿学习及其细节(3)
这里写自定义目录标题1. VLN Paradigm2. VLN Paradigm Alg3. 模仿学习3.1 Teacher-forcing 与 Student-forcing 的异同点与搭配使用3.1.1 核心定义一句话区分3.1.2 Teacher-forcing教师强制 · 离线演示3.1.3 使用方式训练流程3.1.4 本质3.1.5 优点3.1.6 致命缺陷暴露偏差Exposure Bias3.2 Student-forcing学生强制 · 交互式演示3.2.1 使用方式训练流程3.2.2 本质3.2.3 优点3.2.4 缺陷3.3 能否搭配使用3.3.1 搭配的核心逻辑互补3.4 主流搭配使用方案工程学术标准方案1分阶段训练最常用、最简单阶段1纯 Teacher-forcing预热/预训练阶段2纯 Student-forcing精调/闭环优化方案2动态混合式强制每步随机选择方案3DAggerDataset Aggregation—— 模仿学习经典标杆本质方案4部分序列混合长视距任务3.5 搭配后为什么更“合理”3.6 总结极简版1. VLN Paradigm极简一句话总结Auxiliary Loss 训练时的 “额外小老师”用额外监督信号帮模型学得更好、更稳推理时直接下课不影响最终模型。2. VLN Paradigm Alg英文中文Behavior cloning (imitation learning)行为克隆模仿学习- Teacher-forcing: Offline demonstrator教师强制离线演示者- Student-forcing: Interactive demonstrator学生强制交互式演示者Reinforcement Learning强化学习Teacher-forcing: Offline demonstratorStudent-forcing: Interactive demonstratorcompareVLN Paradigm – Behavior Cloning在模仿学习尤其是行为克隆 BC中Teacher-forcing、Student-forcing 是两种轨迹状态输入来源的核心训练策略二者完全可以搭配使用也是解决单一策略缺陷、构建更稳定、泛化更强训练流程的主流方案。下面分三部分详细说明1两者的定义、训练流程与优缺点2能否搭配 为什么搭配更合理3具体搭配范式含经典算法 DAgger3. 模仿学习3.1 Teacher-forcing 与 Student-forcing 的异同点与搭配使用3.1.1 核心定义一句话区分Teacher-forcing教师强制每一步输入 专家演示的真实历史状态离线、监督式Student-forcing学生强制每一步输入 模型自己上一步动作产生的新状态在线、闭环交互共同目标让模型输出动作逼近专家动作核心差异状态从哪来决定训练分布与测试分布是否一致。3.1.2 Teacher-forcing教师强制 · 离线演示3.1.3 使用方式训练流程适用于纯离线行为克隆预先收集好专家轨迹数据集τ ∗ { ( s 0 ∗ , a 0 ∗ ) , ( s 1 ∗ , a 1 ∗ ) , … , ( s T ∗ , a T ∗ ) } \tau^* \{(s_0^*,a_0^*),\ (s_1^*,a_1^*),\dots,(s_T^*,a_T^*)\}τ∗{(s0∗​,a0∗​),(s1∗​,a1∗​),…,(sT∗​,aT∗​)}训练步骤逐时间步取专家真实状态s t ∗ s_t^*st∗​作为模型输入模型输出动作a ^ t \hat{a}_ta^t​损失L Loss ( a ^ t , a t ∗ ) \mathcal{L} \text{Loss}(\hat{a}_t,\ a_t^*)LLoss(a^t​,at∗​)MSE/交叉熵全程不与环境交互只在离线数据集上做监督学习3.1.4 本质用专家轨迹“强行纠正”每一步输入让模型始终看到标准分布的状态。3.1.5 优点训练极稳定、收敛快、不易崩完全利用离线专家数据无需环境交互初期策略学习效率极高3.1.6 致命缺陷暴露偏差Exposure Bias训练分布 专家状态分布测试/部署分布 模型自己走出来的状态分布→ 模型从未见过自己犯错后的状态一步错 → 步步错 → 轨迹快速偏离崩溃复合误差累积。3.2 Student-forcing学生强制 · 交互式演示3.2.1 使用方式训练流程适用于在线/闭环模仿学习必须与环境实时交互训练步骤从初始状态 (s_0) 开始模型输入当前状态 (s_t)由模型上一步动作与环境交互得到输出 (\hat{a}t)进入环境得到 (s{t1})损失依旧对齐专家动作或专家示范全程轨迹由模型自主生成而非来自数据集3.2.2 本质让模型在“自己会遇到的真实分布”上训练与部署环境一致。3.2.3 优点完美解决暴露偏差 / 复合误差累积测试性能与训练性能一致闭环泛化极强3.2.4 缺陷冷启动极不稳定初始模型很差 → 轨迹极差 → 训练崩溃收敛慢、需要大量在线交互容易陷入局部最优、噪声敏感3.3 能否搭配使用可以且是模仿学习最经典、最合理的训练范式。3.3.1 搭配的核心逻辑互补Teacher-forcing 负责稳定初始化、快速收敛、提供高质量监督Student-forcing 负责修正分布偏移、适应闭环部署、消除暴露偏差单独用任何一个都有明显短板混合/交替/迭代使用才能得到稳定训练 真实分布对齐 强泛化的完整流程。3.4 主流搭配使用方案工程学术标准方案1分阶段训练最常用、最简单阶段1纯 Teacher-forcing预热/预训练只用离线专家数据快速学到基础策略让模型达到中等以上性能避免冷启动崩溃阶段2纯 Student-forcing精调/闭环优化切换到模型自生成轨迹在线交互微调让模型适应自身误差与真实部署分布效果前期稳、后期准完美解决双缺陷。方案2动态混合式强制每步随机选择每一步训练中以概率 (p) 用 Teacher(1-p) 用 Student训练开始(p \approx 1)几乎全 Teacher训练后期(p \rightarrow 0)几乎全 Student也可自适应调整模型准确率越高越少用 Teacher。方案3DAggerDataset Aggregation—— 模仿学习经典标杆DAgger 就是 Teacher-forcing Student-forcing 最标准的结合算法专门解决暴露偏差。流程Teacher 阶段用专家离线数据训练初始模型 (\pi_1)Student 阶段用 (\pi_1) 与环境交互收集模型自生成状态(S_{\text{model}})Teacher 再标注让专家对 (S_{\text{model}}) 标注最优动作混合训练新标注数据 原始专家数据 → 继续 Teacher-forcing 训练 (\pi_2)迭代多次直到轨迹分布收敛本质Student-forcing 提供真实部署的状态分布Teacher-forcing 提供高质量监督信号→ 既稳定又无分布偏移。方案4部分序列混合长视距任务前 k 步用专家状态Teacher保证起点正确k 步之后切换为模型自生成状态Student逐步增加模型自主控制长度实现平滑过渡。3.5 搭配后为什么更“合理”单一策略的训练过程都存在本质矛盾Teacher训练简单但训练-测试分布不一致部署必崩Student分布一致但训练难收敛、易崩溃搭配后实现训练稳定性 ↑前期靠 Teacher 避免发散泛化能力 ↑后期靠 Student 对齐真实闭环分布数据效率 ↑离线数据 少量在线交互无需海量演示部署一致性 ↑模型在训练中就见过自己的错误不会突然崩盘3.6 总结极简版策略输入状态来源优势缺陷Teacher-forcing专家离线演示稳定、快收敛暴露偏差、测试崩Student-forcing模型自生成环境无偏差、泛化强冷启动不稳、慢搭配使用混合/交替/迭代稳定 泛化 一致工程稍复杂结论Teacher-forcing 与 Student-forcing不仅可以搭配而且必须搭配才能在模仿学习中得到稳定、高效、部署可靠的训练过程。其中DAgger是最成熟、最常用的官方级组合方案。

相关新闻

基于多态的相关知识点(封装、继承、多态)

基于多态的相关知识点(封装、继承、多态)

一、多态的基本概念 1. 定义 多态(Polymorphism)指同一操作作用于不同类的对象时,可以有不同的解释和执行结果 "多种形态":同一接口,不同实现 2. 分类 编译时多态(静态多态) …

2026/5/17 3:42:38 阅读更多 →
如何使用 C# 创建、修改和删除 Word 中的 VBA 宏(无需Microsoft Word)

如何使用 C# 创建、修改和删除 Word 中的 VBA 宏(无需Microsoft Word)

目录 为什么在 Word 中使用 VBA 宏? 配置 C# 环境以操作 Word VBA 宏 使用 C# 在 Word 中创建 VBA 宏 使用 C# 修改 Word 中的 VBA 宏 使用 C# 删除 Word 中的 VBA 宏 在 Word 中创建和编辑 VBA 宏的实用建议 总结 在处理 Word 文档时,VBA&#x…

2026/5/17 3:42:37 阅读更多 →
AI Agent记忆系统全解析:从基础到前沿,一篇带你掌握大模型记忆技术

AI Agent记忆系统全解析:从基础到前沿,一篇带你掌握大模型记忆技术

本文是一篇关于AI Agent记忆系统的权威综述,由NUS、人大、复旦等多所高校联合完成。采用"形态-功能-动力学"三维框架分析200论文,提出Token-level、Parametric、Latent三大记忆形态,取代传统二分法。系统阐述记忆形成、演化与检索的…

2026/5/17 3:42:36 阅读更多 →

最新新闻

2026普通人AI使用指南:看懂参数、混合思考与国产模型三大核心

2026普通人AI使用指南:看懂参数、混合思考与国产模型三大核心

1. 这不是科幻预告片,是普通人下周就该打开手机查的“技术天气预报”2026年4月这个时间点,听起来像科幻小说里随手写的年份,但如果你最近刷过几条国产大模型发布会的短视频,或者留意过身边朋友突然开始用“文心一言新版本”写周报…

2026/7/4 23:17:06 阅读更多 →
Let‘s Encrypt泛域名证书申请与自动化续期实战指南

Let‘s Encrypt泛域名证书申请与自动化续期实战指南

1. 项目概述与核心价值最近在折腾自己的个人博客和几个内部服务,域名下挂了好几个子域名,每次给每个子域名单独申请SSL证书,不仅麻烦,续期更是让人头大。直到我开始用Let‘s Encrypt的泛域名证书,配合自动化续期脚本&a…

2026/7/4 23:17:06 阅读更多 →
多维聚合实战:超越GROUP BY的OLAP数据操作指南

多维聚合实战:超越GROUP BY的OLAP数据操作指南

1. 项目概述:多维聚合中的数据操作,远不止GROUP BY那么简单“Part 20: Data Manipulation in Multi-Dimensional Aggregation”这个标题乍看像教科书某章编号,但实际踩中了数据分析和商业智能工程中最常被低估、最易出错、也最具业务价值的一…

2026/7/4 23:17:06 阅读更多 →
AMD ROCm 7.1.1正式支持Windows:本地AI电影制作全栈落地

AMD ROCm 7.1.1正式支持Windows:本地AI电影制作全栈落地

1. 项目概述:当本地AI电影制作从“概念图”变成“开机键”2025年11月26日,我盯着终端里一行绿色的True输出,手有点抖。不是因为咖啡喝多了,而是因为torch.cuda.is_available()终于没再报错——它真真切切地返回了True,…

2026/7/4 23:15:05 阅读更多 →
基于OpenCV与深度学习的车牌识别系统开发实践

基于OpenCV与深度学习的车牌识别系统开发实践

1. 项目概述这个车牌识别系统是我在指导学弟学妹毕业设计时开发的一个典型案例。作为一个结合了传统图像处理和深度学习技术的实用项目,它完美展现了如何将学术知识与工程实践相结合。系统采用PythonOpenCV作为基础框架,融入机器学习算法,实现…

2026/7/4 23:13:04 阅读更多 →
突破60帧限制:WaveTools鸣潮工具箱的智能游戏优化革命

突破60帧限制:WaveTools鸣潮工具箱的智能游戏优化革命

突破60帧限制:WaveTools鸣潮工具箱的智能游戏优化革命 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 当你为《鸣潮》的帧率限制感到困扰时,当你发现高性能硬件在游戏中无法完全发挥…

2026/7/4 23:13:04 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻