文章介绍了2026年初三篇关于Self-Distillation的重要论文提出了一种On-Policy Self-Distillation新范式。这种范式允许大模型利用推理时的上下文构建自我Teacher而非依赖外部更强模型。SDFT在持续学习中解决灾难性遗忘SDPO在强化学习中处理稀疏奖励OPSD在复杂推理中提高路径搜索效率。这一技术通过合理构造推理上下文使模型能利用后见之明构建高质量监督信号为垂直领域开发者提供了更具性价比的模型优化方案。2026 开年三文连发大模型如何靠上下文实现自我进化最近几天MIT、ETH Zurich 和 UCLA 等团队几乎在同一时间提交了关于 Self-Distillation 的重磅论文。虽然它们分别探讨的是持续学习、强化学习和复杂推理但在技术内核上却高度一致。这三项工作打破了传统知识蒸馏必须依赖更强外部 Teacher如 GPT-4的定式共同指向了一种 On-Policy Self-Distillation 的新范式不再寻找外部导师而是利用推理时的额外上下文构建一个比 Base Model 更强的“自我”以此作为 Teacher 指导训练。这一范式有效地将推理时的计算转化为了训练时的信号。本文将深度拆解这三篇论文探讨这一技术路线如何重塑大模型的训练效率。SDFT论文标题Self-Distillation Enables Continual Learning论文链接https://arxiv.org/pdf/2601.19897项目链接https://github.com/idanshen/Self-Distillation在持续学习中SFT 面临严重的灾难性遗忘。传统的解法是维护一个 Replay Buffer 进行混合训练但这仅仅是数据的回放而非知识的内化。SDFT 的核心洞察在于利用大模型强大的 In-Context Learning 能力作为 Teacher。核心机制SDFT 构建了一个 Demonstration-Conditioned Teacher。对于输入 模型检索旧任务的示例 作为 Context构建 Teacher 分布 。而 Student 模型 则在没有任何演示的情况下通过 KL 散度去拟合 Teacher 的输出分布。这是一个典型的 On-Policy 过程Teacher 指导 Student 如何将“写在 Prompt 里的短期记忆演示”内化为“写在参数里的长期记忆权重”。为了更清晰地展示这一过程原论文详细描绘了从检索 Demonstrations 到 Student Update 的完整数据流〓 SDFT 详细流程图此外SDFT 的具体实现逻辑非常简洁原论文在 Algorithm 1 中给出了明确描述清晰展示了利用 KL 散度进行蒸馏的步骤〓 SDFT 算法伪代码详述了构建 Conditioned Teacher 及计算 Loss 的过程。实验结论在 ScienceQA, Hellaswag, MMLU 等数据集的混合评估中SDFT 在保留旧知识方面的表现显著优于单纯的 SFT 和 DET 方法。〓 SDFT 在 New Task 和 Previous Tasks 上均取得了最佳的平均表现显著优于 SFT。更为关键的是SDFT 在顺序学习Sequential Learning场景下展现了极强的稳定性。原论文记录了模型在依次学习多个技能时的性能变化〓 技能学习动态曲线随着学习步骤的推进SDFT 在旧任务上的性能几乎保持水平未出现 SFT 常见的断崖式下跌完美印证了其克服灾难性遗忘的能力。SDPO论文标题Reinforcement Learning via Self-Distillation论文链接https://arxiv.org/pdf/2601.20802项目链接https://github.com/lasgroup/SDPO在代码生成或科学推理的强化学习场景中核心难题是 Credit Assignment。传统的 RLVR 或 GRPO 通常只能获得一个标量的 Reward代码跑通1报错0模型难以知晓具体是哪个 Token 导致了错误。SDPO 提出利用 Rich Feedback如编译器报错构建 Self-Teacher将稀疏的标量信号转化为密集的 Token 级监督。核心机制当模型生成的代码 触发反馈 如 Runtime Error时SDPO 将 重新输入给模型。模型利用自身的反思能力和反馈信息能够识别错误并生成更优的 Token 分布。此时Teacher 被定义为 Conditioned on Feedback 的分布 。Student 则通过蒸馏学习这个“事后诸葛亮”的自己。这一机制的核心在于将传统的标量奖励设定RLVR升级为富反馈设定RLRF。原论文直观对比了这两种模式的区别〓 RLVR 与 RLRF 设定对比SDPO 利用 Feedback 构建更强的 Self-Teacher 信号为了直观理解这一过程我们可以看一个具体的代码生成案例〓 自修正案例展示模型最初生成的代码导致了 IndexError将该报错作为 Feedback 输入后Self-Teacher 成功生成了修正后的代码。SDPO 正是通过蒸馏这种自我修正的能力来提升模型。其具体的训练过程如下伪代码所示明确展示了如何利用 Feedback 构造 Teacher 分布〓 SDPO 核心算法展示了 Feedback 在 Teacher 构建中的关键作用。实验结论在基于 Qwen3-8B 的实验中SDPO 不仅在采样效率上优于 GRPO在最终的 Pass Rate 上也取得了实质性突破。〓 SDPO 与 GRPO 训练曲线对比SDPO 曲线在相同采样次数下达到了更高的 Pass Rate更详细的 Benchmark 数据进一步证实了这一点〓 在多个权威榜单上SDPO 均取得了比 GRPO 更高的准确率证明了密集反馈信号的优越性。OPSD论文标题Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models论文链接https://arxiv.org/pdf/2601.18734在数学推理任务中SFT 存在训练与推理分布偏移的问题。OPSD (On-Policy Self-Distillation) 关注如何利用训练数据中隐含的特权信息——即 Ground Truth 答案 。核心机制OPSD 的逻辑是 Teacher 看着答案生成推理步骤Student 看着问题学习推理步骤。Teacher Policy 定义为 它能利用答案作为导航生成高质量的 CoT。Student Policy 则在自己的采样轨迹Rollouts上去拟合 Teacher 的分布。其核心优化目标Per-token Divergence在原论文中定义如下这与 GRPO 的根本区别在于GRPO 优化的是 Reward而 OPSD 优化的是 Student 与“全知 Teacher”之间的分布距离。〓 OPSD 框架概览Teacher 利用答案指导 Student 的 On-Policy 生成。其完整的训练流程如下〓 OPSD 训练过程伪代码实验结论在 AIME24, AIME25 等高难度数学竞赛数据集上OPSD 展现了优越的性能。〓 OPSD 在多个数学基准测试中均超越了 SFT 和 GRPO。实验数据显示在 Qwen3-8B 基座上OPSD 取得了 52.2% 的平均准确率在相同超参数配置下优于 GRPO (51.3%) 和 SFT (50.0%)。结语综合对比这三项工作Context-based Self-Distillation 在不同领域的落地形态已然清晰在持续学习领域SDFTContext 是旧任务的演示解决的是记忆保持的问题在强化学习领域SDPOContext 是环境反馈解决的是稀疏奖励下的信用分配问题在复杂推理领域OPSDContext 是 Ground Truth 答案解决的是推理路径的搜索效率问题。这一趋势表明在缺乏外部强力 Teacher 的情况下通过合理构造 Inference Context模型完全有能力利用“后见之明”构建出高质量的监督信号。对于垂直领域的模型开发者而言这或许是比单纯堆砌 SFT 数据或盲目上 PPO 更具性价比的方案。最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**