主题DroPE不进行长上下文微调实现无缝的零样本上下文扩展时间2026.02.28 周六 22:00 北京时间2026.02.28 周六 09:00 美东时间2026.02.28 周六 06:00 美西时间直播平台微信视频号b站直播间Youtube直播间https://www.youtube.com/niceaitalk内容介绍到目前为止想要有效扩展语言模型的上下文长度通常都需要在预训练序列长度之外进行成本高昂的微调。在本文中我们通过在训练后移除语言模型的位置嵌入DroPE打破了这一关键瓶颈。我们这一简洁方法基于三个重要的理论与实验观察位置嵌入PE在预训练阶段至关重要它提供了关键的归纳偏置能显著加速模型收敛。但模型对这种显式位置信息的过度依赖也正是导致其在测试时无法泛化到未见过的序列长度的核心原因——即便使用目前流行的位置嵌入缩放方法也难以解决。位置嵌入并非高效语言建模的固有必需组件在预训练结束后只需经过短暂的重校准阶段就可以安全地将其移除。实验表明DroPE 能够在不进行任何长上下文微调的前提下实现无缝的零样本上下文扩展在不损害模型在原始训练上下文上能力的同时快速适配预训练语言模型。我们的结论在多种模型与数据集规模上均成立性能远超此前的专用架构以及主流的旋转位置嵌入RoPE缩放方法。Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings论文地址https://arxiv.org/abs/2512.12167嘉宾Yoav Gelberg是牛津大学研究员研究方向为提升语言模型的适应性与可靠性。 他的研究重点包括训练后模型适配、长上下文语言建模、模型异常行为检测与监控、数据高效的架构设计研究中常利用神经网络参数空间与模型激活中的结构特性。个人主页https://yoavgelberg.github.io/主持人李大卫亚利桑那州立大学一年级博士生在ACLEMNLPNAACL等顶级会议发表多篇论文同时担任ARRICLRNeurIPSAISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识高效模型训练/推理以及探索大模型的社会智能和社交智能。入群欢迎加入NICE每周分享交流群可与NICEer唠嗑以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证群内无广告。备注【昵称-单位-方向-NICE入群】NICE介绍NICENexus forIntelligenCE是一个由全球50位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来我们汇聚海内外300嘉宾通过百余场线上深度分享与线下高规格活动北京/上海/苏州等全网积累超13万关注。目前NICE已构建起覆盖中、美、欧的国际化团队正加速在硅谷、纽约、香港等地落地致力于打造连接学术、产业与未来的全球化AI前沿社区。NICE主页https://nice-nlp.github.ioNICE海外https://nice-intl.github.iob站https://space.bilibili.com/507524288Youtubehttps://www.youtube.com/niceaitalk编辑冯可蘅 华盛顿大学