DroPE:不进行长上下文微调实现无缝的零样本上下文扩展 | 直播预约
主题DroPE不进行长上下文微调实现无缝的零样本上下文扩展时间2026.02.28 周六 22:00 北京时间2026.02.28 周六 09:00 美东时间2026.02.28 周六 06:00 美西时间直播平台微信视频号b站直播间Youtube直播间https://www.youtube.com/niceaitalk内容介绍到目前为止想要有效扩展语言模型的上下文长度通常都需要在预训练序列长度之外进行成本高昂的微调。在本文中我们通过在训练后移除语言模型的位置嵌入DroPE打破了这一关键瓶颈。我们这一简洁方法基于三个重要的理论与实验观察位置嵌入PE在预训练阶段至关重要它提供了关键的归纳偏置能显著加速模型收敛。但模型对这种显式位置信息的过度依赖也正是导致其在测试时无法泛化到未见过的序列长度的核心原因——即便使用目前流行的位置嵌入缩放方法也难以解决。位置嵌入并非高效语言建模的固有必需组件在预训练结束后只需经过短暂的重校准阶段就可以安全地将其移除。实验表明DroPE 能够在不进行任何长上下文微调的前提下实现无缝的零样本上下文扩展在不损害模型在原始训练上下文上能力的同时快速适配预训练语言模型。我们的结论在多种模型与数据集规模上均成立性能远超此前的专用架构以及主流的旋转位置嵌入RoPE缩放方法。Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings论文地址https://arxiv.org/abs/2512.12167嘉宾Yoav Gelberg是牛津大学研究员研究方向为提升语言模型的适应性与可靠性。 他的研究重点包括训练后模型适配、长上下文语言建模、模型异常行为检测与监控、数据高效的架构设计研究中常利用神经网络参数空间与模型激活中的结构特性。个人主页https://yoavgelberg.github.io/主持人李大卫亚利桑那州立大学一年级博士生在ACLEMNLPNAACL等顶级会议发表多篇论文同时担任ARRICLRNeurIPSAISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识高效模型训练/推理以及探索大模型的社会智能和社交智能。入群欢迎加入NICE每周分享交流群可与NICEer唠嗑以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证群内无广告。备注【昵称-单位-方向-NICE入群】NICE介绍NICENexus forIntelligenCE是一个由全球50位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来我们汇聚海内外300嘉宾通过百余场线上深度分享与线下高规格活动北京/上海/苏州等全网积累超13万关注。目前NICE已构建起覆盖中、美、欧的国际化团队正加速在硅谷、纽约、香港等地落地致力于打造连接学术、产业与未来的全球化AI前沿社区。NICE主页https://nice-nlp.github.ioNICE海外https://nice-intl.github.iob站https://space.bilibili.com/507524288Youtubehttps://www.youtube.com/niceaitalk编辑冯可蘅 华盛顿大学

相关新闻

(一)走进阿里云实时计算Flink版|产品能力篇【上篇】

(一)走进阿里云实时计算Flink版|产品能力篇【上篇】

作者:黄鹏程(马格)|阿里云实时计算Flink版产品负责人简介作为全球领先的实时计算技术团队,阿里云 Flink 团队致力于为企业提供高性能、高可靠、易用的实时数据处理解决方案,助力企业实现数据驱动的业务创新…

2026/7/3 9:27:56 阅读更多 →
用 AI 写的串口工具

用 AI 写的串口工具

大家好,我之前自己用 QT 写了一个串口调试助手,因为工作时间比较忙,一直没有更新,但是最近AI 出现后,写纯应用代码变得简单很多,所以直接更新了一把。项目地址:https://gitee.com/weiqifa/qtSer…

2026/5/17 7:10:28 阅读更多 →
agent 即服务

agent 即服务

我们云服务厂商不是经常给的概念是xx 即服务,比如 IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)。早上听播客的时候,博主说他自己为自己写了多个 agent,于…

2026/7/3 17:43:59 阅读更多 →

最新新闻

从AI小白到高效协作者:普通人快速上手的实战指南

从AI小白到高效协作者:普通人快速上手的实战指南

1. 项目概述:为什么“ALL IN AI”不再是口号最近和不少朋友聊天,发现一个挺有意思的现象:前两年大家聊起AI,还觉得是硅谷大厂和顶尖实验室的“神仙打架”,离自己很远。但今年,从写周报、做PPT,到…

2026/7/4 10:38:18 阅读更多 →
13DOF传感器与MKV46F128VLH16微控制器的嵌入式导航方案

13DOF传感器与MKV46F128VLH16微控制器的嵌入式导航方案

1. 13DOF传感器与MKV46F128VLH16微控制器的技术背景在嵌入式定位导航领域,13DOF(13自由度)传感器组合与MKV46F128VLH16微控制器的搭配已经成为工业级应用的黄金组合。13DOF通常由三轴加速度计、三轴陀螺仪、三轴磁力计、气压计和温度传感器组…

2026/7/4 10:36:18 阅读更多 →
LLM微调实战:15家云厂商GPU性能与成本深度对比指南

LLM微调实战:15家云厂商GPU性能与成本深度对比指南

1. 项目概述:为什么这份“15家云厂商GPU大名单”值得你逐行读完 如果你正站在LLM微调或训练的起点,手头有一份高质量的领域数据集,心里盘算着“该用哪家云服务来跑通第一个LoRA实验”,那这份标题背后的内容,就是你接下…

2026/7/4 10:32:17 阅读更多 →
Windows部署OpenClaw AI智能体:安全风险与Docker容器隔离实战指南

Windows部署OpenClaw AI智能体:安全风险与Docker容器隔离实战指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 在 Windows 环境下部署和运行开源 AI 智能体,正成为开发者探索自动化与智能化应用的新趋势。OpenClaw(常被称…

2026/7/4 10:30:16 阅读更多 →
零基础转AI工程师的7本核心书单与分阶段实践路径

零基础转AI工程师的7本核心书单与分阶段实践路径

1. 这不是速成课,而是一条被验证过的自学路径“7 Books That Will Turn You Into an AI Engineer (Even If You Can’t Code Yet)”——这个标题乍看像营销话术,但在我带过37个零基础转行AI的学员、拆解过212本技术类畅销书、亲手用不同组合搭建过6套自学…

2026/7/4 10:30:16 阅读更多 →
Burp Suite安装配置全指南:从零搭建Web安全测试环境

Burp Suite安装配置全指南:从零搭建Web安全测试环境

1. 项目概述:为什么你需要Burp Suite? 如果你刚开始接触Web安全测试,或者正在寻找一个能让你从“看”到“动手”的突破口,那么Burp Suite几乎是你绕不开的名字。它不是什么遥不可及的黑客工具,而是一个功能强大、设计精…

2026/7/4 10:30:16 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻