姚顺雨腾讯首篇论文:给AI下半场指路“上下文学习”
CL-bench专门用来测试大模型“从上下文中学习”的能力。姚顺雨入职腾讯首席AI科学家后参与的首个成果来了。CL-bench专门用来测试大模型“从上下文中学习”的能力。这项研究与姚顺雨一贯的研究思路高度契合去年8月他在OpenAI期间发表的博文《下半场》曾提出一个被反复引用的判断AI正处在“中场休息”阶段上半场是训练大于评估下半场将是评估大于训练。真正重要的不是继续堆模型规模而是让模型在真实任务、真实系统中经得起检验。CL-bench的评测结果相当扎心当前最强的GPT-5.1 (High)任务解决率只有23.7%。换句话说即便把解题所需的全部信息都喂给模型它依然在超过四分之三的任务上栽了跟头。为什么需要上下文学习研究团队在博客中开门见山地指出了一个被忽视的问题今天的前沿模型是顶级的“做题家”能解奥数、能写代码、能通过人类需要苦读数年才能拿下的专业资格考试。但这能在考场拿满分的学生未必能胜任真实世界的工作。博客中举了三个人类日常生活的例子开发者扫过从未见过的工具文档就能立刻调试代码玩家拿起新游戏的规则书在实战中边玩边学科学家从复杂的实验日志中筛选数据推导出新的结论。这些场景中人类并不只依赖多年前学到的死知识而是在实时地从眼前的上下文中学习。然而今天的语言模型并非如此。它们主要依赖“参数化知识”即在预训练阶段被压缩进模型权重里的静态记忆在推理时更多是在调用这些封存的内部知识而不是主动从当前输入的新信息中汲取营养。团队用一句话概括了这个矛盾我们造出了依赖“过去”的参数推理者但世界需要的是能吸收“当下”环境上下文的学习者。CL-bench500个复杂上下文一个简单但苛刻的要求为了量化这个差距团队构建了CL-bench。这个基准包含由资深领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准。设计原则只有一条解决每个任务要求模型必须从上下文中学习到预训练中不存在的新知识并正确应用。模型需要学习的知识非常广泛包括新的领域知识、不熟悉的规则系统、复杂的产品工作流甚至是必须从实验数据中推导归纳出的定律或结论。所有这些知识要么是由领域专家完全新构建的要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。具体来说CL-bench涵盖了四种现实世界的上下文学习场景领域知识推理比如虚构的法律体系或创新的金融工具规则系统应用比如新的游戏机制或编程语法程序性任务执行比如工作流和产品手册以及最具挑战性的经验发现与模拟要求模型从数据中归纳出潜在规律。团队展示了几个任务案例在一部长达2.3万字、刚刚生效的新法律下判一起真实纠纷基于一门新设计的教育编程语言规范实现一个带有时间条件终止的周期性程序在一套从未见过的编程框架中执行代码在给定技术规格和长期环境政策情景的条件下模拟关键技术金属的可持续全球供应。为了确保测试结果反映的是真正的上下文学习能力而非数据泄露或记忆团队采用了无污染设计专家创作完全虚构的内容或修改现实世界的内容创建变体或整合在预训练数据集中代表性极低的小众内容。论文特别提到在不提供任何上下文的情况下GPT-5.1 (High)仅能解决不到1%的任务有力证明了模型若不从上下文中学习几乎完全无法解决这些任务。平均而言领域专家花费约20小时标注每个上下文以确保任务构建的质量和深度。十个前沿模型集体翻车即使提供上下文当前模型的表现也好不到哪去。团队在CL-bench上评估了十个最先进的语言模型结果揭示了当前模型几乎不能从复杂上下文中学习来解决真实场景的问题。平均而言模型仅解决了17.2%的任务即便是表现最好的GPT-5.1 (High)也仅达到23.7%。错误分析显示了几个值得注意的现象。忽略或误用上下文是导致失败的主要原因许多错误并非源于信息缺失而是源于模型忽视了上下文中的关键细节或错误地应用了它们。在许多情况下模型只会利用预训练学习到的静态知识来解决任务即使上下文明确定义了新的规则、概念或程序模型也不会学习和利用。此外从实验数据和环境模拟中进行归纳推理比演绎应用更困难。演绎任务让模型根据上下文中明确给出的规则和流程进行应用而经验发现和环境模拟类任务则要求归纳推理。模型在这类任务上的表现明显较差任务解决率通常低于10%且结果波动大。更高的推理强度通常能提升上下文学习效果但提升有限。例如GPT-5.1在管理类和实验数据类任务上的表现提升约6%但其他模型提升有限甚至可能下降说明单靠更多推理并不足够模型还必须能够正确吸收和组织上下文信息。研究团队最后写道CL-bench充分解释了语言模型在真实场景中为什么经常出错即使有了上下文工程给模型准备好了所需的上下文模型也会失败。如果模型不能真正从中学习仅仅提供上下文是不够的。从“AI下半场”到腾讯首席AI科学家与其继续刷榜不如先搞清楚模型到底还差在哪儿。CL-bench某种程度上正是姚顺雨关于AI下半场这一判断的具体实践。这项研究由腾讯混元和复旦大学团队合作完成共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。致谢部分提到从上下文中学习新知识的想法最早源于Pluto Zhou在2024年提出的设想同时特别感谢姚顺雨提供的鼓励以及多次宝贵建议称“他的全面而细致的审阅和反馈极大地帮助我们进一步提升了这项工作的质量”。姚顺雨今年1月正式加盟腾讯职位是腾讯总办首席AI科学家向腾讯总裁刘炽平汇报同时兼任AI Infra部、大语言模型部负责人向技术工程事业群总裁卢山汇报。团队在最后也留下了下一步研究思路起码在当下我们的目标是很明确让上下文学习真正走向现实。

相关新闻

瓶子里装的“安心”,还是装的“误会”?膳食补充剂真能防癌吗

瓶子里装的“安心”,还是装的“误会”?膳食补充剂真能防癌吗

引言:膳食补充剂是智商税?被焦虑收割的“养生族”这年头,谁的朋友圈里没几个晒“瓶瓶罐罐”的朋友?在谈癌色变的当下,健康焦虑就像一种传染病。数据显示,在没得癌症的人群里,竟然有一半人都在定…

2026/7/4 18:39:45 阅读更多 →
幻影飞驰:商用VR赛车旗舰,解锁极致竞速沉浸感

幻影飞驰:商用VR赛车旗舰,解锁极致竞速沉浸感

作为幻影星空旗舰级商用VR赛车设备,幻影飞驰凭借硬核技术与极致体验,成为高端场馆镇馆吸金的首选,重新定义商用VR竞速的旗舰标准。幻影飞驰其搭载荣获广东省科技进步一等奖的伺服驱动曲柄传动技术,配合6轴液压动感平台&#xff0c…

2026/7/4 18:52:08 阅读更多 →
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台

大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台

近几年,大语言模型(LLM)取得了突破性进展。然而,尽管这些大模型在各种任务中展现出了强大的语言理解与生成能力,也存在一些问题,其中最为突出的是幻觉问题以及知识时效性的问题。 01 幻觉问题 幻觉问题是…

2026/7/3 14:49:24 阅读更多 →

最新新闻

聊城食品洁净车间建设指南,按加工场景适配净化板更耐用

聊城食品洁净车间建设指南,按加工场景适配净化板更耐用

聊城作为鲁西农副产品加工核心区域,形成禽肉屠宰、速冻预制菜、果蔬深加工、杂粮面点、宠物食品五大加工集群,大量新建洁净车间、老旧厂房改造需求持续增多。本地的特殊工况,也让选择板材变得复杂纠结起来。 生产线全天用水冲洗,血…

2026/7/5 4:15:13 阅读更多 →
基于TB9051FTG与MSP432的静音直流电机控制方案

基于TB9051FTG与MSP432的静音直流电机控制方案

1. 项目背景与核心需求在工业自动化、消费电子和机器人领域,直流电机控制一直是个经典课题。传统PWM调速方案虽然简单易实现,但存在明显的电磁噪声和机械振动问题——当PWM频率落在人耳可听范围(20Hz-20kHz)时,电机会发…

2026/7/5 4:13:13 阅读更多 →
Power BI热力图实战:用矩阵+条件格式驱动业务决策

Power BI热力图实战:用矩阵+条件格式驱动业务决策

1. 为什么一张“彩色表格”能成为业务决策的加速器?在Power BI里做可视化,很多人第一反应是柱状图、折线图、饼图——稳妥、熟悉、老板一眼能看懂。但真正让我在客户现场被反复追问“这个怎么做的?”“能不能再加一列?”“能不能按…

2026/7/5 4:11:12 阅读更多 →
轻量级AI智能体:安全、场景与硬件穿透的工程实践

轻量级AI智能体:安全、场景与硬件穿透的工程实践

1. 项目概述:轻量级AI智能体不是“减配版”,而是精准适配的生产力工具最近在技术圈和办公软件社群里,“养龙虾”这个词火了——它不是水产养殖指南,而是对 OpenClaw 架构下各类 AI 智能体(Agent)产品的戏称…

2026/7/5 4:11:12 阅读更多 →
百元头戴耳机内卷!vivo、REDMI新品全面对比

百元头戴耳机内卷!vivo、REDMI新品全面对比

当下头戴耳机新品层出不穷,vivo 与 REDMI 先后推出自家首款头戴降噪耳机,两款百元级新品定位相近却各有取舍。两种简约风格,配色各有特色从外观颜值上看,两款耳机均走极简圆润设计路线,无繁杂装饰,同时兼具…

2026/7/5 4:09:11 阅读更多 →
Pytest自动化测试进阶:工程化、数据驱动与性能优化实战

Pytest自动化测试进阶:工程化、数据驱动与性能优化实战

1. 项目概述:从“会用”到“精通”的自动化测试进阶如果你已经用pytest写过一些简单的测试用例,感觉它比unittest好用,断言更直观,夹具(fixture)也挺方便,那么恭喜你,你已经迈出了自…

2026/7/5 4:09:11 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻