Shunyu Yao 加入HY首作CL-bench:揭示大模型的关键短板
现实世界的任务远比当前评测所考虑的问题复杂得多。许多任务高度依赖上下文需要模型从复杂的上下文中学习利用预训练阶段未曾获得的新知识来推理和解决问题。这与人类在日常场景中的学习方式高度一致快速理解从未见过的产品文档、参与有多年历史背景的群组对话、或从大量实验数据中发现规律。当前大语言模型在数学竞赛、编程挑战、专家级考试中表现惊艳但一个关键能力却被严重忽视——从上下文中学习新知识并应用它解决问题。论文将这种能力称为Context Learning上下文学习并发现即使是表现最好的GPT-5.1任务解决率也仅有23.7%。背景与核心问题论文指出现实世界的任务远比当前评测所考虑的问题复杂得多。许多任务高度依赖上下文需要模型从复杂的上下文中学习利用预训练阶段未曾获得的新知识来推理和解决问题。这与人类在日常场景中的学习方式高度一致快速理解从未见过的产品文档、参与有多年历史背景的群组对话、或从大量实验数据中发现规律。[Figure 1: 语言模型优化路径与现实任务需求之间的错配] 论文展示了当前LM(Language Model语言模型)主要依赖预训练知识进行推理而现实任务往往依赖上下文需要模型从上下文中学习来解决问题。然而当前研究主要关注的是提示工程和ICL(In-Context Learning上下文学习)前者针对模型可通过推理和预训练知识解决的简单任务后者通过少量输入输出示例让模型推断任务格式。两种范式都主要强调从简单提示和预训练知识中推理与现实场景相去甚远。CL-bench一个真正测试上下文学习的基准为系统评估上下文学习能力论文推出CL-bench包含500个复杂上下文、1,899个任务和31,607条验证规则全部由经验丰富的领域专家精心构建。[Figure 2: CL-bench任务示例] 论文展示了一个带电粒子动力学分析任务模型需要从提供的上下文中学习新知识而非仅依赖静态的预训练知识。模型解答将根据精心标注的任务级评分规则进行验证。论文将上下文分为四大类别进一步细分为18个子类别(1) 领域知识推理包括金融、医疗、人文、法律咨询、生活方式、管理和科学七个子类别。模型需学习虚构的法律体系、新创建的金融工具或小众专业知识并应用于案件裁决、财务分析或专业建议。(2) 规则系统应用包括游戏机制、数学形式化、编程语法、法律法规和技术标准五个子类别。模型需理解新的形式系统并正确应用于游戏分析、数学证明或代码任务。(3) 程序任务执行包括指导性程序、操作性程序和工作流编排三个子类别。模型需学习复杂的程序、工作流或操作指令并正确执行故障排除或复杂工作流编排。(4) 经验发现与模拟包括实验数据、观测数据和模拟环境三个子类别。这是最具挑战性的类别需要归纳推理从经验证据中发现潜在规律而非前三类强调的演绎推理。[Figure 3: CL-bench的上下文分类体系] 论文展示了四大类别及18个子类别的完整分类结构。[Figure 4: CL-bench中上下文类别的分布] 子类别分布相对均衡。无污染设计与严格验证为确保评测的是真正的上下文学习能力论文采用三种方法构建包含新知识的上下文虚构创作如为虚构国家创建完整法律体系、现有内容修改如改变历史事件或科学定义、以及纳入小众和新兴内容如前沿研究发现或新发布的产品手册。[Table 1: CL-bench统计数据] 包括上下文、任务、评分规则的数量以及每个上下文的平均和最大任务数、每个任务的评分规则数和输入长度。平均每个上下文包含3.8个任务每个任务包含16.6条评分规则平均输入长度为10.4K tokens最长达65.0K tokens。每个任务平均包含16.6条评分规则从事实正确性、计算准确性、判断正确性、程序正确性、内容完整性和格式合规性等多个维度进行验证。论文使用GPT-5.1作为验证器与Claude Opus 4.5和Qwen-3-Max的原始一致率超过90%人工抽样验证准确率也超过90%。十大前沿模型的表现令人警醒的结果论文评估了十个最先进的语言模型包括OpenAI的GPT-5.1、GPT-5.2和o3Anthropic的Claude-Opus-4.5 ThinkingGoogle的Gemini-3-Pro以及Moonshot、阿里巴巴、DeepSeek、字节跳动和腾讯的模型。[Table 2: 十个前沿LLM在CL-bench上的任务解决率] 所有模型均在推理模式下评估结果报告为三次运行的均值±标准差(%)。核心发现(1) 整体表现堪忧所有模型的平均任务解决率仅为17.2%最佳模型GPT-5.1也仅达到23.7%。大多数模型集中在13%-18%之间。(2) 类别难度差异显著领域知识推理最易处理最佳模型达25.3%经验发现与模拟最具挑战平均解决率仅约11%比其他类别低约6%。(3) 子类别差异揭示细粒度能力差距在规则系统应用中法律法规子类别所有模型解决率超过29%GPT-5.1超过40%而数学形式化大多数模型低于15%。[Figure 5: 十个前沿LM在各子类别的任务解决率比较] 深色单元格表示较高值。所有模型使用思考或高推理努力设置。错误分析为何模型表现不佳[Table 3: 各模型的错误类型分布] 大多数解决失败归因于忽略上下文中的知识或错误应用上下文知识。相当比例的错误也源于指令遵循失败导致输出格式错误。论文发现上下文误用和上下文忽略构成主要失败模式。上下文误用率在所有模型中均超过60%即使是最强模型也难以正确解释和应用提供的上下文。格式错误同样普遍GPT-5.1超过35%Claude-Opus-4.5超过40%。推理努力与上下文长度的影响[Figure 6: GPT-5.1在高与低推理努力设置下的性能比较] 平均解决率从21.2%提升至23.7%仅获得2.5%的适度增益表明增强推理努力对上下文学习任务的益处有限。提高推理努力通常能改善上下文学习但收益有限。GPT-5.1从低推理努力的21.2%提升至高推理努力的23.7%仅增加2.5%。[Figure 7: 不同输入长度范围的性能表现] 所有模型随着输入长度增加解决率持续下降。这一趋势无论推理努力水平如何都成立。任务难度与上下文长度相关。所有模型随着上下文长度增加表现持续下降Claude-Opus-4.5下降最为陡峭在0-15K和120K上下文长度之间解决率下降超过20%。知识类型的影响[Figure 8: 法律咨询与法律法规子类别的性能比较] 尽管属于同一知识领域模型在法律法规任务上表现明显更好差异超过25%。论文比较了同属法律领域的两个子类别法律咨询和法律法规。尽管知识领域相同模型在法律法规上表现明显更好Qwen 3 Max的差异超过25%。这表明知识的结构方式和任务的应用要求深刻影响模型获取和应用上下文知识的效果。最后X曰论文揭示了一个关键事实长上下文推理和指令遵循是上下文学习的必要但非充分条件。在现有长上下文和指令遵循基准上的强劲表现并不能保证在CL-bench上的成功因为上下文学习进一步要求模型内化新知识并灵活应用于复杂任务。当前前沿模型的上下文学习能力仍然相当薄弱。这一关键学习能力值得AI社区更多关注。推进上下文学习是构建下一代语言模型的关键——使其像人类一样具备从上下文中学习、适应不断变化的上下文、并在现实世界中表现出色的能力。CL-bench为这一努力提供了关键的测试平台。论文标题CL-BENCH: A BENCHMARK FOR CONTEXT LEARNING论文链接https://arxiv.org/abs/2602.03587

相关新闻

期货套保系统交易终端配置完整指南

期货套保系统交易终端配置完整指南

交易终端的合理配置直接影响套保操作的效率与准确性。产业用户需要在多账户、多品种、多策略的复杂环境下高效执行交易,对终端配置提出了更高要求。本文将详细介绍期货套保系统中交易终端的配置方法与最佳实践,帮助企业优化交易环境。 一、终端配置的核…

2026/5/17 2:23:58 阅读更多 →
(10-1-01)模块集成与总装流程:模块化拆分与装配策略(1)机械模块

(10-1-01)模块集成与总装流程:模块化拆分与装配策略(1)机械模块

本章内容围绕人形机器人模块集成与整机总装流程展开,系统介绍了从模块化设计到整机装配的工程方法。首先讲解了机械、电气与软件模块的合理拆分原则及装配策略,确保系统集成的高效性与可维护性。随后详细讲解了关节安装、线束排布及装配工装与夹具的应用…

2026/5/17 2:23:56 阅读更多 →
基于深度学习YOLOv11的森林火灾烟雾识别检测系统(YOLOv11+YOLO数据集+UI界面+登录注册界面+Python项目源码+模型)

基于深度学习YOLOv11的森林火灾烟雾识别检测系统(YOLOv11+YOLO数据集+UI界面+登录注册界面+Python项目源码+模型)

一、项目介绍 森林火灾是威胁生态环境和人类安全的重要灾害之一,早期烟雾与火焰的精准识别对火灾预警至关重要。本文基于YOLOv11深度学习算法,构建了一套高效的森林火灾烟雾检测系统,支持火焰(fire)和烟雾&#xff08…

2026/5/17 2:23:56 阅读更多 →

最新新闻

鼠标性能终极测试:如何用免费开源工具精准评估你的鼠标表现

鼠标性能终极测试:如何用免费开源工具精准评估你的鼠标表现

鼠标性能终极测试:如何用免费开源工具精准评估你的鼠标表现 【免费下载链接】MouseTester 项目地址: https://gitcode.com/gh_mirrors/mou/MouseTester 你是否在游戏中总感觉鼠标"飘"得厉害?或者工作时鼠标指针不够精准?别…

2026/7/3 5:01:20 阅读更多 →
单例模式 超详细完整版

单例模式 超详细完整版

一、单例模式是什么?单例模式(Singleton) 是创建型设计模式。 核心定义: 保证一个类在整个程序运行中,有且仅有一个实例对象,并提供一个全局访问入口。二、单例模式三大核心特点(必背&#xff0…

2026/7/3 4:59:20 阅读更多 →
口碑出众的精准尺寸烤盘定制厂家

口碑出众的精准尺寸烤盘定制厂家

做工业化烘焙生产的技术和采购人员都懂,烤盘尺寸哪怕只有1mm的误差,放到自动化隧道炉、连续生产线上就容易出现卡盘、跳盘问题,轻则耽误生产进度,重则刮坏传输设备、提升产品报废率,因此找到靠谱的烘焙器具定制厂家&am…

2026/7/3 4:59:20 阅读更多 →
基于STM32的智能手环设计与实现

基于STM32的智能手环设计与实现

摘要:为满足对人体基础生理信息与日常活动状态的综合监测需求,设计了一套基于STM32的智能手环系统。系统以STM32F103C8T6为控制核心,结合MAX30102心率血氧传感器、DS18B20温度传感器、ADXL345加速度传感器、OLED显示屏、按键、蜂鸣器及ESP826…

2026/7/3 4:57:19 阅读更多 →
2026 年 7 月 openclaw 龙虾替代品推荐 九款分场景商用AI智能体实测对比参考

2026 年 7 月 openclaw 龙虾替代品推荐 九款分场景商用AI智能体实测对比参考

前言 OpenClaw 俗称龙虾,作为海外开源 AI 智能体框架,依托自主操控电脑、多技能扩展的能力积累不少使用者,但原版工具存在部署流程繁琐、国内网络适配度有限、数据跨境存在合规压力、中文长任务运行稳定性一般等现实使用门槛。2026 年国内市场…

2026/7/3 4:57:19 阅读更多 →
JVM 全套面试题整理(由简到难,2026最新完整版)

JVM 全套面试题整理(由简到难,2026最新完整版)

很多同学面试 JVM 很痛苦:知识点杂乱、背了不会用、面试问深一点就崩。本文按照 入门基础 → 内存模型 → GC 垃圾回收 → 类加载机制 → 底层原理 → 线上调优与故障排查 难度逐级递增整理,可直接背诵、可直接口述、可解决线上问题。 适合:J…

2026/7/3 4:53:18 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻