现实世界的任务远比当前评测所考虑的问题复杂得多。许多任务高度依赖上下文需要模型从复杂的上下文中学习利用预训练阶段未曾获得的新知识来推理和解决问题。这与人类在日常场景中的学习方式高度一致快速理解从未见过的产品文档、参与有多年历史背景的群组对话、或从大量实验数据中发现规律。当前大语言模型在数学竞赛、编程挑战、专家级考试中表现惊艳但一个关键能力却被严重忽视——从上下文中学习新知识并应用它解决问题。论文将这种能力称为Context Learning上下文学习并发现即使是表现最好的GPT-5.1任务解决率也仅有23.7%。背景与核心问题论文指出现实世界的任务远比当前评测所考虑的问题复杂得多。许多任务高度依赖上下文需要模型从复杂的上下文中学习利用预训练阶段未曾获得的新知识来推理和解决问题。这与人类在日常场景中的学习方式高度一致快速理解从未见过的产品文档、参与有多年历史背景的群组对话、或从大量实验数据中发现规律。[Figure 1: 语言模型优化路径与现实任务需求之间的错配] 论文展示了当前LM(Language Model语言模型)主要依赖预训练知识进行推理而现实任务往往依赖上下文需要模型从上下文中学习来解决问题。然而当前研究主要关注的是提示工程和ICL(In-Context Learning上下文学习)前者针对模型可通过推理和预训练知识解决的简单任务后者通过少量输入输出示例让模型推断任务格式。两种范式都主要强调从简单提示和预训练知识中推理与现实场景相去甚远。CL-bench一个真正测试上下文学习的基准为系统评估上下文学习能力论文推出CL-bench包含500个复杂上下文、1,899个任务和31,607条验证规则全部由经验丰富的领域专家精心构建。[Figure 2: CL-bench任务示例] 论文展示了一个带电粒子动力学分析任务模型需要从提供的上下文中学习新知识而非仅依赖静态的预训练知识。模型解答将根据精心标注的任务级评分规则进行验证。论文将上下文分为四大类别进一步细分为18个子类别(1) 领域知识推理包括金融、医疗、人文、法律咨询、生活方式、管理和科学七个子类别。模型需学习虚构的法律体系、新创建的金融工具或小众专业知识并应用于案件裁决、财务分析或专业建议。(2) 规则系统应用包括游戏机制、数学形式化、编程语法、法律法规和技术标准五个子类别。模型需理解新的形式系统并正确应用于游戏分析、数学证明或代码任务。(3) 程序任务执行包括指导性程序、操作性程序和工作流编排三个子类别。模型需学习复杂的程序、工作流或操作指令并正确执行故障排除或复杂工作流编排。(4) 经验发现与模拟包括实验数据、观测数据和模拟环境三个子类别。这是最具挑战性的类别需要归纳推理从经验证据中发现潜在规律而非前三类强调的演绎推理。[Figure 3: CL-bench的上下文分类体系] 论文展示了四大类别及18个子类别的完整分类结构。[Figure 4: CL-bench中上下文类别的分布] 子类别分布相对均衡。无污染设计与严格验证为确保评测的是真正的上下文学习能力论文采用三种方法构建包含新知识的上下文虚构创作如为虚构国家创建完整法律体系、现有内容修改如改变历史事件或科学定义、以及纳入小众和新兴内容如前沿研究发现或新发布的产品手册。[Table 1: CL-bench统计数据] 包括上下文、任务、评分规则的数量以及每个上下文的平均和最大任务数、每个任务的评分规则数和输入长度。平均每个上下文包含3.8个任务每个任务包含16.6条评分规则平均输入长度为10.4K tokens最长达65.0K tokens。每个任务平均包含16.6条评分规则从事实正确性、计算准确性、判断正确性、程序正确性、内容完整性和格式合规性等多个维度进行验证。论文使用GPT-5.1作为验证器与Claude Opus 4.5和Qwen-3-Max的原始一致率超过90%人工抽样验证准确率也超过90%。十大前沿模型的表现令人警醒的结果论文评估了十个最先进的语言模型包括OpenAI的GPT-5.1、GPT-5.2和o3Anthropic的Claude-Opus-4.5 ThinkingGoogle的Gemini-3-Pro以及Moonshot、阿里巴巴、DeepSeek、字节跳动和腾讯的模型。[Table 2: 十个前沿LLM在CL-bench上的任务解决率] 所有模型均在推理模式下评估结果报告为三次运行的均值±标准差(%)。核心发现(1) 整体表现堪忧所有模型的平均任务解决率仅为17.2%最佳模型GPT-5.1也仅达到23.7%。大多数模型集中在13%-18%之间。(2) 类别难度差异显著领域知识推理最易处理最佳模型达25.3%经验发现与模拟最具挑战平均解决率仅约11%比其他类别低约6%。(3) 子类别差异揭示细粒度能力差距在规则系统应用中法律法规子类别所有模型解决率超过29%GPT-5.1超过40%而数学形式化大多数模型低于15%。[Figure 5: 十个前沿LM在各子类别的任务解决率比较] 深色单元格表示较高值。所有模型使用思考或高推理努力设置。错误分析为何模型表现不佳[Table 3: 各模型的错误类型分布] 大多数解决失败归因于忽略上下文中的知识或错误应用上下文知识。相当比例的错误也源于指令遵循失败导致输出格式错误。论文发现上下文误用和上下文忽略构成主要失败模式。上下文误用率在所有模型中均超过60%即使是最强模型也难以正确解释和应用提供的上下文。格式错误同样普遍GPT-5.1超过35%Claude-Opus-4.5超过40%。推理努力与上下文长度的影响[Figure 6: GPT-5.1在高与低推理努力设置下的性能比较] 平均解决率从21.2%提升至23.7%仅获得2.5%的适度增益表明增强推理努力对上下文学习任务的益处有限。提高推理努力通常能改善上下文学习但收益有限。GPT-5.1从低推理努力的21.2%提升至高推理努力的23.7%仅增加2.5%。[Figure 7: 不同输入长度范围的性能表现] 所有模型随着输入长度增加解决率持续下降。这一趋势无论推理努力水平如何都成立。任务难度与上下文长度相关。所有模型随着上下文长度增加表现持续下降Claude-Opus-4.5下降最为陡峭在0-15K和120K上下文长度之间解决率下降超过20%。知识类型的影响[Figure 8: 法律咨询与法律法规子类别的性能比较] 尽管属于同一知识领域模型在法律法规任务上表现明显更好差异超过25%。论文比较了同属法律领域的两个子类别法律咨询和法律法规。尽管知识领域相同模型在法律法规上表现明显更好Qwen 3 Max的差异超过25%。这表明知识的结构方式和任务的应用要求深刻影响模型获取和应用上下文知识的效果。最后X曰论文揭示了一个关键事实长上下文推理和指令遵循是上下文学习的必要但非充分条件。在现有长上下文和指令遵循基准上的强劲表现并不能保证在CL-bench上的成功因为上下文学习进一步要求模型内化新知识并灵活应用于复杂任务。当前前沿模型的上下文学习能力仍然相当薄弱。这一关键学习能力值得AI社区更多关注。推进上下文学习是构建下一代语言模型的关键——使其像人类一样具备从上下文中学习、适应不断变化的上下文、并在现实世界中表现出色的能力。CL-bench为这一努力提供了关键的测试平台。论文标题CL-BENCH: A BENCHMARK FOR CONTEXT LEARNING论文链接https://arxiv.org/abs/2602.03587