【LLM】CL-bench:评估LLM学新知识的能力
noteCL-bench 围绕一个简单但严格的设计原则构建每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含Self-contained的。解决任务所需的所有信息都显式地提供在 context 本身之中不需要外部检索也不允许隐藏假设。CL-bench 揭示了一个不能被忽视的现象当今的前沿语言模型还仍然不会利用 context 从 context 中学习。文章目录note一、CL-bench覆盖的内容二、CL-bench设计原则三、CL-bench评估结果Reference一、CL-bench覆盖的内容1、CL-bench 涵盖了四种广泛的现实世界 context 学习场景领域知识推理 context 中提供特定的领域知识例如 虚构的法律体系、创新的金融工具或小众专业知识。模型需要利用这些知识来推理并解决具体问题。规则系统应用 context 中提供新定义的正式系统例如 新的游戏机制、数学形式体系、编程语法或技术标准。模型必须理解并应用这些规则来执行任务。程序性任务执行 context 中提供复杂的过程系统例如 工作流、产品手册和操作指南。模型必须理解并应用这些程序性信息来完成任务。经验发现与模拟 context 中提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同这一类专注于归纳推理也是最具挑战性的。模型必须从数据中发现潜在的定律或结论并应用它们来解决任务。二、CL-bench设计原则CL-bench 围绕一个简单但严格的设计原则构建每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含Self-contained的。解决任务所需的所有信息都显式地提供在 context 本身之中不需要外部检索也不允许隐藏假设。三、CL-bench评估结果结果揭示了当前模型几乎不能从复杂 context 中学习来解决真实场景的问题。实验也解释了一些更有趣的发现。平均而言模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High)也仅达到了 23.7%。换句话说尽管 context 中拥有解决每个任务所需的全部信息模型在绝大多数任务上都失败了。这表明当前最前沿的模型几乎不会从 context 中学习。Reference[1] https://hy.tencent.com/research/100025?langVersionzh

相关新闻

电脑端串口助手一个时间戳后面跟几条完整报文,而不是每条报文添加一个时间戳,这是依据什么确定添加接收时间戳

电脑端串口助手一个时间戳后面跟几条完整报文,而不是每条报文添加一个时间戳,这是依据什么确定添加接收时间戳

电脑端串口助手采用“‌超时机制‌”确定时间戳的添加规则,核心依据是‌相邻报文接收的时间间隔‌。具体逻辑如下:⚙️ 时间戳分组机制 ‌时间阈值设定‌ 通过用户配置的 ‌"时间值"参数‌(如 100ms)作为分组阈值&#…

2026/7/3 7:05:42 阅读更多 →
使用 Depth Anything V2 进行单目深度估计

使用 Depth Anything V2 进行单目深度估计

原文:towardsdatascience.com/monocular-depth-estimation-with-depth-anything-v2-54b6775abc9f?sourcecollection_archive---------4-----------------------#2024-07-24 神经网络是如何从二维图像中学习估计深度的? https://medium.com/neural.avb?…

2026/7/3 15:01:57 阅读更多 →
什么是住宅代理IP?

什么是住宅代理IP?

什么是住宅代理IP? 住宅代理IP是一种特殊类型的代理服务,采用的IP地址为居民住宅网络IP地址。这种特殊类型的代理服务可以模拟真实用户的上网行为和位置信息,从而更好地保护用户的隐私,并且比其他类型的代理服务更难被网站或应用…

2026/7/3 15:01:58 阅读更多 →

最新新闻

计算机Java毕设实战-基于 SpringBoot 的智慧田园农事服务管理系统的设计与实现 农村田园用地分配与运维管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

计算机Java毕设实战-基于 SpringBoot 的智慧田园农事服务管理系统的设计与实现 农村田园用地分配与运维管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/3 19:35:00 阅读更多 →
临床试验中的AI伦理护栏:可追溯、可审计、可问责的LLM落地实践

临床试验中的AI伦理护栏:可追溯、可审计、可问责的LLM落地实践

1. 项目概述:当大语言模型走进临床试验现场,我们到底在守护什么? 去年冬天,我在一家三甲医院的GCP(药物临床试验质量管理规范)办公室做流程优化咨询时,亲眼见过一个真实场景:研究者用…

2026/7/3 19:32:59 阅读更多 →
光伏逆变器能效采集监测系统方案

光伏逆变器能效采集监测系统方案

《晶体硅光伏组件和逆变器能效限定值及能效等级》提到,逆变器同步纳入三级能效管控体系,按20kW、50kW、150kW、500kW以上功率区间,分别限定加权总效率、最大转换效率两项核心指标。老旧低效逆变器无法匹配新一代N型高效组件,同步纳…

2026/7/3 19:32:59 阅读更多 →
【Skywalking从入门到精通】第02篇:APM和可观测性到底是啥——写给所有被这两个词搞懵的开发者

【Skywalking从入门到精通】第02篇:APM和可观测性到底是啥——写给所有被这两个词搞懵的开发者

<!- title: “APM和可观测性到底是啥——写给所有被这两个词搞懵的开发者” series: “Apache SkyWalking实战全解析” episode: 002 publish_date: “2026-07-02” author: “技术博客作者” tags: [“APM”, “可观测性”, “Observability”, “分布式追踪”, “Metrics”…

2026/7/3 19:28:58 阅读更多 →
STM32与TI降压转换器的嵌入式电源系统设计

STM32与TI降压转换器的嵌入式电源系统设计

1. 项目背景与硬件选型解析在嵌入式电源系统设计中&#xff0c;DC-DC降压转换是一个基础但至关重要的环节。我们选用STM32F217ZG作为主控芯片搭配171010550电源管理IC的方案&#xff0c;主要基于以下工程考量&#xff1a;STM32F217ZG这颗Cortex-M3内核的MCU具备&#xff1a;120…

2026/7/3 19:26:57 阅读更多 →
DDrawCompat:Windows 10/11经典游戏兼容性修复终极指南

DDrawCompat:Windows 10/11经典游戏兼容性修复终极指南

DDrawCompat&#xff1a;Windows 10/11经典游戏兼容性修复终极指南 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirrors/dd/DDraw…

2026/7/3 19:24:57 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述&#xff1a;为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473&#xff0c;一个关于TLS/SSL协议重协商机制的漏洞&#xff0c;现在提起来还有必要吗&#xff1f;很多运维和开发朋友可能会觉得&#xff0c;这都老掉牙了&#xff0c;现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述&#xff1a;为什么需要双通道远程管理防火墙&#xff1f;在任何一个稍具规模的企业网络里&#xff0c;防火墙都是那个默默守护在边界的关键角色。作为网络工程师&#xff0c;我们不可能每次都跑到机房&#xff0c;插上console线去配置它。远程管理能力&#xff0c;…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述&#xff1a;AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域&#xff0c;同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件&#xff0c;与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻