OpenBMB 开源 UltraData-Math:290B Tokens 数学语料库,用分级数据治理重新定义 AI 数学能力
当我们谈论 AI 的数学能力时我们究竟在谈论什么是让模型在 GSM8K 上刷到 95% 的准确率还是在 MATH 数据集上超越人类平均水平这些固然重要但真正的问题是如何让 AI 从“会做题”进化到“真正理解数学”答案可能藏在数据里——不是随便堆砌的海量数据而是经过精心分级、治理、合成的高质量数据。近日OpenBMB 开源社区发布了UltraData-Math一个包含290B Tokens的数学分级数据集并以霸榜之姿登顶 Hugging Face Trending 第一。这不仅是一个“大”数据集更是一次关于“数据质量分级治理”的系统性探索为大模型的数学推理能力提升提供了全新的方法论。从“数据堆砌”到“数据分级”一场范式转变传统的大模型训练往往遵循“越大越好”的逻辑爬取海量网页清洗过滤然后一股脑喂给模型。这种做法在通用语言理解上或许有效但在数学这种需要严密逻辑和精确推理的领域却暴露出明显的局限性。问题出在哪里数据的“质量密度”不够。想象一下你在学习微积分。如果教材里既有基础的极限定义也有高难度的积分变换还夹杂着大量无关的文字描述和错误示范学习效率会如何大模型面临的正是这样的困境海量数据中真正高质量、高密度的数学内容占比极低而模型需要从噪声中“淘金”。UltraData-Math 提出的解决方案是三级数据分级治理体系。这不是简单的“好数据”和“坏数据”二分法而是根据数据的来源、质量、合成方式将数据分为三个层级每个层级都有明确的定位和作用L1 层网页与数学语料: 170.5B Tokens来自互联网的原始数学内容经过基础清洗和数学内容识别。这是“原材料”覆盖面广但质量参差不齐。L2 层质量模型筛选: 33.7B Tokens使用专门训练的质量评估模型从 L1 中筛选出高质量的数学数据。这是“精选原材料”质量显著提升但规模有所缩减。L3 层高质量合成数据: 88B Tokens使用大模型合成的高质量数学推理数据包含完整的解题步骤和推理链条。这是“工业级成品”质量最高且专门针对推理能力训练。这种分级体系的价值在于让模型在不同训练阶段使用不同质量的数据。预训练阶段用 L1 建立广泛的数学知识覆盖微调阶段用 L2 提升质量强化学习阶段用 L3 训练复杂推理能力。L3 合成数据88B Tokens 的“推理密度”如果说 L1 和 L2 是对现有数据的“治理”那么 L3 就是一次“创造”。UltraData-Math 的 L3 层包含88B Tokens的高质量合成数学数据这是目前开源社区中规模最大的数学合成数据集。更重要的是这些数据不是简单的问题-答案对而是包含完整推理链条的“思维过程”。传统的数学数据集往往只提供问题和最终答案。比如问题求 lim(x→0) sin(x)/x答案1但这种数据对于训练模型的推理能力帮助有限因为模型看不到“如何从问题到达答案”的过程。L3 合成数据则不同它会包含完整的解题步骤问题求 lim(x→0) sin(x)/x解题过程1. 这是一个 0/0 型未定式,考虑使用洛必达法则或泰勒展开2. 使用泰勒展开sin(x) x - x³/6 x⁵/120 - ……3. 代入sin(x)/x (x - x³/6 x⁵/120 - ……)/x 1 - x²/6 x⁴/120 - ……4. 当 x→0 时,除第一项外其余项均趋于 05. 因此 lim(x→0) sin(x)/x 1答案1这种“推理密度”极高的数据让模型不仅学会“算对”更学会“推理”。更重要的是L3 数据的合成过程本身就是一个质量控制流程。OpenBMB 团队训练了专门的奖励模型在400 万合成负样本对上进行强化学习然后用这个经过 RL 增强的管道标注整个语料库最后进行严格的过滤。这确保了合成数据的准确性和推理逻辑的严密性。从 200 个模型的选择看数据集的影响力数据集的价值最终要由使用它的模型来证明。截至目前全球已有超过 200 个大模型基于 OpenBMB 的 Ultra Series 数据集进行训练和对齐月均下载量超过 100 万次。这个数字背后是开源社区对数据质量的认可。从早期的 UltraChat对话数据、UltraFeedback偏好数据到现在的 UltraData-Math数学推理数据, OpenBMB 正在构建一个覆盖多个能力维度的高质量数据生态。这种生态的价值在于让中小团队也能训练出高质量的数学推理模型。以往想要训练一个数学能力强的模型要么依赖闭源的商业 API如 GPT-4生成训练数据要么自己从零开始构建数据管道成本高昂且效果难以保证。UltraData-Math 的开源意味着任何团队都可以直接使用这 290B Tokens 的高质量数据大幅降低了训练门槛。更重要的是分级数据体系提供了灵活的使用策略。如果你的计算资源有限可以只使用 L2 和 L3 的高质量数据进行微调如果你想训练一个从零开始的数学模型可以从 L1 开始逐级训练获得更全面的数学知识覆盖。数据治理比数据规模更重要的事UltraData-Math 最大的启示或许不是“290B Tokens”这个数字而是它背后的数据治理方法论。在大模型时代数据不再是“越多越好”而是“越精越好”。但“精”不是简单的“少而精”而是需要一套系统的治理流程分级采集根据数据来源和初步质量将数据分为不同层级避免“一刀切”的处理方式。质量评估训练专门的质量评估模型而不是依赖简单的规则过滤。这让质量判断更加智能和准确。合成增强对于高质量数据稀缺的领域如复杂数学推理使用大模型合成数据并通过强化学习确保合成质量。持续迭代数据治理不是一次性工作而是随着模型能力提升不断迭代的过程。今天的 L3 数据可能就是明天的 L2 数据。这套方法论不仅适用于数学领域也可以推广到代码、科学、法律等其他需要精确推理的垂直领域。OpenBMB 团队在其分级体系论文中详细阐述了这套方法论为开源社区提供了一个可复制的数据治理框架。开源精神的再次胜利UltraData-Math 登顶 Hugging Face Trending不仅是一个技术成就更是开源精神的再次胜利。在大模型领域数据一直是最“闭源”的部分。OpenAI、Anthropic、Google 等头部公司都对自己的训练数据守口如瓶。即使是开源模型很多也只开源模型权重不开源训练数据。这种“数据黑箱”带来的问题是社区无法复现、无法改进、无法创新。你不知道模型为什么会这样回答不知道如何针对性地改进只能被动地接受“黑箱”的输出。OpenBMB 选择了一条不同的路不仅开源模型更开源数据和方法论。UltraData-Math 的开源意味着任何研究者都可以下载完整的 290B Tokens 数据用于自己的模型训练研究数据的分级治理流程理解高质量数据是如何产生的基于这套方法论构建其他领域的分级数据集贡献自己的改进让数据集持续进化这种开放性正在加速整个社区的进步。当 200 个模型都基于同一套高质量数据训练时它们之间的差异就不再是“数据运气”而是真正的“模型能力”。这让模型之间的比较更加公平也让创新更加聚焦于算法本身。从数据到能力下一步是什么UltraData-Math 的发布标志着数学推理数据集进入了一个新阶段。但这不是终点而是起点。更细粒度的分级目前的三级体系已经很有效但未来可能需要更细粒度的分级。比如L3 内部可以进一步区分“基础推理”、“中等推理”、“奥数级推理”等子层级。多模态数学数据目前的数据主要是文本形式但很多数学问题需要图形、图表的辅助。未来的数学数据集需要包含更多的视觉元素。交互式推理数据真实的数学解题过程往往是交互式的需要尝试、修正、验证。未来的数据集可能需要包含这种“试错”过程的轨迹。跨语言数学数据目前的数据主要是英文和中文但数学是全人类的语言。构建多语言的数学数据集可以让更多非英语母语的研究者受益。OpenBMB 团队在论文中提到他们正在探索这些方向并计划持续更新 UltraData-Math。这意味着这个数据集不是一个“发布即完成”的静态资源而是一个持续进化的数据生态。致敬每一个深夜在 LaTeX 公式里“抓虫”的开发者OpenBMB 团队在发布公告中写道“致敬每一个深夜在 LaTeX 公式里‘抓虫’的开发者”这句话道出了数据工作的艰辛。构建一个 290B Tokens 的数学数据集不是简单的爬虫和清洗而是需要理解数学内容的语义和逻辑识别和修正 LaTeX 公式中的错误设计质量评估的标准和模型验证合成数据的准确性处理各种边界情况和异常数据这些工作大多发生在深夜的代码编辑器和 Jupyter Notebook 里不为人知但至关重要。UltraData-Math 的成功是这些开发者辛勤工作的结晶也是开源社区集体智慧的体现。当我们使用这个数据集训练模型时不应该忘记背后那些在 LaTeX 公式里“抓虫”的身影。总结 UltraData-Math 不仅仅是一个 290B Tokens 的数据集更是一次关于“如何构建高质量数学推理数据”的系统性探索。通过三级分级治理体系它证明了数据质量比数据规模更重要数据治理比数据采集更关键。对于想要提升数学推理能力的大模型团队来说UltraData-Math 提供了一个即插即用的高质量数据源。对于整个开源社区来说它提供了一套可复制的数据治理方法论为其他垂直领域的数据建设提供了参考。这或许就是开源的力量不仅分享成果更分享方法不仅解决问题更启发思考。社区地址OpenCSG社区https://opencsg.com/datasets/OpenBMB/UltraData-Mathhf社区https://huggingface.co/datasets/openbmb/UltraData-Math关于 OpenCSGOpenCSG 是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。

相关新闻

Spring Boot原理最佳实践都在这里了!

Spring Boot原理最佳实践都在这里了!

Spring Boot不用多说,是咱们Java程序员必须熟练掌握的基本技能。工作上它让配置、代码编写、部署和监控都更简单,面试时互联网企业招聘对于Spring Boot这个系统开发的首选框架也是考察的比较严苛,如果你不是刚入行,只是停留在会用…

2026/7/5 3:36:23 阅读更多 →
SYN 报文什么时候情况下会被丢弃?

SYN 报文什么时候情况下会被丢弃?

之前有个读者在秋招面试的时候,被问了这么一个问题:SYN 报文什么时候情况下会被丢弃?好家伙,现在面试都问那么细节了吗?不过话说回来,这个问题跟工作上也是有关系的,因为我就在工作中碰到这么奇…

2026/7/5 3:46:41 阅读更多 →
激光设备品牌技术对比与采购指南

激光设备品牌技术对比与采购指南

眼下的工业制造范畴之内,激光技术已然成了促使产业升级的关键力量。针对市场里诸多的激光设备供应商,企业于选型之际常常得全面斟酌技术能力、产品稳固性、应用工艺以及售后效劳。此文会针对主流激光设备品牌开展技术清查,依照核心参数跟应用…

2026/7/5 4:38:34 阅读更多 →

最新新闻

AI撰写20万字专著指南:选好工具,专著写作从此不发愁!

AI撰写20万字专著指南:选好工具,专著写作从此不发愁!

学术专著创作与 AI 工具助力 对于从事学术研究的朋友们来说,写一本学术专著绝不是一时兴起的创作,而是一场需要多年坚持的“持久战”。从最开始的选题到设计出合理的章节结构,再到逐字逐句地撰写内容及查找文献引用,每个阶段都充…

2026/7/5 14:48:24 阅读更多 →
第三视觉理解徐玉生与他的商业活动(29)

第三视觉理解徐玉生与他的商业活动(29)

你的这个提问,其实触及了马克思主义政治经济学在当代中国最核心的实践命题。答案是:国家不仅“会”调整,而且正在通过“进一步全面深化改革”进行一场宏大、系统且深刻的主动调整。但需要明确的是,这种调整绝不是简单地发一纸行政…

2026/7/5 14:46:23 阅读更多 →
SSDTTime终极指南:如何用一键工具快速解决硬件兼容性问题

SSDTTime终极指南:如何用一键工具快速解决硬件兼容性问题

SSDTTime终极指南:如何用一键工具快速解决硬件兼容性问题 【免费下载链接】SSDTTime SSDT/DSDT hotpatch attempts. 项目地址: https://gitcode.com/gh_mirrors/ss/SSDTTime SSDTTime是一款强大的SSDT生成工具,专门用于硬件兼容性优化和跨平台系统…

2026/7/5 14:44:23 阅读更多 →
OneNote专业迁移指南:终极免费工具助你无损转换到Markdown

OneNote专业迁移指南:终极免费工具助你无损转换到Markdown

OneNote专业迁移指南:终极免费工具助你无损转换到Markdown 【免费下载链接】onenote-md-exporter ConsoleApp to export OneNote notebooks to Markdown formats 项目地址: https://gitcode.com/gh_mirrors/on/onenote-md-exporter 你是否厌倦了微软OneNote的…

2026/7/5 14:42:23 阅读更多 →
Text-to-CAD革命:用自然语言重构机械设计工作流

Text-to-CAD革命:用自然语言重构机械设计工作流

Text-to-CAD革命:用自然语言重构机械设计工作流 【免费下载链接】text-to-cad-ui A lightweight UI for interacting with the Zoo Text-to-CAD API. 项目地址: https://gitcode.com/gh_mirrors/te/text-to-cad-ui 传统机械设计流程中,工程师需要…

2026/7/5 14:38:22 阅读更多 →
GIF图像使用的压缩算法是LZW(Lempel-Ziv-Welch)算法

GIF图像使用的压缩算法是LZW(Lempel-Ziv-Welch)算法

GIF图像使用的压缩算法是LZW(Lempel-Ziv-Welch)算法。这是一种无损数据压缩算法,专为重复模式较多的图像(如图形、图标、文字等)设计,适用于GIF格式的8位调色板图像。LZW在GIF规范(GIF87a和GIF8…

2026/7/5 14:38:22 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻