OpenBMB 开源 UltraData-Math：290B Tokens 数学语料库,用分级数据治理重新定义 AI 数学能力-尧图手机网站定制

$OpenBMB 开源 UltraData-Math：290B Tokens 数学语料库,用分级数据治理重新定义 AI 数学能力$

当我们谈论 AI 的数学能力时我们究竟在谈论什么是让模型在 GSM8K 上刷到 95% 的准确率还是在 MATH 数据集上超越人类平均水平这些固然重要但真正的问题是如何让 AI 从“会做题”进化到“真正理解数学”答案可能藏在数据里——不是随便堆砌的海量数据而是经过精心分级、治理、合成的高质量数据。近日OpenBMB 开源社区发布了UltraData-Math一个包含290B Tokens的数学分级数据集并以霸榜之姿登顶 Hugging Face Trending 第一。这不仅是一个“大”数据集更是一次关于“数据质量分级治理”的系统性探索为大模型的数学推理能力提升提供了全新的方法论。从“数据堆砌”到“数据分级”一场范式转变传统的大模型训练往往遵循“越大越好”的逻辑爬取海量网页清洗过滤然后一股脑喂给模型。这种做法在通用语言理解上或许有效但在数学这种需要严密逻辑和精确推理的领域却暴露出明显的局限性。问题出在哪里数据的“质量密度”不够。想象一下你在学习微积分。如果教材里既有基础的极限定义也有高难度的积分变换还夹杂着大量无关的文字描述和错误示范学习效率会如何大模型面临的正是这样的困境海量数据中真正高质量、高密度的数学内容占比极低而模型需要从噪声中“淘金”。UltraData-Math 提出的解决方案是三级数据分级治理体系。这不是简单的“好数据”和“坏数据”二分法而是根据数据的来源、质量、合成方式将数据分为三个层级每个层级都有明确的定位和作用L1 层网页与数学语料: 170.5B Tokens来自互联网的原始数学内容经过基础清洗和数学内容识别。这是“原材料”覆盖面广但质量参差不齐。L2 层质量模型筛选: 33.7B Tokens使用专门训练的质量评估模型从 L1 中筛选出高质量的数学数据。这是“精选原材料”质量显著提升但规模有所缩减。L3 层高质量合成数据: 88B Tokens使用大模型合成的高质量数学推理数据包含完整的解题步骤和推理链条。这是“工业级成品”质量最高且专门针对推理能力训练。这种分级体系的价值在于让模型在不同训练阶段使用不同质量的数据。预训练阶段用 L1 建立广泛的数学知识覆盖微调阶段用 L2 提升质量强化学习阶段用 L3 训练复杂推理能力。L3 合成数据88B Tokens 的“推理密度”如果说 L1 和 L2 是对现有数据的“治理”那么 L3 就是一次“创造”。UltraData-Math 的 L3 层包含88B Tokens的高质量合成数学数据这是目前开源社区中规模最大的数学合成数据集。更重要的是这些数据不是简单的问题-答案对而是包含完整推理链条的“思维过程”。传统的数学数据集往往只提供问题和最终答案。比如问题求 lim(x→0) sin(x)/x答案1但这种数据对于训练模型的推理能力帮助有限因为模型看不到“如何从问题到达答案”的过程。L3 合成数据则不同它会包含完整的解题步骤问题求 lim(x→0) sin(x)/x解题过程1. 这是一个 0/0 型未定式,考虑使用洛必达法则或泰勒展开2. 使用泰勒展开sin(x) x - x³/6 x⁵/120 - ……3. 代入sin(x)/x (x - x³/6 x⁵/120 - ……)/x 1 - x²/6 x⁴/120 - ……4. 当 x→0 时,除第一项外其余项均趋于 05. 因此 lim(x→0) sin(x)/x 1答案1这种“推理密度”极高的数据让模型不仅学会“算对”更学会“推理”。更重要的是L3 数据的合成过程本身就是一个质量控制流程。OpenBMB 团队训练了专门的奖励模型在400 万合成负样本对上进行强化学习然后用这个经过 RL 增强的管道标注整个语料库最后进行严格的过滤。这确保了合成数据的准确性和推理逻辑的严密性。从 200 个模型的选择看数据集的影响力数据集的价值最终要由使用它的模型来证明。截至目前全球已有超过 200 个大模型基于 OpenBMB 的 Ultra Series 数据集进行训练和对齐月均下载量超过 100 万次。这个数字背后是开源社区对数据质量的认可。从早期的 UltraChat对话数据、UltraFeedback偏好数据到现在的 UltraData-Math数学推理数据, OpenBMB 正在构建一个覆盖多个能力维度的高质量数据生态。这种生态的价值在于让中小团队也能训练出高质量的数学推理模型。以往想要训练一个数学能力强的模型要么依赖闭源的商业 API如 GPT-4生成训练数据要么自己从零开始构建数据管道成本高昂且效果难以保证。UltraData-Math 的开源意味着任何团队都可以直接使用这 290B Tokens 的高质量数据大幅降低了训练门槛。更重要的是分级数据体系提供了灵活的使用策略。如果你的计算资源有限可以只使用 L2 和 L3 的高质量数据进行微调如果你想训练一个从零开始的数学模型可以从 L1 开始逐级训练获得更全面的数学知识覆盖。数据治理比数据规模更重要的事UltraData-Math 最大的启示或许不是“290B Tokens”这个数字而是它背后的数据治理方法论。在大模型时代数据不再是“越多越好”而是“越精越好”。但“精”不是简单的“少而精”而是需要一套系统的治理流程分级采集根据数据来源和初步质量将数据分为不同层级避免“一刀切”的处理方式。质量评估训练专门的质量评估模型而不是依赖简单的规则过滤。这让质量判断更加智能和准确。合成增强对于高质量数据稀缺的领域如复杂数学推理使用大模型合成数据并通过强化学习确保合成质量。持续迭代数据治理不是一次性工作而是随着模型能力提升不断迭代的过程。今天的 L3 数据可能就是明天的 L2 数据。这套方法论不仅适用于数学领域也可以推广到代码、科学、法律等其他需要精确推理的垂直领域。OpenBMB 团队在其分级体系论文中详细阐述了这套方法论为开源社区提供了一个可复制的数据治理框架。开源精神的再次胜利UltraData-Math 登顶 Hugging Face Trending不仅是一个技术成就更是开源精神的再次胜利。在大模型领域数据一直是最“闭源”的部分。OpenAI、Anthropic、Google 等头部公司都对自己的训练数据守口如瓶。即使是开源模型很多也只开源模型权重不开源训练数据。这种“数据黑箱”带来的问题是社区无法复现、无法改进、无法创新。你不知道模型为什么会这样回答不知道如何针对性地改进只能被动地接受“黑箱”的输出。OpenBMB 选择了一条不同的路不仅开源模型更开源数据和方法论。UltraData-Math 的开源意味着任何研究者都可以下载完整的 290B Tokens 数据用于自己的模型训练研究数据的分级治理流程理解高质量数据是如何产生的基于这套方法论构建其他领域的分级数据集贡献自己的改进让数据集持续进化这种开放性正在加速整个社区的进步。当 200 个模型都基于同一套高质量数据训练时它们之间的差异就不再是“数据运气”而是真正的“模型能力”。这让模型之间的比较更加公平也让创新更加聚焦于算法本身。从数据到能力下一步是什么UltraData-Math 的发布标志着数学推理数据集进入了一个新阶段。但这不是终点而是起点。更细粒度的分级目前的三级体系已经很有效但未来可能需要更细粒度的分级。比如L3 内部可以进一步区分“基础推理”、“中等推理”、“奥数级推理”等子层级。多模态数学数据目前的数据主要是文本形式但很多数学问题需要图形、图表的辅助。未来的数学数据集需要包含更多的视觉元素。交互式推理数据真实的数学解题过程往往是交互式的需要尝试、修正、验证。未来的数据集可能需要包含这种“试错”过程的轨迹。跨语言数学数据目前的数据主要是英文和中文但数学是全人类的语言。构建多语言的数学数据集可以让更多非英语母语的研究者受益。OpenBMB 团队在论文中提到他们正在探索这些方向并计划持续更新 UltraData-Math。这意味着这个数据集不是一个“发布即完成”的静态资源而是一个持续进化的数据生态。致敬每一个深夜在 LaTeX 公式里“抓虫”的开发者OpenBMB 团队在发布公告中写道“致敬每一个深夜在 LaTeX 公式里‘抓虫’的开发者”这句话道出了数据工作的艰辛。构建一个 290B Tokens 的数学数据集不是简单的爬虫和清洗而是需要理解数学内容的语义和逻辑识别和修正 LaTeX 公式中的错误设计质量评估的标准和模型验证合成数据的准确性处理各种边界情况和异常数据这些工作大多发生在深夜的代码编辑器和 Jupyter Notebook 里不为人知但至关重要。UltraData-Math 的成功是这些开发者辛勤工作的结晶也是开源社区集体智慧的体现。当我们使用这个数据集训练模型时不应该忘记背后那些在 LaTeX 公式里“抓虫”的身影。总结 UltraData-Math 不仅仅是一个 290B Tokens 的数据集更是一次关于“如何构建高质量数学推理数据”的系统性探索。通过三级分级治理体系它证明了数据质量比数据规模更重要数据治理比数据采集更关键。对于想要提升数学推理能力的大模型团队来说UltraData-Math 提供了一个即插即用的高质量数据源。对于整个开源社区来说它提供了一套可复制的数据治理方法论为其他垂直领域的数据建设提供了参考。这或许就是开源的力量不仅分享成果更分享方法不仅解决问题更启发思考。社区地址OpenCSG社区https://opencsg.com/datasets/OpenBMB/UltraData-Mathhf社区https://huggingface.co/datasets/openbmb/UltraData-Math关于 OpenCSGOpenCSG 是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。

OpenBMB 开源 UltraData-Math：290B Tokens 数学语料库,用分级数据治理重新定义 AI 数学能力

相关新闻

Spring Boot原理最佳实践都在这里了！

SYN 报文什么时候情况下会被丢弃？

激光设备品牌技术对比与采购指南

最新新闻

AI撰写20万字专著指南：选好工具，专著写作从此不发愁！

第三视觉理解徐玉生与他的商业活动（29）

SSDTTime终极指南：如何用一键工具快速解决硬件兼容性问题

OneNote专业迁移指南：终极免费工具助你无损转换到Markdown

Text-to-CAD革命：用自然语言重构机械设计工作流

GIF图像使用的压缩算法是LZW（Lempel-Ziv-Welch）算法

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻