Nanbeige4精读
Nanbeige4-3B来自于https://arxiv.org/pdf/2512.06266这篇文章数据方面做的是非常扎实的混合数据过滤技术构建23T高质量语料。遗憾的是只公开了weights并没有公开code。具体来说有下面几个技术PreTrain阶段Hybrid Data FilteringMulti-dimensional tagging从knowdge density、reasoning density、text fluency等60个维度对数据进行了筛选和打分Similarity-based scoring: 在相似度和数据质量上取平衡Fine-Grained Warmup-Stable-Decay (FG-WSD)主要在不同stages混合数据来用不同的learning rate来提升模型的效果。当退火阶段的数据质量足够高时warmup-stable-decay预热-稳定-效果显著优于warmup-cosine-decay所以把warmup-stable-decay当做基础策略。这里的Fine-Grained是在WSD基础上渐进式地选择更高质量的数据作者给了不同的lr的表格如下Post Train阶段划分成了4个阶段Cold Start SFT备了30 million数据细节可以见这个阶段AIME25到了70Overall Supervised Fine-Tuning在获得初始的reason能力后这一步针对general con-versation and writing data (covering everyday dialogue and multiple genres), agent-style interaction data (tool use, task decomposition, planning, and execution), harder reasoning data 等通用能力进行提升这一步长度扩到了64k。同时这部分的数据通过Solution Refinement和Cot Reconstruction这两步来优化数据Solution Refinement 从正确性、完整性、一致性、可执行性与安全性等标准并将每条标准进一步细化为具体的检查点从而实现对候选回答的细粒度评估。Cot Reconstruction 经过多轮审慎优化与重写后尽管最终答案的质量得到大幅提升但原始的思维链往往会被破坏或丢失导致难以获得既能提供高质量最终答案、又具备稳定可学习推理过程的监督信号。为解决这一问题我们额外训练了一个链补全模型。思路是先生成一段摘要能提升后续内容的可跟随性。因此模型会先生成一条简洁的摘要式思维链再生成与最终答案保持一致的显式思维链。这一步同时对MCP协议的函数调用提供了支持Dual-level Preference Distillation双层级偏好蒸馏在优化目标上我们采用联合损失函数将令牌级概率蒸馏与序列级 DPO 偏好损失相结合。在正样本上我们训练学生模型使其在每个令牌位置上匹配教师模型 Nanbeige3.5 Pro 的概率分布。在负样本上我们同样施加蒸馏损失教师模型为学生生成的错误回答提供参考分布降低模型对高置信度错误令牌的概率并提高那些被低估但合理的替代选项的概率。这一设计增强了模型自我纠错和识别错误的能力。以间隔约束形式实现的序列级 DPO 偏好损失会显式拉大正、负回复之间的得分差距从而锐化决策边界并提升风格对齐效果。多个stage的RL阶段On-Policy Data Filtering后一个stage选择前一个stage训练完的准确率介于10%和90%之间的数据Multi-Stage Reinforcement Learning在联合训练高等数学与竞赛编程数据时模型在数学上的提升往往明显优于代码竞赛能力。所以RL过程中每个stage专注于某一个domain设计了多个stages针对code领域系统首先从 GitHub 检索高质量代码片段然后将这些片段优化或演进为独立自洽、可验证的解决方案并生成配套的公开测试函数与私有测试函数。最后所有候选三元组题目、解决方案、测试函数都会通过沙箱执行进行验证以确保可靠性。在强化学习训练期间这些测试函数会被执行并根据生成的解决方案是否通过全部测试提供二值奖励信号。Nanbeige4.1 3B来自https://arxiv.org/pdf/2602.13367和https://mp.weixin.qq.com/s/2aafqNOryRvbTJvC0SjWAgSFT-Point-wise RL-Pair-wise RL和Nanbeige4相比主要改进围绕SFT增加了256k的stage同时调整了数据配比 → Point-wise RL一个prompt多次rollout → Pair-wise RL成对的比较增加一个Reward model同时优化了COT的生成很多模型在推理任务中虽然能够给出正确答案但思维链往往存在跳步、逻辑不连贯甚至是事后补写解释的问题这在小模型下更加明显。为了解决这一现象Nanbeige4.1-3B 升级了 Solution Refinement 与 CoT Reconstruction 两套框架。前者通过增加解答迭代优化的轮次让模型在生成初步答案后进行多轮自我修正从而减少逻辑漏洞并提升推理完整性后者则通过训练更强的思维链重构模型使生成的推理路径更加忠实和一致。编码对于编码来说第一阶段优化正确率第二阶段引入时间复杂度奖励深度搜索在训练阶段系统引入了轮次级turn-level的质量控制机制。模型在每一次搜索交互中的行为都会被独立评估而不仅仅关注最终答案。

相关新闻

LightTools照明设计进阶:从仿真文件到优化引擎的实战解析

LightTools照明设计进阶:从仿真文件到优化引擎的实战解析

1. 从“会建模”到“会设计”:进阶之路的关键一跃 很多朋友在用LightTools做照明设计时,可能会陷入一个误区:以为把模型建出来,光线能跑通,就算完成任务了。这其实只是“会建模”,离“会设计”还差得远。我…

2026/7/3 23:02:59 阅读更多 →
微信小程序中优雅渲染LaTeX公式:基于KaTeX与rich-text的实战指南

微信小程序中优雅渲染LaTeX公式:基于KaTeX与rich-text的实战指南

1. 为什么要在小程序里折腾LaTeX? 做教育类、知识分享类或者技术文档类小程序的开发者,估计都遇到过这个头疼的问题:用户上传或者系统需要展示一段复杂的数学公式、物理公式或者化学方程式。你可能会想,这还不简单?直接…

2026/7/4 20:06:37 阅读更多 →
从bat到lua:自动化创建文件夹的进阶玩法(含代码生成器)

从bat到lua:自动化创建文件夹的进阶玩法(含代码生成器)

从批处理到Lua:构建动态文件夹架构的工程化实践 每次接手一个新项目,或者需要为一整年的工作建立文档体系时,最繁琐的步骤之一就是搭建那套初始的文件夹结构。手动一个个点击“新建文件夹”,不仅效率低下,还容易出错。…

2026/7/5 4:19:29 阅读更多 →

最新新闻

微信好友关系检测神器:一键找出偷偷删掉或拉黑你的人 [特殊字符]

微信好友关系检测神器:一键找出偷偷删掉或拉黑你的人 [特殊字符]

微信好友关系检测神器:一键找出偷偷删掉或拉黑你的人 😱 【免费下载链接】WechatRealFriends 微信好友关系一键检测,基于微信ipad协议,看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRe…

2026/7/5 5:51:45 阅读更多 →
Git 功能发展历史

Git 功能发展历史

目录 Git 的诞生与设计哲学2005—2008:从原型到 1.0 的奠基期Git 1.5—1.9:基础功能完善期Git 2.0:里程碑式的行为变更Git 2.1—2.22:渐进式改进与体验优化Git 2.23:switch 与 restore 的引入Git 2.24—2.29&#xff…

2026/7/5 5:49:45 阅读更多 →
终极解决方案:KMS智能激活脚本完整指南 - 彻底告别Windows和Office激活烦恼

终极解决方案:KMS智能激活脚本完整指南 - 彻底告别Windows和Office激活烦恼

终极解决方案:KMS智能激活脚本完整指南 - 彻底告别Windows和Office激活烦恼 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出激活提示而烦恼吗?…

2026/7/5 5:47:45 阅读更多 →
受够了记账 App 的广告和会员,我自己写了一个:完全免费、数据 100% 在本地、开源

受够了记账 App 的广告和会员,我自己写了一个:完全免费、数据 100% 在本地、开源

受够了记账 App 的广告和会员,我自己写了一个:完全免费、数据 100% 在本地、开源 先说结论:这是一个没有广告、没有会员、没有内购、不需要注册、不联网上传任何数据的记账 App。代码开源在 GitHub,Android 安装包直接从 Release…

2026/7/5 5:45:44 阅读更多 →
PyInstaller 打包 exe 图标不显示问题(AI生成)

PyInstaller 打包 exe 图标不显示问题(AI生成)

# PyInstaller 打包 exe 图标不显示?这篇文章帮你彻底解决!## 🔍 问题背景最近在用 PyInstaller 打包一个 PySide6 项目时,遇到了一个非常头疼的问题:**设置了图标但 exe 文件始终不显示**。经过一番折腾,终…

2026/7/5 5:45:44 阅读更多 →
知网查重太贵?2026年免费论文查重渠道汇总+PaperRed隐藏功能曝光

知网查重太贵?2026年免费论文查重渠道汇总+PaperRed隐藏功能曝光

2026年毕业季,知网查重一次要多少钱?答案是:本科论文约100-200元,硕博论文200-400元。而且很多学校只给1-2次免费查重机会,用完之后就得自费。对于预算有限的学生来说,这笔开销不算小。更让人头疼的是&…

2026/7/5 5:43:44 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻