Nanbeige4-3B来自于https://arxiv.org/pdf/2512.06266这篇文章数据方面做的是非常扎实的混合数据过滤技术构建23T高质量语料。遗憾的是只公开了weights并没有公开code。具体来说有下面几个技术PreTrain阶段Hybrid Data FilteringMulti-dimensional tagging从knowdge density、reasoning density、text fluency等60个维度对数据进行了筛选和打分Similarity-based scoring: 在相似度和数据质量上取平衡Fine-Grained Warmup-Stable-Decay (FG-WSD)主要在不同stages混合数据来用不同的learning rate来提升模型的效果。当退火阶段的数据质量足够高时warmup-stable-decay预热-稳定-效果显著优于warmup-cosine-decay所以把warmup-stable-decay当做基础策略。这里的Fine-Grained是在WSD基础上渐进式地选择更高质量的数据作者给了不同的lr的表格如下Post Train阶段划分成了4个阶段Cold Start SFT备了30 million数据细节可以见这个阶段AIME25到了70Overall Supervised Fine-Tuning在获得初始的reason能力后这一步针对general con-versation and writing data (covering everyday dialogue and multiple genres), agent-style interaction data (tool use, task decomposition, planning, and execution), harder reasoning data 等通用能力进行提升这一步长度扩到了64k。同时这部分的数据通过Solution Refinement和Cot Reconstruction这两步来优化数据Solution Refinement 从正确性、完整性、一致性、可执行性与安全性等标准并将每条标准进一步细化为具体的检查点从而实现对候选回答的细粒度评估。Cot Reconstruction 经过多轮审慎优化与重写后尽管最终答案的质量得到大幅提升但原始的思维链往往会被破坏或丢失导致难以获得既能提供高质量最终答案、又具备稳定可学习推理过程的监督信号。为解决这一问题我们额外训练了一个链补全模型。思路是先生成一段摘要能提升后续内容的可跟随性。因此模型会先生成一条简洁的摘要式思维链再生成与最终答案保持一致的显式思维链。这一步同时对MCP协议的函数调用提供了支持Dual-level Preference Distillation双层级偏好蒸馏在优化目标上我们采用联合损失函数将令牌级概率蒸馏与序列级 DPO 偏好损失相结合。在正样本上我们训练学生模型使其在每个令牌位置上匹配教师模型 Nanbeige3.5 Pro 的概率分布。在负样本上我们同样施加蒸馏损失教师模型为学生生成的错误回答提供参考分布降低模型对高置信度错误令牌的概率并提高那些被低估但合理的替代选项的概率。这一设计增强了模型自我纠错和识别错误的能力。以间隔约束形式实现的序列级 DPO 偏好损失会显式拉大正、负回复之间的得分差距从而锐化决策边界并提升风格对齐效果。多个stage的RL阶段On-Policy Data Filtering后一个stage选择前一个stage训练完的准确率介于10%和90%之间的数据Multi-Stage Reinforcement Learning在联合训练高等数学与竞赛编程数据时模型在数学上的提升往往明显优于代码竞赛能力。所以RL过程中每个stage专注于某一个domain设计了多个stages针对code领域系统首先从 GitHub 检索高质量代码片段然后将这些片段优化或演进为独立自洽、可验证的解决方案并生成配套的公开测试函数与私有测试函数。最后所有候选三元组题目、解决方案、测试函数都会通过沙箱执行进行验证以确保可靠性。在强化学习训练期间这些测试函数会被执行并根据生成的解决方案是否通过全部测试提供二值奖励信号。Nanbeige4.1 3B来自https://arxiv.org/pdf/2602.13367和https://mp.weixin.qq.com/s/2aafqNOryRvbTJvC0SjWAgSFT-Point-wise RL-Pair-wise RL和Nanbeige4相比主要改进围绕SFT增加了256k的stage同时调整了数据配比 → Point-wise RL一个prompt多次rollout → Pair-wise RL成对的比较增加一个Reward model同时优化了COT的生成很多模型在推理任务中虽然能够给出正确答案但思维链往往存在跳步、逻辑不连贯甚至是事后补写解释的问题这在小模型下更加明显。为了解决这一现象Nanbeige4.1-3B 升级了 Solution Refinement 与 CoT Reconstruction 两套框架。前者通过增加解答迭代优化的轮次让模型在生成初步答案后进行多轮自我修正从而减少逻辑漏洞并提升推理完整性后者则通过训练更强的思维链重构模型使生成的推理路径更加忠实和一致。编码对于编码来说第一阶段优化正确率第二阶段引入时间复杂度奖励深度搜索在训练阶段系统引入了轮次级turn-level的质量控制机制。模型在每一次搜索交互中的行为都会被独立评估而不仅仅关注最终答案。