Nanbeige4精读-尧图手机网站定制

Nanbeige4-3B来自于https://arxiv.org/pdf/2512.06266这篇文章数据方面做的是非常扎实的混合数据过滤技术构建23T高质量语料。遗憾的是只公开了weights并没有公开code。具体来说有下面几个技术PreTrain阶段Hybrid Data FilteringMulti-dimensional tagging从knowdge density、reasoning density、text fluency等60个维度对数据进行了筛选和打分Similarity-based scoring: 在相似度和数据质量上取平衡Fine-Grained Warmup-Stable-Decay (FG-WSD)主要在不同stages混合数据来用不同的learning rate来提升模型的效果。当退火阶段的数据质量足够高时warmup-stable-decay预热-稳定-效果显著优于warmup-cosine-decay所以把warmup-stable-decay当做基础策略。这里的Fine-Grained是在WSD基础上渐进式地选择更高质量的数据作者给了不同的lr的表格如下Post Train阶段划分成了4个阶段Cold Start SFT备了30 million数据细节可以见这个阶段AIME25到了70Overall Supervised Fine-Tuning在获得初始的reason能力后这一步针对general con-versation and writing data (covering everyday dialogue and multiple genres), agent-style interaction data (tool use, task decomposition, planning, and execution), harder reasoning data 等通用能力进行提升这一步长度扩到了64k。同时这部分的数据通过Solution Refinement和Cot Reconstruction这两步来优化数据Solution Refinement 从正确性、完整性、一致性、可执行性与安全性等标准并将每条标准进一步细化为具体的检查点从而实现对候选回答的细粒度评估。Cot Reconstruction 经过多轮审慎优化与重写后尽管最终答案的质量得到大幅提升但原始的思维链往往会被破坏或丢失导致难以获得既能提供高质量最终答案、又具备稳定可学习推理过程的监督信号。为解决这一问题我们额外训练了一个链补全模型。思路是先生成一段摘要能提升后续内容的可跟随性。因此模型会先生成一条简洁的摘要式思维链再生成与最终答案保持一致的显式思维链。这一步同时对MCP协议的函数调用提供了支持Dual-level Preference Distillation双层级偏好蒸馏在优化目标上我们采用联合损失函数将令牌级概率蒸馏与序列级 DPO 偏好损失相结合。在正样本上我们训练学生模型使其在每个令牌位置上匹配教师模型 Nanbeige3.5 Pro 的概率分布。在负样本上我们同样施加蒸馏损失教师模型为学生生成的错误回答提供参考分布降低模型对高置信度错误令牌的概率并提高那些被低估但合理的替代选项的概率。这一设计增强了模型自我纠错和识别错误的能力。以间隔约束形式实现的序列级 DPO 偏好损失会显式拉大正、负回复之间的得分差距从而锐化决策边界并提升风格对齐效果。多个stage的RL阶段On-Policy Data Filtering后一个stage选择前一个stage训练完的准确率介于10%和90%之间的数据Multi-Stage Reinforcement Learning在联合训练高等数学与竞赛编程数据时模型在数学上的提升往往明显优于代码竞赛能力。所以RL过程中每个stage专注于某一个domain设计了多个stages针对code领域系统首先从 GitHub 检索高质量代码片段然后将这些片段优化或演进为独立自洽、可验证的解决方案并生成配套的公开测试函数与私有测试函数。最后所有候选三元组题目、解决方案、测试函数都会通过沙箱执行进行验证以确保可靠性。在强化学习训练期间这些测试函数会被执行并根据生成的解决方案是否通过全部测试提供二值奖励信号。Nanbeige4.1 3B来自https://arxiv.org/pdf/2602.13367和https://mp.weixin.qq.com/s/2aafqNOryRvbTJvC0SjWAgSFT-Point-wise RL-Pair-wise RL和Nanbeige4相比主要改进围绕SFT增加了256k的stage同时调整了数据配比 → Point-wise RL一个prompt多次rollout → Pair-wise RL成对的比较增加一个Reward model同时优化了COT的生成很多模型在推理任务中虽然能够给出正确答案但思维链往往存在跳步、逻辑不连贯甚至是事后补写解释的问题这在小模型下更加明显。为了解决这一现象Nanbeige4.1-3B 升级了 Solution Refinement 与 CoT Reconstruction 两套框架。前者通过增加解答迭代优化的轮次让模型在生成初步答案后进行多轮自我修正从而减少逻辑漏洞并提升推理完整性后者则通过训练更强的思维链重构模型使生成的推理路径更加忠实和一致。编码对于编码来说第一阶段优化正确率第二阶段引入时间复杂度奖励深度搜索在训练阶段系统引入了轮次级turn-level的质量控制机制。模型在每一次搜索交互中的行为都会被独立评估而不仅仅关注最终答案。

LightTools照明设计进阶：从仿真文件到优化引擎的实战解析

1. 从“会建模”到“会设计”：进阶之路的关键一跃很多朋友在用LightTools做照明设计时，可能会陷入一个误区：以为把模型建出来，光线能跑通，就算完成任务了。这其实只是“会建模”，离“会设计”还差得远。我…

2026/7/5 7:09:19 阅读更多 →

$微信小程序中优雅渲染LaTeX公式：基于KaTeX与rich-text的实战指南$

微信小程序中优雅渲染LaTeX公式：基于KaTeX与rich-text的实战指南

1. 为什么要在小程序里折腾LaTeX？ 做教育类、知识分享类或者技术文档类小程序的开发者，估计都遇到过这个头疼的问题：用户上传或者系统需要展示一段复杂的数学公式、物理公式或者化学方程式。你可能会想，这还不简单？直接…

2026/7/4 20:06:37 阅读更多 →

从bat到lua：自动化创建文件夹的进阶玩法（含代码生成器）

从批处理到Lua：构建动态文件夹架构的工程化实践每次接手一个新项目，或者需要为一整年的工作建立文档体系时，最繁琐的步骤之一就是搭建那套初始的文件夹结构。手动一个个点击“新建文件夹”，不仅效率低下，还容易出错。…

2026/7/5 4:19:29 阅读更多 →

ICM-42688-P与PIC18F67K40在工业自动化中的高性能运动检测方案

1. ICM-42688-P与PIC18F67K40的黄金组合解析在工业自动化和机器人控制领域，传感器与微控制器的协同工作能力直接决定了系统的响应速度和测量精度。ICM-42688-P作为TDK InvenSense推出的6轴MEMS运动跟踪传感器，与Microchip的PIC18F67K40微控制器形成的解决…

2026/7/5 7:08:01 阅读更多 →

PUBG罗技鼠标宏压枪脚本：三分钟快速上手终极指南

PUBG罗技鼠标宏压枪脚本：三分钟快速上手终极指南【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生罗技鼠标宏项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 还在为PUBG中难以控制的武器后坐力而…

2026/7/5 7:08:01 阅读更多 →

海光K100_AI单卡全离线部署PPT生成系统

一、引言随着人工智能技术迅猛发展，大语言模型与多模态生成技术的深度融合正在重塑各行各业的创作范式。其中，智能演示文稿（PPT）生成作为AI办公自动化的重要方向，正经历从“模板填充”到“智能体自主创作”的根本性变革…

2026/7/5 7:06:01 阅读更多 →

收放板机如何应对特殊板件——从超薄板到厚铜板的取放策略

背景PCB制造中，收放板机面对的板件规格跨度极大。内层芯板薄至0.05mm，刚性极低，拿在手里都感觉会折；外层厚铜板可达8.0mm，重量大，对夹持力有较高要求。同一台设备要在不同规格之间稳定取放，靠的…

2026/7/5 7:06:01 阅读更多 →

2026年实践，合韵汤泉与海鲜自助结合后表现如何？

2026年，合韵汤泉与海鲜自助结合后的表现非常出色。作为国内首家海洋主题微度假汤泉生活馆，北京合韵汤泉通过引入海鲜自助等高端餐饮服务，不仅提升了顾客的整体体验，还显著增加了其市场竞争力。表现亮点提升综合体验：海…

2026/7/5 7:04:00 阅读更多 →

Python社交网络分析：从脏数据清洗到图构建的七道硬核工序

1. 这不是“画个关系图”就完事的——为什么用Python做社交网络分析，90%的人连数据清洗这关都过不去“Social Network Analysis in Python”这个标题听起来很学术、很技术，但如果你真把它当成一门“学几个networkx函数就能发论文”的速成课，那…

2026/7/5 7:02:00 阅读更多 →

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱，支持下载视频、番剧等等各类资源项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

威胁模型的陌生现状在忙碌疲惫的一天里，参与了关于混合后量子密码学的讨论，应付端点攻击找茬的人，还参与留言板讨论后，发现“威胁模型”对多数人仍是陌生概念，且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →

渗透测试入门指南：从零基础到实战环境搭建

1. 从“看热闹”到“入门”：我理解的渗透测试到底是什么？每次看到新闻里说某个大公司的数据被“黑”了，或者某个网站被攻击导致服务瘫痪，你是不是和我一样，心里会冒出两个念头：一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

2026/7/5 0:03:34 阅读更多 →

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

2026/7/5 0:03:34 阅读更多 →

渗透测试入门指南：从零基础到实战环境搭建

2026/7/5 0:07:38 阅读更多 →

Nanbeige4精读

相关新闻

LightTools照明设计进阶：从仿真文件到优化引擎的实战解析

微信小程序中优雅渲染LaTeX公式：基于KaTeX与rich-text的实战指南

从bat到lua：自动化创建文件夹的进阶玩法（含代码生成器）

最新新闻

ICM-42688-P与PIC18F67K40在工业自动化中的高性能运动检测方案

PUBG罗技鼠标宏压枪脚本：三分钟快速上手终极指南

海光K100_AI单卡全离线部署PPT生成系统

收放板机如何应对特殊板件——从超薄板到厚铜板的取放策略

2026年实践，合韵汤泉与海鲜自助结合后表现如何？

Python社交网络分析：从脏数据清洗到图构建的七道硬核工序

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻