MiniCPM-SALA:让Transformer在百万token下跑起来
MiniCPM-SALA让Transformer在百万token下跑起来一句话总结混合稀疏注意力和线性注意力1:3比例用持续训练降低75%成本在消费级显卡上支持1M token上下文。 为什么Transformer吃不了长文本Transformer的自注意力机制有一个致命伤复杂度随序列长度平方增长。传统注意力的计算量O ( N 2 × d ) O(N^2 \times d)O(N2×d)当N128K时计算量是N4K时的1024倍。这导致128K tokens在消费级显卡上直接OOM256K tokens在专业显卡上也吃不消1M tokens想都别想现有的解决方案各有取舍方案复杂度优点缺点全注意力O ( N 2 ) O(N^2)O(N2)最高精度内存爆炸滑动窗口O ( N W ) O(NW)O(NW)局部高效全局信息丢失线性注意力O ( N ) O(N)O(N)全局高效精度下降稀疏注意力O ( N N ) O(N\sqrt{N})O(NN​)平衡精度和效率复杂度高核心矛盾线性注意力效率高但精度差稀疏注意力精度好但实现复杂。有没有办法鱼和熊掌兼得这就是MiniCPM-SALA要解决的问题。 核心设计1:3混合架构架构概览图1MiniCPM-SALA的混合架构设计。25%的层使用稀疏注意力InfLLM-V275%的层使用线性注意力Lightning Attention。MiniCPM-SALA采用分工合作的策略┌─────────────────────────────────────────────────────┐ │ Layer 0: Lightning Attention (线性注意力) │ 高效全局建模 ├─────────────────────────────────────────────────────┤ │ Layer 1: Lightning Attention │ 高效全局建模 ├─────────────────────────────────────────────────────┤ │ Layer 2: Lightning Attention │ 高效全局建模 ├─────────────────────────────────────────────────────┤ │ Layer 3: InfLLM-V2 (稀疏注意力) │ 高保真局部精确 ├─────────────────────────────────────────────────────┤ │ Layer 4: Lightning Attention │ 高效全局建模 ├─────────────────────────────────────────────────────┤ │ ... 每4层重复一次 ... │ └─────────────────────────────────────────────────────┘为什么是1:3论文通过实验发现稀疏注意力太少如1:7长上下文精度不够稀疏注意力太多如1:1效率优势不明显1:3是帕累托最优精度与效率的最佳平衡这就像团队分工25%的专家负责高难度细节稀疏注意力75%的工兵负责大面积覆盖线性注意力既保证质量又保证效率两种注意力机制详解线性注意力Lightning Attention核心思想把注意力的softmax分解利用矩阵乘法结合律降维传统注意力Attention ( Q , K , V ) softmax ( Q K T ) V \text{Attention}(Q, K, V) \text{softmax}(QK^T)VAttention(Q,K,V)softmax(QKT)V复杂度O ( N 2 × d ) O(N^2 \times d)O(N2×d)线性注意力LinearAttn ( Q , K , V ) ϕ ( Q ) ( ϕ ( K ) T V ) \text{LinearAttn}(Q, K, V) \phi(Q)(\phi(K)^T V)LinearAttn(Q,K,V)ϕ(Q)(ϕ(K)TV)复杂度O ( N × d 2 ) O(N \times d^2)O(N×d2)其中ϕ \phiϕ是特征映射函数如ELU1。关键优化利用cumsum实现left-to-right扫描复杂度真正降到O ( N ) O(N)O(N)在MiniCPM-SALA中线性注意力层负责全局信息整合稀疏注意力InfLLM-V2核心思想只关注关键token忽略无关信息图2InfLLM-V2的稀疏注意力模式。每个token只关注局部窗口全局关键token大幅减少计算量。InfLLM-V2的注意力模式局部窗口关注最近的W个token如W1024全局关键token通过评分机制选出全局重要的token分块策略将序列分成块每个块维护一个代表这就像读书线性注意力快速浏览全文抓住大意稀疏注意力精读关键段落确保细节HyPE混合位置编码这是论文的一个关键创新。传统做法所有层都用RoPE旋转位置编码。问题RoPE在超长上下文中会导致信息衰减。位置越远信号越弱。HyPE的设计层类型位置编码原因线性注意力层RoPE保持位置敏感记忆稀疏注意力层无RoPE防止长距离信息衰减直觉理解线性注意力需要位置信息来区分不同位置的内容稀疏注意力已经通过关键token机制定位重要信息不需要额外位置编码干扰这个设计的精妙之处在于差异化处理不同层有不同的职责因此需要不同的工具。其他架构改进QK-Normalization在长上下文训练中Q和K的点积会产生巨大的激活值尖峰导致训练不稳定。论文在所有注意力层加入QK归一化缓解这个问题。输出门Output Gate每个注意力块后加入输出门缓解注意力汇聚问题——即所有token的注意力都集中在某几个token上导致信息压缩过度。 训练策略75%成本降低的秘密HALO框架Transformer转HybridMiniCPM-SALA不是从头训练的而是基于MiniCPM-4.0的预训练检查点改装。图3从Transformer到混合架构的持续训练流程。5个阶段逐步扩展上下文长度总成本约2T tokens。传统做法从头训练一个混合架构模型成本约8T tokens问题收敛慢不稳定HALO做法将预训练的Transformer转换为混合架构成本约2T tokens优势利用已有知识快速收敛转换过程原始: [Attention] → [Attention] → [Attention] → [Attention] → ... ↓ HALO转换 混合: [Linear] → [Linear] → [Linear] → [Sparse] → [Linear] → ...五阶段训练流程阶段目标序列长度数据量1. 架构转换Softmax→线性注意力0.5K1.3B tokens2. 稳定训练协调各组件4K314.6B tokens3. 短衰减训练提升质量4K1006.6B tokens4. 长衰减训练扩展上下文32K→520K102.2B-50.6B tokens5. SFT下游任务适应64K→140K~100B tokens关键设计先在短序列上稳定混合架构逐步扩展序列长度避免一次性跳跃在超长序列训练阶段才启用稀疏注意力成本对比从头训练~8T tokensHALO持续训练~2T tokens节省75% 实验结果效率与精度的双赢通用能力没有妥协混合架构会不会牺牲通用能力论文用标准基准测试验证任务MiniCPM-SALAQwen3-8B差异HumanEval (代码)95.1292.52.6MBPP (代码)89.1187.21.9AIME24 (数学)83.7580.13.7AIME25 (数学)78.3375.23.1CMMLU (知识)81.5579.81.8BBH (推理)81.5580.21.4平均76.5374.22.3结论MiniCPM-SALA不仅没有损失通用能力反而略有提升。这说明混合架构是加法不是替换。长上下文能力惊艳的外推这是MiniCPM-SALA的核心亮点。图4RULER大海捞针类任务在不同上下文长度下的表现。MiniCPM-SALA训练到520K但在2048K下仍保持高精度。训练长度 vs 测试长度模型训练长度128K512K1024K2048KMiniCPM-SALA520K89.3786.286.381.6Qwen3-8B128K85.2OOMOOMOOMQwen3-Next-80B?87.583.180.3-关键发现MiniCPM-SALA训练长度520K但测试能到2048K2M tokens在1024K下9B参数的MiniCPM-SALA超过80B参数的Qwen3-NextQwen3-8B在512K就OOM了为什么外推这么强论文归功于HyPE设计稀疏注意力层移除RoPE后不再受位置编码的外推限制。这就像取消了最大读取范围的限制模型可以看得更远。推理效率3.5倍速度提升图5不同序列长度下的首字延迟TTFT。MiniCPM-SALA在256K时比Qwen3-8B快3.5倍。A6000D (96GB) 上的结果序列长度Qwen3-8BMiniCPM-SALA加速比64K12.3s5.8s2.1x128K45.6s14.2s3.2x256K180.8s51.6s3.5x512KOOM142.3s-1024KOOM523.1s-RTX 5090 (32GB消费级显卡)序列长度Qwen3-8B (量化)MiniCPM-SALA64K成功成功128KOOM成功256KOOM (量化后)成功512KOOM成功1024KOOM成功关键突破MiniCPM-SALA在消费级显卡上成功运行1M token上下文无需量化。这是全注意力8B模型无法做到的。 我的观点和启发混合架构的哲学MiniCPM-SALA的成功揭示了一个重要原则不同任务需要不同的机制。线性注意力擅长全局信息整合快速扫描大量数据效率优先的场景稀疏注意力擅长精确检索关键信息高保真局部建模精度优先的场景与其争论谁更好不如各取所长。这让我想到软件开发中的微服务架构不同的服务用不同的技术栈而不是强求统一。HyPE的创新意义HyPE混合位置编码是这篇论文最精妙的创新之一。传统观念所有层都要用位置编码否则模型不知道位置。HyPE的观点位置编码是双刃剑。在稀疏注意力层位置编码反而限制了对远距离信息的访问。这让我想到一个类比传统做法给每个人发GPS但GPS在偏远地区没信号HyPE做法给部分人发GPS其他人靠路标导航“路标就是稀疏注意力中的关键token机制不需要精确位置只需要知道方向”。外推能力的工程价值MiniCPM-SALA训练到520K但能处理2048K。这种外推能力有巨大的工程价值场景1长文档处理训练时只见过~50万字的文档部署时可以处理200万字的书场景2多轮对话训练时的对话历史有限部署时可以支持更长的对话历史场景3代码仓库分析训练时的代码文件有限部署时可以分析更大的代码库这种训练一次受益长期的特性大大提高了模型的经济效益。局限性和未来方向论文也坦诚指出了几个局限训练成本仍然较高2T tokens虽然比8T省很多但仍然需要大量资源实现复杂度混合架构比单一架构更难实现和调试超参敏感1:3的比例是否对所有模型都最优需要更多实验我认为几个值得探索的方向方向1自适应比例目前1:3是固定的。是否可以根据任务动态调整比如代码任务增加稀疏注意力比例需要精确检索对话任务增加线性注意力比例需要全局理解方向2更细粒度的混合目前是层级别混合。是否可以在注意力头级别混合某些头用线性某些头用稀疏方向3端到端训练目前是HALO转换。是否可以直接从头训练混合架构同时优化稀疏注意力和线性注意力的参数 详细数据内存与速度分析内存占用对比模型64K内存128K内存256K内存512K内存1M内存Qwen3-8B (全注意力)18.2GB42.5GB128.3GBOOMOOMMiniCPM-SALA6.8GB11.2GB20.1GB38.6GB72.3GB节省62.6%73.6%84.3%--吞吐量对比tokens/s序列长度Qwen3-8BMiniCPM-SALA加速比4K284529211.03x16K89210561.18x64K1563122.00x128K421242.95x256K12423.50x随着序列长度增加加速比越来越显著。这正是混合架构的优势所在。 总结MiniCPM-SALA这篇论文展示了如何通过架构创新而非单纯的模型扩大来解决长上下文问题。核心贡献1:3混合架构稀疏注意力保精度线性注意力保效率HyPE位置编码差异化处理解决外推瓶颈HALO持续训练从Transformer改装节省75%成本工程落地消费级显卡跑1M token实验结果证明效率和精度可以兼得。MiniCPM-SALA在通用能力上与全注意力模型相当在长上下文能力上更强同时推理速度提升3.5倍。对于LLM开发者这篇论文的启示是不要执着于单一架构不同机制适合不同任务重视位置编码的影响RoPE在长上下文中是双刃剑持续训练比从零开始更高效利用已有检查点外推能力有工程价值训练一次长期受益长上下文是LLM的核心能力之一。MiniCPM-SALA提供了一个可行的技术路径通过混合架构突破Transformer的效率瓶颈让百万token的上下文成为现实。 参考资料论文原文MiniCPM-SALA: Hybridizing Sparse and Linear AttentionInfLLMLeave No Context BehindLightning AttentionLinear Attention with Efficient ImplementationMiniCPM系列面向端侧的高效LLMRoPE位置编码Rotary Position Embedding

相关新闻

[特殊字符] 龙魂系统第三层:边界、自检、护栏机制

[特殊字符] 龙魂系统第三层:边界、自检、护栏机制

🐉 龙魂系统第三层:边界、自检、护栏机制 DNA追溯码:#龍芯⚡️2026-02-21-THIRD-LAYER-v1.0 确认码:#CONFIRM🌌9622-ONLY-ONCE🧬SAFEGUARD-001 献给:所有相信"爱结构"的人&#x1f3a…

2026/7/6 2:52:52 阅读更多 →
php方案 Redis Sentinel故障转移

php方案 Redis Sentinel故障转移

<?php /*** Redis Sentinel 完整实现 - 自动故障转移*/class RedisSentinelClient {private $sentinels;private $masterName;private $redis;private $timeout 2;public function __construct($sentinels, $masterName mymaster) {$this->sentinels $sentinels; // …

2026/7/3 0:55:49 阅读更多 →
【全局敏感性分析】对使用SWAT的高参数化模型,PAWN与Sobol敏感性分析方法的比较研究附Matlab代码

【全局敏感性分析】对使用SWAT的高参数化模型,PAWN与Sobol敏感性分析方法的比较研究附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。&#x1f34e; 往期回顾关注个人主页&#xff1a;Matlab科研工作室&#x1f447; 关注我领取海量matlab电子书和…

2026/5/17 5:57:34 阅读更多 →

最新新闻

卡梅德生物技术快报| KM13 辅助噬菌体的天然 VHH 噬菌体文库全套构建流程与数据验证

卡梅德生物技术快报| KM13 辅助噬菌体的天然 VHH 噬菌体文库全套构建流程与数据验证

一、提出问题&#xff1a;实验室自建纳米抗体文库常遇四大工程化痛点 食品检测实验室自主构建 VHH 噬菌体文库时&#xff0c;普遍存在工程化落地难题&#xff1a;其一&#xff0c;普通单轮 PCR 扩增 VHH 基因存在大量缺失&#xff0c;文库多样性不足&#xff1b;其二&#xff…

2026/7/6 2:51:55 阅读更多 →
Variance Reduction with Baseline 补充 - 加基线使得方差降低

Variance Reduction with Baseline 补充 - 加基线使得方差降低

什么叫基线 基线就是一个只和当前状态s有关、和动作a无关的数值 b(s)&#xff0c;用来做 “参考平均分”假设某状态s平均长期收益 b(s)10 某条轨迹 G_t18&#xff1a;A_t18-108>0&#xff0c;动作比平均更好&#xff0c;加大该动作概率 某条轨迹 G_t3&#xff1a;A_t3-10-7…

2026/7/6 2:51:55 阅读更多 →
MP1584 降压电源 PCB 布局 5 大要点:实测 SW 节点尖峰降低 60%

MP1584 降压电源 PCB 布局 5 大要点:实测 SW 节点尖峰降低 60%

MP1584降压电源PCB布局实战&#xff1a;5大核心技巧让SW节点尖峰直降60%作为一名长期奋战在电源设计一线的工程师&#xff0c;我深知PCB布局对开关电源性能的决定性影响。今天我们就以MP1584这款经典降压芯片为例&#xff0c;通过实测数据揭示那些手册上不会告诉你的布局奥秘。…

2026/7/6 2:49:55 阅读更多 →
非线性字符串数据结构串讲

非线性字符串数据结构串讲

书接去年&#xff0c;今天作业不想写了&#xff0c;滚过来写总结。顺便保留我刚略微学会的串串。 声明&#xff1a;作者由于水平不高&#xff0c;所以有些定理不能严谨证明&#xff0c;所以若是初学者请移步别处。 1.Trie树 定义 Trie树又叫字典树&#xff0c;是非常显然的…

2026/7/6 2:47:55 阅读更多 →
Lemos知识库-AI+知识图谱驱动智能脑进化

Lemos知识库-AI+知识图谱驱动智能脑进化

Lemos 通过其“AI知识图谱”双引擎&#xff0c;将传统的静态知识库转变为动态智能脑&#xff0c;其核心转变体现在知识单元、组织逻辑、构建方式、交互模式、演化能力及最终目标六个层面。 转变维度传统静态知识库 (以Ima为例)Lemos 动态智能脑实现转变的关键机制知识单元原子…

2026/7/6 2:47:55 阅读更多 →
2026年实用指南3个复习笔记使用场景选择标准帮你精准适配需求

2026年实用指南3个复习笔记使用场景选择标准帮你精准适配需求

"这篇就是给只会把复习笔记当抄板书草稿本的学生&#xff0c;整理了2026年实用的3个复习笔记使用场景选择标准&#xff0c;精准对应学生最常用的课堂复习、论文调研、知识自测三类需求&#xff0c;解决大家只会用基础功能、记了白记复习低效的痛点&#xff0c;每一个标准都…

2026/7/6 2:47:54 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性&#xff1a;5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域&#xff0c;单元测试是保证代码质量的重要环节。当应用涉及数据库操作时&#xff0c;测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南&#xff1a;用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南&#xff1a;告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况&#xff1a;下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools&#xff1a;5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱&#xff0c;支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里&#xff0c;参与了关于混合后量子密码学的讨论&#xff0c;应付端点攻击找茬的人&#xff0c;还参与留言板讨论后&#xff0c;发现“威胁模型”对多数人仍是陌生概念&#xff0c;且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”&#xff1a;我理解的渗透测试到底是什么&#xff1f;每次看到新闻里说某个大公司的数据被“黑”了&#xff0c;或者某个网站被攻击导致服务瘫痪&#xff0c;你是不是和我一样&#xff0c;心里会冒出两个念头&#xff1a;一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻