MiniCPM-SALA：让Transformer在百万token下跑起来-尧图手机网站定制

MiniCPM-SALA让Transformer在百万token下跑起来一句话总结混合稀疏注意力和线性注意力1:3比例用持续训练降低75%成本在消费级显卡上支持1M token上下文。为什么Transformer吃不了长文本Transformer的自注意力机制有一个致命伤复杂度随序列长度平方增长。传统注意力的计算量O ( N 2 × d ) O(N^2 \times d)O(N2×d)当N128K时计算量是N4K时的1024倍。这导致128K tokens在消费级显卡上直接OOM256K tokens在专业显卡上也吃不消1M tokens想都别想现有的解决方案各有取舍方案复杂度优点缺点全注意力O ( N 2 ) O(N^2)O(N2)最高精度内存爆炸滑动窗口O ( N W ) O(NW)O(NW)局部高效全局信息丢失线性注意力O ( N ) O(N)O(N)全局高效精度下降稀疏注意力O ( N N ) O(N\sqrt{N})O(NN)平衡精度和效率复杂度高核心矛盾线性注意力效率高但精度差稀疏注意力精度好但实现复杂。有没有办法鱼和熊掌兼得这就是MiniCPM-SALA要解决的问题。核心设计1:3混合架构架构概览图1MiniCPM-SALA的混合架构设计。25%的层使用稀疏注意力InfLLM-V275%的层使用线性注意力Lightning Attention。MiniCPM-SALA采用分工合作的策略┌─────────────────────────────────────────────────────┐ │ Layer 0: Lightning Attention (线性注意力) │ 高效全局建模 ├─────────────────────────────────────────────────────┤ │ Layer 1: Lightning Attention │ 高效全局建模 ├─────────────────────────────────────────────────────┤ │ Layer 2: Lightning Attention │ 高效全局建模 ├─────────────────────────────────────────────────────┤ │ Layer 3: InfLLM-V2 (稀疏注意力) │ 高保真局部精确 ├─────────────────────────────────────────────────────┤ │ Layer 4: Lightning Attention │ 高效全局建模 ├─────────────────────────────────────────────────────┤ │ ... 每4层重复一次 ... │ └─────────────────────────────────────────────────────┘为什么是1:3论文通过实验发现稀疏注意力太少如1:7长上下文精度不够稀疏注意力太多如1:1效率优势不明显1:3是帕累托最优精度与效率的最佳平衡这就像团队分工25%的专家负责高难度细节稀疏注意力75%的工兵负责大面积覆盖线性注意力既保证质量又保证效率两种注意力机制详解线性注意力Lightning Attention核心思想把注意力的softmax分解利用矩阵乘法结合律降维传统注意力Attention ( Q , K , V ) softmax ( Q K T ) V \text{Attention}(Q, K, V) \text{softmax}(QK^T)VAttention(Q,K,V)softmax(QKT)V复杂度O ( N 2 × d ) O(N^2 \times d)O(N2×d)线性注意力LinearAttn ( Q , K , V ) ϕ ( Q ) ( ϕ ( K ) T V ) \text{LinearAttn}(Q, K, V) \phi(Q)(\phi(K)^T V)LinearAttn(Q,K,V)ϕ(Q)(ϕ(K)TV)复杂度O ( N × d 2 ) O(N \times d^2)O(N×d2)其中ϕ \phiϕ是特征映射函数如ELU1。关键优化利用cumsum实现left-to-right扫描复杂度真正降到O ( N ) O(N)O(N)在MiniCPM-SALA中线性注意力层负责全局信息整合稀疏注意力InfLLM-V2核心思想只关注关键token忽略无关信息图2InfLLM-V2的稀疏注意力模式。每个token只关注局部窗口全局关键token大幅减少计算量。InfLLM-V2的注意力模式局部窗口关注最近的W个token如W1024全局关键token通过评分机制选出全局重要的token分块策略将序列分成块每个块维护一个代表这就像读书线性注意力快速浏览全文抓住大意稀疏注意力精读关键段落确保细节HyPE混合位置编码这是论文的一个关键创新。传统做法所有层都用RoPE旋转位置编码。问题RoPE在超长上下文中会导致信息衰减。位置越远信号越弱。HyPE的设计层类型位置编码原因线性注意力层RoPE保持位置敏感记忆稀疏注意力层无RoPE防止长距离信息衰减直觉理解线性注意力需要位置信息来区分不同位置的内容稀疏注意力已经通过关键token机制定位重要信息不需要额外位置编码干扰这个设计的精妙之处在于差异化处理不同层有不同的职责因此需要不同的工具。其他架构改进QK-Normalization在长上下文训练中Q和K的点积会产生巨大的激活值尖峰导致训练不稳定。论文在所有注意力层加入QK归一化缓解这个问题。输出门Output Gate每个注意力块后加入输出门缓解注意力汇聚问题——即所有token的注意力都集中在某几个token上导致信息压缩过度。训练策略75%成本降低的秘密HALO框架Transformer转HybridMiniCPM-SALA不是从头训练的而是基于MiniCPM-4.0的预训练检查点改装。图3从Transformer到混合架构的持续训练流程。5个阶段逐步扩展上下文长度总成本约2T tokens。传统做法从头训练一个混合架构模型成本约8T tokens问题收敛慢不稳定HALO做法将预训练的Transformer转换为混合架构成本约2T tokens优势利用已有知识快速收敛转换过程原始: [Attention] → [Attention] → [Attention] → [Attention] → ... ↓ HALO转换混合: [Linear] → [Linear] → [Linear] → [Sparse] → [Linear] → ...五阶段训练流程阶段目标序列长度数据量1. 架构转换Softmax→线性注意力0.5K1.3B tokens2. 稳定训练协调各组件4K314.6B tokens3. 短衰减训练提升质量4K1006.6B tokens4. 长衰减训练扩展上下文32K→520K102.2B-50.6B tokens5. SFT下游任务适应64K→140K~100B tokens关键设计先在短序列上稳定混合架构逐步扩展序列长度避免一次性跳跃在超长序列训练阶段才启用稀疏注意力成本对比从头训练~8T tokensHALO持续训练~2T tokens节省75% 实验结果效率与精度的双赢通用能力没有妥协混合架构会不会牺牲通用能力论文用标准基准测试验证任务MiniCPM-SALAQwen3-8B差异HumanEval (代码)95.1292.52.6MBPP (代码)89.1187.21.9AIME24 (数学)83.7580.13.7AIME25 (数学)78.3375.23.1CMMLU (知识)81.5579.81.8BBH (推理)81.5580.21.4平均76.5374.22.3结论MiniCPM-SALA不仅没有损失通用能力反而略有提升。这说明混合架构是加法不是替换。长上下文能力惊艳的外推这是MiniCPM-SALA的核心亮点。图4RULER大海捞针类任务在不同上下文长度下的表现。MiniCPM-SALA训练到520K但在2048K下仍保持高精度。训练长度 vs 测试长度模型训练长度128K512K1024K2048KMiniCPM-SALA520K89.3786.286.381.6Qwen3-8B128K85.2OOMOOMOOMQwen3-Next-80B?87.583.180.3-关键发现MiniCPM-SALA训练长度520K但测试能到2048K2M tokens在1024K下9B参数的MiniCPM-SALA超过80B参数的Qwen3-NextQwen3-8B在512K就OOM了为什么外推这么强论文归功于HyPE设计稀疏注意力层移除RoPE后不再受位置编码的外推限制。这就像取消了最大读取范围的限制模型可以看得更远。推理效率3.5倍速度提升图5不同序列长度下的首字延迟TTFT。MiniCPM-SALA在256K时比Qwen3-8B快3.5倍。A6000D (96GB) 上的结果序列长度Qwen3-8BMiniCPM-SALA加速比64K12.3s5.8s2.1x128K45.6s14.2s3.2x256K180.8s51.6s3.5x512KOOM142.3s-1024KOOM523.1s-RTX 5090 (32GB消费级显卡)序列长度Qwen3-8B (量化)MiniCPM-SALA64K成功成功128KOOM成功256KOOM (量化后)成功512KOOM成功1024KOOM成功关键突破MiniCPM-SALA在消费级显卡上成功运行1M token上下文无需量化。这是全注意力8B模型无法做到的。我的观点和启发混合架构的哲学MiniCPM-SALA的成功揭示了一个重要原则不同任务需要不同的机制。线性注意力擅长全局信息整合快速扫描大量数据效率优先的场景稀疏注意力擅长精确检索关键信息高保真局部建模精度优先的场景与其争论谁更好不如各取所长。这让我想到软件开发中的微服务架构不同的服务用不同的技术栈而不是强求统一。HyPE的创新意义HyPE混合位置编码是这篇论文最精妙的创新之一。传统观念所有层都要用位置编码否则模型不知道位置。HyPE的观点位置编码是双刃剑。在稀疏注意力层位置编码反而限制了对远距离信息的访问。这让我想到一个类比传统做法给每个人发GPS但GPS在偏远地区没信号HyPE做法给部分人发GPS其他人靠路标导航“路标就是稀疏注意力中的关键token机制不需要精确位置只需要知道方向”。外推能力的工程价值MiniCPM-SALA训练到520K但能处理2048K。这种外推能力有巨大的工程价值场景1长文档处理训练时只见过~50万字的文档部署时可以处理200万字的书场景2多轮对话训练时的对话历史有限部署时可以支持更长的对话历史场景3代码仓库分析训练时的代码文件有限部署时可以分析更大的代码库这种训练一次受益长期的特性大大提高了模型的经济效益。局限性和未来方向论文也坦诚指出了几个局限训练成本仍然较高2T tokens虽然比8T省很多但仍然需要大量资源实现复杂度混合架构比单一架构更难实现和调试超参敏感1:3的比例是否对所有模型都最优需要更多实验我认为几个值得探索的方向方向1自适应比例目前1:3是固定的。是否可以根据任务动态调整比如代码任务增加稀疏注意力比例需要精确检索对话任务增加线性注意力比例需要全局理解方向2更细粒度的混合目前是层级别混合。是否可以在注意力头级别混合某些头用线性某些头用稀疏方向3端到端训练目前是HALO转换。是否可以直接从头训练混合架构同时优化稀疏注意力和线性注意力的参数详细数据内存与速度分析内存占用对比模型64K内存128K内存256K内存512K内存1M内存Qwen3-8B (全注意力)18.2GB42.5GB128.3GBOOMOOMMiniCPM-SALA6.8GB11.2GB20.1GB38.6GB72.3GB节省62.6%73.6%84.3%--吞吐量对比tokens/s序列长度Qwen3-8BMiniCPM-SALA加速比4K284529211.03x16K89210561.18x64K1563122.00x128K421242.95x256K12423.50x随着序列长度增加加速比越来越显著。这正是混合架构的优势所在。总结MiniCPM-SALA这篇论文展示了如何通过架构创新而非单纯的模型扩大来解决长上下文问题。核心贡献1:3混合架构稀疏注意力保精度线性注意力保效率HyPE位置编码差异化处理解决外推瓶颈HALO持续训练从Transformer改装节省75%成本工程落地消费级显卡跑1M token实验结果证明效率和精度可以兼得。MiniCPM-SALA在通用能力上与全注意力模型相当在长上下文能力上更强同时推理速度提升3.5倍。对于LLM开发者这篇论文的启示是不要执着于单一架构不同机制适合不同任务重视位置编码的影响RoPE在长上下文中是双刃剑持续训练比从零开始更高效利用已有检查点外推能力有工程价值训练一次长期受益长上下文是LLM的核心能力之一。MiniCPM-SALA提供了一个可行的技术路径通过混合架构突破Transformer的效率瓶颈让百万token的上下文成为现实。参考资料论文原文MiniCPM-SALA: Hybridizing Sparse and Linear AttentionInfLLMLeave No Context BehindLightning AttentionLinear Attention with Efficient ImplementationMiniCPM系列面向端侧的高效LLMRoPE位置编码Rotary Position Embedding

MiniCPM-SALA：让Transformer在百万token下跑起来

相关新闻

[特殊字符] 龙魂系统第三层：边界、自检、护栏机制

php方案 Redis Sentinel故障转移

【全局敏感性分析】对使用SWAT的高参数化模型，PAWN与Sobol敏感性分析方法的比较研究附Matlab代码

最新新闻

卡梅德生物技术快报｜ KM13 辅助噬菌体的天然 VHH 噬菌体文库全套构建流程与数据验证

Variance Reduction with Baseline 补充 - 加基线使得方差降低

MP1584 降压电源 PCB 布局 5 大要点：实测 SW 节点尖峰降低 60%

非线性字符串数据结构串讲

Lemos知识库-AI+知识图谱驱动智能脑进化

2026年实用指南3个复习笔记使用场景选择标准帮你精准适配需求

日新闻

H2 与 MySQL 单元测试兼容性：5 个关键 SQL 语句差异与规避方案

Windows任务栏终极清理指南：用RBTray一键隐藏窗口到系统托盘

Visual C++ 运行时库一键安装终极指南：告别DLL缺失烦恼

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻