从 2025 年 7 月到 2026 年 2 月,智谱 AI 在短短 7 个月内连续推出 GLM-4.5、GLM-4.7 和 GLM-5 三代旗舰模型。这不是简单的版本号递增,而是一条清晰的技术演进路线:从统一推理/编码/Agent 能力(ARC)→ 强化 Agentic Coding → 全面迈向 Agentic Engineering。本文将从架构设计、训练策略、基准性能和部署生态四大维度,深度对比三代模型的核心差异与演进脉络。一、发布时间线与核心定位维度GLM-4.5GLM-4.7GLM-5发布时间2025 年 7 月2025 年 12 月2026 年 2 月核心定位ARC(Agentic + Reasoning + Coding)统一基座Agentic Coding 实战强化Agentic Engineering 范式跃迁开源协议MITMITMIT技术报告arXiv:2508.06471基于 GLM-4.5 报告 + 技术博客arXiv:2602.15763代号/彩蛋——“Pony Alpha”(匿名测试)三代模型的定位层层递进:GLM-4.5解决的是"能不能"的问题——首次在单一模型中统一推理、编码和 Agent 三大能力GLM-4.7解决的是"好不好"的问题——聚焦编码场景的实战打磨,让模型真正"能用"GLM-5解决的是"强不强"的问题——从写代码到写工程,实现完整的系统级工程能力二、模型架构:从 GQA 到 MLA,从标准 MoE 到 DSA2.1 核心参数对比架构维度GLM-4.5GLM-4.7GLM-5总参数量355B358B744B激活参数量32B~32B40B层数92 层(前 3 层 Dense,后 89 层 MoE)~92 层80 层专家数量160(每层激活 8 个)~160256(每层激活 8 个)隐藏维度5120~5120扩展注意力头数96(GQA, 8 组)96调整(MLA)注意力机制GQA(分组查询注意力)GQA → MLA 过渡MLA + DSA位置编码Partial RoPE (base 1M)RoPERoPE上下文长度128K200K200K最大输出长度—128K128KMTP 层1 层1 层3 层(参数共享)2.2 三代注意力机制的演进这是三代模型最核心的架构差异之一:GLM-4.5:GQA(Grouped-Query Attention)采用 96 个注意力头、8 个查询组的 GQA 设计引入 QK-Norm 稳定注意力计算注意力头数是同规模隐藏维度下的 ~2.5 倍,团队发现虽然训练 loss 没有下降,但推理基准表现一致性提升优势:成熟稳定,推理效率适中GLM-4.7:GQA → MLA 过渡Flash 版本已使用 MLA(Multi-head Latent Attention),实现 8× KV Cache 压缩旗舰版在 GQA 基础上引入了更长上下文(200K)的优化过渡阶段,为 GLM-5 的全面 MLA 铺路GLM-5:MLA + DSA(DeepSeek Sparse Attention)全面采用 MLA,通过低维潜变量压缩 KV Cache提出Muon Split方法解决 MLA + Muon 优化器的兼容性问题:将上投影矩阵拆分为每个注意力头独立的小矩阵,允许不同头以不同速率更新注意力头维度从 192 增大到 256(MLA-256 变体),减少 1/3 注意力头数,降低解码阶段计算量引入DSA 稀疏注意力:动态根据 token 重要性分配注意力资源,将长序列注意力计算降低约 1.5–2 倍GLM-4.5: GQA (96 heads, 8 groups) → 标准全注意力 ↓ GLM-4.7: GQA + MLA(Flash版) → 200K 上下文,KV Cache 8× 压缩 ↓ GLM-5: MLA-256 + DSA → 稀疏动态注意力,长序列成本减半2.3 MoE 架构的演进维度GLM-4.5GLM-4.7GLM-5路由方式Sigmoid 门控 + 无损平衡路由继承 GLM-4.5优化路由共享专家有(专用共享专家 + 重叠机制)继承增强设计理念“更深而非更宽”沿袭 4.5更多专家 + 更少层数激活比例~1/11 (32B/355B)~1/11~1/18.6 (40B/744B)GLM-5 的 MoE 架构做了一个关键权衡:将专家数量从 160 扩展到 256,同时将层数从 92 减少到 80。这是为了减少专家并行通信的开销——更多的专家意味着更高的模型容量,而更少的层数减少了跨设备通信的次数。2.4 多 Token 预测(MTP)的进化维度GLM-4.5GLM-4.7GLM-5MTP 层数113(参数共享)损失系数0.3 → 0.1继承优化推测解码支持支持接受长度更优GLM-5 的 MTP 创新在于:训练时共享 3 个 MTP 层的参数,推理时复用同一组参数进行多步推测。这在保持内存成本不变的情况下,显著提升了推测解码的接受率——实测比 DeepSeek-V3.2 在相同推测步数下接受更多 t