GLM-5在大模型评测中表现优异成为首个突破50分的开源模型。文章指出大模型发展从“写代码”到“做工程”的主要瓶颈在于算力效率、agent能力和长程任务稳定性。GLM-5通过稀疏注意力机制、异步agent RL和跨阶段蒸馏等技术有效解决了这些问题实现了从“氛围编程”到“agent工程”的范式跃迁。此外GLM-5还适配了国产GPU生态为开源模型在真实世界应用提供了有力支持。当大模型模型从写代码走向做工程瓶颈到底在哪里GLM-5给出了一个明确的答案不是参数不够大而是算力效率不够高、agent能力不够强、长程任务不够稳。 GLM-5在Artificial Analysis Intelligence Index v4.0上拿下50分成为首个突破50分的开源权重模型较上一代GLM-4.7跃升8分。在LMArena的文本和代码两个排行榜上GLM-5均为开源模型第一整体水平与Claude Opus 4.5和GPT-5.2(xhigh)持平。[Figure 1: GLM-5、DeepSeek-V3.2、Claude Opus 4.5、Gemini 3 Pro、GPT-5.2(xhigh)在8个agentic、推理与编程基准上的结果] 论文展示了GLM-5在Humanity’s Last Exam、SWE-bench Verified、SWE-bench Multilingual、Terminal-Bench 2.0、BrowseComp、MCP-Atlas、τ²-Bench、Vending Bench 2共8个基准上的表现。GLM-5相比上一代GLM-4.7平均提升约20%与Claude Opus 4.5和GPT-5.2(xhigh)相当优于Gemini 3 Pro。[Figure 2: Artificial Analysis Intelligence Index v4.0] 该指数涵盖10项评测。GLM-5得分50是开源权重模型的新领先者。核心问题从氛围编程到agent工程随着LLM从被动的知识库转变为主动的问题解决者计算成本与真实世界适应性——尤其是复杂软件工程中的端到端任务——成为主要瓶颈。GLM-5的目标正是打破这两重屏障实现从vibe coding氛围编程到agentic engineeringagent工程的范式跃迁。[Figure 3: GLM-5在LMArena上的表现] GLM-5在Text Arena和Code Arena中均为开源模型第一。模型架构744B参数DSA稀疏注意力GLM-5采用MoE(Model-of-Experts专家混合)架构扩展至256个专家、80层总参数量744B活跃参数40B总参数量是GLM-4.5355B总参数、32B活跃参数的两倍。注意力机制方面论文采用MLA(Multi-latent Attention多潜变量注意力)并提出Muon Split方法——将投影矩阵按注意力头拆分后分别进行矩阵正交化使不同注意力头能以不同尺度更新权重。实验表明该方法有效弥合了MLA与GQA(Grouped-Query Attention分组查询注意力)之间的性能差距。GLM-5引入DSA(DeepSeek Sparse AttentionDeepSeek稀疏注意力)以动态、细粒度的token选择机制取代传统O(L²)的密集注意力。DSA将长序列的注意力计算量降低约1.5至2倍同时在设计上无损——其lightning indexer实现了token级稀疏性而不丢弃任何长距离依赖。DSA从预训练末期的基础模型开始训练热身阶段1000步稀疏适应阶段经过200亿token。尽管训练量远小于DeepSeek-V3.2的943.7B token长上下文性能已与原始MLA模型持平。[Table 3: MLA与DSA基础模型在长上下文基准上的对比] 在128K上下文的MQ-NIAH、MV-NIAH、SQuAD、HotpotQA四项评测中DSA与MLA表现接近部分任务DSA还更优。GLM-5还对多种高效注意力方案进行了对比消融实验。固定交错的SWA(Sliding Window Attention滑动窗口注意力)在128K上下文的RULER基准上暴跌30.35分而基于搜索的SWA模式将差距大幅缩小。线性注意力变体SimpleGDN在部分任务上甚至优于全注意力基线。但所有这些方案在细粒度检索任务上都存在固有精度损失而DSA因其无损特性彻底避免了这一问题。[Table 5: 各高效注意力变体在长上下文基准上的对比] DSA是唯一在所有层应用且无质量退化的方案。训练流程28.5万亿token与渐进式对齐GLM-5的基础模型训练共消耗28.5万亿token。预训练语料涵盖网页、代码、数学与科学文献。代码语料较上一版增长28%新增了更多低资源编程语言如Scala、Swift、Lua等的专用分类器。数学与科学数据经过大模型评分筛选仅保留最具教育价值的内容并严格避免合成数据。中训练阶段将上下文窗口从4K逐步扩展至32K1T token、128K500B token、200K50B token。软件工程数据方面论文放宽了仓库级过滤条件获得约1000万个issue-PR对过滤后该部分约包含1600亿唯一token。[Figure 5: GLM-5整体训练流程] 包括预训练、中训练、SFT(Supervised Fine-Tuning监督微调)以及三阶段强化学习。后训练三阶段强化学习与异步agent RL后训练分为SFT、推理RL(Reinforcement Learning强化学习)、agent RL和通用RL四个阶段最后通过在策略跨阶段蒸馏防止灾难性遗忘。SFT阶段引入三种思考模式交错思考每次响应和工具调用前进行推理、保留思考跨多轮对话保留思考块减少信息丢失、轮级思考按轮控制推理开关。最大上下文长度扩展至202,752 token。[Figure 7: 交错思考与保留思考示意图] 通过在动作之间思考并跨轮维持一致性GLM-5在复杂任务上实现更稳定、可控的行为。推理RL阶段基于GRPO算法并融合IcePop技术在数学、科学、代码和工具集成推理四个领域联合训练组大小32、批大小32全程在策略训练。论文发现DSA架构下使用确定性的torch.topk算子对RL稳定性至关重要——非确定性实现仅数步后即导致性能剧烈下降和熵急剧降低。Agent RL阶段论文开发了全异步、解耦的RL框架通过中央多任务Rollout编排器将推理引擎与训练引擎解耦覆盖超过10,000个真实世界软件工程任务、终端任务和高难度多跳搜索任务。核心机制包括TITO(Token-in-Token-out)网关消除重新分词不匹配以及直接双侧重要性采样控制离策略偏差。通用RL阶段围绕基础正确性、情感智能和任务特定质量三个维度优化使用规则奖励、ORM(Outcome Reward Model结果奖励模型)和GRM(Generative Reward Model生成奖励模型)三种信号的混合奖励系统。长程任务真实世界agent能力验证GLM-5用两个长程任务基准衡量GLM-5的agent持续执行能力。在Vending-Bench 2模拟一年经营自动售货机业务上GLM-5在所有开源模型中排名第一最终账户余额达$4,432接近Claude Opus 4.5。在内部评测套件CC-Bench-V2上GLM-5在前端、后端和长程任务上均大幅超越GLM-4.7。[Figure 4: 长程任务结果] 左图为Vending-Bench 2GLM-5为开源模型第一右图为CC-Bench-V2GLM-5显著缩小了与Claude Opus 4.5的差距。适配国产GPU生态论文特别指出GLM-5从第一天起即全栈适配中国GPU生态已在华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原等七大国产芯片平台上完成从底层算子到上层推理框架的深度优化。X写在最后GLM-5真正的价值不只是跑分更高而是证明了一条路径通过稀疏注意力降低计算成本、通过异步agent RL释放长程任务能力、通过跨阶段蒸馏避免能力退化开源模型完全可以在真实世界的软件工程场景中与闭源顶级模型比肩。 当coding agent能够自主连续工作数小时AI模型能力的衡量标准正在从答对一道题转向做完一件事。最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**