从氛围编程到Agent工程:GLM-5引领大模型进阶,小白必备收藏!
GLM-5在大模型评测中表现优异成为首个突破50分的开源模型。文章指出大模型发展从“写代码”到“做工程”的主要瓶颈在于算力效率、agent能力和长程任务稳定性。GLM-5通过稀疏注意力机制、异步agent RL和跨阶段蒸馏等技术有效解决了这些问题实现了从“氛围编程”到“agent工程”的范式跃迁。此外GLM-5还适配了国产GPU生态为开源模型在真实世界应用提供了有力支持。当大模型模型从写代码走向做工程瓶颈到底在哪里GLM-5给出了一个明确的答案不是参数不够大而是算力效率不够高、agent能力不够强、长程任务不够稳。 GLM-5在Artificial Analysis Intelligence Index v4.0上拿下50分成为首个突破50分的开源权重模型较上一代GLM-4.7跃升8分。在LMArena的文本和代码两个排行榜上GLM-5均为开源模型第一整体水平与Claude Opus 4.5和GPT-5.2(xhigh)持平。[Figure 1: GLM-5、DeepSeek-V3.2、Claude Opus 4.5、Gemini 3 Pro、GPT-5.2(xhigh)在8个agentic、推理与编程基准上的结果] 论文展示了GLM-5在Humanity’s Last Exam、SWE-bench Verified、SWE-bench Multilingual、Terminal-Bench 2.0、BrowseComp、MCP-Atlas、τ²-Bench、Vending Bench 2共8个基准上的表现。GLM-5相比上一代GLM-4.7平均提升约20%与Claude Opus 4.5和GPT-5.2(xhigh)相当优于Gemini 3 Pro。[Figure 2: Artificial Analysis Intelligence Index v4.0] 该指数涵盖10项评测。GLM-5得分50是开源权重模型的新领先者。核心问题从氛围编程到agent工程随着LLM从被动的知识库转变为主动的问题解决者计算成本与真实世界适应性——尤其是复杂软件工程中的端到端任务——成为主要瓶颈。GLM-5的目标正是打破这两重屏障实现从vibe coding氛围编程到agentic engineeringagent工程的范式跃迁。[Figure 3: GLM-5在LMArena上的表现] GLM-5在Text Arena和Code Arena中均为开源模型第一。模型架构744B参数DSA稀疏注意力GLM-5采用MoE(Model-of-Experts专家混合)架构扩展至256个专家、80层总参数量744B活跃参数40B总参数量是GLM-4.5355B总参数、32B活跃参数的两倍。注意力机制方面论文采用MLA(Multi-latent Attention多潜变量注意力)并提出Muon Split方法——将投影矩阵按注意力头拆分后分别进行矩阵正交化使不同注意力头能以不同尺度更新权重。实验表明该方法有效弥合了MLA与GQA(Grouped-Query Attention分组查询注意力)之间的性能差距。GLM-5引入DSA(DeepSeek Sparse AttentionDeepSeek稀疏注意力)以动态、细粒度的token选择机制取代传统O(L²)的密集注意力。DSA将长序列的注意力计算量降低约1.5至2倍同时在设计上无损——其lightning indexer实现了token级稀疏性而不丢弃任何长距离依赖。DSA从预训练末期的基础模型开始训练热身阶段1000步稀疏适应阶段经过200亿token。尽管训练量远小于DeepSeek-V3.2的943.7B token长上下文性能已与原始MLA模型持平。[Table 3: MLA与DSA基础模型在长上下文基准上的对比] 在128K上下文的MQ-NIAH、MV-NIAH、SQuAD、HotpotQA四项评测中DSA与MLA表现接近部分任务DSA还更优。GLM-5还对多种高效注意力方案进行了对比消融实验。固定交错的SWA(Sliding Window Attention滑动窗口注意力)在128K上下文的RULER基准上暴跌30.35分而基于搜索的SWA模式将差距大幅缩小。线性注意力变体SimpleGDN在部分任务上甚至优于全注意力基线。但所有这些方案在细粒度检索任务上都存在固有精度损失而DSA因其无损特性彻底避免了这一问题。[Table 5: 各高效注意力变体在长上下文基准上的对比] DSA是唯一在所有层应用且无质量退化的方案。训练流程28.5万亿token与渐进式对齐GLM-5的基础模型训练共消耗28.5万亿token。预训练语料涵盖网页、代码、数学与科学文献。代码语料较上一版增长28%新增了更多低资源编程语言如Scala、Swift、Lua等的专用分类器。数学与科学数据经过大模型评分筛选仅保留最具教育价值的内容并严格避免合成数据。中训练阶段将上下文窗口从4K逐步扩展至32K1T token、128K500B token、200K50B token。软件工程数据方面论文放宽了仓库级过滤条件获得约1000万个issue-PR对过滤后该部分约包含1600亿唯一token。[Figure 5: GLM-5整体训练流程] 包括预训练、中训练、SFT(Supervised Fine-Tuning监督微调)以及三阶段强化学习。后训练三阶段强化学习与异步agent RL后训练分为SFT、推理RL(Reinforcement Learning强化学习)、agent RL和通用RL四个阶段最后通过在策略跨阶段蒸馏防止灾难性遗忘。SFT阶段引入三种思考模式交错思考每次响应和工具调用前进行推理、保留思考跨多轮对话保留思考块减少信息丢失、轮级思考按轮控制推理开关。最大上下文长度扩展至202,752 token。[Figure 7: 交错思考与保留思考示意图] 通过在动作之间思考并跨轮维持一致性GLM-5在复杂任务上实现更稳定、可控的行为。推理RL阶段基于GRPO算法并融合IcePop技术在数学、科学、代码和工具集成推理四个领域联合训练组大小32、批大小32全程在策略训练。论文发现DSA架构下使用确定性的torch.topk算子对RL稳定性至关重要——非确定性实现仅数步后即导致性能剧烈下降和熵急剧降低。Agent RL阶段论文开发了全异步、解耦的RL框架通过中央多任务Rollout编排器将推理引擎与训练引擎解耦覆盖超过10,000个真实世界软件工程任务、终端任务和高难度多跳搜索任务。核心机制包括TITO(Token-in-Token-out)网关消除重新分词不匹配以及直接双侧重要性采样控制离策略偏差。通用RL阶段围绕基础正确性、情感智能和任务特定质量三个维度优化使用规则奖励、ORM(Outcome Reward Model结果奖励模型)和GRM(Generative Reward Model生成奖励模型)三种信号的混合奖励系统。长程任务真实世界agent能力验证GLM-5用两个长程任务基准衡量GLM-5的agent持续执行能力。在Vending-Bench 2模拟一年经营自动售货机业务上GLM-5在所有开源模型中排名第一最终账户余额达$4,432接近Claude Opus 4.5。在内部评测套件CC-Bench-V2上GLM-5在前端、后端和长程任务上均大幅超越GLM-4.7。[Figure 4: 长程任务结果] 左图为Vending-Bench 2GLM-5为开源模型第一右图为CC-Bench-V2GLM-5显著缩小了与Claude Opus 4.5的差距。适配国产GPU生态论文特别指出GLM-5从第一天起即全栈适配中国GPU生态已在华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原等七大国产芯片平台上完成从底层算子到上层推理框架的深度优化。X写在最后GLM-5真正的价值不只是跑分更高而是证明了一条路径通过稀疏注意力降低计算成本、通过异步agent RL释放长程任务能力、通过跨阶段蒸馏避免能力退化开源模型完全可以在真实世界的软件工程场景中与闭源顶级模型比肩。 当coding agent能够自主连续工作数小时AI模型能力的衡量标准正在从答对一道题转向做完一件事。​最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​

相关新闻

安卓工程师面试题及答案

安卓工程师面试题及答案

安卓工程师 职位信息 任职要求 1.专科及以上学历,计算机相关专业,3年以上实际 Android 平台开发经验 2.有良好的Java技术功底,熟悉kotlin, 具备常用数据结构与算法和设计能力 3.熟悉常用Android API ,熟悉Android 平台架构、主要组成和工作模式 4.对Android 开发常用的框架…

2026/7/3 2:21:34 阅读更多 →
LTX-2 是一个基于 Transformer 的视频生成模型,能够根据文本描述生成高质量视频

LTX-2 是一个基于 Transformer 的视频生成模型,能够根据文本描述生成高质量视频

LTX-2 是一个基于 Transformer 的视频生成模型,能够根据文本描述生成高质量视频。要运行 LTX-2,通常需要以下步骤:‌环境准备‌确保你的系统满足以下要求:Python 3.8 或更高版本支持 CUDA 的 GPU(推荐至少 16GB 显存&a…

2026/5/17 5:29:26 阅读更多 →
AgentCPM大模型智能体开源:本地部署长程深度搜索,小白也能轻松搭建私有化AI助手(收藏必备)

AgentCPM大模型智能体开源:本地部署长程深度搜索,小白也能轻松搭建私有化AI助手(收藏必备)

AgentCPM系列开源项目由多机构联合打造,重点解决传统AI智能体在长程任务、自主性及泛化性上的不足。AgentCPM-Explore以4B小模型实现长程深度搜索,支持100轮连续交互;AgentCPM-Report则提供8B端侧写作智能体,支持离线部署和本地知…

2026/5/17 5:29:24 阅读更多 →

最新新闻

光伏逆变器总控板设计与DSP控制技术解析

光伏逆变器总控板设计与DSP控制技术解析

1. 光伏逆变器总控板设计概述光伏逆变器作为太阳能发电系统的核心部件,其总控板承担着整个系统的调度、监控和通信枢纽功能。基于TMS320F28335 DSP芯片设计的这款总控板,集成了2路CAN总线、2路RS485接口和1个EEROM存储器,构成了一个典型的光伏…

2026/7/4 7:31:04 阅读更多 →
空洞骑士模组管理终极指南:Scarab如何让你的MOD安装变得轻松简单?

空洞骑士模组管理终极指南:Scarab如何让你的MOD安装变得轻松简单?

空洞骑士模组管理终极指南:Scarab如何让你的MOD安装变得轻松简单? 【免费下载链接】Scarab An installer for Hollow Knight mods written with Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 还在为《空洞骑士》模组安装的复杂…

2026/7/4 7:29:04 阅读更多 →
从数组到菜单:spatie/menu的Menu::build方法批量创建导航的实用指南

从数组到菜单:spatie/menu的Menu::build方法批量创建导航的实用指南

从数组到菜单:spatie/menu的Menu::build方法批量创建导航的实用指南 【免费下载链接】menu Html menu generator 项目地址: https://gitcode.com/gh_mirrors/menu/menu 你是否曾经为PHP项目中繁琐的导航菜单构建而感到头疼?😫 每次添加…

2026/7/4 7:29:04 阅读更多 →
5分钟构建AI应用界面:Gradio大模型交互开发终极指南

5分钟构建AI应用界面:Gradio大模型交互开发终极指南

5分钟构建AI应用界面:Gradio大模型交互开发终极指南 【免费下载链接】llm-cookbook 面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版 项目地址: https://gitcode.com/GitHub_Trending/ll/llm-cookbook 你是否曾梦想过将复杂的大语言模型转…

2026/7/4 7:27:03 阅读更多 →
SweetModal-Vue 高级用法:实现复杂交互弹窗的终极教程

SweetModal-Vue 高级用法:实现复杂交互弹窗的终极教程

SweetModal-Vue 高级用法:实现复杂交互弹窗的终极教程 【免费下载链接】sweet-modal-vue The sweetest library to happen to modals. 项目地址: https://gitcode.com/gh_mirrors/sw/sweet-modal-vue SweetModal-Vue 是一个功能强大的 Vue.js 弹窗组件库&…

2026/7/4 7:25:02 阅读更多 →
HPL1Engine渲染管线解析:从2D到3D图形的高效处理方案

HPL1Engine渲染管线解析:从2D到3D图形的高效处理方案

HPL1Engine渲染管线解析:从2D到3D图形的高效处理方案 【免费下载链接】HPL1Engine A real time 3D engine. 项目地址: https://gitcode.com/gh_mirrors/hp/HPL1Engine HPL1Engine是一款功能强大的实时3D引擎,其渲染管线设计实现了从2D到3D图形的高…

2026/7/4 7:25:02 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻