在Hugging Face上Kimi K2.5登上了Trending榜首下载量超过了5.3万。开源热榜第一轮流做现在花落Kimi。在Hugging Face上Kimi K2.5登上了Trending榜首下载量超过了5.3万。Kimi K2.5主打Agent能力在HLE-Full、BrowseComp等测试集中成绩超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型。而且极具性价比在BrowseComp上达到比GPT-5.2更高的表现Kimi K2.5的资金消耗仅有不到5%。现在官方的技术报告也已经亮相Kimi K2.5怎样练成我们可以从中窥探一些答案。原生多模态15T Token混合训练Kimi K2.5在K2的架构基础上投入了15T的视觉与文本混合Token进行持续预训练。它选择了一条原生多模态的技术路线让同一套参数空间直接处理视觉信号与文本逻辑。在15T这样庞大的数据量级下视觉理解与文本推理能力实现了同步增强一改往日“此消彼长”的局面。这种统一的参数架构让模型能够像理解语法结构一样精准解析像素背后的逻辑语义。有了这套原生底座K2.5解锁了“视觉编程”能力。因为能在像素层面进行推理它具备了从视频流直接逆向推导代码的能力。面对一段包含复杂滚动触发特效或动态交互布局的网页演示视频模型能够准确捕捉视觉元素随时间轴变化的规律并将其直接映射为可执行的前端代码。这一过程跳过了“视觉-文本”的中间环节让开发需求能够以最直观的视觉形式传递给模型实现了从设计演示到代码实现的无损转化即便是极其复杂的动态交互逻辑也能被精准还原。为了解决代码能跑但样式不对的问题K2.5还集成了自主视觉调试机制在代码生成并渲染出界面后模型会调用视觉感知能力对实际运行的页面进行验收。一旦发现布局错位、样式偏差或动画异常模型会自动触发文档查询工具查阅相关技术文档定位问题并对代码进行修正。这种“生成-观察-查阅-修复”的自动化闭环模拟了高级工程师的调试流程让模型具备了独立完成端到端软件工程任务的可靠性。超大规模“智能体集群”为了能更好地解决复杂任务Kimi K2.5还搭载了Agent Swarm架构。这是一套能自主构建百人规模数字化团队的并行系统让模型获得了“分身”能力可以瞬间创建并编排多达100个子智能体并支持调用1500个工具的并行工作流。这种机制将全网深度搜索或海量数据分析等复杂任务拆解为无数个同步进行的子任务利用集群算力大幅压缩了处理时间。指挥这支庞大团队运转的是PARL并行智能体强化学习框架。该框架建立了一套严密的指挥体系由核心的调度器和众多子智能体构成。调度器如同指挥官负责宏观层面的任务拆解与分发子智能体则作为执行层在参数冻结的状态下专注于高效完成具体指令。这种动静结合的设计既赋予了系统灵活规划的能力又保障了大规模并行操作的逻辑严密性。为了让模型学会高效分工训练过程采用了一套阶段性奖励塑造策略。系统在初期会优先激励调度器进行并行化探索培养其“多管齐下”的直觉随着训练深入奖励重心平滑过渡至任务的最终成功率。这种循序渐进的训练方式让模型建立了在保证结果准确的前提下最大化利用并发优势的思维习惯。在效率评估上系统引入了临界步骤作为核心指标基于并行计算的关键路径原理聚焦于调度开销与最慢子智能体的耗时。这种机制倒逼模型在决策时必须优先考虑如何缩短端到端的实际等待时间。只有在能切实提升响应速度的情况下系统才会增加并行度从而在极致速度与计算资源消耗之间找到了最佳平衡。杨植麟剧透Kimi K3K2.5上线后不久月之暗面的三位创始人——杨植麟、周昕宇和吴育昕现身Reddit来了一场长达3小时的AMA问答。面对全球开发者和的提问他们直接把代码背后的思考、未来的剧透甚至尴尬的Bug都摊开来聊了个透。对于大家最关心的下一代Kimi K3团队给出了一个相当硬核的预告——它很可能基于线性注意力机制。杨植麟更是直言虽然不敢打包票但K3相比K2.5哪怕没有10倍的提升也绝对会有质的飞跃。针对K2.5偶尔会自称Claude的趣闻团队也给出了坦诚的解释——这是因为Kimi“吃”了太多高质量的编程训练数据而这些数据里充斥着Claude的名字 。这就像读了太多某位作家的书说话难免带上对方的口头禅。此外他们也对算力焦虑问题进行了回应算法负责人周昕宇抛出了一句“创新往往诞生于约束之中Innovation loves constraints” 。在他们看来堆砌算力不是通往AGI的唯一路径在有限的资源下逼出更高效的算法、更聪明的架构才是这家实验室真正的“登月”野心 。