Kimi K2.5登顶开源第一!15T数据训练秘籍公开,杨植麟剧透K3
在Hugging Face上Kimi K2.5登上了Trending榜首下载量超过了5.3万。开源热榜第一轮流做现在花落Kimi。在Hugging Face上Kimi K2.5登上了Trending榜首下载量超过了5.3万。Kimi K2.5主打Agent能力在HLE-Full、BrowseComp等测试集中成绩超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型。而且极具性价比在BrowseComp上达到比GPT-5.2更高的表现Kimi K2.5的资金消耗仅有不到5%。现在官方的技术报告也已经亮相Kimi K2.5怎样练成我们可以从中窥探一些答案。原生多模态15T Token混合训练Kimi K2.5在K2的架构基础上投入了15T的视觉与文本混合Token进行持续预训练。它选择了一条原生多模态的技术路线让同一套参数空间直接处理视觉信号与文本逻辑。在15T这样庞大的数据量级下视觉理解与文本推理能力实现了同步增强一改往日“此消彼长”的局面。这种统一的参数架构让模型能够像理解语法结构一样精准解析像素背后的逻辑语义。有了这套原生底座K2.5解锁了“视觉编程”能力。因为能在像素层面进行推理它具备了从视频流直接逆向推导代码的能力。面对一段包含复杂滚动触发特效或动态交互布局的网页演示视频模型能够准确捕捉视觉元素随时间轴变化的规律并将其直接映射为可执行的前端代码。这一过程跳过了“视觉-文本”的中间环节让开发需求能够以最直观的视觉形式传递给模型实现了从设计演示到代码实现的无损转化即便是极其复杂的动态交互逻辑也能被精准还原。为了解决代码能跑但样式不对的问题K2.5还集成了自主视觉调试机制在代码生成并渲染出界面后模型会调用视觉感知能力对实际运行的页面进行验收。一旦发现布局错位、样式偏差或动画异常模型会自动触发文档查询工具查阅相关技术文档定位问题并对代码进行修正。这种“生成-观察-查阅-修复”的自动化闭环模拟了高级工程师的调试流程让模型具备了独立完成端到端软件工程任务的可靠性。超大规模“智能体集群”为了能更好地解决复杂任务Kimi K2.5还搭载了Agent Swarm架构。这是一套能自主构建百人规模数字化团队的并行系统让模型获得了“分身”能力可以瞬间创建并编排多达100个子智能体并支持调用1500个工具的并行工作流。这种机制将全网深度搜索或海量数据分析等复杂任务拆解为无数个同步进行的子任务利用集群算力大幅压缩了处理时间。指挥这支庞大团队运转的是PARL并行智能体强化学习框架。该框架建立了一套严密的指挥体系由核心的调度器和众多子智能体构成。调度器如同指挥官负责宏观层面的任务拆解与分发子智能体则作为执行层在参数冻结的状态下专注于高效完成具体指令。这种动静结合的设计既赋予了系统灵活规划的能力又保障了大规模并行操作的逻辑严密性。为了让模型学会高效分工训练过程采用了一套阶段性奖励塑造策略。系统在初期会优先激励调度器进行并行化探索培养其“多管齐下”的直觉随着训练深入奖励重心平滑过渡至任务的最终成功率。这种循序渐进的训练方式让模型建立了在保证结果准确的前提下最大化利用并发优势的思维习惯。在效率评估上系统引入了临界步骤作为核心指标基于并行计算的关键路径原理聚焦于调度开销与最慢子智能体的耗时。这种机制倒逼模型在决策时必须优先考虑如何缩短端到端的实际等待时间。只有在能切实提升响应速度的情况下系统才会增加并行度从而在极致速度与计算资源消耗之间找到了最佳平衡。杨植麟剧透Kimi K3K2.5上线后不久月之暗面的三位创始人——杨植麟、周昕宇和吴育昕现身Reddit来了一场长达3小时的AMA问答。面对全球开发者和的提问他们直接把代码背后的思考、未来的剧透甚至尴尬的Bug都摊开来聊了个透。对于大家最关心的下一代Kimi K3团队给出了一个相当硬核的预告——它很可能基于线性注意力机制。杨植麟更是直言虽然不敢打包票但K3相比K2.5哪怕没有10倍的提升也绝对会有质的飞跃。针对K2.5偶尔会自称Claude的趣闻团队也给出了坦诚的解释——这是因为Kimi“吃”了太多高质量的编程训练数据而这些数据里充斥着Claude的名字 。这就像读了太多某位作家的书说话难免带上对方的口头禅。此外他们也对算力焦虑问题进行了回应算法负责人周昕宇抛出了一句“创新往往诞生于约束之中Innovation loves constraints” 。在他们看来堆砌算力不是通往AGI的唯一路径在有限的资源下逼出更高效的算法、更聪明的架构才是这家实验室真正的“登月”野心 。

相关新闻

DeepSeek-OCR 2.0技术深度解析:AI如何模拟人类视觉逻辑,收藏级大模型架构创新

DeepSeek-OCR 2.0技术深度解析:AI如何模拟人类视觉逻辑,收藏级大模型架构创新

DeepSeek发布DeepSeek-OCR 2系统,采用DeepEncoder V2新技术让AI像人类一样按逻辑顺序理解图像,而非传统从左到右扫描。该系统通过"因果流查询"智能重排序视觉Token,在OmniDocBench测试中提升3.73%,同时控制计算成本。这…

2026/2/3 21:42:56 阅读更多 →
2 天,用函数计算 AgentRun 爆改一副赛博朋克眼镜

2 天,用函数计算 AgentRun 爆改一副赛博朋克眼镜

作者:简志 背景 一年前,我购入了 Meta Ray-ban 眼镜,Meta 对于眼镜本体的开发及 App 更新很快,但由于没有中文支持和开放的 SDK 导致对国内用户非常不友好。2025 年 11 月,Meta 终于放出了 Device Access Toolkit 让…

2026/2/3 21:42:26 阅读更多 →
2026CRM选型手册:7 大品牌全流程能力深度解析与对比

2026CRM选型手册:7 大品牌全流程能力深度解析与对比

在数字化转型背景下,企业对CRM的需求早已从“客户信息存储”升级为“全流程业务赋能”——从线索获取到回款闭环的每一个环节,都需要系统提供精准、智能、协同的支持。本文选取超兔一体云、SAP、Microsoft Dynamics 365、销氪CRM、纷享销客、简道云、销帮…

2026/7/2 23:01:53 阅读更多 →

最新新闻

亦唐科技在智慧医疗领域的应用:健康管理的数字化转型

亦唐科技在智慧医疗领域的应用:健康管理的数字化转型

随着科技的迅猛发展,信息技术与医疗行业的深度融合成为推动健康管理和医疗服务改革的重要力量。智慧医疗不仅仅是对医疗资源的智能化管理,更是通过信息技术手段提升医疗服务质量、优化就医体验,降低诊疗成本,实现个性化、精准化的…

2026/7/3 11:13:36 阅读更多 →
百考通AI开题报告用智能技术帮你把构想转化为研究方案

百考通AI开题报告用智能技术帮你把构想转化为研究方案

开题报告是毕业论文或学位研究的“第一张施工图”,它不仅要阐明研究价值,更要清晰界定问题、设计方法、规划路径。然而,许多学生在撰写时常常陷入“有想法却写不出”“懂方向但不会表达”的困境:选题宽泛、文献堆砌、方法模糊、结…

2026/7/3 11:11:35 阅读更多 →
JWT安全漏洞实战:从算法混淆到密钥爆破的靶场通关指南

JWT安全漏洞实战:从算法混淆到密钥爆破的靶场通关指南

1. 项目概述:从JWT到靶场实战如果你正在学习Web安全,尤其是认证与授权相关的漏洞,那么JWT(JSON Web Token)绝对是一个绕不开的核心知识点。它广泛应用于现代Web应用和API的认证流程,从单点登录到微服务间的…

2026/7/3 11:09:34 阅读更多 →
大模型是重型工业品:算力、能源、数据、人才、产业链与政策六要素解析

大模型是重型工业品:算力、能源、数据、人才、产业链与政策六要素解析

1. 项目概述:这不是一场技术竞赛,而是一场“全要素战争”“康波之眼|AI大模型竞争系列专题深度解读”这个标题里,“康波”二字不是随便起的——它直指康德拉季耶夫长周期理论,一个用来解释资本主义经济中约50–60年一轮…

2026/7/3 11:07:33 阅读更多 →
13DOF传感器与PIC18F2682的嵌入式定位导航方案

13DOF传感器与PIC18F2682的嵌入式定位导航方案

1. 项目背景与核心需求 在嵌入式系统开发领域,精确的定位与导航能力一直是技术难点。传统方案往往采用独立的GPS模块和惯性测量单元(IMU),但存在成本高、集成度低的问题。这个项目通过13DOF传感器与PIC18F2682微控制器的创新组合,实现了高性价…

2026/7/3 11:05:33 阅读更多 →
5大技术突破:OpenCore Legacy Patcher如何让旧Mac重获新生

5大技术突破:OpenCore Legacy Patcher如何让旧Mac重获新生

5大技术突破:OpenCore Legacy Patcher如何让旧Mac重获新生 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否曾经看着那台陪伴多年的MacBook&…

2026/7/3 11:05:32 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻