杨植麟亲自发布,月之暗面最强模型Kimi K2.5开源
杨植麟亲自出镜发布月之暗面迄今为止最强模型Kimi K2.5。Kimi K2.5 在 Kimi K2 的基础上经过了约15万亿视觉与文本混合数据的持续预训练原生的多模态模型带来了顶尖的编程与视觉能力以及一种能够自我指导的智能体蜂群agent swarm范式。对于复杂的任务Kimi K2.5 可以自我指导一个由多达100个子智能体组成的蜂群以并行工作流的方式执行跨越多达1500个工具调用的并行工作流。这种模式由 Kimi K2.5 自动创建和协调无需任何预定义的子智能体或工作流程。在三个智能体基准测试上包括 HLEHumanitys Last Exam人类最终考试、BrowseComp浏览器综合能力测试和 SWE-Verified软件工程验证测试Kimi K2.5 以远低于竞争对手的成本实现了强劲的性能表现。与 GPT-5.2xhigh相比Kimi K2.5 在 SWE-Verified 上节省了5.1倍的成本在 BrowseComp 上节省了21.1倍在 HLE 上节省了10.1倍。用户可以用更少的开销获得相近甚至更优的结果。代码获得了视觉Kimi K2.5 是目前开源模型中编程能力最强的之一尤其擅长前端开发。它可以将简单的对话转化为完整的前端界面实现交互式布局和丰富的动画效果例如滚动触发的特效。除了文本提示Kimi K2.5 更擅长利用视觉进行编程。通过对图像和视频的推理它提升了从图像或视频生成代码以及进行视觉调试的能力降低了用户通过视觉来表达意图的门槛。例如Kimi K2.5 可以通过观看一段视频来重建一个网站。这种能力源于大规模的视觉与文本联合预训练。当训练规模足够大时视觉和文本能力之间的权衡便不复存在它们会协同提升。一个有趣的例子是 Kimi K2.5 对一个迷宫谜题的解答。找到从左上角到右下角的最短路径其中黑色代表道路看起来太恐怖了模型首先分析图像确认这是一个在网格上寻找路径的问题。它将每个黑色像素视为一个节点相邻的黑色像素之间有边相连。解决这类问题的标准算法是 A*A-star或戴克斯特拉Dijkstra算法但考虑到这是一个所有边权重相等的网格广度优先搜索BFS, Breadth-First Search同样有效且能保证找到最短路径。模型制定了解决步骤加载图像将其转换为二进制迷宫以识别通路找到起点和终点然后实施广度优先搜索算法寻找最短路径最后将路径可视化地呈现在图像上。这个过程完整地展示了 Kimi K2.5 的视觉推理和代码执行能力。它不仅理解了任务的视觉内容还能自主规划并执行一系列复杂的代码操作来解决问题最终给出了一个经过验证的、可视化的完美答案。在真实的软件工程任务中Kimi K2.5 同样表现出色。Kimi Code Bench 内部编程基准测试涵盖了从构建、调试、重构到测试和编写脚本等多种端到端任务并支持多种编程语言。在这个基准测试上Kimi K2.5 在所有任务类型上都显示出比前代模型 K2 更为一致和显著的进步。K2.5 的得分为57.4±1.9而 K2 Thinking 为43.7±3.6K2 0905 为38.6±3.1。从 K2 0905 到 K2.5性能提升了约49%。为了方便用户体验 Kimi K2.5 的智能体编程能力官方提供了一个名为 K2.5 Agent 的模式其中预设了一系列工具。而对于更专业的软件工程应用场景官方推荐将 Kimi K2.5 与其新的编程产品 Kimi Code 结合使用。Kimi Code 可以在用户的终端环境中运行并能与多种集成开发环境IDE如 VSCode、Cursor、Zed 等集成。它是一个开源工具支持图像和视频作为输入并且能够自动发现和迁移用户已有的技能和模型上下文协议MCP到其工作环境中。一个展示 Kimi Code 能力的例子是它接受了将艺术家 Matisse 的名画《舞蹈》的美学风格转化为 Kimi 应用程序界面的任务。利用视觉输入和查阅文档K2.5 能够以视觉方式检查自己的输出并自主进行迭代最终端到端地创建了一个充满艺术感的网页。这种能力被称为自主视觉调试autonomous visual debugging它让模型能够像一个有经验的前端开发者一样反复查看自己的作品发现问题然后修正直到满意为止。智能体实现了蜂群协作Kimi K2.5 Agent Swarm智能体蜂群则展示了从单个智能体向上扩展Scaling Up到自我指导、协调一致的蜂群式执行Scaling Out的转变。通过并行智能体强化学习PARL, Parallel-Agent Reinforcement Learning的技术进行训练Kimi K2.5 学会了如何自我指导一个由多达100个子智能体组成的蜂群执行跨越多达1500个协调步骤的并行工作流而这一切都无需预设角色或手动编排工作流程。并行智能体强化学习使用一个可训练的编排器智能体orchestrator agent来将复杂任务分解为可并行的子任务。每个子任务都由动态实例化且参数固定的子智能体frozen subagents来执行。通过并行运行这些子任务相比于按顺序执行的单个智能体端到端的延迟时间得到了显著降低。训练一个可靠的并行编排器充满挑战因为它从独立运行的子智能体那里收到的反馈是延迟的、稀疏的且不稳定的。一个常见的失败模式是串行坍塌serial collapse即编排器虽然拥有并行的能力却退化为单智能体执行模式。为了解决这个问题并行智能体强化学习采用了一种分阶段奖励塑造staged reward shaping的策略。在训练初期该策略通过奖励来鼓励并行行为随着训练的深入逐渐将重点转移到任务的最终成功率上。奖励函数的设计是这样的总奖励等于一个辅助奖励鼓励并行实例化和一个任务级结果奖励的加权和。辅助奖励的权重从训练开始时的0.1逐渐退火到0.0。在训练早期辅助奖励激励子智能体的实例化和并发执行促进对并行调度空间的探索。随着训练的进行优化目标转向端到端的任务质量防止出现那种名义上并行但实际上无效的退化解决方案。为了进一步促使并行策略的出现研究人员引入了一个计算瓶颈使得串行执行变得不切实际。他们不再计算总步数而是使用一个名为关键步骤Critical Steps的指标来评估性能这个指标的灵感来源于并行计算中的关键路径概念。关键步骤的计算方式是对于每个时间步将主智能体的步数与所有子智能体中最慢那个的步数相加然后对所有时间步求和。主智能体的步数捕捉了编排的开销而最慢子智能体的步数则反映了每个阶段的瓶颈。在这个度量标准下衍生出更多的子任务只有在能够缩短关键路径时才是有益的。在并行智能体强化学习环境中训练过程呈现出两个有趣的趋势。随着训练的进行奖励值平滑地增加从约35%提升到约65%。与此同时训练期间的平均并行度也逐渐增加从约8提升到约14。这说明模型在学习过程中逐渐掌握了如何更有效地利用并行能力来完成任务。一个智能体蜂群的工作方式是这样的编排器智能体动态地创建专业化的子智能体例如人工智能研究员、物理学研究员、生命科学研究员、人类学研究员、事实核查员、网页开发者等。编排器将复杂任务分解为可并行的子任务分配给这些子智能体执行。每个子智能体独立工作完成后将结果返回给编排器。编排器收集所有结果进行整合最终输出最终结果。这个过程中编排器拥有一系列工具包括创建子智能体、分配任务、搜索、浏览器等。在一个具体的例子中任务是找出100个不同细分领域中排名前三的油管YouTube创作者。Kimi K2.5 智能体蜂群首先研究并定义了每个领域然后自主创建了100个子智能体来进行并行搜索。每个子智能体在其被分配的领域内识别出领先的创作者最终300个创作者的资料被汇总到一个结构化的电子表格中。这个电子表格详细记录了每个领域的信息包括领域名称、创作者姓名、频道名称、订阅者数量、国家、语言等。智能体蜂群通过并行化和专业化的执行方式提升了在复杂任务上的表现。在内部评估中它使得端到端的运行时间减少了80%同时能够处理更复杂、更长周期的工作负载。与单智能体执行相比智能体蜂群在广泛搜索场景中将达到目标性能所需的最小关键步骤减少了3到4.5倍并且这种节省会随着目标数量的增加而扩大最终通过并行化转化为高达4.5倍的实际时间缩短。办公生产力提升Kimi K2.5 将智能体带入了真实的知识工作领域。K2.5 Agent 能够端到端地处理高密度、大规模的办公任务。它能够对海量、高密度的输入信息进行推理协调多步骤的工具使用并直接通过对话交付专家级别的输出包括文档、电子表格、PDF 文件和幻灯片。为了衡量其在真实世界专业任务中的表现官方设计了两个内部的专家生产力基准测试。其中人工智能办公室基准测试AI Office Benchmark评估端到端的办公软件输出质量而通用智能体基准测试General Agent Benchmark则将多步骤、生产级别的工作流程与人类专家的表现进行比较。在这两个基准测试中Kimi K2.5 相较于其前代 K2 Thinking 模型分别取得了59.3%和24.3%的性能提升这反映了其在真实世界任务中更强的端到端执行能力。在 AI Office Bench 的详细数据中Kimi K2.5 表现更优的情况占71.2%两者表现相当的情况占16.9%K2 Thinking 表现更优的情况仅占11.9%。在 General-Agent Bench 中Kimi K2.5 表现更优的情况占39.0%两者表现相当的情况占46.3%K2 Thinking 表现更优的情况占14.7%。这些数据清晰地展示了 Kimi K2.5 在办公生产力方面的显著进步。K2.5 Agent 支持多种高级任务例如在 Word 文档中添加注释使用数据透视表Pivot Tables构建财务模型以及在 PDF 文件中编写 LaTeX 数学公式。同时它还能扩展到长篇内容的输出比如撰写长达一万字的论文或生成一百页的文档。过去需要数小时甚至数天才能完成的任务现在可以在几分钟内完成。一个具体的例子是Kimi K2.5 能够在一个电子表格中根据简单的指令创建包含100个镜头的带有图像的故事板。除了电子表格K2.5 Agent 还能处理文档、PDF 和幻灯片等多种办公格式。在文档处理方面它可以生成结构完整、格式规范的长篇报告包含标题、段落、列表、表格等元素。在 PDF 处理方面它可以生成包含复杂数学公式的学术文档这些公式使用 LaTeX 语法编写渲染后清晰美观。在幻灯片处理方面它可以生成专业的演示文稿包含文字、图表、图像等多种元素适合商务汇报或学术演讲。基准测试数据官方在多个维度上进行了广泛的基准测试涵盖了推理与知识、图像与视频、编程、长上下文处理和智能体搜索等领域。以下表格汇总了 Kimi K2.5 与其他业界领先模型的性能对比数据。在推理与知识领域Kimi K2.5 展现了强劲的竞争力。在 HLE-Full 配合工具使用的测试中Kimi K2.5 以50.2分领先于所有竞争对手包括 GPT-5.2 的45.5分、Claude 4.5 Opus 的43.2分和 Gemini 3 Pro 的45.8分。在数学竞赛类测试中如 AIME 2025 和 HMMT 2025Kimi K2.5 的表现也十分出色分别达到96.1分和95.4分仅略低于 GPT-5.2。在图像与视频领域Kimi K2.5 的表现尤为突出。MathVision 测试中Kimi K2.5 以84.2分超越了 GPT-5.2 的83.0分。OmniDocBench 1.5 文档理解测试中Kimi K2.5 以88.8分位居前列。OCRBench 光学字符识别测试中Kimi K2.5 以92.3分大幅领先于 GPT-5.2 的80.7分。InfoVQA 信息视觉问答测试中Kimi K2.5 以92.6分同样遥遥领先。SimpleVQA 测试中Kimi K2.5 以71.2分超越了所有竞争对手。VideoMMMU 测试中得分86.6在 LongVideoBench 长视频理解测试中得分79.8均处于领先水平。在编程领域Kimi K2.5 展现了作为开源模型的强大竞争力。SWE-Bench Multilingual 多语言软件工程测试中Kimi K2.5 以73.0分超越了 GPT-5.2 的72.0分和 Gemini 3 Pro 的65.0分。LiveCodeBench 实时编程测试中Kimi K2.5 以85.0分超越了 Claude 4.5 Opus 的82.2分和 DeepSeek V3.2 的83.3分。在长上下文处理方面Kimi K2.5 同样表现出色。AA-LCR 测试中Kimi K2.5 以70.0分超越了 Gemini 3 Pro 的65.3分和 DeepSeek V3.2 的64.3分。在智能体搜索领域Kimi K2.5 的优势最为明显。BrowseComp 浏览器综合能力测试中Kimi K2.5 以60.6分大幅领先于 Claude 4.5 Opus 的37.0分和 Gemini 3 Pro 的37.8分。在配合上下文管理的 BrowseComp 测试中Kimi K2.5 以74.9分领先于 GPT-5.2 的65.8分。而在智能体蜂群模式下Kimi K2.5 更是达到了78.4分的最高水平。DeepSearchQA 深度搜索问答测试中Kimi K2.5 以77.1分领先于所有竞争对手。Seal-0 测试中Kimi K2.5 以57.4分同样位居榜首。WideSearch 广泛搜索测试中智能体蜂群模式将 Kimi K2.5 的得分从72.7分提升到了79.0分提升了8.7%。Kimi K2.5 在编码、智能体蜂群和办公生产力方面的进步为开源社区迈向通用人工智能提供了强大的地基。参考资料https://www.kimi.com/blog/kimi-k2-5.htmlhttps://huggingface.co/moonshotai/Kimi-K2.5

相关新闻

跨平台环境下,KindEditor如何优化WORD图片复制效率?

跨平台环境下,KindEditor如何优化WORD图片复制效率?

企业网站内容管理模块Word/公众号粘贴与文档导入功能实施报告 一、需求背景分析 作为重庆某国企项目负责人,我们在政府类项目开发中遇到了以下核心需求: 内容输入效率需求:需要支持从Word/公众号直接粘贴内容到网站编辑器,并自…

2026/7/5 0:25:07 阅读更多 →
2026年数字人大管理新趋势:专业平台如何引领变革?

2026年数字人大管理新趋势:专业平台如何引领变革?

随着数字政府建设加速推进,人大工作的数字化转型已从"可选项"变为"必答题"。据行业调研机构预测,到2026年,全国超过85%的省级人大将完成核心业务系统的数字化重构,而专业化的数字人大管理平台将成为这场变革的…

2026/7/3 16:43:07 阅读更多 →
C++ 类间交互

C++ 类间交互

C 中不同类之间(尤其是这些类分散在不同头文件 / 源文件中时)如何实现通信,包括调用其他类的方法、访问其成员资源,这是 C 面向对象编程中最基础且高频的核心需求之一。 C 跨类 / 跨源文件通信的核心是正确的头文件管理 访问权限…

2026/7/3 3:03:45 阅读更多 →

最新新闻

AI绘画提示词编写与优化全指南

AI绘画提示词编写与优化全指南

1. AI绘画提示词(Prompt)编写核心逻辑解析AI绘画的核心在于将自然语言描述转化为视觉元素,这个过程本质上是一种跨模态的信息转换。理解这个转换机制是编写优质Prompt的基础。现代AI绘画模型如Stable Diffusion、MidJourney都建立在扩散模型(Diffusion Model)架构上…

2026/7/5 0:25:48 阅读更多 →
如何在Windows家庭版上启用专业级远程桌面:RDP Wrapper Library终极指南(2024版)

如何在Windows家庭版上启用专业级远程桌面:RDP Wrapper Library终极指南(2024版)

如何在Windows家庭版上启用专业级远程桌面:RDP Wrapper Library终极指南(2024版) 【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap 你是否曾经因为Windows家庭版无法使用远程桌面功…

2026/7/5 0:21:46 阅读更多 →
2025年Nmap渗透测试实战指南:从基础扫描到高级规避技术

2025年Nmap渗透测试实战指南:从基础扫描到高级规避技术

1. 项目概述:为什么Nmap依然是渗透测试的基石如果你在网络安全这个行当里待过一阵子,或者哪怕只是刚入门,大概率都听过Nmap这个名字。它就像木匠手里的锤子,厨师手里的刀,是那种你明知道它“古老”,但每次开…

2026/7/5 0:17:44 阅读更多 →
WPF可视化设计工具终极指南:如何用WpfDesigner让界面开发效率提升3倍?

WPF可视化设计工具终极指南:如何用WpfDesigner让界面开发效率提升3倍?

WPF可视化设计工具终极指南:如何用WpfDesigner让界面开发效率提升3倍? 【免费下载链接】WpfDesigner The WPF Designer from SharpDevelop 项目地址: https://gitcode.com/gh_mirrors/wp/WpfDesigner 还在为WPF界面开发中的繁琐XAML代码而烦恼吗&…

2026/7/5 0:15:43 阅读更多 →
基于YOLOv8的猫狗品种识别系统开发实战

基于YOLOv8的猫狗品种识别系统开发实战

1. 项目概述:基于YOLOv8的猫狗品种识别系统这个项目本质上是一个计算机视觉领域的典型应用——利用YOLOv8目标检测算法实现猫狗品种的自动识别。我在实际部署中发现,相比传统图像处理方法,深度学习方案在复杂场景下的识别准确率能提升40%以上…

2026/7/5 0:13:42 阅读更多 →
从零实现SHA-1哈希算法:原理、代码与性能优化实战

从零实现SHA-1哈希算法:原理、代码与性能优化实战

1. 项目概述:从“知其然”到“知其所以然”的SHA-1实现之旅在信息安全领域,哈希算法扮演着数据完整性校验和数字签名的基石角色。SHA-1(Secure Hash Algorithm 1)作为曾经的主流算法,虽然因其安全性问题已不再被推荐用…

2026/7/5 0:13:42 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻