大模型榜单周报(2026/01/31)
1. 本周概览本周大模型行业迎来多项重要进展百度文心5.0正式发布通义千问开源Qwen3-TTS语音模型Kimi发布并开源K2.5模型。榜单方面变化剧烈MiMo V2 Flash (free)遭遇断崖式下跌DeepSeek V3.2强势跃升编程领域竞争格局发生重大变化Grok Code Fast 1领先优势萎缩新模型Kimi K2.5强势闯入前五。2. 重点关注事件百度于1.24日正式发布文心5.0搭载2.4万亿参数原生全模态架构在40余项基准测试中领跑国际第一梯队被称为最强文科生通义千问于1.26开源Qwen3-TTS全系列语音模型支持3秒克隆与音色创造延迟低至97ms开源1.7B极致性能和0.6B轻量高效两个版本满足从云端到边缘的多样化部署需求同时Qwen3-Max-Thinking上线引入自适应工具调用与测试时扩展技术两大核心创新DeepSeek于1.27更新OCR模型DeepSeek-OCR 2通过引入DeepEncoder V2架构实现视觉编码从「固定扫描」向「语义推理」的范式转变将原本基于CLIP的编码器替换为轻量级语言模型Qwen2-500M并引入具有因果注意力机制的「因果流查询」Kimi于1.27发布并开源K2.5模型该模型为原生多模态架构设计支持最高256,000 tokens的标准上下文长度支持视觉与文本输入、思考与非思考模式、对话与Agent任务并进一步提升开源模型的代码水平尤其在前端开发领域表现突出MiniMax于1.29发布MiniMax Music 2.5在「段落级强控制」与「物理级高保真」两大技术难题上实现突破辅以华语优化及专业混音让格莱美级音乐创作无需录音棚即可实现3. 榜单变化OpenRouter整体模型调用量方面MiMo V2 Flash (free)遭遇断崖式下跌调用量从582B tokens骤降至280B排名由第2滑落至第9周增长率从18%转为-52%DeepSeek V3.2实现强势跃升调用量从364B增至464B排名从第7升至第4周增长率由4%大幅提升至27%Claude Opus 4.5由高速增长转为明显回调调用量从395B降至339B周增长率从35%转为-14%Gemini 2.5 Pro跌出前十榜单其上周413B的调用量本周被gpt-oss-120b以272B进入前十取代Gemini 2.5 Flash稳步复苏排名从第8上升至第5调用量从364B增至394B周增长率由-3%转正为8%OpenRouter模型市占率方面DeepSeek调用量从上周457B增至本周553B市场占比由8.0%提升至9.4%Google主导地位略有削弱调用量从1.48T降至1.4T占比由26.0%下滑至24.0%Xiaomi遭遇断崖式下跌从第6名441B7.8%直接跌出前十榜单MoonshotAI强势入局新进前十并直接占据第7位获得203B调用量3.5%份额长尾市场爆发式增长Others类别调用量从349B激增至598B占比由6.1%飙升至10.2%OpenRouter模型吞吐量方面GPT-OSS-120BGroq提供具有超强统治力体现在速度够快成本可控规模化验证速度第2936 tok/s成本适中$0.35/M请求量最高可能是当前最主流的生产环境选择Qwen3 32BCerebras提供崛起速度第3736 tok/s圆点第二大显示国产模型可能在国际开发者工具链中已占核心位置OpenRouter编程调用量方面Grok Code Fast 1领先优势急剧萎缩调用量占比由22.8%大幅下滑至16.4%MiniMax M2.1实现跨越式增长调用量从56.8B翻倍至115B占比由4.0%大幅提升至7.4%Kimi K2.5强势闯入前五以139B tokens和8.9%占比新晋榜单第4位GPT-5系列双模型重回前十GPT-5.2与GPT-5.2-Codex分别以61.4B和54.5B tokens调用量占据第8、第9位上周三大热门模型集体跌出前十MiMo V2 Flash (free)、Devstral 2 2512 (free)与DeepSeek V3.2分别从上周第5、第7、第9位滑落至十名之外图像编辑能力榜单Text to Image Arenahunyuan-image-3.0-instruct新上榜单评分基于预发布测试可能会随着公开发布后社区反馈和投票的变化而调整图像编辑能力榜单Artificial Analysis Image Editing LeaderboardReve V1分数超过FLUX.2 [pro]二者排名易位分别排名8、9文生图能力榜单Artificial Analysis Text to Image LeaderboardFLUX.2 [dev] Turbo分数超过ImagineArt 1.5 Preview二者排名易位分别排名10、11GAIA榜单Shawn Agent更新v3.1排名第7得分达89.37%4. 排行榜测评类型第一名第二名第三名模型调用量Claude Sonnet 4.5Gemini 3 Flash PreviewGrok Code Fast 1公司市占率GoogleAnthropicOpenAI模型速度gpt-oss-safeguard-20bgpt-oss-120bQwen3 32B编程模型调用量Grok Code Fast 1Claude Sonnet 4.5Claude Opus 4.5各公司按不同能力领域排名汇总测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面编程能力 Code ArenaAnthropic、OpenAI、Google、智谱、MiniMax编程能力 LiveCodeBenchOpenAI、Anthropic、Google代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、腾讯、Black Forest Labs、Reve文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、FalGPQAOpenAI、Google、xAI、Anthropic、阿里巴巴FrontierMathOpenAI、Google、DeepSeek、月之暗面、Anthropic、xAIHumanitys Last ExamGoogle、OpenAI、AnthropicGAIAJoinAI、Nvidia、Suzhou AI LabShuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等关注我第一时间掌握更多AI前沿资讯

相关新闻

10个技巧:用AI测试量子加密聊天软件

10个技巧:用AI测试量子加密聊天软件

量子加密聊天软件(如量子密信)利用量子密钥分发(QKD)等机制实现“一话一密”和“阅后即焚”功能,确保通信安全,但测试这类软件面临独特挑战,如量子态易受干扰和端到端加密验证。 AI技术通过自动…

2026/7/4 18:51:09 阅读更多 →
农业AI测试:开发者掘金的新蓝海

农业AI测试:开发者掘金的新蓝海

农业AI的爆发与测试的黄金机遇 近年来,农业AI技术飞速发展,从田间传感器到全流程智能管理,正重塑传统农业模式。 作为软件测试从业者,您可能好奇:为什么这个领域成了我们的“新金矿”?答案在于农业AI系统的…

2026/7/3 14:40:56 阅读更多 →
什么是 CAS?并发编程的 “无锁基石”

什么是 CAS?并发编程的 “无锁基石”

一、前言 在 Java 并发编程的世界里,我们总是在和 “线程安全”“性能优化” 打交道。传统的锁机制虽然能解决线程安全问题,但也带来了不少性能损耗。而今天要介绍的 Compare and Swap(简称 CAS),作为无锁编程的核心思…

2026/7/3 14:40:59 阅读更多 →

最新新闻

JVM是什么?

JVM是什么?

JVM是什么?JVM,即Java Virtual Machine,即Java虚拟机。虚拟机是什么?模拟出一台和真实物理电脑行为几乎一样的虚拟电脑的软件。(JVM是进程虚拟机,不模拟硬件,只模拟一套自定义虚拟指令集&#x…

2026/7/4 19:43:35 阅读更多 →
Deepin Boot Maker终极指南:3步制作Linux启动盘的最佳实践

Deepin Boot Maker终极指南:3步制作Linux启动盘的最佳实践

Deepin Boot Maker终极指南:3步制作Linux启动盘的最佳实践 【免费下载链接】deepin-boot-maker 项目地址: https://gitcode.com/gh_mirrors/de/deepin-boot-maker 你是否曾为安装Linux系统而烦恼?传统命令行制作启动盘的方式复杂且容易出错&…

2026/7/4 19:43:35 阅读更多 →
Transformers.js:重新定义浏览器端AI开发的颠覆性框架

Transformers.js:重新定义浏览器端AI开发的颠覆性框架

Transformers.js:重新定义浏览器端AI开发的颠覆性框架 【免费下载链接】transformers.js State-of-the-art Machine Learning for the web. Run 🤗 Transformers directly in your browser, with no need for a server! 项目地址: https://gitcode.com…

2026/7/4 19:41:34 阅读更多 →
Codex 用户集体暴怒!Token疯狂蒸发的 5 个原因终于找到了

Codex 用户集体暴怒!Token疯狂蒸发的 5 个原因终于找到了

最近不少朋友都有一个感受,就是codex怎么消耗变快了。之前是100刀的Pro会员随便用,根本用不完(额度那个时候有翻倍)。后续发现100刀的Pro开始不够用了,甚至到最后200刀的刀Pro也开始不够用了。就在2026 年 6 月底&…

2026/7/4 19:41:34 阅读更多 →
Python简史

Python简史

Python是我喜欢的语言,简洁,优美,容易使用。前两天,我很激昂的向朋友宣传Python的好处。 听过之后,朋友问我:好吧,我承认Python不错,但它为什么叫Python呢? 我不是很确…

2026/7/4 19:39:34 阅读更多 →
米游社自动签到工具:3分钟完成配置,轻松获取游戏奖励

米游社自动签到工具:3分钟完成配置,轻松获取游戏奖励

米游社自动签到工具:3分钟完成配置,轻松获取游戏奖励 【免费下载链接】MihoyoBBSTools Womsxd/AutoMihoyoBBS,米游社相关脚本 项目地址: https://gitcode.com/gh_mirrors/mi/MihoyoBBSTools 想要每天自动完成米游社签到,获…

2026/7/4 19:39:34 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻