大模型榜单周报（2026/01/31）-尧图手机网站定制

1. 本周概览本周大模型行业迎来多项重要进展百度文心5.0正式发布通义千问开源Qwen3-TTS语音模型Kimi发布并开源K2.5模型。榜单方面变化剧烈MiMo V2 Flash (free)遭遇断崖式下跌DeepSeek V3.2强势跃升编程领域竞争格局发生重大变化Grok Code Fast 1领先优势萎缩新模型Kimi K2.5强势闯入前五。2. 重点关注事件百度于1.24日正式发布文心5.0搭载2.4万亿参数原生全模态架构在40余项基准测试中领跑国际第一梯队被称为最强文科生通义千问于1.26开源Qwen3-TTS全系列语音模型支持3秒克隆与音色创造延迟低至97ms开源1.7B极致性能和0.6B轻量高效两个版本满足从云端到边缘的多样化部署需求同时Qwen3-Max-Thinking上线引入自适应工具调用与测试时扩展技术两大核心创新DeepSeek于1.27更新OCR模型DeepSeek-OCR 2通过引入DeepEncoder V2架构实现视觉编码从「固定扫描」向「语义推理」的范式转变将原本基于CLIP的编码器替换为轻量级语言模型Qwen2-500M并引入具有因果注意力机制的「因果流查询」Kimi于1.27发布并开源K2.5模型该模型为原生多模态架构设计支持最高256,000 tokens的标准上下文长度支持视觉与文本输入、思考与非思考模式、对话与Agent任务并进一步提升开源模型的代码水平尤其在前端开发领域表现突出MiniMax于1.29发布MiniMax Music 2.5在「段落级强控制」与「物理级高保真」两大技术难题上实现突破辅以华语优化及专业混音让格莱美级音乐创作无需录音棚即可实现3. 榜单变化OpenRouter整体模型调用量方面MiMo V2 Flash (free)遭遇断崖式下跌调用量从582B tokens骤降至280B排名由第2滑落至第9周增长率从18%转为-52%DeepSeek V3.2实现强势跃升调用量从364B增至464B排名从第7升至第4周增长率由4%大幅提升至27%Claude Opus 4.5由高速增长转为明显回调调用量从395B降至339B周增长率从35%转为-14%Gemini 2.5 Pro跌出前十榜单其上周413B的调用量本周被gpt-oss-120b以272B进入前十取代Gemini 2.5 Flash稳步复苏排名从第8上升至第5调用量从364B增至394B周增长率由-3%转正为8%OpenRouter模型市占率方面DeepSeek调用量从上周457B增至本周553B市场占比由8.0%提升至9.4%Google主导地位略有削弱调用量从1.48T降至1.4T占比由26.0%下滑至24.0%Xiaomi遭遇断崖式下跌从第6名441B7.8%直接跌出前十榜单MoonshotAI强势入局新进前十并直接占据第7位获得203B调用量3.5%份额长尾市场爆发式增长Others类别调用量从349B激增至598B占比由6.1%飙升至10.2%OpenRouter模型吞吐量方面GPT-OSS-120BGroq提供具有超强统治力体现在速度够快成本可控规模化验证速度第2936 tok/s成本适中$0.35/M请求量最高可能是当前最主流的生产环境选择Qwen3 32BCerebras提供崛起速度第3736 tok/s圆点第二大显示国产模型可能在国际开发者工具链中已占核心位置OpenRouter编程调用量方面Grok Code Fast 1领先优势急剧萎缩调用量占比由22.8%大幅下滑至16.4%MiniMax M2.1实现跨越式增长调用量从56.8B翻倍至115B占比由4.0%大幅提升至7.4%Kimi K2.5强势闯入前五以139B tokens和8.9%占比新晋榜单第4位GPT-5系列双模型重回前十GPT-5.2与GPT-5.2-Codex分别以61.4B和54.5B tokens调用量占据第8、第9位上周三大热门模型集体跌出前十MiMo V2 Flash (free)、Devstral 2 2512 (free)与DeepSeek V3.2分别从上周第5、第7、第9位滑落至十名之外图像编辑能力榜单Text to Image Arenahunyuan-image-3.0-instruct新上榜单评分基于预发布测试可能会随着公开发布后社区反馈和投票的变化而调整图像编辑能力榜单Artificial Analysis Image Editing LeaderboardReve V1分数超过FLUX.2 [pro]二者排名易位分别排名8、9文生图能力榜单Artificial Analysis Text to Image LeaderboardFLUX.2 [dev] Turbo分数超过ImagineArt 1.5 Preview二者排名易位分别排名10、11GAIA榜单Shawn Agent更新v3.1排名第7得分达89.37%4. 排行榜测评类型第一名第二名第三名模型调用量Claude Sonnet 4.5Gemini 3 Flash PreviewGrok Code Fast 1公司市占率GoogleAnthropicOpenAI模型速度gpt-oss-safeguard-20bgpt-oss-120bQwen3 32B编程模型调用量Grok Code Fast 1Claude Sonnet 4.5Claude Opus 4.5各公司按不同能力领域排名汇总测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面编程能力 Code ArenaAnthropic、OpenAI、Google、智谱、MiniMax编程能力 LiveCodeBenchOpenAI、Anthropic、Google代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、腾讯、Black Forest Labs、Reve文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、FalGPQAOpenAI、Google、xAI、Anthropic、阿里巴巴FrontierMathOpenAI、Google、DeepSeek、月之暗面、Anthropic、xAIHumanitys Last ExamGoogle、OpenAI、AnthropicGAIAJoinAI、Nvidia、Suzhou AI LabShuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等关注我第一时间掌握更多AI前沿资讯

大模型榜单周报（2026/01/31）

相关新闻

10个技巧：用AI测试量子加密聊天软件

农业AI测试：开发者掘金的新蓝海

什么是 CAS？并发编程的 “无锁基石”

最新新闻

JVM是什么？

Deepin Boot Maker终极指南：3步制作Linux启动盘的最佳实践

Transformers.js：重新定义浏览器端AI开发的颠覆性框架

Codex 用户集体暴怒！Token疯狂蒸发的 5 个原因终于找到了

Python简史

米游社自动签到工具：3分钟完成配置，轻松获取游戏奖励

日新闻

Memcached 1.6.43 发布：关键安全修复版本，多项问题得到解决

终极指南：使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

周新闻

月新闻