当我们让最强 AI 看真实照片解决实际问题最强大模型集体翻车 —— AgentVista: 超高难度多模态 Agent 评测我们提出了 AgentVista —— 一个面向真实视觉场景的超高难度多模态 Agent 评测基准。209 道精心策划的任务横跨 7 大领域 25 个子方向要求模型在复杂视觉线索中完成多步工具调用与推理。结果令人震惊即便是当前最强的 Gemini-3-Pro整体准确率也仅有27.27%。论文标题: AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios机构: 香港科技大学 (HKUST), 浙江大学, 新加坡国立大学, 北卡罗来纳大学教堂山分校论文链接: https://arxiv.org/abs/2602.23166项目主页: https://agentvista-bench.github.io/GitHub: https://github.com/hkust-nlp/AgentVista一、为什么我们需要 AgentVista人类天生就能无缝整合多感官信息来解决复杂的现实问题。随着 GPT-5、Gemini-3、Claude-Opus-4 等多模态大模型的快速演进构建具有视觉智能体能力Visual Agentic Intelligence的 AI Agent 成为了前沿研究的核心方向。我们期待这些 Agent 能够真正看懂世界并采取行动——在超市货架前扫描商品标签并结合营养信息满足用户的健康约束在设备故障时将故障照片与电路原理图关联起来精准定位问题在装修时跨越多张实景照片匹配地板样式、检索产品规格并计算最终费用。然而一个关键问题浮出水面现有的 Benchmark 真的能衡量 Agent 在真实场景中的能力吗答案是远远不够。我们系统分析了当前主流多模态 Agent 评测发现它们存在两大核心缺陷缺陷一Capability-Specific Evaluation能力碎片化评测。现有 Benchmark 往往只聚焦于某一项特定能力——有的只测视觉操作如裁剪、缩放有的只测网页浏览有的只测代码生成。这种单项考试模式根本无法评估一个通用型 Agent 在长链条工作流中协调多种技能的真实能力。缺陷二Realism 与 Difficulty 之间的失衡。真实的 Agent 任务之所以困难是因为它们同时面临杂乱的视觉证据和长链条的受约束工具调用。然而很多 Benchmark 为了增加难度反而简化了视觉输入或采用了偏离日常工作流的工具模式。例如VisualToolBench 会对输入图像进行预处理以适配特定视觉操作——虽然这有利于评测视觉操作能力但也将问题从在自然视觉状态下推理转变成了在精心策划的输入上操作偏离了真实场景的挑战。为此我们提出了AgentVista—— 一个以真实视觉场景为核心要求自然交错的混合工具调用Interleaved Hybrid Tool Use同时保证答案可验证的超高难度多模态 Agent 评测基准。AgentVista 包含 209 道任务横跨 7 大领域 25 个子方向每一道任务都扎根于细节丰富的真实视觉状态日常照片、截图、技术图纸要求 Agent 反复锚定视觉线索、检索外部信息并验证中间决策——这正是现实世界中多模态智能体面临的真正挑战。AgentVista 示例任务一个真实的家居装修场景Agent 需要跨图匹配地板样式、验证目标房间、检索产品规格并计算最终费用二、AgentVista 的三大设计原则1. Vision-Centric视觉是解题的核心每一道任务的关键证据都必须从图像中获取。图像是真实拍摄或截图包含细微但关键的视觉线索——标签上的小字、电路板上的芯片型号、地图中的隐藏路径。文字描述无法替代视觉观察纯文本搜索无法绕过视觉理解。2. Interleaved Hybrid Tool Use自然交错的多工具协作每道任务至少需要两种以上工具类别的交错调用。例如先用 Code Interpreter 裁剪放大图像细节再用 Image Search 反向搜索接着 Web Search 查询规格参数最后用代码计算最终答案。这正是真实用户解决问题的自然工作流。3. Verifiable答案确定、评测可靠每道任务都有简洁明确的标准答案数字、实体名称或简短描述避免主观评判带来的评测噪声评测过程如同数学题一样客观稳定。三、数据构建从 30 万张候选图到 209 道精品任务AgentVista 采用了极其严格的四阶段筛选流程从超过 30 万张候选图像中层层过滤最终仅保留 209 道任务——淘汰率高达 99.93%。AgentVista 四阶段数据构建流程四个阶段阶段内容产出Stage 1: Agent-Centric Filtering使用 Claude-Opus-4 进行模型辅助筛选 人工审核过滤视觉信息不足的图片~568 候选0.19%Stage 2: Expert Finalization专家标注员将任务改写为真实用户请求确保 vision-centric 且答案确定315 道任务Stage 3: Execution Filtering在工具环境中实际执行验证保留需要跨工具类别交错调用的任务241 道任务Stage 4: Two-Round Verification两轮人工复核移除证据不充分、答案不稳定的样本209 道最终任务每道任务的人工构建成本约4 小时专家求解时间约30 分钟。四、Benchmark 全貌7 大领域、25 个子方向AgentVista 覆盖了生活与专业场景中最具代表性的 7 大领域AgentVista 数据分布7 大领域 25 个子方向统计项数值总任务数209总图片数308一级类别7二级类别25平均 Query 长度401.4 字符单图任务15172.2%多图任务5827.8%七大领域涵盖Technology技术、Commerce商业、Geography地理、Entertainment娱乐、Society社会生活、Academics学术、Culture文化。下图展示了来自不同领域的采样任务示例AgentVista 各领域采样示例五、工具环境四大核心工具AgentVista 为 Agent 提供了 4 种核心工具覆盖真实多模态工作流工具功能典型用途Web Search网页搜索查询产品参数、历史事件、技术规格Image Search图像搜索正向/反向以图搜图、识别物品来源Visit访问网页并提取内容深入阅读搜索结果、获取详细信息Code InterpreterPython 代码执行PIL, NumPy, OpenCV等图像裁剪/放大、数值计算、数据分析六、核心实验结果最强模型也只有 27%我们评测了当前14 个主流模型包括 GPT-5 系列、Gemini-3 系列、Claude 系列、Grok-4 以及开源模型。结果揭示了一个残酷的现实主实验结果ModelComm.Geog.Ent.Tech.Soc.Acad.Cult.OverallAvg TurnsGemini-3-Pro16.6728.2120.5132.3532.0040.0040.0027.276.67GPT-523.8123.0812.8235.2928.0026.6726.6724.4012.67GPT-5.221.4317.9520.5138.2424.0033.3320.0024.4013.85GPT-5.123.8112.8215.3826.4724.0040.0040.0022.9717.14Gemini-3-Flash16.6717.9510.2629.4128.0040.0020.0021.057.78o321.4315.387.6923.5340.0026.6713.3320.1013.18Claude-Opus-4.111.9023.0810.2629.4116.0026.6713.3318.187.28Claude-Sonnet-4.511.9023.087.6926.4724.0020.0013.3317.709.99Grok-411.9023.087.6920.5928.000.000.0014.8316.44Qwen3-VL-235B7.147.697.6926.4716.0020.0013.3312.922.34关键发现1. 整体难度极高提升空间巨大最强的 Gemini-3-Pro 整体准确率仅 27.27%意味着每 4 道题只能答对 1 道。这与现有 Benchmark 上动辄 80-90% 的成绩形成了鲜明对比真实揭示了当前多模态 Agent 的能力边界。2. 没有模型能通吃所有领域GPT-5 系列在 Technology 和 Commerce 上领先Gemini-3-Pro 在 Geography、Culture 上表现最佳Claude 系列在需要仔细阅读和约束遵循的任务上更稳健各家模型都有明显的偏科现象3. 多图输入并不一定更难出乎意料的是多图任务的表现往往优于单图任务。例如 Gemini-3-Pro 在多图任务上达到 36.84%远高于单图的 23.68%。这说明多角度视觉证据反而降低了歧义性真正的瓶颈在于长链条的工具调用和约束追踪。七、深度分析模型到底在哪里翻车工具使用模式差异显著不同模型的工具使用偏好对比GPT-5 系列重度依赖 Code Interpreter尤其是图像裁剪CROP操作Gemini 和 Claude 系列更偏好 Web Search 驱动的检索式工作流Image Search 在所有模型中使用频率最低但对特定任务不可或缺错误类型分析四个模型的错误类型分布最主要的失败原因是Visual Misidentification视觉误识别——占据了所有模型错误的最大比例。模型在细粒度视觉理解上的一个小错误看错标签、混淆相似元器件、漏掉微小标记会像多米诺骨牌一样引发后续检索和推理的连锁错误。第二大错误来源是Knowledge Hallucination知识幻觉——模型编造看似合理但缺乏依据的事实而非基于图像和检索到的信息进行推理。工具消融实验工具消融实验结果设置Gemini-3-ProClaude-Sonnet-4.5Full Tool全部工具27.27%17.70%Vision Only仅视觉工具20.10%17.22%Search Only仅搜索工具26.32%13.40%No Tool无工具18.18%13.40%实验表明混合工具协作 单一工具。有趣的是Gemini-3-Pro 仅用搜索工具就能接近全工具表现26.32% vs 27.27%体现了其强大的视觉感知能力而 Claude-Sonnet-4.5 在移除搜索后性能大幅下降更依赖检索辅助。八、Test-Time Scaling采样更多次能救命吗我们用 Gemini-3-Flash 探索了 Test-Time Scaling 的效果K采样次数RandomKBest-of-KPassK121.0521.0521.05219.1124.8826.07418.2326.3234.22817.0928.2342.591618.0530.6251.67随机采样几乎无效RandomK 不升反降Best-of-K 选择策略有效但提升有限30.62% at K16PassK 上限达 51.67%表明正确答案经常存在于采样中但选不出来这意味着Reinforcement Learning 和更好的 Reward Model是突破瓶颈的关键方向。九、与现有 Benchmark 的对比BenchmarkVisual Ops.Visual SearchText SearchCode Exec.Multi-ImageAvg TurnsTIR-Bench✅❌❌✅✅2.92Agent-X✅❌✅✅✅3.4MMSearch-Plus❌✅✅❌✅4.6BrowseComp-VL❌✅✅✅❌4.3VisualToolBench✅❌✅✅❌4.46AgentVista (Ours)✅✅✅✅✅12.67AgentVista 是唯一同时覆盖全部四类工具且支持多图输入的 Benchmark平均工具调用轮次达12.67 轮远超现有工作真实反映了长链条多模态推理的挑战。十、总结与展望AgentVista 揭示了当前多模态 Agent 面临的核心挑战细粒度视觉理解仍然是最大瓶颈一个感知错误就会引发连锁失败长链条工具调用平均 12 轮、困难样本 25 轮远超模型当前的规划和执行能力领域泛化性不足没有任何模型能在所有领域保持一致的高水平Test-Time Scaling有潜力但选择策略是关键RL 方向值得深入探索我们的 Benchmark 和轻量级 Agent 框架已开源欢迎社区使用和贡献项目主页: https://agentvista-bench.github.io/GitHub: https://github.com/hkust-nlp/AgentVista论文: https://arxiv.org/abs/2602.23166