Gemini 3 Flash 代理化视觉
结合视觉推理和代码执行将答案建立在视觉证据之上。大多数人工智能视觉的工作方式就像瞥一眼。你上传一张图片模型看一眼然后给出它的最佳猜测。有时这个猜测是错误的因为文字太小、表格太密集或者细节隐藏在模型从未放大查看的角落里。谷歌刚刚通过 Gemini 3 Flash 中的代理化视觉Agentic Vision改变了这一点。模型不再进行一次静态的扫描而是将每张图片都视为需要调查的问题。它会观察编写 Python 代码来裁剪和操作它所看到的内容运行该代码再次查看结果并持续进行直到真正得到答案。这并不是一个微小的功能更新。它改变了你可以可靠地要求视觉模型做的事情。1、代理化视觉的实际作用核心概念是一个循环思考、行动、观察。模型接收你的图片和提示。它会形成一个计划。然后它编写并执行 Python 代码来操作图片、放大到特定区域、绘制注释或对提取的数据运行计算。该代码的输出被反馈到模型的上下文中。现在它可以以更好的信息再次查看。它不断迭代直到得到一个基于事实的答案。一个具体的例子你发送一张设备面板的照片角落里有一个微小的序列号。标准视觉模型眯着眼并产生一些数字的幻觉。代理视觉检测到文字太小编写代码来裁剪那个角落放大它清晰地读取它并返回实际的序列号。这种差异并不微妙。谷歌报告称启用代码执行后视觉基准测试的准确性持续提高 5–10%。对于细粒度的任务差距要大得多。2、这对开发者为何重要如果你构建了任何使用 AI 处理图片的东西你就会知道这些痛点。收据扫描错误地读取总额。文档处理在密集的表格中丢失数据。质量检查错过了高分辨率图像中的缺陷。代理视觉攻击了所有这些问题因为模型现在可以做一名细心的人类会做的事情放大、测量、注释、计算并在回答之前进行验证。有三个类别特别突出放大和检查。模型检测到细节太小时会自动裁剪并以更高的分辨率重新检查区域。远处的仪表、微小的标签、设备上的序列号、照片背景白板上的文字。所有这些变得可读因为模型可以编写几行 Python 来放大相关区域。视觉数学和绘图。模型不再尝试概率性地推理图片中的数字而是提取数据并在 Python 中运行真实的计算。汇总收据上的行项目。解析密集的表格并生成 Matplotlib 图表。通过绘制边界框并编程计算来计算对象。数学是确定性的不是猜测的。图像注释。模型可以直接在图片上绘制。边界框、箭头、标签。问这个组件应该放在哪里你会得到一个显示答案的注释图片而不仅仅是文字描述。3、一个现实世界的例子PlanCheckSolver.com 是一个验证建筑计划是否符合合规代码的平台它集成了代理视觉准确性提高了 5%。他们的工作流程Gemini 3 Flash 接收高分辨率建筑计划编写 Python 来裁剪特定部分屋顶边缘、建筑退让、结构细节将这些裁剪图附加回上下文并在面前有视觉证据的情况下对代码合规性进行推理。这就是模式。高分辨率输入、目标检查、基于事实的推理。它之所以有效是因为模型并没有试图一次性理解所有内容。它在系统地调查重要的部分。4、如何使用它API 很简单。你将代码执行配置为工具模型处理其余部分。from google import genai from google.genai import types import requests image_url https://example.com/equipment-panel.jpg image_bytes requests.get(image_url).content image types.Part.from_bytes( dataimage_bytes, mime_typeimage/jpeg ) client genai.Client() response client.models.generate_content( modelgemini-3-flash-preview, contents[ image, Read the serial number on the bottom-right panel. ], configtypes.GenerateContentConfig( tools[types.Tool( code_executiontypes.ToolCodeExecution )] ), ) for part in response.candidates[0].content.parts: if part.text: print(part.text) if part.executable_code: print(part.executable_code.code) if part.code_execution_result: print(part.code_execution_result.output)关键的一行是tools[types.Tool(code_executiontypes.ToolCodeExecution)]。这个单一的配置将被动视觉转变为代理视觉。模型根据任务决定何时以及如何使用代码执行。你还可以检查模型的中间步骤。响应包括executable_code部分显示模型编写的确切 Python 代码以及code_execution_result部分显示输出。这对于调试和理解模型的推理链很有用。5、变得有趣的地方当前的实现使用 Python 代码执行作为主要工具。但谷歌已经表示更多工具即将到来包括网络搜索和反向图片搜索。愿景是模型将拥有完整的视觉调查工具包。想一想在这种背景下反向图片搜索意味着什么。上传一张陌生组件的照片模型不仅描述它看到的东西。它搜索匹配的图像识别制造商和零件号并返回该信息以及其视觉分析。另一个方向是隐式触发。目前代码执行是一个显式的工具配置。谷歌的路线图建议使这些行为自动化模型自己决定何时放大、注释或计算而无需你启用它。6、这个模式告诉我们什么代理化视觉是一个更广泛转变的一部分AI 模型变得越来越像工作流而不像查找函数。模型不是在一次扫描中返回一个答案。它运行一个过程有多个步骤、中间输出和自我纠正。这是在编码代理迭代代码、测试、修复循环、研究代理搜索、阅读、综合、再次搜索以及现在的视觉中出现的相同模式。能够规划和执行多步骤调查的模型总是会优于单次射击的模型。对于任何在视觉 AI 上构建产品的人来说实际的启示是明确的可靠性的底线显著提高了。以前需要自定义预处理流水线裁剪、增强、OCR的任务现在可以由模型自己在推理过程中即时处理。工具越来越好。人工智能视觉中演示质量和生产质量之间的差距变得小多了。原文链接Gemini 3 Flash 代理化视觉 - 汇智网

相关新闻

ContextMenuManager:解决Windows右键菜单臃肿的终极优化工具

ContextMenuManager:解决Windows右键菜单臃肿的终极优化工具

ContextMenuManager:解决Windows右键菜单臃肿的终极优化工具 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager ContextMenuManager是一款专为Windows系…

2026/5/17 4:39:39 阅读更多 →
MedGemma Medical Vision Lab惊艳效果:DSA血管造影中狭窄/侧支/充盈缺损文本刻画

MedGemma Medical Vision Lab惊艳效果:DSA血管造影中狭窄/侧支/充盈缺损文本刻画

MedGemma Medical Vision Lab惊艳效果:DSA血管造影中狭窄/侧支/充盈缺损文本刻画 想象一下,你是一位放射科医生,面对一张复杂的数字减影血管造影(DSA)图像,上面密密麻麻的血管网络交织在一起。你需要快速、…

2026/7/4 4:11:51 阅读更多 →
实时口罩检测-通用效果实测:侧脸、戴眼镜、部分遮挡下的鲁棒性展示

实时口罩检测-通用效果实测:侧脸、戴眼镜、部分遮挡下的鲁棒性展示

实时口罩检测-通用效果实测:侧脸、戴眼镜、部分遮挡下的鲁棒性展示 在公共场所佩戴口罩已成为重要的健康防护措施,但实际场景中的人脸姿态千变万化——侧脸、戴眼镜、部分遮挡等情况都给准确检测带来了挑战。本文将实测一款基于DAMO-YOLO框架的实时口罩检…

2026/7/4 5:44:59 阅读更多 →

最新新闻

揭秘evbunpack:高效破解Enigma Virtual Box打包文件的专业工具

揭秘evbunpack:高效破解Enigma Virtual Box打包文件的专业工具

揭秘evbunpack:高效破解Enigma Virtual Box打包文件的专业工具 【免费下载链接】evbunpack Enigma Virtual Box Unpacker / 解包、脱壳工具 项目地址: https://gitcode.com/gh_mirrors/ev/evbunpack 当你在逆向工程或软件分析工作中遇到Enigma Virtual Box打…

2026/7/4 17:37:04 阅读更多 →
跨平台开发实战:从操作系统差异看远程控制软件适配挑战

跨平台开发实战:从操作系统差异看远程控制软件适配挑战

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 你是不是也经常遇到这样的困惑:手头一台Windows笔记本办公,家里一台Mac Mini当服务器,还有一台L…

2026/7/4 17:35:03 阅读更多 →
基于YOLOv8的字符识别系统开发与实践

基于YOLOv8的字符识别系统开发与实践

1. 项目概述这个基于YOLOv8的字母数字识别检测系统是我最近完成的一个计算机视觉项目。它能够实时检测并识别图像和视频中的36类字符(数字0-9和字母A-Z),在复杂场景下表现出色。相比传统OCR技术,这个系统最大的优势在于能够处理任…

2026/7/4 17:33:03 阅读更多 →
3分钟掌握Windows显示器亮度调节:Twinkle Tray完全指南

3分钟掌握Windows显示器亮度调节:Twinkle Tray完全指南

3分钟掌握Windows显示器亮度调节:Twinkle Tray完全指南 【免费下载链接】twinkle-tray Easily manage the brightness of your monitors in Windows from the system tray 项目地址: https://gitcode.com/gh_mirrors/tw/twinkle-tray 你是否曾经为Windows系统…

2026/7/4 17:33:02 阅读更多 →
机器学习模型服务化落地:生产稳定性与可观测性实战

机器学习模型服务化落地:生产稳定性与可观测性实战

1. 项目概述:这不是一次“部署上线”演示,而是一场真实世界的ML交付实战复盘 “From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题里藏着三个关键信号: Notebook 是起点,不是终点;…

2026/7/4 17:33:02 阅读更多 →
终极指南:3步实现ComfyUI TensorRT加速,让你的AI绘图速度提升3-10倍

终极指南:3步实现ComfyUI TensorRT加速,让你的AI绘图速度提升3-10倍

终极指南:3步实现ComfyUI TensorRT加速,让你的AI绘图速度提升3-10倍 【免费下载链接】ComfyUI_TensorRT 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_TensorRT 你是否还在为Stable Diffusion生成图像时的漫长等待而烦恼?每…

2026/7/4 17:31:02 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻