【ICLR26-Oral Paper-Meta】DepthLM:基于视觉语言模型的度量深度
文章DepthLM: Metric Depth From Vision Language Models代码https://github.com/facebookresearch/DepthLM_Official单位Meta、普林斯顿大学一、问题背景在自动驾驶、机器人等诸多领域从2D图像中理解3D深度是核心需求其中像素级度量深度估计判断每个像素对应物体到相机的实际米数是关键任务。当前技术存在两大痛点一方面GPT-5、Gemini等最先进的视觉语言模型VLM虽能灵活处理各类视觉语义任务却在3D深度理解上表现拉胯远不如专业模型另一方面纯视觉深度模型能实现超人类的深度估计精度但这类模型高度“专才化”需要为深度任务单独设计模型结构、定制复杂的训练损失函数换个3D相关任务就需要重新设计灵活性极差。研究团队提出核心疑问能否让VLM在不修改模型架构、不增加复杂训练损失的前提下达到纯视觉深度模型的专业精度本次研究给出了肯定答案。二、方法创新团队经全面分析发现VLM的3D深度理解短板并非源于缺少纯视觉模型的专属模块而是卡在像素参考不准和跨数据集相机歧义两个核心问题且现有训练方式的效率和数据利用也有优化空间。基于此提出的DepthLM方法核心是三个简单且高效的创新设计全程无需改动VLM基础架构视觉提示替代文本坐标精准定位像素摒弃以往用文字标注像素坐标的方式直接在图像上为查询像素渲染箭头、十字等视觉标记搭配简单文本提问“该点离相机多少米”让VLM精准识别目标像素解决像素参考偏差问题内禀条件增强统一相机焦距通过图像增强将不同相机拍摄的图像焦距统一为固定值消解不同相机的参数歧义让VLM学习到统一的世界尺度同时实现零样本泛化能力稀疏标签文本监督微调SFT高效利用数据仅用每张训练图1个标注像素的稀疏标签数据进行文本式的监督微调训练且对比验证后选择效率更高的SFT而非强化学习RL同时证明图像多样性比标签密度对VLM训练更重要。此外DepthLM还基于统一框架实现了对多种3D任务的兼容只需微调即可让VLM处理主轴距距离、两点间距、相机位姿估计等复杂3D任务实现“一模型多任务”。三、实验结果研究团队搭建了DepthLMBench基准数据集融合7个高质量室内外数据集用于训练8个非重叠数据集用于评估以δ₁预测值与真实值误差在25%内的比例为核心评估指标取得了一系列突破性结果碾压主流VLM精度提升超2倍30亿参数的DepthLM模型在4个室内外数据集上的δ₁指标远超GPT-5、Gemini-2.5-Pro、Qwen2.5-VL等先进VLM精度提升超2倍对比同量级VLM甚至有8倍提升媲美顶尖纯视觉模型首次实现VLM的专业级精度DepthLM的70亿参数模型δ₁指标达到0.838可与DepthPro、Metric3Dv2等顶尖纯视觉深度模型比肩成为首个在度量深度估计上达到专业纯视觉模型精度的VLM点云生成质量更高自然避免过平滑DepthLM无需密集预测头仅通过逐像素查询就能生成高精度度量尺度点云且相比纯视觉模型能自然避免边界过平滑问题减少飞点产生物体边界分割更清晰多任务能力突出大幅超越基线模型基于同一框架训练的统一VLM在主轴距距离、速度/时间估计、两点间距、相机位姿等3D任务上平均δ₁达0.804相比GPT-5、Qwen2.5-VL等基线模型精度提升超3.8倍解决了主流VLM在复杂3D任务上的灾难性失败问题。四、优势与局限核心优势轻量化且通用仅用30亿/70亿参数的小模型就实现了大模型都达不到的3D精度且方法跨架构适用可迁移至不同VLM简单易实现无需修改模型架构、无需设计复杂损失函数仅通过视觉提示、焦距统一和稀疏标签微调即可实现工程落地成本低灵活可扩展基于同一框架可实现多3D任务兼容摆脱纯视觉模型的“专才”局限实现VLM的3D任务通用化数据利用效率高仅需稀疏标签训练大幅降低数据标注成本更适合大规模训练。研究局限本次研究聚焦于VLM 3D深度理解的核心设计优化尚未探索更精细化的策略比如未设计专门的数滤管线来融合更多数据集未通过多任务互补训练进一步提升模型的泛化能力未来仍有提升空间。五、一句话总结Meta和普林斯顿大学提出的DepthLM方法通过视觉提示、统一焦距和稀疏标签微调三大核心设计首次让视觉语言模型在不改动架构和损失的前提下实现了媲美顶尖纯视觉模型的像素级度量深度估计精度同时解锁了VLM的通用3D任务处理能力为视觉语言模型的3D理解研究开辟了全新方向。

相关新闻

用 xxl-job 多年,有没有想过:它为啥能准时调度?还不高频查库?巧妙的设计思路能套用到自己项目

用 xxl-job 多年,有没有想过:它为啥能准时调度?还不高频查库?巧妙的设计思路能套用到自己项目

朋友们,应该很多人都使用 xxl_job 作为自己的任务调度器,不知道大家有没有思考一个问题:xxl_job的任务是从后台配置的,调度时间可以随意定义(并没 整10分、整5分 这种规定),也就是说每一秒都有可…

2026/5/17 5:06:28 阅读更多 →
人才盘点落地工具

人才盘点落地工具

https://mp.weixin.qq.com/s/A8z7XldrFo-LZX4TkRnlCA

2026/7/5 6:50:19 阅读更多 →
实测才敢推AI论文平台,千笔ai写作 VS 学术猹,专科生专属写作神器

实测才敢推AI论文平台,千笔ai写作 VS 学术猹,专科生专属写作神器

随着人工智能技术的迅猛发展,AI辅助写作工具已经逐渐成为高校学生完成论文的重要帮手。尤其是在专科生群体中,面对毕业论文的压力,越来越多的学生开始借助AI工具提升写作效率、优化内容结构。然而,市场上的AI工具种类繁多&#xf…

2026/7/2 22:54:47 阅读更多 →

最新新闻

GPT-4o与GPT-4本质差异:多模态对齐与端到端延迟的工程选型指南

GPT-4o与GPT-4本质差异:多模态对齐与端到端延迟的工程选型指南

1. 这不是参数表对比,而是真实场景下的能力分水岭“GPT-4o和GPT-4有什么区别?”——这个问题我每天在技术群、产品会、客户咨询里至少看到17次。但绝大多数人点开的所谓“对比文章”,只是把OpenAI官网那张模糊的性能雷达图截图下来&#xff0…

2026/7/5 9:57:02 阅读更多 →
Unity游戏汉化神器:XUnity Auto Translator 5分钟快速入门指南

Unity游戏汉化神器:XUnity Auto Translator 5分钟快速入门指南

Unity游戏汉化神器:XUnity Auto Translator 5分钟快速入门指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因语言障碍而错失精彩的Unity游戏体验?面对日语、英语或其他…

2026/7/5 9:57:02 阅读更多 →
Seraphine:英雄联盟智能助手完整指南,轻松提升你的游戏体验

Seraphine:英雄联盟智能助手完整指南,轻松提升你的游戏体验

Seraphine:英雄联盟智能助手完整指南,轻松提升你的游戏体验 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 你是否曾经在英雄联盟排位赛中因为错过接受对局而懊恼不已?是否…

2026/7/5 9:55:02 阅读更多 →
Grok模型在中国大陆可用吗?合规大模型接入指南

Grok模型在中国大陆可用吗?合规大模型接入指南

我不能提供与Grok或SuperGrok相关的注册、订阅或升级教程。 原因如下: Grok系列模型(Grok-1、Grok-2、Grok-3等)由埃隆马斯克旗下公司xAI开发, 未向中国大陆地区开放公开注册、API接入或用户订阅服务 。截至目前(2…

2026/7/5 9:55:02 阅读更多 →
从LLM到AI Agent:OpenAI合并ChatGPT与Codex的技术解析与实战指南

从LLM到AI Agent:OpenAI合并ChatGPT与Codex的技术解析与实战指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 如果你还在把 ChatGPT 当作一个“更聪明的聊天机器人”,那么你可能已经落后了。最近,OpenAI 内部的一则重磅消…

2026/7/5 9:53:02 阅读更多 →
MATLAB多缝光栅衍射仿真工具:实时调节参数看光强分布变化

MATLAB多缝光栅衍射仿真工具:实时调节参数看光强分布变化

本文还有配套的精品资源,点击获取 简介:用MATLAB直接跑起来就能看多缝光栅在远场条件下的衍射效果,支持缝数、缝宽、缝间距、入射光波长四个关键参数自由调整,每次改动后图像立刻刷新——光强曲线图和二维衍射图样同步更新。主…

2026/7/5 9:53:02 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻