文章DepthLM: Metric Depth From Vision Language Models代码https://github.com/facebookresearch/DepthLM_Official单位Meta、普林斯顿大学一、问题背景在自动驾驶、机器人等诸多领域从2D图像中理解3D深度是核心需求其中像素级度量深度估计判断每个像素对应物体到相机的实际米数是关键任务。当前技术存在两大痛点一方面GPT-5、Gemini等最先进的视觉语言模型VLM虽能灵活处理各类视觉语义任务却在3D深度理解上表现拉胯远不如专业模型另一方面纯视觉深度模型能实现超人类的深度估计精度但这类模型高度“专才化”需要为深度任务单独设计模型结构、定制复杂的训练损失函数换个3D相关任务就需要重新设计灵活性极差。研究团队提出核心疑问能否让VLM在不修改模型架构、不增加复杂训练损失的前提下达到纯视觉深度模型的专业精度本次研究给出了肯定答案。二、方法创新团队经全面分析发现VLM的3D深度理解短板并非源于缺少纯视觉模型的专属模块而是卡在像素参考不准和跨数据集相机歧义两个核心问题且现有训练方式的效率和数据利用也有优化空间。基于此提出的DepthLM方法核心是三个简单且高效的创新设计全程无需改动VLM基础架构视觉提示替代文本坐标精准定位像素摒弃以往用文字标注像素坐标的方式直接在图像上为查询像素渲染箭头、十字等视觉标记搭配简单文本提问“该点离相机多少米”让VLM精准识别目标像素解决像素参考偏差问题内禀条件增强统一相机焦距通过图像增强将不同相机拍摄的图像焦距统一为固定值消解不同相机的参数歧义让VLM学习到统一的世界尺度同时实现零样本泛化能力稀疏标签文本监督微调SFT高效利用数据仅用每张训练图1个标注像素的稀疏标签数据进行文本式的监督微调训练且对比验证后选择效率更高的SFT而非强化学习RL同时证明图像多样性比标签密度对VLM训练更重要。此外DepthLM还基于统一框架实现了对多种3D任务的兼容只需微调即可让VLM处理主轴距距离、两点间距、相机位姿估计等复杂3D任务实现“一模型多任务”。三、实验结果研究团队搭建了DepthLMBench基准数据集融合7个高质量室内外数据集用于训练8个非重叠数据集用于评估以δ₁预测值与真实值误差在25%内的比例为核心评估指标取得了一系列突破性结果碾压主流VLM精度提升超2倍30亿参数的DepthLM模型在4个室内外数据集上的δ₁指标远超GPT-5、Gemini-2.5-Pro、Qwen2.5-VL等先进VLM精度提升超2倍对比同量级VLM甚至有8倍提升媲美顶尖纯视觉模型首次实现VLM的专业级精度DepthLM的70亿参数模型δ₁指标达到0.838可与DepthPro、Metric3Dv2等顶尖纯视觉深度模型比肩成为首个在度量深度估计上达到专业纯视觉模型精度的VLM点云生成质量更高自然避免过平滑DepthLM无需密集预测头仅通过逐像素查询就能生成高精度度量尺度点云且相比纯视觉模型能自然避免边界过平滑问题减少飞点产生物体边界分割更清晰多任务能力突出大幅超越基线模型基于同一框架训练的统一VLM在主轴距距离、速度/时间估计、两点间距、相机位姿等3D任务上平均δ₁达0.804相比GPT-5、Qwen2.5-VL等基线模型精度提升超3.8倍解决了主流VLM在复杂3D任务上的灾难性失败问题。四、优势与局限核心优势轻量化且通用仅用30亿/70亿参数的小模型就实现了大模型都达不到的3D精度且方法跨架构适用可迁移至不同VLM简单易实现无需修改模型架构、无需设计复杂损失函数仅通过视觉提示、焦距统一和稀疏标签微调即可实现工程落地成本低灵活可扩展基于同一框架可实现多3D任务兼容摆脱纯视觉模型的“专才”局限实现VLM的3D任务通用化数据利用效率高仅需稀疏标签训练大幅降低数据标注成本更适合大规模训练。研究局限本次研究聚焦于VLM 3D深度理解的核心设计优化尚未探索更精细化的策略比如未设计专门的数滤管线来融合更多数据集未通过多任务互补训练进一步提升模型的泛化能力未来仍有提升空间。五、一句话总结Meta和普林斯顿大学提出的DepthLM方法通过视觉提示、统一焦距和稀疏标签微调三大核心设计首次让视觉语言模型在不改动架构和损失的前提下实现了媲美顶尖纯视觉模型的像素级度量深度估计精度同时解锁了VLM的通用3D任务处理能力为视觉语言模型的3D理解研究开辟了全新方向。