Understanding the Fine-Grained Knowledge Capabilities of Vision-Language ModelsAuthors:Dhruba Ghosh, Yuhui Zhang, Ludwig SchmidtDeep-Dive Summary:视觉语言模型VLM细粒度知识能力研究摘要视觉语言模型VLM在视觉问答、文档理解和多模态对话等基准测试中取得了显著进展。然而近期研究表明这些模型在测试细粒度视觉知识的传统图像分类基准测试中表现欠佳。本文对大量最新的 VLM 进行了细粒度分类基准测试并识别了导致细粒度知识与其他视觉基准之间脱节的潜在因素。通过一系列消融实验我们发现使用更好的语言模型LLM能同等程度地提高所有基准得分而更好的视觉编码器则会不成比例地显著提升细粒度分类性能。此外预训练阶段对细粒度性能至关重要特别是当语言模型权重在预训练期间处于非冻结状态时。1 引言集成视觉编码器与大语言模型的 VLM 在理解和推理视觉内容方面表现出日益复杂的性能。然而VLM 在细粒度视觉感知任务区分视觉上相似类别的能力中的表现如何及其提升途径仍是关键问题。了解 VLM 的细粒度知识能力至关重要因为感知是高级理解和推理的基础。本文对 15 种最先进的 VLM如 LLaVA、Phi、Qwen2-VL、Molmo 等在四个细粒度分类基准ImageNet、Flowers、Pets、Food和八个通用 VLM 基准如 MMMU、MathVista 等上进行了全面评估。图 1概述。上研究 VLM 的细粒度分类能力。下通过 22 个系统的消融实验识别驱动细粒度分类性能的因素。通过 22 个消融实验我们发现语言模型提升基础 LLM 会统一增强细粒度分类和通用 VLM 基准的表现。视觉编码器更强的视觉编码器能提高细粒度分类性能但对通用 VLM 基准的影响有限。预训练阶段在大规模图像-标题数据集上进行预训练能显著提升细粒度表现。权重更新方法在预训练期间同时训练连接器connector和 LLM比仅训练连接器的效果更好。数据质量预训练和指令微调数据的质量对细粒度分类的影响有限。2 相关工作目前的 VLM 通常遵循 LLaVA 架构视觉编码器、LLM 和连接器。虽然现有基准如 MMMU专注于推理但往往忽略了物体识别等核心视觉能力。细粒度分类是计算机视觉的成熟任务对于医疗诊断、食品安全等现实应用至关重要。本文扩展了现有研究通过消融实验深入探讨了架构选择和训练策略对这一能力的影响。3 评估细粒度分类3.1 动机尽管 CLIP 和 DINO 等视觉编码器在细粒度任务上表现出色但 VLM 的评估通常局限于 VQA。然而在现实场景中如识别毒蘑菇或交通标志细粒度识别是确保安全和可靠性的前提。3.2 基准测试我们使用 ImageNet-1K、Oxford Flowers-102、Oxford-IIIT Pet-37 和 Food-101 评估模型。为了适应 VLM 的原生格式我们将这些任务转化为 5 选 1 的多项选择题。3.3 测试设置评估了 15 种 7B-13B 参数范围的 VLM使用精确匹配exact match测量准确率并与 CLIP 模型基准进行对比。3.4 结果分析图 2细粒度分类与通用 VQA 性能对比。结果表明细粒度分类是标准 VQA 基准无法衡量的一个独立视觉能力维度。发现 1细粒度分类代表了视觉能力的一个独特方面目前的 VLM 基准无法充分衡量。图 3VLM 与其对应 CLIP 视觉编码器的对比。除了 Qwen2-VL-Chat几乎所有 VLM 的细粒度表现都远落后于其底层视觉编码器。发现 2VLM 与 CLIP 模型在细粒度分类任务上存在显著性能差距。4 消融实验基础模型与训练4.1 实验设置基于 LLaVA-1.5 架构进行消融。细粒度性能取四个分类基准的平均分通用 VQA 性能取 MMMU、MMBench 和 MMStar 的平均分。4.2 基础模型4.2.1 LLM 选择图 4消融基础 LLM。将 Vicuna-7B 换成 Qwen2-7B 后细粒度性能平均提升了 7.5 p p 7.5\mathrm{pp}7.5pp通用 VQA 提升了 7.7 p p 7.7\mathrm{pp}7.7pp。要点 1更强的语言模型能一致地提高细粒度分类和通用 VQA 的表现。4.2.2 视觉编码器选择图 5消融基础视觉编码器。将 CLIP 换成 DFN-CLIP 后在经过充分预训练的情况下细粒度性能提升了 4.5 p p 4.5\mathrm{pp}4.5pp而通用性能仅提升 1.2 p p 1.2\mathrm{pp}1.2pp。要点 2更好的视觉编码器能显著提升细粒度分类但前提是需要在微调前通过预训练进行妥善集成。4.3 训练方法4.3.1 预训练图 6消融预训练数据。LLaVA 数据和 PixMo 数据的加入均带来了显著增益。要点 3大规模预训练显著提升细粒度分类性能但对通用基准的影响较小。要点 4预训练数据的质量低质量网页爬取对比高质量人工标注对整体性能的影响有限。图 7消融训练方法。在预训练期间解冻 LLM 可使细粒度性能提升 5.5 p p 5.5\mathrm{pp}5.5pp。要点 5同时预训练 LLM 和连接器能大幅增强细粒度基准表现且不损失通用 VQA 分数。4.3.2 微调表 1重要消融设置总结。升级 LLM、视觉编码器以及对连接器和 LLM 进行预训练对细粒度性能大有裨益而指令微调的影响相对较小。模型/消融视觉编码器LLM预训练架构预训练数据微调数据细粒度分类通用 VQALLaVA-1.5-7BCLIP L/14VicunaLLaVALLaVALLaVA59.341.8无预训练CLIP L/14VicunaLLaVANoneLLaVA52.839.3LLaVA 复现CLIP L/14VicunaLLaVALLaVALLaVA57.9 (5.1)41.2 (1.9)Qwen2 LLMCLIP L/14Qwen2LLaVALLaVALLaVA63.0 (5.1)48.3 (7.1)DFN-CLIP 编码器DFN H/14Qwen2LLaVALLaVALLaVA68.0 (5.0)49.5 (1.2)解冻 LLMDFN H/14Qwen2LLaVALLaVALLaVA73.4 (5.4)49.9 (0.4)Qwen2-VL-7BDFN H/14Qwen2Qwen2-VLQwen2-VLQwen2-VL87.962.4要点 6与其他因素相比指令微调阶段对细粒度分类性能的影响最小。4.4 消融实验总结 (SUMMARY OF ABLATIONS)图 8 和表 1 综合了我们的消融研究展示了各组件如何助力缩小最弱与最强 VLM 在细粒度及通用 VQA 任务上的性能差距。从基准 LLaVA 架构Liu 等2023由 Vicuna-7B (Chiang 等2023) 和 CLIP ViT-L/14 (Radford 等2021) 组成开始我们系统地修改了各种组件将细粒度分类性能从52.8 % 52.8\%52.8%提升至73.4 % 73.4\%73.4%并将通用 VQA 性能从39.3 % 39.3\%39.3%提升至49.9 % 49.9\%49.9%。分析表明切换至 DFN-CLIP (Fang 等2023) 并在预训练期间解冻 LLM相比提升通用 VLM 能力更能不成比例地增强细粒度能力而将 LLM 切换为 Qwen2-7B (Yang 等2024) 则贡献了通用 VQA 性能的大部分增幅。尽管取得了这些实质性改进但在细粒度分类性能上仍有 12 个百分点的差距无法通过我们的消融实验来解释见表 1。我们认为有两个潜在因素导致了这一差异架构差异和预训练数据规模。虽然架构变化可能导致性能差异但我们的观察结果第 3.4 节和训练消融第 4.3 节强烈表明预训练数据规模是主导因素。我们在 LLaVA (Liu 等2023) 和 PixMo (Deitke 等2024) 数据上的实验涉及的数据集相对较小——每个数据集包含不到 1M 张图像和说明文字分别约为 200M 和 400M 个 token。相比之下Wang 等 (2024b) 报告称 Qwen2-VL 的预训练数据量高达 1.4T token比我们的实验高出几个数量级。预训练数据规模的巨大差异很可能解释了剩余的性能差距这突显了大规模预训练在开发具有卓越细粒度分类能力的 VLM 中的关键作用。5 局限性与结论 (LIMITATIONS CONCLUSION)我们的研究存在一些实际局限性这为未来的研究提供了机会。由于计算资源限制我们只能对比在 1 M 1\mathrm{M}1M数据点上的训练而非一些新型 VLM 所使用的十亿B级规模训练因此大规模训练如何影响我们的观察结果仍是一个待解决的问题。此外更新的研究提出了不同的预训练策略这些策略可能与细粒度视觉理解产生不同的交互作用。在本项工作中我们系统地评估了前沿视觉语言模型VLM在细粒度分类基准上的表现强调了细粒度视觉分类是 VLM 中一个至关重要但尚未得到充分探索的维度。通过对关键模型组件和训练范式的深入分析我们为提高细粒度分类和增强以视觉为中心的能力提供了策略见解最终加强了 VLM 在需要精确视觉理解的现实场景中的适用性。致谢 (ACKNOWLEDGMENTS)我们感谢 Junyang Lin 和 Qwen 团队为我们的实验提供基础模型权重的访问权限。我们也感谢斯坦福 SC 集群和尤利希超算中心JSC为训练和推理提供计算资源。本研究的部分资金由 Open Philanthropy 和美国国家科学基金会基础机器学习研究所IFML提供。Original Abstract:Vision-language models (VLMs) have made substantial progress across a wide range of visual question answering benchmarks, spanning visual reasoning, document understanding, and multimodal dialogue. These improvements are evident in a wide range of VLMs built on a variety of base models, alignment architectures, and training data. However, recent works show that these models trail behind in traditional image classification benchmarks, which test fine-grained visual knowledge. We test a large number of recent VLMs on fine-grained classification benchmarks and identify potential factors in the disconnect between fine-grained knowledge and other vision benchmarks. Through a series of ablation experiments, we find that using a better LLM improves all benchmark scores equally, while a better vision encoder disproportionately improves fine-grained classification performance. Furthermore, we find that the pretraining stage is also vital to fine-grained performance, particularly when the language model weights are unfrozen during pretraining. These insights pave the way for enhancing fine-grained visual understanding and vision-centric capabilities in VLMs.PDF Link:2602.17871v1部分平台可能图片显示异常请以我的博客内容为准