Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models
Understanding the Fine-Grained Knowledge Capabilities of Vision-Language ModelsAuthors:Dhruba Ghosh, Yuhui Zhang, Ludwig SchmidtDeep-Dive Summary:视觉语言模型VLM细粒度知识能力研究摘要视觉语言模型VLM在视觉问答、文档理解和多模态对话等基准测试中取得了显著进展。然而近期研究表明这些模型在测试细粒度视觉知识的传统图像分类基准测试中表现欠佳。本文对大量最新的 VLM 进行了细粒度分类基准测试并识别了导致细粒度知识与其他视觉基准之间脱节的潜在因素。通过一系列消融实验我们发现使用更好的语言模型LLM能同等程度地提高所有基准得分而更好的视觉编码器则会不成比例地显著提升细粒度分类性能。此外预训练阶段对细粒度性能至关重要特别是当语言模型权重在预训练期间处于非冻结状态时。1 引言集成视觉编码器与大语言模型的 VLM 在理解和推理视觉内容方面表现出日益复杂的性能。然而VLM 在细粒度视觉感知任务区分视觉上相似类别的能力中的表现如何及其提升途径仍是关键问题。了解 VLM 的细粒度知识能力至关重要因为感知是高级理解和推理的基础。本文对 15 种最先进的 VLM如 LLaVA、Phi、Qwen2-VL、Molmo 等在四个细粒度分类基准ImageNet、Flowers、Pets、Food和八个通用 VLM 基准如 MMMU、MathVista 等上进行了全面评估。图 1概述。上研究 VLM 的细粒度分类能力。下通过 22 个系统的消融实验识别驱动细粒度分类性能的因素。通过 22 个消融实验我们发现语言模型提升基础 LLM 会统一增强细粒度分类和通用 VLM 基准的表现。视觉编码器更强的视觉编码器能提高细粒度分类性能但对通用 VLM 基准的影响有限。预训练阶段在大规模图像-标题数据集上进行预训练能显著提升细粒度表现。权重更新方法在预训练期间同时训练连接器connector和 LLM比仅训练连接器的效果更好。数据质量预训练和指令微调数据的质量对细粒度分类的影响有限。2 相关工作目前的 VLM 通常遵循 LLaVA 架构视觉编码器、LLM 和连接器。虽然现有基准如 MMMU专注于推理但往往忽略了物体识别等核心视觉能力。细粒度分类是计算机视觉的成熟任务对于医疗诊断、食品安全等现实应用至关重要。本文扩展了现有研究通过消融实验深入探讨了架构选择和训练策略对这一能力的影响。3 评估细粒度分类3.1 动机尽管 CLIP 和 DINO 等视觉编码器在细粒度任务上表现出色但 VLM 的评估通常局限于 VQA。然而在现实场景中如识别毒蘑菇或交通标志细粒度识别是确保安全和可靠性的前提。3.2 基准测试我们使用 ImageNet-1K、Oxford Flowers-102、Oxford-IIIT Pet-37 和 Food-101 评估模型。为了适应 VLM 的原生格式我们将这些任务转化为 5 选 1 的多项选择题。3.3 测试设置评估了 15 种 7B-13B 参数范围的 VLM使用精确匹配exact match测量准确率并与 CLIP 模型基准进行对比。3.4 结果分析图 2细粒度分类与通用 VQA 性能对比。结果表明细粒度分类是标准 VQA 基准无法衡量的一个独立视觉能力维度。发现 1细粒度分类代表了视觉能力的一个独特方面目前的 VLM 基准无法充分衡量。图 3VLM 与其对应 CLIP 视觉编码器的对比。除了 Qwen2-VL-Chat几乎所有 VLM 的细粒度表现都远落后于其底层视觉编码器。发现 2VLM 与 CLIP 模型在细粒度分类任务上存在显著性能差距。4 消融实验基础模型与训练4.1 实验设置基于 LLaVA-1.5 架构进行消融。细粒度性能取四个分类基准的平均分通用 VQA 性能取 MMMU、MMBench 和 MMStar 的平均分。4.2 基础模型4.2.1 LLM 选择图 4消融基础 LLM。将 Vicuna-7B 换成 Qwen2-7B 后细粒度性能平均提升了 7.5 p p 7.5\mathrm{pp}7.5pp通用 VQA 提升了 7.7 p p 7.7\mathrm{pp}7.7pp。要点 1更强的语言模型能一致地提高细粒度分类和通用 VQA 的表现。4.2.2 视觉编码器选择图 5消融基础视觉编码器。将 CLIP 换成 DFN-CLIP 后在经过充分预训练的情况下细粒度性能提升了 4.5 p p 4.5\mathrm{pp}4.5pp而通用性能仅提升 1.2 p p 1.2\mathrm{pp}1.2pp。要点 2更好的视觉编码器能显著提升细粒度分类但前提是需要在微调前通过预训练进行妥善集成。4.3 训练方法4.3.1 预训练图 6消融预训练数据。LLaVA 数据和 PixMo 数据的加入均带来了显著增益。要点 3大规模预训练显著提升细粒度分类性能但对通用基准的影响较小。要点 4预训练数据的质量低质量网页爬取对比高质量人工标注对整体性能的影响有限。图 7消融训练方法。在预训练期间解冻 LLM 可使细粒度性能提升 5.5 p p 5.5\mathrm{pp}5.5pp。要点 5同时预训练 LLM 和连接器能大幅增强细粒度基准表现且不损失通用 VQA 分数。4.3.2 微调表 1重要消融设置总结。升级 LLM、视觉编码器以及对连接器和 LLM 进行预训练对细粒度性能大有裨益而指令微调的影响相对较小。模型/消融视觉编码器LLM预训练架构预训练数据微调数据细粒度分类通用 VQALLaVA-1.5-7BCLIP L/14VicunaLLaVALLaVALLaVA59.341.8无预训练CLIP L/14VicunaLLaVANoneLLaVA52.839.3LLaVA 复现CLIP L/14VicunaLLaVALLaVALLaVA57.9 (5.1)41.2 (1.9)Qwen2 LLMCLIP L/14Qwen2LLaVALLaVALLaVA63.0 (5.1)48.3 (7.1)DFN-CLIP 编码器DFN H/14Qwen2LLaVALLaVALLaVA68.0 (5.0)49.5 (1.2)解冻 LLMDFN H/14Qwen2LLaVALLaVALLaVA73.4 (5.4)49.9 (0.4)Qwen2-VL-7BDFN H/14Qwen2Qwen2-VLQwen2-VLQwen2-VL87.962.4要点 6与其他因素相比指令微调阶段对细粒度分类性能的影响最小。4.4 消融实验总结 (SUMMARY OF ABLATIONS)图 8 和表 1 综合了我们的消融研究展示了各组件如何助力缩小最弱与最强 VLM 在细粒度及通用 VQA 任务上的性能差距。从基准 LLaVA 架构Liu 等2023由 Vicuna-7B (Chiang 等2023) 和 CLIP ViT-L/14 (Radford 等2021) 组成开始我们系统地修改了各种组件将细粒度分类性能从52.8 % 52.8\%52.8%提升至73.4 % 73.4\%73.4%并将通用 VQA 性能从39.3 % 39.3\%39.3%提升至49.9 % 49.9\%49.9%。分析表明切换至 DFN-CLIP (Fang 等2023) 并在预训练期间解冻 LLM相比提升通用 VLM 能力更能不成比例地增强细粒度能力而将 LLM 切换为 Qwen2-7B (Yang 等2024) 则贡献了通用 VQA 性能的大部分增幅。尽管取得了这些实质性改进但在细粒度分类性能上仍有 12 个百分点的差距无法通过我们的消融实验来解释见表 1。我们认为有两个潜在因素导致了这一差异架构差异和预训练数据规模。虽然架构变化可能导致性能差异但我们的观察结果第 3.4 节和训练消融第 4.3 节强烈表明预训练数据规模是主导因素。我们在 LLaVA (Liu 等2023) 和 PixMo (Deitke 等2024) 数据上的实验涉及的数据集相对较小——每个数据集包含不到 1M 张图像和说明文字分别约为 200M 和 400M 个 token。相比之下Wang 等 (2024b) 报告称 Qwen2-VL 的预训练数据量高达 1.4T token比我们的实验高出几个数量级。预训练数据规模的巨大差异很可能解释了剩余的性能差距这突显了大规模预训练在开发具有卓越细粒度分类能力的 VLM 中的关键作用。5 局限性与结论 (LIMITATIONS CONCLUSION)我们的研究存在一些实际局限性这为未来的研究提供了机会。由于计算资源限制我们只能对比在 1 M 1\mathrm{M}1M数据点上的训练而非一些新型 VLM 所使用的十亿B级规模训练因此大规模训练如何影响我们的观察结果仍是一个待解决的问题。此外更新的研究提出了不同的预训练策略这些策略可能与细粒度视觉理解产生不同的交互作用。在本项工作中我们系统地评估了前沿视觉语言模型VLM在细粒度分类基准上的表现强调了细粒度视觉分类是 VLM 中一个至关重要但尚未得到充分探索的维度。通过对关键模型组件和训练范式的深入分析我们为提高细粒度分类和增强以视觉为中心的能力提供了策略见解最终加强了 VLM 在需要精确视觉理解的现实场景中的适用性。致谢 (ACKNOWLEDGMENTS)我们感谢 Junyang Lin 和 Qwen 团队为我们的实验提供基础模型权重的访问权限。我们也感谢斯坦福 SC 集群和尤利希超算中心JSC为训练和推理提供计算资源。本研究的部分资金由 Open Philanthropy 和美国国家科学基金会基础机器学习研究所IFML提供。Original Abstract:Vision-language models (VLMs) have made substantial progress across a wide range of visual question answering benchmarks, spanning visual reasoning, document understanding, and multimodal dialogue. These improvements are evident in a wide range of VLMs built on a variety of base models, alignment architectures, and training data. However, recent works show that these models trail behind in traditional image classification benchmarks, which test fine-grained visual knowledge. We test a large number of recent VLMs on fine-grained classification benchmarks and identify potential factors in the disconnect between fine-grained knowledge and other vision benchmarks. Through a series of ablation experiments, we find that using a better LLM improves all benchmark scores equally, while a better vision encoder disproportionately improves fine-grained classification performance. Furthermore, we find that the pretraining stage is also vital to fine-grained performance, particularly when the language model weights are unfrozen during pretraining. These insights pave the way for enhancing fine-grained visual understanding and vision-centric capabilities in VLMs.PDF Link:2602.17871v1部分平台可能图片显示异常请以我的博客内容为准

相关新闻

掌握长尾关键词的运用技巧,优化您的SEO效果与网站流量

掌握长尾关键词的运用技巧,优化您的SEO效果与网站流量

掌握长尾关键词的运用对提升网站的SEO效果至关重要。长尾关键词通常由三个或更多词组成,具备更具体的搜索意图,能够帮助用户更精确地找到所需的信息。在选择长尾关键词时,可以参考用户的搜索习惯和实际需求,确保所选词语与内容相关…

2026/7/4 1:34:40 阅读更多 →
多车编队智能跟驰,小车队列行驶,减少风阻,输出编队轨迹。

多车编队智能跟驰,小车队列行驶,减少风阻,输出编队轨迹。

多车编队智能跟驰系统一、项目概述1.1 实际应用场景在高速公路物流运输、城市公交接驳、军事运输等场景中,多车编队行驶具有显著优势。以高速公路物流为例,当多辆货车以固定车距编队行驶时,可形成"空气动力拖曳效应",使…

2026/7/4 11:18:10 阅读更多 →
共享车辆定点还车识别,判断是否在停车区,输出合规结果。

共享车辆定点还车识别,判断是否在停车区,输出合规结果。

共享车辆定点还车识别系统一、实际应用场景描述场景:共享单车/电动车定点还车管理系统在城市共享出行场景中,用户需要在规定的电子围栏(停车区)内还车才能完成订单结算。目前大多数系统存在以下问题:- 定位漂移&#x…

2026/5/17 6:28:17 阅读更多 →

最新新闻

多人聊天室

多人聊天室

一、项目简介本项目是一个基于Java Swing MySQL的博客文章管理系统,实现了文章发布、分类管理、用户登录、全局搜索等核心功能。 我在项目中主要负责全局搜索模块、数据库读写层设计以及部分面向对象架构设计工作。二、个人任务简述序号完成功能与任务描述1全局搜索…

2026/7/5 13:14:06 阅读更多 →
骑乘无忧怎么选 (新手女生小个子巡航摩托)选购要点

骑乘无忧怎么选 (新手女生小个子巡航摩托)选购要点

入手自动挡巡航摩托,CVT 和 AMT 该怎么选?面向入门骑手、女性车友以及身高娇小的人群,最优方案已然明确。AMT 巡航操控顺手、动力充沛、使用便捷,外观也十分出彩,是综合实力更强的选择。QJMOTOR 闪 300AMT 与闪 400AMT…

2026/7/5 13:14:06 阅读更多 →
Azure Local离线模式采购(系列篇之七)

Azure Local离线模式采购(系列篇之七)

0. 重要定位(先看清 Acquire 在做什么) ⚠️ Acquire ≠ 部署完成。Acquire 阶段仅完成 Azure 资源创建及部署介质获取,Virtual Appliance 尚未部署到本地数据中心。完整的生命周期是: Acquire → Deploy → Configure → Operate…

2026/7/5 13:12:06 阅读更多 →
杭州老板IP打造运营公司怎么选?

杭州老板IP打造运营公司怎么选?

选择杭州的老板IP打造运营公司时,可以从以下几个方面进行考量:一、明确需求与目标核心需求:首先明确你希望通过IP打造实现什么目的。是增加品牌知名度、提升客户信任度,还是直接促进销售转化? 行业特性:根据…

2026/7/5 13:12:06 阅读更多 →
input_report_key + input_sync:按键事件的正确报告姿势

input_report_key + input_sync:按键事件的正确报告姿势

input_report_key input_sync:按键事件的正确报告姿势这个仓库已经开源!所有教程,主线内核移植,跑新版本imx-linux/uboot都在这里,或者一起来尝试跑7.1的Linux!欢迎各位大佬观摩!喜欢的话点个⭐…

2026/7/5 13:10:06 阅读更多 →
《南街面包店》 松雪酥|小说|txt下载|番外|全文免费阅读

《南街面包店》 松雪酥|小说|txt下载|番外|全文免费阅读

南街面包店 松雪酥|小说|txt下载|番外|全文免费阅读资料可下载《南街面包店》松雪酥 全文https://pan.baidu.com/s/1lewzOmQuG2M2xEELvONyzQ?pwd2bb8 English Practice Set 61 个人练习草稿,随便记几道题。Part 1 Vocabulary Choose the best word.She opened a …

2026/7/5 13:08:05 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻