Seeing Beyond Redundancy Task Complexity‘s Role in Vision Token Specialization in VLLMs
Seeing Beyond Redundancy: Task Complexity’s Role in Vision Token Specialization in VLLMsAuthors:Darryl Hannan, John Cooper, Dylan White, Yijing WatkinsDeep-Dive Summary:论文总结超越冗余——任务复杂度在 VLLM 视觉 Token 特化中的作用摘要视觉大语言模型VLLMs在视觉能力上始终滞后于其语言能力。研究表明VLLM 在处理细粒度视觉信息或空间推理任务时表现不佳。本文旨在探究视觉信息在模型中的处理方式及被丢弃的规律。研究引入了一个合成基准数据集和一套衡量视觉冗余的指标分析了不同复杂度的任务对视觉压缩的影响。研究发现任务复杂度与视觉压缩之间存在紧密联系高复杂度的视觉数据对于改变 VLLM 的视觉表示分布并提升其在复杂任务上的性能至关重要。2. 背景与相关工作视觉大语言模型 (VLLMs)与对比学习模型如 CLIP不同VLLM 通过自回归方式预测下一个 Token。模型通常将图像嵌入E ( i ) ∈ R N i × d \mathbf{E}^{(i)} \in \mathbb{R}^{N_{i} \times d}E(i)∈RNi​×d与文本嵌入E ( t ) ∈ R N t × d \mathbf{E}^{(t)} \in \mathbb{R}^{N_{t} \times d}E(t)∈RNt​×d连接后通过解码器处理。视觉 Token 压缩与冗余现有研究表明 VLLM 并不需要所有的视觉 Token。例如在 LlaVA 中随机删除 95% 的 Token 对性能影响极小。本文不仅利用这种冗余还通过研究 Molmo 和 Llama 3.2 等最新模型探索视觉信息如何在模型中传播。4. 实验4.1 零样本分析 (Zero-shot Analyses)研究选取了 Molmo 和 Llama 3.2。两者架构略有不同Molmo 采用全模态联合注意力而 Llama 3.2 采用交叉注意力。数据集合成数据集在白色背景上放置不同形状、颜色、大小的 2D 物体数量从 1 到 200 不等以便精确控制复杂度。MSCOCO 子集使用真实世界图像验证趋势。Token 压缩分析在 Molmo 中早期层将能量分散在大量视觉 Token 中中间层重新浓缩信息末尾层再次分散以丢弃冗余信息见图 1。物体数量与低压缩率强相关见图 2表明拥挤的场景需要更多 Token 来表示。在 COCO 数据集上见图 3物体类别的多样性和大小差异是降低视觉压缩的主要特征。图 3Molmo 在 COCO 数据集上压缩指标与视觉属性之间的 Spearman 相关性。探测实验 (Probes)信息转移实验发现文本 Token 能够高度预测视觉属性见图 4表明视觉信息在第一层之后就迅速整合到了文本空间中。冗余性几乎所有 Token 位置都能准确预测物体数量这表明模型中存在极高的视觉冗余。特征分化某些特征如“主色调”或 COCO 中的“主超级类别”在不同层表现出不同的预测能力说明模型在不同阶段侧重于不同的视觉特征。图 4Molmo 在合成数据集上对各种视觉属性的线性探测性能。图 5Molmo 在 COCO 数据集上对各种视觉属性的线性探测性能。Original Abstract:Vision capabilities in vision large language models (VLLMs) have consistently lagged behind their linguistic capabilities. In particular, numerous benchmark studies have demonstrated that VLLMs struggle when fine-grained visual information or spatial reasoning is required. However, we do not yet understand exactly why VLLMs struggle so much with these tasks relative to others. Some works have focused on visual redundancy as an explanation, where high-level visual information is uniformly spread across numerous tokens and specific, fine-grained visual information is discarded. In this work, we investigate this premise in greater detail, seeking to better understand exactly how various types of visual information are processed by the model and what types of visual information are discarded. To do so, we introduce a simple synthetic benchmark dataset that is specifically constructed to probe various visual features, along with a set of metrics for measuring visual redundancy, allowing us to better understand the nuances of their relationship. Then, we explore fine-tuning VLLMs on a number of complex visual tasks to better understand how redundancy and compression change based upon the complexity of the data that a model is trained on. We find that there is a connection between task complexity and visual compression, implying that having a sufficient ratio of high complexity visual data is crucial for altering the way that VLLMs distribute their visual representation and consequently improving their performance on complex visual tasks. We hope that this work will provide valuable insights for training the next generation of VLLMs.PDF Link:2602.06914v1部分平台可能图片显示异常请以我的博客内容为准

相关新闻

Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering

Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering

Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering Authors: Jongha Kim, Byungoh Ko, Jeehye Na, Jinsung Yoon, Hyunwoo J. Kim Deep-Dive Summary: 论文摘要:针对检索增强视觉问答的相关性感知多上下文…

2026/7/4 5:51:56 阅读更多 →
AI驱动家庭渗透测试:利用HexStrike-AI实现全网络发现与攻防实战

AI驱动家庭渗透测试:利用HexStrike-AI实现全网络发现与攻防实战

AI驱动家庭渗透测试:利用HexStrike-AI实现全网络发现与攻防 仅限会员阅读的故事 AI-Driven Pentesting at Home: Using HexStrike-AI for Full Network Discovery and Exploitation How I Used Gemini HexStrike-AI on Kali Linux to Scan, Enumerate, and Exploit…

2026/5/17 3:38:45 阅读更多 →
手机放桌上,自动刷抖音?这个国产开源 Agent 比 OpenClaw 还野!

手机放桌上,自动刷抖音?这个国产开源 Agent 比 OpenClaw 还野!

OpenClaw 做不到的,它做到了。「打开我的抖音,5 秒浏览一个视频。」在电脑上输入这句话。手机屏幕亮了,抖音自动启动,加载完首页后,开始每 5 秒自动滑动一次。全程不需要手动操作。这不是模拟器,是一台真实…

2026/7/3 10:51:25 阅读更多 →

最新新闻

nRF52832 BLE SoC芯片特性解析与低功耗设计实践

nRF52832 BLE SoC芯片特性解析与低功耗设计实践

1. nRF52832芯片概述nRF52832是Nordic Semiconductor推出的新一代蓝牙低功耗(BLE)系统级芯片(SoC),作为nRF51822的升级版本,它在性能、功耗和功能方面都有显著提升。这款芯片采用Cortex-M4F内核,运行频率高达64MHz,配备512KB Flas…

2026/7/4 5:52:40 阅读更多 →
Flutter游戏网络功能终极指南:如何快速实现排行榜与成就系统

Flutter游戏网络功能终极指南:如何快速实现排行榜与成就系统

Flutter游戏网络功能终极指南:如何快速实现排行榜与成就系统 【免费下载链接】games Home of the Flutter Casual Games Toolkit and other Flutter gaming templates 项目地址: https://gitcode.com/gh_mirrors/games8/games Flutter游戏开发中,…

2026/7/4 5:52:39 阅读更多 →
aight命令行工具详解:如何自动转换JavaScript代码为IE8友好版本

aight命令行工具详解:如何自动转换JavaScript代码为IE8友好版本

aight命令行工具详解:如何自动转换JavaScript代码为IE8友好版本 【免费下载链接】aight JavaScript shims and shams for making IE8-9 behave reasonably 项目地址: https://gitcode.com/gh_mirrors/ai/aight 想要让现代JavaScript代码在古老的IE8浏览器中正…

2026/7/4 5:48:38 阅读更多 →
跨平台GUI自动化测试框架设计:从原理到工程实践

跨平台GUI自动化测试框架设计:从原理到工程实践

1. 项目概述:从“点”到“面”的GUI自动化测试新范式最近在搞一个跨平台的桌面应用项目,测试团队那边天天跟我抱怨,说在Windows上跑得好好的脚本,一到macOS或者Linux上就各种水土不服,要么元素定位不到,要么…

2026/7/4 5:48:38 阅读更多 →
Maven仓库管理:本地、中央和私有仓库的配置与使用

Maven仓库管理:本地、中央和私有仓库的配置与使用

Maven仓库管理:本地、中央和私有仓库的配置与使用 【免费下载链接】maven Apache Maven core 项目地址: https://gitcode.com/GitHub_Trending/ma/maven Apache Maven作为Java项目构建和依赖管理的核心工具,其仓库管理系统是项目成功的关键。本文…

2026/7/4 5:44:37 阅读更多 →
终极MSEdgeRedirect完全指南:如何快速重定向Edge链接到默认浏览器

终极MSEdgeRedirect完全指南:如何快速重定向Edge链接到默认浏览器

终极MSEdgeRedirect完全指南:如何快速重定向Edge链接到默认浏览器 【免费下载链接】MSEdgeRedirect A Tool to Redirect News, Search, Widgets, Weather and More to Your Default Browser 项目地址: https://gitcode.com/GitHub_Trending/ms/MSEdgeRedirect …

2026/7/4 5:42:36 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻