多模态大模型效率提升：Token压缩技术详解与实战指南-尧图手机网站定制

近年来多模态大模型在视觉感知长视频问答等方面涌现出了强劲的性能但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token 带来极高的显存占用和延迟限制了模型的可扩展性和本地部署。正是这种紧迫的需求催生了 MLLM Token Compression 迅速成为研究爆点两年内在该垂直领域产出了约 200 篇论文。但是随着研究工作的快速涌现领域内的方法也变得极其庞杂难以归类进一步具体到落地场景里面往往因为方法多样而难以选择。针对这一背景来自北京大学、中国科学技术大学等机构的研究人员首先基于压缩位置对方法进行了系统归类然后讨论了对于特定的部署场景应该选择何种压缩机制最后探讨了目前的挑战和具有前景的方向。Github 链接: https://github.com/yaolinli/MLLM-Token-Compression论文链接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1图 1. MLLMs 中 Token 压缩代表性工作时间线基于压缩位置视角的系统分类where to compress图 2. MLLM Token 压缩方法的系统分类研究人员根据 Token 压缩方法在 MLLM 架构中应用的位置对现有方法进行了系统性的分类。在从视觉输入到文本输出的整个处理过程中Token 压缩策略可以逐步部署在三个架构模块中Vision Encoder在此阶段进行压缩可以降低视觉感知阶段的计算开销Projector在从视觉表示空间向语言表示空间转换的过程中整合 Token 削减技术Large Language Model在此阶段进行压缩可实现整体的跨模态效率优化。1Vision Encoder 中的压缩图 3. MLLMs 中视觉编码器模块所采用的 Token 压缩策略示意图在 MLLMs 中视觉数据本质上比文本具有更高的冗余性而由于视觉编码器是编码视觉输入的第一个模块在这一初始阶段减少视觉 Token 可以为整个 MLLM 系统带来显著的效率提升。研究人员首先回顾并将在视觉编码器模块中应用的视觉侧 Token 压缩方法分为两大类视觉编码器内部压缩Inside-VE和视觉编码器外部压缩Outside-VE。由于视觉编码器不同的层会捕捉不同尺度的视觉信息从低层纹理到高层概念因此 Inside-VE 往往通过开发多尺度压缩方案来协调各层之间的压缩。Outside-VE 的设计具有即插即用的特点对原始架构的改动极小并且可以根据是否引入文本信号进行灵活的设计。2Projector 中的压缩图 4. MLLMs 中 projector 模块所采用的 Token 压缩策略示意图Projector module 作为一个接口将原始的视觉嵌入转换为与语言兼容的表示形式从而确保 vision encoder 提取的信息能被大语言模型有效利用。虽然像 Q-Former 这样的早期 projector 架构通过将大量的视觉嵌入提炼为一组紧凑的查询 Token实现了高效 Token 压缩但后续的大量研究为 projector 引入了额外的设计增强以实现更细粒度和任务自适应的压缩。研究人员将这些方法大致分为三大类并进行了详细的讨论基于变换的方法基于查询的方法和重要性驱动的方法。3LLM 中的压缩图 5. MLLMs 中 projector 模块所采用的 Token 压缩策略示意图由于 LLM 的参数量通常远超视觉编码器和投影器会成为性能瓶颈的关键组件在这一阶段进行高效压缩会产生直接收益。MLLM 早期发展阶段非常关注短文本视觉问答VQA因此这一时期的压缩策略专注于预填充阶段会在输入序列第一次在 LLM 中 forward 时就对视觉 token 进行压缩。但是随着思维链技术的飞速发展研究重心已转向长视觉问答场景这些技术通常在 decoding 阶段选择性地剪枝或合并 KV Cache 来降低内存和计算成本。4多模块压缩除了在单个组件内应用 Token 压缩外近期已有越来越多的方法开始探索跨多个模块的压缩策略以实现更高的压缩效率和更优的表征质量。这类方法主要关注如何协调不同组件之间的压缩并将其组织为一个多阶段过程从而最大限度地提高整体效率和表征质量。对于这种混合压缩策略研究人员详细介绍并分析了两种新兴的设计范式多模块协同压缩以及多阶段渐进式压缩。表 1. 代表性 MLLMs token 压缩策略总结不同使用场景下如何选择合适的压缩策略how to select由于 Token 压缩设计方法的激增有必要制定相关指南以帮助从业者针对特定的部署场景选择最佳策略研究人员对关键的选择因素进行了全面对比。1针对视频输入的时空增强压缩虽然现有的空间压缩策略可以直接应用于单帧但它们通常无法利用帧间的冗余。为了填补这一空白最近的研究提出了时空增强的 Token 压缩方法这些方法明确考虑了时间结构以实现高效的长序列建模。研究人员进一步详细介绍了应该使用哪些策略解决时空联合压缩时序结构保留以及超长序列等实际挑战。2纯视觉压缩 vs. 文本引导压缩现有方法根据其是否利用了文本信息用户指令可分为纯视觉压缩和文本引导压缩这两种策略是互补的一种实用的设计是首先通过纯视觉压缩导出紧凑的视觉表示然后在语言模块中应用文本引导的选择机制以精炼出与给定文本查询相关的 Token。3Token Merging vs. Token DroppingToken Merging 提供了平滑的聚合适用于密集或在时间上冗余的视觉输入而当高层语义已足够稀疏时Token Dropping 的效率则更具优势。未来的框架可能会受益于自适应的混合设计根据模态特征和冗余类型在 “软聚合” 和 “硬剪枝” 之间进行动态切换。4即插即用方法 vs. 重训练方法即插即用方法非常适合在训练资源有限或任务需求相对温和的情况下进行快速部署和推理加速。然而它们的性能上限相对有限最近的研究进一步通过实验证明免训练 Token 压缩方法在需要高分辨率视觉理解任务中会出现显著的性能下降。相比之下重训练方法在细粒度多模态理解方面表现优异能够提供更高的性能上限但代价是大量的额外训练开销。5加速训练 vs. 加速推理由于任务的相似性原则上所有可用于 LLM 预填充的加速推理策略也都可以用于加速训练但是大多数 sota MLLM 仍然使用最简单的 Token 压缩机制如 poolingpixel unshuffle 等。为什么这些多样化的方法没有被主流 LVLM 广泛采用研究人员分析了三个主要原因Flash Attention 兼容性问题训练验证成本高昂导致的策略保守归纳偏置导致的泛化性下降Inductive bias。由于目前的 MLLM 旨在用于通用目的任何特定能力的退化都是不可接受的。结语尽管 MLLMs 的 Token 压缩技术取得了快速进展但仍有若干开放性挑战值得进一步研究比如缺乏理论辅助缺乏任务与内容感知的自适应性实际细粒度感知的任务性能下降这些都是值得进一步探索的重要问题。本文的 survey 后续会保持更新将在 v2 版本中整理 Token 压缩研究中常用的图像和视频理解基准测试并据此构建一个全面的评估框架。最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

多模态大模型效率提升：Token压缩技术详解与实战指南

相关新闻

大模型Agent记忆系统架构与实现：从理论到实践，收藏必备

好写作AI：效率提升300%？揭秘5个让同事以为你开了挂的高级技巧

Ranatensin ；pEVPQWAVGHFM-NH₂

最新新闻

如何免费永久保存微信聊天记录：WeChatMsg完整备份与导出终极指南

LV3296与TM4C129ENCZAD在工业数据采集中的应用

OpenClaw安装教程详细步骤，图文并茂轻松跟做

TPAFE0808与PIC32MZ多通道信号采集系统设计

LINUX高通平台交叉编译地图软件GDAL

专业解析：如何通过m4s-converter实现B站缓存视频的格式转换与永久保存

日新闻

Nginx防御TLS重协商攻击实战：从原理到配置与监控

华为防火墙双通道远程管理实战：Web与SSH配置详解

AD74413R与PIC18F65K40的高精度工业数据采集方案

周新闻

月新闻