多模态大模型效率提升:Token压缩技术详解与实战指南
近年来多模态大模型在视觉感知长视频问答等方面涌现出了强劲的性能但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token 带来极高的显存占用和延迟限制了模型的可扩展性和本地部署。正是这种紧迫的需求催生了 MLLM Token Compression 迅速成为研究爆点两年内在该垂直领域产出了约 200 篇论文。但是随着研究工作的快速涌现领域内的方法也变得极其庞杂难以归类进一步具体到落地场景里面往往因为方法多样而难以选择。针对这一背景来自北京大学、中国科学技术大学等机构的研究人员首先基于压缩位置对方法进行了系统归类然后讨论了对于特定的部署场景应该选择何种压缩机制最后探讨了目前的挑战和具有前景的方向。Github 链接: https://github.com/yaolinli/MLLM-Token-Compression论文链接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1图 1. MLLMs 中 Token 压缩代表性工作时间线基于压缩位置视角的系统分类where to compress图 2. MLLM Token 压缩方法的系统分类研究人员根据 Token 压缩方法在 MLLM 架构中应用的位置对现有方法进行了系统性的分类。在从视觉输入到文本输出的整个处理过程中Token 压缩策略可以逐步部署在三个架构模块中Vision Encoder在此阶段进行压缩可以降低视觉感知阶段的计算开销Projector在从视觉表示空间向语言表示空间转换的过程中整合 Token 削减技术Large Language Model在此阶段进行压缩可实现整体的跨模态效率优化。1Vision Encoder 中的压缩图 3. MLLMs 中视觉编码器模块所采用的 Token 压缩策略示意图在 MLLMs 中视觉数据本质上比文本具有更高的冗余性而由于视觉编码器是编码视觉输入的第一个模块在这一初始阶段减少视觉 Token 可以为整个 MLLM 系统带来显著的效率提升。研究人员首先回顾并将在视觉编码器模块中应用的视觉侧 Token 压缩方法分为两大类视觉编码器内部压缩Inside-VE和视觉编码器外部压缩Outside-VE。由于视觉编码器不同的层会捕捉不同尺度的视觉信息从低层纹理到高层概念因此 Inside-VE 往往通过开发多尺度压缩方案来协调各层之间的压缩。Outside-VE 的设计具有即插即用的特点对原始架构的改动极小并且可以根据是否引入文本信号进行灵活的设计。2Projector 中的压缩图 4. MLLMs 中 projector 模块所采用的 Token 压缩策略示意图Projector module 作为一个接口将原始的视觉嵌入转换为与语言兼容的表示形式从而确保 vision encoder 提取的信息能被大语言模型有效利用。虽然像 Q-Former 这样的早期 projector 架构通过将大量的视觉嵌入提炼为一组紧凑的查询 Token实现了高效 Token 压缩但后续的大量研究为 projector 引入了额外的设计增强以实现更细粒度和任务自适应的压缩。研究人员将这些方法大致分为三大类并进行了详细的讨论基于变换的方法基于查询的方法和重要性驱动的方法。3LLM 中的压缩图 5. MLLMs 中 projector 模块所采用的 Token 压缩策略示意图由于 LLM 的参数量通常远超视觉编码器和投影器会成为性能瓶颈的关键组件在这一阶段进行高效压缩会产生直接收益。MLLM 早期发展阶段非常关注短文本视觉问答VQA因此这一时期的压缩策略专注于预填充阶段会在输入序列第一次在 LLM 中 forward 时就对视觉 token 进行压缩。但是随着思维链技术的飞速发展研究重心已转向长视觉问答场景这些技术通常在 decoding 阶段选择性地剪枝或合并 KV Cache 来降低内存和计算成本。4多模块压缩除了在单个组件内应用 Token 压缩外近期已有越来越多的方法开始探索跨多个模块的压缩策略以实现更高的压缩效率和更优的表征质量。这类方法主要关注如何协调不同组件之间的压缩并将其组织为一个多阶段过程从而最大限度地提高整体效率和表征质量。对于这种混合压缩策略研究人员详细介绍并分析了两种新兴的设计范式多模块协同压缩以及多阶段渐进式压缩。表 1. 代表性 MLLMs token 压缩策略总结不同使用场景下如何选择合适的压缩策略how to select由于 Token 压缩设计方法的激增有必要制定相关指南以帮助从业者针对特定的部署场景选择最佳策略研究人员对关键的选择因素进行了全面对比。1针对视频输入的时空增强压缩虽然现有的空间压缩策略可以直接应用于单帧但它们通常无法利用帧间的冗余。为了填补这一空白最近的研究提出了时空增强的 Token 压缩方法这些方法明确考虑了时间结构以实现高效的长序列建模。研究人员进一步详细介绍了应该使用哪些策略解决时空联合压缩时序结构保留以及超长序列等实际挑战。2纯视觉压缩 vs. 文本引导压缩现有方法根据其是否利用了文本信息用户指令可分为纯视觉压缩和文本引导压缩这两种策略是互补的一种实用的设计是首先通过纯视觉压缩导出紧凑的视觉表示然后在语言模块中应用文本引导的选择机制以精炼出与给定文本查询相关的 Token。3Token Merging vs. Token DroppingToken Merging 提供了平滑的聚合适用于密集或在时间上冗余的视觉输入而当高层语义已足够稀疏时Token Dropping 的效率则更具优势。未来的框架可能会受益于自适应的混合设计根据模态特征和冗余类型在 “软聚合” 和 “硬剪枝” 之间进行动态切换。4即插即用方法 vs. 重训练方法即插即用方法非常适合在训练资源有限或任务需求相对温和的情况下进行快速部署和推理加速。然而它们的性能上限相对有限最近的研究进一步通过实验证明免训练 Token 压缩方法在需要高分辨率视觉理解任务中会出现显著的性能下降。相比之下重训练方法在细粒度多模态理解方面表现优异能够提供更高的性能上限但代价是大量的额外训练开销。5加速训练 vs. 加速推理由于任务的相似性原则上所有可用于 LLM 预填充的加速推理策略也都可以用于加速训练但是大多数 sota MLLM 仍然使用最简单的 Token 压缩机制如 poolingpixel unshuffle 等。为什么这些多样化的方法没有被主流 LVLM 广泛采用 研究人员分析了三个主要原因Flash Attention 兼容性问题训练验证成本高昂导致的策略保守归纳偏置导致的泛化性下降Inductive bias。由于目前的 MLLM 旨在用于通用目的任何特定能力的退化都是不可接受的。结语尽管 MLLMs 的 Token 压缩技术取得了快速进展但仍有若干开放性挑战值得进一步研究比如缺乏理论辅助缺乏任务与内容感知的自适应性实际细粒度感知的任务性能下降这些都是值得进一步探索的重要问题。本文的 survey 后续会保持更新将在 v2 版本中整理 Token 压缩研究中常用的图像和视频理解基准测试并据此构建一个全面的评估框架。最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型 深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

相关新闻

大模型Agent记忆系统架构与实现:从理论到实践,收藏必备

大模型Agent记忆系统架构与实现:从理论到实践,收藏必备

随着 AI Agent 应用的快速发展,智能体需要处理越来越复杂的任务和更长的对话历史。然而,LLM 的上下文窗口限制、不断增长的 token 成本,以及如何让 AI“记住”用户偏好和历史交互,都成为了构建实用 AI Agent 系统面临的核心挑战。…

2026/5/17 3:37:22 阅读更多 →
好写作AI:效率提升300%?揭秘5个让同事以为你开了挂的高级技巧

好写作AI:效率提升300%?揭秘5个让同事以为你开了挂的高级技巧

还在把好写作AI当“高级回车键”用?输入一句话,等它生成,然后复制粘贴? 停!这就像用跑车去买菜——性能浪费了99%。 真正的效率玩家,已经用下面这5个“隐藏技巧”,把好写作AI变成了自己的“外接…

2026/7/3 9:47:19 阅读更多 →
Ranatensin ;pEVPQWAVGHFM-NH₂

Ranatensin ;pEVPQWAVGHFM-NH₂

一、基础理化性质 英文名称:Ranatensin三字母序列:Pyr-Val-Pro-Gln-Trp-Ala-Val-Gly-His-Phe-Met-NH₂单字母序列:pEVPQWAVGHFM-NH₂(Pyr/pGlu 为焦谷氨酸,C 端为酰胺化修饰)CAS 号:29451-71-6…

2026/7/2 22:28:48 阅读更多 →

最新新闻

如何免费永久保存微信聊天记录:WeChatMsg完整备份与导出终极指南

如何免费永久保存微信聊天记录:WeChatMsg完整备份与导出终极指南

如何免费永久保存微信聊天记录:WeChatMsg完整备份与导出终极指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trendin…

2026/7/3 13:42:35 阅读更多 →
LV3296与TM4C129ENCZAD在工业数据采集中的应用

LV3296与TM4C129ENCZAD在工业数据采集中的应用

1. 项目概述:LV3296与TM4C129ENCZAD的协同工作场景在工业自动化和物联网边缘计算领域,数据采集与处理的实时性、可靠性一直是工程师面临的挑战。LV3296作为一款高性能信号调理芯片,配合TI的TM4C129ENCZAD微控制器,构成了一个典型的…

2026/7/3 13:42:35 阅读更多 →
OpenClaw安装教程详细步骤,图文并茂轻松跟做

OpenClaw安装教程详细步骤,图文并茂轻松跟做

这篇是写给喜欢"图文并茂"风格的朋友的。我会把OpenClaw安装过程中的每个关键步骤都详细描述,并标注你应该在屏幕上看到的界面元素。如果你之前看纯文字教程容易跟丢,这篇会适合你。 OpenClaw最新版本一键部署包下载地址:https://t…

2026/7/3 13:38:33 阅读更多 →
TPAFE0808与PIC32MZ多通道信号采集系统设计

TPAFE0808与PIC32MZ多通道信号采集系统设计

1. 项目背景与核心需求解析 在工业自动化和嵌入式系统开发领域,多通道信号采集与实时控制一直是关键需求。TPAFE0808作为一款8通道模拟前端芯片,配合PIC32MZ2048EFH144这款高性能32位微控制器,能够构建出强大的信号处理与系统监测平台。这种组…

2026/7/3 13:38:33 阅读更多 →
LINUX高通平台交叉编译地图软件GDAL

LINUX高通平台交叉编译地图软件GDAL

参考 LINUX编译地图软件GDAL-CSDN博客 toolchain.cmake文件 set(CMAKE_SYSTEM_NAME Linux) set(CMAKE_SYSTEM_PROCESSOR aarch64)# 高通OE交叉编译器前缀 set(TOOLCHAIN_PREFIX "aarch64-oe-linux-") set(CMAKE_C_COMPILER ${TOOLCHAIN_PREFIX}g…

2026/7/3 13:34:29 阅读更多 →
专业解析:如何通过m4s-converter实现B站缓存视频的格式转换与永久保存

专业解析:如何通过m4s-converter实现B站缓存视频的格式转换与永久保存

专业解析:如何通过m4s-converter实现B站缓存视频的格式转换与永久保存 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 在数字内容日益…

2026/7/3 13:30:26 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻