ViDoRAG：视觉丰富文档的检索增强生成新范式，多智能体+动态检索解锁复杂推理-尧图手机网站定制

中科大联合阿里通义Lab在2025 EMNLP上发表的ViDoRAG工作就专门解决了这个痛点。该研究不仅打造了首个针对大规模视觉丰富文档的评测数据集ViDoSeek还提出了一套融合GMM多模态混合检索和动态迭代多智能体推理的全新RAG框架在新基准上实现了超10%的性能提升为视觉丰富文档的处理提供了更实用的技术方案。在教育、金融、法律等领域幻灯片、行业报告、学术论文这类视觉丰富文档早已成为信息传递的核心载体里面的图表、表格、流程图等视觉元素让信息更直观但也给AI的理解和处理出了难题——传统RAG检索增强生成要么只会抠文本抓不到视觉信息的价值要么单靠视觉检索没法和文本特征有效融合面对大规模文档集合的复杂推理更是力不从心。中科大联合阿里通义Lab在2025 EMNLP上发表的ViDoRAG工作就专门解决了这个痛点。该研究不仅打造了首个针对大规模视觉丰富文档的评测数据集ViDoSeek还提出了一套融合GMM多模态混合检索和动态迭代多智能体推理的全新RAG框架在新基准上实现了超10%的性能提升为视觉丰富文档的处理提供了更实用的技术方案。论文地址https://aclanthology.org/2025.emnlp-main.464.pdf项目地址https://github.com/Alibaba-NLP/ViDoRAG01、传统方法的三大核心问题在ViDoRAG提出之前无论是视觉文档问答还是传统RAG在处理视觉丰富文档时都存在明显短板核心问题集中在三点检索能力脱节纯文本检索OCR会丢失视觉布局、图表趋势等关键信息纯视觉检索又难以精准匹配文本语义二者无法有效融合导致大规模文档中找相关信息效率低、精度差推理能力不足现有RAG多关注扩大检索文档长度却没为视觉语言模型设计针对性的推理引导面对多跳推理、跨页面信息整合的复杂问题很难充分利用检索到的信息评测数据集缺失传统VQA数据集如ChartQA、DocVQA都基于单张图片或单个文档查询和固定文档绑定无法评估模型在大规模文档集合中的检索、推理能力相当于练手和实战的场景完全脱节。而现实场景中用户的问题往往需要从成百上千页的文档中找答案比如“苹果2024季度报告中销量最高和最低产品的利润差是多少”这类问题既需要跨文档检索又需要多模态信息融合和复杂推理传统方法根本无法应对。02、ViDoSeek首个大规模视觉丰富文档RAG评测数据集要解决问题首先得有靠谱的评测基准ViDoSeek就是为填补这一空白而生它也是该研究的重要贡献之一。这个数据集专门针对大规模文档集合的检索-推理-生成任务设计核心特点可以总结为“真实、复杂、唯一”。数据集核心特性大规模文档基底基于300份涵盖经济学、技术、地理等12个领域的英文幻灯片每份25-50页总计约6000张图像模拟真实的大规模文档场景答案唯一性每个查询在整个文档集合中只有一个正确答案避免了多答案带来的评测模糊性能精准衡量检索和生成的准确性内容与推理多样化涵盖文本、图表、表格、二维布局四大内容类型其中布局类占比最高、难度最大问题分为单跳和多跳推理多跳推理需要跨页面/跨文档整合信息更贴合实际需求总量适中且高质量包含1142个人工构建精炼的查询经过LLM过滤、VLM验证、人工审核多轮质量把控确保问题的合理性和挑战性。四步构建流程保证数据集质量为了让数据集贴合真实场景且具备评测价值研究团队设计了标准化的四步构建流程全程结合AI辅助和人工专家审核文档收集筛选同时包含文本、图表、表格、布局的幻灯片保证文档的视觉丰富性查询创建由AI研究人员构建查询要求包含唯一关键词、指向特定文档同时覆盖不同内容和推理类型质量审查先用LLM过滤可能存在多答案的模糊查询再用VLM验证剩余查询是否只有“黄金页面”能回答人工修正不合格项多模态精炼对未达标的查询进行改写添加指向性关键词确保查询与特定图像严格关联同时保留原始语义。和传统VQA数据集相比ViDoSeek的核心优势在于支持大规模文档集合检索这也是它能成为视觉丰富文档RAG专属评测基准的关键下表清晰对比了ViDoSeek与现有数据集的差异03、ViDoRAG框架多模态检索多智能体推理双管齐下解难题ViDoRAG的核心设计围绕“高效检索”和“深度推理”两大目标展开整体分为多模态混合检索和多智能体迭代生成推理两个核心模块前者解决“怎么精准、高效找信息”的问题后者解决“怎么利用检索到的多模态信息做复杂推理、出准确答案”的问题两个模块无缝衔接形成端到端的处理流程。模块一多模态混合检索基于GMM的动态自适应检索告别静态Top-K传统检索的最大问题是静态Top-K超参数K太小会漏掉关键信息K太大则引入噪声、减慢推理而且手动调参在不同场景下不适用。ViDoRAG提出的多模态混合检索结合了文本和视觉两个检索管道并通过高斯混合模型GMM实现Top-K的动态自适应调整核心做了两件事1. 基于GMM的动态召回自动确定最优Top-K首先计算查询与文档集合中每个页面的余弦相似度研究发现相似度分布呈现双峰特性——一部分是高相似度的相关页面一部分是低相似度的无关页面恰好符合高斯混合模型的假设。通过EM算法拟合双峰高斯分布区分出高相似度T和低相似度F的页面分布动态将Top-K定义为所有属于高相似度分布的页面数量同时设置上下限处理异常值。这样一来每个查询都能得到专属的最优检索数量既不会漏检也不会引入过多噪声而且GMM的计算开销极低使用频率不到1%。双峰高斯分布P(s)通过期望最大化EM算法估计每种模态的先验概率。动态K值定义为2. 文本视觉检索结果融合实现特征互补分别通过文本管道OCR文本块检索用NV-embed-V2和视觉管道图像检索用ColQwen2得到检索结果将二者做并集后按原始页面顺序排序连续页面通常存在关联得到混合检索结果。这种融合方式充分发挥了文本检索的语义精准性和视觉检索的布局/特征捕捉能力再结合动态Top-K让混合检索结果既简洁又精准为后续推理打下坚实基础。模块二多智能体迭代生成推理三级协作从粗到细做推理检索到相关信息后如何利用这些多模态信息进行复杂推理是ViDoRAG的另一大亮点。研究设计了Seeker搜索者、Inspector检查者、Answer回答者三个智能体三者通过动态迭代的方式协作实现从粗到细的推理过程有效减少无关信息干扰提升答案的一致性和准确性。三个智能体的分工和交互流程非常清晰像一个专业的团队在解决问题1. 搜索者智能体粗筛线索定向找图核心任务是从混合检索的候选图像中根据查询和检查者的反馈快速筛选出可能相关的图像相当于“信息侦察兵”。初始阶段仅基于查询选择相关图像内存为空每一轮都会接收检查者的反馈比如“需要更多某类信息”从剩余候选图像中继续筛选同时更新推理内存直到检查者认为信息足够或候选图像中无相关内容时停止。2. 检查者智能体细查信息反馈引导核心任务是对搜索者选出来的图像做高分辨率细查判断信息是否足够同时给出反馈或草稿答案相当于“信息审核员”。若信息足够直接生成草稿答案并标注参考图像若信息不足明确指出需要补充的信息类型并保留相关图像供下一轮检索同时将反馈传给搜索者审查的图像数量少于搜索者避免噪声干扰保证推理鲁棒性。3. 回答者智能体验证整合生成最终答案核心任务是对检查者的草稿答案做一致性验证最终输出准确答案相当于“最终裁判”。若参考图像与检查者的输入完全匹配直接将草稿答案作为最终答案若参考图像是输入的子集需再次核对草稿答案与参考图像的一致性修正后输出利用草稿答案作为先验知识从粗到细优化响应提升答案的准确性和全面性。三个智能体的迭代推理过程完美适配了视觉丰富文档的处理需求——从粗筛到细查再到最终验证每一步都在过滤噪声、聚焦关键信息即使是多跳推理、跨页面信息整合的复杂问题也能逐步拆解、解决。04、实验结果性能全面领先各模块设计均有效为了验证ViDoRAG的有效性研究团队在ViDoSeek数据集上做了全面的实验涵盖端到端生成性能、检索性能、消融实验、效率与推理分析等多个维度同时对比了闭源模型GPT-4o和开源模型Qwen2.5-VL-7B、Llama3.2-Vision-90B基线方法选择了纯文本RAGTextRAG和纯视觉RAGVisualRAG并设置Oracle直接使用黄金页面作为性能上限。端到端生成性能超10%提升闭源/开源模型均适配ViDoRAG在所有模型上都实现了显著的性能提升相比基线方法TextRAG/VisualRAG整体准确率提升超10%即使是开源的Qwen2.5-VL-7B在ViDoRAG框架下也能达到69.1%的整体准确率接近Oracle的77.9%而GPT-4o在ViDoRAG下的整体准确率更是达到79.4%充分证明了框架的通用性和有效性。同时ViDoRAG在多跳推理和布局/表格类高难度问题上的提升尤为明显解决了传统方法在复杂问题上的推理短板。检索性能混合检索动态Top-K效率精度双提升检索实验结果显示视觉检索器ColQwen2表现最优Recall595.1%MRR583.3%文本检索器NV-embed-V2次之而ViDoRAG的混合检索结合了二者的优势在更短的上下文长度下实现了更高的召回率同时基于GMM的动态Top-K相比静态Top-K平均检索页面数从10减少到6.76准确率还能小幅提升实现了效率和精度的双重优化。消融实验每个核心模块都是性能提升的关键消融实验清晰验证了ViDoRAG各模块的有效性仅使用动态检索GMM相比基线准确率提升约2.7%仅使用多智能体生成相比基线准确率提升约5.2%动态检索多智能体生成的组合效果最佳实现了79.4%的最高准确率证明两个模块的设计并非简单叠加而是能相互赋能、形成协同效应。效率与推理分析轻微延迟换显著性能提升推理迭代与模型能力匹配延迟分析多智能体的迭代推理会带来轻微的延迟增加但相比性能的显著提升这种开销是完全可接受的对于非实时性的文档处理任务几乎无影响推理迭代分析模型能力越强需要的推理迭代次数越少如GPT-4o平均迭代次数远低于Llama3.2-Vision-90B证明ViDoRAG的迭代推理框架能根据模型能力自适应调整同时也说明将复杂任务拆解为多步简单推理是提升视觉语言模型推理能力的有效方式模态分析视觉管道在所有问题类型上的表现都优于文本管道即使是文本类问题视觉信息如文本布局、排版也能提供辅助而ViDoRAG的多模态融合进一步放大了这种优势。05、总结与思考ViDoRAG作为针对视觉丰富文档的专属RAG框架其核心价值不仅在于在新基准上实现了SOTA性能更在于为多模态RAG的研究提供了全新的思路检索的动态化与多模态融合告别静态超参数基于数据分布动态调整检索策略同时充分融合文本和视觉特征是解决大规模多模态文档检索的关键推理的模块化与迭代化将推理过程拆解为粗筛、细查、验证三个步骤通过多智能体协作实现迭代推理能有效激活视觉语言模型的推理能力应对复杂的多跳推理问题评测基准的场景化ViDoSeek填补了大规模视觉丰富文档RAG评测的空白为后续相关研究提供了统一、靠谱的评测标准推动领域发展。

ViDoRAG：视觉丰富文档的检索增强生成新范式，多智能体+动态检索解锁复杂推理

相关新闻

跨平台富文本工具怎样实现Word样式无损导入？

国企OA系统如何用WebUploader+PHP优化超大附件的分片传输效率？

计算机毕业设计springboot医院预约挂号系统基于SpringBoot的智慧医疗门诊预约服务平台 SpringBoot框架下的在线医疗挂号与就诊管理系统

最新新闻

合同管理系统的实施-开发费用问题

如何免费获取国家中小学智慧教育平台电子课本PDF：智能解析下载方案

AutoRaise终极指南：3步实现macOS鼠标悬停窗口自动聚焦，提升5倍工作效率

【强烈推荐收藏】2026网络安全：国家战略支柱与最确定职业红利

基于YOLOv5的道路损坏实时检测系统开发实践

Codex 实战 Skills：发生 Bug 时，用 Skill 自动捕获堆栈并格式化推送到群聊的预警技能

日新闻

Memcached 1.6.43 发布：关键安全修复版本，多项问题得到解决

终极指南：使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

周新闻

月新闻