RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual DegradationsAuthors:I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu, Yu-Chien Chiang, Jen-Chien Yang, Wei-Ting ChenDeep-Dive Summary:这篇论文介绍了一个名为RobustVisRAG的框架旨在提升基于视觉的检索增强生成Vision-based Retrieval-Augmented Generation, VisRAG在视觉退化如模糊、噪声、低光照等环境下的鲁棒性。1. 研究背景与动机传统的检索增强生成RAG主要分为基于文本的TextRAG和基于视觉的VisRAG。VisRAG 直接利用视觉语言模型VLM对文档图像进行编码避免了 OCR 过程中的识别错误能更好地保留空间信息和图表上下文。然而当输入的文档图像存在视觉退化Distortion时VisRAG 的性能会大幅下降。这是因为在预训练的视觉编码器中**语义因素Semantics和退化因素Degradation**往往纠缠在一起导致检索不匹配和生成不稳定。图 1RobustVisRAG 的能力说明。(a) 在清晰、合成退化和真实退化场景下的检索性能。(b) 生成性能。©(d) 端到端检索-生成性能。结果显示 RobustVisRAG 在保持清晰数据准确性的同时显著提升了在退化条件下的鲁棒性。2. 核心方法RobustVisRAG为了解决上述问题作者提出了一个因果引导的双路径框架通过将语义和退化因素解耦来提高系统的鲁棒性。3.1 因果建模作者利用结构因果模型SCM对 VisRAG 的退化过程进行建模。假设S SS为语义因子D DD为退化因子观测到的图像X XX由下式生成X f ( S , D , ϵ X ) X f(S, D, \epsilon_X)Xf(S,D,ϵX)现有的 VLM 编码器会将X XX映射到潜空间Z ZZ由于语义和退化在Z ZZ中交织导致非因果路径D → X → Z → ( R , Y ) D \to X \to Z \to (R, Y)D→X→Z→(R,Y)的存在干扰了最终的检索R RR和生成Y YY。3.2 双路径编码器架构RobustVisRAG 引入了双路径设计非因果路径Non-Causal Path使用单向注意力机制引入一个专门的“非因果标记”non-causal token来捕捉退化信号同时防止这些信号流向语义标记。其优化目标是非因果失真建模NCDM通过对比损失函数让该路径识别不同的退化类型L N C D M max ( 0 , ∥ Z d e g a − Z d e g p ∥ 2 2 − ∥ Z d e g a − Z d e g n ∥ 2 2 δ ) \mathcal{L}_{\mathrm{NCDM}} \max (0, \| Z_{\mathrm{deg}}^{a} - Z_{\mathrm{deg}}^{p}\|_{2}^{2} - \| Z_{\mathrm{deg}}^{a} - Z_{\mathrm{deg}}^{n}\|_{2}^{2} \delta )LNCDMmax(0,∥Zdega−Zdegp∥22−∥Zdega−Zdegn∥22δ)因果路径Causal Path专注于语义聚合。利用捕捉到的退化信号作为引导通过**因果语义对齐CSA**目标来净化语义表示L C S A L S I L λ F S A L L F S A L \mathcal{L}_{\mathrm{CSA}} \mathcal{L}_{\mathrm{SIL}} \lambda_{\mathrm{FSAL}}\mathcal{L}_{\mathrm{FSAL}}LCSALSILλFSALLFSAL其中L S I L \mathcal{L}_{\mathrm{SIL}}LSIL确保退化图像的语义特征与清晰图像一致并与退化特征相互独立。图 2RobustVisRAG 概览。(a) 视觉退化下 VisRAG 的因果模型。(b) 传统 VisRAG 架构。© RobustVisRAG 的双路径编码器用于解耦语义和退化因子。3.3 训练与推理训练检索器和生成器分别使用各自的损失函数结合了对比学习损失和因果解耦损失进行端到端微调。推理推理时仅保留因果路径丢弃非因果标记因此不会增加额外的计算开销。3. Distortion-VisRAG 数据集为了评估鲁棒性作者构建了Distortion-VisRAG (DVisRAG)数据集包含 36.7 万个问答对涵盖七大文档领域合成退化子集包含 12 种常见退化类型模糊、噪声、分辨率降低等每种有 5 个严重级别。真实场景退化子集在实际光照、阴影和纸张损坏条件下拍摄的 1,891 个测试对用于评估模型的泛化能力。4. 实验结果实验结果表明RobustVisRAG 在真实退化场景下表现优异检索性能MRR10提升了7.35 % 7.35\%7.35%。生成性能Accuracy提升了6.35 % 6.35\%6.35%。端到端性能总共提升了12.40 % 12.40\%12.40%。同时该模型在清晰图像上的表现与原始 VisRAG 相当证明了其在不损失泛化性能的情况下增强了鲁棒性。表 3VisRAG 和 DVisRAG 数据集上的端到端性能比较。方法检索 (MRR10) - 真实退化生成 (Top-1) - 真实退化VisRAG56.4742.99VisRAG-FT (微调版)59.3948.27Two-Stage (两阶段恢复)53.5940.42RobustVisRAG63.8255.394.3. 总体结果与分析检索性能。如表 1 所示RobustVisRAG 在所有数据集上均实现了最佳的检索性能。与原始的 VisRAG-Ret 相比RobustVisRAG 在干净数据上的检索准确率提高了2.54 % 2.54\%2.54%在合成退化和真实退化条件下分别提高了7.25 % 7.25\%7.25%和7.35 % 7.35\%7.35%。我们还将其与应用了对抗鲁棒性训练的 VisRAG-FARE 进行了比较。即使面对这一更强的基准模型RobustVisRAG 在干净、合成和真实子集上仍分别取得了 1.69 % 1.69\%1.69%、 4.10 % 4.10\%4.10%和 4.43 % 4.43\%4.43%的进一步增益。在我们的设置下得出了三个观察结果首先基于视觉的检索在退化条件下具有更高的稳定性而依赖 OCR 的管道则易受噪声、模糊和照明伪影的影响。其次混合数据集微调-FM能够持续提升退化领域的性能尽管其对干净数据准确性的影响因架构而异。第三对抗鲁棒性训练在 DVisRAG 数据集复杂的退化场景中提升有限。相比之下RobustVisRAG 显式地解耦了语义和退化因素从而实现了在所有视觉条件下一致泛化的鲁棒性。生成性能。我们使用 RobustVisRAG 获得的检索结果来评估各种生成模型。需要注意的是在原始 VisRAG [59] 中仅对检索器进行了微调而生成模块VisRAG-Gen保持冻结。为了进一步研究生成器的适配如何影响鲁棒性我们在三种策略下对 VisRAG-Gen 进行了微调全量微调记为“-FFT”、PEFT [14]记为“-PEFT”以及遵循 FARE [42] 的对抗鲁棒性训练记为“-FARE”。我们报告了使用检索到的前 1、2、3 个文档的结果以及在 Oracle 设置模型仅能访问地面真值正向文档下的结果。如表 2 所示RobustVisRAG 在不同设置下均一致优于现有方法在合成和真实世界的退化数据集上均实现了稳定的提升。具体而言RobustVisRAG 在 Oracle 设置下比 VisRAG-Gen 提高了6.35 % 6.35\%6.35%并超过了 GPT-4o10.42 % 10.42\%10.42%。在各种微调策略中FARE 由于具有额外的特征空间对齐约束有助于模型抵抗局部扰动因此比 FFT 和 PEFT 表现出更好的鲁棒性。然而由于这种对齐并未显式解耦语义和退化表示其提升仍然有限。相比之下RobustVisRAG 利用从非因果路径提取的退化特征作为引导在训练过程中显式分离这些因素从而在干净和损坏的输入中均实现了更强的语义稳定性和退化不变性。端到端性能。我们进一步评估了完整的“检索-生成”管道以评估 RobustVisRAG 与基于 VisRAG 配置相比的端到端鲁棒性。表 4. DVisRAG 数据集上 RobustVisRAG 不同配置的消融实验。ConfigurationsRetrieval (MRR10)Generation (Top-1)SyntheticRealSyntheticRealBaseline65.9656.4741.9642.99RobustVisRAG w/o U69.1260.2845.3449.54RobustVisRAG w/o LNCBM69.2061.9447.2151.79RobustVisRAG w/o LCSA67.4858.2444.9645.72RobustVisRAG w/o LNCBM LCSA66.3456.9442.9443.80RobustVisRAG73.2163.8248.0255.39图 3. 退化情况下的 Token 表示对比(a) VisRAG 和 (b) RobustVisRAG 的注意力可视化。© 对应 (a) 和 (b) 的干净版本。(d) RobustVisRAG w/oL N C D M L_{\mathrm{NCDM}}LNCDML C S A L_{\mathrm{CSA}}LCSA和 (e) RobustVisRAG 的Z d e g Z_{\mathrm{deg}}Zdegt-SNE 可视化。由于 VisRAG [59] 和 RobustVisRAG 共享相同的检索和生成主干它们的区别仅在于训练和适配策略。我们包含以下变体进行比较(i) 原始 VisRAG记为 VisRAG(ii) 性能最佳的 VisRAG 微调配置结合了 VisRAG-Ret-FM (FARE) 和 VisRAG-Gen-FM (FARE)记为 VisRAG-FT(iii) 两阶段增强策略即退化图像在送入原始 VisRAG 管道前先使用图像恢复方法 [39] 进行处理记为 Two-Stage。如表 3 所示RobustVisRAG 在退化条件下优于所有基准模型同时在干净设置下保持了与原始 VisRAG 相当的准确性。在真实世界的退化数据集上RobustVisRAG 在检索阶段实现了7.35 % 7.35\%7.35%的平均提升并进一步将端到端准确率提高了12.4 % 12.4\%12.4%这表明语义-退化解耦的优势有效地传导到了整个管道中。相比之下两阶段增强策略虽然在概念上直观但提升有限因为恢复步骤可能会扭曲干净图像且无法确保退化条件下下游任务的鲁棒性。4.4. 消融实验为了分析每个组件的贡献我们在混合数据集上训练所有变体并在 VisRAG 和 DVisRAG 测试集上进行评估。所提模块的有效性。我们设计了六种配置来分析各组件的贡献(i) Baseline原始 VisRAG 框架(ii) RobustVisRAG w/o U将单向非因果路径替换为双向连接。此设置等同于在 VisRAG 架构中添加非因果 Token但在没有强制方向分离的情况下使用L N C D M L_{\mathrm{NCDM}}LNCDM和L C S A L_{\mathrm{CSA}}LCSA两个目标联合训练(iii) RobustVisRAG w/oL N C D M L_{\mathrm{NCDM}}LNCDM移除非因果退化建模目标(iv) RobustVisRAG w/oL C S A L_{\mathrm{CSA}}LCSA移除因果语义对齐目标(v) RobustVisRAG w/oL N C D M L_{\mathrm{NCDM}}LNCDML C S A L_{\mathrm{CSA}}LCSA同时移除两个损失项(vi) RobustVisRAG包含所有提议模块的完整模型。如表 4 所示所有组件都有助于提高鲁棒性和泛化能力。单向注意力约束对于防止语义-退化纠缠以及保持两条路径之间清晰的因果分离至关重要这从 (ii) 和 (vi) 的对比中得到了证实。 (v) 和 (vi) 的对比进一步表明仅添加非因果路径是不够的如果没有所提的两个目标它将无法学习到有意义的退化特征且增益有限。总的来说结果证明了 RobustVisRAG 中每个模块的必要性。学习到的 Token 表示探究。为了分析退化如何影响语义编码我们进行了两项互补的可视化研究。首先我们从 DVisRAG 中采样一张退化图像并使用文本查询“柱状图Bar Chart”。我们计算文本嵌入与平均补丁patchtoken 特征之间的相似度然后将相似度图投影回图像。如图 3(a)(b) 所示RobustVisRAG 能够更一致地聚焦于语义相关区域而原始 VisRAG 很容易被退化干扰倾向于突出无关区域。这表明 RobustVisRAG 学习到了具有显著退化不变性的语义表示。接下来我们采样了 50 个“图像-问题-答案”三元组并对每张图像应用了五种类型的合成退化。然后我们对比了来自 RobustVisRAG 及其变体 RobustVisRAG w/oL N C D M L_{\mathrm{NCDM}}LNCDML C S A L_{\mathrm{CSA}}LCSA的Z d e g Z_{\mathrm{deg}}Zdeg特征的退化表示。如图 3©(d) 所示没有这些目标的变体在退化类型之间的可分性较差而 RobustVisRAG 产生了清晰且紧凑的聚类。这证明了 NCDM 和 CSA 的结合作用促进了潜在空间中退化一致性结构的形成。5. 结论我们提出了 RobustVisRAG这是一个面向 VisRAG 的因果引导双路径框架旨在减轻退化条件下的“检索-生成”误差传播。通过结构设计和针对性目标RobustVisRAG 提升了退化下的检索、生成和端到端性能同时保留了干净数据的准确性。这些提升不带来额外的推理成本。我们还引入了 Distortion-VisRAG 数据集这是一个用于评估视觉退化条件下多模态 RAG 模型的综合基准。Original Abstract:Vision-based Retrieval-Augmented Generation (VisRAG) leverages vision-language models (VLMs) to jointly retrieve relevant visual documents and generate grounded answers based on multimodal evidence. However, existing VisRAG models degrade in performance when visual inputs suffer from distortions such as blur, noise, low light, or shadow, where semantic and degradation factors become entangled within pretrained visual encoders, leading to errors in both retrieval and generation stages. To address this limitation, we introduce RobustVisRAG, a causality-guided dual-path framework that improves VisRAG robustness while preserving efficiency and zero-shot generalization. RobustVisRAG uses a non-causal path to capture degradation signals through unidirectional attention and a causal path to learn purified semantics guided by these signals. Together with the proposed Non-Causal Distortion Modeling and Causal Semantic Alignment objectives, the framework enforces a clear separation between semantics and degradations, enabling stable retrieval and generation under challenging visual conditions. To evaluate robustness under realistic conditions, we introduce the Distortion-VisRAG dataset, a large-scale benchmark containing both synthetic and real-world degraded documents across seven domains, with 12 synthetic and 5 real distortion types that comprehensively reflect practical visual degradations. Experimental results show that RobustVisRAG improves retrieval, generation, and end-to-end performance by 7.35%, 6.35%, and 12.40%, respectively, on real-world degradations, while maintaining comparable accuracy on clean inputs.PDF Link:2602.22013v1部分平台可能图片显示异常请以我的博客内容为准