RobustVisRAG Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations
RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual DegradationsAuthors:I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu, Yu-Chien Chiang, Jen-Chien Yang, Wei-Ting ChenDeep-Dive Summary:这篇论文介绍了一个名为RobustVisRAG的框架旨在提升基于视觉的检索增强生成Vision-based Retrieval-Augmented Generation, VisRAG在视觉退化如模糊、噪声、低光照等环境下的鲁棒性。1. 研究背景与动机传统的检索增强生成RAG主要分为基于文本的TextRAG和基于视觉的VisRAG。VisRAG 直接利用视觉语言模型VLM对文档图像进行编码避免了 OCR 过程中的识别错误能更好地保留空间信息和图表上下文。然而当输入的文档图像存在视觉退化Distortion时VisRAG 的性能会大幅下降。这是因为在预训练的视觉编码器中**语义因素Semantics和退化因素Degradation**往往纠缠在一起导致检索不匹配和生成不稳定。图 1RobustVisRAG 的能力说明。(a) 在清晰、合成退化和真实退化场景下的检索性能。(b) 生成性能。©(d) 端到端检索-生成性能。结果显示 RobustVisRAG 在保持清晰数据准确性的同时显著提升了在退化条件下的鲁棒性。2. 核心方法RobustVisRAG为了解决上述问题作者提出了一个因果引导的双路径框架通过将语义和退化因素解耦来提高系统的鲁棒性。3.1 因果建模作者利用结构因果模型SCM对 VisRAG 的退化过程进行建模。假设S SS为语义因子D DD为退化因子观测到的图像X XX由下式生成X f ( S , D , ϵ X ) X f(S, D, \epsilon_X)Xf(S,D,ϵX​)现有的 VLM 编码器会将X XX映射到潜空间Z ZZ由于语义和退化在Z ZZ中交织导致非因果路径D → X → Z → ( R , Y ) D \to X \to Z \to (R, Y)D→X→Z→(R,Y)的存在干扰了最终的检索R RR和生成Y YY。3.2 双路径编码器架构RobustVisRAG 引入了双路径设计非因果路径Non-Causal Path使用单向注意力机制引入一个专门的“非因果标记”non-causal token来捕捉退化信号同时防止这些信号流向语义标记。其优化目标是非因果失真建模NCDM通过对比损失函数让该路径识别不同的退化类型L N C D M max ⁡ ( 0 , ∥ Z d e g a − Z d e g p ∥ 2 2 − ∥ Z d e g a − Z d e g n ∥ 2 2 δ ) \mathcal{L}_{\mathrm{NCDM}} \max (0, \| Z_{\mathrm{deg}}^{a} - Z_{\mathrm{deg}}^{p}\|_{2}^{2} - \| Z_{\mathrm{deg}}^{a} - Z_{\mathrm{deg}}^{n}\|_{2}^{2} \delta )LNCDM​max(0,∥Zdega​−Zdegp​∥22​−∥Zdega​−Zdegn​∥22​δ)因果路径Causal Path专注于语义聚合。利用捕捉到的退化信号作为引导通过**因果语义对齐CSA**目标来净化语义表示L C S A L S I L λ F S A L L F S A L \mathcal{L}_{\mathrm{CSA}} \mathcal{L}_{\mathrm{SIL}} \lambda_{\mathrm{FSAL}}\mathcal{L}_{\mathrm{FSAL}}LCSA​LSIL​λFSAL​LFSAL​其中L S I L \mathcal{L}_{\mathrm{SIL}}LSIL​确保退化图像的语义特征与清晰图像一致并与退化特征相互独立。图 2RobustVisRAG 概览。(a) 视觉退化下 VisRAG 的因果模型。(b) 传统 VisRAG 架构。© RobustVisRAG 的双路径编码器用于解耦语义和退化因子。3.3 训练与推理训练检索器和生成器分别使用各自的损失函数结合了对比学习损失和因果解耦损失进行端到端微调。推理推理时仅保留因果路径丢弃非因果标记因此不会增加额外的计算开销。3. Distortion-VisRAG 数据集为了评估鲁棒性作者构建了Distortion-VisRAG (DVisRAG)数据集包含 36.7 万个问答对涵盖七大文档领域合成退化子集包含 12 种常见退化类型模糊、噪声、分辨率降低等每种有 5 个严重级别。真实场景退化子集在实际光照、阴影和纸张损坏条件下拍摄的 1,891 个测试对用于评估模型的泛化能力。4. 实验结果实验结果表明RobustVisRAG 在真实退化场景下表现优异检索性能MRR10提升了7.35 % 7.35\%7.35%。生成性能Accuracy提升了6.35 % 6.35\%6.35%。端到端性能总共提升了12.40 % 12.40\%12.40%。同时该模型在清晰图像上的表现与原始 VisRAG 相当证明了其在不损失泛化性能的情况下增强了鲁棒性。表 3VisRAG 和 DVisRAG 数据集上的端到端性能比较。方法检索 (MRR10) - 真实退化生成 (Top-1) - 真实退化VisRAG56.4742.99VisRAG-FT (微调版)59.3948.27Two-Stage (两阶段恢复)53.5940.42RobustVisRAG63.8255.394.3. 总体结果与分析检索性能。如表 1 所示RobustVisRAG 在所有数据集上均实现了最佳的检索性能。与原始的 VisRAG-Ret 相比RobustVisRAG 在干净数据上的检索准确率提高了2.54 % 2.54\%2.54%在合成退化和真实退化条件下分别提高了7.25 % 7.25\%7.25%和7.35 % 7.35\%7.35%。我们还将其与应用了对抗鲁棒性训练的 VisRAG-FARE 进行了比较。即使面对这一更强的基准模型RobustVisRAG 在干净、合成和真实子集上仍分别取得了 1.69 % 1.69\%1.69%、 4.10 % 4.10\%4.10%和 4.43 % 4.43\%4.43%的进一步增益。在我们的设置下得出了三个观察结果首先基于视觉的检索在退化条件下具有更高的稳定性而依赖 OCR 的管道则易受噪声、模糊和照明伪影的影响。其次混合数据集微调-FM能够持续提升退化领域的性能尽管其对干净数据准确性的影响因架构而异。第三对抗鲁棒性训练在 DVisRAG 数据集复杂的退化场景中提升有限。相比之下RobustVisRAG 显式地解耦了语义和退化因素从而实现了在所有视觉条件下一致泛化的鲁棒性。生成性能。我们使用 RobustVisRAG 获得的检索结果来评估各种生成模型。需要注意的是在原始 VisRAG [59] 中仅对检索器进行了微调而生成模块VisRAG-Gen保持冻结。为了进一步研究生成器的适配如何影响鲁棒性我们在三种策略下对 VisRAG-Gen 进行了微调全量微调记为“-FFT”、PEFT [14]记为“-PEFT”以及遵循 FARE [42] 的对抗鲁棒性训练记为“-FARE”。我们报告了使用检索到的前 1、2、3 个文档的结果以及在 Oracle 设置模型仅能访问地面真值正向文档下的结果。如表 2 所示RobustVisRAG 在不同设置下均一致优于现有方法在合成和真实世界的退化数据集上均实现了稳定的提升。具体而言RobustVisRAG 在 Oracle 设置下比 VisRAG-Gen 提高了6.35 % 6.35\%6.35%并超过了 GPT-4o10.42 % 10.42\%10.42%。在各种微调策略中FARE 由于具有额外的特征空间对齐约束有助于模型抵抗局部扰动因此比 FFT 和 PEFT 表现出更好的鲁棒性。然而由于这种对齐并未显式解耦语义和退化表示其提升仍然有限。相比之下RobustVisRAG 利用从非因果路径提取的退化特征作为引导在训练过程中显式分离这些因素从而在干净和损坏的输入中均实现了更强的语义稳定性和退化不变性。端到端性能。我们进一步评估了完整的“检索-生成”管道以评估 RobustVisRAG 与基于 VisRAG 配置相比的端到端鲁棒性。表 4. DVisRAG 数据集上 RobustVisRAG 不同配置的消融实验。ConfigurationsRetrieval (MRR10)Generation (Top-1)SyntheticRealSyntheticRealBaseline65.9656.4741.9642.99RobustVisRAG w/o U69.1260.2845.3449.54RobustVisRAG w/o LNCBM69.2061.9447.2151.79RobustVisRAG w/o LCSA67.4858.2444.9645.72RobustVisRAG w/o LNCBM LCSA66.3456.9442.9443.80RobustVisRAG73.2163.8248.0255.39图 3. 退化情况下的 Token 表示对比(a) VisRAG 和 (b) RobustVisRAG 的注意力可视化。© 对应 (a) 和 (b) 的干净版本。(d) RobustVisRAG w/oL N C D M L_{\mathrm{NCDM}}LNCDM​L C S A L_{\mathrm{CSA}}LCSA​和 (e) RobustVisRAG 的Z d e g Z_{\mathrm{deg}}Zdeg​t-SNE 可视化。由于 VisRAG [59] 和 RobustVisRAG 共享相同的检索和生成主干它们的区别仅在于训练和适配策略。我们包含以下变体进行比较(i) 原始 VisRAG记为 VisRAG(ii) 性能最佳的 VisRAG 微调配置结合了 VisRAG-Ret-FM (FARE) 和 VisRAG-Gen-FM (FARE)记为 VisRAG-FT(iii) 两阶段增强策略即退化图像在送入原始 VisRAG 管道前先使用图像恢复方法 [39] 进行处理记为 Two-Stage。如表 3 所示RobustVisRAG 在退化条件下优于所有基准模型同时在干净设置下保持了与原始 VisRAG 相当的准确性。在真实世界的退化数据集上RobustVisRAG 在检索阶段实现了7.35 % 7.35\%7.35%的平均提升并进一步将端到端准确率提高了12.4 % 12.4\%12.4%这表明语义-退化解耦的优势有效地传导到了整个管道中。相比之下两阶段增强策略虽然在概念上直观但提升有限因为恢复步骤可能会扭曲干净图像且无法确保退化条件下下游任务的鲁棒性。4.4. 消融实验为了分析每个组件的贡献我们在混合数据集上训练所有变体并在 VisRAG 和 DVisRAG 测试集上进行评估。所提模块的有效性。我们设计了六种配置来分析各组件的贡献(i) Baseline原始 VisRAG 框架(ii) RobustVisRAG w/o U将单向非因果路径替换为双向连接。此设置等同于在 VisRAG 架构中添加非因果 Token但在没有强制方向分离的情况下使用L N C D M L_{\mathrm{NCDM}}LNCDM​和L C S A L_{\mathrm{CSA}}LCSA​两个目标联合训练(iii) RobustVisRAG w/oL N C D M L_{\mathrm{NCDM}}LNCDM​移除非因果退化建模目标(iv) RobustVisRAG w/oL C S A L_{\mathrm{CSA}}LCSA​移除因果语义对齐目标(v) RobustVisRAG w/oL N C D M L_{\mathrm{NCDM}}LNCDM​L C S A L_{\mathrm{CSA}}LCSA​同时移除两个损失项(vi) RobustVisRAG包含所有提议模块的完整模型。如表 4 所示所有组件都有助于提高鲁棒性和泛化能力。单向注意力约束对于防止语义-退化纠缠以及保持两条路径之间清晰的因果分离至关重要这从 (ii) 和 (vi) 的对比中得到了证实。 (v) 和 (vi) 的对比进一步表明仅添加非因果路径是不够的如果没有所提的两个目标它将无法学习到有意义的退化特征且增益有限。总的来说结果证明了 RobustVisRAG 中每个模块的必要性。学习到的 Token 表示探究。为了分析退化如何影响语义编码我们进行了两项互补的可视化研究。首先我们从 DVisRAG 中采样一张退化图像并使用文本查询“柱状图Bar Chart”。我们计算文本嵌入与平均补丁patchtoken 特征之间的相似度然后将相似度图投影回图像。如图 3(a)(b) 所示RobustVisRAG 能够更一致地聚焦于语义相关区域而原始 VisRAG 很容易被退化干扰倾向于突出无关区域。这表明 RobustVisRAG 学习到了具有显著退化不变性的语义表示。接下来我们采样了 50 个“图像-问题-答案”三元组并对每张图像应用了五种类型的合成退化。然后我们对比了来自 RobustVisRAG 及其变体 RobustVisRAG w/oL N C D M L_{\mathrm{NCDM}}LNCDM​L C S A L_{\mathrm{CSA}}LCSA​的Z d e g Z_{\mathrm{deg}}Zdeg​特征的退化表示。如图 3©(d) 所示没有这些目标的变体在退化类型之间的可分性较差而 RobustVisRAG 产生了清晰且紧凑的聚类。这证明了 NCDM 和 CSA 的结合作用促进了潜在空间中退化一致性结构的形成。5. 结论我们提出了 RobustVisRAG这是一个面向 VisRAG 的因果引导双路径框架旨在减轻退化条件下的“检索-生成”误差传播。通过结构设计和针对性目标RobustVisRAG 提升了退化下的检索、生成和端到端性能同时保留了干净数据的准确性。这些提升不带来额外的推理成本。我们还引入了 Distortion-VisRAG 数据集这是一个用于评估视觉退化条件下多模态 RAG 模型的综合基准。Original Abstract:Vision-based Retrieval-Augmented Generation (VisRAG) leverages vision-language models (VLMs) to jointly retrieve relevant visual documents and generate grounded answers based on multimodal evidence. However, existing VisRAG models degrade in performance when visual inputs suffer from distortions such as blur, noise, low light, or shadow, where semantic and degradation factors become entangled within pretrained visual encoders, leading to errors in both retrieval and generation stages. To address this limitation, we introduce RobustVisRAG, a causality-guided dual-path framework that improves VisRAG robustness while preserving efficiency and zero-shot generalization. RobustVisRAG uses a non-causal path to capture degradation signals through unidirectional attention and a causal path to learn purified semantics guided by these signals. Together with the proposed Non-Causal Distortion Modeling and Causal Semantic Alignment objectives, the framework enforces a clear separation between semantics and degradations, enabling stable retrieval and generation under challenging visual conditions. To evaluate robustness under realistic conditions, we introduce the Distortion-VisRAG dataset, a large-scale benchmark containing both synthetic and real-world degraded documents across seven domains, with 12 synthetic and 5 real distortion types that comprehensively reflect practical visual degradations. Experimental results show that RobustVisRAG improves retrieval, generation, and end-to-end performance by 7.35%, 6.35%, and 12.40%, respectively, on real-world degradations, while maintaining comparable accuracy on clean inputs.PDF Link:2602.22013v1部分平台可能图片显示异常请以我的博客内容为准

相关新闻

企业微信外部群“主动调用”技术全解析:从逆向工程到 RPA 自动化

企业微信外部群“主动调用”技术全解析:从逆向工程到 RPA 自动化

QiWe开放平台名片 API驱动企微外部群自动化,让私域开发更高效便捷 官方站点:https://www.qiweapi.com 对接通道:访问官方站点,联系专属客服 一、 主动调用的技术困境 企业微信的官方 API 矩阵主要侧重于“被动连接”与“基础管理…

2026/7/5 15:33:01 阅读更多 →
一维振动信号通过时频变换技术生成晚霞图像,再利用CNN进行故障诊断(Python代码)

一维振动信号通过时频变换技术生成晚霞图像,再利用CNN进行故障诊断(Python代码)

效果视频:一维振动信号通过时频变换技术生成图像,再利用CNN进行故障诊断_哔哩哔哩_bilibili 1.数据集介绍 1数据集介绍(CWRU数据集,每份负载数据集以四分类为例:正常、内圈故障、外圈故障和滚动体故障,也…

2026/5/17 6:57:38 阅读更多 →
阿里的百炼Coding Plan最近火了,哪里买?附上官网地址

阿里的百炼Coding Plan最近火了,哪里买?附上官网地址

上周,我终于把 AI 编程助手从“玩具”变成了“生产力工具”。 不是靠换模型,也不是买新电脑,而是用了阿里云刚推的 百炼 Coding Plan。 以前用,免费额度跑两下就没了;调个 API,动不动超限。 现在&#xff…

2026/5/17 2:18:37 阅读更多 →

最新新闻

你的前端代码打包后究竟经历了什么?

你的前端代码打包后究竟经历了什么?

打包命令执行的一瞬间,构建工具并不会立刻编译代码,第一步永远是读取并整合所有配置规则。构建工具配置读取: 以 Vite 为例,工具会自动查找项目根目录 vite.config.js,读取入口文件、输出目录、打包策略、公共路径等核…

2026/7/6 3:50:11 阅读更多 →
[实例] SPI接口的ADC芯片全通道纯硬件驱动——基于HAL库和TLA2518芯片

[实例] SPI接口的ADC芯片全通道纯硬件驱动——基于HAL库和TLA2518芯片

本次需要通过TI的TL2518芯片进行ADC采样。该芯片为SPI接口,具有八个通道,可以全部配置成AIN进行采样,本次需要探究如何该如何配置才能将芯片的采样率达到最大。1.TLA2158首先要陈列一下该芯片的一些特性,为节省篇幅,此…

2026/7/6 3:48:11 阅读更多 →
【全文系列目录】风控PM记

【全文系列目录】风控PM记

风控PM记 一:风险认知与识别(入门篇) ① 入门第一课:认识风险,了解风控 ② 入门第二课:业务催生风险,常见的业务风险有哪些? ③ 《电商风控入门:我们到底在“防”什…

2026/7/6 3:48:11 阅读更多 →
基于Databricks的企业级AI Agent生产实践:从架构设计到部署运维

基于Databricks的企业级AI Agent生产实践:从架构设计到部署运维

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 如果你正在考虑将AI Agent引入企业生产环境,可能会面临这样的困境:在本地开发环境中跑得飞快的Agent原型&…

2026/7/6 3:42:09 阅读更多 →
飞书卡片表格渲染踩坑记:从 Markdown 到原生 table 组件的迁移实战

飞书卡片表格渲染踩坑记:从 Markdown 到原生 table 组件的迁移实战

背景 团队每日通过飞书推送项目晨报和日报,内容从项目管理平台实时拉取,包含任务统计、进度列表、风险项等多维数据,天然需要表格来承载。 最初的实现方案是飞书消息推送 纯文本,格式简陋,阅读体验差。于是决定升级为…

2026/7/6 3:40:09 阅读更多 →
构建AI毒舌投资人:用Prompt工程验证副业想法的可行性

构建AI毒舌投资人:用Prompt工程验证副业想法的可行性

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 最近在折腾各种 AI 工具时,我发现一个挺有意思的现象:很多人拿到一个强大的 AI 模型,比如 DeepSee…

2026/7/6 3:40:09 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性:5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域,单元测试是保证代码质量的重要环节。当应用涉及数据库操作时,测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南:告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻