2026.3.10本文提出MIRAGE框架通过引入基于最优传输的对比损失和自适应梯度平衡策略有效解决了医学图像-文本预训练中因数据噪声假阳性与假阴性导致的模型性能受限问题在多项下游任务上取得了最先进的性能并展现出强大的鲁棒性和泛化能力。Title题目01MIRAGE: Medical image-text pre-training for robustness against noisy environmentsMIRAGE面向嘈杂环境下鲁棒性的医学图像-文本预训练文献速递介绍02由于医疗数据收集和标注成本高昂且隐私法规严格现有医学图像-文本数据集通常规模较小且存在噪声。特别是在自动提取的PMC-OA等数据集中常出现图像与描述不匹配的假阳性FP和语义相关但被视为无关的假阴性FN问题。传统的InfoNCE损失在噪声环境下表现出过度自信无法有效处理这些问题。现有噪声处理方法如数据清洗在医疗领域也因缺乏专家标注或领域差异而失效。本文提出MIRAGE框架通过新颖的最优传输OT对比损失、跨模态最近邻NN噪声估计和自适应梯度平衡策略首次同时解决了医学视觉-语言预训练中的FP和FN问题旨在提升模型在嘈杂环境下的鲁棒性。Aastract摘要02对比视觉-语言预训练模型在大规模通用多模态数据集上取得了显著成功但在医疗领域由于数据收集和专家标注的高成本导致数据集规模小且噪声大这严重限制了模型性能。为解决这一挑战本文提出了MIRAGE框架旨在处理医学图像-文本预训练中不匹配的假阳性FPs和语义相关的假阴性FNs。传统的基于交叉熵的优化方法在噪声对比设置中不足以区分噪声样本从而导致次优表示。为此我们引入了一种基于最优传输的对比损失利用最近跨模态邻居先验有效地识别噪声样本从而减少其不利影响。此外我们提出了一种自适应梯度平衡策略来减轻噪声样本梯度带来的影响。大量实验表明MIRAGE在六项任务和14个数据集上实现了卓越性能显著优于现有最先进方法。对合成噪声数据进行的全面分析也清晰地展示了MIRAGE各组件的贡献。Method方法03MIRAGE框架旨在通过最优传输对比损失和自适应梯度平衡策略解决医疗数据中的噪声问题。首先为了缓解InfoNCE损失在噪声数据上的过度自信问题我们引入了基于最优传输OT的对比损失它通过计算预测概率分布与真实分布之间的瓦瑟斯坦距离实现对噪声样本的鲁棒优化。我们提出的代价函数Cij量化了将一对图像-文本视为正样本所需的传输成本从而有效捕捉FP和FN案例中的噪声。其次我们提出了基于最近邻NN的噪声估计方法该方法通过在记忆库中查询图像的最近邻文本而非其原始配对文本来评估图像-文本对的语义一致性。这种方法能够更可靠地区分干净和噪声样本即使在L2距离收敛的情况下也能保持有效。最后为了在噪声环境中实现稳定优化并减轻噪声数据的影响我们引入了自适应梯度平衡策略。该策略根据样本的估计匹配分数动态调整InfoNCE损失中每个正样本的贡献同时引入一个基于NN的鲁棒对比损失并在两者之间进行凸插值以避免启发式切换并稳定训练过程。Discussion讨论04尽管MIRAGE在通用医学任务中表现出色但在专门针对3D成像的单模态模型中仍存在性能差距这主要源于2D预训练设置的架构和数据限制。目前MIRAGE缺乏明确的3D图像-文本语义理解未来计划开发模态特异性适配和构建大规模3D图像-文本数据集。此外由于现有数据集缺乏患者层面的人口统计或站点元数据模型在公平性和偏见缓解方面的系统性子组分析仍面临挑战未来将探索公平感知预训练策略。在多模态大语言模型MLLMs中幻觉问题阻碍了临床部署。尽管本文初步探索了将MIRAGE作为RAG检索器但由于预训练数据并非专为RAG设计性能仍有提升空间。鉴于MIRAGE在检索任务上的卓越表现和对语义噪声的鲁棒性其有望提升RAG系统在医学应用中的可靠性和事实准确性。最后本研究仍停留在算法层面距离实际临床部署尚有差距。未来工作将加强MIRAGE与临床任务的联系探索其在基于智能体的工作流程、人机交互、多组学研究以及数据驱动AI模型的透明度和隐私保护方面的应用。Conclusion结论05本文提出了一种无需数据过滤、鲁棒的医学领域对比视觉-语言预训练VLP框架MIRAGE。该框架引入了一种新颖的最优传输对比损失以缓解InfoNCE损失的过度自信问题并结合了跨模态最近邻噪声估计方法。此外我们提出了一种自适应梯度平衡策略以确保训练的稳定性。在真实世界和合成噪声数据上的广泛实验结果均证明了所提出的MIRAGE框架的有效性和鲁棒性。Results结果06MIRAGE框架在广泛的实验中展示了卓越的性能和鲁棒性。预训练在PMC-OA数据集上模型在零样本分类、KNN分类、图像-文本检索、视觉问答VQA和多模态检索增强生成MM-RAG六项下游任务和14个数据集上均超越了CLIP、PMC-CLIP、CoCa等现有最先进方法。消融研究证实最优传输对比损失和自适应梯度平衡策略对性能提升至关重要。鲁棒性评估表明MIRAGE在不同噪声水平下始终优于CLIP且在训练过程中收敛更平稳不易过拟合噪声数据。在代价函数评估中基于最近邻文本的代价函数NN-T表现最佳。此外自适应梯度平衡策略有效稳定了噪声样本的距离防止模型过拟合。在最近邻搜索策略方面软NN搜索通常优于硬NN搜索。记忆库大小的最佳选择为65536。计算效率方面MIRAGE仅略微增加了GPU内存和训练时间推理成本与基线CLIP相同。跨数据集分析显示MIRAGE在更干净的PubMedVision数据集上表现更优并能更好地保持长尾类别分布降低赫林格距离减轻偏见。MIRAGE还展现了对多种视觉编码器如ViT、Swin Transformer、ConvNeXt等的普遍适用性并在对3D医学成像的探索性评估中超越了CoCa。可视化结果进一步验证了MIRAGE能有效识别FP和FN案例并在训练过程中从低级到高级语义进行最近邻匹配实现更精细的图像-文本相似度理解。Figure图07图1. PMC-OA数据集中代表性的假阳性FP和假阴性FN案例。图2. 使用DFN模型Fang et al., 2024对(a) ROCO-V2医学数据集和(b) COCO自然数据集中配对和未配对图像-标题对的相似度分数分布。图3. 提出的MIRAGE整体框架。在前向传播过程中记忆库为每张图像检索最近的文本嵌入以估计整个批次中的噪声水平。在反向传播过程中估计的噪声通过自适应梯度平衡策略整合到最优传输对比损失中。图4. 在30%图像-文本混洗训练时的归一化L2距离可视化(a) 每张图像与其配对文本之间的距离(b) 每张图像的最近邻NN文本与其配对文本之间的距离。图5. MIRAGE与最先进方法在各种任务上的性能比较分析。图6. MIRAGE和CLIP在噪声环境中的行为(a) 不同噪声水平下的验证对比准确率(b) 噪声水平η0.3时的训练准确率收敛模式。图7. 随机采样噪声图像-文本嵌入之间的归一化L2距离比较(a) 大的InfoNCE权重1.0(b) 小的InfoNCE权重0.01以及(c) 自适应梯度平衡。图8. 图像-配对文本相似度与图像-最近邻文本相似度在不同数据集上的散点图。噪声水平越高两种相似度之间的相关性越低。图9. 通过检索任务评估的MIMIC数据集中采样的类别分布图。从左到右依次为MIRAGE检索到的报告标签CLIP检索到的报告标签以及真实报告标签。图10. 基于在不同训练周期中匹配分数最高的前1%代表性样本最近邻匹配在训练过程中的演变。红色高亮显示的单词表示不匹配绿色高亮显示的单词表示一致匹配。图11. MIRAGE检测到的代表性假阳性FP和假阴性FN案例可视化其中S表示匹配分数。图12. CLIP和MIRAGE局部图像-文本相似度的比较可视化。标题中的关键词以红色高亮显示。