MIRAGE:面向嘈杂环境下鲁棒性的医学图像-文本预训练/文献速递-大模型与图像分割在医疗影像中应用
2026.3.10本文提出MIRAGE框架通过引入基于最优传输的对比损失和自适应梯度平衡策略有效解决了医学图像-文本预训练中因数据噪声假阳性与假阴性导致的模型性能受限问题在多项下游任务上取得了最先进的性能并展现出强大的鲁棒性和泛化能力。Title题目01MIRAGE: Medical image-text pre-training for robustness against noisy environmentsMIRAGE面向嘈杂环境下鲁棒性的医学图像-文本预训练文献速递介绍02由于医疗数据收集和标注成本高昂且隐私法规严格现有医学图像-文本数据集通常规模较小且存在噪声。特别是在自动提取的PMC-OA等数据集中常出现图像与描述不匹配的假阳性FP和语义相关但被视为无关的假阴性FN问题。传统的InfoNCE损失在噪声环境下表现出过度自信无法有效处理这些问题。现有噪声处理方法如数据清洗在医疗领域也因缺乏专家标注或领域差异而失效。本文提出MIRAGE框架通过新颖的最优传输OT对比损失、跨模态最近邻NN噪声估计和自适应梯度平衡策略首次同时解决了医学视觉-语言预训练中的FP和FN问题旨在提升模型在嘈杂环境下的鲁棒性。Aastract摘要02对比视觉-语言预训练模型在大规模通用多模态数据集上取得了显著成功但在医疗领域由于数据收集和专家标注的高成本导致数据集规模小且噪声大这严重限制了模型性能。为解决这一挑战本文提出了MIRAGE框架旨在处理医学图像-文本预训练中不匹配的假阳性FPs和语义相关的假阴性FNs。传统的基于交叉熵的优化方法在噪声对比设置中不足以区分噪声样本从而导致次优表示。为此我们引入了一种基于最优传输的对比损失利用最近跨模态邻居先验有效地识别噪声样本从而减少其不利影响。此外我们提出了一种自适应梯度平衡策略来减轻噪声样本梯度带来的影响。大量实验表明MIRAGE在六项任务和14个数据集上实现了卓越性能显著优于现有最先进方法。对合成噪声数据进行的全面分析也清晰地展示了MIRAGE各组件的贡献。Method方法03MIRAGE框架旨在通过最优传输对比损失和自适应梯度平衡策略解决医疗数据中的噪声问题。首先为了缓解InfoNCE损失在噪声数据上的过度自信问题我们引入了基于最优传输OT的对比损失它通过计算预测概率分布与真实分布之间的瓦瑟斯坦距离实现对噪声样本的鲁棒优化。我们提出的代价函数Cij量化了将一对图像-文本视为正样本所需的传输成本从而有效捕捉FP和FN案例中的噪声。其次我们提出了基于最近邻NN的噪声估计方法该方法通过在记忆库中查询图像的最近邻文本而非其原始配对文本来评估图像-文本对的语义一致性。这种方法能够更可靠地区分干净和噪声样本即使在L2距离收敛的情况下也能保持有效。最后为了在噪声环境中实现稳定优化并减轻噪声数据的影响我们引入了自适应梯度平衡策略。该策略根据样本的估计匹配分数动态调整InfoNCE损失中每个正样本的贡献同时引入一个基于NN的鲁棒对比损失并在两者之间进行凸插值以避免启发式切换并稳定训练过程。Discussion讨论04尽管MIRAGE在通用医学任务中表现出色但在专门针对3D成像的单模态模型中仍存在性能差距这主要源于2D预训练设置的架构和数据限制。目前MIRAGE缺乏明确的3D图像-文本语义理解未来计划开发模态特异性适配和构建大规模3D图像-文本数据集。此外由于现有数据集缺乏患者层面的人口统计或站点元数据模型在公平性和偏见缓解方面的系统性子组分析仍面临挑战未来将探索公平感知预训练策略。在多模态大语言模型MLLMs中幻觉问题阻碍了临床部署。尽管本文初步探索了将MIRAGE作为RAG检索器但由于预训练数据并非专为RAG设计性能仍有提升空间。鉴于MIRAGE在检索任务上的卓越表现和对语义噪声的鲁棒性其有望提升RAG系统在医学应用中的可靠性和事实准确性。最后本研究仍停留在算法层面距离实际临床部署尚有差距。未来工作将加强MIRAGE与临床任务的联系探索其在基于智能体的工作流程、人机交互、多组学研究以及数据驱动AI模型的透明度和隐私保护方面的应用。Conclusion结论05本文提出了一种无需数据过滤、鲁棒的医学领域对比视觉-语言预训练VLP框架MIRAGE。该框架引入了一种新颖的最优传输对比损失以缓解InfoNCE损失的过度自信问题并结合了跨模态最近邻噪声估计方法。此外我们提出了一种自适应梯度平衡策略以确保训练的稳定性。在真实世界和合成噪声数据上的广泛实验结果均证明了所提出的MIRAGE框架的有效性和鲁棒性。Results结果06MIRAGE框架在广泛的实验中展示了卓越的性能和鲁棒性。预训练在PMC-OA数据集上模型在零样本分类、KNN分类、图像-文本检索、视觉问答VQA和多模态检索增强生成MM-RAG六项下游任务和14个数据集上均超越了CLIP、PMC-CLIP、CoCa等现有最先进方法。消融研究证实最优传输对比损失和自适应梯度平衡策略对性能提升至关重要。鲁棒性评估表明MIRAGE在不同噪声水平下始终优于CLIP且在训练过程中收敛更平稳不易过拟合噪声数据。在代价函数评估中基于最近邻文本的代价函数NN-T表现最佳。此外自适应梯度平衡策略有效稳定了噪声样本的距离防止模型过拟合。在最近邻搜索策略方面软NN搜索通常优于硬NN搜索。记忆库大小的最佳选择为65536。计算效率方面MIRAGE仅略微增加了GPU内存和训练时间推理成本与基线CLIP相同。跨数据集分析显示MIRAGE在更干净的PubMedVision数据集上表现更优并能更好地保持长尾类别分布降低赫林格距离减轻偏见。MIRAGE还展现了对多种视觉编码器如ViT、Swin Transformer、ConvNeXt等的普遍适用性并在对3D医学成像的探索性评估中超越了CoCa。可视化结果进一步验证了MIRAGE能有效识别FP和FN案例并在训练过程中从低级到高级语义进行最近邻匹配实现更精细的图像-文本相似度理解。Figure图07图1. PMC-OA数据集中代表性的假阳性FP和假阴性FN案例。图2. 使用DFN模型Fang et al., 2024对(a) ROCO-V2医学数据集和(b) COCO自然数据集中配对和未配对图像-标题对的相似度分数分布。图3. 提出的MIRAGE整体框架。在前向传播过程中记忆库为每张图像检索最近的文本嵌入以估计整个批次中的噪声水平。在反向传播过程中估计的噪声通过自适应梯度平衡策略整合到最优传输对比损失中。图4. 在30%图像-文本混洗训练时的归一化L2距离可视化(a) 每张图像与其配对文本之间的距离(b) 每张图像的最近邻NN文本与其配对文本之间的距离。图5. MIRAGE与最先进方法在各种任务上的性能比较分析。图6. MIRAGE和CLIP在噪声环境中的行为(a) 不同噪声水平下的验证对比准确率(b) 噪声水平η0.3时的训练准确率收敛模式。图7. 随机采样噪声图像-文本嵌入之间的归一化L2距离比较(a) 大的InfoNCE权重1.0(b) 小的InfoNCE权重0.01以及(c) 自适应梯度平衡。图8. 图像-配对文本相似度与图像-最近邻文本相似度在不同数据集上的散点图。噪声水平越高两种相似度之间的相关性越低。图9. 通过检索任务评估的MIMIC数据集中采样的类别分布图。从左到右依次为MIRAGE检索到的报告标签CLIP检索到的报告标签以及真实报告标签。图10. 基于在不同训练周期中匹配分数最高的前1%代表性样本最近邻匹配在训练过程中的演变。红色高亮显示的单词表示不匹配绿色高亮显示的单词表示一致匹配。图11. MIRAGE检测到的代表性假阳性FP和假阴性FN案例可视化其中S表示匹配分数。图12. CLIP和MIRAGE局部图像-文本相似度的比较可视化。标题中的关键词以红色高亮显示。

相关新闻

Excel跨表引用全攻略:从基础SUM到三维引用避坑指南

Excel跨表引用全攻略:从基础SUM到三维引用避坑指南

Excel跨表引用全攻略:从基础SUM到三维引用避坑指南 如果你经常需要把不同月份的数据汇总到一张表里,或者从十几个分公司的报表里提取关键指标,那你一定对Excel的跨表引用又爱又恨。爱的是,它确实能帮你把散落在各处的数据串联起来…

2026/5/17 11:17:32 阅读更多 →
2026年一体化文献阅读工具的选择指南:小绿鲸VS靠岸学术

2026年一体化文献阅读工具的选择指南:小绿鲸VS靠岸学术

📚TL;DR:还在为文献阅读效率不高、工具繁杂切换而头疼吗?你是不是也曾因为翻译不流畅导致理解偏差,浪费了宝贵的科研时间?这往往不是你的能力问题,而是没有选对“趁手”的工具。本文深度对比小绿鲸与靠岸学…

2026/7/2 19:48:55 阅读更多 →
Chord视频分析作品集:多个真实视频案例展示,见证AI的时空理解能力

Chord视频分析作品集:多个真实视频案例展示,见证AI的时空理解能力

Chord视频分析作品集:多个真实视频案例展示,见证AI的时空理解能力 1. 从静态到动态:AI如何“看懂”视频 我们每天都会刷到各种短视频,从萌宠搞笑到科普知识,从新闻现场到生活记录。作为人类,我们几乎能瞬…

2026/5/17 11:17:31 阅读更多 →

最新新闻

解锁NVIDIA显卡的色彩魔法:novideo_srgb让广色域显示器回归真实色彩

解锁NVIDIA显卡的色彩魔法:novideo_srgb让广色域显示器回归真实色彩

解锁NVIDIA显卡的色彩魔法:novideo_srgb让广色域显示器回归真实色彩 【免费下载链接】novideo_srgb Calibrate monitors to sRGB or other color spaces on NVIDIA GPUs, based on EDID data or ICC profiles 项目地址: https://gitcode.com/gh_mirrors/no/novide…

2026/7/3 17:48:03 阅读更多 →
HoRain云--Java序列化

HoRain云--Java序列化

🎬 HoRain云小助手:个人主页 🔥 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!…

2026/7/3 17:46:02 阅读更多 →
2026贵阳黄金回收哪家服务好?正规商家选择与避坑指南

2026贵阳黄金回收哪家服务好?正规商家选择与避坑指南

2026贵阳黄金回收哪家服务好?正规商家选择与避坑指南贵阳作为西南地区重要的消费城市,居民持有闲置贵金属、奢侈品的规模逐年增加,贵阳黄金回收也成为本地闲置资产流通的重要环节。2026年,不少居民在处置闲置黄金资产时&#xff0…

2026/7/3 17:46:02 阅读更多 →
HoRain云--Java发送邮件

HoRain云--Java发送邮件

🎬 HoRain云小助手:个人主页 🔥 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!…

2026/7/3 17:44:01 阅读更多 →
美团LongCat-2.0本地部署实战:国产ASIC万亿MoE模型3天完整实测

美团LongCat-2.0本地部署实战:国产ASIC万亿MoE模型3天完整实测

6月30号美团放出LongCat-2.0开源消息的当天,我就拉着机房里8张国产ASIC卡的小集群开始折腾。前后耗了整整3天,从驱动编译、权重分片到服务跑通压测,中间踩的坑够写半本踩坑手册。 很多人盯着1.6万亿参数、5万卡国产集群、SWE-bench Pro 59.5分…

2026/7/3 17:44:01 阅读更多 →
如何高效使用Adobe Illustrator自动化脚本:设计师必备的实用指南

如何高效使用Adobe Illustrator自动化脚本:设计师必备的实用指南

如何高效使用Adobe Illustrator自动化脚本:设计师必备的实用指南 【免费下载链接】illustrator-scripts Some powerfull JSX scripts for extending Adobe Illustrator 项目地址: https://gitcode.com/gh_mirrors/ill/illustrator-scripts Adobe Illustrator…

2026/7/3 17:44:01 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻