文章Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning代码暂无单位厦门大学、凯斯西储大学一、问题背景医学影像AI的两大核心痛点当下医学影像分析中研究人员常用主动学习AL减少标注成本——让AI自主挑选最有价值的未标注样本请医生标注最大化模型性能。但这一方法和配套的视觉语言模型VLMs却存在两个致命问题冷启动难题初期标注数据极少时AI的预测结果不可靠选出来的样本没价值直接浪费医生的标注精力模型过度自信VLMs虽能靠图文匹配实现零样本/少样本预测解决冷启动但它会把“图文相似度”直接当成“判断准确率”用固定公式转换成高概率结果哪怕判断错误、证据不足也极度自信。这种盲目自信会让AI挑到无意义的样本彻底浪费标注预算缺乏可解释性现有方法只能给出“样本不确定”的模糊评分却没法说清不确定的原因——是没见过这类病例还是病例本身特征模糊难区分医生无法信任AI的样本选择临床落地受阻。简言之现有技术要么选不准样本要么选了样本也说不清楚原因医学影像标注的“贵”和“慢”问题始终没解决。二、方法创新SaE框架——给AI装校准器导航仪精准又理性针对上述问题研究团队提出Similarity-as-Evidence (SaE)框架核心思路是将VLMs的图文相似度转化为可量化的“证据”让AI告别盲目自信同时分阶段精准挑选标注样本还能给医生清晰的选择理由。整个框架的创新点集中在三方面1. 医学专业加持PubMed增强提示让AI看懂专业影像特征VLMs原本仅靠简单文字如“脑肿瘤影像”匹配图片容易出现特征匹配偏差。SaE从医学权威数据库PubMed中检索各病症的专业影像学描述如“胶质瘤在MRI中呈不规则肿块伴环形强化”为每个病症生成专业提示词让AI能精准识别医学影像的核心特征从源头减少判断偏差。2. 校准过度自信相似度证据头SEH把“相似度”变成“可量化证据”设计专属的相似度证据头SEH放弃传统的固定公式转换将VLMs输出的图文相似度映射为能参数化狄利克雷分布的证据值并把模型的“不确定性”拆解为两个可解释的指标空度Vacuity代表“证据不足”比如AI遇到罕见病、从未见过的病例没有足够知识支撑判断不和谐度Dissonance代表“证据冲突”比如一张影像同时具备肺炎和肺水肿的特征AI难以区分。 这一设计让AI不再盲目下结论还能清晰说明“没把握的原因”实现可解释性。3. 分阶段选样双因素获取策略让标注预算花在刀刃上基于“空度”和“不和谐度”设计动态双因素样本选择策略让AI根据学习阶段精准挑样完全贴合临床学习逻辑学习初期优先挑选高空度样本罕见病、未见过的病例快速补全AI的知识缺口解决冷启动问题学习后期优先挑选高不和谐度样本特征模糊、难以区分的病例帮AI细化决策边界让模型越学越精准。三、实验结果20%标注预算拿下10大数据集SOTA研究团队在涵盖9个器官的10个公共医学影像数据集皮肤、结肠、视网膜、脑部、肺部等上开展实验设置20%的标注预算仅让医生标注1/5的样本验证SaE框架的效果核心结果亮眼准确率一骑绝尘SaE实现82.57%的宏平均准确率远超当前主流的VLM-based主动学习方法比表现最好的基线模型MedCoOpBADGE高出4.82%且在10个数据集上均排名第一其中视网膜、结肠、乳腺影像数据集的准确率提升尤为显著校准效果优异在代表性的脑肿瘤MRIBTMRI数据集上SaE的负对数似然NLL仅为0.425置信度与实际准确率高度匹配彻底解决了VLMs的过度自信问题冷启动效率高仅用60%的标注预算3轮学习SaE就能达到最终准确率的96.7%模型训练稳定性远超基线方法完美解决主动学习的冷启动难题可解释性落地通过Grad-CAM可视化验证SaE的注意力能精准聚焦在影像的病变区域而传统方法常关注无关背景证明SaE的判断基于真实临床特征而非虚假关联。四、优势与局限核心优势标注效率高仅需少量标注预算就能实现SOTA效果大幅降低医学影像的标注成本贴合临床数据稀缺的实际场景模型更理性从根源上校准VLMs的过度自信实现不确定性的量化与拆解让AI的判断更可靠强可解释性能清晰说明样本选择的原因空度/不和谐度且注意力聚焦病变区域医生可信任、易落地泛化性好在9个器官、10类医学影像数据集上均表现优异适配不同类型的医学影像分析任务。现存局限依赖专业医学资源框架需要从PubMed检索专业影像学描述且部分提示词需放射科医生验证对医学专业资源有一定依赖超参数需微调框架中的损失权重、上下文长度等超参数虽在实验中表现出鲁棒性但针对特定小众病症的影像仍需少量微调以达到最优效果暂未适配全切片影像实验主要针对常规医学影像对于病理全切片这类高维度、大尺寸的影像尚未验证效果后续需进一步拓展。五、一句话总结SaE框架通过将视觉语言模型的图文相似度转化为可量化的狄利克雷证据拆解并利用不确定性实现分阶段的可解释样本选择在仅20%标注预算下实现了多器官医学影像主动学习的SOTA效果既解决了冷启动和模型过度自信问题又大幅提升了标注效率为医学影像AI的临床落地提供了高效、可靠的新方案。