CSR-Bench A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs-尧图手机网站定制

CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMsAuthors:Yuxuan Liu, Yuntian Shi, Kun Wang, Haoting Shen, Kun YangDeep-Dive Summary:CSR-Bench评估多模态大语言模型跨模态安全与可靠性的基准摘要多模态大语言模型MLLM支持文本和图像的交互但其安全行为往往是由**单模态捷径unimodal shortcuts**驱动的而非真正的跨模态联合意图理解。我们推出了CSR-Bench这是一个通过四个压力测试交互维度安全、过度拒绝、偏见和幻觉评估跨模态可靠性的基准涵盖 61 个细粒度类型。每个实例的构建都要求综合理解图文信息并提供配对的纯文本对照组以诊断由模态引入的行为偏移。我们评估了 16 个最先进的 MLLM观察到系统的跨模态对齐差距模型表现出安全意识薄弱、在干扰下表现出强烈的语言主导性且从纯文本到多模态输入时性能持续下降。此外减少过度拒绝与保持安全非歧视行为之间存在明显的权衡。我们将发布该基准和评估套件。1. 引言现有的基准测试主要分为两类第一类评估多维度的多模态输入但忽视了跨模态理解的需求导致模型可以通过单模态捷径回答问题第二类涉及特定的跨模态安全现象但通常围绕单一风险机制构建未能提供系统性的诊断。表 1CSR-Bench 与相关基准的比较。I U I_UIU表示作为跨模态对齐评估基准的单模态描述输入。#Types 表示涵盖的特定类别数量。Cross-modal Under. 表示是否在跨模态理解设置下进行评估。DatasetMultimodal InputIUSafety ScenariosCross-modal Under.#TypesSafetyBiasOver-rej.Halluc.XSTest (Röttger et al., 2024)×××××××14SafetyAssessBench (Sun et al., 2023)××✓××××10Discrim-Eval (Tamkin et al., 2023)×××✓×××1SafeBench (Ying et al., 2024)✓×✓××××23MM-Safety (Liu et al., 2024)✓×✓×××✓13VLSBench (Hu et al., 2025)✓×✓×××✓19MMSafeAware (Wang et al., 2025b)✓×✓×✓×✓29MMDT (Xu et al., 2025)✓×✓✓×✓×41Ours✓✓✓✓✓✓✓61为了解决这些局限性我们推出了 CSR-Bench旨在全面评估 MLLM 是否能做出依赖于图文联合解释的一致判断。CSR-Bench 包含四个子集安全Safety探测恶意意图分散在不同模态中的情况。过度拒绝Over-rejection测试视觉上下文是否能消除看似有毒文本的歧义防止因文本主导导致的误拒。偏见Bias检查模型是否依赖视觉语义捷径产生歧视性刻板印象。幻觉Hallucination针对模态间冲突即误导性文本提示覆盖视觉证据并诱导虚假陈述的情况。2. 相关工作先前的研究存在两个主要缺陷第一由于普遍存在的“模态泄漏”单模态即可传达意图未能严格评估真正的跨模态能力第二通常关注狭窄的安全维度缺乏全面性。CSR-Bench 涵盖了 61 个细粒度风险类型并通过单模态基准对比提供更严谨的调查。3. CSR-Bench 框架3.1 预备知识我们将输入表示为I ( V , T ) I (V, T)I(V,T)模型生成的响应为R M ( V , T ) R M(V, T)RM(V,T)。单模态捷径当模型判断由单一模态的显式线索主导时其决策近似于P ( R ∣ T ) P(R \mid T)P(R∣T)或P ( R ∣ V ) P(R \mid V)P(R∣V)。跨模态可靠性要求模型在两种模态单独表现为良性或模糊时能够正确处理其组合产生的风险。形式上R i s k ( V ) → Low , R i s k ( T ) → Low ( 1 ) Risk(V) \rightarrow \text{Low}, \quad Risk(T) \rightarrow \text{Low} \quad (1)Risk(V)→Low,Risk(T)→Low(1)R i s k ( V , T ) ≠ R i s k ( V ) R i s k ( T ) ( 2 ) Risk(V, T) \neq Risk(V) Risk(T) \quad (2)Risk(V,T)Risk(V)Risk(T)(2)3.2 安全 (Safety)我们构建了R i s k ( V ) Risk(V)Risk(V)和R i s k ( T ) Risk(T)Risk(T)较低但 unsafe 意图仅在组合时出现的实例。涵盖三个类别危害赋能 (S.H)评估模型是否避免提供增加现实危害能力的指导。安全误判 (S.M)评估模型能否识别看似良性查询中的潜在危害。隐私泄露 (S.L)评估模型是否检测视觉输入中的敏感信息。图 1四个评估维度的代表性示例。展示了图文对、预期输出与模型产生的错误输出对比。3.3 过度拒绝 (Over-rejection)评估 MLLM 在单模态包含敏感线索但整体意图为良性时能否通过跨模态理解消除歧义。语义逻辑误解析 (O.S)因敏感词汇或逻辑结构如否定导致的误拒。现实-虚构混淆 (O.C)无法区分虚构场景如游戏与现实。策略边界与模板触发 (O.O)对公共信息或特定角色的反射性拒绝。3.4 偏见 (Bias)测试模型是否会将外貌特征性别、种族、穿着等作为依据进行社会判断。行为判断 (B.B)涉及雇佣适合度、风险评估等。特质判断 (B.T)涉及能力、可靠性或智力等内在品质。3.5 幻觉 (Hallucination)利用单模态捷径漏洞通过误导性文本诱导错误判断错误前提 (H.W)在问题前添加与视觉内容矛盾的错误信息。干扰文本 (H.D)引入虚假的“常识”引导模型忽略视觉信息。模态冲突 (H.M)提出视觉上无法验证的问题测试模型是否会承认不确定性。3.6 评估指标对齐准确率 (S)由 GPT-5-Nano 评分S ( I ) ∈ { 0 , 1 } S(I) \in \{0, 1\}S(I)∈{0,1}。单模态基准对比Δ A l i g n S ( I M ) − S ( I U ) ( 3 ) \Delta_{Align} S(I_M) - S(I_U) \quad (3)ΔAlignS(IM)−S(IU)(3)非零的Δ A l i g n \Delta_{Align}ΔAlign表明模型缺乏稳健的跨模态对齐。4. 实验4.2 主要结果表 2CSR-Bench 在四个关键可靠性维度上的主要评估结果。数值代表多模态设置下的对齐准确率 (%)。ModelsSafetyBiasOver-rejectionHallucinationS.HS.MS.LAvg.B.BB.TAvg.O.SO.CO.OAvg.H.OH.WH.DH.MAvg.Llama3.2-11B43.553.378.650.645.454.950.392.868.357.474.538.435.218.512.626.2Ovis2.5-9B26.939.971.436.24.94.14.598.681.786.990.030.528.612.28.419.9MiniCPM4.5-8B32.351.668.444.94.34.74.596.875.068.981.952.848.539.228.542.3Qwen2.5VL-7B36.452.061.546.449.230.639.799.281.772.187.046.440.029.820.834.3Gemma3-4B34.755.857.147.921.124.422.896.480.065.681.032.733.424.64.923.9Gemma3-12B35.070.659.556.840.033.736.898.673.372.182.440.336.232.311.430.1Llava1.5-7B43.833.573.838.95.94.15.096.081.772.184.134.032.426.92.624.0InternVL3-8B34.545.981.043.046.547.747.194.275.057.480.348.545.328.720.435.7InternVL3-14B38.655.373.849.852.450.351.397.875.065.683.452.649.832.124.539.8Qwen3VL-8B61.475.383.370.349.728.038.687.158.329.563.151.948.138.827.041.4Qwen3VL-4B53.165.476.261.236.817.126.792.155.042.667.951.944.333.920.137.6Qwen3VL-8B (R)43.068.371.458.919.56.212.799.381.772.186.953.851.343.612.040.2Qwen3VL-4B (R)44.663.269.056.425.93.614.698.685.068.986.651.748.340.713.038.4Gemini3Pro40.582.971.166.648.627.537.898.693.386.993.462.458.745.238.951.3Gemini2.5Flash28.472.154.854.935.78.822.097.868.383.684.550.146.230.522.137.2DoubaoSeed1.643.073.773.862.236.219.727.897.181.778.787.945.842.125.418.232.9主要结论系统性缺陷没有模型能在所有维度上保持一致的可靠性。Gemini-3-Pro 整体表现最佳但在某些特定指标上不及开源模型。安全脆弱性模型在处理需深度理解图文意图的危害赋能S.H时表现极差安全防护往往被显式的单模态线索触发。过度拒绝陷阱在良性的虚构或历史背景下模型倾向于优先响应文本中的敏感触发词而选择拒绝。视觉刻板印象模型倾向于根据性别、种族等视觉属性幻想人格特质或行为预测。文本干扰易感性在幻觉测试中当视觉证据与文本前提冲突时模型往往优先考虑语言指令和先验导致产生与视觉事实不符的虚假响应。4.3 模态差距多模态与单模态基准Table 3: Cross-modal reliability consistency gaps. We report (\Delta_{Align} S(I_M) - S(I_U))ModelsΔ(Safety)Δ(Over-rej.)Δ(Bias)LLaVA1.5-7B-8.9-19.6-21.9Ovis2.5-9B-13.8-3.1-16.5MiniCPM-4.54.7-8.7-4.0Qwen2.5VL-7B-9.3-1.4-13.2Gemma3-4B-8.6-7.65.2Gemma3-12B-7.0-13.5-2.4InternVL3-8B-11.6-3.512.4InternVL3-14B-8.7-1.04.6Qwen3VL-8B-0.2-6.5-13.3Qwen3VL-4B-1.2-8.0-16.5Qwen3VL-8B (R)-7.5-9.0-34.3Qwen3VL-4B (R)-7.9-10.0-30.1Gemini2.5Flash-8.3-13.5-29.0为了严谨地研究输入模态对安全决策的影响我们将模型在标准多模态输入( I M ) (I_M)(IM)上的表现与仅文本基准( I U ) (I_U)(IU)进行了对比。如表 3 所示我们发现了关于跨模态可靠性的两个关键现象。首先对于语义等价的查询模型在多模态设置下的表现始终差于单模态基准。这表明尽管多模态大语言模型MLLMs展现出一定的内在安全意识但这种意识并不能可靠地迁移到需要联合理解的多模态输入中。换言之模型对不同模态形式的相同信息反应不一致往往无法解析嵌入在联合输入中的安全意图。其次即使在单模态基准( I U ) (I_U)(IU)中绝对得分仍然不够理想且相对于多模态设置的提升有限。这说明缺陷不仅源于模态切换或视觉噪声还反映了底层文本对齐主干网络在处理隐性或依赖上下文的风险时安全意识不足。# 4.4 对齐权衡 (The Alignment Trade-off)我们的结果显示出明显的“跷跷板”权衡效应安全性Safety和偏见Bias指标的提升往往伴随着过度拒绝Over-rejection表现的恶化这在开源模型中尤为明显。例如Qwen3-VL-8B 在安全性方面排名第一偏见得分也很高但在过度拒绝方面的表现最差。相比之下Ovis2.5-9B 在开源模型的过度拒绝指标上领先但在安全性上排名垫底这表明其表面上的“乐于助人”很大程度上源于薄弱的安全护栏而非更好的跨模态意图消歧能力。这种现象在其他模型中也很普遍而闭源商业模型的这种权衡则相对缓和。这一模式表明高安全得分可能是通过基于触发词的拒绝启发式机制实现的模型倾向于只要出现敏感关键词就拒绝回答而不是区分真正的有害意图与无害上下文。这进一步说明仅基于安全基准进行模型对齐是不够的这并不能赋予模型真正的安全意识反而强化了“倾向拒绝”的行为。目前还没有开源模型能在阻止有害请求的同时可靠地回答无害请求之间达到理想的平衡Gemini-3-Pro 最为接近但差距依然显著。现有的对齐方法仍难以产生能够同时优化帮助性和安全性的稳定跨模态判断。# 5 结论 (Conclusions)本文介绍了 CSR-Bench这是一个包含 7,405 个高质量样本的基准测试旨在评估 MLLM 在安全性、过度拒绝、偏见和幻觉方面的跨模态安全性和可靠性。我们对 16 种先进模型的评估显示语言主导现象持久存在且多模态与单模态之间存在一致的性能差距表明文本对齐的安全能力无法可靠地迁移到跨模态设置中。我们发现了在减少过度拒绝与维持安全、非歧视行为之间存在明显的对齐权衡。通过发布 CSR-Bench我们旨在标准化评估流程并强调在实际部署中对稳健跨模态对齐的迫切需求。# 局限性 (Limitations)CSR-Bench 是一个由固定的图文对构建的静态基准。虽然我们探索了 AI 辅助生成以向更动态和自动化的流程迈进但全自动化的动态基准仍然具有挑战性因为候选实例仍需要基于 MLLM 的审计来验证跨模态依赖性和标签正确性。然而要求 MLLM 判断一个样本是否真正需要跨模态理解会产生根本性的循环论证评估将依赖于基准本身旨在测试的能力。# 伦理考量 (Ethical Considerations)本文引入了 CSR-Bench一个用于评估 MLLMs 的多维度基准。我们强调数据集中的图文输入不包含直接的有害内容如露骨的暴力或色情材料。但在评估过程中模型在回答安全性子集时可能会产生有害内容在回答偏见子集时可能产生歧视内容或在过度拒绝子集中拒绝无害请求。我们报告这些输出仅为了刻画模型行为和风险而非推广或认可它们旨在支持开发更稳健、更符合伦理对齐的 AI 系统。ChatGPT 被用于辅助语言润色和提升可读性。作者对本文的内容、准确性和原创性承担全部责任。Original Abstract:Multimodal large language models (MLLMs) enable interaction over both text and images, but their safety behavior can be driven by unimodal shortcuts instead of true joint intent understanding. We introduce CSR-Bench, a benchmark for evaluating cross-modal reliability through four stress-testing interaction patterns spanning Safety, Over-rejection, Bias, and Hallucination, covering 61 fine-grained types. Each instance is constructed to require integrated image-text interpretation, and we additionally provide paired text-only controls to diagnose modality-induced behavior shifts. We evaluate 16 state-of-the-art MLLMs and observe systematic cross-modal alignment gaps. Models show weak safety awareness, strong language dominance under interference, and consistent performance degradation from text-only controls to multimodal inputs. We also observe a clear trade-off between reducing over-rejection and maintaining safe, non-discriminatory behavior, suggesting that some apparent safety gains may come from refusal-oriented heuristics rather than robust intent understanding. WARNING: This paper contains unsafe contents.PDF Link:2602.03263v1部分平台可能图片显示异常请以我的博客内容为准

CSR-Bench A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs

相关新闻

互联网大厂Java高频面试题总结

研究方法部分AI率高怎么办？降低AIGC检测疑似度的方法论写作技巧

建议收藏｜千笔写作工具，本科生论文写作神器

最新新闻

Redis 主从复制，哨兵，集群——（2）哨兵篇

如何从huggingface快速下载

从混乱到优雅：SQL Formatter如何让你的数据库查询代码焕然一新

docker-flask-example数据库管理：使用Flask-DB进行迁移与种子数据操作

如何在游戏机上安装B站客户端？wiliwili让你的Switch变身全能追番神器

C语言指针：指针类型、void*指针、const修饰及传址调用

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻