【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR
note论文证明了 DeepSeek-OCR 的强性能很大程度上来自语言模型的“语言先验”而非真正的深度视觉理解并指出这种依赖使得它在语义扰动或超长上下文下表现脆弱。文章目录note一、Visual Merit or Linguistic Crutch?二、实验RQ1句子级语义破坏如何影响DeepSeek-OCRRQ2单词级语义破坏如何影响DeepSeek-OCRRQ3语言先验依赖在不同VLM视觉语言模型和OCR架构中如何体现RQ4DeepSeek-OCR在QA文本问答和VQA视觉问答任务中的表现如何RQ5光学压缩的上下文长度限制是什么Reference一、Visual Merit or Linguistic Crutch?《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》https://arxiv.org/pdf/2601.03714相关实验数据在https://anonymous.4open.science/r/ACL26-84B5/Readme.md“依赖语言先验”并非DeepSeek-OCR独有的问题而是“视觉编码LLM解码”这类VL/OCR模型的架构共性Qwen2.5-VL、HunyuanOCR、Nougat等所有端到端模型的通病核心根源就是“视觉对齐LLM做解码”的设计逻辑。这类模型的核心设计是“视觉提取特征→LLM负责文本生成”而LLM的本质是基于语言统计规律建模这就注定了LLM的解码逻辑优先依赖已知语言模式词汇、句法、语义而非纯粹的视觉信号视觉特征只是“触发信号”当视觉信息模糊高压缩、字符紊乱时LLM会自然调用自身的语言先验“补全”形成所谓的“幻觉”。从另一个角度上看这种工作价值其实不在于否定单个模型而在于量化了这种依赖的严重程度无先验时精度暴跌60%-80%并点出了架构层面的trade-off追求token压缩效率必然以牺牲视觉鲁棒性为代价现有OCR/VLM评估多聚焦自然文本准确率通过“语义破坏”“零语言先验”“长文本压力测试”等方法是一种“模型真实视觉能力”的评估方式。二、实验论文聚焦在一个核心评估问题DeepSeek-OCR 的高性能是来自真实的视觉理解能力还是模型强大的语言先验在“脑补”文本RQ1句子级语义破坏如何影响DeepSeek-OCR实验设计上基准数据采用Fox基准112页英文文档token长度600-2500将真实文本渲染为图像text2png作为干净基准。进行语义破坏替换关键名词、动词和短语为“视觉相似但语义荒谬”的表达如“butterfly”→“breadflutter”保留字符形状和布局仅消除语义连贯性渲染为扭曲图像distort。在DeepSeek-OCR的Tiny高压缩、Small、Base低压缩三种模式下以OCR精度为指标对比text2png与distort的性能。结论是句子级语言先验是高压缩模式下的“语言拐杖”——视觉token稀缺时模型依赖全局语义上下文重构文本视觉token充足时Base模式对语言先验的依赖显著降低。RQ2单词级语义破坏如何影响DeepSeek-OCR实验设计上基准数据延续Fox基准设计3类单词级扰动策略Swap5%/10%单词随机交换2个字母轻微拼写错误语言先验可修复Shuffle5%/10%单词完全打乱字母顺序破坏单词结构保留字符分布Zero-Prior生成无词汇/句法结构的随机字符序列完全无语言先验。评估同样在三种模式下测试OCR精度结果是轻微扰动已导致性能下降无语言先验时性能崩溃模型严重依赖词汇级语言先验所谓“高压缩精度”本质是语言幻觉基于先验猜测而非真实视觉识别能力。RQ3语言先验依赖在不同VLM视觉语言模型和OCR架构中如何体现实验设计上对比13种不同架构的VLM/OCR模型参数125M-72B包括DeepSeek-OCRTiny/Small、端到端模型HunyuanOCR、Nougat、Qwen2.5-VL等、传统流水线模型PaddleOCR-v5、MinerU测试场景包括自然文本有语言先验与Zero-Prior随机文本无语言先验对比精度变化。结果是端到端模型普遍依赖语言先验传统流水线模型鲁棒性强语言先验依赖是端到端架构的共性问题传统流水线模型在无语言先验场景下更可靠。RQ4DeepSeek-OCR在QA文本问答和VQA视觉问答任务中的表现如何实验设计上扩展Fox基准为每页文档标注3个事实性问答对。对比模型包括VLM基线Qwen2.5VL-3B/7B、Qwen3VL-4B/8B等QA基线Qwen2.5-3B、Llama3.2-3B等与DeepSeek-OCR参数规模相当。测试DeepSeek-OCRVQA模式、直接输入文本的LLMQA模式的问答准确率。结果是VQA性能接近随机水平标准LLM直接处理文本时QA准确率超90%。光学压缩破坏了语义结构模型仅能重构表面文本无法保留下游推理所需的深层语义关系且自身推理能力因过度优化文本重构而受损。RQ5光学压缩的上下文长度限制是什么实验设计上长文本数据集使用GPT-5.1生成5个5k词故事重复至20,000token按500token步长分割为40个片段500-20,000token渲染为文档图像在DeepSeek-OCR的Tiny/Small/Base/Large四种模式下测试不同token长度的OCR精度。结果是光学压缩存在信息论瓶颈固定网格视觉编码器的信息承载能力有限超过8.5ktoken后信噪比低于解码阈值反而加剧长上下文瓶颈与设计目标相悖。在 DeepSeek-OCR 中随着需要还原的输入文本Input Text变长、对应的解码 token 序列变长模型的输出质量会系统性退化说明其高性能并非来自稳定的视觉识别而是越来越依赖语言模型的语言先验。Reference[1] Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR

相关新闻

Go进阶之反射

Go进阶之反射

2026/5/17 0:18:02 阅读更多 →
FPGA FFT缩放因子配置全解析

FPGA FFT缩放因子配置全解析

2026/7/2 20:05:51 阅读更多 →
线程并行控制CompletableFuture

线程并行控制CompletableFuture

2026/5/17 0:18:03 阅读更多 →

最新新闻

STM32F745ZG与25CSM04 EEPROM的高效数据存储方案

STM32F745ZG与25CSM04 EEPROM的高效数据存储方案

1. 项目背景与核心需求 在嵌入式系统开发中,非易失性存储器的选择往往决定了数据管理的效率和可靠性。25CSM04作为一款4Mb容量的SPI接口EEPROM,其独特的安全特性和灵活的写保护机制,使其成为需要精确数据检索场景的理想选择。STM32F745ZG则是…

2026/7/3 14:14:46 阅读更多 →
plymouth-theme-kiran自定义教程:教你修改背景色与动画速度 [特殊字符]

plymouth-theme-kiran自定义教程:教你修改背景色与动画速度 [特殊字符]

plymouth-theme-kiran自定义教程:教你修改背景色与动画速度 🎨 【免费下载链接】plymouth-theme-kiran Plymouth theme for KylinSec OS 项目地址: https://gitcode.com/openeuler/plymouth-theme-kiran 前往项目官网免费下载:https:/…

2026/7/3 14:12:46 阅读更多 →
Kiran-Screensaver安全特性解析:保护Linux桌面隐私的完整指南

Kiran-Screensaver安全特性解析:保护Linux桌面隐私的完整指南

Kiran-Screensaver安全特性解析:保护Linux桌面隐私的完整指南 【免费下载链接】kiran-screensaver This program provides screensaver backend. 项目地址: https://gitcode.com/openeuler/kiran-screensaver 前往项目官网免费下载:https://ar.op…

2026/7/3 14:12:46 阅读更多 →
rhostname源码探秘:用Rust实现系统调用的优雅方式

rhostname源码探秘:用Rust实现系统调用的优雅方式

rhostname源码探秘:用Rust实现系统调用的优雅方式 【免费下载链接】rhostname A tool used to perform a series of operations on usernames. It is a reconstruction of the hostname command using Rust. 项目地址: https://gitcode.com/openeuler/rhostname …

2026/7/3 14:10:44 阅读更多 →
GZ3钢三柱暖气片:家用工程怎么选才更耐用、散热更好?

GZ3钢三柱暖气片:家用工程怎么选才更耐用、散热更好?

GZ3-1.2/7-10、GZ3-1.2/6-10、GZ3-1.2/5-10钢三柱暖气片结构成熟、散热稳定、承压可靠、防腐性强,是集中供暖、小区住宅、学校、厂房最常用的经典款,不同高度适配不同空间,安装简单、性价比高、使用寿命长。Steel three-column radiators fea…

2026/7/3 14:08:44 阅读更多 →
多功能采集卡:16路16位500ksps ADC(可测电流)、16路可配置DIO、2路DA、2路DDS输出、2路计数测频、2路PWM多功能采集卡

多功能采集卡:16路16位500ksps ADC(可测电流)、16路可配置DIO、2路DA、2路DDS输出、2路计数测频、2路PWM多功能采集卡

16路高速ADDIODADDSPWM计数测频一体化多功能采集卡解决方案一、方案概述在工业自动化测试、嵌入式硬件标定、动态信号测控、设备性能检测、闭环控制系统开发等场景中,普遍存在多通道高速信号采集、多路逻辑控制、高精度模拟输出、动态信号发生、脉冲时序测控的复合型…

2026/7/3 14:08:44 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻