DeepSeek-OCR 2：视觉因果流模型官方论文解读总结-尧图手机网站定制

前言这几日在研究 DeepSeek-OCR 2 的内容发布的论文也看完了正好写一写。原文ppt我也上传资源并绑定到本文了。一、研究背景与核心动机传统视觉语言模型VLMs处理视觉 tokens 时均采用 “左上到右下” 的刚性光栅扫描顺序与固定位置编码这与人类视觉系统的 “语义驱动灵活扫描模式” 存在本质矛盾 —— 人类会根据图像内在逻辑如螺旋结构的因果关联动态调整视觉焦点而非依赖空间坐标。对于复杂布局的文档含公式、表格、非线性文本排列传统模型的刚性顺序会引入无关归纳偏置忽略语义关联。因此研究团队提出DeepSeek-OCR 2核心目标是通过新型编码器设计实现更贴近人类视觉认知的 “视觉因果流”探索 “通过两级级联 1D 因果推理实现 2D 图像理解” 的新范式。二、核心创新DeepEncoder V2 架构DeepEncoder V2 是 DeepSeek-OCR 2 的核心突破旨在解决传统编码器的刚性顺序问题其关键设计包含 4 大模块1. 视觉 TokenizerVision Tokenizer架构组成基于 80M 参数的 SAM-base 模型 2 个卷积层将最终卷积层输出维度从 DeepEncoder 的 1024 降至 896以适配后续流程。核心作用通过窗口注意力实现 16 倍 Token 压缩在减少计算成本与激活内存的同时保持与 LLM 文本嵌入约 100M 参数相当的参数量级支持灵活替换为简单补丁嵌入。2. 语言模型作为视觉编码器LM as Vision Encoder架构革新替换 DeepEncoder 中的 CLIP ViT 模块采用 Qwen2-0.5B500M 参数作为 LLM 风格编码器避免额外计算开销。双流注意力机制视觉 Token采用双向注意力保留 CLIP 的全局建模能力因果流查询Causal Flow Queries采用因果注意力每个查询可关注所有视觉 Token 与之前的查询实现语义驱动的 Token 重排序关键设计因果查询与视觉 Token 数量相等仅将编码器输出的 “因果查询部分” 输入 LLM 解码器构建 “编码器重排序→解码器自回归推理” 的两级因果推理。3. 因果流查询Causal Flow Query数量计算基于图像分辨率公式为 162×16W×HW 为宽度H 为高度多裁剪策略全局视图1024×1024 分辨率固定 256 个查询嵌入queryglobal局部视图768×768 分辨率固定 144 个查询嵌入querylocal支持 0-6 次裁剪Token 范围最终输入 LLM 的 Token 数为 k×144256k 为局部裁剪次数范围 256-1120匹配 Gemini-3 Pro 的视觉 Token 上限且低于 DeepSeek-OCR 的 1156。4. 注意力掩码Attention Mask掩码结构由两部分拼接而成公式为左侧视觉 Token 区1m×m 矩阵支持双向注意力类似 ViT实现 Token 间全可见右侧因果查询区下三角矩阵LowerTri (n)支持因果注意力类似 LLM 解码器仅允许当前查询关注之前的查询。三、整体模型架构与训练流程1. 整体架构DeepSeek-OCR 2 继承 DeepSeek-OCR 的 “编码器 - 解码器” 结构核心差异在编码器DeepEncoder V2解码器沿用 3B 参数的 MoE 结构约 500M 激活参数模型前向传播公式为符号定义I输入图像、E视觉 Tokenizer、Q0可学习因果查询、TLL 层带掩码注意力的 Transformer、πQ提取最后 n 个 Token 的投影算子、D语言解码器、O输出 logits。2. 训练流程三阶段训练阶段核心目标关键设置阶段 1DeepEncoder V2 预训练让视觉 Tokenizer 与 LLM 风格编码器掌握特征提取、Token 压缩与重排序能力采用语言建模目标next token prediction使用 768×768/1024×1024 双数据加载器AdamW 优化器学习率 1e-4→1e-6160 张 A100 GPU 训练 40k 迭代约 1 亿图文对阶段 2查询增强强化编码器的 Token 重排序能力提升视觉知识压缩效果冻结视觉 Tokenizer联合优化 LLM 编码器与解码器采用 4 阶段流水线并行160 张 GPU40GB / 卡全局 batch size 1280训练 15k 迭代学习率 5e-5→1e-6阶段 3LLM 持续训练加速训练让 LLM 更好理解重排序后的视觉 Token冻结 DeepEncoder V2 所有参数仅更新 LLM 参数学习率 1e-6→5e-8训练 20k 迭代3. 数据设置数据源与 DeepSeek-OCR 一致包含 OCR 1.0、OCR 2.0占 80%及通用视觉数据数据优化1OCR 1.0 按 “文本公式表格 3:1:1” 平衡采样2合并语义相似的布局类别如 “图题” 与 “图标题” 统一。四、实验结果与性能分析1. 基准测试OmniDocBench v1.5OmniDocBench v1.5 包含 1355 页文档9 大类中英双语是验证模型性能的核心基准DeepSeek-OCR 2 的关键结果如下1综合性能对比表 1指标DeepSeek-OCR基线DeepSeek-OCR 2提升幅度整体准确率Overall87.36%91.09%3.73%文本编辑距离Text ED0.0730.048-0.025越低越好公式 CDMFormula CDM84.14%90.31%6.17%表格 TEDsTable TEDs85.25%87.75%2.5%阅读顺序 EDR-order ED0.0850.057-0.028越低越好最大视觉 Token 数V-token_max11561120更低更高效关键结论在视觉 Token 上限更低的情况下DeepSeek-OCR 2 全面超越基线尤其在公式识别与阅读顺序推理上提升显著验证了视觉因果流的有效性。2文档元素编辑距离对比表 2模型V-token_max文本 ED公式 ED表格 ED阅读顺序 ED整体 EDGemini-3 Pro1120----0.115DeepSeek-OCR11560.0730.2360.1230.0850.129DeepSeek-OCR 211200.0480.1980.0960.0570.100关键结论在相同 Token 预算1120下DeepSeek-OCR 2 的整体 ED0.100低于 Gemini-3 Pro0.115且所有元素 ED 均优于基线证明其在 Token 压缩效率与性能间的平衡优势。2. 改进空间表 3DeepSeek-OCR 2 在 9 类文档中的表现存在差异主要改进点弱点报纸类文本 ED0.139高于基线0.131原因包括1视觉 Token 上限较低影响文本密集型报纸识别2训练数据不足仅 250k 报纸样本优势阅读顺序 ED 在所有文档类型中均优于基线进一步验证因果流编码器的有效性。3. 实际应用性能表 4针对在线 OCR 服务与 PDF 批量处理两大生产场景以 “重复率” 为核心指标模型在线用户日志图像重复率PDF 预训练数据重复率DeepSeek-OCR6.25%3.69%DeepSeek-OCR 24.17%↓2.08%2.88%↓0.81%关键结论DeepSeek-OCR 2 的实际应用稳定性显著提升重复率降低证明其逻辑视觉理解能力的实用性。五、讨论与未来方向1. 迈向真正的 2D 推理现有进展DeepSeek-OCR 2 提出 “编码器阅读逻辑推理解码器视觉任务推理” 的两级 1D 因果推理范式为 2D 理解提供新思路未来方向需增加更长的因果流 Token支持视觉内容的多轮重检查与多跳重排序并扩展至通用视觉推理任务。2. 迈向原生多模态核心潜力DeepEncoder V2 的 LLM 风格架构可通过 “模态专属可学习查询”实现多模态统一编码文本压缩、语音特征提取、视觉重排序共享Wk、Wv投影、注意力机制与 FFN未来方向探索更多模态如语音、视频的集成推动原生多模态模型发展。六、核心结论架构突破DeepEncoder V2 通过 “LLM 风格编码器双流注意力因果流查询”实现语义驱动的视觉 Token 重排序解决传统模型的刚性顺序问题性能与效率平衡DeepSeek-OCR 2 在保持高 Token 压缩率256-1120与解码效率的同时在 OmniDocBench v1.5 上实现 3.73% 的整体准确率提升实际应用重复率显著降低范式价值验证了 “通过两级 1D 因果推理实现 2D 理解” 的可行性为 VLMs 的编码器设计提供新方向且具备扩展至多模态的潜力。附录代码与模型获取模型代码与权重已开源地址deepseek-ai/DeepSeek-OCR-2: Visual Causal Flow论文地址https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdfEND如果觉得这份基础知识点总结清晰别忘了动动小手点个赞再关注一下呀后续还会分享更多有关开发问题的干货技巧同时一起解锁更多好用的功能少踩坑多提效你的支持就是我更新的最大动力咱们下次分享再见呀

DeepSeek-OCR 2：视觉因果流模型官方论文解读总结

相关新闻

中国人民大学的研究突破：让AI思考过程更快更省的神奇方法

如何通过API接口获取Target平台的目标详情数据

从架构设计到实战策略：如何让公有云多可用区部署“永不宕机”？

最新新闻

YOLOv11 改进 - SPPF模块替代SPP，FFocal Modulation焦点调制：即插即用轻量设计优化全局语义捕获

Windows Cleaner终极指南：免费开源工具一键解决C盘爆红和系统卡顿问题

低成本工业控制器按键方案：74HC32与PIC32MZ实现多功能控制

Brook：跨平台可编程网络工具，Star 1.5 万

ICM-42688-P与PIC18F67K40在工业自动化中的高性能运动检测方案

PUBG罗技鼠标宏压枪脚本：三分钟快速上手终极指南

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

DeepSeek-OCR 2：视觉因果流模型官方论文解读总结

相关新闻

中国人民大学的研究突破：让AI思考过程更快更省的神奇方法

如何通过API接口获取Target平台的目标详情数据

从架构设计到实战策略：如何让公有云多可用区部署“永不宕机”？

最新新闻

YOLOv11 改进 - SPPF模块 替代SPP，FFocal Modulation焦点调制：即插即用轻量设计优化全局语义捕获

Windows Cleaner终极指南：免费开源工具一键解决C盘爆红和系统卡顿问题

低成本工业控制器按键方案：74HC32与PIC32MZ实现多功能控制

Brook：跨平台可编程网络工具，Star 1.5 万

ICM-42688-P与PIC18F67K40在工业自动化中的高性能运动检测方案

PUBG罗技鼠标宏压枪脚本：三分钟快速上手终极指南

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

YOLOv11 改进 - SPPF模块替代SPP，FFocal Modulation焦点调制：即插即用轻量设计优化全局语义捕获