DeepSeek-OCR 2:视觉因果流模型官方论文解读总结
前言这几日在研究 DeepSeek-OCR 2 的内容发布的论文也看完了正好写一写。原文ppt我也上传资源并绑定到本文了。一、研究背景与核心动机传统视觉语言模型VLMs处理视觉 tokens 时均采用 “左上到右下” 的刚性光栅扫描顺序与固定位置编码这与人类视觉系统的 “语义驱动灵活扫描模式” 存在本质矛盾 —— 人类会根据图像内在逻辑如螺旋结构的因果关联动态调整视觉焦点而非依赖空间坐标。对于复杂布局的文档含公式、表格、非线性文本排列传统模型的刚性顺序会引入无关归纳偏置忽略语义关联。因此研究团队提出DeepSeek-OCR 2核心目标是通过新型编码器设计实现更贴近人类视觉认知的 “视觉因果流”探索 “通过两级级联 1D 因果推理实现 2D 图像理解” 的新范式。二、核心创新DeepEncoder V2 架构DeepEncoder V2 是 DeepSeek-OCR 2 的核心突破旨在解决传统编码器的刚性顺序问题其关键设计包含 4 大模块1. 视觉 TokenizerVision Tokenizer架构组成基于 80M 参数的 SAM-base 模型 2 个卷积层将最终卷积层输出维度从 DeepEncoder 的 1024 降至 896以适配后续流程。核心作用通过窗口注意力实现 16 倍 Token 压缩在减少计算成本与激活内存的同时保持与 LLM 文本嵌入约 100M 参数相当的参数量级支持灵活替换为简单补丁嵌入。2. 语言模型作为视觉编码器LM as Vision Encoder架构革新替换 DeepEncoder 中的 CLIP ViT 模块采用 Qwen2-0.5B500M 参数作为 LLM 风格编码器避免额外计算开销。双流注意力机制视觉 Token采用双向注意力保留 CLIP 的全局建模能力因果流查询Causal Flow Queries采用因果注意力每个查询可关注所有视觉 Token 与之前的查询实现语义驱动的 Token 重排序关键设计因果查询与视觉 Token 数量相等仅将编码器输出的 “因果查询部分” 输入 LLM 解码器构建 “编码器重排序→解码器自回归推理” 的两级因果推理。3. 因果流查询Causal Flow Query数量计算基于图像分辨率公式为 162×16W×H​W 为宽度H 为高度多裁剪策略全局视图1024×1024 分辨率固定 256 个查询嵌入queryglobal​局部视图768×768 分辨率固定 144 个查询嵌入querylocal​支持 0-6 次裁剪Token 范围最终输入 LLM 的 Token 数为 k×144256k 为局部裁剪次数范围 256-1120匹配 Gemini-3 Pro 的视觉 Token 上限且低于 DeepSeek-OCR 的 1156。4. 注意力掩码Attention Mask掩码结构由两部分拼接而成公式为左侧视觉 Token 区1m×m​ 矩阵支持双向注意力类似 ViT实现 Token 间全可见右侧因果查询区下三角矩阵LowerTri (n)支持因果注意力类似 LLM 解码器仅允许当前查询关注之前的查询。三、整体模型架构与训练流程1. 整体架构DeepSeek-OCR 2 继承 DeepSeek-OCR 的 “编码器 - 解码器” 结构核心差异在编码器DeepEncoder V2解码器沿用 3B 参数的 MoE 结构约 500M 激活参数模型前向传播公式为符号定义I输入图像、E视觉 Tokenizer、Q0​可学习因果查询、TLL 层带掩码注意力的 Transformer、πQ​提取最后 n 个 Token 的投影算子、D语言解码器、O输出 logits。2. 训练流程三阶段训练阶段核心目标关键设置阶段 1DeepEncoder V2 预训练让视觉 Tokenizer 与 LLM 风格编码器掌握特征提取、Token 压缩与重排序能力采用语言建模目标next token prediction使用 768×768/1024×1024 双数据加载器AdamW 优化器学习率 1e-4→1e-6160 张 A100 GPU 训练 40k 迭代约 1 亿图文对阶段 2查询增强强化编码器的 Token 重排序能力提升视觉知识压缩效果冻结视觉 Tokenizer联合优化 LLM 编码器与解码器采用 4 阶段流水线并行160 张 GPU40GB / 卡全局 batch size 1280训练 15k 迭代学习率 5e-5→1e-6阶段 3LLM 持续训练加速训练让 LLM 更好理解重排序后的视觉 Token冻结 DeepEncoder V2 所有参数仅更新 LLM 参数学习率 1e-6→5e-8训练 20k 迭代3. 数据设置数据源与 DeepSeek-OCR 一致包含 OCR 1.0、OCR 2.0占 80%及通用视觉数据数据优化1OCR 1.0 按 “文本公式表格 3:1:1” 平衡采样2合并语义相似的布局类别如 “图题” 与 “图标题” 统一。四、实验结果与性能分析1. 基准测试OmniDocBench v1.5OmniDocBench v1.5 包含 1355 页文档9 大类中英双语是验证模型性能的核心基准DeepSeek-OCR 2 的关键结果如下1综合性能对比表 1指标DeepSeek-OCR基线DeepSeek-OCR 2提升幅度整体准确率Overall87.36%91.09%3.73%文本编辑距离Text ED0.0730.048-0.025越低越好公式 CDMFormula CDM84.14%90.31%6.17%表格 TEDsTable TEDs85.25%87.75%2.5%阅读顺序 EDR-order ED0.0850.057-0.028越低越好最大视觉 Token 数V-token_max11561120更低更高效关键结论在视觉 Token 上限更低的情况下DeepSeek-OCR 2 全面超越基线尤其在公式识别与阅读顺序推理上提升显著验证了视觉因果流的有效性。2文档元素编辑距离对比表 2模型V-token_max文本 ED公式 ED表格 ED阅读顺序 ED整体 EDGemini-3 Pro1120----0.115DeepSeek-OCR11560.0730.2360.1230.0850.129DeepSeek-OCR 211200.0480.1980.0960.0570.100关键结论在相同 Token 预算1120下DeepSeek-OCR 2 的整体 ED0.100低于 Gemini-3 Pro0.115且所有元素 ED 均优于基线证明其在 Token 压缩效率与性能间的平衡优势。2. 改进空间表 3DeepSeek-OCR 2 在 9 类文档中的表现存在差异主要改进点弱点报纸类文本 ED0.139高于基线0.131原因包括1视觉 Token 上限较低影响文本密集型报纸识别2训练数据不足仅 250k 报纸样本优势阅读顺序 ED 在所有文档类型中均优于基线进一步验证因果流编码器的有效性。3. 实际应用性能表 4针对在线 OCR 服务与 PDF 批量处理两大生产场景以 “重复率” 为核心指标模型在线用户日志图像重复率PDF 预训练数据重复率DeepSeek-OCR6.25%3.69%DeepSeek-OCR 24.17%↓2.08%2.88%↓0.81%关键结论DeepSeek-OCR 2 的实际应用稳定性显著提升重复率降低证明其逻辑视觉理解能力的实用性。五、讨论与未来方向1. 迈向真正的 2D 推理现有进展DeepSeek-OCR 2 提出 “编码器阅读逻辑推理 解码器视觉任务推理” 的两级 1D 因果推理范式为 2D 理解提供新思路未来方向需增加更长的因果流 Token支持视觉内容的多轮重检查与多跳重排序并扩展至通用视觉推理任务。2. 迈向原生多模态核心潜力DeepEncoder V2 的 LLM 风格架构可通过 “模态专属可学习查询”实现多模态统一编码文本压缩、语音特征提取、视觉重排序共享Wk​、Wv​投影、注意力机制与 FFN未来方向探索更多模态如语音、视频的集成推动原生多模态模型发展。六、核心结论架构突破DeepEncoder V2 通过 “LLM 风格编码器 双流注意力 因果流查询”实现语义驱动的视觉 Token 重排序解决传统模型的刚性顺序问题性能与效率平衡DeepSeek-OCR 2 在保持高 Token 压缩率256-1120与解码效率的同时在 OmniDocBench v1.5 上实现 3.73% 的整体准确率提升实际应用重复率显著降低范式价值验证了 “通过两级 1D 因果推理实现 2D 理解” 的可行性为 VLMs 的编码器设计提供新方向且具备扩展至多模态的潜力。附录代码与模型获取模型代码与权重已开源地址deepseek-ai/DeepSeek-OCR-2: Visual Causal Flow论文地址https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdfEND如果觉得这份基础知识点总结清晰别忘了动动小手点个赞再关注一下呀 后续还会分享更多有关开发问题的干货技巧同时一起解锁更多好用的功能少踩坑多提效 你的支持就是我更新的最大动力咱们下次分享再见呀

相关新闻

中国人民大学的研究突破:让AI思考过程更快更省的神奇方法

中国人民大学的研究突破:让AI思考过程更快更省的神奇方法

这项由中国人民大学高瓴人工智能学院与DP Technology公司合作完成的研究发表于2026年2月的arXiv预印本平台,编号为arXiv:2601.23184v1。该研究提出了一种名为ReGuLaR的创新方法,成功解决了大型语言模型在思维推理过程中既费时又费力的难题。有兴趣深入了…

2026/7/4 16:48:14 阅读更多 →
如何通过API接口获取Target平台的目标详情数据

如何通过API接口获取Target平台的目标详情数据

在现代软件开发中,API(应用程序编程接口)是连接不同系统和服务的关键桥梁。Target平台(这里指代一个通用平台,如社交媒体、电商或数据服务)通常提供API来允许开发者获取特定目标(target&#xf…

2026/7/3 15:12:29 阅读更多 →
从架构设计到实战策略:如何让公有云多可用区部署“永不宕机”?

从架构设计到实战策略:如何让公有云多可用区部署“永不宕机”?

在公有云时代,多可用区(Multi-AZ)部署已成为企业保障业务高可用的标配。但近年来,AWS、Azure、阿里云等平台均出现过跨可用区故障(如网络分区、电力中断、存储集群崩溃),导致业务中断数小时甚至…

2026/7/3 22:13:45 阅读更多 →

最新新闻

YOLOv11 改进 - SPPF模块   替代SPP,FFocal Modulation焦点调制:即插即用轻量设计优化全局语义捕获

YOLOv11 改进 - SPPF模块 替代SPP,FFocal Modulation焦点调制:即插即用轻量设计优化全局语义捕获

前言 本文介绍了焦点调制网络(FocalNets)及其在YOLOv11中的结合应用。FocalNets完全用焦点调制模块替代自注意力,该模块由焦点上下文化、门控聚合和逐元素仿射变换组成,能有效建模视觉中的标记交互。它通过局部特征聚焦、全局信息…

2026/7/5 7:16:03 阅读更多 →
Windows Cleaner终极指南:免费开源工具一键解决C盘爆红和系统卡顿问题

Windows Cleaner终极指南:免费开源工具一键解决C盘爆红和系统卡顿问题

Windows Cleaner终极指南:免费开源工具一键解决C盘爆红和系统卡顿问题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否经常遇到Windows系统C盘空…

2026/7/5 7:14:02 阅读更多 →
低成本工业控制器按键方案:74HC32与PIC32MZ实现多功能控制

低成本工业控制器按键方案:74HC32与PIC32MZ实现多功能控制

1. 项目背景与核心思路最近在工业控制器项目中遇到一个有趣的挑战:如何在有限的硬件资源下实现多功能控制?传统方案要么需要增加物理按键数量(导致面板臃肿),要么采用昂贵的编码器(成本飙升)。经…

2026/7/5 7:12:02 阅读更多 →
Brook:跨平台可编程网络工具,Star 1.5 万

Brook:跨平台可编程网络工具,Star 1.5 万

文章目录Brook:跨平台可编程网络工具,Star 1.5 万为什么这工具能拿到 1.5 万 Star?1. 跨平台适配彻底2. 长期维护,社区活跃可编程是核心卖点适合谁用?Brook:跨平台可编程网络工具,Star 1.5 万 …

2026/7/5 7:12:02 阅读更多 →
ICM-42688-P与PIC18F67K40在工业自动化中的高性能运动检测方案

ICM-42688-P与PIC18F67K40在工业自动化中的高性能运动检测方案

1. ICM-42688-P与PIC18F67K40的黄金组合解析在工业自动化和机器人控制领域,传感器与微控制器的协同工作能力直接决定了系统的响应速度和测量精度。ICM-42688-P作为TDK InvenSense推出的6轴MEMS运动跟踪传感器,与Microchip的PIC18F67K40微控制器形成的解决…

2026/7/5 7:08:01 阅读更多 →
PUBG罗技鼠标宏压枪脚本:三分钟快速上手终极指南

PUBG罗技鼠标宏压枪脚本:三分钟快速上手终极指南

PUBG罗技鼠标宏压枪脚本:三分钟快速上手终极指南 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 还在为PUBG中难以控制的武器后坐力而…

2026/7/5 7:08:01 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻