Microsoft NLayerApp案例理论与实践 - 多层架构与应用系统设计原则
焙礁炒毁DeepSeek-OCR是由DeepSeek-AI提出的、用于探索通过光学2D映射压缩长上下文可行性的视觉语言模型VLM核心包含DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大组件。其中DeepEncoder能在高分辨率输入下保持低激活值并实现高压缩比实验显示当文本token数量为视觉token的10倍以内压缩比10×时模型OCR精度达97%压缩比20×时精度仍约60%在实用性能上它在OmniDocBench基准测试中仅用100个视觉token就超越需256个token的GOT-OCR2.0用少于800个视觉token超越平均需6000个token的MinerU2.0且单A100-40G显卡日生成20万页LLM/VLM训练数据代码和模型权重已开源http://github.com/deepseek-ai/DeepSeek-OCR为LLM长上下文压缩、记忆遗忘机制研究及实际OCR任务提供重要价值。1论文方法DeepSeek-OCR概述基本定位由DeepSeek-AI提出的视觉语言模型VLM核心目标是探索通过光学2D映射压缩长上下文的可行性为LLM处理长文本的计算挑战提供解决方案利用视觉模态作为文本信息的高效压缩媒介。核心组件包含编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M代码与模型权重已开源地址http://github.com/deepseek-ai/DeepSeek-OCR。核心优势兼顾高压缩比与高OCR精度同时具备强实用性能可大规模生成LLM/VLM训练数据。核心组件设计DeepEncoder编码器设计目标满足高分辨率处理、高分辨率下低激活、少视觉token、多分辨率支持、参数适中5大需求解决现有VLM视觉编码器的缺陷如token过多、激活量大等。架构细节总参数约380M由SAM-base80M窗口注意力主导、16×卷积压缩器、CLIP-large300M密集全局注意力 串联组成。卷积压缩器2层卷积核3×3、步长2、填充1通道从256→1024实现视觉token16倍下采样如1024×1024图像输入token从4096→256。分辨率支持通过位置编码动态插值实现多分辨率具体模式如下表分辨率模式 子模式 原生分辨率 视觉token数 处理方式原生分辨率 Tiny 512×512 64 直接resizeSmall 640×640 100 直接resizeBase 1024×1024 256 padding保留宽高比Large 1280×1280 400 padding保留宽高比动态分辨率 Gundam 640×6401024×1024 n×100256n∈[2:9] 分块resizepaddingGundam-M 1024×10241280×1280 n×256400n∈[2:9] 分块resizepadding注动态分辨率主要用于超高清输入如报纸避免图像过度碎片化Gundam-M需在预训练模型基础上继续训练平衡训练速度。解码器DeepSeek3B-MoE-A570M架构特点基于DeepSeek3B-MoE推理时激活64个路由专家中的6个2个共享专家激活参数约570M兼顾3B模型的表达能力与500M小模型的推理效率核心功能通过非线性映射从DeepEncoder输出的压缩视觉token重构文本表示。训练流程与数据引擎数据引擎多样化训练数据数据类型 内容细节 占比/规模 作用OCR 1.0数据 30M页多语言PDF中/英25M其他5M含粗/细标注、3M页Word、10M页中/英自然场景图 占总数据70% 训练传统OCR能力文档/场景文本识别OCR 2.0数据 10M页图表线图/柱状图等转HTML表格、5M页化学公式SMILES格式、1M页平面几何图 含于OCR数据70%内 训练复杂图像解析能力通用视觉数据 图像描述、目标检测、接地等任务数据参考DeepSeek-VL2 占总数据20% 保留通用视觉接口纯文本数据 内部数据统一处理为8192token长度 占总数据10% 保障模型语言能力注OCR 1.0细标注含2M页中/英数据用PP-DocLayout布局、MinerU2.0/GOT-OCR2.0识别构建小语种数据通过“模型飞轮”生成600K样本。训练流程阶段1独立训练DeepEncoder数据所有OCR 1.0/2.0数据100M采样自LAION的通用数据配置AdamW优化器余弦退火调度器学习率5e-5批大小1280训练2轮序列长度4096阶段2训练DeepSeek-OCR平台HAI-LLM平台并行策略4段管道并行DeepEncoder占2段解码器占2段20节点每节点8张A100-40G数据并行40全局批大小640配置AdamW优化器步长调度器初始学习率3e-5纯文本数据训练速度90B token/天多模态数据70B token/天论文实验核心实验性能Fox基准测试文本token600-1300英文文档验证压缩-解压缩能力文本token范围 视觉token64Tiny模式 视觉token100Small模式 测试页数精度 压缩比 精度 压缩比600-700 96.5% 10.5× 98.5% 6.7× 7700-800 93.8% 11.8× 97.3% 7.5× 28800-900 83.8% 13.2× 96.8% 8.5× 28900-1000 85.9% 15.1× 96.8% 9.7× 141000-1100 79.3% 16.5× 91.5% 10.6× 111100-1200 76.4% 17.7× 89.8% 11.3× 81200-1300 59.1% 19.7× 87.1% 12.6× 4关键结论压缩比10×时精度≈97%压缩比20×时精度≈60%实际精度因输出与标注格式差异会更高。OmniDocBench基准测试真实文档解析指标为编辑距离越小越好模型/模式 视觉token数有效token 整体编辑距离 关键对比结论GOT-OCR2.0 256 - DeepSeek-OCR100token超越它MinerU2.0 6000平均 - DeepSeek-OCR800token超越它DeepSeek-OCRSmall 100 0.205 -DeepSeek-OCRBase 256182 0.156 -DeepSeek-OCRGundam 795 0.083 接近SOTA性能实用价值大规模训练数据生成单张A100-40G显卡每日可生成20万页LLM/VLM训练数据20节点每节点8张A100-40G每日可生成3300万页。多场景OCR能力语言支持可处理近100种语言小语种文档支持布局/非布局输出。深度解析支持图表转HTML表格、化学公式转SMILES、平面几何图结构化输出、自然图像密集描述的深度解析。通用视觉理解保留图像描述、目标检测、接地等通用视觉能力可通过提示激活。总结和展望总结为LLM长上下文压缩提供新范式光学压缩7-20×token reduction为LLM记忆遗忘机制研究提供思路模拟人类记忆衰减通过逐步缩小图像分辨率实现多级别压缩为VLMtoken分配优化提供实证指导。未来方向开展数字-光学文本交错预训练进行“大海捞针”needle-in-a-haystack测试验证长上下文处理能力进一步优化光学上下文压缩的精度与效率。

相关新闻

Delphi:判断当前按下数字键

Delphi:判断当前按下数字键

在Delphi中,通过覆写控件的KeyDown事件来捕获按键事件。以下是一个基本的示例,展示如何在Delphi中判断当前按下的数字键: 示例1:使用标准窗体和按钮‌创建一个新的VCL Forms Application‌。‌在Form上添加一个按钮‌(…

2026/7/4 8:55:23 阅读更多 →
.NET中的异步编程(二)- 传统的异步编程

.NET中的异步编程(二)- 传统的异步编程

蚜质是丈通过 start.spring.io 或其他构建基础的Spring Boot工程,根据你构建应用的需要增加一些依赖,比如最后用接口提供服务的话,可以加入web模块:org.springframework.bootspring-boot-starter-web2. 注册 UnifiedTTS&#xff0…

2026/7/4 8:53:32 阅读更多 →
佳易王拼豆店计时计费专用软件:软件使用心得、经验分享和操作教程解析

佳易王拼豆店计时计费专用软件:软件使用心得、经验分享和操作教程解析

引言 拼豆店运营过程中,一套完善的计时计费软件对提升管理效率、优化顾客体验起着关键作用。佳易王拼豆店计时计费专用软件以其丰富多样的功能,为拼豆店提供了全面的运营支持。本文将详细剖析该软件的功能特点、操作方法,并分享使用经验。 …

2026/5/17 10:26:23 阅读更多 →

最新新闻

Elm-platform安装教程:Windows、macOS、Linux三大平台详细步骤

Elm-platform安装教程:Windows、macOS、Linux三大平台详细步骤

Elm-platform安装教程:Windows、macOS、Linux三大平台详细步骤 【免费下载链接】elm-platform Bundle of all core development tools for Elm 项目地址: https://gitcode.com/gh_mirrors/el/elm-platform 想要开始 Elm 编程之旅吗?Elm-platform …

2026/7/4 8:55:25 阅读更多 →
量子增强侧信道与迭代攻击:后量子密码(如McEliece)的混合威胁与防御实践

量子增强侧信道与迭代攻击:后量子密码(如McEliece)的混合威胁与防御实践

1. 项目概述:当量子计算遇上经典密码 最近在密码学圈子里,一个听起来有点“缝合怪”但又极具前瞻性的概念被反复提及——“量子相关密钥攻击迭代EM密码”。乍一看,这标题融合了“量子”、“密钥攻击”、“迭代”和“EM密码”几个硬核词汇&…

2026/7/4 8:55:25 阅读更多 →
Linux/WSL终端美化指南:gh_mirrors/do/dotfiles-archive的zsh与Hyper配置技巧

Linux/WSL终端美化指南:gh_mirrors/do/dotfiles-archive的zsh与Hyper配置技巧

Linux/WSL终端美化指南:gh_mirrors/do/dotfiles-archive的zsh与Hyper配置技巧 【免费下载链接】dotfiles-archive Dotfiles for all :D 项目地址: https://gitcode.com/gh_mirrors/do/dotfiles-archive gh_mirrors/do/dotfiles-archive项目提供了一套完整的终…

2026/7/4 8:55:25 阅读更多 →
高速PCB阻抗设计3大误区:线宽、铜厚与阻焊对±10%公差的实际影响

高速PCB阻抗设计3大误区:线宽、铜厚与阻焊对±10%公差的实际影响

高速PCB阻抗设计实战:破解线宽、铜厚与阻焊的10%公差迷思1. 阻抗设计的基础认知误区在高速PCB设计中,阻抗控制绝非简单的理论计算问题。许多工程师习惯将IPC标准中的公式直接套用,却忽略了实际制造环节中至少12个关键变量对最终阻抗值的影响。…

2026/7/4 8:55:25 阅读更多 →
PAT 乙级题目讲解:1006《换个格式输出整数》

PAT 乙级题目讲解:1006《换个格式输出整数》

✅ PAT 乙级题目讲解:1006《换个格式输出整数》摘要: 本文讲解 PAT 乙级真题 1006《换个格式输出整数》。题目要求将三位数按百位、十位、个位拆分,并分别以字母 B、S 和自然数序列输出。文章通过样例分析、分步拆解代码、完整实现、常见错误…

2026/7/4 8:51:24 阅读更多 →
PAT 乙级题目讲解:1016《部分A+B》

PAT 乙级题目讲解:1016《部分A+B》

✅ PAT 乙级题目讲解:1016《部分AB》🧩 题目简题目摘要:本题目要求从两个正整数中分别提取指定数字并拼接成新整数,计算其和。核心考察字符串提取与数字构造的模拟实现,时间复杂度 O(n)\mathcal{O}(n)O(n),…

2026/7/4 8:49:23 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻