全球首次突破异形框定位难题,百度开源全新OCR模型 PaddleOCR-VL-1.5
1月29日百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能第一成绩整体精度达到94.5%超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。值得关注的是PaddleOCR-VL-1.5 全球首次实现OCR模型的“异形框定位”能力使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态首次让“歪文档”实现稳定、可规模化解析。该技术解决了传统OCR模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。PaddleOCR-VL-1.5 基于文心大模型进行开发在 OmniDocBench V1.5多个关键指标上取得领先表现。其中表格结构理解92.8 分和阅读顺序预测95.8 分两项核心指标上均位列第一分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文档阅读顺序预测任务中其版面逻辑解析错误率仅为同类其他模型约一半。这表明PaddleOCR-VL-1.5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性在合同、财报等高复杂度业务场景中拥有更高可用性。2025年10月16日百度首次发布并开源 PaddleOCR-VL模型在 OmniDocBench V1.5 榜单中取得全球SOTA成绩并连续五天登顶 HuggingFace全球模型总趋势榜与ModelScope全球模型总趋势榜双榜第一。相比于上代在功能层面PaddleOCR-VL-1.5 进一步集成印章识别、文本检测与识别等任务能力关键指标持续领跑同时针对特殊场景与多语种识别进行系统优化在生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别有效解决长文档解析中的结构断裂问题。近半年来全球主流模型厂商密集布局 OCR 领域。1月27日深度求索发布新一代 OCR 模型 DeepSeek-OCR-2引入“因果流查询”机制并将语言模型融入视觉编码在OmniDocBench V1.5中实现91.09%精度。与此同时Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型行业竞争持续加剧。业内分析认为随着大模型加速进入金融、政务、制造等高复杂度业务流程文档解析能力正从“能用”走向“稳定可规模化落地”。PaddleOCR-VL-1.5 在精度、复杂场景适应性与工程化能力上的系统突破有望进一步降低产业应用门槛推动 OCR 技术在真实生产环境中的深度落地。目前PaddleOCR-VL-1.5 已全面开源开发者可通过GitHub、Hugging Face获取并在 PaddleOCR 官网进行在线体验或通过百度智能云千帆平台调用API接口。

相关新闻

【毕业设计】基于springboot的医院设备管理及报修小程序的设计与实现(源码+文档+远程调试,全bao定制等)

【毕业设计】基于springboot的医院设备管理及报修小程序的设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/3 15:34:27 阅读更多 →
【计算机毕业设计案例】基于springboot医院固定资产设备维修报修系统基于springboot的医院设备管理及报修小程序的设计与实现(程序+文档+讲解+定制)

【计算机毕业设计案例】基于springboot医院固定资产设备维修报修系统基于springboot的医院设备管理及报修小程序的设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/4 16:24:42 阅读更多 →
使用 NanUI 快速创建具有现代用户界面的 WinForm 应用程序

使用 NanUI 快速创建具有现代用户界面的 WinForm 应用程序

前言 今天大姚给大家分享一个强大的 .NET 开源框架,它利用 Web 技术(HTML5、CSS3、JavaScript)为 WinForm 应用程序构建现代化的用户界面:NanUI。 如果你正在寻找一个用于创建具有现代用户界面的 WinForm 应用程序的框架&#x…

2026/7/3 15:34:32 阅读更多 →

最新新闻

从 RAG 到 Agent学习笔记

从 RAG 到 Agent学习笔记

大模型(LLM)的能力正在逐渐趋同,真正的技术壁垒正在向 Harness Engineering(驾驭工程)转移。本文将结合近期技术探讨,系统梳理大模型应用开发中的核心工程化技术,涵盖 RAG 结构化输出、约束解码…

2026/7/5 6:11:49 阅读更多 →
文旅伴手礼场景,白酒包装定制如何融合地方特色元素

文旅伴手礼场景,白酒包装定制如何融合地方特色元素

文旅伴手礼视角下的白酒包装定制策略在文旅产业与地方酒文化深度融合的背景下,白酒包装定制已不再局限于简单的瓶身印刷,而是演变为承载地域文化、提升伴手礼附加值的关键载体。对于景区管理机构、地方酒企及文创开发团队而言,如何将地方特色…

2026/7/5 6:09:48 阅读更多 →
如何轻松管理Minecraft游戏体验:PCL启动器完整指南

如何轻松管理Minecraft游戏体验:PCL启动器完整指南

如何轻松管理Minecraft游戏体验:PCL启动器完整指南 【免费下载链接】PCL Minecraft 启动器 Plain Craft Launcher(PCL)。 项目地址: https://gitcode.com/gh_mirrors/pc/PCL 如果你是一位Minecraft玩家,是否曾为复杂的游戏…

2026/7/5 6:07:48 阅读更多 →
WPS-Zotero插件:5分钟搞定跨平台文献引用,科研写作效率翻倍

WPS-Zotero插件:5分钟搞定跨平台文献引用,科研写作效率翻倍

WPS-Zotero插件:5分钟搞定跨平台文献引用,科研写作效率翻倍 【免费下载链接】WPS-Zotero An add-on for WPS Writer to integrate with Zotero. 项目地址: https://gitcode.com/gh_mirrors/wp/WPS-Zotero 还在为Windows和Linux之间切换文献管理软…

2026/7/5 6:05:48 阅读更多 →
StreamCap终极指南:3步掌握开源直播录制工具,轻松录制40+平台直播内容

StreamCap终极指南:3步掌握开源直播录制工具,轻松录制40+平台直播内容

StreamCap终极指南:3步掌握开源直播录制工具,轻松录制40平台直播内容 【免费下载链接】StreamCap Multi-Platform Live Stream Automatic Recording Tool | 多平台直播流自动录制客户端 基于FFmpeg 支持监控/定时/转码 项目地址: https://gitcode.co…

2026/7/5 6:05:48 阅读更多 →
ROS Kinetic 系统下 SpotMicro 12舵机校准:从表格数据到YAML配置的5步实操

ROS Kinetic 系统下 SpotMicro 12舵机校准:从表格数据到YAML配置的5步实操

ROS Kinetic 系统下 SpotMicro 12舵机校准:从表格数据到YAML配置的5步实操 四足机器人SpotMicro的舵机校准是确保运动精度的关键环节。本文将手把手带您完成从原始测量数据到最终YAML配置文件的完整流程,特别针对ROS Kinetic系统中的12舵机校准场景。不同…

2026/7/5 6:03:47 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻