【澳门大学-郑哲东-ICLR26】SketchThinker-R1:迈向大型多模态模型中的高效草图式推理
文章SKETCHTHINKER-R1: TOWARDS EFFICIENT SKETCH STYLE REASONING IN LARGE MULTIMODAL MODELS代码https://github.com/Ruiyang-061X/SketchThinker-R1单位澳门大学科技学院与智能计算与交互研究所、上海人工智能实验室一、问题背景当前大型多模态模型LMMs在视觉识别、逻辑推理等任务中通过冗长的逐步推理如链思推理CoT实现了性能提升但随之而来的是两大核心痛点一是推理效率低下冗长的推理过程导致token消耗剧增、响应时间延长难以适配实时交互场景二是推理有效性受损过度思考可能引入冗余信息或累积微小错误最终影响答案准确性同时复杂的推理轨迹也不利于人类理解核心逻辑。反观人类解决问题的思维模式往往会采用“草图式推理”——聚焦关键信息、精简逻辑步骤在保证正确性的前提下实现高效决策。受此启发如何让多模态模型具备类似的简洁推理能力在不牺牲答案准确性的前提下降低推理成本成为当前领域亟待解决的问题。二、方法创新SketchThinker-R1提出了一套三阶段强化学习框架核心是为模型注入“草图式推理”能力让推理过程既精简又精准1. 草图模式冷启动Sketch-Mode Cold Start基于现有多模态推理数据集如LLaVA-CoT-100K、Vision-R1-cold利用强大的LLM如GPT-5将冗长的推理过程T_Long转化为草图式推理T_Sketch。转化过程严格遵循“保留核心逻辑、去除冗余细节、结构化呈现”三大原则最终构建含20K样本的SketchColdStart-20K数据集。通过在该数据集上微调基础多模态模型为后续强化学习奠定初始的草图推理能力。2. 草图评估奖励模型SketchJudge Reward Model为了精准引导模型的推理风格专门训练了一个奖励模型利用冷启动阶段的“长推理”和“草图推理”双模式数据将长推理标注为0分、草图推理标注为1分微调开源LLM使其具备区分推理风格的能力。该模型能为推理过程打分对简洁聚焦的草图式推理给予高奖励对冗长冗余的推理予以惩罚为后续强化学习提供可靠的监督信号。3. 草图推理强化学习Sketch-Thinking Reinforcement Learning基于冷启动后的模型采用GRPOGroup Reward Proximal Optimization算法进行强化学习。奖励设计融合了三部分答案准确性权重0.5、响应格式规范性权重0.4、草图推理风格得分权重0.1通过多领域数据集MMStar、MathVista等训练让模型在保持准确性的同时进一步泛化草图式推理能力。三、实验结果研究团队在4个跨领域基准数据集MMMU、MathVision、VisuLogic、PhyX上进行了全面评估结果表现亮眼1. 核心性能指标推理成本大幅降低相比传统R1风格训练的Vanilla-R1模型SketchThinker-R1的推理token消耗减少超过64%部分场景如VisuLogic甚至减少76.5%准确性保持或提升在所有基准测试中SketchThinker-R1的答案准确率均不低于基线模型部分数据集如MMMU准确率提升1.8-2.8个百分点推理效率碾压基线提出的“思维效率EoT”指标准确率/推理token数显示SketchThinker-R1的EoT值是Vanilla-R1的2-3倍远超Prompt-based、SFT-based等其他高效推理方法。2. 模型泛化性验证无论是7B还是3B规模的模型SketchThinker-R1均能稳定实现“降本增效”3B模型的推理token消耗减少超50%验证了框架在不同模型尺度下的鲁棒性消融实验表明冷启动阶段与强化学习的结合是关键仅靠冷启动泛化能力有限仅靠强化学习则探索效率低下而GPT-5生成的冷启动数据、多源数据融合能进一步提升模型性能。四、优势与局限优势效率与准确性兼得突破“长推理高性能”的固有认知通过草图式推理实现“少token高准确率”响应时间缩短约20%训练成本降低19%可解释性更强草图式推理聚焦关键逻辑步骤以结构化列表呈现无论是人类评估还是LVLM自动评估其推理轨迹的可解释性均优于传统冗长推理通用性广适用于数学计算、物理推理、视觉逻辑等多个领域且能适配不同规模的多模态模型落地场景灵活。局限草图式推理的质量高度依赖初始转化工具如GPT-5的能力开源LLM生成的转化数据可能导致准确性损失对于极复杂的推理任务模型仍可能需要一定长度的推理链过度追求简洁可能影响复杂场景的性能目前的奖励机制中准确性与草图风格的权重平衡依赖人工调参尚未实现动态自适应调整。五、一句话总结SketchThinker-R1通过“冷启动注入初始能力奖励模型引导风格强化学习泛化”的三阶段框架让大型多模态模型具备人类式的草图推理能力在降低64%以上推理成本的同时保持甚至提升答案准确性为高效多模态推理提供了全新解决方案。

相关新闻

护理人闭眼冲!刷刷微博、小红书也能发“顶刊IJNS”了!

护理人闭眼冲!刷刷微博、小红书也能发“顶刊IJNS”了!

点击上方蓝字,关注我们引言最近,一篇广西中医药大学护理团队的文章《中国护士职业倦怠的系统性根源:基于社交媒体数据的自然语言处理混合方法研究》发表在护理学国际顶刊International Journal of Nursing Studies上。最让人惊讶的是&#xf…

2026/7/3 2:13:33 阅读更多 →
谷歌云存储长期优惠解析:精打细算的云上存储策略

谷歌云存储长期优惠解析:精打细算的云上存储策略

把数据放到云端,现在基本是企业和开发者的常规操作了。谷歌云存储大家用得不少,毕竟它稳定、安全,性能也够全球化。但说到花钱,很多人心里都会嘀咕:这玩意儿有没有长期优惠啊?毕竟这直接关系到项目未来几年…

2026/7/3 15:02:15 阅读更多 →
贪心算法-递增的三页子序列

贪心算法-递增的三页子序列

题目链接 一、问题描述 给定一个整数数组 nums&#xff0c;判断是否存在长度为3的递增子序列&#xff0c;即是否存在下标 i < j < k&#xff0c;使得 nums[i] < nums[j] < nums[k]。 存在则返回 true&#xff0c;否则返回 false。 二、核心解法 解法1&#xf…

2026/7/3 15:02:16 阅读更多 →

最新新闻

【小白也能轻松玩转龙虾】虾壳云一键部署全程图文对照,新手跟着操作零难度(附最新安装包)

【小白也能轻松玩转龙虾】虾壳云一键部署全程图文对照,新手跟着操作零难度(附最新安装包)

OpenClaw&#xff08;小龙虾&#xff09;Windows 一键部署实操手册&#xff5c;十分钟搭建专属本地数字员工 适配平台&#xff1a;Windows 10/11&#xff08;64 位&#xff09;&#xff5c;零基础友好&#xff5c;全可视化界面&#xff5c;无编程门槛 当下热度较高的开源 AI 智…

2026/7/3 22:46:05 阅读更多 →
WzComparerR2:深入解析冒险岛WZ文件资源的专业提取器

WzComparerR2:深入解析冒险岛WZ文件资源的专业提取器

WzComparerR2&#xff1a;深入解析冒险岛WZ文件资源的专业提取器 【免费下载链接】WzComparerR2 Maplestory online Extractor 项目地址: https://gitcode.com/gh_mirrors/wz/WzComparerR2 WzComparerR2是一款专业的冒险岛游戏资源提取器&#xff0c;专门用于解密、分析…

2026/7/3 22:46:05 阅读更多 →
QtScrcpy终极指南:如何在电脑上免费流畅控制安卓手机

QtScrcpy终极指南:如何在电脑上免费流畅控制安卓手机

QtScrcpy终极指南&#xff1a;如何在电脑上免费流畅控制安卓手机 【免费下载链接】QtScrcpy Android实时投屏软件&#xff0c;此应用程序提供USB(或通过TCP/IP)连接的Android设备的显示和控制。它不需要任何root访问权限 项目地址: https://gitcode.com/barry-ran/QtScrcpy …

2026/7/3 22:44:05 阅读更多 →
LiteLLM代理配置优化:解决DeepSeek API Token异常消耗问题

LiteLLM代理配置优化:解决DeepSeek API Token异常消耗问题

&#x1f680; 30款热门AI模型一站整合&#xff0c;DeepSeek/GLM/Claude 随心用&#xff0c;限时 5 折。 &#x1f449; 点击领海量免费额度 如果你正在使用 Codex 或类似的开源 AI 编程助手&#xff0c;并且通过 LiteLLM 等代理工具接入了 DeepSeek 的 API&#xff0c;那么…

2026/7/3 22:44:05 阅读更多 →
缠论自动化分析革命:ChanlunX让技术分析从复杂到简单

缠论自动化分析革命:ChanlunX让技术分析从复杂到简单

缠论自动化分析革命&#xff1a;ChanlunX让技术分析从复杂到简单 【免费下载链接】ChanlunX 缠中说禅炒股缠论可视化插件 项目地址: https://gitcode.com/gh_mirrors/ch/ChanlunX 你是否曾在K线图中迷失方向&#xff0c;面对缠论复杂的笔段划分和中枢识别感到无从下手&a…

2026/7/3 22:40:03 阅读更多 →
Claude Code本地AI编程代理:从安装到实战的完整指南

Claude Code本地AI编程代理:从安装到实战的完整指南

&#x1f680; 30款热门AI模型一站整合&#xff0c;DeepSeek/GLM/Claude 随心用&#xff0c;限时 5 折。 &#x1f449; 点击领海量免费额度 1. 先搞清楚 Claude Code 到底是什么&#xff0c;以及它到底能帮你做什么 如果你在找“Claude Code 教程”&#xff0c;大概率是想找…

2026/7/3 22:40:03 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述&#xff1a;为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473&#xff0c;一个关于TLS/SSL协议重协商机制的漏洞&#xff0c;现在提起来还有必要吗&#xff1f;很多运维和开发朋友可能会觉得&#xff0c;这都老掉牙了&#xff0c;现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述&#xff1a;为什么需要双通道远程管理防火墙&#xff1f;在任何一个稍具规模的企业网络里&#xff0c;防火墙都是那个默默守护在边界的关键角色。作为网络工程师&#xff0c;我们不可能每次都跑到机房&#xff0c;插上console线去配置它。远程管理能力&#xff0c;…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述&#xff1a;AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域&#xff0c;同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件&#xff0c;与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻