From Correspondence to Actions Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Languag
From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language ModelsAuthors:Masanari Oi, Koki Maeda, Ryuto Koike, Daisuke Oba, Nakamasa Inoue, Naoaki OkazakiDeep-Dive Summary:摘要虽然多模态大语言模型MLLMs在单图像空间推理方面取得了显著进展但在需要整合多个视角信息的多图像空间推理任务中仍面临挑战。认知研究表明人类通过两种机制解决此类任务跨视图对应关系识别不同视图中对应相同物理位置的区域和逐步视角转换按顺序组合相对视角变化。现有的研究通常只是部分或隐晦地整合了这些机制。为此我们提出了HATCHHuman-Aware Training for Cross-view correspondence and viewpoint cHange这是一个具有两个互补目标的训练框架(1)块级空间对齐PaStA鼓励在空间对应区域的跨视图补丁表示进行对齐(2)先动作后回答推理ActoR要求模型在预测最终答案之前生成显式的视角转换动作。在三个基准测试上的实验表明HATCH 显著优于同等规模的基准模型并能与更大规模的模型竞争同时保持了单图像推理能力。1. 引言图 1. 多图像空间推理的两种认知机制(a) 跨视图对应关系(b) 逐步视角转换例如旋转。人类通过建立跨视图的空间对应关系并执行逐步的视角转换来进行多视图推理。现有的方法往往通过大规模微调或引入 3D 专业模型来隐含地处理这些问题但缺乏统一且显式的学习目标。HATCH 框架通过以下两个核心组件将这些认知见解显式地融入 MLLM 训练中PaStA教模型“如何看”通过几何监督对齐不同视图间的补丁特征。ActoR教模型“如何动”通过强化学习GRPO优化视角转换动作的生成。实验显示HATCH 将基准模型Qwen2.5-VL-3B-Instruct的性能平均提升了14.2 % 14.2\%14.2%并在多项基准测试中优于更大规模的模型。2. 相关工作多图像空间推理要求模型整合物理场景的不同视图信息。现有工作多采用显式的空间或 3D 表示但通常不会在统一的学习目标中同时监督跨视图对应和逐步视角转换。HATCH 通过特征级对齐和基于动作的视角转换训练直接将这两种机制结合起来。3. 方法论3.1 问题设置输入包含一组捕捉相同场景的不同视角图像I { I 1 , I 2 , … , I N } \mathcal{I} \{I_1, I_2, \ldots , I_N\}I{I1​,I2​,…,IN​}和一个自然语言问题Q QQ。训练期间可使用相机内参、位姿和深度图但这些信息仅用于构建监督信号不作为模型输入。3.2 HATCH 概述图 2. HATCH 流水线概览包含 PaStA学习对应关系和 ActoR执行视角转换动作。训练分为两个阶段PaStA 阶段仅更新图像编码器冻结语言模型。ActoR 阶段通过显式的视角转换动作教模型如何进行推理。3.3 块级空间对齐 (PaStA)PaStA 利用训练时的几何信息构造补丁级的对应目标。通过计算跨视图的定向重叠矩阵M X → Y M_{X \to Y}MX→Y​定义对称的空间对应矩阵S SSS 1 2 ( M X → Y M Y → X ⊤ ) ( 1 ) S \frac{1}{2} (M_{X \to Y} M_{Y \to X}^{\top}) \quad (1)S21​(MX→Y​MY→X⊤​)(1)基于S SS构造目标对应分布p ( j ∣ i ) p(j|i)p(j∣i)p ( j ∣ i ) s o f t m a x j ( S [ i , : ] τ 1 ) ( 2 ) p(j\mid i) \mathrm{softmax}_j\left(\frac{S[i,:]}{\tau_1}\right) \quad (2)p(j∣i)softmaxj​(τ1​S[i,:]​)(2)模型预测的分布q ( j ∣ i ) q(j|i)q(j∣i)则基于补丁特征间的余弦相似度q ( j ∣ i ) s o f t m a x j ( cos ⁡ ( e i X , e j Y ) τ 2 ) ( 3 ) q(j\mid i) \mathrm{softmax}_j\left(\frac{\cos(\mathbf{e}_i^X,\mathbf{e}_j^Y)}{\tau_2}\right) \quad (3)q(j∣i)softmaxj​(τ2​cos(eiX​,ejY​)​)(3)通过最小化交叉熵损失L C L \mathcal{L}_{\mathrm{CL}}LCL​来对齐这两个分布。3.4 先动作后回答推理 (ActoR)ActoR 将推理过程公式化为先生成 JSON 格式的视角转换动作序列A \mathcal{A}A再预测答案a aa。动作序列包含一系列原子相机操作如turn_left,move_forward。训练过程包括冷启动 SFT使用离线构造的动作序列让模型熟悉输出格式。带可验证奖励的强化学习使用 GRPO 算法通过三个奖励组件进行优化R λ 1 R a c t − a c c λ 2 R a n s − a c c λ 3 R f o r m a t ( 8 ) R \lambda_{1}R_{\mathrm{act - acc}} \lambda_{2}R_{\mathrm{ans - acc}} \lambda_{3}R_{\mathrm{format}} \quad (8)Rλ1​Ract−acc​λ2​Rans−acc​λ3​Rformat​(8)其中R a c t − a c c R_{\mathrm{act - acc}}Ract−acc​评估动作的几何准确性R a n s − a c c R_{\mathrm{ans - acc}}Rans−acc​评估答案正确性。4. 实验我们在 SPAR-Bench-MV、MindCube-Tiny 和 MMSI-Bench 三个基准上评估了 HATCH基于 Qwen2.5-VL-3B。4.2 主要结果HATCH 在所有基准测试上均显著提升了基准模型的性能。例如在 SPAR-Bench-MV 上提升了17.8 17.817.8个百分点。其表现甚至可以媲美 GPT-5.2 等闭源模型并优于 32B/72B 等更大的开源模型。4.3 分析训练动力学如图 3 所示训练呈现两个阶段首先是动作奖励提升随后是 QA 奖励提升这证实了视角转换动作作为中间推理步骤的有效性。图 3. GRPO 训练期间的奖励变化趋势。消融研究如表 2 所示移除 PaStA 或 ActoR 都会导致性能下降说明两者在多图像推理中起到了互补作用。网格分辨率图 4 显示当补丁网格n 4 n4n4时效果最佳过细的网格会破坏视觉区域的完整性。图 4. PaStA 网格分辨率分析。推理模态相比于自然语言思维链CoT基于动作的推理HATCH提供了更精确、可验证的几何线索表现更优见图 5。图 5. 不同推理模态的定性对比。4.4 单图像空间推理性能尽管 HATCH 针对多图像设计但在单图像基准测试SPAR-Bench-SI 和 CV-Bench上也表现出色优于同尺寸甚至更大尺寸的模型显示了其良好的泛化能力。5. 结论本研究提出了 HATCH 框架通过结合表示层的对应关系学习PaStA和结构化的先动作后回答推理ActoR有效地提升了多模态大模型的跨视图空间理解能力。实验证明这种受人类认知启发的训练方式在多图像和单图像任务中均取得了优异成绩。影响声明本文介绍的研究工作旨在推进机器学习领域的发展。尽管该研究可能产生多种潜在的社会影响但作者认为目前没有需要在此特别强调的具体事项。Original Abstract:While multimodal large language models (MLLMs) have made substantial progress in single-image spatial reasoning, multi-image spatial reasoning, which requires integration of information from multiple viewpoints, remains challenging. Cognitive studies suggest that humans address such tasks through two mechanisms: cross-view correspondence, which identifies regions across different views that correspond to the same physical locations, and stepwise viewpoint transformation, which composes relative viewpoint changes sequentially. However, existing studies incorporate these mechanisms only partially and often implicitly, without explicit supervision for both. We propose Human-Aware Training for Cross-view correspondence and viewpoint cHange (HATCH), a training framework with two complementary objectives: (1) Patch-Level Spatial Alignment, which encourages patch representations to align across views for spatially corresponding regions, and (2) Action-then-Answer Reasoning, which requires the model to generate explicit viewpoint transition actions before predicting the final answer. Experiments on three benchmarks demonstrate that HATCH consistently outperforms baselines of comparable size by a clear margin and achieves competitive results against much larger models, while preserving single-image reasoning capabilities.PDF Link:2602.08735v1部分平台可能图片显示异常请以我的博客内容为准

相关新闻

小白也能看懂:如何用Stable-RAG让大模型摆脱文档顺序“翻车”幻觉?

小白也能看懂:如何用Stable-RAG让大模型摆脱文档顺序“翻车”幻觉?

大模型常用RAG方法易受文档顺序影响,导致幻觉。Stable-RAG通过聚类文档隐藏状态、选取簇代表进行解码、并利用DPO进行对齐,有效解决了这一问题。实验证明,该方法能在多个数据集和模型上显著提升性能,且训练成本低,具有…

2026/5/17 4:02:27 阅读更多 →
设计模式:带你用真实业务方法+Spring源码去理解模板 + 回调

设计模式:带你用真实业务方法+Spring源码去理解模板 + 回调

一、什么是模版回调你肯定见到过类似这样的 代码TransactionUtil.doInTransactionWithRequires(() -> {});而doInTransactionWithRequires 这个方法接收一个函数式方法 supplier 然后内部去调用这个方法doInTransactionWithRequires&#xff08;Suppler<T> supplier&a…

2026/7/3 1:29:24 阅读更多 →
2025高效日语小说翻译工具:零基础也能轻松使用的本地化方案

2025高效日语小说翻译工具:零基础也能轻松使用的本地化方案

2025高效日语小说翻译工具&#xff1a;零基础也能轻松使用的本地化方案 【免费下载链接】auto-novel 轻小说机翻网站&#xff0c;支持网络小说/文库小说/本地小说 项目地址: https://gitcode.com/GitHub_Trending/au/auto-novel 作为一名日语小说爱好者&#xff0c;你是…

2026/5/17 4:02:26 阅读更多 →

最新新闻

2026年AI写歌软件实测 中文创作哪款效果最好

2026年AI写歌软件实测 中文创作哪款效果最好

2026年AI音乐创作已经彻底走进大众视野&#xff0c;从随手记录日常心情、制作短视频BGM&#xff0c;到独立音乐人打磨原创Demo、商用发行正式单曲&#xff0c;AI写歌软件都成了高效的创作工具。但很多国内用户在挑选时都容易踩坑&#xff1a;海外头部工具中文咬字跑调、访问不稳…

2026/7/3 10:19:06 阅读更多 →
Java计算机毕设之基于 SpringBoot 的企业薪酬发放与固定资产盘点管理系统 公司财务收支与员工绩效考评管理系统(完整前后端代码+说明文档+LW,调试定制等)

Java计算机毕设之基于 SpringBoot 的企业薪酬发放与固定资产盘点管理系统 公司财务收支与员工绩效考评管理系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

2026/7/3 10:19:06 阅读更多 →
Xshell四

Xshell四

ps 静态查看进程 用途&#xff1a;一次性快照输出当前系统所有进程信息&#xff0c;属于静态查看&#xff0c;执行一次就结束&#xff0c;常用于搭配管道筛选进程。&#xff08;特定时间点&#xff09; 核心参数用法&#xff1a; -e参数指定显示所有运行在系统上的进程&#xf…

2026/7/3 10:17:03 阅读更多 →
基于虚拟机的Python Web自动化测试环境搭建与配置指南

基于虚拟机的Python Web自动化测试环境搭建与配置指南

1. 项目概述&#xff1a;为什么需要一个标准化的自动化测试环境&#xff1f;如果你是一名Web开发者或者测试工程师&#xff0c;每天手动在Chrome、Firefox、Safari以及各种版本的浏览器上重复点击、输入、验证&#xff0c;很快就会感到疲惫不堪且效率低下。更别提还要考虑不同操…

2026/7/3 10:09:00 阅读更多 →
【紧急更新】2024软考论文新大纲适配模板:3类新型命题(AI治理/信创迁移/云原生)专用结构包

【紧急更新】2024软考论文新大纲适配模板:3类新型命题(AI治理/信创迁移/云原生)专用结构包

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;软考论文新大纲核心变化与适配策略 2024年起&#xff0c;全国计算机技术与软件专业技术资格&#xff08;水平&#xff09;考试高级资格“信息系统项目管理师”论文科目正式启用全新写作大纲。本次调整不…

2026/7/3 10:06:59 阅读更多 →
如何快速定位Windows热键冲突:专业检测工具终极指南

如何快速定位Windows热键冲突:专业检测工具终极指南

如何快速定位Windows热键冲突&#xff1a;专业检测工具终极指南 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾经…

2026/7/3 10:04:57 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述&#xff1a;为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473&#xff0c;一个关于TLS/SSL协议重协商机制的漏洞&#xff0c;现在提起来还有必要吗&#xff1f;很多运维和开发朋友可能会觉得&#xff0c;这都老掉牙了&#xff0c;现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述&#xff1a;为什么需要双通道远程管理防火墙&#xff1f;在任何一个稍具规模的企业网络里&#xff0c;防火墙都是那个默默守护在边界的关键角色。作为网络工程师&#xff0c;我们不可能每次都跑到机房&#xff0c;插上console线去配置它。远程管理能力&#xff0c;…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述&#xff1a;AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域&#xff0c;同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件&#xff0c;与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻