From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language ModelsAuthors:Masanari Oi, Koki Maeda, Ryuto Koike, Daisuke Oba, Nakamasa Inoue, Naoaki OkazakiDeep-Dive Summary:摘要虽然多模态大语言模型MLLMs在单图像空间推理方面取得了显著进展但在需要整合多个视角信息的多图像空间推理任务中仍面临挑战。认知研究表明人类通过两种机制解决此类任务跨视图对应关系识别不同视图中对应相同物理位置的区域和逐步视角转换按顺序组合相对视角变化。现有的研究通常只是部分或隐晦地整合了这些机制。为此我们提出了HATCHHuman-Aware Training for Cross-view correspondence and viewpoint cHange这是一个具有两个互补目标的训练框架(1)块级空间对齐PaStA鼓励在空间对应区域的跨视图补丁表示进行对齐(2)先动作后回答推理ActoR要求模型在预测最终答案之前生成显式的视角转换动作。在三个基准测试上的实验表明HATCH 显著优于同等规模的基准模型并能与更大规模的模型竞争同时保持了单图像推理能力。1. 引言图 1. 多图像空间推理的两种认知机制(a) 跨视图对应关系(b) 逐步视角转换例如旋转。人类通过建立跨视图的空间对应关系并执行逐步的视角转换来进行多视图推理。现有的方法往往通过大规模微调或引入 3D 专业模型来隐含地处理这些问题但缺乏统一且显式的学习目标。HATCH 框架通过以下两个核心组件将这些认知见解显式地融入 MLLM 训练中PaStA教模型“如何看”通过几何监督对齐不同视图间的补丁特征。ActoR教模型“如何动”通过强化学习GRPO优化视角转换动作的生成。实验显示HATCH 将基准模型Qwen2.5-VL-3B-Instruct的性能平均提升了14.2 % 14.2\%14.2%并在多项基准测试中优于更大规模的模型。2. 相关工作多图像空间推理要求模型整合物理场景的不同视图信息。现有工作多采用显式的空间或 3D 表示但通常不会在统一的学习目标中同时监督跨视图对应和逐步视角转换。HATCH 通过特征级对齐和基于动作的视角转换训练直接将这两种机制结合起来。3. 方法论3.1 问题设置输入包含一组捕捉相同场景的不同视角图像I { I 1 , I 2 , … , I N } \mathcal{I} \{I_1, I_2, \ldots , I_N\}I{I1,I2,…,IN}和一个自然语言问题Q QQ。训练期间可使用相机内参、位姿和深度图但这些信息仅用于构建监督信号不作为模型输入。3.2 HATCH 概述图 2. HATCH 流水线概览包含 PaStA学习对应关系和 ActoR执行视角转换动作。训练分为两个阶段PaStA 阶段仅更新图像编码器冻结语言模型。ActoR 阶段通过显式的视角转换动作教模型如何进行推理。3.3 块级空间对齐 (PaStA)PaStA 利用训练时的几何信息构造补丁级的对应目标。通过计算跨视图的定向重叠矩阵M X → Y M_{X \to Y}MX→Y定义对称的空间对应矩阵S SSS 1 2 ( M X → Y M Y → X ⊤ ) ( 1 ) S \frac{1}{2} (M_{X \to Y} M_{Y \to X}^{\top}) \quad (1)S21(MX→YMY→X⊤)(1)基于S SS构造目标对应分布p ( j ∣ i ) p(j|i)p(j∣i)p ( j ∣ i ) s o f t m a x j ( S [ i , : ] τ 1 ) ( 2 ) p(j\mid i) \mathrm{softmax}_j\left(\frac{S[i,:]}{\tau_1}\right) \quad (2)p(j∣i)softmaxj(τ1S[i,:])(2)模型预测的分布q ( j ∣ i ) q(j|i)q(j∣i)则基于补丁特征间的余弦相似度q ( j ∣ i ) s o f t m a x j ( cos ( e i X , e j Y ) τ 2 ) ( 3 ) q(j\mid i) \mathrm{softmax}_j\left(\frac{\cos(\mathbf{e}_i^X,\mathbf{e}_j^Y)}{\tau_2}\right) \quad (3)q(j∣i)softmaxj(τ2cos(eiX,ejY))(3)通过最小化交叉熵损失L C L \mathcal{L}_{\mathrm{CL}}LCL来对齐这两个分布。3.4 先动作后回答推理 (ActoR)ActoR 将推理过程公式化为先生成 JSON 格式的视角转换动作序列A \mathcal{A}A再预测答案a aa。动作序列包含一系列原子相机操作如turn_left,move_forward。训练过程包括冷启动 SFT使用离线构造的动作序列让模型熟悉输出格式。带可验证奖励的强化学习使用 GRPO 算法通过三个奖励组件进行优化R λ 1 R a c t − a c c λ 2 R a n s − a c c λ 3 R f o r m a t ( 8 ) R \lambda_{1}R_{\mathrm{act - acc}} \lambda_{2}R_{\mathrm{ans - acc}} \lambda_{3}R_{\mathrm{format}} \quad (8)Rλ1Ract−accλ2Rans−accλ3Rformat(8)其中R a c t − a c c R_{\mathrm{act - acc}}Ract−acc评估动作的几何准确性R a n s − a c c R_{\mathrm{ans - acc}}Rans−acc评估答案正确性。4. 实验我们在 SPAR-Bench-MV、MindCube-Tiny 和 MMSI-Bench 三个基准上评估了 HATCH基于 Qwen2.5-VL-3B。4.2 主要结果HATCH 在所有基准测试上均显著提升了基准模型的性能。例如在 SPAR-Bench-MV 上提升了17.8 17.817.8个百分点。其表现甚至可以媲美 GPT-5.2 等闭源模型并优于 32B/72B 等更大的开源模型。4.3 分析训练动力学如图 3 所示训练呈现两个阶段首先是动作奖励提升随后是 QA 奖励提升这证实了视角转换动作作为中间推理步骤的有效性。图 3. GRPO 训练期间的奖励变化趋势。消融研究如表 2 所示移除 PaStA 或 ActoR 都会导致性能下降说明两者在多图像推理中起到了互补作用。网格分辨率图 4 显示当补丁网格n 4 n4n4时效果最佳过细的网格会破坏视觉区域的完整性。图 4. PaStA 网格分辨率分析。推理模态相比于自然语言思维链CoT基于动作的推理HATCH提供了更精确、可验证的几何线索表现更优见图 5。图 5. 不同推理模态的定性对比。4.4 单图像空间推理性能尽管 HATCH 针对多图像设计但在单图像基准测试SPAR-Bench-SI 和 CV-Bench上也表现出色优于同尺寸甚至更大尺寸的模型显示了其良好的泛化能力。5. 结论本研究提出了 HATCH 框架通过结合表示层的对应关系学习PaStA和结构化的先动作后回答推理ActoR有效地提升了多模态大模型的跨视图空间理解能力。实验证明这种受人类认知启发的训练方式在多图像和单图像任务中均取得了优异成绩。影响声明本文介绍的研究工作旨在推进机器学习领域的发展。尽管该研究可能产生多种潜在的社会影响但作者认为目前没有需要在此特别强调的具体事项。Original Abstract:While multimodal large language models (MLLMs) have made substantial progress in single-image spatial reasoning, multi-image spatial reasoning, which requires integration of information from multiple viewpoints, remains challenging. Cognitive studies suggest that humans address such tasks through two mechanisms: cross-view correspondence, which identifies regions across different views that correspond to the same physical locations, and stepwise viewpoint transformation, which composes relative viewpoint changes sequentially. However, existing studies incorporate these mechanisms only partially and often implicitly, without explicit supervision for both. We propose Human-Aware Training for Cross-view correspondence and viewpoint cHange (HATCH), a training framework with two complementary objectives: (1) Patch-Level Spatial Alignment, which encourages patch representations to align across views for spatially corresponding regions, and (2) Action-then-Answer Reasoning, which requires the model to generate explicit viewpoint transition actions before predicting the final answer. Experiments on three benchmarks demonstrate that HATCH consistently outperforms baselines of comparable size by a clear margin and achieves competitive results against much larger models, while preserving single-image reasoning capabilities.PDF Link:2602.08735v1部分平台可能图片显示异常请以我的博客内容为准