想象一下你拿着手机随手拍了一段街景视频里面有走动的人群、穿梭的车辆。如果能立刻把这段视频转化为一个包含时间维度的动态3D数字孪生世界即4D重建是不是非常酷炫传统的重建技术在静态场景下表现完美但一旦遇到动态物体模型常常会“晕头转向”导致相机轨迹和深度估计全部崩溃 。现有的优化方法虽然能缓解这个问题但计算成本太高根本无法做到“实时” 。今天我们要解读由清华大学和理想汽车团队联合提出的一项重磅研究MoRe (Motion-aware Feed-forward 4D Reconstruction Transformer)。它不仅能从单目视频中高效恢复动态3D场景还能做到极速的流式推理 。论文标题MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer论文链接https://arxiv.org/abs/2603.05078v2代码链接https://hellexf.github.io/MoRe/为什么4D重建这么难在进行3D或4D重建时模型需要准确估计每一帧画面的“相机姿态”也就是你拿着手机的位姿和“深度信息” 。但是当场景中有物体在移动时比如突然跑过去一只狗模型常常会分不清“到底是相机在动还是世界在动” 。传统的基于 Transformer 的大模型如 VGGT在处理这类视频时注意力会被移动的物体分散导致特征被污染最终预测出的相机参数精度大打折扣 。为了解决这个问题MoRe 团队提出了两个绝妙的思路让模型学会“无视”动态物体专注静态背景。专门设计适合视频流的“记忆机制”保证实时处理且不丢失全局视野。核心黑科技一Attention-Forcing注意力强制机制怎么才能让模型自动忽略画面里的移动物体呢MoRe 的做法非常巧妙在训练阶段“打个小抄”但在推理阶段“闭卷考试”。研究团队在训练时引入了真实的动态遮罩Ground-truth motion masks。他们将画面分成一个个小块Patch并通过遮罩计算出每一个图像 Token 的“静态得分”Motion score值越大代表越静止ai1−1s2∑(u,v)∈mimi(u,v)a_{i}1-\frac{1}{s^{2}}\sum_{(u,v)\in m_{i}}m_{i}(u,v)ai1−s21(u,v)∈mi∑mi(u,v)这个得分aia_{i}ai的范围在[0,1][0,1][0,1]之间代表了我们对图像 Token 先验的认知 。接着MoRe 采用了一种Attention-forcing注意力强制策略用一个专门的损失函数来监督相机的注意力权重αi\alpha_{i}αiLatn1M∑i1Mmax(0,ai−C)⋅αi\mathcal{L}_{atn}\frac{1}{M}\sum_{i1}^{M}max(0,a_{i}-C)\cdot\alpha_{i}LatnM1i1∑Mmax(0,ai−C)⋅αi简单来说这个公式的作用是如果某个区域明明在剧烈运动但相机的注意力αi\alpha_{i}αi却死死盯着它模型就会受到严厉的“惩罚”。论文中的 Figure 3 直观展示了这种机制的威力。在对比中传统的 VGGT 模型把注意力均匀地分散在了骑车的人动态和背景上导致预测混乱 。而经过 Attention-forcing 训练的 MoRe 模型其注意力如同被“净化”了一般牢牢锁定在静态的地面和墙壁上 。最棒的是这完全是训练时的技巧。在实际使用推理时你不需要输入任何遮罩模型已经形成了肌肉记忆自动懂得避开动态干扰 。核心黑科技二分组因果注意力与全局优化解决了动态干扰接下来要解决的是“速度”和“连贯性”问题。处理长视频如果一次性把所有帧塞进大模型显存会瞬间爆炸 。因此MoRe 采用了类似大语言模型LLM的流式推理Streaming Inference。1. 分组因果注意力 (Grouped Causal Attention)传统的因果注意力Causal Attention会把所有 Token 排成一列后面只能看前面。但这在图像里行不通因为同一帧画面里的左上角和右下角是需要互相看到的 。MoRe 创新性地设计了分组因果注意力在同一帧画面内Token 可以互相看到保持空间一致性。在不同帧之间严格遵守时间顺序当前帧只能看到过去的帧保持时间因果性。每一帧的特征提取可以用以下公式表示FtAttn(Qt,[K1:t−1,Kt],[V1:t−1,Vt])F_{t}Attn(Q_{t},[K_{1:t-1},K_{t}],[V_{1:t-1},V_{t}])FtAttn(Qt,[K1:t−1,Kt],[V1:t−1,Vt])这种设计让 MoRe 可以像看直播一样一帧一帧顺畅地处理视频而不需要把之前的画面重新计算一遍大大提升了效率 。论文中的 Figure 4 清晰地画出了这种“楼梯状”的注意力掩码矩阵确保了时间上的因果性与空间上的双向可见性 。2. 轻量级全局优化 (BA-like Refinement)不过流式处理有个通病走得太远容易忘了初心误差累积。为了解决这个问题MoRe 在处理完整个视频序列后会进行一次类似 BABundle Adjustment光束平差法的全局修正。系统会把缓存的相机查询 TokenCamera Queries拿出来对着所有帧的特征重新做一次全局注意力计算CtoptAttn(Qtcam,[K1:T],[V1:T])C_{t}^{opt}Attn(Q_{t}^{cam},[K_{1:T}],[V_{1:T}])CtoptAttn(Qtcam,[K1:T],[V1:T])这相当于在极短的时间内对全局的相机轨迹进行了一次快速的“对齐和微调”保证了长序列中的几何一致性 。性能表现快、准、狠经过大模型时代的“暴力美学”微调在多达12个不同的动静态数据集上训练MoRe 展现出了极其强悍的泛化能力 。极高的精度在 Sintel、TUM-dynamics 等极其具有挑战性的动态数据集上MoRe 无论是在相机位姿估计还是视频深度估计上都全面碾压了现有的流式处理基线模型如 Stream3R, CUT3R。丝滑的速度尽管能够输出高质量的 4D 几何结构MoRe 在 KITTI 数据集上的推理速度仍然达到了惊人的30.09 FPS这意味着它完全具备了在自动驾驶、AR/VR 设备上进行实时重建的潜力 。论文 Figure 6 和 7 展示了定性的点云重建对比。其他方法往往在人群移动或复杂背景下产生大面积的几何扭曲而 MoRe 重建出的场景不仅清晰且物体的运动轨迹与静态背景层次分明 。总结MoRe 为我们展示了一条优雅且高效的 4D 重建新路径不需要额外的运动分割模块仅仅通过巧妙的 Attention-Forcing 训练策略就让大模型具备了分离动态物体和静态背景的本能 。融合分组因果注意力和全局对齐在保证极高实时性的同时守住了长时间几何一致性的底线 。从学术走向落地MoRe 让单目视频实时 4D 重建变得更加触手可及。