CVPR 2026 | 手机视频秒变4D场景!清华理想联合提出MoRe:实时、抗动态干扰的4D重建神器
想象一下你拿着手机随手拍了一段街景视频里面有走动的人群、穿梭的车辆。如果能立刻把这段视频转化为一个包含时间维度的动态3D数字孪生世界即4D重建是不是非常酷炫传统的重建技术在静态场景下表现完美但一旦遇到动态物体模型常常会“晕头转向”导致相机轨迹和深度估计全部崩溃 。现有的优化方法虽然能缓解这个问题但计算成本太高根本无法做到“实时” 。今天我们要解读由清华大学和理想汽车团队联合提出的一项重磅研究MoRe (Motion-aware Feed-forward 4D Reconstruction Transformer)。它不仅能从单目视频中高效恢复动态3D场景还能做到极速的流式推理 。论文标题MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer论文链接https://arxiv.org/abs/2603.05078v2代码链接https://hellexf.github.io/MoRe/为什么4D重建这么难在进行3D或4D重建时模型需要准确估计每一帧画面的“相机姿态”也就是你拿着手机的位姿和“深度信息” 。但是当场景中有物体在移动时比如突然跑过去一只狗模型常常会分不清“到底是相机在动还是世界在动” 。传统的基于 Transformer 的大模型如 VGGT在处理这类视频时注意力会被移动的物体分散导致特征被污染最终预测出的相机参数精度大打折扣 。为了解决这个问题MoRe 团队提出了两个绝妙的思路让模型学会“无视”动态物体专注静态背景。专门设计适合视频流的“记忆机制”保证实时处理且不丢失全局视野。核心黑科技一Attention-Forcing注意力强制机制怎么才能让模型自动忽略画面里的移动物体呢MoRe 的做法非常巧妙在训练阶段“打个小抄”但在推理阶段“闭卷考试”。研究团队在训练时引入了真实的动态遮罩Ground-truth motion masks。他们将画面分成一个个小块Patch并通过遮罩计算出每一个图像 Token 的“静态得分”Motion score值越大代表越静止ai1−1s2∑(u,v)∈mimi(u,v)a_{i}1-\frac{1}{s^{2}}\sum_{(u,v)\in m_{i}}m_{i}(u,v)ai​1−s21​(u,v)∈mi​∑​mi​(u,v)这个得分aia_{i}ai​的范围在[0,1][0,1][0,1]之间代表了我们对图像 Token 先验的认知 。接着MoRe 采用了一种Attention-forcing注意力强制策略用一个专门的损失函数来监督相机的注意力权重αi\alpha_{i}αi​Latn1M∑i1Mmax(0,ai−C)⋅αi\mathcal{L}_{atn}\frac{1}{M}\sum_{i1}^{M}max(0,a_{i}-C)\cdot\alpha_{i}Latn​M1​i1∑M​max(0,ai​−C)⋅αi​简单来说这个公式的作用是如果某个区域明明在剧烈运动但相机的注意力αi\alpha_{i}αi​却死死盯着它模型就会受到严厉的“惩罚”。论文中的 Figure 3 直观展示了这种机制的威力。在对比中传统的 VGGT 模型把注意力均匀地分散在了骑车的人动态和背景上导致预测混乱 。而经过 Attention-forcing 训练的 MoRe 模型其注意力如同被“净化”了一般牢牢锁定在静态的地面和墙壁上 。最棒的是这完全是训练时的技巧。在实际使用推理时你不需要输入任何遮罩模型已经形成了肌肉记忆自动懂得避开动态干扰 。核心黑科技二分组因果注意力与全局优化解决了动态干扰接下来要解决的是“速度”和“连贯性”问题。处理长视频如果一次性把所有帧塞进大模型显存会瞬间爆炸 。因此MoRe 采用了类似大语言模型LLM的流式推理Streaming Inference。1. 分组因果注意力 (Grouped Causal Attention)传统的因果注意力Causal Attention会把所有 Token 排成一列后面只能看前面。但这在图像里行不通因为同一帧画面里的左上角和右下角是需要互相看到的 。MoRe 创新性地设计了分组因果注意力在同一帧画面内Token 可以互相看到保持空间一致性。在不同帧之间严格遵守时间顺序当前帧只能看到过去的帧保持时间因果性。每一帧的特征提取可以用以下公式表示FtAttn(Qt,[K1:t−1,Kt],[V1:t−1,Vt])F_{t}Attn(Q_{t},[K_{1:t-1},K_{t}],[V_{1:t-1},V_{t}])Ft​Attn(Qt​,[K1:t−1​,Kt​],[V1:t−1​,Vt​])这种设计让 MoRe 可以像看直播一样一帧一帧顺畅地处理视频而不需要把之前的画面重新计算一遍大大提升了效率 。论文中的 Figure 4 清晰地画出了这种“楼梯状”的注意力掩码矩阵确保了时间上的因果性与空间上的双向可见性 。2. 轻量级全局优化 (BA-like Refinement)不过流式处理有个通病走得太远容易忘了初心误差累积。为了解决这个问题MoRe 在处理完整个视频序列后会进行一次类似 BABundle Adjustment光束平差法的全局修正。系统会把缓存的相机查询 TokenCamera Queries拿出来对着所有帧的特征重新做一次全局注意力计算CtoptAttn(Qtcam,[K1:T],[V1:T])C_{t}^{opt}Attn(Q_{t}^{cam},[K_{1:T}],[V_{1:T}])Ctopt​Attn(Qtcam​,[K1:T​],[V1:T​])这相当于在极短的时间内对全局的相机轨迹进行了一次快速的“对齐和微调”保证了长序列中的几何一致性 。性能表现快、准、狠经过大模型时代的“暴力美学”微调在多达12个不同的动静态数据集上训练MoRe 展现出了极其强悍的泛化能力 。极高的精度在 Sintel、TUM-dynamics 等极其具有挑战性的动态数据集上MoRe 无论是在相机位姿估计还是视频深度估计上都全面碾压了现有的流式处理基线模型如 Stream3R, CUT3R。丝滑的速度尽管能够输出高质量的 4D 几何结构MoRe 在 KITTI 数据集上的推理速度仍然达到了惊人的30.09 FPS这意味着它完全具备了在自动驾驶、AR/VR 设备上进行实时重建的潜力 。论文 Figure 6 和 7 展示了定性的点云重建对比。其他方法往往在人群移动或复杂背景下产生大面积的几何扭曲而 MoRe 重建出的场景不仅清晰且物体的运动轨迹与静态背景层次分明 。总结MoRe 为我们展示了一条优雅且高效的 4D 重建新路径不需要额外的运动分割模块仅仅通过巧妙的 Attention-Forcing 训练策略就让大模型具备了分离动态物体和静态背景的本能 。融合分组因果注意力和全局对齐在保证极高实时性的同时守住了长时间几何一致性的底线 。从学术走向落地MoRe 让单目视频实时 4D 重建变得更加触手可及。

相关新闻

Android TV开发常见问题解决:基于tv-samples项目的经验总结

Android TV开发常见问题解决:基于tv-samples项目的经验总结

Android TV开发常见问题解决:基于tv-samples项目的经验总结 【免费下载链接】tv-samples Multiple samples showing best practices in app development on Android TV. 项目地址: https://gitcode.com/gh_mirrors/tv/tv-samples tv-samples项目是Android TV…

2026/7/3 4:23:42 阅读更多 →
企微机器人开发 API:实现私域流量自动化管理的标准化方案

企微机器人开发 API:实现私域流量自动化管理的标准化方案

在企业微信二次开发中,企微机器人是连接业务系统与私域流量的核心桥梁。通过 API 调用,开发者可以摆脱人工操作,实现 724 小时的自动化响应、群控管理及消息推送,极大提升私域运营效率。 1. 能力介绍 本接口方案专为企业微信二次…

2026/7/4 1:35:54 阅读更多 →
终极指南:如何将 gh-dash 与 Teamwork 完美集成实现高效团队协作

终极指南:如何将 gh-dash 与 Teamwork 完美集成实现高效团队协作

终极指南:如何将 gh-dash 与 Teamwork 完美集成实现高效团队协作 【免费下载链接】gh-dash A beautiful CLI dashboard for GitHub 🚀 项目地址: https://gitcode.com/gh_mirrors/gh/gh-dash gh-dash 是一款强大的 GitHub CLI 仪表盘工具&#x…

2026/5/17 10:43:16 阅读更多 →

最新新闻

大模型竞赛本质是国家能力的系统性较量

大模型竞赛本质是国家能力的系统性较量

1. 为什么这场AI大模型竞赛,本质上是一场“国家能力”的极限拉力赛?你有没有注意过一个现象:2023年之后,全球突然冒出几十家号称“自研大模型”的公司,但真正能稳定发布千亿参数以上基础模型、持续迭代、并支撑起真实产…

2026/7/4 17:16:58 阅读更多 →
Qwen3.5-27B中文大模型选型与工程落地指南

Qwen3.5-27B中文大模型选型与工程落地指南

1. 项目概述:为什么“无脑选 Qwen3.5-27B”不是口号,而是当前中文大模型落地的理性共识最近在多个技术团队做模型选型咨询时,几乎每场讨论都会有人抛出一句:“Qwen3.5系列大模型,无脑选 Qwen3.5-27B”。起初我以为是社…

2026/7/4 17:16:58 阅读更多 →
客户流失预警模型构建与优化实战指南

客户流失预警模型构建与优化实战指南

1. 客户流失风险预警的核心价值 客户流失风险预警(Churn Risk)是客户关系管理中最具挑战性的分析场景之一。我在金融科技行业做用户增长时,曾通过构建流失预警模型将高价值客户留存率提升了37%。这个看似简单的指标背后,隐藏着客户…

2026/7/4 17:14:58 阅读更多 →
VLM自动驾驶评测三把尺:BEV-LLM、VLADBench与DriveBench实战解析

VLM自动驾驶评测三把尺:BEV-LLM、VLADBench与DriveBench实战解析

1. 这不是“自动驾驶变聪明了”,而是我们终于开始认真考它了 最近刷到ICCV 2025那篇标题带感叹号的论文时,我正调试一个BEV感知模块,手边还摊着三份不同团队提交的VLM推理日志。标题里那个“竟靠蒙?”不是修辞,是实测结…

2026/7/4 17:12:57 阅读更多 →
掌控Mac睡眠:SleeperX让你的电脑按需休眠

掌控Mac睡眠:SleeperX让你的电脑按需休眠

掌控Mac睡眠:SleeperX让你的电脑按需休眠 【免费下载链接】SleeperX MacBook prevent idle/lid sleep! Hackintosh sleep on low battery capacity. 项目地址: https://gitcode.com/gh_mirrors/sl/SleeperX 你是否经历过MacBook合上盖子后重要下载突然中断的…

2026/7/4 17:12:57 阅读更多 →
电商AI客服Agent实战:OpenClaw多智能体架构解析

电商AI客服Agent实战:OpenClaw多智能体架构解析

1. 项目背景与核心价值去年双十一大促期间,我们电商技术团队遇到了一个典型痛点:客服咨询量暴增300%,但人工客服响应时间从平均30秒延长到8分钟。与此同时,商品推荐、订单查询等标准化需求占用了70%的客服人力。这促使我们开始探索…

2026/7/4 17:12:57 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻