MITHarvard 最新提出 PAGE-4D:让 3D 模型“看懂“动态世界的统一框架
视觉几何基础变换器(VGGT)在静态场景中表现优异但在动态场景下面临固有矛盾相机姿态估计需抑制动态区域而几何重建则需建模动态信息。如何在统一框架下协调这一任务冲突来自MIT和Harvard的研究团队提出了PAGE-4D(Disentangled Pose and Geometry Estimation for VGGT-4D Perception)模型。该模型通过动态感知聚合器(Dynamics-aware Aggregator)预测动态感知掩码实现静态与动态信息的解耦在姿态估计中抑制运动线索在几何重建中增强动态表示。该框架无需后处理可端到端完成相机姿态估计、深度预测和点云重建等任务。论文标题PAGE-4D: Disentangled Pose and Geometry Estimation for VGGT-4D Perception 论文链接https://arxiv.org/abs/2510.17568 项目主页https://page4d.github.io/ 作者团队Kaichen Zhou, Yuhan Wang, Grace Chen, Xinhai Chang, Gaspard Beaudouin, Fangneng Zhan, Paul Pu Liang, Mengyu Wang研究背景与挑战真实世界场景中动态对象普遍存在对三维感知任务提出了不同要求相机姿态估计需抑制动态区域以获取准确相机运动几何重建需建模动态区域以还原完整场景几何这种任务间的固有冲突是多任务4D重建的核心挑战。传统方法往往难以在同一框架下同时满足这两种相反的需求导致在动态场景中性能下降。核心发现从实验观察到问题洞察实验观察虽然VGGT在静态场景理解中达到了最先进的性能但在存在动态对象时其精度显著下降。在Odyssey测试集上动态区域的绝对深度误差比静态区域高94%这凸显了需要一个能够在静态和动态场景中都实现可靠场景理解的架构。特征可视化分析通过对VGGT关键层的特征可视化分析研究团队观察到动态区域表现出比静态区域更弱的激活这表明VGGT倾向于忽略动态内容。进一步的消融实验显示当明确抑制动态token的跨帧注意力时相机姿态估计得到改善但同时导致几何重建性能急剧下降。核心洞察这些发现揭示了动态场景中的根本矛盾相机姿态估计需要抑制动态区域以保持对极一致性而几何重建则需要利用它们的运动线索。在动态场景中相机姿态估计对动态运动很脆弱小的残差可能破坏本质矩阵拟合而几何和跟踪任务实际上可以从建模动态运动中受益。PAGE-4D方法概述基于这一洞察研究团队提出了PAGE-4D一个动态感知的VGGT扩展。PAGE-4D由四个关键组件组成1.预训练的DINO-style编码器提取图像级表示2.动态感知聚合器Dynamics-aware Aggregator通过三个模块整合空间和时间线索——Frame Attention用于帧间patch关系Global Attention用于帧内patch关系Dynamics-Aware Global Attention用于解耦动态和静态内容3.轻量级解码器用于深度和3D点云地图4.更大的解码器专门用于相机姿态估计PAGE-4D继承了VGGT的组件(1)、(3)和(4)而将组件(2)扩展为三阶段动态感知聚合器。三阶段动态感知聚合器第一阶段由N₁层组成每层包含一个Global Attention块和一个Frame Attention块。其输出送入动态掩码预测模块生成动态感知掩码。动态掩码预测: 动态掩码预测模块以自监督方式学习哪些空间区域可能对应动态对象。如图(a)所示该模块从聚合器中提取patch tokens通过线性映射投影到低维表示然后使用深度卷积头生成掩码logits。通过引入可学习的温度参数τ和缩放因子α将logits转换为抑制概率形成连续的自适应抑制权重而非二值掩码使其对模糊的运动边界和部分遮挡更加鲁棒。第二阶段应用动态感知掩码来解耦动态和静态内容用于姿态和几何估计。该阶段由N₂层组成每层包含一个Dynamics-Aware Global Attention块和一个Frame Attention块。掩码注意力机制一旦预测出动态掩码它可以被直接整合到transformer注意力机制中。如图(b)所示对于相机姿态估计任务掩码主动抑制对动态区域的注意力确保与对极几何和静态场景约束的一致性。而对于深度和点云任务掩码不应用于相关patch允许网络利用动态运动线索来改善点云地图重建和2D-3D跟踪精度。这种非对称设计明确解耦了动态区域在不同任务中的作用。第三阶段由N₃层组成结构与第一阶段类似。实验结果研究团队在多个动态场景中对PAGE-4D进行了广泛的实验验证涵盖了视频深度估计、单目深度估计、相机姿态估计、点云地图重建和新视角合成等多个任务。定量结果广泛的实验表明PAGE-4D在动态场景中始终优于原始VGGT在相机姿态估计、单目和视频深度估计以及密集点云地图重建等任务上均取得了卓越的成果。相比VGGTPAGE-4D在多个基准测试上实现了显著改进深度估计准确率提升20-40%相机姿态估计误差降低13-21%点云重建准确度误差降低60%以上。定性结果PAGE-4D能够从RGB输入中估计相机姿态和深度图即使在存在动态对象的情况下也能实现高质量的点云重建。如图5所示对比VGGTPAGE-4D生成的点云更加密集、完整几何一致性更好能够有效捕捉动态物体的细节和完整场景结构。鲁棒性PAGE-4D在显著提升性能的同时保持了与VGGT相同的推理速度43.2FPS未增加计算成本。该方法在从视频序列到单帧输入的泛化方面表现良好优于DUSt3R、MonST3R和FLARE等专用基线方法。在动态场景渲染应用中将PAGE-4D重建的点云作为4D-Gaussian splatting框架的初始化在Nerfie基准测试上实现了优于现有前馈3D重建模型的渲染性能展现了良好的鲁棒性和泛化能力。总结PAGE-4D通过动态感知聚合器实现了静态与动态信息的有效解耦在相机姿态估计、深度预测和密集点云地图重建等任务上均取得了卓越的成果。这项工作为三维视觉感知在复杂动态环境中的应用提供了新的思路和方法有望推动动态感知技术的进一步发展。重要的是PAGE-4D展示了通过有效的解耦策略即使在有限的动态数据下也能实现强大的泛化能力为可扩展和高效的4D场景理解铺平了道路。如果你对4D感知、动态场景理解或多任务视觉模型感兴趣欢迎在评论区留言交流

相关新闻

3.11 OJ

3.11 OJ

一、题目:最长的单词作者: ZhuKai时间限制: 10s章节: 字符串问题描述明明刚开始学习英语的时候,对英语有浓厚的兴趣,但是随着时间的推移,英语单词量的增加,明明越来越觉得背单词是一件相当痛苦的事情。于是他想出各种各…

2026/7/4 20:34:56 阅读更多 →
2026最新鸿蒙开发面试题合集(持续更新中......)

2026最新鸿蒙开发面试题合集(持续更新中......)

平时在面试时候每次都要准备很多,于是将平时遇见的最常见的面试题做一下汇总,方便自己查看,后面也会持续更新中。 1、鸿蒙中应用、UIAbility、窗口、页面、组件之间的关系,页面和自定义组件生命周期有哪些? 这个可以参考自己写…

2026/7/5 3:50:19 阅读更多 →
RS-28 “萨尔马特“(Sarmat, SS-X-30)洲际弹道导弹技术评估报告

RS-28 “萨尔马特“(Sarmat, SS-X-30)洲际弹道导弹技术评估报告

Technical Assessment Report on RS-28 "Sarmat" Intercontinental Ballistic Missile 报告编号:R-2026-0311 编制日期:2026年3月11日 密级:公开资料汇编 目录 RS-28 "萨尔马特"(Sarmat, SS-X-30&#xff09…

2026/7/4 14:34:04 阅读更多 →

最新新闻

文旅伴手礼场景,白酒包装定制如何融合地方特色元素

文旅伴手礼场景,白酒包装定制如何融合地方特色元素

文旅伴手礼视角下的白酒包装定制策略在文旅产业与地方酒文化深度融合的背景下,白酒包装定制已不再局限于简单的瓶身印刷,而是演变为承载地域文化、提升伴手礼附加值的关键载体。对于景区管理机构、地方酒企及文创开发团队而言,如何将地方特色…

2026/7/5 6:09:48 阅读更多 →
如何轻松管理Minecraft游戏体验:PCL启动器完整指南

如何轻松管理Minecraft游戏体验:PCL启动器完整指南

如何轻松管理Minecraft游戏体验:PCL启动器完整指南 【免费下载链接】PCL Minecraft 启动器 Plain Craft Launcher(PCL)。 项目地址: https://gitcode.com/gh_mirrors/pc/PCL 如果你是一位Minecraft玩家,是否曾为复杂的游戏…

2026/7/5 6:07:48 阅读更多 →
WPS-Zotero插件:5分钟搞定跨平台文献引用,科研写作效率翻倍

WPS-Zotero插件:5分钟搞定跨平台文献引用,科研写作效率翻倍

WPS-Zotero插件:5分钟搞定跨平台文献引用,科研写作效率翻倍 【免费下载链接】WPS-Zotero An add-on for WPS Writer to integrate with Zotero. 项目地址: https://gitcode.com/gh_mirrors/wp/WPS-Zotero 还在为Windows和Linux之间切换文献管理软…

2026/7/5 6:05:48 阅读更多 →
StreamCap终极指南:3步掌握开源直播录制工具,轻松录制40+平台直播内容

StreamCap终极指南:3步掌握开源直播录制工具,轻松录制40+平台直播内容

StreamCap终极指南:3步掌握开源直播录制工具,轻松录制40平台直播内容 【免费下载链接】StreamCap Multi-Platform Live Stream Automatic Recording Tool | 多平台直播流自动录制客户端 基于FFmpeg 支持监控/定时/转码 项目地址: https://gitcode.co…

2026/7/5 6:05:48 阅读更多 →
ROS Kinetic 系统下 SpotMicro 12舵机校准:从表格数据到YAML配置的5步实操

ROS Kinetic 系统下 SpotMicro 12舵机校准:从表格数据到YAML配置的5步实操

ROS Kinetic 系统下 SpotMicro 12舵机校准:从表格数据到YAML配置的5步实操 四足机器人SpotMicro的舵机校准是确保运动精度的关键环节。本文将手把手带您完成从原始测量数据到最终YAML配置文件的完整流程,特别针对ROS Kinetic系统中的12舵机校准场景。不同…

2026/7/5 6:03:47 阅读更多 →
SchoolCMS开源教务管理系统:5步打造高效智能的学校管理平台

SchoolCMS开源教务管理系统:5步打造高效智能的学校管理平台

SchoolCMS开源教务管理系统:5步打造高效智能的学校管理平台 【免费下载链接】schoolcms 中国首个开源学校教务管理系统、网站布局自动化、学生/成绩/教师、成绩查询 项目地址: https://gitcode.com/gh_mirrors/sc/schoolcms 还在为学校教务管理工作效率低下而…

2026/7/5 5:57:46 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻