本文介绍了一种名为 D4RT 的新型前馈神经网络模型,旨在高效地从视频中重建动态场景的 3D 几何结构与运动轨迹。该研究由 Google DeepMind 等机构提出,其核心创新在于通过统一的 Transformer 架构 将复杂的 4D 重建任务简化为一种灵活的点位查询机制。模型能够根据输入的视频生成全局场景表示,并允许用户通过单一接口独立查询空间与时间中任何点的 3D 坐标、相机参数及运动路径。这种设计不仅消除了传统方法中繁重的按帧解码与多模型融合过程,还显著提升了处理速度与精确度。实验证明,D4RT 在动态场景追踪、点云重建和深度图生成等多项视觉任务中均达到了领先水平。
https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/