Share 【第348期】（中文）V-JEPA 2：视频基础模型新里程碑

Copy link

September 13, 2025

【第348期】（中文）V-JEPA 2：视频基础模型新里程碑

7 minutes

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。

今天的主题是：V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Summary

该来源介绍了V-JEPA 2，这是一种自监督学习方法，它结合了大规模网络视频数据和少量机器人交互数据，以构建能够理解、预测和规划物理世界的模型。通过预训练在超过一百万小时的视频上，V-JEPA 2在运动理解和人类动作预测方面取得了最先进的性能。此外，当与大型语言模型结合时，它在视频问答任务中表现出色。该研究还展示了如何通过对V-JEPA 2进行后期训练，使其能够零次规划机器人操作任务，例如抓取和放置物体，而无需在特定环境中进行额外数据收集或任务训练。

原文链接：https://arxiv.org/abs/2506.09985

...more

View all episodes

By 任雨山