June 02, 2026

Generative Depth Supervision for Embodied Vision-Language Models

28 minutes

Vision-language model that adds generative depth prediction during pre-training for physical grounding; achieves SOTA on embodied benchiments and transfers directly to real-robot tasks.

...more

View all episodes

By Shaoqing Tan

June 02, 2026

Generative Depth Supervision for Embodied Vision-Language Models

28 minutes

Vision-language model that adds generative depth prediction during pre-training for physical grounding; achieves SOTA on embodied benchiments and transfers directly to real-robot tasks.

...more

Share Generative Depth Supervision for Embodied Vision-Language Models

Sign up to save your podcasts

Generative Depth Supervision for Embodied Vision-Language Models

Generative Depth Supervision for Embodied Vision-Language Models