
Sign up to save your podcasts
Or


想知道机器如何像人一样“看懂”深度?在今天的播客中,我们将深入探讨创新性的“深度万物”(Depth Anything)模型。它并非追求复杂新技术,而是旨在构建一个能处理任何图像、任何场景的单目深度估计(MDE)基础模型。
其核心突破在于海量无标签单目图像(约6200万张)的数据扩容。这些图像通过预训练MDE模型被高效地进行伪标注,极大地拓展了数据覆盖范围。为了充分利用这些海量无标签数据,解决简单自训练的局限性,“深度万物”引入了两大关键策略:
结果令人惊叹:“深度万物”展现出卓越的零样本泛化能力,在多个未见数据集上持续超越MiDaS。经度量深度信息微调后,它在NYUv2和KITTI等基准测试上创造了新的最先进(SOTA)记录。更令人振奋的是,其训练的编码器也成为一个通用多任务视觉感知系统,在下游语义分割任务中同样表现出色。点击收听,解锁机器深度感知的未来!
来源:Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
🔗 本期节目NotebookLM 资料库:
https://notebooklm.google.com/notebook/7004eca5-914c-4bf0-b98f-b545268a8944
---
【关于本播客】
在这个AI技术浪潮席卷一切的时代,我们不禁自问:作为“人”的独特价值究竟是什么?本播客借助经典哲学与社会学著作,与AI深度对谈,共同探寻在智能时代里安身立命的路径。
🎧 在其他平台收听:
* Youtube: www.youtube.com
* 小宇宙: www.xiaoyuzhoufm.com
Apple Podcasts: podcasts.apple.com
* Spotify: open.spotify.com
* 喜马拉雅: www.ximalaya.com
👋 联系与互动:
x.com
By 谢可新想知道机器如何像人一样“看懂”深度?在今天的播客中,我们将深入探讨创新性的“深度万物”(Depth Anything)模型。它并非追求复杂新技术,而是旨在构建一个能处理任何图像、任何场景的单目深度估计(MDE)基础模型。
其核心突破在于海量无标签单目图像(约6200万张)的数据扩容。这些图像通过预训练MDE模型被高效地进行伪标注,极大地拓展了数据覆盖范围。为了充分利用这些海量无标签数据,解决简单自训练的局限性,“深度万物”引入了两大关键策略:
结果令人惊叹:“深度万物”展现出卓越的零样本泛化能力,在多个未见数据集上持续超越MiDaS。经度量深度信息微调后,它在NYUv2和KITTI等基准测试上创造了新的最先进(SOTA)记录。更令人振奋的是,其训练的编码器也成为一个通用多任务视觉感知系统,在下游语义分割任务中同样表现出色。点击收听,解锁机器深度感知的未来!
来源:Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
🔗 本期节目NotebookLM 资料库:
https://notebooklm.google.com/notebook/7004eca5-914c-4bf0-b98f-b545268a8944
---
【关于本播客】
在这个AI技术浪潮席卷一切的时代,我们不禁自问:作为“人”的独特价值究竟是什么?本播客借助经典哲学与社会学著作,与AI深度对谈,共同探寻在智能时代里安身立命的路径。
🎧 在其他平台收听:
* Youtube: www.youtube.com
* 小宇宙: www.xiaoyuzhoufm.com
Apple Podcasts: podcasts.apple.com
* Spotify: open.spotify.com
* 喜马拉雅: www.ximalaya.com
👋 联系与互动:
x.com