张小珺Jùn|商业访谈录

121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google


Listen Later

今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。

中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。

本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。

前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。

由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。

02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人

嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学

从图形学转型机器人的变轨

我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用

Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型

大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑)

13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet

今天的机器人发展到什么阶段了?

从demo到真正落地,隔十年并不是一个非常夸张的事

从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型

但多模态模型缺什么呢?缺少robot action的输出

当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争

23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情

最大的问题还是数据问题

但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情

它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的

现在有很多startup叫data factory(数据工厂)

所谓“数据金字塔”包括哪些?

​27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀

Gemini Robotics 1.5最重要的发现是什么?

第一个是我们把“thinking”加入了VLA模型

第二个非常重要的突破是cross-embodiment transfer(跨具身迁移)

Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分

它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制

当你要一个unify model(统一模型)的时候,它必须非常大

Motion Transfer?It’s very secret

47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段

我们比较重视的一点还是数据、数据、数据

遥操作是非常难以获取的数据

我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据

真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据

在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代

我信仰的是scalable data

01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像

世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧

从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型

当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是

世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像

01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件

如果你有灵巧手,触觉就非常重要

之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件

现在还在夹爪时代

在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题

在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态

如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰)

01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”

这几年Google AI或者robotics的研究文化上有没有发生过变化?

不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情

像Gemini Robotics,它更多是自上而下

我发觉好像国内不一定比我卷,我一周可能工作70到80个小时

真的,这个时代真的是等不起,不然别人都做出来了

AI有很多是数学,华人数学比较好

《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》

《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》

【更多信息】

本集的文字版本已发布,请搜索我们工作室的官方公众号:

语言即世界language is world

...more
View all episodesView all episodes
Download on the App Store

张小珺Jùn|商业访谈录By 张小珺

  • 4.5
  • 4.5
  • 4.5
  • 4.5
  • 4.5

4.5

33 ratings


More shows like 张小珺Jùn|商业访谈录

View all
疯投圈 by 黄海、Rio

疯投圈

113 Listeners

创业内幕 Startup Insider by 纪源小馆

创业内幕 Startup Insider

42 Listeners

三五环 by 刘飞Lufy

三五环

45 Listeners

硅谷101 by 硅谷101

硅谷101

197 Listeners

硅谷101|中国版 by 泓君Jane

硅谷101|中国版

56 Listeners

商业就是这样 by 商业就是这样

商业就是这样

291 Listeners

大小马聊科技 by 大小马聊科技

大小马聊科技

5 Listeners

Web3 101 by Web3 101

Web3 101

24 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

323 Listeners

42章经 by KaiQu

42章经

12 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

52 Listeners

厚雪长波 by 雪球官方账号

厚雪长波

10 Listeners

知本论 by 知本论

知本论

4 Listeners

高能量 by 李翔李翔

高能量

32 Listeners

小Lin说 by 小Lin说

小Lin说

52 Listeners