如果说大语言模型的跃迁,来自互联网沉淀下来的海量人类语言数据;那么在机器人世界里,是否也存在一种同样关键的数据?不是文字,不是图片,而是人拿起杯子、打开抽屉、穿过房间、和另一个人互动时,身体在物理世界里留下的痕迹。这个问题,正是我们这期节目最重要的关键词:human data,人类数据。
本期嘉宾 Danfei Xu:
Danfei 一直把自己定义成一个 roboticist,机器人学家,不是只在屏幕上训练模型的人,而是那个愿意坐在机器人旁边,看它动、看它坏、再把它修好的人。从早年折腾单片机小车,到斯坦福几乎从零搭建 robot learning 系统;从不被看好的 behavior cloning,到今天思考 human data 如何成为机器人学习的底层燃料,他的技术主线始终不是单点算法,而是一个完整全栈问题。
在这期节目里,我们会聊徐丹飞如何走上机器人这条路,human data 会不会成为 robot learning 的 GPT moment的基石?人形机器人和人类数据究竟是谁成就谁?当机器人开始学习人的操作、人的身体、甚至人和人之间的互动,它的智能上限是什么?
这里是 WhynotTV Podcast。现在,请和我一起,走进Danfei Xu的世界。
---
00:02:00 - 徐丹飞为什么一直把自己定义为 roboticist
00:03:27 - 小时候的徐丹飞是什么样的小孩
00:05:34 - 为什么高中时决定去美国读本科
00:11:40 - 18岁前的经历如何塑造了对不确定性的适应力
00:13:47 - 大一大二 cold call 机器人公司做 research
00:24:00 - 为什么 PhD 选择了当时“机器人荒漠”的 Stanford
00:30:18 - 2016-2017 年 robot learning 领域是什么样的
00:36:12 - 在 DeepMind 暑研如何看到 behavior cloning actually works
00:38:57 - 什么是机器人里的 behavior cloning
00:40:16 - 为什么当时整个领域看不上 behavior cloning
00:42:27 - RSS 2020 behavior cloning paper 的前世今生
00:49:45 - Behavior cloning 最难的为什么不是模型而是系统
00:57:17 - 为什么最后决定去找教职
00:59:24 - 什么是 robot learning,它和传统 robotics 的区别是什么
01:01:53 - 什么是机器人数据,什么是人类数据
01:03:52 - EgoMimic 的起点:为什么相信第一人称 human data
01:09:24 - 为什么从 teleoperation 转向 human data
01:11:40 - 从 ego video 里机器人到底能学到什么
01:15:20 - 为什么强调第一人称视频,而不是 YouTube 第三人称视频
01:20:17 - 为什么 SLAM / VIO 对 human data 如此重要
01:27:02 - 触觉 tactile 会在人类数据中扮演什么角色
01:30:16 - Human data 各种模态的重要性排序
01:32:27 - 什么是 UMI data,它到底是人类数据还是机器人数据
01:36:35 - 五指灵巧手和人类数据 transfer 的关键瓶颈
01:38:21 - Human data 和人形机器人是一荣俱荣吗
01:42:51 - 如果数据、算力、硬件无限,human data 的智能上限是什么
01:44:16 - 机器人如何获得类似互联网之于 LLM 的数据基础设施
01:47:22 - 要 behavior clone human 需要多少小时数据
01:49:08 - 为什么“不经意的人类数据”比任务采集数据更重要
01:55:03 - EgoVerse 与 open collective efforts for academia
01:59:39 - 为什么 full-stack robotics 如此重要
02:01:25 - 一个 robotics 团队哪些东西必须 in-house
02:04:33 - 今天的机器人离 Betty the Crow 的智能还差多远
02:13:47 - 徐丹飞的 career goal 与 robotics 的 GPT-3 moment
02:17:11 - 勇敢做自己想做的事:What's to lose?