OnBoard!

EP 44.【AI年终特辑3】具身智能深度对话:从学术到产业,机器人的ChatGPT时刻来了吗?


Listen Later

今年 OnBoard! 最后一期压轴上新!今年要谈论人工智能,怎么能错过这么一个重要的话题:机器人与AI的结合,或者说,Embodied intelligence, 具身智能。

大模型的思路是否能带来机器人的ChatGPT时刻?机器人要具备泛化能力,有哪些进展又有哪些瓶颈?通过机器人让人工智能具备与环境感知和交互的能力,会为通用人工智能AGI带来哪些新的想象空间?

Hello World, who is OnBoard!?

今年下半年以来,尤其在国内,已经有不下十几家具身智能创业公司涌现。这一轮热潮中,从学术到工业落地,如何分别噪音与真实?以前将AI应用于机器人的尝试,比起这次的技术突破,又有哪些相同与不同?

这次的嘉宾阵容,真是太适合回答这些问题了:

我们邀请了 Google DeepMind 的研究员Fei Xia,Deepmind 跟具身智能相关的最重磅的几个研究,从SayCan, PaLM-E,到 RT2,他都是核心参与者。还有来自国内头部机器人创业公司高仙机器人的深度学习总监 Jiaxin, 带来产业界的视角。以及 UCSD 的研究员 Fanbo Xiang,他参与的 Maniskill,SAPIEN 等与模拟环境相关的研究,都在学术前沿。

我们对AI泛化能力在机器人领域的落地进行了深入的讨论,也有不同观点的碰撞,精彩纷呈。

其实这一期的录制已经过去了几个月,阴差阳错成了今年的压轴,也算是对于OnBoard 全年的一个圆满句号,又是整个OnBoard 旅程小小的逗号。新的一年,不论世界如何起落,我们都选择相信未来有希望,珍惜每一次对话,赞美每一个在未知中选择的勇士。

Enjoy!

嘉宾介绍

Fei Xia, Google Deepmind 机器人团队资深研究员,PhD @Stanford University;PaLM-E,  PaLM-SayCan, RT-2 作者

Jiaxin Li, 高仙机器人深度学习总监,ex字节跳动研究员,PhD @National University of Singapore

Fanbo Xiang, PhD @UC San Diego;ManiSkill, SAPIEN 作者

OnBoard! 主持:

Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

02:47 几位嘉宾的自我介绍,主要的研究领域

05:34 大家最近看到的与具身智能相关的有意思的研究和行业进展

14:23 自动驾驶领域的生成模型,如何保证符合物理规律?

18:34 如何定义具身智能?什么是测试机器人AGI 的“咖啡测试” ?

27:59 梳理 Google Deepmind 机器人领域核心研究脉络:大模型对具身智能带来怎样的影响?

40:29 Fanbo 在做的 low level 控制相关的研究,如何与大模型相结合?

45:39 具身智能的实现目前有哪些主要技术路径?我们什么时候可以达到共识?

50:40 从产业落地的角度,如何看待大模型对机器人领域的影响?有哪些现实的挑战?

67:37 什么时候需要机器人具备通用能力?我们需要端到端的具身智能吗?

72:47 对 Scaling law 的争议:在机器人领域能复现吗?如何平衡长期通用性研究和短期商业落地的需要?

90:41 在具身智能系统的设计中,如何考虑加入人机互动的因素?

96:29 硬件的发展会如何影响具身智能的发展?

101:18 未来3-5年,大家最期望看到具身智能领域实现怎样的突破?有怎样值得期待的未来?

重要论文和词汇

  • PaLM-E: An Embodied Multimodal Language Model
  • SayCan: Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
  • RT-1: Robotics Transformer for Real-World Control at Scale
  • RT-2: Vision-Language-Action Models
  • ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable Manipulation Skills
  • ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills
  • SAPIEN: A SimulAted Part-based Interactive ENvironment
  • NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
  • VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models, by Feifei Li
  • VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding
  • Scaling laws for neural language models, by OpenAI
  • Vision Transformer (ViT) - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
  • ALOHA: A Low-cost Open-source Hardware System for Bimanual Teleoperation, from Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
  • The Bitter Lesson, by Rich Sutton
  • MIT PDDL (Planning Domain Definition Language)
  • sim2real: simulation to reality

我们提到的公司

  • Wayve.ai: reimagining self-driving with embodied AI
  • 有鹿智能
  • LoCoBot: An Open Source Low Cost Robot
  • 宇树科技

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励!

如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!

有任何心得和建议,也欢迎在评论区跟我们互动~

...more
View all episodesView all episodes
Download on the App Store

OnBoard!By Monica Xie

  • 5
  • 5
  • 5
  • 5
  • 5

5

37 ratings


More shows like OnBoard!

View all
疯投圈 by 黄海、Rio

疯投圈

109 Listeners

三五环 by 刘飞Lufy

三五环

44 Listeners

科技乱炖 by DAO

科技乱炖

24 Listeners

What's Next|科技早知道 by 声动活泼

What's Next|科技早知道

177 Listeners

硅谷101 by 硅谷101

硅谷101

184 Listeners

硅谷101|中国版 by 泓君Jane

硅谷101|中国版

53 Listeners

商业就是这样 by 商业就是这样

商业就是这样

272 Listeners

晚点聊 LateTalk by 晚点 LatePost

晚点聊 LateTalk

23 Listeners

大小马聊科技 by 大小马聊科技

大小马聊科技

4 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

51 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

291 Listeners

张小珺Jùn|商业访谈录 by 张小珺

张小珺Jùn|商业访谈录

27 Listeners

高能量 by 李翔李翔

高能量

30 Listeners

知本论 by 知本论

知本论

4 Listeners

42章经 by KaiQu

42章经

9 Listeners