OnBoard!

EP 44.【AI年终特辑3】具身智能深度对话:从学术到产业,机器人的ChatGPT时刻来了吗?


Listen Later

今年 OnBoard! 最后一期压轴上新!今年要谈论人工智能,怎么能错过这么一个重要的话题:机器人与AI的结合,或者说,Embodied intelligence, 具身智能。

大模型的思路是否能带来机器人的ChatGPT时刻?机器人要具备泛化能力,有哪些进展又有哪些瓶颈?通过机器人让人工智能具备与环境感知和交互的能力,会为通用人工智能AGI带来哪些新的想象空间?

Hello World, who is OnBoard!?

今年下半年以来,尤其在国内,已经有不下十几家具身智能创业公司涌现。这一轮热潮中,从学术到工业落地,如何分别噪音与真实?以前将AI应用于机器人的尝试,比起这次的技术突破,又有哪些相同与不同?

这次的嘉宾阵容,真是太适合回答这些问题了:

我们邀请了 Google DeepMind 的研究员Fei Xia,Deepmind 跟具身智能相关的最重磅的几个研究,从SayCan, PaLM-E,到 RT2,他都是核心参与者。还有来自国内头部机器人创业公司高仙机器人的深度学习总监 Jiaxin, 带来产业界的视角。以及 UCSD 的研究员 Fanbo Xiang,他参与的 Maniskill,SAPIEN 等与模拟环境相关的研究,都在学术前沿。

我们对AI泛化能力在机器人领域的落地进行了深入的讨论,也有不同观点的碰撞,精彩纷呈。

其实这一期的录制已经过去了几个月,阴差阳错成了今年的压轴,也算是对于OnBoard 全年的一个圆满句号,又是整个OnBoard 旅程小小的逗号。新的一年,不论世界如何起落,我们都选择相信未来有希望,珍惜每一次对话,赞美每一个在未知中选择的勇士。

Enjoy!

嘉宾介绍

Fei Xia, Google Deepmind 机器人团队资深研究员,PhD @Stanford University;PaLM-E,  PaLM-SayCan, RT-2 作者

Jiaxin Li, 高仙机器人深度学习总监,ex字节跳动研究员,PhD @National University of Singapore

Fanbo Xiang, PhD @UC San Diego;ManiSkill, SAPIEN 作者

OnBoard! 主持:

Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

02:47 几位嘉宾的自我介绍,主要的研究领域

05:34 大家最近看到的与具身智能相关的有意思的研究和行业进展

14:23 自动驾驶领域的生成模型,如何保证符合物理规律?

18:34 如何定义具身智能?什么是测试机器人AGI 的“咖啡测试” ?

27:59 梳理 Google Deepmind 机器人领域核心研究脉络:大模型对具身智能带来怎样的影响?

40:29 Fanbo 在做的 low level 控制相关的研究,如何与大模型相结合?

45:39 具身智能的实现目前有哪些主要技术路径?我们什么时候可以达到共识?

50:40 从产业落地的角度,如何看待大模型对机器人领域的影响?有哪些现实的挑战?

67:37 什么时候需要机器人具备通用能力?我们需要端到端的具身智能吗?

72:47 对 Scaling law 的争议:在机器人领域能复现吗?如何平衡长期通用性研究和短期商业落地的需要?

90:41 在具身智能系统的设计中,如何考虑加入人机互动的因素?

96:29 硬件的发展会如何影响具身智能的发展?

101:18 未来3-5年,大家最期望看到具身智能领域实现怎样的突破?有怎样值得期待的未来?

重要论文和词汇

  • PaLM-E: An Embodied Multimodal Language Model
  • SayCan: Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
  • RT-1: Robotics Transformer for Real-World Control at Scale
  • RT-2: Vision-Language-Action Models
  • ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable Manipulation Skills
  • ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills
  • SAPIEN: A SimulAted Part-based Interactive ENvironment
  • NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
  • VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models, by Feifei Li
  • VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding
  • Scaling laws for neural language models, by OpenAI
  • Vision Transformer (ViT) - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
  • ALOHA: A Low-cost Open-source Hardware System for Bimanual Teleoperation, from Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
  • The Bitter Lesson, by Rich Sutton
  • MIT PDDL (Planning Domain Definition Language)
  • sim2real: simulation to reality

我们提到的公司

  • Wayve.ai: reimagining self-driving with embodied AI
  • 有鹿智能
  • LoCoBot: An Open Source Low Cost Robot
  • 宇树科技

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励!

如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!

有任何心得和建议,也欢迎在评论区跟我们互动~

...more
View all episodesView all episodes
Download on the App Store

OnBoard!By Monica Xie

  • 5
  • 5
  • 5
  • 5
  • 5

5

38 ratings


More shows like OnBoard!

View all
疯投圈 by 黄海、Rio

疯投圈

115 Listeners

声东击西 by ETW Studio

声东击西

327 Listeners

创业内幕 Startup Insider by 纪源小馆

创业内幕 Startup Insider

42 Listeners

三五环 by 刘飞Lufy

三五环

43 Listeners

不合时宜 by 不合时宜TheWeirdo

不合时宜

260 Listeners

忽左忽右 by JustPod

忽左忽右

473 Listeners

东腔西调 by 大观天下志

东腔西调

131 Listeners

商业就是这样 by 商业就是这样

商业就是这样

290 Listeners

知行小酒馆 by 有知有行

知行小酒馆

370 Listeners

声动早咖啡 by 声动活泼

声动早咖啡

295 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

312 Listeners

42章经 by KaiQu

42章经

13 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

52 Listeners

厚雪长波 by 雪球官方账号

厚雪长波

8 Listeners

小Lin说 by 小Lin说

小Lin说

51 Listeners