张小珺Jùn|商业访谈录

106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象


Listen Later

今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼CTO王鹤。

王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。

而随着ChatGPT诞生,“具身智能”这个小众概念,在过去2年成了新的资本宠儿——但一时间,也带来了新的乱象。

我们探讨了一些具身智能产业界关键问题:

1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么VLM(视觉语言模型)的表现显著弱于LLM(大语言模型)?

2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做?

3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。

去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。

2025,我们和AI共同进步!

我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)

03:00 开始的自问自答

05:58 语言不是智能的本质,而是“一次跃变”

“具身智能”和“机器人”是不同学术流派

“具身智能”起源于“计算机视觉”的研究流派

视觉有智能吗?纯视觉智能的可解释性差,是端到端的

语言不是智能的本质,不能说没有语言就没有智能

智能的本质是什么?“一种视情况对环境做出反应的能力”

语言是人类能产生这么高智能的“一次跃变”

视觉的本质是一种非常强的sensor(传感器)

25:08 具身智能的学术边缘史

具身智能最早兴起的task(任务)是,导航

加入视觉模态,强调Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事

标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞)

我和Skild创始人Deepak Pathak在Facebook人工智能实验室FAIR打过交道

41:15 我的学术之路

2016年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域)

在Stanford博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向

Stanford是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你

第一篇论文憋了很久,很绝望

完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术

我的第二个项目:位姿估计和合成数据相关

2020年李开复曾在湾区丽思卡尔顿组织brunch,观点分歧

回国坚定以家庭机器人为目标推进research,根本没有allies(盟军)

01:25:08 具身智能的软件和硬件是螺旋上升的问题

ChatGPT火了以后,很多人开始找我创业,我说创不了

所有工业机械臂在去年的全球总产值才1000亿RMB,和理想一家车企产值相当

如果采取不成熟的激进的硬件方案,对智能会是一种拖累

在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能

VLM为什么显著弱于LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM数据不够,VLA的Action数据是最近两年才开始收集的)

01:44:34 我们要避免陷入以下泥潭

这一代具身智能公司相比此前机器人公司,差异在哪?

在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限:

1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降

我们要做一个应用场景内的泛化(现在选择的是货架场景)

在我看来,机器人领域的头部效应很重

01:55:17 具身智能是,“生产力即产品”

雇人摇操采真实数据的成本到底有多高?一笔经济账

真实数据在我们训练数据的比重是1%,合成数据管线挑起大梁

行业内的tricky现象:把没有功能的机器人卖给别人(这是一种商业模式)

关于合成数据和Sim-to-Real(仿真到现实迁移)的常见误区

有出货量后的数据回流和数据飞轮

如果大模型是“智能即产品”,那么具身智能就是“生产力即产品”

02:13:51 资本轰炸后的人为乱象

谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国

对Figure的估值400亿美元的两种逻辑

有的人胆子很大,不告诉别人我是摇操,但实际摇操

呼吁:真实展示!不要摇操!

5年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了!

不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗

通用机器人的到来不要想得那么快

02:25:25 一个插曲

去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么?

黄仁勋能吃辣,吃了很多水煮肉片

02:28:26 最后的快问快答

【机器人专场】

逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

【更多信息】

联络我们:微博@张小珺-Benita

更多信息欢迎关注公众号:张小珺

...more
View all episodesView all episodes
Download on the App Store

张小珺Jùn|商业访谈录By 张小珺

  • 4.5
  • 4.5
  • 4.5
  • 4.5
  • 4.5

4.5

33 ratings


More shows like 张小珺Jùn|商业访谈录

View all
疯投圈 by 黄海、Rio

疯投圈

113 Listeners

创业内幕 Startup Insider by 纪源小馆

创业内幕 Startup Insider

42 Listeners

三五环 by 刘飞Lufy

三五环

45 Listeners

硅谷101 by 硅谷101

硅谷101

198 Listeners

硅谷101|中国版 by 泓君Jane

硅谷101|中国版

56 Listeners

商业就是这样 by 商业就是这样

商业就是这样

292 Listeners

大小马聊科技 by 大小马聊科技

大小马聊科技

5 Listeners

Web3 101 by Web3 101

Web3 101

24 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

323 Listeners

42章经 by KaiQu

42章经

12 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

52 Listeners

厚雪长波 by 雪球官方账号

厚雪长波

10 Listeners

知本论 by 知本论

知本论

4 Listeners

高能量 by 李翔李翔

高能量

32 Listeners

小Lin说 by 小Lin说

小Lin说

52 Listeners