OnBoard!

EP 37. 对话Deepmind, 英伟达大语言模型专家(下):多模态大模型解读,亲历OpenAI,AI的挑战与未来


Listen Later

近3小时的硅谷AI重磅嘉宾现场对谈,下集光速奉上!如果你还没有听过上一期,赶紧去补课!

Hello World, who is OnBoard!?

简单介绍一下这次Monica 期待已久的嘉宾组合! 两位都在OpenAI工作过的技术大牛,包括Nvidia资深研究员 Jim Fan, 除了对生成式agents 和机器人的具身智能有深度研究外,他的Twitter 连 Jeff bezos 都关注,是AI领域全球范围内的顶级大V。另一位嘉宾戴涵俊,Google Deepmind 的资深研究员,也是 Google 新一代大语言模型的深度参与者。最后,兼任主持和嘉宾的硅谷上市公司华人高管,硅谷徐老师, 每次来 Onboard! 串台都大受好评。

这是三个小时播客的第二部分。上一期的内容,我们深度讨论了最近AI领域最火的话题,Generative Agents, 生成式代理。这一期更是精彩纷呈,包含了AI领域更多核心话题,包括多模态大模型的研究进展,具备具身智能 embodied AI 的机器人如何打造,AI对saas的影响,我们对未来AI的商业和社会畅想等等。真的是非常尽兴的讨论,你也可以拿起笔记本做笔记了。

几位嘉宾都是长期在美国工作生活,夹杂英文在所难免,不接受抱怨。Enjoy!

嘉宾介绍

  • Jim Fan(推特:@DrJimFan),Nvidia 高级 AI 研究科学家,曾在OpenAI工作,Stanford PhD 李飞飞实验室
  • 戴涵俊(推特:@hanjundai),Google Deepmind 资深研究员,深度参与 Google 大语言模型项目,曾在OpenAI工作,Georgia Tech PhD
  • 硅谷徐老师(推特:@h0wie_xu),硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师,「科技早知道」主播 |微信公众号:硅谷云| AI博客:howiexu.substack.com
  • 主持:Monica(推特:@Monica_XieY):美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人,公众号:M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

01:55 为什么 Jim 觉得 Llama 2 作为语言模型,对于多模态模型和机器人有重大推动

05:24 Hanjun 解读多模态大模型的两种实现方式

07:47 多模态大模型只是解锁了新的场景,还是能更大提升大模型本身的智能?如何理解大模型的智能?

12:34 为什么说机器人的多模态问题更有挑战?

16:35 处理多模态训练数据有哪些难点?

18:12 大模型训练还需要哪些工具?Infra/tooling 有哪些机会?

19:51 亲历OpenAI 的经历回顾和感受:2016-2020,OpenAI 都发生了什么

25:11 OpenAI 近年的发展,哪个时刻震撼了你?

34:20 为什么说 Evaluation 是大语言模型最被低估的挑战之一?

39:54 未来1年和未来10年,你最期待人工智能领域带来什么?

46:17 我们自己和下一代应该如何为未来做准备?

59:33 有趣的 closing 和未来展望:被 Jeff Bezos 关注是什么感觉?!

我们提到的内容

  • Llama 2: Meta 开源的大语言模型
  • Jim Fan 对于Llama 2 的解读
  • OpenAI 赢得DOTA 游戏比赛
  • LSTM (Long Short-term Memory)
  • Jim Fan 对大猩猩玩Minecraft 的解读
  • DALL-E 2: DALL·E 2 is an AI system that can create realistic images and art from a description in natural language (by OpenAI)
  • CLIP: Connecting text and image
  • ImageNET:  an image dataset organized according to the WordNet hierarchy.
  • AlexNET: ImageNet Classification with Deep Convolutional Neural Networks

重点词汇

  • RLHF (Reinforcement Learning with Human Feedback): 人类反馈的强化学习 - 一种AI模型通过人类反馈与传统的强化学习结合来学习的方法。
  • Fine tuning: 微调 - 在特定的数据集上进一步训练预训练的机器学习模型,使其适应特定任务的过程。
  • Hallucination: 幻觉 - 在AI中,指的是模型生成不在输入中的信息,可能导致输出不准确。
  • Multi-modal model: 多模态模型 - 能够理解和处理多种类型数据(如文本、图像和声音)的模型。
  • Auto regressive model: 自回归模型 - 一种统计模型,它使用一个变量的过去值来预测其未来值。
  • Diffusion model: 扩散模型 - 用于描述信息、疾病或创新等东西如何在群体中传播的模型。
  • Tokenize: 分词 - 将文本分解成更小的部分(如单词或子词)的过程,通常在文本处理或自然语言处理中使用。
  • Intuitive physics: 直观物理 - 人类对物理现象的直观理解,例如物体如何移动或互相碰撞。
  • Embodied AI: 具体化的人工智能 - 通过物理或虚拟的身体与环境互动的AI系统,例如机器人或虚拟代理。
  • CVPR (Computer Vision and Pattern Recognition): 计算机视觉和模式识别 - 专门研究计算机如何“看”并从图像或视频中理解内容的领域。
  • Walkaround: 绕行 - 解决问题或障碍的方法

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励!

如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!

有任何心得和建议,也欢迎在评论区跟我们互动~

...more
View all episodesView all episodes
Download on the App Store

OnBoard!By Monica Xie

  • 5
  • 5
  • 5
  • 5
  • 5

5

38 ratings


More shows like OnBoard!

View all
疯投圈 by 黄海、Rio

疯投圈

115 Listeners

声东击西 by ETW Studio

声东击西

327 Listeners

创业内幕 Startup Insider by 纪源小馆

创业内幕 Startup Insider

42 Listeners

三五环 by 刘飞Lufy

三五环

43 Listeners

不合时宜 by 不合时宜TheWeirdo

不合时宜

260 Listeners

忽左忽右 by JustPod

忽左忽右

473 Listeners

东腔西调 by 大观天下志

东腔西调

131 Listeners

商业就是这样 by 商业就是这样

商业就是这样

290 Listeners

知行小酒馆 by 有知有行

知行小酒馆

370 Listeners

声动早咖啡 by 声动活泼

声动早咖啡

295 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

312 Listeners

42章经 by KaiQu

42章经

13 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

52 Listeners

厚雪长波 by 雪球官方账号

厚雪长波

8 Listeners

小Lin说 by 小Lin说

小Lin说

51 Listeners