42章经

一堂「强化学习」大师课|对谈清华叉院助理教授吴翼


Listen Later

当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。

在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。

但很多人对 RL 都没有一个足够清晰的理解,包括我自己。

所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL+LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。

而且聊着聊着,我们发现,人生就是一个 RL 的过程,区别是 RL 有明确的奖励函数,但是人生没有。可能如吴翼教授所说,我们首先都要以一种「最大熵」的方式去主动和不确定的世界交互,才能找到自己的奖励函数,优化自己的人生曲线。

最后,吴翼教授的团队最近开源了一个 RL 框架 AReaL-boba,在 SOTA 7B 上跑出了 AIME24 61.9 的分数,也欢迎大家去 GitHub 关注。

人类博物馆】

导游:曲凯,42章经创始人

32 号珍藏:吴翼,清华大学交叉信息研究院助理教授,前 OpenAI 研究员。

时光机】

  • 1:51 到底什么是 RL?
  • 4:25 人生就是一个强化学习的过程
  • 6:22 RL 和 LLM 是怎么结合起来的?
    • 7:01 强强联手第一步:InstructGPT,实现指令遵从
    • 10:07 过程中衍生出了 RLHF
    • 11:41「慢思考」的需求催生了 RL 的应用
  • 16:10 为什么说 Anthropic RL 做得特别好?
  • 21:17 行业对 RL+LLM 的最优路径形成共识了吗?
  • 25:11 RL 起来之后,对 Agent 的影响是什么?
  • 32:11 Intelligence = LLM (理解) × RL (决策),二者缺一不可
  • 34:14 Scaling law 的未来
    • 34:33 Pretraining 的两个发展方向
    • 36:43 RL 还处于早期,进入深水区后可能会走向分化
  • 40:02 大模型团队的组织架构要如何设计?
  • 43:21 一个反常识:对 AI 来说,理解比生成更难,token 消耗更大
  • 47:38 现在做 Agent 一定需要一个懂 RL 的人吗?
  • 49:32 为什么 RL 人才这么稀缺?
  • 56:10 RL 目前三大分支:泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI)
  • 58:55 框架对 RL 意味着什么?
  • 1:02:51  RL 在海内外进展还有明显差距
  • 1:04:42 想做好 RL,基建≫数据>算法
  • 1:06:05 研究 RL 收获的一些人生启发

【Reference】

  • 吴翼的 PhD 毕业论文:On Building Generalizable Learning Agents
  • 吴翼获机器学习顶级会议 NIPS2016 最佳论文奖的论文: Value Iteration Network
  • 吴翼提到的他非常喜欢的有关 Diversity-Driven RL 的两篇论文:Iteratively Learn Diverse Strategies with State Distance InformationDiscovering Diverse Multi-Agent Strategic Behavior via Reward Randomization
  • 吴翼团队和蚂蚁研究院开源的强化学习训练框架:AReaL-boba

The gang that made this happen】

  • 制作人:陈皮、Celia
  • 剪辑:陈皮
  • Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
...more
View all episodesView all episodes
Download on the App Store

42章经By KaiQu

  • 4.4
  • 4.4
  • 4.4
  • 4.4
  • 4.4

4.4

9 ratings


More shows like 42章经

View all
疯投圈 by 黄海、Rio

疯投圈

107 Listeners

声东击西 by ETW Studio

声东击西

317 Listeners

创业内幕 Startup Insider by 纪源小馆

创业内幕 Startup Insider

42 Listeners

What's Next|科技早知道 by 声动活泼

What's Next|科技早知道

175 Listeners

硅谷101 by 硅谷101

硅谷101

164 Listeners

硅谷101|中国版 by 泓君Jane

硅谷101|中国版

50 Listeners

商业就是这样 by 商业就是这样

商业就是这样

273 Listeners

晚点聊 LateTalk by 晚点 LatePost

晚点聊 LateTalk

23 Listeners

乱翻书 by 潘乱

乱翻书

25 Listeners

大小马聊科技 by 大小马聊科技

大小马聊科技

4 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

45 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

288 Listeners

高能量 by 李翔李翔

高能量

27 Listeners

知本论 by 知本论

知本论

4 Listeners

厚雪长波 by 雪球官方账号

厚雪长波

8 Listeners