
Sign up to save your podcasts
Or
当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。
在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。
但很多人对 RL 都没有一个足够清晰的理解,包括我自己。
所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL+LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。
而且聊着聊着,我们发现,人生就是一个 RL 的过程,区别是 RL 有明确的奖励函数,但是人生没有。可能如吴翼教授所说,我们首先都要以一种「最大熵」的方式去主动和不确定的世界交互,才能找到自己的奖励函数,优化自己的人生曲线。
最后,吴翼教授的团队最近开源了一个 RL 框架 AReaL-boba,在 SOTA 7B 上跑出了 AIME24 61.9 的分数,也欢迎大家去 GitHub 关注。
【人类博物馆】
导游:曲凯,42章经创始人
32 号珍藏:吴翼,清华大学交叉信息研究院助理教授,前 OpenAI 研究员。
【时光机】
【Reference】
【The gang that made this happen】
4.4
99 ratings
当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。
在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。
但很多人对 RL 都没有一个足够清晰的理解,包括我自己。
所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL+LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。
而且聊着聊着,我们发现,人生就是一个 RL 的过程,区别是 RL 有明确的奖励函数,但是人生没有。可能如吴翼教授所说,我们首先都要以一种「最大熵」的方式去主动和不确定的世界交互,才能找到自己的奖励函数,优化自己的人生曲线。
最后,吴翼教授的团队最近开源了一个 RL 框架 AReaL-boba,在 SOTA 7B 上跑出了 AIME24 61.9 的分数,也欢迎大家去 GitHub 关注。
【人类博物馆】
导游:曲凯,42章经创始人
32 号珍藏:吴翼,清华大学交叉信息研究院助理教授,前 OpenAI 研究员。
【时光机】
【Reference】
【The gang that made this happen】
107 Listeners
317 Listeners
42 Listeners
175 Listeners
164 Listeners
50 Listeners
273 Listeners
23 Listeners
25 Listeners
4 Listeners
45 Listeners
288 Listeners
27 Listeners
4 Listeners
8 Listeners