AI智识录

姚顺雨:下半场 (The Second Half),2025


Listen Later

姚顺雨 (Shunyu Yao) 是人工智能领域一位极具开创性的青年研究者,尤其以其在 AI 智能体 (AI Agents) 领域的奠基性工作而闻名。他最为人熟知的贡献是作为主要作者,引领了革命性的 ReAct 框架的开发。该框架巧妙地将“推理”(Reasoning)与“行动”(Acting)相结合,让语言模型能像人一样思考规划、并与外部工具互动来解决复杂问题,这已成为现代智能体技术的核心思路之一。姚顺雨毕业于清华大学姚班,并在普林斯顿大学获得博士学位。他近期刚从 OpenAI 研究员的职位上离职。

在他的文章《下半场》中,姚顺雨将这些技术层面的洞见升华为对整个行业的宏观判断。他认为,AI 的焦点需要从单纯提升模型能力的“上半场”,转向定义更有价值的问题、并建立能衡量真实世界效用的评估体系的“下半场”。这篇文章充分展现了他作为AI未来方向思考者的深度。

原文链接:ysymyth.github.io

以下是全文翻译(因小宇宙字数限制,有精简):

一句话:我们正处于人工智能的中场时刻。

过去几十年,人工智能(AI)主要致力于开发新的训练方法和模型,并卓有成效:从击败棋类世界冠军,到在各类考试中超越人类,再到斩获奥赛金牌。这些里程碑的背后,是搜索、深度强化学习、规模化和推理等根本性方法的创新。

转折点:一个通用“配方”的出现

现在与过去最大的不同是:强化学习(RL)终于具备了泛化能力。我们找到了一个行之有效的“配方”,能利用语言和推理解决软件工程、创意写作、高难度数学、键鼠操作和长篇问答等一系列极其困难且跨度巨大的任务。这在一年多以前还是难以想象的。

这个质变意味着 AI 的游戏规则正在改变。AI 的“下半场”已经开始,其焦点将从“解决问题”转向“定义问题”。在这个新时代,评估(Evaluation)比训练(Training)更重要。我们必须转变思维,从问“我们能否训练模型解决X?”,转向问“我们应该训练AI做什么,以及如何衡量真正的进展?”。这需要一种更接近产品经理的思维模式。

上半场:方法为王

回顾 AI 的上半场,其游戏规则是:专注于构建新模型和新方法,并在基准测试(Benchmark)上取得性能提升

这一时期的赢家,如 Transformer、AlexNet 等,都是训练方法或模型,而非基准测试本身。一个极具说服力的例子是:Transformer 论文的引用量超过 16 万,而它所使用的主要基准 WMT’14 的引用量仅约 1300。这背后的原因是,在上半场,创造新方法(如反向传播、CNN、Transformer)比定义新任务(通常是将人类任务转化为基准)更困难、更激动人心,也更具通用性。一种好的方法可以推动多个领域的进步,其影响力远超单个任务。

“配方”的诞生:强化学习的“弯路”与顿悟

这个改变游戏规则的“配方”,其核心成分包括:大规模语言预训练、规模化(数据与算力)、以及推理与行动的理念。我们可以通过强化学习(RL)的视角来理解这一切是如何发生的。

RL 被视为 AI 的终局之战,它包含三个关键部分:算法、环境和先验知识(priors)。长期以来,研究者们将绝大部分精力投入到算法上,而忽略了环境和先验知识。然而,在深度 RL 时代,人们发现算法性能高度依赖于特定环境。OpenAI 曾尝试通过 gym 等项目将数字世界构建为标准环境,以期用通用算法解决一切,但这条路并未完全走通,智能体无法有效泛化。

直到 GPT 系列模型出现,人们才恍然大悟:缺失的关键环节是“先验知识”。强大的语言预训练为模型注入了海量的常识和知识,这成为智能体能够泛化和微调的基础。事实证明,RL 最重要的部分,可能不是算法,而是通过语言预训练获得的先验知识。

但仅有先验知识还不够。直接在游戏或计算机控制任务上微调语言模型,泛化能力依然很差。作者在 2019 年的研究中发现了这一点,并迎来了“尤里卡时刻”:人类之所以能泛化,是因为我们不仅会“行动”,还会“思考”。

“思考”(或称推理)是一种奇特的行动,它不直接改变外部世界,却能利用语言预训练的先验知识来探索无限的策略空间,从而实现泛化。将推理作为一种特殊的“行动”加入到 RL 框架中,我们终于补全了拼图。一旦有了正确的先验知识(语言预训练)和正确的环境(加入了推理行动),RL 算法本身反而成了最简单的部分。这是一个充满讽刺意味的转折:我们花了几十年才意识到,研究的优先级或许本应是先验知识 > 环境 > 算法,与过去完全相反。

下半场:重新定义游戏规则

这个通用“配方”的出现,正在颠覆上半场的游戏规则,原因有二:

  1. 它将“刷榜”(攻克基准测试)的过程标准化、工业化了。任何新方法的微小提升,都很容易被下一个更大规模的“配-方”模型所带来的巨大提升所淹没。
  2. 即使我们创造出更难的基准,它们也会被越来越快地解决。

那么,下半场该怎么玩?答案是:我们必须从根本上重新思考“评估”。这不只是创造更难的基准,而是要质疑现有的评估“设置”(setups),并创造出能迫使我们发明超越现有“配方”的新评估体系

这里存在一个核心的**“效用问题”**:AI 已在各种任务上达到超人水平,但真实世界的经济和 GDP 并未因此发生巨大变化。其根源在于:我们的评估设置与真实世界在基本假设上存在脱节。例如:

  1. 独立运行 vs. 人机交互:标准评估通常是智能体一次性自主完成任务。但在现实中,任务往往需要在与人的持续互动中完成。
  2. 独立同分布 (i.i.d.) vs. 序贯学习:评估假设每个测试任务都是独立的。但在现实中,人会通过连续解决任务积累经验(如工程师对代码库越来越熟),而现有评估体系无法衡量这种长期记忆和学习能力。

这些沿用已久的假设,在上半场智能水平较低时问题不大。但现在,当通用“配方”能轻易在旧假设下达成目标时,我们就必须改变游戏。

下半场的新游戏规则是:

  1. 为真实世界的效用开发新颖的评估设置或任务。
  2. 用现有“配方”或为其增添新组件来解决它们,并持续循环。

这个新游戏更困难,因为它不为我们所熟悉。但它更激动人心。上半场的玩家在解决虚拟游戏和考试,而下半场的玩家则有机会通过将智能转化为有用的产品,建立价值万亿的公司。只有创造出能打破当前“配方”有效性的新评估假设,我们才能催生出真正改变游戏规则的研究。

欢迎来到下半场!

...more
View all episodesView all episodes
Download on the App Store

AI智识录By RayHu