October 11, 2025

姚顺雨：下半场 (The Second Half),2025

19 minutes

姚顺雨 (Shunyu Yao) 是人工智能领域一位极具开创性的青年研究者，尤其以其在 AI 智能体 (AI Agents) 领域的奠基性工作而闻名。他最为人熟知的贡献是作为主要作者，引领了革命性的 ReAct 框架的开发。该框架巧妙地将“推理”(Reasoning)与“行动”(Acting)相结合，让语言模型能像人一样思考规划、并与外部工具互动来解决复杂问题，这已成为现代智能体技术的核心思路之一。姚顺雨毕业于清华大学姚班，并在普林斯顿大学获得博士学位。他近期刚从 OpenAI 研究员的职位上离职。

在他的文章《下半场》中，姚顺雨将这些技术层面的洞见升华为对整个行业的宏观判断。他认为，AI 的焦点需要从单纯提升模型能力的“上半场”，转向定义更有价值的问题、并建立能衡量真实世界效用的评估体系的“下半场”。这篇文章充分展现了他作为AI未来方向思考者的深度。

原文链接：ysymyth.github.io

以下是全文翻译（因小宇宙字数限制，有精简）：

一句话：我们正处于人工智能的中场时刻。

过去几十年，人工智能（AI）主要致力于开发新的训练方法和模型，并卓有成效：从击败棋类世界冠军，到在各类考试中超越人类，再到斩获奥赛金牌。这些里程碑的背后，是搜索、深度强化学习、规模化和推理等根本性方法的创新。

转折点：一个通用“配方”的出现

现在与过去最大的不同是：强化学习（RL）终于具备了泛化能力。我们找到了一个行之有效的“配方”，能利用语言和推理解决软件工程、创意写作、高难度数学、键鼠操作和长篇问答等一系列极其困难且跨度巨大的任务。这在一年多以前还是难以想象的。

这个质变意味着 AI 的游戏规则正在改变。AI 的“下半场”已经开始，其焦点将从“解决问题”转向“定义问题”。在这个新时代，评估（Evaluation）比训练（Training）更重要。我们必须转变思维，从问“我们能否训练模型解决X？”，转向问“我们应该训练AI做什么，以及如何衡量真正的进展？”。这需要一种更接近产品经理的思维模式。

上半场：方法为王

回顾 AI 的上半场，其游戏规则是：专注于构建新模型和新方法，并在基准测试（Benchmark）上取得性能提升。

这一时期的赢家，如 Transformer、AlexNet 等，都是训练方法或模型，而非基准测试本身。一个极具说服力的例子是：Transformer 论文的引用量超过 16 万，而它所使用的主要基准 WMT’14 的引用量仅约 1300。这背后的原因是，在上半场，创造新方法（如反向传播、CNN、Transformer）比定义新任务（通常是将人类任务转化为基准）更困难、更激动人心，也更具通用性。一种好的方法可以推动多个领域的进步，其影响力远超单个任务。

“配方”的诞生：强化学习的“弯路”与顿悟

这个改变游戏规则的“配方”，其核心成分包括：大规模语言预训练、规模化（数据与算力）、以及推理与行动的理念。我们可以通过强化学习（RL）的视角来理解这一切是如何发生的。

RL 被视为 AI 的终局之战，它包含三个关键部分：算法、环境和先验知识（priors）。长期以来，研究者们将绝大部分精力投入到算法上，而忽略了环境和先验知识。然而，在深度 RL 时代，人们发现算法性能高度依赖于特定环境。OpenAI 曾尝试通过 gym 等项目将数字世界构建为标准环境，以期用通用算法解决一切，但这条路并未完全走通，智能体无法有效泛化。

直到 GPT 系列模型出现，人们才恍然大悟：缺失的关键环节是“先验知识”。强大的语言预训练为模型注入了海量的常识和知识，这成为智能体能够泛化和微调的基础。事实证明，RL 最重要的部分，可能不是算法，而是通过语言预训练获得的先验知识。

但仅有先验知识还不够。直接在游戏或计算机控制任务上微调语言模型，泛化能力依然很差。作者在 2019 年的研究中发现了这一点，并迎来了“尤里卡时刻”：人类之所以能泛化，是因为我们不仅会“行动”，还会“思考”。

“思考”（或称推理）是一种奇特的行动，它不直接改变外部世界，却能利用语言预训练的先验知识来探索无限的策略空间，从而实现泛化。将推理作为一种特殊的“行动”加入到 RL 框架中，我们终于补全了拼图。一旦有了正确的先验知识（语言预训练）和正确的环境（加入了推理行动），RL 算法本身反而成了最简单的部分。这是一个充满讽刺意味的转折：我们花了几十年才意识到，研究的优先级或许本应是先验知识 > 环境 > 算法，与过去完全相反。

下半场：重新定义游戏规则

这个通用“配方”的出现，正在颠覆上半场的游戏规则，原因有二：

它将“刷榜”（攻克基准测试）的过程标准化、工业化了。任何新方法的微小提升，都很容易被下一个更大规模的“配-方”模型所带来的巨大提升所淹没。
即使我们创造出更难的基准，它们也会被越来越快地解决。

那么，下半场该怎么玩？答案是：我们必须从根本上重新思考“评估”。这不只是创造更难的基准，而是要质疑现有的评估“设置”（setups），并创造出能迫使我们发明超越现有“配方”的新评估体系。

这里存在一个核心的**“效用问题”**：AI 已在各种任务上达到超人水平，但真实世界的经济和 GDP 并未因此发生巨大变化。其根源在于：我们的评估设置与真实世界在基本假设上存在脱节。例如：

独立运行 vs. 人机交互：标准评估通常是智能体一次性自主完成任务。但在现实中，任务往往需要在与人的持续互动中完成。
独立同分布 (i.i.d.) vs. 序贯学习：评估假设每个测试任务都是独立的。但在现实中，人会通过连续解决任务积累经验（如工程师对代码库越来越熟），而现有评估体系无法衡量这种长期记忆和学习能力。

这些沿用已久的假设，在上半场智能水平较低时问题不大。但现在，当通用“配方”能轻易在旧假设下达成目标时，我们就必须改变游戏。

下半场的新游戏规则是：

为真实世界的效用开发新颖的评估设置或任务。
用现有“配方”或为其增添新组件来解决它们，并持续循环。

这个新游戏更困难，因为它不为我们所熟悉。但它更激动人心。上半场的玩家在解决虚拟游戏和考试，而下半场的玩家则有机会通过将智能转化为有用的产品，建立价值万亿的公司。只有创造出能打破当前“配方”有效性的新评估假设，我们才能催生出真正改变游戏规则的研究。

欢迎来到下半场！

...more

View all episodes

By RayHu

October 11, 2025

姚顺雨：下半场 (The Second Half),2025

19 minutes

原文链接：ysymyth.github.io

以下是全文翻译（因小宇宙字数限制，有精简）：

一句话：我们正处于人工智能的中场时刻。

转折点：一个通用“配方”的出现

上半场：方法为王

回顾 AI 的上半场，其游戏规则是：专注于构建新模型和新方法，并在基准测试（Benchmark）上取得性能提升。

“配方”的诞生：强化学习的“弯路”与顿悟

下半场：重新定义游戏规则

这个通用“配方”的出现，正在颠覆上半场的游戏规则，原因有二：

它将“刷榜”（攻克基准测试）的过程标准化、工业化了。任何新方法的微小提升，都很容易被下一个更大规模的“配-方”模型所带来的巨大提升所淹没。
即使我们创造出更难的基准，它们也会被越来越快地解决。

独立运行 vs. 人机交互：标准评估通常是智能体一次性自主完成任务。但在现实中，任务往往需要在与人的持续互动中完成。
独立同分布 (i.i.d.) vs. 序贯学习：评估假设每个测试任务都是独立的。但在现实中，人会通过连续解决任务积累经验（如工程师对代码库越来越熟），而现有评估体系无法衡量这种长期记忆和学习能力。

这些沿用已久的假设，在上半场智能水平较低时问题不大。但现在，当通用“配方”能轻易在旧假设下达成目标时，我们就必须改变游戏。

下半场的新游戏规则是：

为真实世界的效用开发新颖的评估设置或任务。
用现有“配方”或为其增添新组件来解决它们，并持续循环。

欢迎来到下半场！

...more

Share 姚顺雨：下半场 (The Second Half),2025

Sign up to save your podcasts

姚顺雨：下半场 (The Second Half),2025

姚顺雨：下半场 (The Second Half),2025