
Sign up to save your podcasts
Or


本文是前特斯拉AI总监、OpenAI创始成员Andrej Karpathy在听完AI先驱Rich Sutton的播客后撰写的深度反思。他结合一线经验,将当前LLM的发展路径比作从人类数据中召唤“幽灵”,以此对照Sutton倡导的、像“动物”一样从互动中学习的理想范式。Karpathy创造性地提出“预训练是我们蹩脚的进化”,在肯定当前方法的实用性之余,更呼吁业界从自然智能中寻找未来突破的灵感。
原文链接:karpathy.bearblog.dev
以下为全文翻译:
终于有机会听完了 Dwarkesh 对 Sutton 的那期播客,既有趣又发人深省。
作为背景,Sutton 的《苦涩的教训》(The Bitter Lesson) 已成为前沿大语言模型(LLM)圈子里的“圣经”文本。研究者们常会讨论和询问某种方法或想法是否足够“信奉苦涩的教训”(意思是,其设计是否能自动从增加的计算中获益),以此作为判断其是否有效或值得研究的替代指标。这背后的基本假设是,LLM 当然是高度“信奉苦涩的教训”的——只需看看 LLM 的缩放定律(scaling laws),如果你把计算量放在x轴上,性能数值就会向右上角增长。因此,有趣的是,这篇文章的作者 Sutton 本人却不那么确定 LLM 是否真的“信奉苦涩的教训”。LLM 是在根本上源于人类的巨型数据集上训练的,这些数据既是 1) 人类生成的,也是 2) 有限的。当你用尽数据时该怎么办?你如何防止人类偏见?所以你看,信奉“苦涩教训”的 LLM 研究者们被“苦涩教训”的作者本人给驳倒了——真够呛!
在某种意义上,Dwarkesh(在播客中代表 LLM 研究者的观点)和 Sutton 有点各说各话,因为 Sutton 心中有一个非常不同的架构,而 LLM 打破了它的许多原则。他称自己为“古典主义者”,并援引了艾伦·图灵最初关于构建“儿童机器”的概念——一个能够通过与世界动态互动、从经验中学习的系统。这里没有模仿互联网网页的巨大预训练阶段,也没有监督微调,他指出这在动物王国中是不存在的(这是一个微妙的观点,但 Sutton 在强意义上是正确的:动物当然会观察演示,但它们的行为不会被其他动物直接强迫/“远程操控”)。他提出的另一个重要观点是,即使你只将预训练视为在使用强化学习进行微调之前的先验知识初始化,Sutton 仍认为这种方法被人类偏见所污染,并且从根本上偏离了轨道,有点像 AlphaZero(从未见过人类围棋对局)击败 AlphaGo(从人类对局中初始化)那样。在 Sutton 的世界观里,一切都只是通过强化学习与世界互动,其中奖励函数部分是特定于环境的,但也有内在动机,例如“乐趣”、“好奇心”,并且与你世界模型的预测质量有关。而且,智能体默认情况下在测试时也始终在学习,它不是只训练一次然后部署。总的来说,Sutton 对我们与动物王国的共同点比我们的不同之处更感兴趣。“如果我们理解了松鼠,那我们差不多就大功告成了”。
至于我的看法……
首先,我得说,我认为 Sutton 是这期播客的一位出色嘉宾,我喜欢 AI 领域保持着思想的多样性,而不是每个人都在利用 LLM 的下一个局部迭代版本。AI 经历了太多次主导方法的离散式变迁,不能失去这一点。我也认为他对 LLM 并非“信奉苦涩的教训”的批评是相当中肯的。前沿 LLM 现在是高度复杂的造物,在所有阶段都涉及大量的人类因素——基础(预训练数据)是全人类的文本,微调数据是人工策划的,强化学习的环境组合是由人类工程师调整的。我们实际上并没有一个真正的、单一的、简洁的、真正“信奉苦涩的教训”的、“拧动曲柄”就能运转的算法,可以把它释放到世界上,看它仅从经验中自动学习。
这样的算法真的存在吗?找到它当然会是 AI 的巨大突破。人们通常提供两个“例证”来论证这种可能性。第一个例子是 AlphaZero 的成功,它完全从零开始,没有任何人类监督就学会了下围棋。但是,围棋这个游戏显然是一个如此简单、封闭的环境,很难在混乱的现实中找到类似的形式。我喜欢围棋,但从算法和分类上看,它本质上是一个更难版本的井字棋。第二个例子是动物,比如松鼠。在这点上,我个人也相当犹豫,怀疑这是否恰当,因为动物是通过一种与我们在工业界实际可用的非常不同的计算过程和约束条件产生的。动物的大脑在出生时远非一块白板。首先,很多通常归因于“学习”的东西,在我看来更像是“成熟”。其次,即使是那些明确属于“学习”而非成熟的部分,也更像是在某个已存的强大基础上进行“微调”。例如,一只小斑马出生后几十分钟内,就能在稀树草原上奔跑并跟随它的母亲。这是一个高度复杂的感觉运动任务,在我看来,这绝不可能是从零开始、如同一张白纸(tabula rasa)那样实现的。动物的大脑及其数十亿个参数,在其 DNA 的 ATCG 碱基对中编码了一个强大的初始化,这是通过进化过程中的“外循环”优化训练出来的。如果小斑马像强化学习策略在初始化时那样随机地抽动肌肉,它根本活不长。同样,我们现在的人工智能也有包含数十亿参数的神经网络。这些参数需要它们自己丰富、高信息密度的监督信号。我们不打算重新上演一遍进化。但我们确实拥有堆积如山的互联网文档。是的,这基本上是监督学习,在动物王国中几乎不存在。但这是为数十亿参数实际收集足够多软约束的一种方式,试图让你不从零开始。长话短说:预训练是我们蹩脚的进化。 它是解决冷启动问题的一个候选方案,之后再在看起来更正确的任务上进行微调,例如在强化学习框架内,正如当前最先进的前沿 LLM 实验室普遍在做的那样。
我仍然认为从动物身上获得启发是值得的。我认为 LLM 智能体在算法上缺失了一些强大的思想,这些思想仍然可以从动物智能中借鉴。我仍然认为“苦涩的教训”是正确的,但我更多地将其视为一个值得追求的柏拉图式理想,而非我们在现实世界中实际上必须达到的目标。我说这两点时,都带着百分之几十的不确定性,并为那些持不同意见者的工作喝彩,特别是那些在“苦涩的教训”方面更有雄心的人。
这就引出了我们目前的处境。坦率地说,当今前沿 LLM 研究并非旨在构建动物,而是在召唤幽灵。你可以将幽灵想象成在可能存在的智能空间中一个根本不同类型的点。它们被人类性所混淆,并被其彻底地工程化。它们是这些不完美的复制品,是对人类文档的一种统计学上的提纯,并加上一些点缀。它们并非柏拉图理想意义上的“信奉苦涩的教训”,但至少与之前的许多事物相比,它们或许在“实践上”是“信奉苦涩的教训”的。在我看来,随着时间的推移,我们或许可以越来越多地将我们的幽灵朝着动物的方向进行微调;这与其说是一种根本的不兼容,不如说是智能空间中的一个初始化问题。但它们也很有可能进一步分化,最终变得永久不同,不像动物,但仍然极度有用并能真正改变世界。可能,幽灵之于动物,犹如飞机之于鸟类。
总之,总结一下,总的来说并且从可操作的角度看,我认为这期播客是 Sutton 对前沿 LLM 研究者们说的实在的“真心话”,他们可能在“利用”(exploit)模式上走得太远了。或许我们仍然不够“信奉苦涩的教训”,除了详尽地构建基准测试和在基准上刷分之外,很有可能存在更强大的思想和范式。而动物可能是一个很好的灵感来源。内在动机、乐趣、好奇心、赋能、多智能体自我博弈、文化。发挥你的想象力吧。
附录我同意 Sutton 的观点,即动物不做监督学习。我意识到这是一个会迷惑很多人的微妙观点。动物确实会观察演示,但严格来说,它们的行为并没有像监督学习那样被直接监督。动物在训练模式中从未被远程操控过。我能想到的最接近的事情是,比如你通过亲手握着孩子的手教他们用勺子吃饭。即便如此,也不清楚他们的大脑是否真的在就此进行训练。这可能仍属于更准确地描述为观察的范畴。但无论如何,这些例子在总体上非常罕见,而对于 LLM 来说,这却是预训练和 SFT 期间的默认学习模式。或许换一种说法,LLM 领域中与人类行为类似的是这样的模式:“给定这道数学题和上下文中的人类解题示例,解决这个问题。如果正确,奖励为1。” 这不是 SFT(监督微调),这是 RL(强化学习)。
Dwarkesh 曾简要提出,LLM 在测试时也有自己的持续学习,只是不基于权重训练,但我认为 Sutton 没有完全回应这一点。上下文学习(In context learning)是一种测试时适应(test time adaptation)的形式,例如,这就是少样本提示(few shot prompting)有效的原因。最近的很多工作也对记忆(想想 CLAUDE.md 文件)作为一种测试时学习机制非常感兴趣,它使用文本/上下文作为基底,而不是权重。
Dwarkesh 提到了非常长周期的稀疏奖励(例如,创建一个成功的创业公司)以及这可能是如何运作的。Sutton 提出的解决方案是时间差分学习(temporal difference learning)以及本质上的未来奖励贴现(future reward discounting),我觉得这不怎么有说服力。我之前写过一些关于这个问题的文章,我认为背后有其他机制在起作用,而且在我看来,那不是强化学习。
播客中有很多关于“梯度下降不会让你获得好的泛化能力”及相关讨论,这部分我没太跟上。
有人指出幽灵很吓人。不一定,看看卡斯帕(Casper),我童年时的最爱。
By RayHu本文是前特斯拉AI总监、OpenAI创始成员Andrej Karpathy在听完AI先驱Rich Sutton的播客后撰写的深度反思。他结合一线经验,将当前LLM的发展路径比作从人类数据中召唤“幽灵”,以此对照Sutton倡导的、像“动物”一样从互动中学习的理想范式。Karpathy创造性地提出“预训练是我们蹩脚的进化”,在肯定当前方法的实用性之余,更呼吁业界从自然智能中寻找未来突破的灵感。
原文链接:karpathy.bearblog.dev
以下为全文翻译:
终于有机会听完了 Dwarkesh 对 Sutton 的那期播客,既有趣又发人深省。
作为背景,Sutton 的《苦涩的教训》(The Bitter Lesson) 已成为前沿大语言模型(LLM)圈子里的“圣经”文本。研究者们常会讨论和询问某种方法或想法是否足够“信奉苦涩的教训”(意思是,其设计是否能自动从增加的计算中获益),以此作为判断其是否有效或值得研究的替代指标。这背后的基本假设是,LLM 当然是高度“信奉苦涩的教训”的——只需看看 LLM 的缩放定律(scaling laws),如果你把计算量放在x轴上,性能数值就会向右上角增长。因此,有趣的是,这篇文章的作者 Sutton 本人却不那么确定 LLM 是否真的“信奉苦涩的教训”。LLM 是在根本上源于人类的巨型数据集上训练的,这些数据既是 1) 人类生成的,也是 2) 有限的。当你用尽数据时该怎么办?你如何防止人类偏见?所以你看,信奉“苦涩教训”的 LLM 研究者们被“苦涩教训”的作者本人给驳倒了——真够呛!
在某种意义上,Dwarkesh(在播客中代表 LLM 研究者的观点)和 Sutton 有点各说各话,因为 Sutton 心中有一个非常不同的架构,而 LLM 打破了它的许多原则。他称自己为“古典主义者”,并援引了艾伦·图灵最初关于构建“儿童机器”的概念——一个能够通过与世界动态互动、从经验中学习的系统。这里没有模仿互联网网页的巨大预训练阶段,也没有监督微调,他指出这在动物王国中是不存在的(这是一个微妙的观点,但 Sutton 在强意义上是正确的:动物当然会观察演示,但它们的行为不会被其他动物直接强迫/“远程操控”)。他提出的另一个重要观点是,即使你只将预训练视为在使用强化学习进行微调之前的先验知识初始化,Sutton 仍认为这种方法被人类偏见所污染,并且从根本上偏离了轨道,有点像 AlphaZero(从未见过人类围棋对局)击败 AlphaGo(从人类对局中初始化)那样。在 Sutton 的世界观里,一切都只是通过强化学习与世界互动,其中奖励函数部分是特定于环境的,但也有内在动机,例如“乐趣”、“好奇心”,并且与你世界模型的预测质量有关。而且,智能体默认情况下在测试时也始终在学习,它不是只训练一次然后部署。总的来说,Sutton 对我们与动物王国的共同点比我们的不同之处更感兴趣。“如果我们理解了松鼠,那我们差不多就大功告成了”。
至于我的看法……
首先,我得说,我认为 Sutton 是这期播客的一位出色嘉宾,我喜欢 AI 领域保持着思想的多样性,而不是每个人都在利用 LLM 的下一个局部迭代版本。AI 经历了太多次主导方法的离散式变迁,不能失去这一点。我也认为他对 LLM 并非“信奉苦涩的教训”的批评是相当中肯的。前沿 LLM 现在是高度复杂的造物,在所有阶段都涉及大量的人类因素——基础(预训练数据)是全人类的文本,微调数据是人工策划的,强化学习的环境组合是由人类工程师调整的。我们实际上并没有一个真正的、单一的、简洁的、真正“信奉苦涩的教训”的、“拧动曲柄”就能运转的算法,可以把它释放到世界上,看它仅从经验中自动学习。
这样的算法真的存在吗?找到它当然会是 AI 的巨大突破。人们通常提供两个“例证”来论证这种可能性。第一个例子是 AlphaZero 的成功,它完全从零开始,没有任何人类监督就学会了下围棋。但是,围棋这个游戏显然是一个如此简单、封闭的环境,很难在混乱的现实中找到类似的形式。我喜欢围棋,但从算法和分类上看,它本质上是一个更难版本的井字棋。第二个例子是动物,比如松鼠。在这点上,我个人也相当犹豫,怀疑这是否恰当,因为动物是通过一种与我们在工业界实际可用的非常不同的计算过程和约束条件产生的。动物的大脑在出生时远非一块白板。首先,很多通常归因于“学习”的东西,在我看来更像是“成熟”。其次,即使是那些明确属于“学习”而非成熟的部分,也更像是在某个已存的强大基础上进行“微调”。例如,一只小斑马出生后几十分钟内,就能在稀树草原上奔跑并跟随它的母亲。这是一个高度复杂的感觉运动任务,在我看来,这绝不可能是从零开始、如同一张白纸(tabula rasa)那样实现的。动物的大脑及其数十亿个参数,在其 DNA 的 ATCG 碱基对中编码了一个强大的初始化,这是通过进化过程中的“外循环”优化训练出来的。如果小斑马像强化学习策略在初始化时那样随机地抽动肌肉,它根本活不长。同样,我们现在的人工智能也有包含数十亿参数的神经网络。这些参数需要它们自己丰富、高信息密度的监督信号。我们不打算重新上演一遍进化。但我们确实拥有堆积如山的互联网文档。是的,这基本上是监督学习,在动物王国中几乎不存在。但这是为数十亿参数实际收集足够多软约束的一种方式,试图让你不从零开始。长话短说:预训练是我们蹩脚的进化。 它是解决冷启动问题的一个候选方案,之后再在看起来更正确的任务上进行微调,例如在强化学习框架内,正如当前最先进的前沿 LLM 实验室普遍在做的那样。
我仍然认为从动物身上获得启发是值得的。我认为 LLM 智能体在算法上缺失了一些强大的思想,这些思想仍然可以从动物智能中借鉴。我仍然认为“苦涩的教训”是正确的,但我更多地将其视为一个值得追求的柏拉图式理想,而非我们在现实世界中实际上必须达到的目标。我说这两点时,都带着百分之几十的不确定性,并为那些持不同意见者的工作喝彩,特别是那些在“苦涩的教训”方面更有雄心的人。
这就引出了我们目前的处境。坦率地说,当今前沿 LLM 研究并非旨在构建动物,而是在召唤幽灵。你可以将幽灵想象成在可能存在的智能空间中一个根本不同类型的点。它们被人类性所混淆,并被其彻底地工程化。它们是这些不完美的复制品,是对人类文档的一种统计学上的提纯,并加上一些点缀。它们并非柏拉图理想意义上的“信奉苦涩的教训”,但至少与之前的许多事物相比,它们或许在“实践上”是“信奉苦涩的教训”的。在我看来,随着时间的推移,我们或许可以越来越多地将我们的幽灵朝着动物的方向进行微调;这与其说是一种根本的不兼容,不如说是智能空间中的一个初始化问题。但它们也很有可能进一步分化,最终变得永久不同,不像动物,但仍然极度有用并能真正改变世界。可能,幽灵之于动物,犹如飞机之于鸟类。
总之,总结一下,总的来说并且从可操作的角度看,我认为这期播客是 Sutton 对前沿 LLM 研究者们说的实在的“真心话”,他们可能在“利用”(exploit)模式上走得太远了。或许我们仍然不够“信奉苦涩的教训”,除了详尽地构建基准测试和在基准上刷分之外,很有可能存在更强大的思想和范式。而动物可能是一个很好的灵感来源。内在动机、乐趣、好奇心、赋能、多智能体自我博弈、文化。发挥你的想象力吧。
附录我同意 Sutton 的观点,即动物不做监督学习。我意识到这是一个会迷惑很多人的微妙观点。动物确实会观察演示,但严格来说,它们的行为并没有像监督学习那样被直接监督。动物在训练模式中从未被远程操控过。我能想到的最接近的事情是,比如你通过亲手握着孩子的手教他们用勺子吃饭。即便如此,也不清楚他们的大脑是否真的在就此进行训练。这可能仍属于更准确地描述为观察的范畴。但无论如何,这些例子在总体上非常罕见,而对于 LLM 来说,这却是预训练和 SFT 期间的默认学习模式。或许换一种说法,LLM 领域中与人类行为类似的是这样的模式:“给定这道数学题和上下文中的人类解题示例,解决这个问题。如果正确,奖励为1。” 这不是 SFT(监督微调),这是 RL(强化学习)。
Dwarkesh 曾简要提出,LLM 在测试时也有自己的持续学习,只是不基于权重训练,但我认为 Sutton 没有完全回应这一点。上下文学习(In context learning)是一种测试时适应(test time adaptation)的形式,例如,这就是少样本提示(few shot prompting)有效的原因。最近的很多工作也对记忆(想想 CLAUDE.md 文件)作为一种测试时学习机制非常感兴趣,它使用文本/上下文作为基底,而不是权重。
Dwarkesh 提到了非常长周期的稀疏奖励(例如,创建一个成功的创业公司)以及这可能是如何运作的。Sutton 提出的解决方案是时间差分学习(temporal difference learning)以及本质上的未来奖励贴现(future reward discounting),我觉得这不怎么有说服力。我之前写过一些关于这个问题的文章,我认为背后有其他机制在起作用,而且在我看来,那不是强化学习。
播客中有很多关于“梯度下降不会让你获得好的泛化能力”及相关讨论,这部分我没太跟上。
有人指出幽灵很吓人。不一定,看看卡斯帕(Casper),我童年时的最爱。