谷歌DeepMind的IMO金牌模型最近首次详细公开了背后的技术架构和训练方法的论文:《Olympiad-level formal mathematical reasoning with reinforcement learning》,论文中的模型延续DeepMind的命名传统,这次叫:AlphaProof
论文地址:www.nature.com
作者Tom Zahavy也趁此机会分享了一些开发过程中的细节。这里有个有意思的地方:AlphaProof团队规模并不大,大部分时间里只有大约10个人,临近IMO比赛时才有更多人加入。真正带来突破的核心成员是IMO金牌得主Miklós Horváth。他想出一个听起来简单、但威力巨大的方法:创建AI正在处理的问题的各种变体,并将它们作为初始状态,让智能体在这些变体上进行训练。这个想法为什么重要?因为它解决了AI训练中一个根本性的困境——如何让系统学会举一反三。
在整整一年里,这只小团队探索了各种研究思路,虽然很多都失败了,但成功的那些都被整合到了AlphaProof系统里。现在,这些来之不易的洞察全面公开。
把数学证明变成可以反复重玩的游戏
AlphaProof的核心思路其实很直接,但执行起来却需要极其精妙的设计:把数学证明过程变成一个可以反复训练的游戏。
想象一下,如果你要教一个AI下围棋,你会给它一个棋盘、规则,然后让它不断对弈、从输赢中学习。AlphaProof对数学证明做的正是这件事。系统基于Lean定理证明器构建了一个强化学习环境。在这个环境中,每个数学命题就是一个新的游戏关卡,AI需要通过选择合适的策略(tactics)来推进证明。如果某个策略成功了,就会得到新的子目标;如果所有目标都完成了,就意味着证明完成——游戏通关。
论文揭示,AlphaProof使用了一个30亿参数的编码器-解码器transformer模型作为"大脑"。这个证明网络的设计很巧妙:它不仅要理解当前的证明状态,还要同时输出两个关键信息——一是建议接下来尝试哪些策略,二是估计完成证明还需要多少步。
为什么要估计剩余步数?这就像人类数学家在攻克难题时会判断"这条路看起来还需要很多步,也许我该换个思路"。这种设计让系统能够更智能地分配计算资源,优先探索最有希望的证明路径,而不是在死胡同里浪费时间。
搜索算法方面,AlphaProof采用了受AlphaZero启发的树搜索,但做了关键改进。比如引入了AND-OR树结构来处理证明中的多个独立子目标——当一个证明需要同时满足多个条件时,系统会把它们分解成独立的子问题分别攻克。另外还加入了渐进采样机制,让系统在关键路径上能够探索更多样的证明策略。这些改进看似技术细节,但它们解决的是形式化证明相比围棋对弈的本质差异:数学证明不是线性的,而是树状的、需要同时推进多个分支的。
最难的部分:哪来那么多数学题?
训练AlphaProof面临的最大挑战其实不是算法,而是数据。哪来那么多数学题让它练习?
团队采用了一个三阶段的策略。首先用约3000亿个token的代码和数学文本对模型进行预训练,让它理解基本的逻辑结构和数学语言。接着用Mathlib库中约30万个人工编写的证明进行微调,让模型学会Lean的语法和证明技巧。
真正的突破来自于自动形式化过程。团队基于Gemini 1.5 Pro开发了一个专门的翻译系统,能够把自然语言的数学问题转换成Lean可以理解的形式语言。通过反复迭代和改进,这个系统最终从约100万道自然语言数学题生成了约8000万道形式化问题,远超所有现有数据集。
这是一个量级上的飞跃。但更聪明的地方在于:即使自动形式化的结果不完全准确,只要它是一个有效的形式命题,AlphaProof都能从尝试证明它的过程中学到东西。这就像一个学生做练习题,有时题目本身可能有小瑕疵,但解题的思维训练依然有价值。
主强化学习循环是整个训练的核心。系统会不断尝试证明或反证这些自动生成的命题,成功的证明会被用来更新神经网络。整个主训练阶段消耗了约8万TPU天的计算资源——这是一个惊人的数字,但相比于它带来的能力提升,或许是值得的。
论文中的核心架构图展示了AlphaProof的两个学习循环是如何协同工作的。
在主强化学习循环中,约100万道非正式数学问题首先经过形式化系统的处理,被翻译成大约8000万道Lean能够理解的形式化问题。证明网络配合树搜索算法在Lean环境中不断尝试,无论是成功找到证明、找到反证,还是超时失败,每一次尝试都会产生经验数据反馈给学习系统。
测试时强化学习循环则展现了一种更加精细的适应机制——这或许是整个系统最有洞察力的设计。
当面对一道特别困难的目标问题时,变体生成器会围绕这道题产生大约40万个相关变体,相当于为一道题专门创建了一个小型数据集。这些变体包含了各种数学直觉:简化特殊情况、推广到更一般的形式、探索类似的结构等。
系统会启动一个独立的AlphaZero式学习过程,专门在这些变体上训练,逐步积累解决原问题所需的洞察。这个机制可以并行处理多个目标问题,每个问题都有自己的变体课程和专属的学习进程。这就像一个数学家面对难题时,会先从简单情况入手、尝试类似问题、寻找规律,最终找到解决原问题的钥匙。
IMO赛场上的临时突破
AlphaProof在2024年IMO上的表现堪称惊艳,现在背后更多开发细节被公开。这个故事比你想象的更戏剧化。
面对IMO级别的难题,仅靠增加搜索时间往往不够。这时候,前面介绍的测试时强化学习(TTRL)就派上了用场——系统会生成大量相关的变体问题(比如简化版、推广版、类比版等),然后专门训练一个"专家"模型来攻克这道题。
以2024年IMO的第一题为例,这道题要求找出所有满足特定整除性质的实数α。AlphaProof生成的变体包括:只考虑有理数的情况、假设α满足更强的性质、证明α必须接近某个整数等等。通过在这些变体上训练,系统逐渐掌握了解决原问题的关键洞察。
在实际比赛中,AlphaProof成功解决了代数和数论的三道题(P1、P2、P6),其中P6是整个比赛最难的题目,609名参赛选手中只有5人完全解出。每道题的TTRL过程需要2-3天的计算时间,虽然远超人类选手的9小时限制,但考虑到此前最先进的AI系统连最简单的IMO题都很难解决,这个成就已经相当了不起。
Tom Zahavy在回忆中提到了一个细节:比赛期间他们通过部分证明系统就已经确定的成绩只能拿到铜牌水平,团队气氛有些沮丧。但TTRL还在后台默默运行。三天后,当三个完整证明陆续出现时,团队才终于确定能拿到金牌,兴奋地敲锣打鼓庆祝。
下半场的一个注脚
回到更大的图景。AlphaProof的成功印证了"下半场"理论的一个核心观点:当你有了足够通用的"配方"(语言预训练+规模化+推理与行动),游戏规则就改变了。
AlphaProof没有发明什么全新的算法范式,它的成功来自于精心设计的评估设置——把数学证明转化为强化学习环境、设计变体生成器来实现测试时学习、建立自动形式化管道来解决数据稀缺问题。这些都是"下半场"的游戏:从"我们能解决什么"转向"我们应该如何定义和评估真正重要的问题"。
但AlphaProof也揭示了另一个真相:即使在下半场,AI距离真正的效用转化还有很长的路。IMO金牌很炫目,但它对世界经济的直接影响几乎为零。数学证明依然是一个相对封闭、规则明确的领域。真正的挑战在于,如何把这种能力迁移到开放、混乱、充满不确定性的真实世界问题上。
这或许正是下半场最激动人心的地方:我们知道"配方"有效,但如何将其转化为改变世界的产品,如何设计真正衡量效用而非仅仅衡量智能的评估体系——这些问题,才刚刚开始。