October 15, 2025

François Chollet：On the Measure of Intelligence, 2019

8 minutes

作者François Chollet (弗朗索瓦·肖莱) 是一位在人工智能领域极具影响力的法国研究员。他的核心成就与贡献是开发了Keras，一个开源的深度学习框架，Keras以其用户友好、模块化和可扩展性，极大地降低了深度学习的入门门槛，迅速成为全球最受欢迎的深度学习库之一。在2015年发布Keras后不久，Chollet加入了Google长期担任高级软件工程师，继续领导Keras的开发，并对TensorFlow生态系统做出了重大贡献。除了工程上的巨大成功，Chollet更是一位深入思考人工智能本质的研究者。在《关于智能的衡量》(On the Measure of Intelligence)这篇影响深远的论文中，他提出了一个全新的智能定义：“智能是系统在面对新任务时，基于先验知识和经验，高效获取新技能的能力”。这个定义强调的是学习效率和泛化能力，而非在单一任务上的表现。为了实践他的智能理论，他创建了ARC基准测试。这个测试集包含一系列人类儿童可以轻松解决，但对当前最顶尖的AI模型却极具挑战性的视觉推理问题。ARC旨在衡量一种更接近人类的、通用的、抽象的推理能力，推动AI研究从“模式识别”走向真正的“认知与推理”。

原文链接：arxiv.org

以下是对这篇文章的精要总结和解读：

第一部分：根本性批判 —— 我们一直在错误地衡量“智能”

Chollet的论证始于一个尖锐的批判：当前几乎所有的AI基准（Benchmark）——无论是ImageNet图像识别、国际象棋、围棋（AlphaGo），还是各种复杂的电子游戏——衡量的都是**“技能”（Skill），而非“智能”（Intelligence）**。

“技能”的定义：在一个特定、封闭的任务上表现出色的能力。
“智能”的定义：高效地获取新技能，尤其是在从未见过的、开放的环境中解决问题的能力。

他用了一个非常精妙的比喻来阐述这个区别：“购买技能”（Buying Skill）。

一个系统的技能水平 S 是由它的智能 I、经验 E 和开发者注入的先验知识 P 共同决定的。

S=f(I,E,P)

经验 (E)：可以理解为训练数据或练习量。
先验 (P)：可以理解为针对特定任务进行的架构设计、算法优化和硬编码的规则。比如，为AlphaGo设计的蒙特卡洛树搜索算法就是一种强大的先验。

Chollet指出，在当前的AI研究范式中，我们可以通过投入近乎**无限的经验（海量数据）和强大的先验（巧妙的工程设计）**来为一个系统“购买”到任意高的技能水平。

一个绝佳的例子： 一个学生，智商（智能）可能很普通。但如果让他把过去20年所有考试的题库（经验）全部背下来，并由顶级名师为他总结出各种解题模板和技巧（先验），他很可能在高考（一个封闭的技能测试）中取得极高的分数。但我们能说他因此变得更“智能”了吗？显然不能。当他遇到一个全新的、从未见过的开放性问题时，他很可能会束手无策。

当前的AI正是这个“刷题学生”。通过在海量数据上进行训练，AI系统获得了在特定任务上的高超“技能”，但这掩盖了其自身“智能”水平的不足。因此，Chollet认为，依赖这些基准来评估AGI进展，无异于缘木求鱼。

第二部分：理论重构 —— 智能是“技能获取的效率”

在批判之后，Chollet提出了他的核心理论框架，将智能重新定义为**“技能获取的效率”**。这个定义有几个关键维度：

范围 (Scope)：智能不是在单一任务上定义的，而是在一个广阔的、多样化的任务空间中体现的。一个系统能应对的任务范围越广，其通用性就越强。
泛化难度 (Generalization Difficulty)：智能的核心在于泛化——将从已知任务中学到的知识应用到未知任务上。他特别强调“远距离泛化”，即新任务与旧任务的差异极大，需要系统进行抽象和推理，而不是简单的模式匹配。
先验 (Priors)：这是最关键也最深刻的一点。Chollet认为，要公平地衡量智能，就必须标准化系统的“出厂设置”，即它的先验知识。他主张，一个理想的通用智能系统应该只依赖一套**“核心知识先验”（Core Knowledge Priors）**。
这些先验是演化赋予人类的、与生俱来的基础认知能力，类似婴儿天生就懂的概念，例如：
物体恒存性：物体不会凭空消失。
目标导向性：行为通常有其目的。
基础几何与拓扑：对空间、形状、对称、连通性的直观理解。
基础算术：对数量的初步感知。
任何超出这个范围的、为特定任务定制的先验，都应该被视为一种“作弊”，因为它降低了系统自主学习的难度。
经验 (Experience)：在标准化的先验基础上，一个系统需要多少经验（数据/练习）才能达到一定的技能水平，就直接反映了它的智能。智能越高，所需经验越少。

总结一下这个定义：一个真正的智能体，应该像一个聪明的孩子，带着一套通用的、与生俱来的世界运作规律（核心知识先验），然后通过极少的互动和观察（低经验需求），就能快速举一反三，解决各种各样全新的问题（广阔范围和高泛化难度）。

第三部分：实践工具 —— ARC基准的诞生

理论必须有工具来验证。因此，Chollet创造了**ARC（Abstraction and Reasoning Corpus）**基准，它被设计为上述理论的“实体化身”。

ARC是什么样的？
它由一系列视觉推理谜题组成。
每个谜题提供2-3个“输入-输出”的范例，要求系统找出其中的抽象转换规则。
然后将这个规则应用到一个新的“测试输入”上，得出正确的“测试输出”。
为什么ARC是衡量智能的更好方式？
强制抽象推理：谜题的规则是概念性的（例如“找到所有成对的形状并保留最大的那个”、“将所有红色像素移动到最上方”），无法通过像素级的统计模式匹配来解决。
极端样本效率：只有几个范例，彻底杜绝了“大数据、浅学习”的路径。
基于核心知识先验：解决ARC问题所需的能力（如物体识别、对称性、计数、基本几何变换）都与Chollet定义的人类核心知识先验高度吻合。
对人类简单，对AI极难：这形成了一个鲜明的对比，证明了当前AI在抽象和推理能力上的根本性缺陷。即使是GPT-4V这样的顶级模型，在ARC上的表现也远不及人类普通水平。

结论与深远影响

《关于智能的衡量》这篇文章在AI领域投下了一颗思想炸弹，其影响体现在：

为AGI研究提供了“北极星”：它提供了一个比“通过图灵测试”或“在某个任务上超越人类”更清晰、更可操作的AGI发展目标和衡量标准。
挑战“大力出奇迹”的范式：它含蓄地批判了当前AI领域过度依赖“扩大模型规模、增加数据量”的路径，指出这可能无法通向真正的通用智能，我们可能需要全新的架构和学习范式。
引发对“智能”本质的回归：它将AI研究的焦点从工程上的“性能提升”拉回到更根本的科学问题上——“智能到底是什么？”、“认知和推理是如何产生的？”。

总而言之，这篇文章是一次发人深省的呼吁，它要求整个AI社区停下来思考：我们是在建造一个越来越庞大的“技能机器”，还是在培育一个真正能够理解、学习和适应的“智能体”？而ARC，就是他提供的第一块试金石。

...more

View all episodes

By RayHu

October 15, 2025

François Chollet：On the Measure of Intelligence, 2019

8 minutes

原文链接：arxiv.org

以下是对这篇文章的精要总结和解读：

第一部分：根本性批判 —— 我们一直在错误地衡量“智能”

“技能”的定义：在一个特定、封闭的任务上表现出色的能力。
“智能”的定义：高效地获取新技能，尤其是在从未见过的、开放的环境中解决问题的能力。

他用了一个非常精妙的比喻来阐述这个区别：“购买技能”（Buying Skill）。

一个系统的技能水平 S 是由它的智能 I、经验 E 和开发者注入的先验知识 P 共同决定的。

S=f(I,E,P)

经验 (E)：可以理解为训练数据或练习量。
先验 (P)：可以理解为针对特定任务进行的架构设计、算法优化和硬编码的规则。比如，为AlphaGo设计的蒙特卡洛树搜索算法就是一种强大的先验。

第二部分：理论重构 —— 智能是“技能获取的效率”

在批判之后，Chollet提出了他的核心理论框架，将智能重新定义为**“技能获取的效率”**。这个定义有几个关键维度：

范围 (Scope)：智能不是在单一任务上定义的，而是在一个广阔的、多样化的任务空间中体现的。一个系统能应对的任务范围越广，其通用性就越强。
泛化难度 (Generalization Difficulty)：智能的核心在于泛化——将从已知任务中学到的知识应用到未知任务上。他特别强调“远距离泛化”，即新任务与旧任务的差异极大，需要系统进行抽象和推理，而不是简单的模式匹配。
先验 (Priors)：这是最关键也最深刻的一点。Chollet认为，要公平地衡量智能，就必须标准化系统的“出厂设置”，即它的先验知识。他主张，一个理想的通用智能系统应该只依赖一套**“核心知识先验”（Core Knowledge Priors）**。
这些先验是演化赋予人类的、与生俱来的基础认知能力，类似婴儿天生就懂的概念，例如：
物体恒存性：物体不会凭空消失。
目标导向性：行为通常有其目的。
基础几何与拓扑：对空间、形状、对称、连通性的直观理解。
基础算术：对数量的初步感知。
任何超出这个范围的、为特定任务定制的先验，都应该被视为一种“作弊”，因为它降低了系统自主学习的难度。
经验 (Experience)：在标准化的先验基础上，一个系统需要多少经验（数据/练习）才能达到一定的技能水平，就直接反映了它的智能。智能越高，所需经验越少。

第三部分：实践工具 —— ARC基准的诞生

理论必须有工具来验证。因此，Chollet创造了**ARC（Abstraction and Reasoning Corpus）**基准，它被设计为上述理论的“实体化身”。

ARC是什么样的？
它由一系列视觉推理谜题组成。
每个谜题提供2-3个“输入-输出”的范例，要求系统找出其中的抽象转换规则。
然后将这个规则应用到一个新的“测试输入”上，得出正确的“测试输出”。
为什么ARC是衡量智能的更好方式？
强制抽象推理：谜题的规则是概念性的（例如“找到所有成对的形状并保留最大的那个”、“将所有红色像素移动到最上方”），无法通过像素级的统计模式匹配来解决。
极端样本效率：只有几个范例，彻底杜绝了“大数据、浅学习”的路径。
基于核心知识先验：解决ARC问题所需的能力（如物体识别、对称性、计数、基本几何变换）都与Chollet定义的人类核心知识先验高度吻合。
对人类简单，对AI极难：这形成了一个鲜明的对比，证明了当前AI在抽象和推理能力上的根本性缺陷。即使是GPT-4V这样的顶级模型，在ARC上的表现也远不及人类普通水平。

结论与深远影响

《关于智能的衡量》这篇文章在AI领域投下了一颗思想炸弹，其影响体现在：

为AGI研究提供了“北极星”：它提供了一个比“通过图灵测试”或“在某个任务上超越人类”更清晰、更可操作的AGI发展目标和衡量标准。
挑战“大力出奇迹”的范式：它含蓄地批判了当前AI领域过度依赖“扩大模型规模、增加数据量”的路径，指出这可能无法通向真正的通用智能，我们可能需要全新的架构和学习范式。
引发对“智能”本质的回归：它将AI研究的焦点从工程上的“性能提升”拉回到更根本的科学问题上——“智能到底是什么？”、“认知和推理是如何产生的？”。

...more

Share François Chollet：On the Measure of Intelligence, 2019

Sign up to save your podcasts

François Chollet：On the Measure of Intelligence, 2019

François Chollet：On the Measure of Intelligence, 2019