AI智识录

François Chollet:On the Measure of Intelligence, 2019


Listen Later

作者François Chollet (弗朗索瓦·肖莱) 是一位在人工智能领域极具影响力的法国研究员。他的核心成就与贡献是开发了Keras,一个开源的深度学习框架,Keras以其用户友好、模块化和可扩展性,极大地降低了深度学习的入门门槛,迅速成为全球最受欢迎的深度学习库之一。在2015年发布Keras后不久,Chollet加入了Google长期担任高级软件工程师,继续领导Keras的开发,并对TensorFlow生态系统做出了重大贡献。除了工程上的巨大成功,Chollet更是一位深入思考人工智能本质的研究者。在《关于智能的衡量》(On the Measure of Intelligence)这篇影响深远的论文中,他提出了一个全新的智能定义:“智能是系统在面对新任务时,基于先验知识和经验,高效获取新技能的能力”。这个定义强调的是学习效率和泛化能力,而非在单一任务上的表现。为了实践他的智能理论,他创建了ARC基准测试。这个测试集包含一系列人类儿童可以轻松解决,但对当前最顶尖的AI模型却极具挑战性的视觉推理问题。ARC旨在衡量一种更接近人类的、通用的、抽象的推理能力,推动AI研究从“模式识别”走向真正的“认知与推理”。

原文链接:arxiv.org

以下是对这篇文章的精要总结和解读:

第一部分:根本性批判 —— 我们一直在错误地衡量“智能”

Chollet的论证始于一个尖锐的批判:当前几乎所有的AI基准(Benchmark)——无论是ImageNet图像识别、国际象棋、围棋(AlphaGo),还是各种复杂的电子游戏——衡量的都是**“技能”(Skill),而非“智能”(Intelligence)**。

  • “技能”的定义:在一个特定封闭的任务上表现出色的能力。
  • “智能”的定义高效地获取新技能,尤其是在从未见过的、开放的环境中解决问题的能力。

他用了一个非常精妙的比喻来阐述这个区别:“购买技能”(Buying Skill)

一个系统的技能水平 S 是由它的智能 I、经验 E 和开发者注入的先验知识 P 共同决定的。

S=f(I,E,P)

  • 经验 (E):可以理解为训练数据或练习量。
  • 先验 (P):可以理解为针对特定任务进行的架构设计、算法优化和硬编码的规则。比如,为AlphaGo设计的蒙特卡洛树搜索算法就是一种强大的先验。

Chollet指出,在当前的AI研究范式中,我们可以通过投入近乎**无限的经验(海量数据)强大的先验(巧妙的工程设计)**来为一个系统“购买”到任意高的技能水平。

一个绝佳的例子: 一个学生,智商(智能)可能很普通。但如果让他把过去20年所有考试的题库(经验)全部背下来,并由顶级名师为他总结出各种解题模板和技巧(先验),他很可能在高考(一个封闭的技能测试)中取得极高的分数。但我们能说他因此变得更“智能”了吗?显然不能。当他遇到一个全新的、从未见过的开放性问题时,他很可能会束手无策。

当前的AI正是这个“刷题学生”。通过在海量数据上进行训练,AI系统获得了在特定任务上的高超“技能”,但这掩盖了其自身“智能”水平的不足。因此,Chollet认为,依赖这些基准来评估AGI进展,无异于缘木求鱼。

第二部分:理论重构 —— 智能是“技能获取的效率”

在批判之后,Chollet提出了他的核心理论框架,将智能重新定义为**“技能获取的效率”**。这个定义有几个关键维度:

  1. 范围 (Scope):智能不是在单一任务上定义的,而是在一个广阔的、多样化的任务空间中体现的。一个系统能应对的任务范围越广,其通用性就越强。
  2. 泛化难度 (Generalization Difficulty):智能的核心在于泛化——将从已知任务中学到的知识应用到未知任务上。他特别强调“远距离泛化”,即新任务与旧任务的差异极大,需要系统进行抽象和推理,而不是简单的模式匹配。
  3. 先验 (Priors):这是最关键也最深刻的一点。Chollet认为,要公平地衡量智能,就必须标准化系统的“出厂设置”,即它的先验知识。他主张,一个理想的通用智能系统应该只依赖一套**“核心知识先验”(Core Knowledge Priors)**。
    这些先验是演化赋予人类的、与生俱来的基础认知能力,类似婴儿天生就懂的概念,例如:
    物体恒存性:物体不会凭空消失。
    目标导向性:行为通常有其目的。
    基础几何与拓扑:对空间、形状、对称、连通性的直观理解。
    基础算术:对数量的初步感知。
    任何超出这个范围的、为特定任务定制的先验,都应该被视为一种“作弊”,因为它降低了系统自主学习的难度。
  4. 经验 (Experience):在标准化的先验基础上,一个系统需要多少经验(数据/练习)才能达到一定的技能水平,就直接反映了它的智能。智能越高,所需经验越少。

总结一下这个定义:一个真正的智能体,应该像一个聪明的孩子,带着一套通用的、与生俱来的世界运作规律(核心知识先验),然后通过极少的互动和观察(低经验需求),就能快速举一反三,解决各种各样全新的问题(广阔范围和高泛化难度)。

第三部分:实践工具 —— ARC基准的诞生

理论必须有工具来验证。因此,Chollet创造了**ARC(Abstraction and Reasoning Corpus)**基准,它被设计为上述理论的“实体化身”。

  • ARC是什么样的?
    它由一系列视觉推理谜题组成。
    每个谜题提供2-3个“输入-输出”的范例,要求系统找出其中的抽象转换规则。
    然后将这个规则应用到一个新的“测试输入”上,得出正确的“测试输出”。
  • 为什么ARC是衡量智能的更好方式?
    强制抽象推理
    :谜题的规则是概念性的(例如“找到所有成对的形状并保留最大的那个”、“将所有红色像素移动到最上方”),无法通过像素级的统计模式匹配来解决。
    极端样本效率:只有几个范例,彻底杜绝了“大数据、浅学习”的路径。
    基于核心知识先验:解决ARC问题所需的能力(如物体识别、对称性、计数、基本几何变换)都与Chollet定义的人类核心知识先验高度吻合。
    对人类简单,对AI极难:这形成了一个鲜明的对比,证明了当前AI在抽象和推理能力上的根本性缺陷。即使是GPT-4V这样的顶级模型,在ARC上的表现也远不及人类普通水平。
结论与深远影响

《关于智能的衡量》这篇文章在AI领域投下了一颗思想炸弹,其影响体现在:

  1. 为AGI研究提供了“北极星”:它提供了一个比“通过图灵测试”或“在某个任务上超越人类”更清晰、更可操作的AGI发展目标和衡量标准。
  2. 挑战“大力出奇迹”的范式:它含蓄地批判了当前AI领域过度依赖“扩大模型规模、增加数据量”的路径,指出这可能无法通向真正的通用智能,我们可能需要全新的架构和学习范式。
  3. 引发对“智能”本质的回归:它将AI研究的焦点从工程上的“性能提升”拉回到更根本的科学问题上——“智能到底是什么?”、“认知和推理是如何产生的?”。

总而言之,这篇文章是一次发人深省的呼吁,它要求整个AI社区停下来思考:我们是在建造一个越来越庞大的“技能机器”,还是在培育一个真正能够理解、学习和适应的“智能体”?而ARC,就是他提供的第一块试金石。

...more
View all episodesView all episodes
Download on the App Store

AI智识录By RayHu