
Sign up to save your podcasts
Or


作者François Chollet (弗朗索瓦·肖莱) 是一位在人工智能领域极具影响力的法国研究员。他的核心成就与贡献是开发了Keras,一个开源的深度学习框架,Keras以其用户友好、模块化和可扩展性,极大地降低了深度学习的入门门槛,迅速成为全球最受欢迎的深度学习库之一。在2015年发布Keras后不久,Chollet加入了Google长期担任高级软件工程师,继续领导Keras的开发,并对TensorFlow生态系统做出了重大贡献。除了工程上的巨大成功,Chollet更是一位深入思考人工智能本质的研究者。在《关于智能的衡量》(On the Measure of Intelligence)这篇影响深远的论文中,他提出了一个全新的智能定义:“智能是系统在面对新任务时,基于先验知识和经验,高效获取新技能的能力”。这个定义强调的是学习效率和泛化能力,而非在单一任务上的表现。为了实践他的智能理论,他创建了ARC基准测试。这个测试集包含一系列人类儿童可以轻松解决,但对当前最顶尖的AI模型却极具挑战性的视觉推理问题。ARC旨在衡量一种更接近人类的、通用的、抽象的推理能力,推动AI研究从“模式识别”走向真正的“认知与推理”。
原文链接:arxiv.org
以下是对这篇文章的精要总结和解读:
第一部分:根本性批判 —— 我们一直在错误地衡量“智能”Chollet的论证始于一个尖锐的批判:当前几乎所有的AI基准(Benchmark)——无论是ImageNet图像识别、国际象棋、围棋(AlphaGo),还是各种复杂的电子游戏——衡量的都是**“技能”(Skill),而非“智能”(Intelligence)**。
他用了一个非常精妙的比喻来阐述这个区别:“购买技能”(Buying Skill)。
一个系统的技能水平 S 是由它的智能 I、经验 E 和开发者注入的先验知识 P 共同决定的。
S=f(I,E,P)
Chollet指出,在当前的AI研究范式中,我们可以通过投入近乎**无限的经验(海量数据)和强大的先验(巧妙的工程设计)**来为一个系统“购买”到任意高的技能水平。
一个绝佳的例子: 一个学生,智商(智能)可能很普通。但如果让他把过去20年所有考试的题库(经验)全部背下来,并由顶级名师为他总结出各种解题模板和技巧(先验),他很可能在高考(一个封闭的技能测试)中取得极高的分数。但我们能说他因此变得更“智能”了吗?显然不能。当他遇到一个全新的、从未见过的开放性问题时,他很可能会束手无策。
当前的AI正是这个“刷题学生”。通过在海量数据上进行训练,AI系统获得了在特定任务上的高超“技能”,但这掩盖了其自身“智能”水平的不足。因此,Chollet认为,依赖这些基准来评估AGI进展,无异于缘木求鱼。
第二部分:理论重构 —— 智能是“技能获取的效率”在批判之后,Chollet提出了他的核心理论框架,将智能重新定义为**“技能获取的效率”**。这个定义有几个关键维度:
总结一下这个定义:一个真正的智能体,应该像一个聪明的孩子,带着一套通用的、与生俱来的世界运作规律(核心知识先验),然后通过极少的互动和观察(低经验需求),就能快速举一反三,解决各种各样全新的问题(广阔范围和高泛化难度)。
第三部分:实践工具 —— ARC基准的诞生理论必须有工具来验证。因此,Chollet创造了**ARC(Abstraction and Reasoning Corpus)**基准,它被设计为上述理论的“实体化身”。
《关于智能的衡量》这篇文章在AI领域投下了一颗思想炸弹,其影响体现在:
总而言之,这篇文章是一次发人深省的呼吁,它要求整个AI社区停下来思考:我们是在建造一个越来越庞大的“技能机器”,还是在培育一个真正能够理解、学习和适应的“智能体”?而ARC,就是他提供的第一块试金石。
By RayHu作者François Chollet (弗朗索瓦·肖莱) 是一位在人工智能领域极具影响力的法国研究员。他的核心成就与贡献是开发了Keras,一个开源的深度学习框架,Keras以其用户友好、模块化和可扩展性,极大地降低了深度学习的入门门槛,迅速成为全球最受欢迎的深度学习库之一。在2015年发布Keras后不久,Chollet加入了Google长期担任高级软件工程师,继续领导Keras的开发,并对TensorFlow生态系统做出了重大贡献。除了工程上的巨大成功,Chollet更是一位深入思考人工智能本质的研究者。在《关于智能的衡量》(On the Measure of Intelligence)这篇影响深远的论文中,他提出了一个全新的智能定义:“智能是系统在面对新任务时,基于先验知识和经验,高效获取新技能的能力”。这个定义强调的是学习效率和泛化能力,而非在单一任务上的表现。为了实践他的智能理论,他创建了ARC基准测试。这个测试集包含一系列人类儿童可以轻松解决,但对当前最顶尖的AI模型却极具挑战性的视觉推理问题。ARC旨在衡量一种更接近人类的、通用的、抽象的推理能力,推动AI研究从“模式识别”走向真正的“认知与推理”。
原文链接:arxiv.org
以下是对这篇文章的精要总结和解读:
第一部分:根本性批判 —— 我们一直在错误地衡量“智能”Chollet的论证始于一个尖锐的批判:当前几乎所有的AI基准(Benchmark)——无论是ImageNet图像识别、国际象棋、围棋(AlphaGo),还是各种复杂的电子游戏——衡量的都是**“技能”(Skill),而非“智能”(Intelligence)**。
他用了一个非常精妙的比喻来阐述这个区别:“购买技能”(Buying Skill)。
一个系统的技能水平 S 是由它的智能 I、经验 E 和开发者注入的先验知识 P 共同决定的。
S=f(I,E,P)
Chollet指出,在当前的AI研究范式中,我们可以通过投入近乎**无限的经验(海量数据)和强大的先验(巧妙的工程设计)**来为一个系统“购买”到任意高的技能水平。
一个绝佳的例子: 一个学生,智商(智能)可能很普通。但如果让他把过去20年所有考试的题库(经验)全部背下来,并由顶级名师为他总结出各种解题模板和技巧(先验),他很可能在高考(一个封闭的技能测试)中取得极高的分数。但我们能说他因此变得更“智能”了吗?显然不能。当他遇到一个全新的、从未见过的开放性问题时,他很可能会束手无策。
当前的AI正是这个“刷题学生”。通过在海量数据上进行训练,AI系统获得了在特定任务上的高超“技能”,但这掩盖了其自身“智能”水平的不足。因此,Chollet认为,依赖这些基准来评估AGI进展,无异于缘木求鱼。
第二部分:理论重构 —— 智能是“技能获取的效率”在批判之后,Chollet提出了他的核心理论框架,将智能重新定义为**“技能获取的效率”**。这个定义有几个关键维度:
总结一下这个定义:一个真正的智能体,应该像一个聪明的孩子,带着一套通用的、与生俱来的世界运作规律(核心知识先验),然后通过极少的互动和观察(低经验需求),就能快速举一反三,解决各种各样全新的问题(广阔范围和高泛化难度)。
第三部分:实践工具 —— ARC基准的诞生理论必须有工具来验证。因此,Chollet创造了**ARC(Abstraction and Reasoning Corpus)**基准,它被设计为上述理论的“实体化身”。
《关于智能的衡量》这篇文章在AI领域投下了一颗思想炸弹,其影响体现在:
总而言之,这篇文章是一次发人深省的呼吁,它要求整个AI社区停下来思考:我们是在建造一个越来越庞大的“技能机器”,还是在培育一个真正能够理解、学习和适应的“智能体”?而ARC,就是他提供的第一块试金石。