March 30, 2025

#84 强化学习的前世今生

54 minutes

【节目介绍】

本期节目聚焦强化学习，带你走进这一人工智能核心领域。从图灵奖得主巴托（Andrew Barto）和萨顿（Richard S. Sutton）的卓越成就，到强化学习从游戏到大模型的广泛应用，我们将回顾这段发展历程，探索RL的未来潜力。这是一场关于深度学习的历史和现状的回顾之旅，重新带你领略人工智能与各个学科的融合魅力。

【时间线】

01:40 从AlphaGo到RLHF（基于人类反馈的强化学习）

03:56 关于萨顿的《苦涩的教训》（The Bitter Lesson）

09:15 强化学习的启蒙奠基

爱德华·桑代克（Edward Thorndike）,动物智能和效果法则（Law of Effect）
唐纳德·赫布（Donald Hebb）,赫布法则（Hebb's Law）
沃伦·麦卡洛克（Warren McCulloch）和沃尔特·皮茨（Walter Pitts），神经元理论
安德烈·马尔可夫（Andrey Markov），马尔可夫决策过程（MDPs）

15:35 人工智能领域的早期发展

艾伦·图灵（Alan Turing），人工智能之父
贝尔蒙特·法利（Belmont Farley） & 韦斯利·克拉克**（**Wesley A. Clark），模拟第一个含有128个神经元的小型神经网络
克劳德·香农（Claude Shannon），Theseus迷宫老鼠
马文·明斯基（Marvin Lee Minsky），随机神经模拟强化计算器SNARC（Stochastic Neural Analog Reinforcement Calculator）

21:04 游戏让强化学习续命

亚瑟·塞缪尔（Arthur Samuel），IBM701上的第一个跳棋程序（Checkers）
理查德·乌尔曼（Richard Belleman），Dynamic programming equation（动态规划方程，即贝尔曼方程）
唐纳德·米奇（Donald Michie），井字游戏 Matchbox Educable Noughts And Crosses Engine (MENACE)

25:49 强化学习的诞生

安德鲁·巴托（Andrew Barto），2024年图灵奖得主，强化学习奠基人
约翰·霍兰德（John Henry Holland），遗传算法和学习分类器
诺伯特·维纳（Norbert Wiener），控制论奠基人
迈克尔·阿比布（Michael A. Arbib），神经计算
哈里·克劳普（Harry Clopf），享乐神经元
理查德·萨顿（Richard S. Sutton），2024年图灵奖得主，强化学习奠基人
杰拉尔德·特萨罗（Gerald Tesauro），TD-Gammon 西洋双陆棋游戏
沃尔夫拉姆·舒尔茨（Wolfram Schultz），多巴胺

40:35 强化学习的后继演化

大卫·西尔弗**（**David Silver），深度强化学习（Deep reinforcement learning）
吴恩达（Andrew Ng），逆强化学习（IRL，‌Inverse Reinforcement Learning）
皮特·阿贝尔（Pieter Abbeel），机器人学习（Robot Learning）和模仿学习（Imitation Learning）
谢尔盖·列文（Sergey Levine），自主机器人和车辆
约翰·舒尔曼（John Schulman），深度强化学习（Deep RL）的策略优化（Policy Optimization）

45:30 萨顿最新的观点，《去中心化神经网络》（Decentralized Neural Networks）

【关系图】

【延伸阅读】

《苦涩的教训》（The Bitter Lesson），理查德·萨顿（Richard S. Sutton） 2019

【片头和片尾音乐】

四熹丸子 - 远去的列车

【感谢】

特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持，请听友及时订阅微信公众号，查看本播客的文字版内容。欢迎订阅本播客节目，本节目在小宇宙、喜马拉雅、苹果播客、蜻蜓FM、网易云音乐、荔枝FM等平台均已上线。

...more

View all episodes

By Ian言

March 30, 2025

#84 强化学习的前世今生

54 minutes

【节目介绍】

【时间线】

01:40 从AlphaGo到RLHF（基于人类反馈的强化学习）

03:56 关于萨顿的《苦涩的教训》（The Bitter Lesson）

09:15 强化学习的启蒙奠基

爱德华·桑代克（Edward Thorndike）,动物智能和效果法则（Law of Effect）
唐纳德·赫布（Donald Hebb）,赫布法则（Hebb's Law）
沃伦·麦卡洛克（Warren McCulloch）和沃尔特·皮茨（Walter Pitts），神经元理论
安德烈·马尔可夫（Andrey Markov），马尔可夫决策过程（MDPs）

15:35 人工智能领域的早期发展

艾伦·图灵（Alan Turing），人工智能之父
贝尔蒙特·法利（Belmont Farley） & 韦斯利·克拉克**（**Wesley A. Clark），模拟第一个含有128个神经元的小型神经网络
克劳德·香农（Claude Shannon），Theseus迷宫老鼠
马文·明斯基（Marvin Lee Minsky），随机神经模拟强化计算器SNARC（Stochastic Neural Analog Reinforcement Calculator）

21:04 游戏让强化学习续命

亚瑟·塞缪尔（Arthur Samuel），IBM701上的第一个跳棋程序（Checkers）
理查德·乌尔曼（Richard Belleman），Dynamic programming equation（动态规划方程，即贝尔曼方程）
唐纳德·米奇（Donald Michie），井字游戏 Matchbox Educable Noughts And Crosses Engine (MENACE)

25:49 强化学习的诞生

安德鲁·巴托（Andrew Barto），2024年图灵奖得主，强化学习奠基人
约翰·霍兰德（John Henry Holland），遗传算法和学习分类器
诺伯特·维纳（Norbert Wiener），控制论奠基人
迈克尔·阿比布（Michael A. Arbib），神经计算
哈里·克劳普（Harry Clopf），享乐神经元
理查德·萨顿（Richard S. Sutton），2024年图灵奖得主，强化学习奠基人
杰拉尔德·特萨罗（Gerald Tesauro），TD-Gammon 西洋双陆棋游戏
沃尔夫拉姆·舒尔茨（Wolfram Schultz），多巴胺

40:35 强化学习的后继演化

大卫·西尔弗**（**David Silver），深度强化学习（Deep reinforcement learning）
吴恩达（Andrew Ng），逆强化学习（IRL，‌Inverse Reinforcement Learning）
皮特·阿贝尔（Pieter Abbeel），机器人学习（Robot Learning）和模仿学习（Imitation Learning）
谢尔盖·列文（Sergey Levine），自主机器人和车辆
约翰·舒尔曼（John Schulman），深度强化学习（Deep RL）的策略优化（Policy Optimization）

45:30 萨顿最新的观点，《去中心化神经网络》（Decentralized Neural Networks）

【关系图】

【延伸阅读】

《苦涩的教训》（The Bitter Lesson），理查德·萨顿（Richard S. Sutton） 2019

【片头和片尾音乐】

四熹丸子 - 远去的列车

【感谢】

...more

Share #84 强化学习的前世今生

Sign up to save your podcasts

#84 强化学习的前世今生

#84 强化学习的前世今生