2024图灵奖颁给强化学习两位奠基人！ChatGPT、DeepSeek背后功臣戴上迟来的冠冕

好消息：

哲学园推出自己的智能体啦，只要在哲学园主页点击“发消息”，进入对话页面，就可以向哲学园提问对话，哲学园会用自己的资料库结合大模型进化回复。哲友们都说哲学园资料库啥都有，以前是用搜索，现在升级为智能体还可以回答你的高深问题啦，赶快试试吧。

另，哲学园网站也开通了：

http://www.zhexueyuan.com/

转自：新智元

如涉版权请加编辑微信iwish89联系

哲学园鸣谢

新智元报道

编辑：编辑部 HNZ

【新智元导读】强化学习之父Richard Sutton和他的导师Andrew Barto，获得了2024年图灵奖。有人说，图灵奖终于颁给了强化学习，这是迟到的「奖励」。

2024年图灵奖，颁给了强化学习之父！

就在刚刚，计算机学会ACM宣布：Andrew G. Barto和Richard S. Sutton为2024年ACM图灵奖获得者，以表彰他们为强化学习奠定了概念和算法基础。

继诺贝尔奖之后，AI学者再次将图灵奖收归囊中。

「强化学习之父」Richard S. Sutton和他的导师Andrew G. Barto，都为强化学习做出了奠基性的贡献。

从1980年代开始的一系列论文中，二人就引入了强化学习的核心理念，构建了数学基础，并开发了强化学习的关键算法——这是创建智能系统最为重要的方法之一。

1998年，Sutton和Barto共同撰写了「Reinforcement Learning: An Introduction」（强化学习导论），这本书至今仍被视为该领域的奠基之作。目前，已被引用了超过75,000次。

如今，Barto是马萨诸塞大学阿姆赫斯特分校信息与计算机科学系的名誉教授。

Sutton是阿尔伯塔大学计算机科学教授，Keen Technologies的首席研究员，以及阿尔伯塔机器智能研究所（Amii）的特聘研究员。

ACM A.M. 图灵奖常被誉为「计算机领域的诺贝尔奖」，奖金高达100万美元，由谷歌提供资金支持。该奖项以奠定了计算科学数学理论基础的英国数学家艾伦·图灵（Alan M. Turing）的名字命名。

得知自己获得今年图灵奖的消息时，Sutton感到非常震惊。

就在最近，Sutton才刚发文引述了图灵的名言

RL之父和他的博导

AI行业一直努力最大化机器知识容量。而身处这个行业的Richard Sutton，长期以来一直在思考一个更为基础的问题——机器如何学习？

随着「Reinforcement Learning：An Introduction」的出版，这本强化学习领域的「圣经」在数十年后，仍然有着重要的意义。因为这些思想本质上看似简单，却对更广泛的AI行业产生着持续的影响。

Reinforcement Learning: Summary and Review | Bill Mei

Sutton这样解释他的研究方法：研究必须从小处着手；这种基础研究，不会立即为最新技术带来明显的改进。

早在1978年，二人便开始合作。

当时，Sutton正在马萨诸塞大学阿默斯特分校攻读博士学位，而他的导师正是Barto。随后，Sutton又跟着Barto完成了博士后研究。

他们编写了一些最早的RL算法，就像人类或机器学习的方式一样，让机器通过反复试错获取知识。

虽然Sutton由此赢得了学术界的赞誉，但在某种程度上，却让他跟谷歌、微软、OpenAI等大公司构建的LLM所代表主流理论，产生了分歧。

在他看来，这些技术只是在模仿人类行为，并未真正认识到自己的行动，并且从中学习——

我认为它们并不在通往AGI的正确道路上。

强化学习的核心，是确保机器「从经验中学习」，或者理解反馈并从错误中学习。

然而，LLM是从海量历史数据中提取信息来生成回应的，所以它们的智能程度也仅仅与其神经网络在给定时间的规模相当。

因此，LLM天然就有一种「愚蠢的弱点」。虽然可以调整对书面问题的回答，但它们的主要目标，仅仅是确定文本链中的下一个输出而已。

对于如今的许多AI系统，Sutton都评价为「在于你互动时完全不会学习」。

比如在他看来，ChatGPT就不会根据自己的经验改变任何权重；它对结果漠不关心，也真正缺乏认知；它对发生的任何事都不会惊讶，因为它本来对于发生的事就没有任何预期。

Sutton的谷歌DeepMind前同事Michael Bowling如此评价他——

当世界其他地方都在追逐大语言模型应用时，Rich仍在坚守基础研究的阵地。

在以后，当人们希望看到能真正和人类互动的AI系统，他们可能会意识到，Sutton对强化学习的贡献是多么意义重大。

而且在过去五年中，RL也越来越被重视。引起全球轰动的DeepSeek，就是用RL通过正反馈循环来训练AI的。

在阿尔伯塔机器智能研究所（Amii）负责人Cam Linke看来，Sutton是一位为人谦逊、不事张扬的专业人士。他摒弃了科学领域常见的传统等级制度或政治因素，对他来说科学过程才是关键所在。

继Geoffrey Hinton和Yoshua Bengio在2018年与Yann LeCun一起因对深度神经网络研究的贡献获奖后，Sutton是最新一位获得图灵奖的加拿大研究者。

他表示，自己将自己看作是一个强化学习智能体，通过经验在各个层面学习，比如踢到脚趾后调整走路的方式，或者接受一份工作，从中获得乐趣。

什么是强化学习？

AI领域通常关注于构建AI智能体——即能够感知和行动的实体。

更智能的AI智能体能够选择更好的行动方案。因此，知道哪些行动方案更好对AI至关重要。

奖励——这一借用自心理学和神经科学的术语——表示一个提供给AI智能体与其行为质量相关的信号。

强化学习（RL）就是在这种奖励信号的引导下学习找到更好行动方案的过程。

从奖励中学习的理念对于动物训练师来说已经存在了数千年。

后来，艾伦·图灵（Alan Turing）在1950年的论文《计算机器与智能》中探讨了「机器能思考吗？」这一问题，并提出了一种基于奖励和惩罚的机器学习方法。

虽然图灵称他曾进行一些初步实验，而且Arthur Samuel在1950年代后期开发了一个能通过自我对弈进行学习的跳棋程序，但在随后的几十年里，AI的这一研究方向几乎没有取得任何进展。

到了1980年代初，受到心理学观察的启发，Barto和他的博士生Sutton开始将强化学习构建为一个通用问题框架。

他们借鉴了马尔可夫决策过程（MDP）提供的数学基础，在这个过程中，AI智能体在具有随机性的环境中做出决策，在每次状态转换后接收奖励信号，目的是将长期累积的奖励最大。

与标准MDP理论假设AI智能体已知MDP的所有信息不同，强化学习框架允许环境和奖励是未知的。

强化学习的信息需求最小，结合MDP框架的通用性，使得强化学习算法可以应用于广泛的问题领域。

Barto和Sutton，无论是合作还是与其他研究者协作，都开发出了许多强化学习的基本算法。

包括他们最重要的贡献——时间差分学习，它在解决奖励预测问题方面取得了重要突破，此外还有策略梯度方法和将神经网络作为表示学习函数的工具的使用。

他们还提出了结合学习和规划的AI智能体设计，证明了将环境知识作为规划基础的价值。

正如前文提到的，「Reinforcement Learning: An Introduction」这本书使数千名研究人员能够理解并为这一领域做出贡献，更重要的是，它还在继续激发当今计算机科学中的许多重要研究活动。

尽管Barto和Sutton的算法是几十年前开发的，但在过去十五年中，通过与深度学习算法（由2018年图灵奖获得者Bengio、Hinton和LeCun开创）相结合，强化学习的实际应用取得了重大突破——深度强化学习技术。

强化学习最引人注目的例子是AlphaGo计算机程序在2016年和2017年战胜世界顶尖人类围棋选手。

近几年的另一个重大成就是聊天机器人ChatGPT的出现。

ChatGPT是一个LLM，其训练分为两个阶段，第二阶段采用了一种称为基于人类反馈的强化学习（RLHF）技术，以更好地捕捉人类的期望和偏好。

强化学习在许多其他领域也取得了显著成功。

一个备受瞩目的研究案例是机器人在手中操作和解决物理（魔方）问题的运动技能学习，这表明完全在模拟中进行强化学习，最终也可能在显著不同的现实世界中取得成功。

其他的应用领域包括网络拥塞控制、芯片设计、互联网广告、优化算法、全球供应链优化、提升聊天机器人的行为和推理能力，甚至改进计算机科学中最古老的问题之一的矩阵乘法算法。

最后，这项部分受到神经科学启发的技术也反过来回馈了神经科学。最近的研究，包括Barto的工作，表明人工智能中开发的特定强化学习算法，为有关人类大脑中多巴胺系统的大量发现提供了最佳解释。

获奖人介绍

Andrew Barto

Andrew Barto是马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。是IEEE和AAAS的Fellow。

Barto于1970年从密歇根大学获得数学学士学位。在阅读了Michael Arbib and McCulloch和Pitts的作品后，他对利用计算机和数学来模拟大脑产生了兴趣，五年后因一篇关于元胞自动机的论文获得了该校的计算机科学博士学位。

他于1977年作为博士后研究员开始在马萨诸塞大学阿默斯特分校的职业生涯，此后曾担任多个职位，包括副教授、教授和系主任。

此前，他曾获得包括马萨诸塞大学神经科学终身成就奖、IJCAI研究卓越奖和IEEE神经网络学会先驱奖在内的众多奖项。

Richard Sutton

Richard Sutton是阿尔伯塔大学计算机科学教授，Keen Technologies的研究科学家，以及阿尔伯塔机器智能研究所（Amii）的首席科学顾问。是AAAI、英国皇家学会和加拿大皇家学会的Fellow。

在2017年至2023年期间，他曾担任DeepMind的杰出研究科学家。

在加入阿尔伯塔大学之前，他于1998年至2002年在AT&T香农实验室AI部门担任首席技术专家。

Sutton获得了斯坦福大学心理学学士学位，并在马萨诸塞大学阿默斯特分校获得计算机与信息科学的硕士和博士学位。

Sutton获得的荣誉包括国际AI联合会研究卓越奖、加拿大AI协会终身成就奖和马萨诸塞大学阿默斯特分校杰出研究成就奖。

参考资料：

https://awards.acm.org/turing

2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

转自：机器之心

如涉版权请加编辑微信iwish89联系

哲学园鸣谢

强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。

人工智能学者，再次收获图灵奖！

刚刚，计算机学会（ACM）宣布了 2024 年的 ACM A.M. Turing Award（图灵奖）获得者：Andrew Barto 和 Richard Sutton。

他们都是对强化学习做出奠基性贡献的著名研究者，Richard Sutton 更是有「强化学习之父」的美誉。Andrew Barto 则是 Sutton 的博士导师。自 1980 年代起，两位学者在一系列论文中提出了强化学习的主要思想，还构建了强化学习的数学基础，并开发了强化学习的重要算法。两人合著的《Reinforcement Learning: An Introduction》一直是强化学习领域最经典的教材之一。

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学荣休教授。Richard Sutton 是阿尔伯塔大学计算机科学教授，同时也是 Keen Technologies 的研究科学家。

ACM 图灵奖常被称为「计算机领域的诺贝尔奖」，奖金为 100 万美元，由谷歌公司提供资金支持。该奖项以提出计算数学基础的英国数学家艾伦・图灵命名。

强化学习，当今 AI 突破的原点

说起强化学习，我们可以想起最近引爆全球 AI 技术爆发的 DeepSeek R1，其中的强化学习算法 GRPO 赋予了大模型极强的推理能力，且不需要大量监督微调，是 AI 性能突破的核心。

再往前看，在围棋上超越人类的 AlphaGo 也是利用强化学习自我博弈训练出的策略。可以说最近的几次 AI 突破，背后总有强化学习的身影。

人工智能领域通常会比较关注智能体的构建 —— 即可以感知和行动的实体。更智能的智能体能够选择更好的行动方案。因此，想出比其他方案更好行动方案概念，对 AI 非常关键。借用自心理学和神经科学的「奖励」— 词，表示向智能体提供的与其行为质量相关的信号。强化学习（RL）是在这种信号下学习更成功行为的过程。

通过奖励学习的理念对动物训练师来说已有数千年历史。后来，艾伦・图灵 1950 年的论文《计算机械与智能》提出了「机器能思考吗？」的问题，并提出了基于奖励和惩罚的机器学习方法。

图灵报告说他进行了一些初步实验，Arthur Samuel 也在 1950 年代后期开发了一个能通过自我对弈学习的跳棋程序。但在接下来的几十年里，AI 的这一方向进展甚微。

直至 1980 年代初，受心理学观察的启发，Andrew Barto 和他的博士生 Richard Sutton 开始将强化学习作为一个通用问题框架进行构建。

他们借鉴了马尔可夫决策过程（MDP）提供的数学基础，在这个框架中，智能体在随机环境中做出决策，每次转换后收到奖励信号，并最大化其长期累积奖励。

与标准 MDP 理论假设智能体知道一切不同，RL 框架允许环境和奖励是未知的。RL 的最小信息需求，结合 MDP 框架的通用性，使 RL 算法可以应用于广泛的问题。

Andrew Barto 和 Richard Sutton 联手或者协同他人，都开发了许多 RL 基本算法。其中包括他们最重要的贡献 —— 时间差分学习（该算法为解决奖励预测问题取得了重要进展），以及策略梯度方法和使用神经网络作为表示学习函数的工具。他们还提出了结合学习和规划的智能体设计，展示了获取环境知识作为规划基础的价值。

同样有影响力的是他们的教科书《Reinforcement Learning: An Introduction》(1998)，它仍然是该领域的标准参考，被引用超过 79,000 次。这本书让数千名研究人员理解并为这一新兴领域做出贡献，至今仍激发着计算机科学领域的许多重要研究活动。

尽管 Barto 和 Sutton 的算法是数十年前开发的，但通过将强化学习与深度学习（由 2018 年图灵奖获得者 Bengio、Hinton、LeCun 开创）相结合，强化学习的实际应用已在过去十五年中取得重大进展。于是，深度强化学习技术应运而生。

强化学习最著名的例子是 AlphaGo 计算机程序在 2016 年和 2017 年战胜了顶级人类围棋选手。另一个近期重大成就是聊天机器人 ChatGPT。

ChatGPT 是一个经过两阶段训练得到的大型语言模型（LLM），其中第二阶段采用了一种名为「基于人类反馈的强化学习（RLHF）」的技术，其作用是可以让模型输出符合人类期望。

强化学习在许多其他领域也取得了成功，其中之一是机器人运动技能学习。通过强化学习，机器手可以学会操作物体和解决物理问题；并且这种学习过程可在模拟中完成，然后再迁移到现实世界。

强化学习适用的领域还包括网络拥堵控制、芯片设计、互联网广告、优化、全球供应链优化、改进聊天机器人的行为和推理能力，甚至改进矩阵乘法算法 —— 这是计算机科学中最古老的问题之一。

最后，强化学习还反过来助力了神经科学的发展 —— 强化学习正是受到了该学科的启发。最近的研究，包括 Barto 的研究成果，已经表明 AI 领域开发的某些强化学习算法可为涉及人类大脑中多巴胺系统的广泛发现提供最佳解释。

「Barto 和 Sutton 的工作展示了将多学科方法应用于我们领域长期挑战的巨大潜力，」ACM 主席 Yannis Ioannidis 解释道。「从认知科学和心理学到神经科学的研究领域启发了强化学习的发展，这为 AI 领域的一些最重要进展奠定了基础，并让我们更深入地了解大脑如何工作。Barto 和 Sutton 的工作不是我们已经超越的垫脚石。强化学习继续发展，并为计算和许多其他学科的进一步发展提供了巨大潜力。用我们领域最负盛名的奖项表彰他们是非常恰当的。」

「在 1947 年的一次演讲中，艾伦・图灵表示『我们想要的是一台能从经验中学习的机器』」，谷歌高级副总裁 Jeff Dean 指出。「Barto 和 Sutton 开创的强化学习直接回应了图灵的挑战。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍然是 AI 繁荣的中心支柱，带来了重大进步，吸引了大量年轻研究人员，并推动了数十亿美元的投资。RL 的影响将持续到未来。谷歌很荣幸赞助 ACM 图灵奖并表彰那些塑造了改善我们生活的技术的个人。」

个人背景

Andrew G. Barto

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。他于 1977 年作为博士后研究助理在马萨诸塞大学阿默斯特分校开始职业生涯，此后担任过多个职位，包括副教授、教授和系主任。Barto 在密歇根大学获得数学学士学位（优等），并在那里获得了计算机与通信科学的硕士和博士学位。

Barto 的荣誉包括马萨诸塞大学神经科学终身成就奖、IJCAI 研究卓越奖（Research Excellence Award）和 IEEE 神经网络学会先驱奖。他是电气和电子工程师协会（IEEE）会士和美国科学促进会（AAAS）会士。

Richard S. Sutton

Richard S. Sutton 是阿尔伯塔大学计算机科学教授、Keen Technologies（一家总部位于德克萨斯州达拉斯的通用人工智能公司）的研究科学家，以及阿尔伯塔机器智能研究所（Amii）的首席科学顾问。Sutton 从 2017 年到 2023 年是 DeepMind 的杰出研究科学家。在加入阿尔伯塔大学之前，他曾于 1998 年至 2002 年在新泽西州 Florham Park 的 AT&T 香农实验室人工智能部门担任首席技术人员。

Sutton 与 Andrew Barto 的合作始于 1978 年，当时在马萨诸塞大学阿默斯特分校，Barto 是 Sutton 的博士和博士后导师。Sutton 在斯坦福大学获得心理学学士学位，在马萨诸塞大学阿默斯特分校获得计算机与信息科学的硕士和博士学位。

Sutton 的荣誉包括获得 IJCAI 研究卓越奖、加拿大人工智能协会终身成就奖和马萨诸塞大学阿默斯特分校的杰出研究成就奖。Sutton 是伦敦皇家学会会士、人工智能促进协会会士和加拿大皇家学会会士。

参考链接

https://x.com/TheOfficialACM/status/1897225672935735579

https://amturing.acm.org/