刚刚，2024 图灵奖得主正式官宣，ChatGPT 和 DeepSeek 都曾受益于他们

就在刚刚，计算机界的诺贝尔奖——图灵奖得主正式官宣。

美国计算机协会（ACM）宣布，Andrew Barto 和 Richard Sutton 荣获 2024 年 ACM A.M. 图灵奖，以表彰他们在强化学习领域奠定的概念与算法基础。

ACM A.M. 图灵奖是计算机领域的最高荣誉奖项，由 ACM 于 1966 年设立，旨在表彰对计算机技术做出持久和重大贡献的个人。

该奖项以计算理论奠基人、英国数学家艾伦·图灵命名，奖金高达 100 万美元，由 Google 公司提供资助。

从 20 世纪 80 年代起， Barto 和 Sutton 通过一系列论文提出了强化学习的核心思想，构建了其数学基础，并开发了关键算法，使其成为智能系统研究中最重要的方法之一。

值得一提的是，被誉为「强化学习之父」的 Richard Sutton，曾是 Barto 的博士及博士后学生，两人的师生合作成就了这一领域的基石。

目前，Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系的荣休教授。而 Sutton 则在阿尔伯塔大学担任计算机科学教授，同时也是 Keen Technologies 的研究科学家。

什么是强化学习？

AI 领域的核心目标是构建智能体（agent），即能够感知环境并采取行动的实体。而强化学习（Reinforcement Learning，RL），正是智能体根据环境反馈的奖励信号，学习如何做出更优决策的过程。

简单来说，就像训练宠物一样——好的行为给予奖励，从而增强这种行为的出现概率。

这一学习理念由来已久。

早在 1950 年，图灵本人在其著名论文《计算机机器与智能》中就探讨了基于奖励和惩罚的机器学习方法。几年后，Arthur Samuel 开发了能通过自我对弈学习的跳棋程序，但随后几十年，这一方向的进展相当有限。

直到 20 世纪 80 年代初，受心理学研究的启发，Barto 和他的博士生 Sutton 开始将强化学习正式确立为一个通用问题框架，为这一领域的发展奠定了基础。

他们借鉴了马尔可夫决策过程（Markov Decision Processes，MDPs）提供的数学基础。在 MDP 框架下，智能体在一个随机环境中做出决策，每次状态转移后都会收到一个奖励信号，并以最大化长期累积奖励为目标。

传统的 MDP 理论假设智能体完全了解环境和奖励机制。

而强化学习（RL）框架则允许智能体在未知环境和未知奖励的情况下进行学习。这种对信息的最小依赖性，加上 MDP 框架的通用性，使 RL 算法可以广泛应用于各种问题，下面将进一步介绍其应用。

Barto 和 Sutton 及其合作者共同开发了许多强化学习的基本算法，其中最重要的贡献之一是时序差分学习（temporal difference learning），它在奖励预测问题上取得了重要突破。

此外，他们还提出了策略梯度方法（policy-gradient methods），并探索了神经网络在学习函数表示中的应用。他们还设计了结合学习与规划的智能体结构，证明了智能体在学习环境知识后进行规划的价值。

除了算法贡献，他们合著的教材《强化学习：导论》（Reinforcement Learning: An Introduction，1998）同样具有深远影响。这本书至今仍是该领域的标准参考文献，被引用超过 75000 次，成为该领域标准参考文献，培养了无数研究者。

尽管基础理论早在几十年前就已提出，但强化学习的实际应用在过去 15 年才取得重大突破。

这一进展主要源于强化学习与深度学习（由 2018 年图灵奖得主 Bengio、Hinton 和 LeCun 开创）的结合，催生了深度强化学习技术。没错，就是你所认知的 AI 教父——Hinton。

深度强化学习技术最具代表性的成功案例莫过于 AlphaGo 在 2016 年和2017年连续战胜世界顶级围棋选手

近年来，另一项重大突破是 ChatGPT 的诞生。

ChatGPT 是一个大语言模型（LLM），其训练分为两个阶段，其中第二阶段采用了一种名为人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）的方法，使模型能够更好地符合人类的期望。

DeepSeek 也在其模型开发中广泛使用了强化学习技术。

DeepSeek-R1-Zero 是一种完全基于大规模强化学习训练的模型，没有经过监督微调（SFT）作为初步步骤。这种模型展示了强大的推理能力，能够通过增加推理时间来解决复杂的任务。

此外，DeepSeek 还引入了群体相对策略优化（GRPO）技术，通过强化学习与组内相对奖励机制优化模型。这种方法使得模型在数学推理、代码生成等复杂任务中表现出类人的逻辑推理能力

强化学习的应用还涵盖了多个领域，包括网络拥塞控制、芯片设计、互联网广告优化、全球供应链优化、提升聊天机器人的行为和推理能力以及改进计算机科学中的经典问题，如矩阵乘法算法等。

最终，这项最初受神经科学启发的技术，如今反过来为神经科学研究提供了新的见解。包括 Barto 在内的研究表明，某些强化学习算法实际上是对人脑多巴胺系统运作机制的最佳解释之一，加深了我们对大脑学习过程的理解。

ACM 主席 Yannis Ioannidis 评价道：

Barto 和 Sutton 的研究展示了跨学科方法在解决长期难题方面的巨大潜力。从认知科学、心理学到神经科学等多个领域的研究，激发了强化学习的诞生。而强化学习不仅奠定了人工智能领域的一些最重要突破的基础，还让我们对大脑的运作机制有了更深入的认识。

Barto 和 Sutton 的贡献不仅仅是一个过渡阶段的成果，而是一个仍在持续发展的领域。强化学习仍在不断进步，不仅推动计算机科学的发展，也为许多其他学科带来了无限可能。

因此，我们授予他们计算机领域最具影响力的奖项，实至名归。

在 1947 年的一次演讲中，艾伦·图灵曾说：「我们想要的是一台能够从经验中学习的机器。」

对此，Google 高级副总裁 Jeff Dean 则表示：

Barto 和 Sutton 开创的强化学习，正是对图灵这一愿景的直接回应。他们的研究成为过去几十年人工智能进步的关键。

他们开发的工具仍然是当前人工智能浪潮的核心支柱，推动了重大技术突破，吸引了大批年轻研究者，并驱动了数十亿美元的投资。强化学习的影响力还将持续扩展至未来。

Google 很自豪能够赞助 ACM A.M. 图灵奖，以表彰那些塑造了改变我们生活的技术的杰出个人。

获奖者简介

Andrew G. Barto

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系的荣休教授。他于 1977 年以博士后研究员身份加入 UMass Amherst，随后担任过副教授、教授及系主任等多个职务。

Barto 在密歇根大学获得数学学士学位（荣誉），并在该校继续攻读计算机与通信科学专业，获得硕士和博士学位。

Barto 曾荣获多项荣誉与奖项，包括马萨诸塞大学神经科学终身成就奖、国际人工智能联合会议（IJCAI）研究卓越奖、IEEE 神经网络学会先锋奖、IEEE 会士以及美国科学促进会（AAAS）会士。

Richard S. Sutton

Richard Sutton 是阿尔伯塔大学计算机科学系的教授，同时也是 Keen Technologies（总部位于美国得克萨斯州达拉斯的通用人工智能公司）的一名研究科学家，并担任阿尔伯塔机器智能研究所（Amii）的首席科学顾问。

2017 年至 2023 年间，Sutton 曾在 DeepMind 担任杰出研究科学家。

在加入阿尔伯塔大学之前，他曾于 1998 年至 2002 年在新泽西州弗洛勒姆帕克的 AT&T 香农实验室人工智能部门担任首席技术职员。

Sutton 与 Andrew Barto 的合作始于 1978 年，当时他在马萨诸塞大学阿默斯特分校攻读博士学位，Barto 是他的博士及博士后导师。

Sutton 先在斯坦福大学获得心理学学士学位，随后在马萨诸塞大学阿默斯特分校获得计算机与信息科学硕士和博士学位。

Sutton 曾荣获多项荣誉，包括 IJCAI 研究卓越奖、加拿大人工智能协会终身成就奖，以及马萨诸塞大学阿默斯特分校的卓越研究成就奖。此外，他还是英国皇家学会会士、美国人工智能促进会（AAAI）会士，以及加拿大皇家学会会士。

附上参考链接：
https://amturing.acm.org/
https://www.acm.org/media-center/2025/march/turing-award-2024
https://x.com/TheOfficialACM/status/1897225672935735579

我们正在招募伙伴

📮 简历投递邮箱
hr@ifanr.com

✉️ 邮件标题
「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里🔗