流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

机器之心报道

机器之心编辑部

自然智能（Natural intelligence）过程就像一条连续的流，可以实时地感知、行动和学习。流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式，它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。

然而，在深度强化学习中，学习器（learners ）几乎总是使用批量更新和重放缓冲区，这种方式使得它们在计算上很昂贵，并且与流式学习不兼容。

研究认为批量深度强化学习之所以普遍，是因为它的样本效率高。流式深度强化学习存在样本效率问题，经常出现不稳定和学习失败的情况。这一现象称为流式障碍。

就像下图展示的，流式强化学习需要从即时单个样本进行更新，而无需存储过去的样本，而批量强化学习则依赖于存储在重放缓冲区中的过去样本的批量更新。

为了解决流式障碍，本文来自阿尔伯塔大学等机构的研究者提出了 stream-x 算法，这是第一类深度强化学习算法，用于克服预测和控制流式障碍，并匹配批量强化学习的样本效率。

论文地址：https://openreview.net/pdf?id=yqQJGTDGXN
项目地址：https://github.com/mohmdelsayed/streaming-drl
论文标题：Deep Reinforcement Learning Without Experience Replay, Target Networks, or Batch Updates

论文作者还提供了 stream-x 算法的最小实现（大约 150 行代码），感兴趣的读者可以参考原项目。

本文证明了 stream-x 算法能够克服流式障碍。

在电力消耗预测任务、MuJoCo Gym、DM Control Suite、MinAtar 和 Atari 2600 上的结果证明，该方法能够作为现成的解决方案，克服流式障碍，提供以前无法通过流式方法实现的结果，甚至超越批量 RL 的性能。特别是，stream AC 算法在一些复杂的环境中达到了已知的最佳性能。

如下所示，经典的流方法（例如 Classic Q ）和批处理 RL 方法的流式版本（例如 PPO1）由于流式障碍而表现不佳。相比之下， stream-x 算法（例如 stream Q ）克服了流式障碍，并与批处理 RL 算法竞争，证明了其稳定性和鲁棒性。

这项研究得到了强化学习之父 Richard Sutton 的转发和评论：

「最初的强化学习（RL）算法受自然学习的启发，是在线且增量式的 —— 也就是说，它们是以流的方式进行学习的，每当新的经验增量发生时就学习，然后将其丢弃，永不再次处理。

流式算法简单而优雅，但在深度学习中，RL 的首次重大成功并非来自流式算法。相反，像 DQN（深度 Q 网络）这样的方法将经验流切割成单独的转换（transitions），然后以任意批次进行存储和采样。随后的一系列工作遵循、扩展并完善了这种批量方法，发展出异步和离线强化学习，而流式方法却停滞不前，无法在流行的深度学习领域中取得良好效果。

直到现在，阿尔伯塔大学的研究人员已经证明，在 Atari 和 Mujoco 任务上，流式强化学习（Streaming RL）算法可以与 DQN 一样有效。

在我看来，他们似乎是第一批熟悉流式强化学习算法的研究人员，认真地解决深度强化学习问题，而不受批量导向的软件和批量导向的监督学习思维方式的过度影响。」