Anylogic: 机器学习与仿真

强化学习是机器学习的一个快速发展的分支。最近人工智能领域的一些令人兴奋的成就是深度强化学习快速发展的结果。在这篇博文中，我们将向您展示为什么强化学习需要仿真，并提供一个包含源文件和说明的示例模型供您下载和尝试。

深度强化学习的成功

可能最著名的深度强化学习的例子是DeepMind的阿尔法围棋（AlphaGo）击败世界围棋冠军李世石（Lee Sedol）。尽管规则很简单，但围棋的游戏复杂性使其变得非常困难，并且它被认为是古典游戏中人工智能掌握的最大挑战。据估计，完成围棋游戏的有效方法比可观测宇宙中的原子还要多。

AlphaGo使用深度强化学习来完成这个看似无法实现的目标，在数百万场比赛中训练自己。该系统能够学习如何从头开始玩游戏，并在几天内积累数千年的人类知识。

为了更好地理解阿尔法围棋（AlphaGo）的成功，我们应该了解一下计算机是如何学习的。从广义上讲，人们通过两种方式学习：通过知识转移（来自教师或书本）或通过反复试验。计算机也是如此。

对于计算机程序来说，知识转移的方法就像是将国际象棋规则和策略硬编码到计算机中，这样它就可以使用它们来下棋。相比之下，试错法类似于计算机反复下棋，直到它发展出自己的知识和直觉，认识到什么是优越的游戏玩法。

仿真的场所

对于试验和错误，计算机程序需要一个场所来尝试它的想法，并从它的错误和成就中学习。这样的环境要么存在于现实世界中（例如在私家道路上、在受限的空域中或者在模拟装配线上），要么是虚拟的。

虽然现实世界的环境更加逼真，但是与仿真环境相比它们具有许多的缺点，例如购置和建造的成本很高以及可能会对生命和环境产生影响。监管层面的一些繁文缛节也同样会限制实验的运行。

相比之下，仿真模型则没有任何限制，它们的运行过程几乎是完全免费的并且能够以可控的方式进行设置。虚拟环境中的模型也比现实世界中的模型运行得更快，因为随着时间的推移它们不会被相同的束缚所约束。OpenAI在复杂的合作战略游戏Dota 2中轻松击败了世界冠军，也明确了这一优势。

虽然深度强化学习是人工智能领域的一个新发展，并且仍然主要被认为是一个研究课题，但仿真建模已经日常实践使用了几十年。它有一个非常成熟的社区，带有大量的现实世界的例子。

仿真社区的常见做法是采用仿真模型运行实验（优化，蒙特卡罗，参数变化等）并使用输出结果对真实世界做出更好的决策。使用这种方法，需要人们试验仿真模型并从中获取信息。

如前所述，深度强化学习的最新发展清楚地表明，学习型（计算机算法）也能够从仿真系统中提取有用的决策（策略）。因此，将仿真建模环境与机器学习相结合是有意义的，尤其是当兴趣从游戏挑战转向面向业务目标时。

机器学习与仿真的契合

强化学习示例模型

为了展示强大的通用仿真工具作为培训环境的功能，AnyLogic与Skymind合作开发了一个基于交通灯控制交叉口仿真的简单但具有说明性的示例模型。该模型的相似版本作为使用AnyLogic进行深度强化学习实际应用演示[视频]的一部分，在德克萨斯州（Texas）奥斯汀（Austin）举行的2019年AnyLogic会议上进行了演示。

人工智能（AI）与仿真优化针对交通灯优化的对抗

❕这个示例旨在简单说明，因此，您将能够使用卓越的启发式算法和人工算法取代机器学习策略。然而，超棒的一点是，没有人类助手参与学习过程 - 也就是说，AI基于其与仿真模型的交互，自行学习有意义的策略。例如，如果在几个相邻的交叉点上设置并有效地对更现实的情况进行了训练，那么学习型智能体将开始显示其优于人工算法的真正优势。

注：全文转载自微信公号Anylogic