Google 和 DeepMind 联手推出增强学习代理 Dreamer 科技頭條網

2020-03-20 12:51:38 AI智慧

Google 和 DeepMind 合作，开发出了一个称为 Dreamer 的增强学习代理，可利用图像学习世界模型，并用来进一步学习目光较长远（Long-sighted）的行为。Dreamer 利用图像输入，就能解决连续控制任务，还能掌握游玩 Atari 游戏技巧，应付需要反应、远见、空间感知和场景理解的操作。

人工智能的增强学习研究正蓬勃的发展，增强学习无模型方法可以通过反复试错，学习预测成功的行动，使得人工智能能够在即时战略游戏中打赢人类，但 Google 提到，增强学习需要代理人与环境进行大量互动之后，才能达到良好的成果，但这同时也限制了将其应用在现实世界中的机会，因为在现实世界中出错，可能导致不可弥补的伤害。

比起无模型兹强学习，基于模型的增强学习方法可以学习精简化的环境模型，而这样的世界模型使代理能够预测潜在行动序列的结果，使其能在各种假设情况下做出反应，并在新情境下做出比较明智的决定，进而减少为了实现目标，所需要进行反复试错次数。

近期的增强学习研究，是通过学习精准的世界模型，让代理学习成功行为，像是 Google 自家深度计划网络 PlaNet，便是利用图像来训练世界模型，而所谓的世界模型，便是能够明确表示代理知识的参数模型。但是 Google 提到，基于模型的增强学习方法，因为缺乏效率，或者计划机制的运算成本过于高昂，是其一直无法被用来解决困难的问题。

现在 Google 和 DeepMind 合作所发展的 Dreamer，是一种增强学习代理，通过经训练过的世界模型，所提供的潜在想像力，帮助代理解决长时间任务，也就是说，Dreamer 会预测模型状态的序列，学习较长远的行为。Dreamer 由 3 个典型程序构成，首先是学习世界模型，接着是通过世界模型，从预测中学习行为，第三个程序则是执行在环境中学习的行为，以收集新的经验。

在学习世界模型的部分，Dreamer 利用 Google 之前开发的 PlaNet 世界模型，该模型根据输入的图像，计算出一系列压缩模型状态序列来预测结果，这些模型状态指的是，对预测未来结果有帮助的概念，像是物件的类型、位置和物件与周围环境的相互作用，Google 称这个能计算未来的能力为想像力。

PlaNet 世界模型的优点之一，便是使用压缩模型状态，而非直接使用图像进行预测，这个做法改进了计算效率，使得模型可以在单个 GPU 中，平行预测数千个行动序列，这个方法促进了方法的一般化，使得对时间较长的影片预测更加精确。

使用压缩模型状态进行预测，可让代理在复杂环境中进行长期预测。下图的两个序列，代理都没有在事前经历过，但只要输入 5 个图像，模型便能进行重建，并且预测未来 45 步。

另一个 Dreamer 的重点，在于高效率的学习行为，过去基于模型的代理，不是利用多个模型预测来制定计划，不然就是利用世界模型来代替模拟器，并且续用既有的无模型技术，这两种方法需要的运算要求都很高，而且也不能最大化世界模型带来的优势。

更重要的是，即便使用了功能强大的世界模型，也无法进行精确的预测，因为过去基于模型的代理无法预测太久之后的行为。而 Dreamer 利用反向传播（Backpropagation）算法来解决代理短视近利的问题，使世界模型能有效地学习行为。

整体来说，Dreamer 在 20 个连续控制任务基准测试中（下图），在性能、数据效率和计算时间都突破过去的水准。Google 提到，他们利用世界模型的预测序列，就能让代理学习行为，不仅以图像输入解决视觉控制任务，且性能超越过去的的无模型方法。在 Atari 游戏上，Dreamer 也能良好地掌握离散的动作，和存在多个物件的 3D 环境的多样化场景。