Google 和 DeepMind 联手推出增强学习代理 Dreamer

Google 和 DeepMind 合作,开发出了一个称为 Dreamer 的增强学习代理,可利用图像学习世界模型,并用来进一步学习目光较长远(Long-sighted)的行为。Dreamer 利用图像输入,就能解决连续控制任务,还能掌握游玩 Atari 游戏技巧,应付需要反应、远见、空间感知和场景理解的操作。

Google 和 DeepMind 联手推出增强学习代理 Dreamer

人工智能的增强学习研究正蓬勃的发展,增强学习无模型方法可以通过反复试错,学习预测成功的行动,使得人工智能能够在即时战略游戏中打赢人类,但 Google 提到,增强学习需要代理人与环境进行大量互动之后,才能达到良好的成果,但这同时也限制了将其应用在现实世界中的机会,因为在现实世界中出错,可能导致不可弥补的伤害。

比起无模型兹强学习,基于模型的增强学习方法可以学习精简化的环境模型,而这样的世界模型使代理能够预测潜在行动序列的结果,使其能在各种假设情况下做出反应,并在新情境下做出比较明智的决定,进而减少为了实现目标,所需要进行反复试错次数。

近期的增强学习研究,是通过学习精准的世界模型,让代理学习成功行为,像是 Google 自家深度计划网络 PlaNet,便是利用图像来训练世界模型,而所谓的世界模型,便是能够明确表示代理知识的参数模型。但是 Google 提到,基于模型的增强学习方法,因为缺乏效率,或者计划机制的运算成本过于高昂,是其一直无法被用来解决困难的问题。

现在 Google 和 DeepMind 合作所发展的 Dreamer,是一种增强学习代理,通过经训练过的世界模型,所提供的潜在想像力,帮助代理解决长时间任务,也就是说,Dreamer 会预测模型状态的序列,学习较长远的行为。Dreamer 由 3 个典型程序构成,首先是学习世界模型,接着是通过世界模型,从预测中学习行为,第三个程序则是执行在环境中学习的行为,以收集新的经验。

在学习世界模型的部分,Dreamer 利用 Google 之前开发的 PlaNet 世界模型,该模型根据输入的图像,计算出一系列压缩模型状态序列来预测结果,这些模型状态指的是,对预测未来结果有帮助的概念,像是物件的类型、位置和物件与周围环境的相互作用,Google 称这个能计算未来的能力为想像力。

PlaNet 世界模型的优点之一,便是使用压缩模型状态,而非直接使用图像进行预测,这个做法改进了计算效率,使得模型可以在单个 GPU 中,平行预测数千个行动序列,这个方法促进了方法的一般化,使得对时间较长的影片预测更加精确。

使用压缩模型状态进行预测,可让代理在复杂环境中进行长期预测。下图的两个序列,代理都没有在事前经历过,但只要输入 5 个图像,模型便能进行重建,并且预测未来 45 步。

Google 和 DeepMind 联手推出增强学习代理 Dreamer

另一个 Dreamer 的重点,在于高效率的学习行为,过去基于模型的代理,不是利用多个模型预测来制定计划,不然就是利用世界模型来代替模拟器,并且续用既有的无模型技术,这两种方法需要的运算要求都很高,而且也不能最大化世界模型带来的优势。

更重要的是,即便使用了功能强大的世界模型,也无法进行精确的预测,因为过去基于模型的代理无法预测太久之后的行为。而 Dreamer 利用反向传播(Backpropagation)算法来解决代理短视近利的问题,使世界模型能有效地学习行为。

整体来说,Dreamer 在 20 个连续控制任务基准测试中(下图),在性能、数据效率和计算时间都突破过去的水准。Google 提到,他们利用世界模型的预测序列,就能让代理学习行为,不仅以图像输入解决视觉控制任务,且性能超越过去的的无模型方法。在 Atari 游戏上,Dreamer 也能良好地掌握离散的动作,和存在多个物件的 3D 环境的多样化场景。

Google 和 DeepMind 联手推出增强学习代理 Dreamer


分享到:


相關文章: