强化学习:改变计算机决策方式的算法


强化学习:改变计算机决策方式的算法

过去十年的技术在很大程度上是由深度监督学习(DL)的出现定义的。大规模廉价数据的可用性、计算能力和研究兴趣使它成为大多数模式识别问题中事实上的算法流派。社交媒体上的人脸识别、网站上的产品推荐、语音助手如谷歌Assistant、Alexa和Siri都是DL支持的例子。

深度学习的问题在于,导致深度学习兴起的资源,也导致了不平等。如今,初创公司很难通过更好的研究能力或更好的数据,在深度学习方面打败苹果(Apple)、谷歌、亚马逊(Amazon)和微软(Microsoft)等“大型科技公司”。

我预测,在本世纪20年代,我们将看到这种不平等被打破。这是由于深度强化学习(Deep Reinforcement Learning, RL)作为解决此类问题的一种突出算法的出现。

RL本质上是模仿人类的行为。让我们以一个孩子学习骑自行车为例。这孩子不知道该采取什么步骤。但它试图在不摔倒的情况下骑更长时间的自行车,并在这个过程中学习。你不能解释你如何骑自行车,只能说你会骑。RL的工作方式与此类似。给定一个环境,它学会通过多次尝试和错误来优化一个目标。

要更深入地了解技术,RL有三个组成部分:状态、策略和操作。状态是对当前环境的描述。该策略对状态进行评估,并为算法找到目标集的最优路径。

行动是策略所建议的步骤,也是算法为达到目标所采取的步骤。RL算法迭代地遍历状态,使用它们的策略生成操作,运行操作,并根据环境的反馈(称为奖励)优化策略,以提供更有目标的操作。

通过这种方式,RL允许我们解决许多问题,而实际上不需要像传统DL模型那样大量的监督/标记数据——因为它不断地生成自己的数据。当然,需要注意的是,RL不能解决与DL相同的问题,但是它们之间有很强的交集。通过这种方式,RL可以消除竞争,因为数据不一定是以前的护城河。

迄今为止,我们所见过的RL最大的应用是在游戏中——AlphaGo Zero, Deepmind的专家级人工智能来玩围棋;DeepMind努力掌握一款名为AlphaStar的多智能体游戏,如《星际争霸》;OpenAI的研究表明,多个代理在玩捉迷藏。-这些都是RL的杠杆。

在未来,我看到RL改变了复杂机器的控制系统的构建方式。机器将利用RL进行三维路径和运动规划。RL将改进具有会话接口的系统,利用每个会话来改进策略。RL可能被用于非常复杂的环境中,具有低先例数据的大多数决策过程。这将是RL的十年。


分享到:


相關文章: