谷歌发布新人工智能扩展,将使机器人更像人类

在本周发表在预印本服务器上的一篇论文中,Google Brain、Google X和加州大学伯克利分校的研究人员描述了现有人工智能方法的一个扩展,使一个代理(例如机器人)能够在执行前一个操作时决定要执行哪个操作。其思想是,在模仿一个人或动物行为之后,对一个代理的行为建模,将在未来使系统更加完善且不易发生故障;简单来说,就是让机器人的行为更像人类。

谷歌发布新人工智能扩展,将使机器人更像人类

如上图,研究人员在机器人手臂上进行了实验,他们的任务是从垃圾箱中抓取和移动各种物体。他们说,他们的框架取得了与基线阻塞模型相当的抓取成功,但就衡量策略总执行时间的策略持续时间而言,它比阻塞模型快49%。此外,并发模型能够执行比基线更平滑和更快的轨迹。

研究人员指出,虽然人工智能算法在电子游戏、机器人抓取和操作任务中取得了成功,但大多数人工智能算法使用的是一种“阻塞-观察-思考-行动”范式——一个智能体假设其环境在“思考”时保持静止,以便其动作将在计算它们的状态上执行。这在模拟中是正确的,但在现实世界中则不然,在现实世界中,当代理处理观察结果并计划其下一步操作时,环境状态会演变。

谷歌发布新人工智能扩展,将使机器人更像人类

该团队的解决方案是一个框架,可以在机器学习环境中处理并发环境。它利用了通过奖励驱动机器人朝着目标前进的标准的强化学习公式,其中机器人从一组可能的状态接收一个状态,并根据策略从一组可能的操作中选择一个操作。环境返回从过渡分布和奖励中采样的下一个状态,这样机器人就学会了最大化每个状态的期望回报。

除了前一个动作之外,还有两个额外的特性:动作选择时间和走动向量(VTG),有助于封装并发知识。研究人员将VTG定义为在测量环境状态的瞬间执行的最后一个动作。并发动作环境在执行前一个动作和捕获状态之后的捕获状态。策略选择一个操作并执行它,而不管前一个操作是否已完成,即使这需要中断前一个操作。

谷歌发布新人工智能扩展,将使机器人更像人类

并发方法可能允许在动态环境中进行机器人控制,在这种环境中,机器人无法在计算动作之前停止环境。在这些情况下,机器人必须同时思考和行动。

这项工作是在谷歌领导的一项研究中完成的,该研究描述了一个从动物的动作中学习的人工智能系统,以赋予机器人更大的灵活性。我相信他们的方法可以促进机器人的发展,使机器人能够完成更多的现实世界中的任务。


分享到:


相關文章: