![谷歌的深度机器学习算法竟然使机器人自己能学会走了](http://p2.ttnews.xyz/loading.gif)
毫无疑问,未来机器人将在我们的生活中扮演越来越重要的角色,但是要达到一个真正有用的阶段,仍然有许多挑战需要克服,包括无需人工干预的导航。
虽然我们处于一个算法允许机器人学习如何移动的阶段,但是该过程很复杂,需要大量人工输入。近日,Google 的最新研究可能会使这种学习过程变得更加简单。
![谷歌的深度机器学习算法竟然使机器人自己能学会走了](http://p2.ttnews.xyz/loading.gif)
AI 自学走路的四足机器人
谷歌,加州大学伯克利分校和佐治亚理工学院的研究人员联合发表了一篇论文,构建了一个通过 AI 自学走路的四足机器人,并将它取名为“RainbowDash”。描述了一种统计 AI 技术,也是他们能用来产生这个成就的原因,即深度强化学习。
他们开发了一个系统,用于以最少的人力在现实世界中以深度 RL 学习腿式运动策略。机器人学习系统的主要困难是自动数据收集和安全性。通过开发多任务学习程序,自动重置控制器和受安全限制的 RL 框架,他们克服了这两个挑战。
在几个小时内,仅仅依靠对当前最先进算法的微调,它们成功地让一个四条腿的机器人学会了完全独立的向前走和向后走,以及左右转弯。
研究人员在学习如何在三种不同地形上行走的任务上测试了这个系统:平坦的地面,柔软的床垫和带有缝隙的门垫。
系统无需人工干预,即可在 Minitaur 机器人上自动高效地学习运动技能。
根据论文中的测试数据显示,RainbowDash 在坚硬平坦的地面上学习走路需要1.5个小时,在由记忆海绵材质的床垫上大约需要5.5个小时,在镂空的地毯上大约需要4.5个小时。
总结起来,Rainbow Dash 平均只需要大约3.5小时来学习向前、向后和左右转弯等运动。而根据世界纪录,婴儿从爬行到学会行走的最快速度是6个月。
两个小时内让机器人站起来行走
此前,强化学习通常会这样在模拟环境中进行:机器人的虚拟分身在模拟的环境中走来走去,直到算法足够完善,可以使其安全运行为止,然后将其导入真正的机器人。
这种方法有助于避免机器人在反复实验过程中对周围环境的损伤,但也需要一个易于建模的环境。在机器人脚下模拟自然散落的沙砾或者弹簧床垫需要很长时间,根本不值得。
基于这种状况,研究人员从一开始就决定通过在真实世界中训练来避免困难的环境建模。他们设计了一种更高效的算法,可以使学习的试验次数变少一点,并在两个小时内让机器人站起来行走。由于实际环境中会有自然变化,机器人也能够快速适应其他相似的环境,如斜坡、台阶以及有障碍的平地。
于是他们开始解决这个新问题。首先,他们限定了机器人可以探索的地形,并让它一次性进行多重动作训练。如果机器人在学习如何向前走的同时到达了限定地形的边缘,它就会改变方向,开始学习如何向后走。
其次,研究人员还限制了机器人的训练动作,让它能够谨慎一些,最大限度地减少反复摔倒带来的伤害。当机器人不可避免地摔倒时,他们还添加了另一个硬编码算法来帮助它站起来。
通过这些调整,机器人学会了如何在几个不同的环境中自主行走,包括平地、记忆泡沫床垫和有缝隙的门垫。这项实验给未来的某些应用带来了可能性,有些情况可能需要机器人在没有人类的情况下在坎坷和未知的地形中行走。
具体来说,Rainbow Dash结合了深度学习和强化学习两种不同类型的AI技术。通过深度学习,系统可以处理和评估来自其身处环境的原始输入数据;通过强化学习,算法可以反复试验,以学习如何执行任务,并根据完成的程度来获得奖励和惩罚。
也就是说,通过上述的这种方式,机器人便可以在其不了解环境中实现自动控制策略。
尽管研究团队将Rainbow Dash的学习能力归功于它自己,但人为干预仍在实现该目标方面发挥了重要作用。
据悉,研究人员希望他们的算法能适用于不同种类的机器人,或适用于多个机器人在同一环境中同时进行学习。研究人员相信,破解机器人的运动能力将是解锁更多实用机器人的关键。
接下来,研究人员希望他们的算法能适用于不同种类的机器人,或适用于多个机器人在同一环境中同时进行学习。
这确实是机器人自主行动的重要一步了,距离机器人自己自主行动也并不遥远,到时候,我们到底是该恐惧还是兴奋呢?
閱讀更多 RAVV 的文章