不下圍棋了!DeepMind訓練機器人走得更“飄逸”

一年前,圍棋人機大戰AlphaGo擊敗人類,讓人工智能正式進入大眾視野。而開發出AlphaGo的人工智能公司 DeepMind也被眾人所熟知。繼圍棋之後,DeepMind又有哪些新動作呢?

在上個月最新發布的論文中,DeepMind提出了一種基於認知心理學來研究深度神經網絡的新方法。DeepMind 表示,對 AI 來說玩 Atari 的遊戲或者下圍棋,程序需要被設置的目標很簡單,只要贏就行。但如果是讓 AI 完成一次後空翻呢?你要怎樣向機器描述後空翻的標準?於是他們開始研究訓練 AI 穿越各種各樣的地形,完成跳躍、轉向、屈膝等相對複雜的動作。

不下圍棋了!DeepMind訓練機器人走得更“飄逸”

模擬的“平面”無頭步行者反覆嘗試翻牆

DeepMind 的研究人員已經訓練了多個模擬機體,包括一個無頭行者,一個四足螞蟻和一個 3D 的模擬人體,通過完成不同的動作任務來學習人類更加複雜的行為。

在 DeepMind 的另一 篇論文中,闡述瞭如何通過運動捕捉數據來構建一個模仿人類行為的政策網絡,需要預先學習一些技能,例如步行、起步、跑步和轉彎等等。目前,模擬人已經產生了類似人類的行為,可以通過重新調整這些行為來完成其他任務,比如爬樓梯,通過導航繞過圍牆等等。

不下圍棋了!DeepMind訓練機器人走得更“飄逸”

DeepMind 還提出構建一種最先進的生成模型的神經網絡結構,它能夠學習不同行為之間的關係,並模仿它所顯示的具體動作。經過訓練之後, DeepMind 的系統可以編碼觀察到的動作,還可以創建新的小動作。儘管模擬人並沒有看到動作之間的過渡,依舊可以在不同類型的動作之間切換,例如在行走風格之間的轉換。

不下圍棋了!DeepMind訓練機器人走得更“飄逸”

加強學習技術(reinforcement learning)是對 AI 深度學習實行干預的一個系統,通過使用這種技術,人類可以根據自己的意願引導 AI 完成深度學習,在 AI 達到自己想要的效果時給以算法意義上的獎勵,這樣深度學習最後達成的結果就更接近人類最初所設想的。

不下圍棋了!DeepMind訓練機器人走得更“飄逸”

不下圍棋了!DeepMind訓練機器人走得更“飄逸”

DeepMind 就使用了這種技術,並教會了 AI 模擬機體完成了一條跑酷路線。DeepMind 想知道這種簡單的獎勵機制能否在複雜的環境中使用,他們設計了一系列的跑酷路線,有落崖,有障礙,還有牆壁,每一次完成關卡都會贏得系統獎勵。基本規則如下:最快突破障礙物的 AI 模擬機體將得到最大的獎勵,更加複雜的項目將會得到額外的獎勵和懲罰。

不下圍棋了!DeepMind訓練機器人走得更“飄逸”

不下圍棋了!DeepMind訓練機器人走得更“飄逸”

“結果顯示我們的行動主體在沒有收到特定指示的條件下學會了這些複雜的技能,證明了這種訓練多種不同模擬機體的方法是可行的。”

事實上,目前市面上的機器人能做的事情還非常少,單是倒下後重新站起來就難倒了許多機器人研發機構。所以,雖然動圖看起來有點蠢,但 DeepMind 的這項研究成果還是很有意義的。


分享到:


相關文章: