Google AI和DeepMind推出新RL智能體

Google AI和DeepMind推出新RL智能體

Google AI 與 DeepMind 合作推出深度規劃網絡 (PlaNet),這是一個純粹基於模型的智能體,能從圖像輸入中學習世界模型,完成多項規劃任務,數據效率平均提升50倍,強化學習又一突破。

  通過強化學習 (RL),對 AI 智能體如何隨著時間的推移提高決策能力的研究進展迅速。

  對於強化學習,智能體在選擇動作 (例如,運動命令) 時會觀察一系列感官輸入(例如,相機圖像),並且有時會因為達成指定目標而獲得獎勵。

  RL 的無模型方法 (Model-free) 旨在通過感官觀察直接預測良好的行為,這種方法使 DeepMind 的 DQN 能夠玩雅達利遊戲,使其他智能體能夠控制機器人。

  然而,這是一種黑盒方法,通常需要經過數週的模擬交互才能通過反覆試驗來學習,這限制了它在實踐中的有效性。

  相反,基於模型的 RL 方法 (Model-basedRL) 試圖讓智能體瞭解整個世界的行為。這種方法不是直接將觀察結果映射到行動,而是允許 agent 明確地提前計劃,通過 “想象” 其長期結果來更仔細地選擇行動。

  Model-based 的方法已經取得了巨大的成功,包括 AlphaGo,它設想在已知遊戲規則的虛擬棋盤上進行一系列的移動。然而,要在未知環境中利用規劃(例如僅將像素作為輸入來控制機器人),智能體必須從經驗中學習規則或動態。

  由於這種動態模型原則上允許更高的效率和自然的多任務學習,因此創建足夠精確的模型以成功地進行規劃是 RL 的長期目標。

  為了推動這項研究挑戰的進展,Google AI 與 DeepMind 合作,提出了深度規劃網絡 (Deep Planning Network, PlaNet),該智能體僅從圖像輸入中學習世界模型 (world model),併成功地利用它進行規劃。

  PlaNet 解決了各種基於圖像的控制任務,在最終性能上可與先進的 model-free agent 競爭,同時平均數據效率提高了 5000%。研究團隊將發佈源代碼供研究社區使用。

內容關鍵詞:Google AI DeepMind 智能體


分享到:


相關文章: