谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

文 | 谷歌 AI

譯 | 叢末


去年,谷歌、DeepMind聯手推出基於模型的強化學習智能體PlaNet,能解決各種基於圖像的控制任務,性能可媲美當時最先進的無模型智能體,並且在數據效率上提升50倍,為強化學習帶來了新的突破。

然而,該智能體依舊受到無效或計算成本高昂的規劃機制的侷限性。

現在,谷歌、DeepMind再度強強聯手推出了同為基於模型的強化學習智能體Dreamer,在“前輩”PlaNet 的基礎上,將性能、數據效率、計算成時間都提升到了一個新的層次,能夠很好地克服 PlaNet 所面臨的侷限性。強化學習再度迎來突破。

該智能體已開源,開源代碼:https://github.com/google-research/dreamer


1、提出背景


關於人工智能體如何選擇行為以實現目標的研究,很大程度上得益於應用強化學習(RL)所取得的進展。

學習通過試錯來預測成功動作的無模型(Model-free )強化學習方法,使得DeepMind的 DQN算法可以玩Atari遊戲,也讓 AlphaStar可以在《星際爭霸II》上擊敗人類世界冠軍,不過這種方法需要大量的環境交互,如此一來就限制了它們對於真實場景的實用性。

相比之下,基於模型(Model-based)的強化學習方法還可以學習環境的簡化模型。該“世界模型”(world model )允許智能體預測潛在動作序列的結果,讓它通過假設的場景在新的情況下做出明智的決策,從而減少實現目標所需的試錯。

在過去,學習精確的世界模型並利用它們來學習成功的行為,具有較大的挑戰性。雖然最近的研究通過從圖像中學習精確的世界模型取得了一些突破,例如谷歌去年提出的深度規劃網絡(PlaNet),但是基於模型的方法仍然受到無效或計算成本高昂的規劃機制的阻礙,限制了它們解決困難較大的任務的能力。

對此,谷歌與 DeepMind 攜手推出了一個能夠從圖像中學習世界模型,並使用該世界模型來學習長遠行為的強化學習智能體——Dreamer。它能夠使用世界模型,通過模型預測的反向傳播來高效地學習行為。

該智能體通過學習從原始圖像中計算密集的模型狀態,只需1個GPU 就能夠高效、並行地學習數千個預測序列。

在給定原始圖像輸入的有20個連續控制任務的基準上,Dreamer無論在性能上,還是在數據效率和計算時間上,都達到了最佳水平。

該智能體已開源,開源代碼:https://github.com/google-research/dreamer


2、Dreamer 的工作原理如何?

Dreamer 由基於模型的方法的三個經典步驟組成:學習世界模型;從世界模型做出的預測中學習行為;在環境中執行學習到的行為來積累新的經驗。

在學習行為這一步驟中,Dreamer 使用價值網絡(value network)來將超出規劃範疇以外的獎勵也考慮在內,並使用行為者網絡(actor network)來高效地計算行為。

這三個步驟可以並行執行,並且在智能體實現目標前一直重複執行。

谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

Dreamer 工作的三個步驟。智能體從過去的經驗中學到世界模型;然後根據該模型的預測,學習價值網絡來預測未


3 、學習世界模型

Dreamer 使用的是PlaNet 世界模型,該模型基於從輸入圖像計算而來的一系列密集的模型狀態來預測結果,而不是直接從某個圖像預測下一個圖像。

該智能體自動學習生成表徵有助於預測未來結果的概念的模型狀態,例如目標類型、目標位置和目標與周圍環境的交互等。根據智能體由過去的經驗而組成的數據集中的一系列圖像、行為和獎勵,Dreamer可以學習如下所示的世界模型:

谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

Dreamer 從經驗中學習世界模型。它使用過去的圖像(o1-o3)和行為(a1-a2),計算一系列密集的模型狀態(綠

使用 PlaNet世界模型的一大優勢在於,使用密集的模型狀態而不是圖像來做提前預測,會大大提高計算效率。這使得該模型能夠在單個GPU上並行預測數千個序列。此外,該方法還有助於實現泛化,實現準確的長期視頻預測。

為了深入瞭解該模型的工作原理,我們可以通過將密集的模型狀態解碼回圖像,來可視化預測序列,如下所示(下圖中執行了兩個任務,一個任務在 DeepMind 的強化學習環境 Control Suite 中執行,另一個在 AI 訓練平臺 DeepMind Lab 環境中執行 ):

谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

使用密集的模型狀態進行提前預測能夠實現在複雜環境中進行長期預測。這裡顯示的是智能體以前從未遇到過的兩


4 、高效的行為學習

此前開發的基於模型的智能體通常通過貫穿多個模型預測的規劃或使用世界模型代替模擬器以重用現有的無模型方法,來選擇行為。

這兩種設計都有計算要求,並且無法充分利用智能體所學到的世界模型。此外,即使是強大的世界模型,其準確預測的能力也有限,這使得許多此前開發的基於模型的智能體“目光短淺”。

Dreamer 能夠通過使用世界模型預測的反向傳播,來學習價值網絡和行為者網絡,從而克服了這些限制。

Dreamer 通過預測的狀態序列向後傳播獎勵梯度,高效地學習行為者網絡來預測成功的行為,這對於無模型方法是不可能實現的。這讓 Dreamer 知道,其行為的微小變化如何影響未來預測的獎勵,從而使它能夠在不斷增加獎勵(直到達到最高)的軌跡上完善行為者網絡。

為了考慮超出預測範圍的獎勵,價值網絡評估每個模型狀態的未來獎勵之和。然後,模型反向傳播獎勵和價值,以優化行為者網絡,從而選擇改進的行為:

谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

Dreamer 從預測的模型狀態序列中學習長期行為。它首先學習每個狀態的長期值(v̂2–v̂3),然後預測通過狀


Dreamer 在多個方面都與 PlaNet 不同。對於環境中給定的情況,PlaNet 會在對不同行為序列的眾多預測中尋找最佳動作。相比之下,Dreamer 一方通過分離規劃和行為,來實現這一成本昂貴的搜索。一旦它的行為者網絡在預測序列上經過訓練,它就可以計算與環境交互的動作,而無需額外的搜索。此外,Dreamer使用價值函數考慮超出規劃範圍的獎勵,並利用反向傳播進行高效的規劃。


5 、執行控制任務

谷歌研究者在有20個不同任務的標準基準上對 Dreamer 進行了評估,包括連續的動作和圖像輸入。任務包括平衡和捕捉物體,以及各種模擬機器人的運動。

這些任務旨在對強化學習智能體提出各種挑戰,包括難以預測碰撞、稀疏獎勵、混沌動力學、小但相關的目標、高自由度和3D透視圖:

谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

Dreamer 學習解決20個具有挑戰性的連續控制任務與圖像輸入,上圖展示了其中 5個任務。可視化顯示的圖像與智


他們將Dreamer的性能與此前性能最佳的基於模型的智能體PlaNet、常用的無模型智能體 A3C以及融匯了無模型強化學習的一些進展、當前在此基準上性能最佳的無模型智能體 D4PG 進行了對比。

其中基於模型的智能體可以實現500萬幀以下的高效學習,對應的模擬時間為28小時。無模型智能體的學習速度更慢,需要1億幀,對應的模擬時間為23天。

在 20 個任務的基準上,Dreamer的平均得分為823分,高於最佳無模型智能體(D4PG)的786分,同時還能從小20倍的環境交互中學習。而且,它在幾乎所有任務上的性能都超過了此前最佳的基於模型的智能體(PlaNet)。在計算時間上,相比於其他方法所需的24個小時,訓練 Dreamer 僅需16個小時。

四個智能體的最終性能如下圖所示:

谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

在有20個任務的基準上,無論是最終的性能,還是數據效率和計算時間,Dreamer都超越了最佳無模型智能體(D4P


除了在連續控制任務上的主實驗外,谷歌研究者還將Dreamer應用於具有離散動作的任務上,以證明其通用性。

為此,他們選擇了Atari遊戲和DeepMind Lab級別的任務,後者要求兼具反應性行為和長遠行為、空間意識和對視覺上更加多樣化場景的理解。

產生行為如下所示,表明了 Dreamer也能高效地學習解決這些更具挑戰性的任務:

谷歌、DeepMind強強聯手再發布Dreamer:性能遠超“前輩”PlaNet

Dreamer在Atari遊戲和DeepMind Lab級別任務上學習成功的行為,DeepMind Lab級別的任務具有離散的動作和視覺

6、結語

這項工作表明,僅從世界模型預測的序列中學習行為就可以解決來自圖像輸入的具有挑戰性的視覺控制任務,並且在性能上超越了此前的無模型方法。

此外,Dreamer證明了通過反向傳播貫穿預測的密集模型狀態序列的價值梯度的學習行為,是成功的且魯棒的,從而解決了一系列多樣的連續和離散控制任務。

谷歌表示,他們相信,Dreamer 將為進一步突破強化學習的限制提供堅實的基礎,包括更好的表徵學習、定向探索與不確定性估計、時間抽象和多任務學習。

via https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html


分享到:


相關文章: