斯坦福提出無需人類示範的強化學習算法SOORL

斯坦福提出無需人類示範的強化學習算法SOORL

假設讓一個十二歲的孩子玩一下午雅達利遊戲,就算他之前從沒玩過,晚飯前也足以掌握遊戲規則。Pitfall!是是雅達利2600上銷量最高的遊戲之一,它的難度很高,玩家控制著一個名為“哈里”的角色,他要在20分鐘內穿過叢林,找到32個寶藏。一路上共有255個場景(rooms),其中會碰到許多危險,例如陷阱、流沙、滾動的枕木、火焰、蛇以及蠍子等。最近的獎勵也要在起始點7個場景之外,所以獎勵分佈非常稀疏,即使對人類來說,沒有經驗也很難操控。

深度神經網絡和強化學習這對cp在模仿人類打遊戲方面可謂是取得了不小的進步。但是這些智能體往往需要數百萬個步驟進行訓練,但是人類在學習新事物時效率可要高多了。我們是如何快速學習高效的獎勵的,又是怎樣讓智能體做到同樣水平的?

有人認為,人們學習並利用能解釋世界如何運行的結構化模型,以及能用目標而不是像素表示世界的模型,從而智能體也能靠同樣的方法從中獲得經驗。

具體來說,我們假設同時具備三個要素即可:運用抽象的目標水平的表示、學習能快速學習世界動態並支持快速計劃的模型、利用前瞻計劃進行基於模型的策略探索。

在這一思想的啟發下,我們提出了策略目標強化學習(SOORL)算法,據我們所知,這是第一個能在雅達利遊戲Pitfall!中能到積極獎勵的算法。重要的是,該算法在這一過程中不需要人類的示範,可以闖過50關。SOORL算法利用強大的先驗知識而非傳統的深度強化學習算法,對環境中的目標和潛在的動態模型有了瞭解。但是相比於需要人類示範的方法來說,SOORL算法所掌握的信息就少了很多。

斯坦福提出無需人類示範的強化學習算法SOORL

SOORL在兩方面超過了之前以目標為導向的強化學習方法:

  • 智能體在積極嘗試選擇一種簡單模式,該模式解釋了世界是如何運作的從而看起來是決定性的。
  • 智能體用一種基於模型的積極計劃方法,在做決定時假設智能體不會計算出一個完美的計劃來應對即使知道世界怎樣運作後會有何反應。

這兩種方法都是從人類遇到的困難中受到的啟發——先前經驗很少,同時算力有限,人類必須快速學習做出正確的決定。為了達到這一目標,我們第一條方法發現,與複雜的、需要大量數據的深度神經網絡模型不同,如果玩家按下的某一按鍵需要很少經驗來估計,那麼簡單的決定性模型可以減少計劃所需的計算力,儘管會經常出錯,但對達到良好的效果已經足夠了。第二,在獎勵分散、複雜的電子遊戲中,玩一場遊戲可能需要成百上千個步驟,對於任何一個計算力有限的智能體來說,想在每個步驟都作出合適的計劃是非常困難的,就算是12歲的小孩也是如此。我們用一種常用並且強大的方法做前瞻計劃,即蒙特卡洛樹搜索,將其與目標導向的方法結合,用作最優策略的探索,同時指導智能體學習它不瞭解的世界的環境。

Pitfall!也許是智能體最後一個尚未攻破的雅達利遊戲。如文章開頭所說,Pitfall!中的第一個積極獎勵出現多個場景之後,玩家需要非常小心地操作才能得到,這就需要智能體在闖關時具備策劃能力和對未來的預見能力。

我們的SOORL智能體在50回中的平均可以解鎖17個場景,而之前的用像素作為輸入、同時又沒有策略探索的DDQN標準在2000回之後的平均只能解鎖6個場景。

斯坦福提出無需人類示範的強化學習算法SOORL

SOORL最多解鎖了25個場景

下面的直方圖顯示出在不同的隨機種子下,SOORL算法在訓練時的100次遊戲中最佳的表現分佈。

斯坦福提出無需人類示範的強化學習算法SOORL

可以看到,SOORL在大多數情況下並不比之前所有深度強化學習的方法好,之前的方法得到最佳的獎勵為0(雖然這種方法都是在500甚至5000次遊戲之後才得到的,而我們的方法只要50次就可以得到最佳獎勵)。在這種情況下,SOORL經常可以比其他方法解鎖更多房間,但是並沒有達到更高的最佳成績。但是,在幾次遊戲中,SOORL得到了2000分甚至4000分的獎勵,這是沒有人類示範的情況下獲得的最好分數。在有人示範的情況下目前最好的分數是60000分,儘管分數很高,但是這種方法仍需要大量的先驗知識,並且還需要一個可靠的模型減少探索過程中遇到的挑戰。

下面是SOORL智能體掌握的幾種有趣的小技巧:

斯坦福提出無需人類示範的強化學習算法SOORL

飛渡深坑

斯坦福提出無需人類示範的強化學習算法SOORL

鱷魚口脫險

斯坦福提出無需人類示範的強化學習算法SOORL

躲避沙坑

SOORL仍然還有很多限制。也許其中最重要的缺點就是它需要一種合理的潛在動態模型進行具體化,使得SOORL可以在這個子集上進行模型選擇。另外在蒙特卡洛樹搜索期間,它沒有學習並利用價值函數,這在早期的AlphaGo版本上是很重要的一部分。我們希望加入一個價值函數能大大改善其性能。

但是除了這些弱點,這些結果還是非常令人激動的。因為這個基於模型的強化學習智能體能在類似Pitfall!這樣獎勵非常稀疏的電子遊戲中快速地學習,通過各種策略學習如何在簡單模式下做出正確決策。

下面是SOORL智能體在4000分時得到的黃金寶藏:

斯坦福提出無需人類示範的強化學習算法SOORL


分享到:


相關文章: