DeepMind又出新招!智能體僅通過觀看視頻就可學會打遊戲

DeepMind又出新招!智能體僅通過觀看視頻就可學會打遊戲

作者:Yusuf Aytar、Tobias Pfaff、David Budden、Tom Le Paine、Ziyu Wang、Nando de Freitas

「雷克世界」編譯:嗯~是阿童木呀、EVA

導語:我們都知道,人們可以通過在線觀看視頻,學習從編織到跳舞再到玩遊戲等許多任務。展示出將從在線演示中所學到的知識遷移到現實任務的能力。那人工智能中的智能體能否獲得這種能力呢?最近,DeepMind的一些科學家提出了一種新方法,通過觀看YouTube視頻,指導智能體進行探索以贏得難以完成的遊戲。

深度強化學習方法通常在環境獎勵(environment reward)特別稀疏的任務中存在較大的困難。在這些領域中有一個成功的方法能夠指導探索,就是去模仿人類演示者提供的軌跡。然而,這些演示通常是在人工條件下收集的,即可以訪問智能體的精確環境設置和演示者的動作以及獎勵軌跡。在本文中,我們提出了一種兩個階段的方法,它能夠通過依賴沒有訪問過這些數據的嘈雜、未對齊的視頻素材來克服這些限制。首先,我們學習使用在時間和模態(即視覺和聲音)上構建的自監督目標(self-supervised objective),將來自多個來源的未對齊視頻映射到一個共同表徵上。其次,我們在該表徵中嵌入一個YouTube視頻以構建一個獎勵函數,鼓勵智能體模仿人類的遊戲玩法。這種一次性模仿(one-shot imitation)的方法讓我們的智能體在臭名昭著的難於完成的探索遊戲《蒙特祖瑪的復仇》(MONTEZUMA’S REVENGE)、《逃離險境》(PITFALL! )和《私人偵探》(PRIVATE EYE)中第一次令人信服地超越了人類水平的表現,即使智能體沒有獲得任何環境獎勵。

DeepMind又出新招!智能體僅通過觀看視頻就可學會打遊戲

圖1:Atari學習環境與YouTube視頻之間存在的域差距的圖示,我們的智能體可以通過這些視頻學習如何玩《蒙特祖瑪的復仇》。請注意不同的尺寸、分辨率、寬高比、顏色以及文字和頭像等視覺工件的添加。

人們通過在線觀看視頻,學習了從編織到跳舞再到玩遊戲等許多任務。他們展示了能夠將從在線演示中得到的知識遷移到手頭任務的卓越能力,儘管在時間選擇、視覺外觀、傳感模態(sensing modality)和身體差異方面存在巨大的差異。這種具有豐富無標籤數據的設置促進了人工智能的研究議程,這可能會帶來第三人稱模仿(third-person imitation)、自監督學習(self-supervised learning)、強化學習(reinforcement learning,RL)和相關領域的重大進展。在本文中,我們展示了所提出的這個研究議程是如何使我們能夠在對RL智能體的嘈雜演示序列的自監督隊列中取得一些初步的進展,使在最複雜且之前未解決的Atari 2600遊戲中取得人類水平的性能。

儘管在深度強化學習算法和架構方面取得了一些最新進展,但仍存在許多“艱苦探索”的挑戰,其特點是環境獎勵非常少,這依舊對現有的RL智能體提出了一個極具困難的挑戰。一個典型的例子是Atari的《蒙特祖瑪的復仇》,它需要一個像人類一樣的化身來駕馭一系列的平臺和障礙(其特性從空間到空間本質上發生了改變)以收集得分的物品。在這種任務中使用幼稚、貪婪的探索方法幾乎是不可能的,因為在分離獎勵的幀數中,可能的動作軌跡的數量呈指數增長。例如,在《蒙特祖瑪的復仇》中獲得第一個環境獎勵需要大約100個環境步驟,相當於10018個可能的動作序列。即使隨機遇到獎勵,如果這個信號在特別長的時間範圍內有所備份,那麼折中權衡的RL就難以穩定地學習。

DeepMind又出新招!智能體僅通過觀看視頻就可學會打遊戲

圖2:對於(a)中所示的路徑,使用(c)我們的嵌入與(d)原始像素形成的觀察序列的t-SNE投影。在(b)中,四個不同的域在(b)中並排進行比較,以獲得《蒙特祖瑪的復仇》中的樣本框架:(紫色)Atari學習環境,(青/黃)兩個YouTube訓練視頻,以及(紅色)未觀看的YouTube視頻。很顯然,儘管(紫色)和(紅色)在訓練期間被擱置在一邊,但在我們的嵌入空間中所有四條軌跡都很好地對齊。使用原始的像素值無法實現任何有意義的對齊。

可以這樣說,試圖克服稀疏獎勵問題的成功性方法大致分為兩類,即指導性探索。首先,內在動機方法提供了一種輔助獎勵,鼓勵智能體探索關於某些度量的“全新性”或“信息性”的狀態或行動軌跡。這些方法傾向於幫助智能體重新探索那些看起來全新的、或不確定的已知部分狀態空間(已知—未知),但往往無法提供關於這些狀態在環境中的哪些地方可以首先被發現的指導(未知—未知)。因此,這些方法通常依賴於附加的隨機組件來驅動初始的探索過程。另一類是模仿學習(imitation learning),藉於此,人類演示者生成狀態—行為軌跡,用以指導探索朝著被認為具有歸納偏差的突出性區域前進。這些偏差在Atari環境中被證明是一個非常有用的約束,因為人類可以立即做出識別,例如,頭骨代表危險,或者一把鑰匙能夠打開一扇門。

DeepMind又出新招!智能體僅通過觀看視頻就可學會打遊戲

圖3:我們的聯合TDC + CMC自監督損失計算中所涉及的網絡架構和交互。

在現有的模仿學習方法中,Hester等人所提出的DQfD已在Atari最難探索遊戲中展示了最佳的性能表現。儘管取得了這些令人印象深刻的結果,但在DQfD和相關方法裡面存在兩個侷限性。首先,他們假設智能體和演示者的觀察空間之間沒有“域差距”,例如,顏色或分辨率的變化,或其他視覺工件的引入。圖1顯示了《蒙特祖瑪的復仇》(MONTEZUMA'S REVENGE)中“域差距”的一個例子,考慮了(a)我們的環境與(b)YouTube遊戲畫面相比的第一幀。其次,他們假設智能體可以訪問確切的動作和獎勵序列,而這些確切的動作和獎勵序列導致了演示者的觀察軌跡。在這兩種情況下,這些假設限制了在人工條件下收集的那些有用的演示集,通常需要專門的軟件堆棧以用於強化學習智能體訓練的唯一目的。

為了解決這些侷限性,本文提出了一種新方法,用以克服多個演示中觀察序列之間的域差距,通過使用在時間(時間距離分類)和模態(跨模態時間距離分類)上構建的自監督分類任務來學習一個通用的表徵(見圖2)。與以前的方法不同,我們的方法既不需要(a)演示之間的逐幀對齊(frame-by-frame alignment),也不需要(b)類標籤或其他註釋,而這些類標籤或註釋可能是從一個對齊中間接推斷出來的。我們還提出了一種新的度量(循環一致性)來評估這種已學習嵌入的質量。

DeepMind又出新招!智能體僅通過觀看視頻就可學會打遊戲

圖4:(左)最後的卷積層中選擇激活的可視化。單個神經元集中在例如(a)玩家、(b)敵人、和(c)庫存。值得注意的是,不存在與干擾物或特定工件相關的激活。(右)在最後一層的所有渠道中對激活進行的總結式可視化。

使用我們的嵌入技術,我們提出了一種輔助模仿損失(auxiliary imitation loss),它使得智能體能夠在不需要知道演示者的動作軌跡的情況下成功進行艱難的探索遊戲。具體來說,我們提供了一個標準的強化學習智能體,並且從一個YouTube視頻中獲得了一個模仿獎勵。我們是第一個令人信服地能夠在Atari最難的三款探險遊戲中獲得人類級別性能表現的:《蒙特祖瑪的復仇》(MONTEZUMA'S REVENGE)、《逃離險境》(PITFALL)以及《私人偵探》(PRIVATE EYE)。儘管在設計獎勵函數或使用逆向強化學習對它們進行學習時存在很大的挑戰,我們仍然在即使沒有環境獎勵信號的情況下達到人類級別的性能表現。

在本文中,我們提出了一種通過觀看YouTube視頻,來指導智能體進行探索從而贏得艱難探索挑戰的方法。相較於傳統的模仿學習方法,其中,演示是在受控條件下生成並獲得動作和獎勵序列的,而YouTube視頻僅包含未對齊且經常是噪雜的視聽序列。我們提出了全新的自監督目標,從而使得從視頻中學習域不變表徵,並描述了通過在整個空間嵌入檢查點來指導智能體進行探索的一次性模仿(one-shot imitation)機制。將這些方法與標準的IMPALA智能體相結合,我們展示了在《蒙特祖瑪的復仇》、《逃離險境》以及《私人偵探》上的第一個人類級別的性能表現。

原文鏈接:https://arxiv.org/pdf/1805.11592.pdf


分享到:


相關文章: