DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧祕

機器之心報道

我們可以用研究小白鼠的方式來研究 AI 嗎?或許可以。在一篇 ICLR 2020 Spotlight 論文中,DeepMind 和哈佛大學的研究者構建了一個基於 AI 的虛擬小鼠,能夠執行跑、跳、覓食、擊球等多項複雜任務。他們還嘗試用神經科學技術來理解這個「人造大腦」如何控制其行為。或許這一成果可以為我們提供人工智能研究的新思路。

DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘

人工神經網絡算是目前最為先進的人工智能,這是一類由多層神經元互聯組件構成的機器學習算法,而「神經元」最早就是來自大腦結構的啟發。儘管人工神經網絡中的神經元肯定不同於實際人腦中的工作方式,但越來越多的研究者認為,將二者放在一起研究不僅可以幫助我們理解神經科學,還有助於打造出更加智能的 AI。DeepMind 和哈佛大學的研究者就在這一思路上進行了探索。

他們提出的是一種小鼠的 3D 模型,這一模型可在模擬環境中接受神經網絡的控制。同時,他們用神經科學技術來分析小鼠的大腦生物活動,由此來理解神經網絡如何控制小鼠的行為。該論文目前已被 ICLR 2020 大會接收為 Spotlight 論文。

論文鏈接:https://openreview.net/pdf?id=SyxrxR4KPS

論文作者之一、哈佛大學研究員 Jesse Marshall 表示,這個平臺相當於神經科學領域的風洞,可以用不同程度的生物真實性來測試不同的神經網絡,以此瞭解如何面對現實中的複雜挑戰

「在神經科學的典型實驗中,研究人員通常會用敲擊槓桿之類的單一行為來窺探動物的大腦活動,而大多數機器人也是為了解決定製任務而製造的,比如掃地機器人。這篇文章算是我們研究大腦如何產生並實現靈活性的開端,然後可以按照我們所觀察到的結果來設計功能相似的人工智能產品。」

研究過程

構造一隻虛擬小鼠

如下圖 1 所示,研究者基於實驗室小鼠的大小,在 MuJoCo 環境中(Todorov et al 於 2012 年提出)中實現了虛擬的小鼠身體。這個小鼠的可控自由度為 38,它的尾巴、脊柱和脖頸包含多段關節,並由共同驅動多關節的肌腱控制(MuJoCo 中的空間肌腱)。這一虛擬小鼠將作為「dm_control/locomotion/」項目的一部分來開源。

項目地址:https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion

DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘

虛擬小鼠可以獲得本體感應信息(proprioceptive information)以及來自頭戴式攝像頭的「原始」、第一人稱 RGB 相機(64×64 像素)輸入。本體感應信息包括:內部關節角度和角速度、提供驅動的肌腱的位置和速度、從小鼠骨盆到爪子、頭部的第一人稱向量、類前庭的垂直取向向量、爪子中的接觸感應區,以及骨盆的第一人稱加速度、速度和 3D 角速度。

訓練一個神經網絡

近期的研究表明,端到端強化學習可以生成單一的地形自適應策略,基於此,研究者在多個依賴馬達控制(motorcontrol)的任務上訓練了單一架構,具體如下圖 3 所示。

DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘

圖 3:虛擬小鼠智能體架構。

為了訓練一個可以執行所有四項任務的單一策略,研究者使用了用於動作評價結構(actor-critic)DeepRL 的 IMPALA-style 設置,並且通過直立跡(V-trace)和異策略校正(off-policy correction)對價值函數評價器進行訓練。

研究者在實驗中發現,在與其他三個任務相關的交叉訓練過程中,「逃離丘陵環境」任務的學習更具有挑戰性。因此,研究者展示了在「逃離」任務中訓練一個單一任務專家以及使用針對該任務的 kick-starting 訓練多任務策略的結果,並且得出的係數很弱(.001 或.005)。逃離任務上使用 kick-starting 可以使小鼠更可靠地完成所有四項任務,不同架構的多任務策略之間也能更方便地進行比較。最後生成單個神經網絡,該網絡利用虛擬輸入來決定小鼠的行為方式,並通過協調小鼠的身體來完成各項任務。

讓小鼠完成四項任務

研究者藉助訓練好的神經網絡指導小鼠完成四個動作:跳過多個空隙、在迷宮中覓食、逃離丘陵環境、精確地擊球。

DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘

奔跑並躍過多個空隙。

DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘

覓食動作:追逐藍色球體。

DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘

逃離丘陵。

DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘

用前爪精確擊球。

分析實驗結果

小鼠順利完成任務之後,研究者結合虛擬小鼠的行為分析它的神經網絡活動,以探索它如何完成多項任務(下圖 4A)。他們使用了來自神經科學的分析和擾動技術,這一領域已經開發出了一系列探索真實神經網絡特性的技術。

研究者記錄了虛擬小鼠的運動學、關節、算力、感覺輸入以及 LSTM 在核心層和策略層的單元活動。

DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘

圖 4:虛擬小鼠的行為學記錄。

但論文作者之一、哈佛大學研究生Diego Aldarondo表示,他們發現了一個有趣的事情:當神經活動直接控制肌肉力量和腿部動作時,這些活動在比預期更長的時間尺度上出現。

這意味著神經網絡似乎可以用一種抽象的符號來代表跑、跳、旋轉等多個任務,這是一種先前在齧齒動物和鳴禽動物中都已觀察到的認知模式。

研究意義

雖然神經網絡不具備生理真實性,但加拿大麥吉爾大學的神經科學家 Blake Richards 說,神經網絡捕捉到了神經處理過程中足夠多的重要特徵,可以針對神經活動如何讓影響行為做出有用的預測。他說,這篇論文的最大貢獻就是提出了一種近乎真實的方式訓練這些網絡,使它們更容易與生物數據進行比較。

他還說,作者們正在提供一個平臺,用於訓練一個真實的生物體和一系列的任務,讓與真實的齧齒動物大腦的對比更有意義。

從研究上說,人工神經網絡還不適合與生物神經網絡進行過於寬泛的比較,但這種方法可能是探索行為的神經基礎的一種好方法。

Scott 表示,記錄動物行為並將其與特定行為聯繫起來的複雜程度決定了,大多數實驗都是在相對簡單的任務中完成的,而且實驗的設定非常嚴格。而相比之下,虛擬小鼠卻可以實現非常複雜的、多部分的行為,例如覓食,這些行為可以與它的感官輸入和神經活動高度精確地聯繫起來。

唯一的問題在於,我們難以從動物身上收集任務設定如此複雜的神經數據。Scott 表示,他希望研究人員能在實驗室環境中讓虛擬小鼠完成更為簡單的任務,以使其神經活動模式可以和真實動物中發現的那些進行比較,以便了解它們之間的異同。

參考鏈接:https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/ai-powered-rat-valuable-new-tool-neuroscience


分享到:


相關文章: