學界｜爲卷積模型執行加入循環和遠程反饋，更完整地擬合生物視覺科學頭條網

選自arXiv

機器之心編譯

參與：李詩萌、路

與當前的機器視覺行為執行僅涉及前饋過程不同，人類及靈長類動物的視覺行為執行包含前饋、反饋和時間預測等多種過程的整合。也就是說，當前的機器視覺僅能從低級圖像屬性逐層計算傳播到高層得到模型輸出，而現實應用中，即使像分類、目標檢測這樣的任務也需要考慮複雜的高級概念，例如功能、語境等。為此，來自斯坦福、MIT、谷歌大腦等機構的研究者借鑑了靈長類動物的大腦神經結構，提出了在內部整合了循環和遠程反饋結構的新型卷積循環模型 ConvRNN，實驗表明，該架構能以更少的參數達到更深層前饋 ResNet 的性能，並更好地擬合靈長動物的視覺過程，說明在執行不同複雜視覺行為時大腦的循環連接扮演著重要角色。

大腦的感覺系統必須要在複雜的有噪聲感覺數據中檢測出有意義的模式 [James, 1890]。視覺環境可以揭示對象的積極或消極性質，包括食物種類、危險標誌以及令人記憶猶新的社會夥伴。這些對象在每一時刻的位置、姿勢、對比度、背景以及前景都各不相同。因此，從低級圖像屬性中進行目標檢測是很不容易的 [Pinto 等人，2008]。靈長類動物的視覺系統會對相關的高級屬性進行編碼，以便指導行為 [Majaj 等人，2015]。這一過程可被建模為把一張圖從原始像素值轉換為內部表徵 [DiCarlo 等人，2012]。好的編碼算法能夠將任務的相關特徵提供給簡單的解碼過程，如線性分類器 [Hung 等人，2005，Majaj 等人，2015]。

近期的研究工作表明，基於任務優化的深度卷積神經網絡（CNN）是靈長類動物大腦視覺編碼的精準量化模型 [Yamins 等人，2014，Khaligh-Razavi 和 Kriegeskorte，2014，Güçlü 和 van Gerven，2015]。目前與其他模型類別相比，用於識別 ImageNet 目標的 CNN 可以更好地解釋視覺系統中神經元的平均時間響應（temporally-averaged response）。來自底層、中層、高層的卷積層的模型單元分別提供了發生在早期（V1 區 [Khaligh-Razavi 和 Kriegeskorte，2014，Cadena 等人，2017]）、中期（V4 區 [Yamins 等人，2014]）和更高的視覺皮層區域（下顳葉皮質，即 IT 區，[Khaligh-Razavi 和 Kriegeskorte，2014，Yamins 等人，2014]）的神經誘發反應的已知最好線性預測值。

但靈長類動物的視覺系統還有不能用前饋 CNN 建模的其他解剖結構。這些結構包括每個皮層區域內密集的局部循環連接以及不同區域間的遠程連接，例如從視覺層次的較高部分到較低部分的反饋 [Gilbert 和 Wu，2013]。靈長類動物大腦的視覺系統中「循環」（recurrence）的功能尚未得到充分研究。一些猜想認為循環「填補」了缺失數據 [Spoerer 等人，2017，Michaelis 等人，2018，Rajaei 等人，2018，Linsley 等人，2018]，如被其他物體遮擋住的物體部分；一些猜想認為循環通過自上而下的注意力特徵的細化「銳化」了表徵，以便對特定的刺激因素或特定任務的性能進行解碼 [Gilber 和 Wu，2013，Lindsay，2015，McIntosh 等人，2017，Li 等人，2018]；一些猜想認為循環允許大腦「預測」未來的刺激信號（如電影的幀）[Rao 和 Ballard，1999，Lotter 等人，2017，Issa 等人，2018]；還有一些猜想認為循環「擴展」了前饋計算，這意味著展開的循環網絡等價於通過多次重複變換來保存神經元（和可學習參數）的更深層前饋網絡 [Khaligh-Razavi 和 Keirgeskorte，2014，Liao 和 Poggio，2016，Zamir 等人，2017，Leroux 等人，2018]。

因為現有的神經數據無法排除這些可能性，所以計算模型可能有助於對這些假設進行評估。我們試著將來自前饋 CNN 和神經信號時間平均值的目標驅動建模方法 [Yamins 和 DiCarlo，2016，Mante 等人，2013，Shi 等人，2018] 擴展到卷積循環神經網絡（ConvRNN）和神經動態（neural dynamics）。具體來說，我們假設給 CNN 添加循環和反饋有助於這些模型執行行為相關任務（ethologically-relevant task），並且這樣的增強網絡可以更好地解釋視覺路徑中神經響應的精細時間軌跡。

儘管添加了循環結構的增強 CNN 已用於解決相對簡單的遮擋變形和預測未來的任務 [Spoerer 等人，2017，Lotter 等人，2017]，但這些模型既無法泛化到前饋 CNN 執行的較困難任務（如識別 ImageNet 數據集中的目標），也無法像 ImageNet 優化的 CNN 一樣對神經響應作出解釋。在本文的撰寫過程中，在 ImageNet 中進行目標識別是已知僅有的可以產生與視覺皮層神經元激活模式相仿的 CNN 激活模式的任務 [Khaligh-Razavi 和 Kriegeskorte，2014，Yamins 等人，2014，Cadena 等人，2017]。事實上，由於多樣性和複雜性，ImageNet 包含許多可以根據上述假設（例如嚴重遮擋、出現多個前景目標等）利用循環過程的圖像。此外，近期一些針對 ImageNet 的最有效方法（如 ResNet 模型 [He 等人，2016]）是在多個層上重複相同的架構模式，這說明它們可能與較淺的循環網絡的展開近似 [Liao 和 Poggio，2016]。因此我們試著探索循環是否可以改善在 ImageNet 數據集上的分類性能。儘管其他研究是將 CNN 的輸出作為 RNN 的輸入來解決目標分割等視覺任務 [McIntosh 等人，2017]，但我們選擇將循環架構整合進 CNN 中，因為這樣的架構在神經科學文獻中很普遍。

我們發現標準的循環單元（例如標準 RNN 和 LSTM [Elman，1990，Hochreiter 和 Schmidhuber，1997]）不會使 ImageNet 性能提升至超越參數匹配的前饋基線的水平。但我們設計了新的局部單元架構，該架構包含用於將循環架構集成到 CNN 中的結構屬性。為了在廣泛的模型架構空間中更好地識別模型架構，我們在數以千計的模型上進行了自動搜索，這些模型的局部循環單元和遠程反饋連接有所不同。引人注目的是我們在這個過程中發現了在傳統 RNN 中從未發現過的新的循環模式：例如，最成功的模型會用深度可分離的卷積專門處理局部循環連接，從而對網絡中類似 ResNet 的前饋骨幹網絡進行多重門控。此外，小部分遠程反饋連接可以提升任務性能，儘管大多數只具備中性或負面影響。總的來講，這種搜索產生的循環模型在僅使用 75% 的參數時，表現與更深層的前饋架構（ResNet-34）差不多。最後，在比較循環模型特徵和靈長類動物視覺系統中的神經響應後，我們發現基於 ImageNet 優化的 ConvRNN 提供了以 10ms 分辨率跨越中高層視覺皮層區域的精準量化的神經動態模型。這些結果提供了一個視覺系統中的局部和遠程循環如何調整以適應在靈長類動物的視覺系統中執行目標識別的模型。

圖 1：模型架構示意圖。卷積循環網絡（ConvRNN）是將局部循環單元和遠程反饋連接組合在一起添加到 CNN 的骨幹網絡上。在我們的實現中，沿著黑色或紅色箭頭進行的傳播需要一個時間步（10 ms）來模擬皮質層間的傳導延遲。

圖 2：局部循環單元架構的比較。（a）ConvRNN 單元間的架構差異。標準 ResNet 和標準 RNN 單元都有旁路（見論文）。LSTM 單元有門控，在圖中用 T 字連接符表示，但是沒有旁路。reciprocal 門控單元兩個都有。（b）多種 ConvRNN 和前饋模型隨著參數數量變化產生的性能變化。彩色的點將相應的 RNN 單元合併到 6 層前饋架構（「FF」）中。「T」表示展開的步數。經過超參數優化的 LSTM ConvRNN 和 reciprocal 門控單元 ConvRNN 通過黑線連接到未優化版本。

圖 3：ConvRNN 的超參數化和搜索結果。（a）局部循環單元的超參數化。箭頭表示輸入單元、隱藏狀態和輸出之間的連接。問號表示可選連接，可能是常規或深度可分離的卷積，可選擇卷積核大小。層（l-1 out、l in 和 l out）之間的反饋連接始終存在。帶有問號的方框表示可選擇 sigmoid 或 tanh 非線性激活函數、加法，或恆等連接（identity connection，像 ResNet 中一樣）這樣的多重門控。最終，從 l+k out 層開始的遠程反饋連接可能會進入局部單元輸入、隱藏狀態或輸出。（b）ConvRNN 搜索結果。每個藍色的點都表示一個模型，採樣自訓練了 5 個 epoch 的超參數空間。橙色的線是最後 50 個模型的平均性能。紅色的線表示搜索過程中該點表現最好的模型。

圖 4：最優的局部循環單元和全局反饋連接。（a）搜索過程中表現最好的模型的 RNN 單元架構。紅色的線表示每個最好的獨特模型（3b 中的紅線）所選擇的超參數（連接和與濾波器大小）。K*K 表示卷積，dsK*K 表示卷積核大小為 K*K 的深度可分離卷積。（b）搜索中的遠程反饋連接。每條軌跡表示 100 個樣本窗口中有特定反饋連接的模型的比例。（底部）每一個條表示具備給定反饋的模型與不具備該反饋的模型之間的性能中值差異。顏色與上面圖中相同的反饋顏色一致。（c）在 128px 大小的 ImageNet 上完整訓練的模型的性能。我們比較了 ResNet-18、18 層前饋基礎模型（basenet）、搜索中有或沒有全局反饋連接的中位模型，以及它的最小展開控制（T=12）的性能。「Random Model」是從模型搜索的初始隨機階段隨機選取的。每個長條上方顯示的是參數數量（單位：百萬）。ResNet 模型的訓練方法與 [He 等人，2016] 相同，但與 ConvRNN 相比，ResNet 是用 128px 大小的圖像訓練的。

圖 5：用 ConvRNN 對靈長類動物腹側流神經動態進行建模。（a）用於擬合神經動態的 ConvRNN 模型在 4 到 10 層具備局部循環單元和遠程反饋（紅色箭頭）。（b）與大腦的腹側層次一致，V4 的大多數單元都與第 6 層的特徵最佳匹配；pIT 匹配第 7 層；cIT/aIT 匹配第 8/9 層。（c）與神經動態擬合的模型特徵與這些響應的噪聲上限很接近。y 軸表示在 held-out 圖像上預測值和真實的響應值之間相關單元的中值。

論文：Task-Driven Convolutional Recurrent Models of the Visual System

論文地址：https://arxiv.org/pdf/1807.00053.pdf

摘要：前饋卷積神經網絡（CNN）是針對像 ImageNet 這樣的目標分類任務的當前最佳模型。此外，它們是靈長類動物大腦視覺系統中神經元平均時間響應的精準量化模型。但是生物的視覺系統有兩個獨一無二的、普通 CNN 沒有的結構特徵：皮質區域內的局部循環和從下游區域到上游區域的遠程反饋。我們在此探索了循環在改善分類表現中所扮演的角色。我們發現深度 CNN 中標準形式的循環結構（標準 RNN 和 LSTM）在 ImageNet 任務中表現得不是很好。相比之下，包含兩個架構特徵（旁路和門控）的自定義單元能大大提高任務的準確率。我們將這些設計原理擴展到自動架構搜索中，即在數千個模型架構中識別有利於目標識別的新型局部循環單元和遠程反饋連接。此外，基於任務優化的 ConvRNN 比前饋網絡更好地解釋了靈長類動物視覺系統中神經激活的動態，這說明在執行不同複雜視覺行為時大腦的循環連接扮演著重要角色。