「一個神經元統治一切」ResNet 強大的理論證明

「一个神经元统治一切」ResNet 强大的理论证明

「一个神经元统治一切」ResNet 强大的理论证明

新智元編譯

編譯:李靜怡,肖琴

【新智元導讀】MIT CSAIL的研究人員發現,隱藏層僅有一個神經元的ResNet就是一個通用的函數逼近器,恆等映射確實加強了深度網絡的表達能力。研究人員表示,這一發現還填補了全連接網絡表達能力強大原因的理論空白。

「一个神经元统治一切」ResNet 强大的理论证明

深度神經網絡是當前很多機器學習應用成功的關鍵,而深度學習的一大趨勢,就是神經網絡越來越深:以計算機視覺應用為例,從最開始的AlexNet,到後來的VGG-Net,再到最近的ResNet,網絡的性能確實隨著層數的增多而提升。

研究人員的一個直觀感受是,隨著網絡深度的增大,網絡的容量也變高,更容易去逼近某個函數。

因此,從理論方面,也有越來越多的人開始關心,是不是所有的函數都能夠用一個足夠大的神經網絡去逼近?

在一篇最新上傳Arxiv的論文裡,MIT CSAIL的兩位研究人員從ResNet結構入手,論證了這個問題。他們發現,在每個隱藏層中只有一個神經元的ResNet,就是一個通用逼近函數,無論整個網絡的深度有多少,哪怕趨於無窮大,這一點都成立。

一個神經元就夠了,這不是很令人興奮嗎?

從深度上理解通用逼近定理

關於神經網絡的表達能力(representational power)此前已經有很多討論。

上世紀80年代的一些研究發現,只要有足夠多的隱藏層神經元,擁有單個隱藏層的神經網絡能以任意精度逼近任意連續函數。這也被稱為通用逼近定理(universal approximation theorem)。

但是,這是從“寬度”而非“深度”的角度去理解——不斷增加隱藏層神經元,增加的是網絡的寬度——

而實際經驗告訴我們,深度網絡才是最適用於去學習能解決現實世界問題的函數的

因此,這就自然引出了一個問題:

如果每層的神經元數量固定,當網絡深度增加到無窮大的時候,通用逼近定理還成立嗎?

北京大學Zhou Lu等人發表在NIPS 2017的文章《The Expressive Power of Neural Networks: A View from the Width》發現,對於用ReLU作為激活函數的全連接神經網絡,當每個隱藏層至少有 d+4 個神經元(d表示輸入空間)時,通用逼近定理就成立,但至多有 d 個神經元時,就不成立。

那麼,換一種結構,這個條件還會成立嗎?究竟是什麼在影響深度網絡的表達能力?

MIT CSAIL的這兩位研究人員便想到了ResNet。

「一个神经元统治一切」ResNet 强大的理论证明

從何愷明等人2015年提出以來,ResNet甚至被認為是當前性能最佳的網絡結構。ResNet的成功得益於它引入了快捷連接(shortcut connection),以及在此基礎上的恆等映射(Identity Mapping),使數據流可以跨層流動。原問題就轉化使殘差函數(F(x)=H(x)-x)逼近0值,而不用直接去擬合一個恆等函數 H’(x)。

由於恆等映射,ResNet的寬度與輸入空間相等。因此,作者構建了這樣的結構,並不斷縮小隱藏層,看看極限在哪裡:

「一个神经元统治一切」ResNet 强大的理论证明

結果就如上文所說的那樣,最少只需要一個神經元就夠了。

作者表示,這進一步從理論上表明,ResNet的恆等映射確實增強了深度網絡的表達能力。

「一个神经元统治一切」ResNet 强大的理论证明

例證:完全連接網絡和ResNet之間的區別

作者給出了一個這樣的toy example:我們首先通過一個簡單的例子,通過實證探索一個完全連接網絡和ResNet之間的區別,其中完全連接網絡的每個隱藏層有 d 個神經元。例子是:在平面中對單位球(unit ball)進行分類。

訓練集由隨機生成的樣本「一個神經元統治一切」ResNet 強大的理論證明組成,其中

「一个神经元统治一切」ResNet 强大的理论证明

我們人為地在正樣本和負樣本之間創建了一個邊界,以使分類任務更容易。我們用邏輯損失作為損失「一個神經元統治一切」ResNet 強大的理論證明,其中

「一個神經元統治一切」ResNet 強大的理論證明是網絡在第 i 個樣本的輸出。在訓練結束後,我們描繪了各種深度的網絡學習的決策邊界。理想情況下,我們希望模型的決策邊界接近真實分佈。

「一个神经元统治一切」ResNet 强大的理论证明

圖2:在單位球分類問題中,訓練每個隱藏層(上面一行)寬度 d = 2 的全連接網絡和每個隱藏層只有一個神經元的 ResNet(下面一行)得到的決策邊界。全連接網絡無法捕獲真正的函數,這與認為寬度 d 對於通用逼近而言太窄(narrow)的理論是一致的。相反,ResNet很好地逼近了函數,支持了我們的理論結果。

圖2顯示了結果。對於完全連接網絡(上面一行)而言,學習的決策邊界對不同的深度具有大致相同的形狀:逼近質量似乎沒有隨著深度增加而提高。雖然人們可能傾向於認為這是由局部最優性引起的,但我們的結果與文獻[19]中的結果一致:

Proposition 2.1. 令「一個神經元統治一切」ResNet 強大的理論證明為由一個具有ReLU激活的完全連接網絡 N 定義的函數。用

「一個神經元統治一切」ResNet 強大的理論證明表示「一個神經元統治一切」ResNet 強大的理論證明的正水平集。如果 N 的每個隱藏層至多有 d 個神經元,那麼

「一個神經元統治一切」ResNet 強大的理論證明, 其中 λ 表示 Lebesgue measure

換句話說,“narrow”的完全連接網絡的水平集(level set)是無界的,或具有零測度。

因此,即使當深度趨於無窮大時,“narrow”的完全連接網絡也不能逼近有界區域。這裡我們只展示了 d=2 的情況,因為可以很容易地看到數據;在更高的維度也可以看到同樣的觀察結果。

ResNet的決策邊界看起來明顯不同:儘管寬度更窄,但ResNet表示了一個

有界區域的指標。隨著深度的增加,決策邊界似乎趨於單位球,這意味著命題2.1不能適用於ResNet。這些觀察激發了通用逼近定理

討論

在本文中,我們展示了每個隱藏層只有一個神經元的ResNet結構的通用逼近定理。這個結果與最近在全連接網絡上的結果形成對比,對於這些全連接網絡,在寬度為 d 或更小時,通用逼近會失敗。

ResNet vs 全連接網絡:

雖然我們在每個基本殘差塊(residual block)中只使用一個隱藏神經元來實現通用逼近,但有人可能會說,ResNet的結構仍然將identity傳遞到下一層。這個identity map可以算作 d 個隱藏單元,導致每個殘差塊共有 d+1 個隱藏單元,並且使得網絡被看做一個寬度為 (d + 1)的完全連接網絡。但是,即使從這個角度看,ResNet也相當於一個完全連接網絡的壓縮或稀疏版本。特別是,寬度為 (d + 1)的完全連接網絡每層具有「一個神經元統治一切」ResNet 強大的理論證明個連接,而ResNet中只有

「一個神經元統治一切」ResNet 強大的理論證明個連接,這要歸功於identity map。完全連接網絡的這種“過度參數化”或許可以解釋為什麼dropout對這類網絡有用。

同樣的道理,我們的結果表明寬度(d + 1)的完全連接網絡是通用逼近器,這是新的發現。文獻[19]中的結構要求每層d + 4個單元,在上下邊界之間留有空隙。因此,我們的結果縮小了差距:寬度為(d + 1)的完全連接網絡是通用逼近器,而寬度為d的完全連接網絡不是

為什麼通用逼近很重要?如我們在論文第2節所述,寬度為d的完全連接網絡永遠不可能逼近一個緊湊的決策邊界,即使我們允許有無限的深度。然而,在高維空間中,很難對得到的決策邊界進行可視化和檢查。通用逼近定理提供了一種完整性檢查,並確保原則上我們能夠捕獲任何期望的決策邊界。

訓練效率:

通用逼近定理只保證了逼近任何期望函數的可能性,但它並不能保證我們通過運行SGD或任何其他優化算法能夠實際找到它。理解訓練效率可能需要更好地理解優化場景,這是最近受到關注的一個話題。

這裡,我們試圖提出一個稍微不同的角度。根據我們的理論,帶有單個神經元隱藏層(one-neuron hidden layers)的ResNet已經是一個通用的逼近器。換句話說,每一層有多個單元的ResNet在某種意義上是模型的過度參數化,而過度參數化已經被觀察到有利於優化。這可能就是為什麼訓練一個非常深的ResNet比訓練一個完全連接的網絡“更容易”的原因之一。未來的工作可以更嚴謹地分析這一點。

泛化:

由於一個通用逼近器可以擬合任何函數,人們可能會認為它很容易過度擬合。然而,通常可以觀察到,深度網絡在測試集上的泛化效果非常出色。對這一現象的解釋與我們的論文是不相關的,但是,瞭解通用逼近能力是這一理論的重要組成部分。此外,我們的結果暗示了,前述的“過度參數化”也可能發揮作用。

總結:

總結而言,我們給出了具有單個神經元隱藏層的ResNet的通用逼近定理。這從理論上將ResNet和完全連接網絡區分開來,並且,我們的結果填補了理解完全連接網絡的表示能力方面的空白。在一定程度上,我們的結果在理論上激勵了對ResNet架構進行更深入的實踐。

相關論文

1、https://arxiv.org/pdf/1806.10909.pdf

2、https://arxiv.org/abs/1709.02540?context=cs

【加入社群】


分享到:


相關文章: