Facebook、谷歌大腦和MIT頂級AI專家正在尋找的神經網絡通用理論

Facebook、谷歌大脑和MIT顶级AI专家正在寻找的神经网络通用理论

© Koma Zhang

導語

神經網絡功能強大,但目前來說,它們仍然是不可預測的。數學家們正致力於搭建神經網絡理論基石,探索神經網絡的結構如何影響其功能。本文采訪了來自Facebook、Google Brain 和 MIT 的多位研究者,分別介紹了他們對神經網絡通用理論的研究和認識。

編譯:集智俱樂部翻譯組

原題:

Foundations Built for a General Theory of Neural Networks

當我們設計一座摩天大樓時,會希望它能夠達到明確規定的性能要求:這座大樓能夠承受一定的重量,並且能夠承受一定強度的地震。

然而我們正在盲目地使用一項技術,它是現代世界最重要的技術之一。我們使用不同的設計,修改不同的設置,但在測試運行之前,我們並不知道它能做什麼,或者會在哪裡失敗。

這項技術就是神經網絡,它支撐著當今世界最先進的人工智能系統。神經網絡正逐漸進入社會的核心領域:它們決定我們通過社交媒體獲取的信息,它們幫助醫生診斷疾病,它們甚至輔助法官審理案件。

然而,“我們幾乎不知道神經網絡實際上是如何工作的,也不知道它的理論基礎是什麼。”Boris Hanin說。

Facebook、谷歌大脑和MIT顶级AI专家正在寻找的神经网络通用理论

Boris Hanin,德克薩斯A&M大學數學家,Facebook AI Research的訪問科學家,研究神經網絡深度和寬度之間的權衡。©Intel AI One Tree Studio

神經網絡與蒸汽機

他將這種情況類比另一種革命性技術的發展:蒸汽機。一開始,蒸汽機除了抽水之外沒什麼用處。後來它們為火車提供動力,這是神經網絡目前達到的複雜程度。再後來,科學家和數學家提出了一套熱力學理論,使人類能夠準確地理解任何類型的引擎內部到底發生了什麼。最終,這些知識把人類帶到了月球。

Hanin說:“首先,你擁有了不起的工程技術,接著你擁有了不起的火車,然後你需要一些理論知識來研究火箭。”

在神經網絡開發者的龐大社區中,有一小群具有數學頭腦的研究人員正試圖建立一套神經網絡理論——這個理論可以解釋神經網絡是如何工作的,並保證如果你以規定的方式構建一個神經網絡,它將能夠執行某些任務。

這項工作仍然處於起步階段,但在去年,研究人員發表了幾篇論文,闡述了神經網絡中結構和功能之間的關係。這項工作致力於研究神經網絡的理論基礎。它表明,在能證明神經網絡可以駕駛汽車之前,你需要證明它們可以做簡單的乘法運算。

寫一本神經網絡的食譜

神經網絡旨在模擬人類大腦,目前提出的一種大腦工作方式是,大腦通過將較小抽象合成較大抽象來工作。這種觀點認為,思維的複雜性可以通過較小抽象的範圍,以及將較低層次的抽象組合成較高層次的抽象的次數來衡量,就像我們學習辨別狗和鳥的方式一樣。

“對於人類來說,如果你正在學習如何識別一隻狗,你應該先學會識別四條毛茸茸的腿。理想情況下,我們希望神經網絡能做同樣的事情,”Maithra Raghu說。

Facebook、谷歌大脑和MIT顶级AI专家正在寻找的神经网络通用理论

Maithra Raghu,谷歌大腦項目組成員,康奈爾大學計算機科學的博士生,一直致力於神經網絡運作原理的研究。©Arun Chaganty

對於人類的大腦來說,抽象是自然賦予的能力,而對於神經網絡來說,抽象是需要實現的功能。與大腦一樣,神經網絡也是由被稱為“神經元”的組件構成的,這些組件以各種方式連接在一起。每個神經元可以表示一個屬性,或者一組屬性,網絡在每個抽象層次處理這些屬性。

譯註:神經網絡中的神經元受到大腦中的神經元的啟發,但並非直接模仿它們。

決定神經網絡深度

當要把這些神經元連接在一起時,工程師們有很多種選擇。他們必須決定神經網絡應該有多少層神經元。例如,考慮一個神經網絡,其任務是識別圖像中的物體。圖像在第一層輸入系統中。在下一層,神經元只是檢測圖像中的邊緣。接著在下一層,神經元組合直線來識別圖像中的曲線。然後在下一層,神經元將曲線組合成形狀和紋理,最後一層對形狀和紋理進行處理,從而得出神經網絡識別的結果。

“我們的想法是,每個層結合前一層的幾個方面。圓是由許多不同的曲線組成的,曲線是由許多不同的線條組成的,”賓夕法尼亞大學的數學家David Rolnick說。

決定神經網絡寬度

工程師還必須決定每一層的“寬度”,這對應於網絡在每個抽象級別考慮的特徵數量。在圖像識別的例子中,層的寬度是指它在每個級別考慮的直線、曲線或其它形狀的類型數量。

選擇連接方式

除了網絡的深度和寬度,工程師還可以選擇如何連接層內和層間的神經元,以及賦予每個連接多大權重。

因此,如果你有一個特定的任務,哪種神經網絡結構能夠更好地實現它呢?這裡有一些基本的經驗法則。對於與圖像相關的任務,工程師們通常使用“卷積”神經網絡,其特點是層與層之間的連接模式相同,一遍又一遍地重複這個連接模式。對於自然語言處理(比如語音識別或語言生成),工程師們發現“循環”神經網絡工作得最好。在這些神經網絡中,神經元可以連接到不相鄰的層。

如何設計神經網絡

神經網絡傳遞輸入數據(如一張圖片)通過多層數字神經元。每一層都能獲得輸入數據的額外特徵。數學家們正致力於探索神經網絡的結構(神經元的數量、層的數量、連接方式)如何決定它們擅長的任務類型。

Facebook、谷歌大脑和MIT顶级AI专家正在寻找的神经网络通用理论

©Lucy Reading-Ikkanda

然而,除了這些一般的指導方針,工程師們在很大程度上不得不依賴實驗證據:他們運行1000個不同的神經網絡,僅僅是為了觀察哪一個實現了功能。

“這些選擇往往是通過實踐中的反覆試驗和錯誤做出的,這是一種艱難的做法,因為有無限多的選擇,人們真的不知道什麼是最好的。”Hanin說。

更好的方法是少一點試驗和錯誤,多一點對給定的神經網絡結構的理解。最近發表的一些論文已經朝著這個方向發展了。

這項工作試圖開發出一本食譜,用於設計正確的神經網絡。如果你知道自己需要一個什麼樣的網絡,那麼就能找到搭建這個網絡的訣竅,”Rolnick說。

新方向:更窄更深的神經網絡

關於神經網絡結構的最早的理論證明之一出現在30年前。1989年,計算機科學家證明,如果一個神經網絡只有一個計算層,但是允許這一層有無限多的神經元,它們之間有無限多的連接,那麼這個網絡將能夠執行任何你想要的任務。

這是一個籠統的陳述,憑直覺可以獲知,但沒有多大用處。這就像是說,如果你可以識別一個圖像中無限多的行,那麼你可以只使用一個層來辨別圖像上所有對象。原則上說這是正確的,但在實踐中沒有意義。

如今,研究人員認為這種寬而扁的網絡是“富有表現力的”,這意味著它們在理論上能夠捕捉到輸入(如圖像)和輸出(如圖像的描述)之間豐富的聯繫。然而,這些網絡很難訓練,這意味著幾乎不可能教會它們如何產生對應的輸出。它們的計算量也超過計算機的處理能力。

最近,研究人員一直在試圖把神經網絡推向另一個方向——使神經網絡變得更窄(每層神經元數量更少)和更深(整體神經元數量更多)。這樣,也許你只需要挑出100條不同的直線,通過連接將這100條直線變成50條曲線,再把它們組合成10種不同的形狀,你就有了識別大多數物體所需要的所有構件。

在去年完成的一篇論文中,麻省理工學院的 Rolnick 和 Max Tegmark 證明,通過增加深度和減小寬度,你可以用指數級減少的神經元來執行同樣的功能。

論文題目:

The power of deeper networks for expressing natural functions

論文地址:

https://arxiv.org/abs/1705.05502

這就是說,如果你正在建模的案例有100個輸入變量,使用包含2100個神經元的一層神經網絡,或者,使用包含210個神經元的兩層神經網絡,具有相同的可靠性。他們發現,通過更多的抽象層次組合小塊特徵,這樣的神經網絡功能更強大,而不是試圖在一個抽象層次捕獲所有的特徵。

Rolnick說:“神經網絡中的深度概念體現這樣一種想法,即你可以通過按順序做許多簡單的事情來表達複雜的東西。這就像一條流水線。”

Rolnick和Tegmark通過讓神經網絡執行一個簡單的任務來證明深度的效用:乘以多項式函數。(這些方程的特徵變量被提高到自然數指數,例如y=x^3+1。)他們訓練網絡,向網絡展示方程式的例子和它們的結果,然後要求網絡計算它們從未見過的方程式的結果。實現這個任務的深層神經網絡的神經元數量遠少於淺層神經網絡。

Rolnick說,雖然乘法並不是一個能夠轟動世界的任務,但該論文提出了一個重要的觀點:“如果一個淺的網絡不能做乘法,那麼我們就不應該用它來做其它更難的任務。”

Facebook、谷歌大脑和MIT顶级AI专家正在寻找的神经网络通用理论

David Rolnick,賓夕法尼亞大學數學家,證明了增加網絡的深度可以讓網絡用指數級減少的神經元完成任務。©Stephanie Ku

圈出紅色的羊

其他研究人員一直在探索所需的最小寬度。九月底,Jesse Johnson 證明了在某一點上,再深的深度也不能彌補寬度的不足。

論文題目:

Deep, Skinny Neural Networks are not Universal Approximators

論文地址:

https://arxiv.org/abs/1810.00393

為了解釋他的結論,想象一下田野裡的羊群:它們的毛被染成了幾種顏色中的一種。神經網絡的任務是在所有同色的綿羊周圍畫一個邊界。理論上,這個任務類似於圖像分類:輸入一個圖像集(它表示為高維空間中的點),網絡需要將相似的圖像聚合在一起。

Johnson證明,當層的寬度小於或等於輸入數量時,神經網絡將無法完成這項任務。所以對於這個案例中的羊,每一隻都可以用兩個輸入變量來描述:一個x座標和一個y座標,指定羊在田野中的位置。然後,神經網絡用一種顏色來標記每隻羊,並在相同顏色的羊周圍畫一條邊界。這種情況下,要解決這個問題,每層需要三個或更多的神經元。

更具體地說,Johnson指出,如果寬度與輸入變量的比例太小,神經網絡將無法繪製閉合的環——如果所有的紅色綿羊都聚集在牧場中央,神經網絡需要繪製這種閉合環。“如果沒有任何一層的寬度超過輸入維度的數量,有一些形狀將永遠無法被創建,無論你添加多少層,”Johnson說。

像Johnson這樣的論文已經開始搭建神經網絡理論的基石。目前,研究人員只能對架構和功能之間的關係做出非常基礎的斷言,而這些斷言與神經網絡所應用的任務數量相比,只佔很小的比例。

因此,神經網絡理論不會很快改變系統的構建方式,但關於計算機如何學習的新理論正在制定中。這個新理論將帶領人類踏上新的征程,其影響甚至超過人類探月征程。

翻譯:王佳純

原文地址:

https://www.quantamagazine.org/foundations-built-for-a-general-theory-of-neural-networks-20190131/

優化網絡結構發揮神經網絡最大的認知潛力?

Cell 最新:成功繪製完整的果蠅大腦神經網絡!

動物是如何學習的?線蟲神經連接組裡有答案!

Nature 評論:走出實驗室的神經科學

加入集智,一起復雜!

Facebook、谷歌大脑和MIT顶级AI专家正在寻找的神经网络通用理论

集智俱樂部QQ群|877391004

◆ ◆ ◆

加入“沒有圍牆的研究所”

讓蘋果砸得更猛烈些吧!


分享到:


相關文章: