© Koma Zhang
導語
神經網絡功能強大,但目前來說,它們仍然是不可預測的。數學家們正致力於搭建神經網絡理論基石,探索神經網絡的結構如何影響其功能。本文采訪了來自Facebook、Google Brain 和 MIT 的多位研究者,分別介紹了他們對神經網絡通用理論的研究和認識。
編譯:集智俱樂部翻譯組
原題:
Foundations Built for a General Theory of Neural Networks
當我們設計一座摩天大樓時,會希望它能夠達到明確規定的性能要求:這座大樓能夠承受一定的重量,並且能夠承受一定強度的地震。
然而我們正在盲目地使用一項技術,它是現代世界最重要的技術之一。我們使用不同的設計,修改不同的設置,但在測試運行之前,我們並不知道它能做什麼,或者會在哪裡失敗。
這項技術就是神經網絡,它支撐著當今世界最先進的人工智能系統。神經網絡正逐漸進入社會的核心領域:它們決定我們通過社交媒體獲取的信息,它們幫助醫生診斷疾病,它們甚至輔助法官審理案件。
然而,“我們幾乎不知道神經網絡實際上是如何工作的,也不知道它的理論基礎是什麼。”Boris Hanin說。
Boris Hanin,德克薩斯A&M大學數學家,Facebook AI Research的訪問科學家,研究神經網絡深度和寬度之間的權衡。©Intel AI One Tree Studio
神經網絡與蒸汽機
他將這種情況類比另一種革命性技術的發展:蒸汽機。一開始,蒸汽機除了抽水之外沒什麼用處。後來它們為火車提供動力,這是神經網絡目前達到的複雜程度。再後來,科學家和數學家提出了一套熱力學理論,使人類能夠準確地理解任何類型的引擎內部到底發生了什麼。最終,這些知識把人類帶到了月球。
Hanin說:“首先,你擁有了不起的工程技術,接著你擁有了不起的火車,然後你需要一些理論知識來研究火箭。”
在神經網絡開發者的龐大社區中,有一小群具有數學頭腦的研究人員正試圖建立一套神經網絡理論——這個理論可以解釋神經網絡是如何工作的,並保證如果你以規定的方式構建一個神經網絡,它將能夠執行某些任務。
這項工作仍然處於起步階段,但在去年,研究人員發表了幾篇論文,闡述了神經網絡中結構和功能之間的關係。這項工作致力於研究神經網絡的理論基礎。它表明,在能證明神經網絡可以駕駛汽車之前,你需要證明它們可以做簡單的乘法運算。
寫一本神經網絡的食譜
神經網絡旨在模擬人類大腦,目前提出的一種大腦工作方式是,大腦通過將較小抽象合成較大抽象來工作。這種觀點認為,思維的複雜性可以通過較小抽象的範圍,以及將較低層次的抽象組合成較高層次的抽象的次數來衡量,就像我們學習辨別狗和鳥的方式一樣。
“對於人類來說,如果你正在學習如何識別一隻狗,你應該先學會識別四條毛茸茸的腿。理想情況下,我們希望神經網絡能做同樣的事情,”Maithra Raghu說。
Maithra Raghu,谷歌大腦項目組成員,康奈爾大學計算機科學的博士生,一直致力於神經網絡運作原理的研究。©Arun Chaganty
對於人類的大腦來說,抽象是自然賦予的能力,而對於神經網絡來說,抽象是需要實現的功能。與大腦一樣,神經網絡也是由被稱為“神經元”的組件構成的,這些組件以各種方式連接在一起。每個神經元可以表示一個屬性,或者一組屬性,網絡在每個抽象層次處理這些屬性。
譯註:神經網絡中的神經元受到大腦中的神經元的啟發,但並非直接模仿它們。
決定神經網絡深度
當要把這些神經元連接在一起時,工程師們有很多種選擇。他們必須決定神經網絡應該有多少層神經元。例如,考慮一個神經網絡,其任務是識別圖像中的物體。圖像在第一層輸入系統中。在下一層,神經元只是檢測圖像中的邊緣。接著在下一層,神經元組合直線來識別圖像中的曲線。然後在下一層,神經元將曲線組合成形狀和紋理,最後一層對形狀和紋理進行處理,從而得出神經網絡識別的結果。
“我們的想法是,每個層結合前一層的幾個方面。圓是由許多不同的曲線組成的,曲線是由許多不同的線條組成的,”賓夕法尼亞大學的數學家David Rolnick說。
決定神經網絡寬度
工程師還必須決定每一層的“寬度”,這對應於網絡在每個抽象級別考慮的特徵數量。在圖像識別的例子中,層的寬度是指它在每個級別考慮的直線、曲線或其它形狀的類型數量。
選擇連接方式
除了網絡的深度和寬度,工程師還可以選擇如何連接層內和層間的神經元,以及賦予每個連接多大權重。
因此,如果你有一個特定的任務,哪種神經網絡結構能夠更好地實現它呢?這裡有一些基本的經驗法則。對於與圖像相關的任務,工程師們通常使用“卷積”神經網絡,其特點是層與層之間的連接模式相同,一遍又一遍地重複這個連接模式。對於自然語言處理(比如語音識別或語言生成),工程師們發現“循環”神經網絡工作得最好。在這些神經網絡中,神經元可以連接到不相鄰的層。
如何設計神經網絡
神經網絡傳遞輸入數據(如一張圖片)通過多層數字神經元。每一層都能獲得輸入數據的額外特徵。數學家們正致力於探索神經網絡的結構(神經元的數量、層的數量、連接方式)如何決定它們擅長的任務類型。
©Lucy Reading-Ikkanda
然而,除了這些一般的指導方針,工程師們在很大程度上不得不依賴實驗證據:他們運行1000個不同的神經網絡,僅僅是為了觀察哪一個實現了功能。
“這些選擇往往是通過實踐中的反覆試驗和錯誤做出的,這是一種艱難的做法,因為有無限多的選擇,人們真的不知道什麼是最好的。”Hanin說。
更好的方法是少一點試驗和錯誤,多一點對給定的神經網絡結構的理解。最近發表的一些論文已經朝著這個方向發展了。
“這項工作試圖開發出一本食譜,用於設計正確的神經網絡。如果你知道自己需要一個什麼樣的網絡,那麼就能找到搭建這個網絡的訣竅,”Rolnick說。
新方向:更窄更深的神經網絡
關於神經網絡結構的最早的理論證明之一出現在30年前。1989年,計算機科學家證明,如果一個神經網絡只有一個計算層,但是允許這一層有無限多的神經元,它們之間有無限多的連接,那麼這個網絡將能夠執行任何你想要的任務。
這是一個籠統的陳述,憑直覺可以獲知,但沒有多大用處。這就像是說,如果你可以識別一個圖像中無限多的行,那麼你可以只使用一個層來辨別圖像上所有對象。原則上說這是正確的,但在實踐中沒有意義。
如今,研究人員認為這種寬而扁的網絡是“富有表現力的”,這意味著它們在理論上能夠捕捉到輸入(如圖像)和輸出(如圖像的描述)之間豐富的聯繫。然而,這些網絡很難訓練,這意味著幾乎不可能教會它們如何產生對應的輸出。它們的計算量也超過計算機的處理能力。
最近,研究人員一直在試圖把神經網絡推向另一個方向——使神經網絡變得更窄(每層神經元數量更少)和更深(整體神經元數量更多)。這樣,也許你只需要挑出100條不同的直線,通過連接將這100條直線變成50條曲線,再把它們組合成10種不同的形狀,你就有了識別大多數物體所需要的所有構件。
在去年完成的一篇論文中,麻省理工學院的 Rolnick 和 Max Tegmark 證明,通過增加深度和減小寬度,你可以用指數級減少的神經元來執行同樣的功能。
論文題目:
The power of deeper networks for expressing natural functions
論文地址:
https://arxiv.org/abs/1705.05502
這就是說,如果你正在建模的案例有100個輸入變量,使用包含2100個神經元的一層神經網絡,或者,使用包含210個神經元的兩層神經網絡,具有相同的可靠性。他們發現,通過更多的抽象層次組合小塊特徵,這樣的神經網絡功能更強大,而不是試圖在一個抽象層次捕獲所有的特徵。
Rolnick說:“神經網絡中的深度概念體現這樣一種想法,即你可以通過按順序做許多簡單的事情來表達複雜的東西。這就像一條流水線。”
Rolnick和Tegmark通過讓神經網絡執行一個簡單的任務來證明深度的效用:乘以多項式函數。(這些方程的特徵變量被提高到自然數指數,例如y=x^3+1。)他們訓練網絡,向網絡展示方程式的例子和它們的結果,然後要求網絡計算它們從未見過的方程式的結果。實現這個任務的深層神經網絡的神經元數量遠少於淺層神經網絡。
Rolnick說,雖然乘法並不是一個能夠轟動世界的任務,但該論文提出了一個重要的觀點:“如果一個淺的網絡不能做乘法,那麼我們就不應該用它來做其它更難的任務。”
David Rolnick,賓夕法尼亞大學數學家,證明了增加網絡的深度可以讓網絡用指數級減少的神經元完成任務。©Stephanie Ku
圈出紅色的羊
其他研究人員一直在探索所需的最小寬度。九月底,Jesse Johnson 證明了在某一點上,再深的深度也不能彌補寬度的不足。
論文題目:
Deep, Skinny Neural Networks are not Universal Approximators
論文地址:
https://arxiv.org/abs/1810.00393
為了解釋他的結論,想象一下田野裡的羊群:它們的毛被染成了幾種顏色中的一種。神經網絡的任務是在所有同色的綿羊周圍畫一個邊界。理論上,這個任務類似於圖像分類:輸入一個圖像集(它表示為高維空間中的點),網絡需要將相似的圖像聚合在一起。
Johnson證明,當層的寬度小於或等於輸入數量時,神經網絡將無法完成這項任務。所以對於這個案例中的羊,每一隻都可以用兩個輸入變量來描述:一個x座標和一個y座標,指定羊在田野中的位置。然後,神經網絡用一種顏色來標記每隻羊,並在相同顏色的羊周圍畫一條邊界。這種情況下,要解決這個問題,每層需要三個或更多的神經元。
更具體地說,Johnson指出,如果寬度與輸入變量的比例太小,神經網絡將無法繪製閉合的環——如果所有的紅色綿羊都聚集在牧場中央,神經網絡需要繪製這種閉合環。“如果沒有任何一層的寬度超過輸入維度的數量,有一些形狀將永遠無法被創建,無論你添加多少層,”Johnson說。
像Johnson這樣的論文已經開始搭建神經網絡理論的基石。目前,研究人員只能對架構和功能之間的關係做出非常基礎的斷言,而這些斷言與神經網絡所應用的任務數量相比,只佔很小的比例。
因此,神經網絡理論不會很快改變系統的構建方式,但關於計算機如何學習的新理論正在制定中。這個新理論將帶領人類踏上新的征程,其影響甚至超過人類探月征程。
翻譯:王佳純
原文地址:
https://www.quantamagazine.org/foundations-built-for-a-general-theory-of-neural-networks-20190131/
優化網絡結構發揮神經網絡最大的認知潛力?
Cell 最新:成功繪製完整的果蠅大腦神經網絡!
動物是如何學習的?線蟲神經連接組裡有答案!
Nature 評論:走出實驗室的神經科學
加入集智,一起復雜!
集智俱樂部QQ群|877391004
◆ ◆ ◆
加入“沒有圍牆的研究所”
讓蘋果砸得更猛烈些吧!
閱讀更多 集智俱樂部 的文章