深度學習十年發展回顧:里程碑論文彙編

深度學習十年發展回顧:里程碑論文彙編

大數據文摘出品:來源:leogao.dev編譯:武帥、狗小白、馬莉

隨著21世紀第二個十年行將結束,我們有必要回顧一下這十年來在深度學習領域所取得的巨大進步。在性能日益強大的計算機及大數據可用性的推動下,深度學習已經成功攻克了曾經棘手的難題,特別是在計算機視覺和自然語言處理方面。深度學習在我們的日常生活中已無處不在,從自動駕駛到醫學影像分析,從虛擬助理到深度偽裝。
這篇文章概述了過去十年來最有影響力的一些論文。我希望通過簡潔明瞭的摘要來提供深度學習領域不同方向的起點,並且提供了相當多的參考資料。
考慮到這項研究的性質,可以說是一千個人心中有一千個哈姆雷特。最有影響力的論文通常既不是第一篇論文也不是最好的那篇論文。我努力在它們之間找到平衡,並將最有影響力的論文作為主要條目,而將相關論文作為榮譽獎予以列出。當然,鑑於主觀性的存在,這份列表並不是什麼權威榜單云云。如果你覺得這份榜單有所遺漏,順序或描述存在錯誤,請告訴我一聲,以便加以改進,讓這份榜單更加完整準確。


2010

理解深度前饋神經網絡訓練的難點(7446次引用)

深度學習十年發展回顧:里程碑論文彙編

Xavier初始化後的激活(上)和不進行初始化的激活(下)

本文探討了深度網絡的一些問題,特別是權值的初始隨機化。本文還注意到了S型曲線和雙曲正切激活問題,並提出了替代方案SoftSign,它是一種具有更加平滑的漸近線的S型激活函數。但是,本文最主要的貢獻在於初始化。當使用正態分佈的權重進行初始化時,數值很可能會急劇增大或者減小,從而無法進行訓練。假設前一層的值是正態分佈的獨立同分布,則將它們相加會增大其方差,因此應按輸入數量成比例地縮小方差,以保持輸出值服從標準正態分佈。將這個邏輯反過來(即按輸出數量進行處理)則可以處理梯度的問題。本文介紹的Xavier初始化是兩者之間的折衷,是利用方差為

深度學習十年發展回顧:里程碑論文彙編

的正態分佈初始化權重,

深度學習十年發展回顧:里程碑論文彙編

分別是前一層神經元和後一層神經元的數量。2015年的一篇論文《深入研究整流函數:在ImageNet分類上超越人類水平》介紹了Kaiming初始化,它是在Xavier初始化的基礎上考慮了ReLU激活函數的一個改進版本。
2011

深度稀疏整流神經網絡 (4071 次引用)

深度學習十年發展回顧:里程碑論文彙編

從最早的MLP到2015年左右的許多神經網絡都是用S型函數作為激活函數。S型函數具有處處可微和輸出有界的特點,常用的有Logistic函數和雙曲正切函數。而且它與神經生物學中的全或無定律相吻合。(注:全或無定律是神經傳導的一項基本特性。即當刺激達到神經元的反應閾限時,它便以最大的脈衝振幅加以反應,但刺激強度達不到某種閾限時,神經元便不發生反應。詳情參考https://en.wikipedia.org/wiki/All-or-none_law)然而,由於S型函數的導數從零開始迅速衰減,因此隨著神經網絡層數的增加,梯度通常會迅速減小。這就是我們常說的梯度消失問題,這也正是當時神經網絡難以深度擴展的原因之一。該論文提出,使用ReLU激活函數來解決梯度消失問題,從而為神經網絡的深度發展奠定了基礎。(注:ReLU,Rectified Linear Unit,一種常用的激活函數,稱為線性整流函數或修正線性單元)

深度學習十年發展回顧:里程碑論文彙編

S型函數及其導數
儘管如此,ReLU函數還是存在一些缺陷:它們在0處不可微,它們能夠無限增長,並且當一半節點激活並飽和後,剩下的節點就成了“死亡”節點。2011年以來,人們提出了許多改進方法來解決這個問題,但其功效大多不如vanilla ReLUs。
《Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit》(2000)一文被普遍認為是建立ReLU的生物學合理性的第一篇論文,而《What is the Best Multi-Stage Architecture for Object Recognition?》一文則是我能找到的將ReLU函數(在本文中其被稱為積極部分)用於神經網絡的最早的論文。

著名文章對其的引用:

  • 整流非線性改進神經網絡聲學模型:該論文介紹了帶洩露線性整流函數(Leaky ReLU),由於在負半部分上存在較小的梯度“洩露”,因此其輸出不為零。這也防止了ReLU激活函數中部分神經元死亡現象的出現。然而,Leaky ReLU在0處的導數是不連續的。
    • 指數線性單元快速準確的深度網絡學習:指數線性單元(ELUs,Exponential Linear Units)和 Leaky ReLU相似,但在負側更平滑且飽和值為-1。
    • Self-Normalizing神經網絡:自歸一化神經網絡(SELUs,Self-Normalizing Neural Networks)旨在縮放ELU來創建固定點,並將其分佈修改為標準正態分佈,從而解決數據批量歸一化的需求。
    • 高斯誤差線性單位:高斯誤差線性單元(GELU,Gaussian Error Linear Units (GELUs):)作為一種常用的激活函數,其激活是基於高斯分佈及對應的隨機正則器dropout。具體來說,一個特定的值被保留的概率是標準正態分佈的累積分佈函數。因此,這個變量的期望值在隨機正則化後就變成了。GELU在許多SOTA模型中有所應用,如BERT和GPT/GPT2。

    2012

    深度卷積神經網絡的ImageNet分類(52025次引用)

    深度學習十年發展回顧:里程碑論文彙編

    AlexNet 結構
    AlexNet是一個使用ReLU激活函數,包含6千萬參數的卷積神經網絡。其最主要的貢獻在於展示了深層網絡的強大性能,因為就其本質而言,它的架構是過去的神經網絡的更深版本。
    這篇論文通常被認為是深度學習的發端。AlexNet也最早地利用GPU的大規模並行處理能力來訓練比以前更深的神經網絡。結果是驚人的,它將ImageNet的識別錯誤率從26.2%降到了15.3%,在2012年的ILSVRC脫穎而出。其強大的性能也使得深度學習受到廣泛關注,同時該論文也成為深度學習領域被引量最高的存在。

    著名文章對其的引用:

    深度學習十年發展回顧:里程碑論文彙編

    ImageNet層次結構中的圖像示例

    • ImageNet:一個大型的分級圖像數據庫 :ImageNet數據集也為深度學習的興起做了相當大的貢獻。它也是深度學習領域被引量最高的論文之一,有著大約15050次引用(因為它於2009年發表,所以我決定將它列為榮譽獎)。該數據集是使用Amazon Mechanical Turk將分類任務外包給工人來構建的,這也使得這個天文級別的數據集成為可能。ImageNet大型視覺識別挑戰賽(ILSVRC,ImageNet Large Scale Visual Recognition Challenge)是以ImageNet數據庫為對象的圖像分類算法競賽,同時它也推動了計算機視覺領域其他許多創新的發展。
    • 靈活、高性能的卷積神經網絡用於圖像分類 :這篇論文早於AlexNet發表並與AlexNet有著許多共同點:這兩篇論文都利用GPU加速訓練神經網絡,都利用ReLU激活函數來解決梯度消失問題。一些人認為這篇文章被冷落是很不公正的,它的被引量遠少於AlexNet。
    深度學習十年發展回顧:里程碑論文彙編

    LeNet 結構


    • 梯度學習在文檔識別中的應用:發表於1998年,有著23110被引量,是將卷積神經網絡用於圖像識別的先驅。事實上,當下的卷積神經網絡幾乎完全是該早期工作的放大版。甚至於更早的論文,如LeCun在1989年發表的《Backpropagation Applied to Handwritten Zip Codes》可以說是第一例梯度下降的卷積神經網絡。
    • 2013
      單詞和短語的分佈式表示及其組合性(16923次引用)
      本文(以及同一作者之前的論文《Efficient Estimation of Word Representations in Vector Space》)介紹了word2vec,現在它已然成為深度學習的NLP模型中文本編碼的主要方法。它基於出現在相似上下文中的單詞可能具有相似的含義這一思想,而將單詞嵌入向量中,從而應用於其他模型。Word2vec訓練了這樣一個網絡,可以用來預測一個給定單詞的上下文,然後提取出網絡中潛在的向量。

    著名文章對其的引用:

    GloVe: 單詞表示的全局向量

    :GloVe的核心思想與word2vec相同,是其改進版本,但是實現方式略有不同。關於這兩個模型哪一個更好,人們至今沒有定論。

    利用深度強化學習翫Atari(3251次引用)

    深度學習十年發展回顧:里程碑論文彙編

    DeepMind的Atari DQN的研究結果開啟了深度強化學習領域的大門。強化學習之前常用在諸如網格世界之類的低維環境,很難在複雜環境中有所應用。Atari是強化學習在高緯度環境下的第一例成功應用,這使得強化學習從籍籍無名而轉身稱為AI領域的香餑餑。

    本文特別使用了深度Q學習,這是一種基於價值的強化學習方式。基於價值就是說目標是通過遵循由Q值函數隱式定義的策略來了解在每種狀態下獲得的獎勵的期望值。本文所使用的策略是

    —它根據Q函數及概率

    的估計結果而採取最貪婪(即得分最高)的行動。這樣也是為了探索整個狀態空間。訓練Q值函數的目標是從貝爾曼方程(Bellman equation)推導出來的,它將Q值分解為當前獎勵值與加權後的下一期的最大Q值之和

    深度學習十年發展回顧:里程碑論文彙編

    從而可以實現參數的自更新。這種基於當前值和未來價值函數之和來更新價值函數的方式通常被稱為時差學習(Temporal Difference Learning)。

    著名文章對其的引用:

  • Learning from Delayed Rewards:Christopher Watkins發表於1989年的博士畢業論文介紹了Q學習。
  • 2014生成對抗網絡(被引用13917次)

    深度學習十年發展回顧:里程碑論文彙編

    因其絕妙的可視化功能,生成對抗網絡怎麼稱其成功也不為過。依託於生成器(Generator)和鑑別器(Discriminator)之間的極大極小博弈,GANs能夠對複雜、多維度分佈進行建模,其對象通常是圖片。生成器的目標就是最小化鑑別器正確甄別錯誤樣本的對數概率,也即log(1 – D(G(\bold)))log(1−D(G(z))) ;而鑑別器的目標則是最大化對於正確和錯誤樣本的分類誤差,也即log D(x) + log(1 – D(G(\bold)))logD(x)+log(1−D(G(z))) 。
    “極大極小博弈中對生成器的投入對於理論研究十分有益,但在實際操作中用處不大——Goodfellow, 2016”
    實際應用中,生成器常被訓練用作最大化鑑別器判別出錯的對數概率,即D(G(\bold))D(G(z)) , (相關閱讀:NIPS2016指南:生成對抗網絡,章節3.2.3)。這一小小的改變減小了梯度飽和(gradient saturating)且提高了模型訓練的穩定性。


    著名文章對其的引用

    Wassertein GAN及改進的Wassertein GAN:原版生成對抗網絡(Vanilla GANs)存在種種問題,特別是訓練的穩定性問題。即使經過輕微調整,原版GANs也常常訓練失敗,或者出現模式崩潰(也即,生成器生成只生成幾張圖片)的情況。調整梯度的Wassertein GAN提高了訓練穩定性,因此也成為如今事實上默認使用GAN。原版GANs使用Jensen-Shannon距離法,導致分佈之間因不正常的梯度飽和幾乎不相交;WGAN與之不同,採用的是Earth Mover距離法。WGAN原稿論文通過限制權重的方式,強加了一個要求梯度小於任何一個常量的Lipschitz連續性限制,從而通過調整梯度的方式改善了一些存在的問題。

    深度學習十年發展回顧:里程碑論文彙編


    StyleGAN:StyleGAN能夠生成令人驚歎的、幾乎無法區分於真實圖片的高清圖片。生成如此高清圖片的GANs之中所運用的最重要的技術就是漸進地增大圖片大小,而StyleGAN內置了這項技術。StyleGAN還能修改不同大小規模的圖片的隱空間,從而只對生成圖片的特定細節進行操作。

    通過聯合學習對齊和翻譯的神經機器翻譯(被引用9882次)

    深度學習十年發展回顧:里程碑論文彙編


    這篇文章引入了attention的概念,即,我們可以不選擇壓縮信息進一個RNN的隱空間裡,而是在內存中保留全部的內容,通過“\mathcal(nm)O(nm)”這一操作,使輸出的所有要素處理輸入的所有要素。即使attention要求遞增二階收斂,它依然比固定狀態的RNNs表現更優秀,不僅在類似於翻譯和語言建模的文本處理領域不可或缺,其身影也穿梭在與之相去甚遠的GANs領域的模型中。

    Adam:隨機優化的一個方法(被引用34082次)Adam因其易於微調在自適應優化中被廣泛運用,它基於為每個參數適配單獨的學習率的理念。雖然最新的一些文章對Adam的表現提出了質疑,但它依然是深度學習領域中最為流行的優化算法。著名文章對其的引用:

    • 無耦合權重衰減正則化:這篇文章聲稱發現了在通常實施中使用帶權重衰減的Adam運用的一個錯誤,並提出替代方案AdamW優化來解決上述問題。
    • RMSProp:另一個流行的自適應優化方法(特別是RNNs領域,雖然這個方法與Adam相比究竟孰優孰劣還在爭論中)。RMSProp因其可能是機器學習領域的課程ppt中被引用最多而“臭名昭著”。

    2015針對圖像識別的深度殘差學習(被引用34635次)

    深度學習十年發展回顧:里程碑論文彙編

    最初被設計為解決深度CNNs中的坡度消失/爆炸問題而產生的殘差塊(residual block),如今已成為幾乎所有CNNs的構建基石。概念其實非常簡單:在每個卷積層塊前的輸入加進輸出中。殘差網絡的靈感源自於神經網絡理論上不應以更多層來降維,因為最壞的情況下,多餘的層會被粗暴地設為恆等映射(identity mapping)。然而實際操作中,更深度網絡訓練中常遇到各種困難;殘差網絡使各層更容易學習恆等映射,同時減少了梯度消失的問題。雖然方法十分簡單,但從效果上看,特別是在更深度網絡中,殘差網絡比常規CNNs出色得多。
    著名文章對其的引用:

    深度學習十年發展回顧:里程碑論文彙編

    許多不同CNNs之間的對比

    (其它許多更復雜得CNN基礎理論文章也非常優秀,這裡只列舉了一小部分歷史上重要的網絡理論)

    高速網絡:殘差網絡是早期高速網絡的一個特例。早期的高速網絡通過一個類似但更復雜的封閉式設計,來在更深度網絡中處理梯度。

    深度學習十年發展回顧:里程碑論文彙編

  • 更深度的卷積:Inception模塊理論源於把卷積化為因子來減少參數數量,以及減少激活次數。它能容下更深度的層嵌套,對這篇文章中提到的GoogleNet十分有益;文中的GoogleNet後來改名為SOTA網絡(ILSVRC2014)。之後的許多再次介紹Inception模塊的文章也相繼發表了,Inception模塊最終以Inception版本4嵌入於ResNets中,詳情參考:Inception-ResNet及殘差關係在機器學習上的影響。
    • 針對大比例圖像識別的超深度卷積網絡:這是又一個在CNNs歷史上非常重要的作品,這篇文章引入了VGG網絡的概念。這篇文章的重大意義在於,它探索了只使用3*3卷積的可能性,而不是像其它大部分網絡中更大的卷積,因而大幅降低了參數數量。
  • 神經常微分方程:神經常微分方程這篇文章曾獲2018年NIPS最佳論文獎,劃分開了殘差和微分方程。其核心觀點就是講殘差網絡視作連續轉換的一個離散化,從而可定義殘差網絡為一個常微分方程的參數設定,也就可以用現成的求解器來求解。
  • Batch正則化:通過內部變量轉化加速深度網絡訓練(被引用14384次)

    Batch正則化是如今幾乎所有神經網絡的又一支柱。Batch正則基於另一個簡單而強有效的概念:訓練中保留均值和方差數據,運用它們將原分佈正則化至均值為0和方差為1。Batch正則化有效的確切原因仍存疑,但它們在實操中的有效性卻母庸置疑。著名文章的引用:

    深度學習十年發展回顧:里程碑論文彙編

    不同正則化手段的可視化

    • 層正則化
      實例正則化,以及群正則化:許多其它基於不同方法加總數據的可選方法如雨後春筍般出現,分別是同批處理,批處理和通道,或者批處理和多通道。這些技術在不希望同批處理和/或通道中的不同樣本互相干擾的時候十分有效,關於這點最好的例子就是GANs中的應用。

    2016
    運用深度神經網絡和樹形搜索精通圍棋(被引用6310次)

    深度學習十年發展回顧:里程碑論文彙編

    有監督學習和強化學習傳遞途徑;策略/價值網絡架構

    在深藍打敗Kasparov後,AI社區向圍棋屆稱霸進軍。相對國際象棋,圍棋有更廣闊的遊戲陣地,也更依賴於人類玩家的直覺。在AlphaGo之前類似於Crazy Stone和Zen等最優秀的圍棋AI系統,基本都是帶有許多手工探索引導樹形搜索的蒙特卡洛樹形搜索組合。從這些AI系統的進展來看,打敗最優秀的圍棋選手還需要很多年。雖說之前已有將深度學習應用於圍棋的嘗試,還沒有哪個AI系統達到了AlphaGo的成就,而AlphaGo也用巨型算力集成了不少這些嘗試中的技術成果。具體來說,AlphaGo包含一個策略網絡和一個價值網絡,分別可以縮小樹形搜索,和對樹形搜索舍項。這些網絡最開始由標準有監督學習訓練,之後再接受強化機器學習。在以上列舉的進展中,AlphaGo的AlphaGo對Lee Sedol比賽,大概對公眾思想影響最為深刻,受眾約由1億人口,尤其是在圍棋十分流行的中日韓三國。這場比賽和之後的AlphaGo Zero對戰甚至對人類的圍棋策略都產生了影響。舉個例子,AlphaGo在第2場比賽37手下的棋非常反傳統,驚異到了許多分析者。這一手後來成為AlphaGo戰勝的至關重要的一步。著名論文對其的引用:

    不用人類經驗而精通圍棋:這篇介紹AlphaGo Zero的文章,移除了受監督學習過程,通過對戰自己來訓練策略和價值網絡。雖然未受人類圍棋策略的影響,AlphaGo Zero卻能自己走出許多人類圍棋手的策略,此外還能獨創自己更優的圍棋策略;這些策略甚至與傳統圍棋思路中的假定是相悖的。

    2017

    注意力機制即你所需(5059次引用)

    深度學習十年發展回顧:里程碑論文彙編

    轉換器架構是利用注意力機制的一個例證,已經發展成為幾乎今天所有最先進的自然語言處理模型的基礎。轉換器模型擊敗RNNs,很大程度上是由於它在巨型網絡中的計算優勢。在RNNs中,梯度需要在整個“展開”的圖形中傳播, 這使得內存訪問成為很大瓶頸。這也惡化了梯度消失/爆炸(exploding/vanishing gradients)問題,從而需要更復雜(計算成本更高)的LSTM和GRU模型。相反,轉換器模型對高度平行處理進行了優化。計算成本最高的部分位於注意層(能平行使用)之後的前饋網絡和注意層本身(巨大的矩陣乘法表,易於優化)。

    使用增強學習的神經架構搜索(引用1186次)

    深度學習十年發展回顧:里程碑論文彙編

    神經架構搜索(NAS)已成為網絡性能壓縮領域的普遍做法。NAS能實現架構設計自動化,而非令人痛苦的人工設計。在這篇論文中,利用RL訓練一個控制器網絡,從而生產性能網絡架構,而這個架構能創建許多SOTA網絡。相反,其他方法,例如Regularized Evolution for Image Classifier Architecture Search (AmoebaNet),使用了演化算法。

    2018

    BERT:語言理解的深度雙向轉換器的預訓練

    深度學習十年發展回顧:里程碑論文彙編

    BERT與GPT、ELMo的比較

    BERT是一種雙向語境文本嵌入模型。與word2vec相似,它的基礎是給每個單詞(or, rather, sub-word token)賦予一個向量。但BERT裡的這些向量是語境化的,能正確區別同形異義詞。另外,BERT是深度雙向的,每層中的每個潛在向量依賴於前一層中的所有潛在向量,這是與GPT(僅包含前向)和ELMo(包括了獨立的前向和後向語言模型,兩者到最後才結合)等早期工作不同之處。如在類似GPT的單向語言模型中,訓練模型在每個時間步驟(time step)去預測下一個標記(token),這種模型行得通是因為每個時間步驟的狀態僅依賴於上一個狀態。(在ELMo中,前向和後向模型用這種方法獨立訓練,共同優化。)但在深度雙向網絡中,步驟tt 和層LL的狀態S^L_tStL 必須依賴於所有 S^{L-1}_{t’}St′L−1的狀態, 而這些狀態中的任意一個反過來依賴於S^{L-2}_{t}StL−2的狀態,從而使得網絡能欺騙語言模型。為了解決這個問題,BERT運用重構任務去恢復隱藏標記(masked tokens),而網絡看不到這些隱藏標記。著名文章對其的引用:自BERT發表以來,其他基於轉換器的語言模型層出不窮。由於這些模型較為相似,我僅列舉其中一些。當然,這個領域發展迅猛,無法做到全面;而且,很多論文還有待時間驗證,哪些論文影響最大尚難定論。

    • 深度語境化詞語表徵:即前文提到的ELMo論文。ELMo是不是首個語境文本嵌入模型(contextual text embedding model)存在爭議,但在實踐中BERT更為流行。
    深度學習十年發展回顧:里程碑論文彙編

  • 使用生成式預訓練提高語言理解力:即前文OpenAI發表的GPT論文。這篇文章深入研究了在多個不同類型問題中,使用相同預訓練參數(僅簡單微調)在下游任務中進行訓練的想法。考慮到從頭訓練現代語言模型的高昂代價,這個方法非常具有說服力。
    • 語言模型是無監督多任務學習者:GPT2,OpenAI的GPT模型後繼者,很大程度上是GPT的擴展版本。它具有更多參數(高達15億個),更多訓練數據,更好的跨國測試困惑度。它的跨數據集泛化水平令人印象深刻,為超大網絡泛化能力提供了進一步證據。但是,它的聲望來自於強大的文本生成能力。我對文本生成有更深入的討論,希望它有趣。GPT2的發佈策略招致了一些批評,據稱該策略的設計目的是為了最大化炒作。
    • Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context:基於轉換器的模型有固定的注意力長度,阻礙了對長文本語境的關注。通過關注來自於上一個注意力範圍內的某些語境文本(為了計算可行沒有傳播梯度),來實現更長的有效注意力範圍,Transformer-XL試圖採用這種方式來解決這些問題。
    • XLNet:語言理解的廣義自迴歸預訓練方法:XLNet以多種方式解決了BERT面臨的“欺騙”難題。XLNet是單向的,但是利用轉換器對輸入順序的內在不變性,令牌能按任意順序變換。這使得網絡能有效地雙向工作,同時保持單向性的計算優勢。XLNet也集成了Transformer-XL思想。
    • 具有子詞單元的罕見詞的神經機器翻譯:更好的標記技術被認為是最近興起的語言模型的核心內容。通過分段標記所有單詞,這些技術消除了未登錄詞標記的可能性。

    2019

    深度雙波谷:更大的模型和更多的數據傷害了誰


    深度學習十年發展回顧:里程碑論文彙編

    這篇文章所探討的深度雙波谷( (Deep) Double Descent)現象與經典機器學習和現代深度學習的流行觀點背道而馳。在經典機器學習中,模型複雜性伴隨著偏差-方差權衡。模型太弱,則不能充分捕捉數據結構,而模型太強,則會導致過擬合,涵蓋了無法泛化的虛假模式。正因為如此,在經典機器學習中,隨著模型變大,測試誤差預期會下降,而一旦模型開始過擬合,那麼測試誤差又開始增加。實踐中,在深度學習中,模型通常過度參數化,但看上去對較大模型的測試性能有所改進。這種衝突是隱藏在深度雙波谷( (deep) double descent)背後的動機。深度雙波谷擴展了Belkin 等人Double Descent論文, 通過實證證明了Double Descent對更廣泛類型的深度學習模型的效果,以及它對模型大小、訓練時間和數據集大小的適用性。如果考慮了更多的函數類,這些函數類包含更多與數據適配的候選預測因子,我們可以發現具有更小范式因而也更簡單的插值函數。因此,增加函數類容量將改進分類器的性能。當模型容量接近於“插值閾值(interpolation threshold)”,即經典機器學習和深度學習的分界線,梯度下降法可能會發現接近於零誤差的模型,很可能導致過擬合。但是,當模型容量進一步提高,可實現零訓練誤差的不同模型的數量增加,一些模型平滑擬合數據(也就是,不發生過擬合)的可能性增加。Double Descent假設,梯度下降法更可能發現這些更平滑的零訓練誤差網絡,儘管這些網絡過度參數化,但泛化性確很好。

    彩票假說:發現稀疏可訓練的神經網絡

    另一篇關於深度神經網絡訓練特徵的論文就是彩票假說論文。彩票假說認為,網絡性能大部分來自於某些幸運初始化的特定子網絡(也就是說,“彩票”,特指這些子網絡),而且更大的網絡彩票發生的概率更高,因而性能也更好。這不僅允許我們剪除不相關的權重(文獻中已很好地論證),而且還允許我們僅使用“彩票權重”重新訓練,令人驚訝的是,這種方式結果與原始結果較為接近。任何密集、隨機初始化的神經網絡都包含一個子網絡。這個子網絡能通過初始化,使得隔離訓練時,該子網絡在經過不多於原密集網絡學習迭代次數的前提下達到與原網絡相當的訓練效果。

    結論與未來展望

    過去的十年由深度學習革命(梯度網絡的復興)的肇始而驅動,標誌著人工智能歷史上一個令人難以置信的快速發展和創新時期。很大程度上得益於可用算力的不斷提高,神經網絡規模變得越來越大,能力也越來越強,在全球範圍內從計算機視覺到自然語言處理,全面代替了傳統的人工智能技術。但神經網絡也有缺點:他們需要海量數據進行訓練、失敗模式無法解釋、無法實現超越個體任務的泛化。由於人工智能領域的巨大進步,深度學習在提高人工智能方面的侷限性已經開始顯現,人們的注意力開始轉向對深度學習的更深入理解。在未來十年裡,人們可能會越來越瞭解今天所觀察到的神經網絡的許多經驗特徵。就我個人而言,我對人工智能的前景持樂觀態度;深度學習是人工智能工具箱中非常寶貴的工具,它讓我們對智能的理解又近了一步。向成果豐碩的21世紀20年代致敬!相關報道:

    https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/


    分享到:


    相關文章: