AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

2019年3月27日 ——ACM宣佈,深度學習之父Yoshua Bengio, Yann LeCun, 以及Geoffrey Hinton獲得了2018年的圖靈獎,被稱為“計算機領域的諾貝爾獎”。其中Yoshua Bengio是《深度學習》作者之一。

今天,深度學習已經成為了人工智能技術領域最重要的技術之一。在最近數年中,計算機視覺、語音識別、自然語言處理和機器人取得的爆炸性進展都離不開深度學習。

三人在人工智能領域的成就數不勝數,但是ACM依然列數了三位大咖最值得被記住的成就,我們也在此重新回顧他們的故事,簡直就是一部人工智能/深度學習的發家史。

圖靈獎(Turing Award),全稱“A.M. 圖靈獎(A.M Turing Award)” ,由美國計算機協會(ACM)於1966年設立,專門獎勵那些對計算機事業作出重要貢獻的個人 。其名稱取自計算機科學的先驅、英國科學家艾倫·麥席森·圖靈(Alan M. Turing) 。它是計算機界最負盛名、最崇高的一個獎項,有“計算機界的諾貝爾獎”之稱 。

圖靈獎設獎初期為20萬美元,1989年起增到25萬美元,獎金通常由計算機界的一些大企業提供(通過與ACM簽訂協議)。目前圖靈獎由Google公司贊助,獎金為1,000,000美元。

01 三位作者在深度學習領域貢獻

AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

Yoshua Bengio

《深度學習》作者

序列的概率模型:在 20 世紀 90 年代,Bengio 將神經網絡與序列的概率模型相結合,例如隱馬爾可夫模型。這些想法被納入 AT&T / NCR 用於閱讀手寫支票中,被認為是 20 世紀 90 年代神經網絡研究的巔峰之作。現代深度學習語音識別系統也是這些概念的擴展。

高維詞彙嵌入和關注:2000 年,Bengio 撰寫了具有里程碑意義的論文“A Neural Probabilistic Language Model”,它引入了高維詞向量作為詞義的表示。Bengio 的見解對自然語言處理任務產生了巨大而持久的影響,包括語言翻譯、問答和視覺問答。他的團隊還引入了注意力機制,這種機制促使了機器翻譯的突破,並構成了深度學習的序列處理的關鍵組成部分。

生成性對抗網絡:自 2010 年以來,Bengio 關於生成性深度學習的論文,特別是與 Ian Goodfellow 共同開發的生成性對抗網絡(GAN),引發了計算機視覺和計算機圖形學的革命。


AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

Geoffrey Hinton

反向傳播:在 1986 年與 David Rumelhart 和 Ronald Williams 共同撰寫的 “Learning Internal Representations by Error Propagation” 一文中,Hinton 證明了反向傳播算法允許神經網絡發現自己的數據內部表示,這使得使用神經網絡成為可能網絡解決以前被認為超出其範圍的問題。如今,反向傳播算法是大多數神經網絡的標準。

玻爾茲曼機(Boltzmann Machines):1983 年,Hinton 與 Terrence Sejnowski 一起發明了玻爾茲曼機,這是第一個能夠學習不屬於輸入或輸出的神經元內部表示的神經網絡之一。

卷積神經網絡的改進:2012 年,Hinton 和他的學生 Alex Krizhevsky 以及 Ilya Sutskever 通過 Rectified Linear Neurons 和 Dropout Regularization 改進了卷積神經網絡,並在著名的 ImageNet 評測中將對象識別的錯誤率減半,在計算機視覺領域掀起一場革命。


AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

Yann LeCun

卷積神經網絡:在 20 世紀 80 年代,LeCun 研發了卷積神經網絡,現已成為該領域的基本理論基礎。其讓深度學習更有效。在 20 世紀 80 年代後期,多倫多大學和貝爾實驗室工作期間,LeCun 是第一個在手寫數字圖像上訓練卷積神經網絡系統的人。如今,卷積神經網絡是計算機視覺以及語音識別、語音合成、圖像合成和自然語言處理的行業標準。它們用於各種應用,包括自動駕駛、醫學圖像分析、語音激活助手和信息過濾。

改進反向傳播算法:LeCun 提出了一個早期的反向傳播算法 backprop,並根據變分原理對其進行了簡潔的推導。他的工作讓加快了反向傳播算,包括描述兩種加速學習時間的簡單方法。

拓寬神經網絡的視野:LeCun 還將神經網絡作為可以完成更為廣泛任務的計算模型,其早期工作現已成為 AI 的基礎概念。例如,在圖像識別領域,他研究瞭如何在神經網絡中學習分層特徵表示,這個理念現在通常用於許多識別任務中。與 LéonBottou 一起,他還提出了學習系統可以構建為複雜的模塊網絡,其中通過自動區分來執行反向傳播,目前在每個現代深度學習軟件中得到使用。他們還提出了可以操作結構化數據的深度學習架構,例如圖形。

02 《深度學習》講了什麼?

深度學習這個術語自2006 年被正式提出後,在最近10 年得到了巨大發展。它使人工智能 (AI) 產生了革命性的突破,讓我們切實地領略到人工智能給人類生活帶來改變的潛力。2016 年12 月,MIT 出版社出版了Ian Goodfellow、Yoshua Bengio 和Aaron Courville 三位學者撰 寫的《Deep Learning》一書。三位作者一直耕耘於機器學習領域的前沿,引領了深度學習的發展潮流,是深度學習眾多方法的主要貢獻者。該書正應其時,一經出版就風靡全球。


AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!


該書包括3 個部分,第1 部分介紹基本的數學工具和機器學習的概念,它們是深度學習 的預備知識。第2 部分系統深入地講解現今已成熟的深度學習方法和技術。第3 部分討論某 些具有前瞻性的方向和想法,它們被公認為是深度學習未來的研究重點。因此,該書適用於 不同層次的讀者。我本人在閱讀該書時受到啟發良多,大有裨益,並採用該書作為教材在北 京大學講授深度學習課程。

這是一本涵蓋深度學習技術細節的教科書,它告訴我們深度學習集技術、科學與藝術於 一體,牽涉統計、優化、矩陣、算法、編程、分佈式計算等多個領域。書中同時也蘊含了作者 對深度學習的理解和思考,處處閃爍著深刻的思想,耐人回味。第1 章關於深度學習的思想、 歷史發展等論述尤為透徹而精闢。

作者在書中寫到:“人工智能的真正挑戰在於解決那些對人來說很容易執行、但很難形式 化描述的任務,比如識別人們所說的話或圖像中的臉。對於這些問題,我們人類往往可以憑 直覺輕易地解決”。為了應對這些挑戰,他們提出讓計算機從經驗中學習,並根據層次化的概 念體系來理解世界,而每個概念通過與某些相對簡單的概念之間的關係來定義。由此,作者 給出了深度學習的定義:“層次化的概念讓計算機構建較簡單的概念來學習複雜概念。如果繪 製出表示這些概念如何建立在彼此之上的一幅圖,我們將得到一張`深'(層次很多) 的圖。由 此,我們稱這種方法為AI 深度學習(deep learning)”。

《深度學習》中文版從引進版權到正式出版歷經三年,中文版的推出填補了目前國內缺乏深度學習綜合性教科書的空白。該書從淺入深介紹了基礎數學知識、機器學習經驗以及現階段深度學習的理論和發展,它能幫助人工智能技術愛好者和從業人員在三位專家學者的思維帶領下全方位瞭解深度學習。該書一經推出變橫掃暢銷榜。

這是一本教科書,又不只是一本教科書,任何對深度學習感興趣的讀者,閱讀本書都會受益。除了學習機器學習的大學生,沒有機器學習或統計背景的軟件工程師也可以通過本書快速補充相關知識,並在他們的產品或平臺中使用。

本書最大的一個特點是介紹深度學習算法的本質,脫離具體代碼實現給出算法背後的邏輯,不寫代碼的人也完全可以看。本書的另一個特點是,為了方便讀者閱讀,作者特別繪製了本書的內容組織結構圖,指出了全書20章內容之間的相關關係,如圖所示。讀者可以根據自己的背景或需要,隨意挑選閱讀。


AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

圖1 《深度學習》中文版內容組織結構圖。從一章到另一章的箭頭表示前一章是理解後一章的必備內容。


03 《深度學習》的歷史趨勢

通過歷史背景瞭解深度學習是最簡單的方式。這裡我們僅指出深度學習的幾個關鍵趨勢,而不是提供其詳細的歷史:

  • 深度學習有著悠久而豐富的歷史,但隨著許多不同哲學觀點的漸漸消逝,與之對應的名稱也漸漸塵封。
  • 隨著可用的訓練數據量不斷增加,深度學習變得更加有用。
  • 隨著時間的推移,針對深度學習的計算機軟硬件基礎設施都有所改善,深度學習模型的規模也隨之增長。
  • 隨著時間的推移,深度學習已經解決日益複雜的應用,並且精度不斷提高。

神經網絡的眾多名稱和命運變遷

事實上,深度學習的歷史可以追溯到20世紀40年代。深度學習看似是一個全新的領域,只不過因為在目前流行的前幾年它還是相對冷門的,同時也因為它被賦予了許多不同的名稱(其中大部分已經不再使用),最近才成為眾所周知的“深度學習”。這個領域已經更換了很多名稱,它反映了不同的研究人員和不同觀點的影響。

迄今為止深度學習已經經歷了3次發展浪潮:20世紀40年代到60年代,深度學習的雛形出現在

控制論(cybernetics)中;20世紀 80年代到 90年代,深度學習表現為聯結主義(connectionism);直到 2006 年,才真正以深度學習之名復興。圖1給出了定量的展示。

我們今天知道的一些最早的學習算法,旨在模擬生物學習的計算模型,即大腦怎樣學習或為什麼能學習的模型。其結果是深度學習以人工神經網絡(artificial neural network,ANN)之名而淡去。彼時,深度學習模型被認為是受生物大腦(無論人類大腦或其他動物的大腦)所啟發而設計出來的系統。儘管有些機器學習的神經網絡有時被用來理解大腦功能(Hinton and Shallice,1991),但它們一般都沒有設計成生物功能的真實模型。深度學習的神經觀點受兩個主要思想啟發:一個想法是,大腦作為例子證明智能行為是可能的,因此,概念上,建立智能的直接途徑是逆向大腦背後的計算原理,並複製其功能;另一種看法是,理解大腦和人類智能背後的原理也非常有趣,因此機器學習模型除了解決工程應用的能力,如果能讓人類對這些基本的科學問題有進一步的認識,也將會很有用。


AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

圖2 根據Google圖書中短語“控制論”“聯結主義”或“神經網絡”頻率衡量的人工神經網絡研究的歷史

現代術語“深度學習”超越了目前機器學習模型的神經科學觀點。它訴諸於學習多層次組合這一更普遍的原理,這一原理也可以應用於那些並非受神經科學啟發的機器學習框架。

現代深度學習最早的前身是從神經科學的角度出發的簡單線性模型。這些模型設計為使用一組n個輸入x1,…,xn,並將它們與一個輸出y相關聯。這些模型希望學習一組權重w1,…,wn,並計算它們的輸出f(x,w)=x1w1+…+xnwn。如圖1.7所示,第一次神經網絡研究浪潮稱為控制論。

McCulloch-Pitts 神經元(McCulloch and Pitts,1943)是腦功能的早期模型。該線性模型通過檢驗函數 f(x,w)的正負來識別兩種不同類別的輸入。顯然,模型的權重需要正確設置後才能使模型的輸出對應於期望的類別。這些權重可以由操作人員設定。20 世紀 50 年代,感知機(Rosenblatt,1956,1958)成為第一個能根據每個類別的輸入樣本來學習權重的模型。大約在同一時期,

自適應線性單元(adaptive linear element,ADALINE)簡單地返回函數f(x)本身的值來預測一個實數,並且它還可以學習從數據預測這些數。

這些簡單的學習算法大大影響了機器學習的現代景象。用於調節ADALINE權重的訓練算法是被稱為隨機梯度下降(stochastic gradient descent)的一種特例。稍加改進後的隨機梯度下降算法仍然是當今深度學習的主要訓練算法。

基於感知機和 ADALINE中使用的函數 f(x,w)的模型稱為線性模型(linear model)。儘管在許多情況下,這些模型以不同於原始模型的方式進行訓練,但仍是目前最廣泛使用的機器學習模型。

線性模型有很多侷限性。最著名的是,它們無法學習異或(XOR)函數,即f([0,1],w)=1和

f([1,0],w)=1,但f([1,1],w)=0和f([0,0],w)=0。觀察到線性模型這個缺陷的批評者對受生物學啟發的學習普遍地產生了牴觸(Minsky and Papert,1969)。這導致了神經網絡熱潮的第一次大衰退。

現在,神經科學被視為深度學習研究的一個重要靈感來源,但它已不再是該領域的主要指導。

如今神經科學在深度學習研究中的作用被削弱,主要原因是我們根本沒有足夠的關於大腦的信息來作為指導去使用它。要獲得對被大腦實際使用算法的深刻理解,我們需要有能力同時監測(至少是)數千相連神經元的活動。我們不能夠做到這一點,所以我們甚至連大腦最簡單、最深入研究的部分都還遠遠沒有理解(Olshausen and Field,2005)。

神經科學已經給了我們依靠單一深度學習算法解決許多不同任務的理由。神經學家們發現,如果將雪貂的大腦重新連接,使視覺信號傳送到聽覺區域,它們可以學會用大腦的聽覺處理區域去“看”(Von Melchner

et al.,2000)。這暗示著大多數哺乳動物的大腦使用單一的算法就可以解決其大腦可以解決的大部分不同任務。在這個假設之前,機器學習研究是比較分散的,研究人員在不同的社群研究自然語言處理、計算機視覺、運動規劃和語音識別。如今,這些應用社群仍然是獨立的,但是對於深度學習研究團體來說,同時研究許多甚至所有這些應用領域是很常見的。

我們能夠從神經科學得到一些粗略的指南。僅通過計算單元之間的相互作用而變得智能的基本思想是受大腦啟發的。新認知機(Fukushima,1980)受哺乳動物視覺系統的結構啟發,引入了一個處理圖片的強大模型架構,它後來成為了現代卷積網絡的基礎(LeCun et al.,1998c)(參見第 9.10 節)。目前大多數神經網絡是基於一個稱為整流線性單元(rectified linear unit)的神經單元模型。原始認知機(Fukushima,1975)受我們關於大腦功能知識的啟發,引入了一個更復雜的版本。簡化的現代版通過吸收來自不同觀點的思想而形成,Nair and Hinton(2010b)和 Glorot et al.(2011a)援引神經科學作為影響,Jarrett et al.(2009a)援引更多面向工程的影響。雖然神經科學是靈感的重要來源,但它不需要被視為剛性指導。我們知道,真實的神經元計算著與現代整流線性單元非常不同的函數,但更接近真實神經網絡的系統並沒有導致機器學習性能的提升。此外,雖然神經科學已經成功地啟發了一些神經網絡架構,但我們對用於神經科學的生物學習還沒有足夠多的瞭解,因此也就不能為訓練這些架構用的學習算法提供太多的借鑑。

媒體報道經常強調深度學習與大腦的相似性。的確,深度學習研究者比其他機器學習領域(如核方法或貝葉斯統計)的研究者更可能地引用大腦作為影響,但是大家不應該認為深度學習在嘗試模擬大腦。現代深度學習從許多領域獲取靈感,特別是應用數學的基本內容,如線性代數、概率論、信息論和數值優化。儘管一些深度學習的研究人員引用神經科學作為靈感的重要來源,然而其他學者完全不關心神經科學。

值得注意的是,瞭解大腦是如何在算法層面上工作的嘗試確實存在且發展良好。這項嘗試主要被稱為“計算神經科學”,並且是獨立於深度學習的領域。研究人員在兩個領域之間來回研究是很常見的。深度學習領域主要關注如何構建計算機系統,從而成功解決需要智能才能解決的任務,而計算神經科學領域主要關注構建大腦如何真實工作的、比較精確的模型。

20 世紀 80 年代,神經網絡研究的第二次浪潮在很大程度上是伴隨一個被稱為聯結主義(connectionism)或並行分佈處理(parallel distributed processing)潮流而出現的(Rumelhart et al.,1986d;McClelland

et al.,1995)。聯結主義是在認知科學的背景下出現的。認知科學是理解思維的跨學科途徑,即它融合多個不同的分析層次。20世紀80年代初期,大多數認知科學家研究符號推理模型。儘管這很流行,但符號模型很難解釋大腦如何真正使用神經元實現推理功能。聯結主義者開始研究真正基於神經系統實現的認知模型(Touretzky and Minton,1985),其中很多復甦的想法可以追溯到心理學家Donald Hebb在20世紀40年代的工作(Hebb,1949)。

聯結主義的中心思想是,當網絡將大量簡單的計算單元連接在一起時可以實現智能行為。這種見解同樣適用於生物神經系統中的神經元,因為它和計算模型中隱藏單元起著類似的作用。

在20世紀80年代的聯結主義期間形成的幾個關鍵概念在今天的深度學習中仍然是非常重要的。

其中一個概念是分佈式表示(distributed representation)(Hinton et al.,1986)。其思想是:系統的每一個輸入都應該由多個特徵表示,並且每一個特徵都應該參與到多個可能輸入的表示。例如,假設我們有一個能夠識別紅色、綠色或藍色的汽車、卡車和鳥類的視覺系統,表示這些輸入的其中一個方法是將 9個可能的組合:紅卡車、紅汽車、紅鳥、綠卡車等使用單獨的神經元或隱藏單元激活。這需要9個不同的神經元,並且每個神經必須獨立地學習顏色和對象身份的概念。改善這種情況的方法之一是使用分佈式表示,即用3個神經元描述顏色,3個神經元描述對象身份。這僅僅需要6個神經元而不是9個,並且描述紅色的神經元能夠從汽車、卡車和鳥類的圖像中學習紅色,而不僅僅是從一個特定類別的圖像中學習。分佈式表示的概念是本書的核心,我們將在第15章中更加詳細地描述。

聯結主義潮流的另一個重要成就是反向傳播在訓練具有內部表示的深度神經網絡中的成功使用以及反向傳播算法的普及(Rumelhart et al.,1986c;Le Cun,1987)。這個算法雖然曾黯然失色且不再流行,但截至寫書之時,它仍是訓練深度模型的主導方法。

20 世紀 90 年代,研究人員在使用神經網絡進行序列建模的方面取得了重要進展。Hochreiter(1991b)和 Bengio et al.(1994b)指出了對長序列進行建模的一些根本性數學難題,這將在第 10.7 節中描述。Hochreiter 和 Schmidhuber(1997)引入長短期記憶(long shortterm memory,LSTM)網絡來解決這些難題。如今,LSTM在許多序列建模任務中廣泛應用,包括Google的許多自然語言處理任務。

神經網絡研究的第二次浪潮一直持續到20世紀90年代中期。基於神經網絡和其他AI技術的創業公司開始尋求投資,其做法野心勃勃但不切實際。當AI研究不能實現這些不合理的期望時,投資者感到失望。同時,機器學習的其他領域取得了進步。比如,核方法(Boseret al.,1992;Cortes and Vapnik,1995;Schölkopf et al.,1999)和圖模型(Jordan,1998)都在很多重要任務上實現了很好的效果。這兩個因素導致了神經網絡熱潮的第二次衰退,並一直持續到2007年。

在此期間,神經網絡繼續在某些任務上獲得令人印象深刻的表現(Le Cun et al.,1998c;Bengio et al.,2001a)。加拿大高級研究所(CIFAR)通過其神經計算和自適應感知(NCAP)研究計劃幫助維持神經網絡研究。該計劃聯合了分別由Geoffrey Hinton、Yoshua Bengio和Yann Le Cun領導的多倫多大學、蒙特利爾大學和紐約大學的機器學習研究小組。這個多學科的CIFARNCAP研究計劃還包括了神經科學家、人類和計算機視覺專家。

在那個時候,人們普遍認為深度網絡是難以訓練的。現在我們知道,20世紀80年代就存在的算法能工作得非常好,但是直到2006年前後都沒有體現出來。這可能僅僅由於其計算代價太高,而以當時可用的硬件難以進行足夠的實驗。

神經網絡研究的第三次浪潮始於2006年的突破。Geoffrey Hinton表明名為“深度信念網絡”的神經網絡可以使用一種稱為“貪婪逐層預訓練”的策略來有效地訓練(Hinton et al.,2006a),我們將在第15.1節中更詳細地描述。其他CIFAR附屬研究小組很快表明,同樣的策略可以被用來訓練許多其他類型的深度網絡(Bengio and Le Cun,2007a;Ranzato et al.,2007b),並能系統地幫助提高在測試樣例上的泛化能力。神經網絡研究的這一次浪潮普及了“深度學習”這一術語,強調研究者現在有能力訓練以前不可能訓練的比較深的神經網絡,並著力於深度的理論重要性上(Bengioand Le Cun,2007b;Delalleau and Bengio,2011;Pascanu

et al., 2014a; Montufar et al., 2014)。此時,深度神經網絡已經優於與之競爭的基於其他機器學習技術以及手工設計功能的AI系統。在寫這本書的時候,神經網絡的第三次發展浪潮仍在繼續,儘管深度學習的研究重點在這一段時間內發生了巨大變化。第三次浪潮已開始著眼於新的無監督學習技術和深度模型在小數據集的泛化能力,但目前更多的興趣點仍是比較傳統的監督學習算法和深度模型充分利用大型標註數據集的能力。

與日俱增的數據量

人們可能想問,既然人工神經網絡的第一個實驗在20世紀50年代就完成了,但為什麼深度學習直到最近才被認為是關鍵技術?自20世紀90年代以來,深度學習就已經成功用於商業應用,但通常被視為一種只有專家才可以使用的藝術而不是一種技術,這種觀點一直持續到最近。確實,要從一個深度學習算法獲得良好的性能需要一些技巧。幸運的是,隨著訓練數據的增加,所需的技巧正在減少。目前在複雜的任務中達到人類水平的學習算法,與20世紀80年代努力解決玩具問題(toy problem)的學習算法幾乎是一樣的,儘管我們使用這些算法訓練的模型經歷了變革,即簡化了極深架構的訓練。最重要的新進展是,現在我們有了這些算法得以成功訓練所需的資源。圖1.8展示了基準數據集的大小如何隨著時間的推移而顯著增加。這種趨勢是由社會日益數字化驅動的。由於我們的活動越來越多地發生在計算機上,我們做什麼也越來越多地被記錄。由於計算機越來越多地聯網在一起,這些記錄變得更容易集中管理,並更容易將它們整理成適於機器學習應用的數據集。因為統計估計的主要負擔(觀察少量數據以在新數據上泛化)已經減輕,“大數據”時代使機器學習更加容易。截至2016年,一個粗略的經驗法則是,監督深度學習算法在每類給定約5000個標註樣本情況下一般將達到可以接受的性能,當至少有1000萬個標註樣本的數據集用於訓練時,它將達到或超過人類表現。此外,在更小的數據集上獲得成功是一個重要的研究領域,為此我們應特別側重於如何通過無監督或半監督學習充分利用大量的未標註樣本。


AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

圖3 與日俱增的數據量。20世紀初,統計學家使用數百或數千的手動製作的度量來研究數據集(Garson

AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

圖4 MNIST數據集的輸入樣例。“NIST”代表國家標準和技術研究所(National Insti

與日俱增的模型規模

20世紀80年代,神經網絡只能取得相對較小的成功,而現在神經網絡非常成功的另一個重要原因是我們現在擁有的計算資源可以運行更大的模型。聯結主義的主要見解之一是,當動物的許多神經元一起工作時會變得聰明。單獨神經元或小集合的神經元不是特別有用。

生物神經元不是特別稠密地連接在一起。如圖1.10所示,幾十年來,我們的機器學習模型中每個神經元的連接數量已經與哺乳動物的大腦在同一數量級上。


AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

圖5 與日俱增的每個神經元的連接數。最初,人工神經網絡中神經元之間的連接數受限於硬件能力。而現在,神

如圖1.11所示,就神經元的總數目而言,直到最近神經網絡都是驚人的小。自從隱藏單元引入以來,人工神經網絡的規模大約每2.4年擴大一倍。這種增長是由更大內存、更快的計算機和更大的可用數據集驅動的。更大的網絡能夠在更復雜的任務中實現更高的精度。這種趨勢看起來將持續數十年。除非有能力迅速擴展新技術,否則至少要到21世紀50年代,人工神經網絡才能具備與人腦相同數量級的神經元。生物神經元表示的功能可能比目前的人工神經元所表示的更復雜,因此生物神經網絡可能比圖中描繪的甚至要更大。

AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

圖6 與日俱增的神經網絡規模。自從引入隱藏單元,人工神經網絡的規模大約每2.4年翻一倍。生物神經網絡

現在看來,神經元數量比一個水蛭還少的神經網絡不能解決複雜的人工智能問題,這是不足為奇的。即使現在的網絡,從計算系統角度來看它可能相當大,但實際上它比相對原始的脊椎動物(如青蛙)的神經系統還要小。

由於更快的CPU、通用GPU的出現(在第12.1.2節中討論)、更快的網絡連接和更好的分佈式計算的軟件基礎設施,模型規模隨著時間的推移不斷增加是深度學習歷史中最重要的趨勢之一。人們普遍預計這種趨勢將很好地持續到未來。

與日俱增的精度、複雜度和對現實世界的衝擊

20世紀80年代以來,深度學習提供精確識別和預測的能力一直在提高。而且,深度學習持續成功地應用於越來越廣泛的實際問題中。

最早的深度模型被用來識別裁剪緊湊且非常小的圖像中的單個對象(Rumelhart et al.,1986d)。此後,神經網絡可以處理的圖像尺寸逐漸增加。現代對象識別網絡能處理豐富的高分辨率照片,並且不需要在被識別的對象附近進行裁剪(Krizhevsky

et al.,2012b)。類似地,最早的網絡只能識別兩種對象(或在某些情況下,單類對象的存在與否),而這些現代網絡通常能夠識別至少1000個不同類別的對象。對象識別中最大的比賽是每年舉行的Image Net大型視覺識別挑戰(ILSVRC)。深度學習迅速崛起的激動人心的一幕是卷積網絡第一次大幅贏得這一挑戰,它將最高水準的前5錯誤率從26.1%降到15.3%(Krizhevsky et al.,2012b),這意味著該卷積網絡針對每個圖像的可能類別生成一個順序列表,除了15.3%的測試樣本,其他測試樣本的正確類標都出現在此列表中的前5項裡。此後,深度卷積網絡連續地贏得這些比賽,截至寫作本書時,深度學習的最新結果將這個比賽中的前5錯誤率降到了3.6%,如圖1.12所示。

AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!

圖7 日益降低的錯誤率。由於深度網絡達到了在ImageNet大規模視覺識別挑戰中競爭所必需的規模,它

深度學習也對語音識別產生了巨大影響。語音識別在20世紀90年代得到提高後,直到約2000年都停滯不前。深度學習的引入(Dahl et al.,2010;Deng et al.,2010b;Seide et al.,2011;Hinton et al.,2012a)使得語音識別錯誤率陡然下降,有些錯誤率甚至降低了一半。我們將在第12.3節更詳細地探討這個歷史。

深度網絡在行人檢測和圖像分割中也取得了引人注目的成功(Sermanet et al.,2013;Farabet et al.,2013;Couprie et al.,2013),並且在交通標誌分類上取得了超越人類的表現(Ciresan et al.,2012)。

在深度網絡的規模和精度有所提高的同時,它們可以解決的任務也日益複雜。Goodfellow et al.(2014d)表明,神經網絡可以學習輸出描述圖像的整個字符序列,而不是僅僅識別單個對象。此前,人們普遍認為,這種學習需要對序列中的單個元素進行標註(Gulcehre and Bengio,2013)。循環神經網絡,如之前提到的LSTM序列模型,現在用於對序列和其他序列之間的關係進行建模,而不是僅僅固定輸入之間的關係。這種序列到序列的學習似乎引領著另一個應用的顛覆性發展,即機器翻譯(Sutskever

et al.,2014;Bahdanau et al.,2015)。

這種複雜性日益增加的趨勢已將其推向邏輯結論,即神經圖靈機(Graves et al.,2014)的引入,它能學習讀取存儲單元和向存儲單元寫入任意內容。這樣的神經網絡可以從期望行為的樣本中學習簡單的程序。例如,從雜亂和排好序的樣本中學習對一系列數進行排序。這種自我編程技術正處於起步階段,但原則上未來可以適用於幾乎所有的任務。

深度學習的另一個最大的成就是其在強化學習(reinforcement learning)領域的擴展。在強化學習中,一個自主的智能體必須在沒有人類操作者指導的情況下,通過試錯來學習執行任務。DeepMind表明,基於深度學習的強化學習系統能夠學會玩Atari視頻遊戲,並在多種任務中可與人類匹敵(Mnih et al.,2015)。深度學習也顯著改善了機器人強化學習的性能(Finn et al.,2015)。

許多深度學習應用都是高利潤的。現在深度學習被許多頂級的技術公司使用,包括Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA和NEC等。

深度學習的進步也嚴重依賴於軟件基礎架構的進展。軟件庫如Theano(Bergstra et al.,2010a;Bastien et al.,2012a)、PyLearn2(Goodfellow et al.,2013e)、Torch(Collobert et al.,2011b)、Dist Belief(Dean et al.,2012)、Caffe(Jia,2013)、MXNet(Chen et al.,2015)和Tensor-Flow(Abadi et al.,2015)都能支持重要的研究項目或商業產品。

深度學習也為其他科學做出了貢獻。用於對象識別的現代卷積網絡為神經科學家們提供了可以研究的視覺處理模型(DiCarlo,2013)。深度學習也為處理海量數據以及在科學領域做出有效的預測提供了非常有用的工具。它已成功地用於預測分子如何相互作用、從而幫助製藥公司設計新的藥物(Dahl et al.,2014),搜索亞原子粒子(Baldi et al.,2014),以及自動解析用於構建人腦三維圖的顯微鏡圖像(Knowles-Barley et al.,2014)等多個場合。我們期待深度學習未來能夠出現在越來越多的科學領域中。

總之,深度學習是機器學習的一種方法。在過去幾十年的發展中,它大量借鑑了我們關於人腦、統計學和應用數學的知識。近年來,得益於更強大的計算機、更大的數據集和能夠訓練更深網絡的技術,深度學習的普及性和實用性都有了極大的發展。未來幾年,深度學習更是充滿了進一步提高並應用到新領域的挑戰和機遇。


AI聖經《深度學習》作者斬獲2018年圖靈獎,100 萬獎勵!


ISBN:9787115461476

定價:168元


★ “花書”《深度學習》AI聖經!

★ 全球知名專家Ian Goodfellow、Yoshua Bengio和Aaron Courville撰寫。

★ 美亞人工智能和機器學習領域排名第一的經典暢銷書。

★ 深度學習領域奠基性的圖書產品!

★ 全綵印刷。

內容簡介


《深度學習》由全球知名的三位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學習領域奠基性的經典教材。全書的內容包括 3 個部分:第 1 部分介紹基本的數學工具和機器學習的概念,它們是深度學習的預備知識;第 2 部分系統深入地講解現今已成熟的深度學習方法和技術;第 3 部分討論某些具有前瞻性的方向和想法,它們被公認為是深度學習未來的研究重點。

- END -


分享到:


相關文章: