2020 年了,深度學習接下來到底該怎麼走?

2020 年了,深度學習接下來到底該怎麼走?

作者 | Ajit Rajasekharan

編譯 | 亞希伯恩•菲

編輯 | 叢末在過去的一年,深度學習技術在各個領域一如既往地取得了不少進展。然而當前深度學習技術(本文中稱為深度學習1.0)仍然存在著一些明顯的侷限,例如在解決有意識任務方面的不足。那麼針對這些侷限性,在未來的一年,有哪些可能的解決方案?深度學習又會在哪些方面帶來有希望的突破?

機器學習資深從業者 Ajit Rajasekharan 在本文中彙集了深度學習領域各路大佬的想法,並分享了他本人的一些思考。

2020 年了,深度学习接下来到底该怎么走?

這幅圖總結了最近Yoshua Bengio,Yann LeCun和Leon Bottou 教授在NeurIPS 2019上的演講

儘管深度學習模型在2019年繼續不斷刷新記錄,在一系列任務,尤其是自然語言處理任務上取得了當前最優的結果,2019年不僅是對“深度學習1.0之後又是什麼?”這一問題的測驗跨入公眾視野的一年,也是學術界對此問題的研究加快步伐的一年。

一、深度學習1.0 的侷限性

深度學習1.0(如上圖,Bengio教授將其稱為“深度學習系統 1”)已經成功地解決了人們可以在直觀上(通常以快速無意識、非語言的方式)解決的任務,比方說,直覺感覺到遊戲中採取一種特定的行動是好的,或者感知到一張圖片中有一隻狗,這些我們可以在不到一秒鐘的時間內快速完成任務以及我們慣常解決的任務,都屬於此類。

DL 1.0 模型在某些任務的基準測試中具有超越人類的性能,但即使在這些任務中,也存在一些已知的缺陷:

1、與人類相比,DL 1.0 模型需要大量的訓練數據或時間。例如,一個模型須經過等效於200年的實時訓練,才能掌握策略遊戲StarCraft II。而人類則可以在平均20小時內學會駕駛且不易發生事故。

目前為止,儘管消耗比人類多幾個數量級的訓練數據和時長,我們還沒有訓練出可以完全自動駕駛的汽車。而且對於很多任務,模型還需要從人類標記的數據中學習概念。

2020 年了,深度学习接下来到底该怎么走?

圖片來自Yann Lecun最近的演講《基於能量的自監督學習》。在某些遊戲中需要大量增加模型訓練時間才能達到或超過專業人類玩家的水平。

2、DL 1.0 模型會犯人類通常不會犯的錯誤。例如,更改圖像的少量像素(我們的眼睛甚至不會注意到)可能導致模型的分類錯誤。例如人站在電話旁,可能使模型誤認為該人正在打電話。

這些錯誤似乎源於多種原因:(1)模型在某些情況下做出了虛假關聯;(2)輸入數據存在偏差,導致模型輸出受到汙染;(3)模型對分佈變化的魯棒性不足,在某些情況下,無法處理訓練分佈中的罕見情況。

2020 年了,深度学习接下来到底该怎么走?

DL 1.0模型會犯的不同類型錯誤。(a)在左上方的圖中,人類甚至無法察覺的噪聲注入會導致模型分類錯誤。來自2015年論文的對抗樣本圖片。(b)右圖中的錯誤則是因為模型大部分時間都暴露在電話亭附近的人類撥打電話的場景下,這是由於訓練數據集的選擇偏見所致。圖片源自Leon Bottou在2019年10月關於“用因果不變性學習表示”的演講(c)經常觀察到的一類錯誤是模型無法將訓練數據分佈泛化到此分佈外數據,比方說,訓練分佈中的罕見事件。下面的圖是黑天鵝效應的一個具體例子:不太可能發生,但一旦發生則會造成嚴重後果,比如一輛自動駕駛汽車,暴露於(儘管從訓練數據分佈的角度來看不太可能發生的)罕見事件中。圖片源自 Yoshua Bengio在 NeurIPS 2019 上的演講

二、如何實現接近人類水平的 AI ?

答案是目前尚不清楚。具體來說這個問題應該是:我們如何解決 DL 1.0 模型現有的侷限性,並克服有意識任務的解決?

一種有前景的方法是從人類中汲取靈感,因為人類除了在解決無意識任務中沒有 DL 1.0 的侷限性(樣本效率低下,無法泛化到數據分佈以外)之外,還擅長於解決有意識的任務(系統 2 的任務),例如邏輯推理、規劃等任務。

下面列出一些有可能將深度學習研究帶入“深度學習2.0”(有意識的任務解決)的研究方向(這些合理的方法、假設和先驗中,一些已在早期的小規模實現中成為現實):

  1. 自監督學習:

    通過預測輸入進行學習

  2. 利用分佈式表示的組合能力

  3. 去掉IID(獨立同分布)隨機變量假設

  4. 兩種自監督表示學習方法

  5. 注意力機制的作用

  6. 多時間尺度的終身學習

  7. 架構先驗

下面就這些研究方向進行詳細介紹,揭示其本質,並說明它們在克服上述 DL 1.0 缺陷的同時,也極可能是通往有意識的任務解決方案(DL 2.0)之路。

1、自監督學習:通過預測輸入進行學習

自監督學習本質上是通過輸入數據的一部分對輸入數據的其他部分進行預測來學習。這些預測可能是對輸入數據序列(時間或空間)下一個元素的預測,或者是對序列中缺失值的預測。輸入數據的類型可以是一種或多種(圖像,音頻,文本等)。自監督學習通過重構輸入的缺失部分進行學習。

我們通過自監督學習學得大部分的內容。幾年前,Geoffrey Hinton在一封信裡就預測到了這一點:他那時將通過重構輸入數據來監督自己的學習稱為無監督,我們現在為清晰起見稱其為“自監督”。

2020 年了,深度学习接下来到底该怎么走?

大腦大約有1014個突觸,而我們僅能存活109秒。這啟發了人類肯定需要大量無監督學習的想法。因為感官輸入是我們能獲得每秒105維度約束的唯一處所。

用於自監督學習的傳感器數據流的價值,除了其絕對數量(就每秒訓練數據量而言)上的價值之外,還有:

  • 它提供了更多的反饋數據(由於重構類型不同,反饋即使不是關於全部輸入數據,也是關於輸入數據的一部分),而典型的監督學習(反饋是類別值或對每個輸入的幾個數字)或強化學習(反饋是對模型預測的標量獎勵)的反饋數據較少。

  • 來自環境的傳感器數據流是非平穩的。這會迫使學習器,更具體地是嵌入在學習器中的編碼器,去學習對象的穩定表示以及在不斷變化的環境中基本不變的概念。環境固有的非平穩性也為學習變化的原因提供了機會。分佈外泛化(預測事件未在訓練分佈中出現)和因果關係習得對於學習器做出生存必需的預測至關重要。本質上,環境的非平穩性通過不斷評估和完善概念的表示和概念之間的因果關係為持續學習提供了機會。

  • 傳感器流包括在學習中起關鍵作用的智能體(包括學習器在內)。智能體是環境的組成部分,並通過干預來改變環境。在 DL 1.0 中,僅將智能體納入強化學習中。DL 2.0 模型要實現其目標,將智能體納入自監督學習中可能是重要的一步。即使是被動的學習者(例如新生兒),在剛出生的幾個月裡,也主要通過觀察環境中其他主體的交互作用來學習。

2020 年了,深度学习接下来到底该怎么走?

圖片來自Yann LeCun最近的演講。新生兒童可以用直覺來學習物理知識。例如,9個月左右的嬰兒,即使在我們不去教他們什麼是重力的情況下,可以通過觀察周圍的世界瞭解重力。我們通過一個簡單的實驗知道嬰兒是否能直觀地理解重力,實驗將一個汽車從桌子上推下,但汽車不會掉落(有看不見的細線牽著車子)的現象不會讓一個不到9個月的嬰兒感到驚訝。9個月後的嬰兒則會感到驚訝,因為他們的觀察結果與他們9個月的“內部模型”預測車子會掉落的輸出不符。

  • 學習捕獲因果關係的概念的穩定表示,使學習者能夠在其計算能力之內通過模擬合理的動作序列來預測未來的幾個時間步長的序列,並規劃未來的動作,以趨利避害(例如學開車時避免在下山時衝下懸崖)。

DL 1.0 中的自監督學習

在 DL 1.0自然語言處理(NLP)任務中,自監督學習已被證明非常有用並取得成功(能實現最佳性能)。我們有一些可以通過預測句子的下一個單詞或預測從句子中刪除的單詞來學習單詞表示的模型(如BERT,它在 NLP 界稱為無監督預訓練,但本質上是自監督學習,該模型通過重建輸入的缺失部分來學習)。

但是,DL 1.0語言建模方法僅從文本輸入中學習,而未考慮在其他感官流以及智能體交互的環境中學習(2018年有論文做此嘗試,感興趣可前往 https://arxiv.org/pdf/1810.08272.pdf 閱讀論文)。基於感官環境的語言學習賦予單詞更多的上下文和意義,而不僅僅是單詞在句子中上下文的統計(相對於其他單詞在句子中的位置)。

而目前的語言學習大多被侷限為僅從文本出發進行自監督學習,不僅需要大量的訓練文本,而且將模型對語言的理解僅限於單詞序列的統計屬性,無法與多感官環境學習相匹配。(模型無法僅通過學習單詞序列的統計屬性獲得對空間的理解,比如:獎盃無法放入盒子,因為它太大;獎盃無法放入盒子,因為它太小;需要將“它”對應到正確的對象才能正確理解句子,第一個“它”是指獎盃,第二個“它”則是指盒子。)

迄今為止,自監督學習在圖像,視頻和音頻方面取得的進展不如在文本方面獲得的成功,儘管在圖像補全(修復),利用 GAN的視頻下一幀預測模型等方面取得了一些成果。但是,從有意識的任務解決角度來看,直接在像素,視頻和音頻的輸入空間中進行預測或許不是正確的方法(我們不會在像素級別上有意識地預測電影接下來會發生什麼,我們在對象或概念級別預測)。

儘管不同的感管輸入對於理解世界具有重要作用,但通過感管模態進行的輸入預測或許最好在抽象的表示空間中進行,而不是在原始的輸入空間(視頻,音頻等),而上面已經提到過的語言理解也是需要從多感官理解世界(最後的附加註釋說明了語言的特殊性質及其在DL 2.0調試中的潛在作用)。

2、利用分佈式表示的組合能力

組合性提供了從一組有限的元素中創建更大(指數)組合的能力。

DL 1.0 已通過以下方式利用組合性的指數增長特點:

  • 分佈式表示的每個特徵可以參與所有概念的表示,從而實現指數組合。特徵組成的表示是自動學得的。將分佈式表示可視化為實值(浮點數/雙精度數)向量可使其變得具體。向量可以是稠密的(大多數分量具有非零值)或稀疏的(大多數分量為零,最極端情況是獨熱向量)。

  • DL 模型的每一計算層都可進一步組合,每層的輸出是前一層輸出的組合。DL 1.0模型充分利用了這種組合性來學習具有多個層次的表示(例如,NLP模型學會在不同層中捕獲不同層面上的句法和語義相似性)

  • 語言具有 DL 1.0 尚未完全利用的其他可組合級別。例如,語言能編寫出不可能從訓練分佈中提取的原創句子,也就是說不僅僅是在訓練分佈中出現的概率很小,出現概率甚至可能為零。這是一種比分佈外(OOD)泛化更進一步的系統化泛化。最近的語言模型可以生成連貫的新穎文章,具有很高的獨創性,但模型缺乏對基本概念的理解,特別是當這些文章由諸如工程概念組成時。如前所述,這種缺陷可能在一定程度上是由於缺乏紮實的語言理解,並且可能在DL 2.0中得以克服。

  • 組合性無需僅限於創造新的句子,如下圖所示,它也可以是先前概念的原創性組成(儘管語言在某種程度上可以用於描述任何概念)。

2020 年了,深度学习接下来到底该怎么走?

DL無法像人類一樣出色地用現有數據組成新穎的概念

3、去掉 IID(獨立同分布)隨機變量假設

大多數DL 1.0模型假定無論是來自訓練集還是測試集的數據樣本,都彼此獨立,並從同一分佈中提取(IID假設,即訓練和測試數據集的分佈都可以用同一組分佈參數來描述。)

從非靜態環境中進行自監督學習,智能體與這種環境交互過程中(根據其從不斷變化的環境中學習的本質)需要去掉 IID 假設。

但是,即使是在有監督學習的問題中(例如,自動駕駛汽車對圖像/對象的分類/標識),IID假設也可能會成為負擔,因為始終存在模型在訓練中從未見過的現實生活場景,而且這些場景下分類錯誤可能會造成高昂的成本(在自動駕駛汽車的早期版本中已經有一些實例)。

儘管用大量駕駛時間的數據訓練模型可以減少錯誤,但沒有 IID 假設的學習模型比通過IID假設學得的模型,更有可能更好地處理稀有和分佈外的情況。

放棄IID假設的另一個原因是:“通過對數據進行混洗使訓練和測試數據同質化”的做法在創建訓練模型的數據集時就引入了選擇偏差。

為了實現IID,將從不同來源(包含屬性差異)獲得的數據進行混洗,然後分為訓練集和測試集。這會破壞信息並引入虛假的關聯。例如,考慮將圖像分類為牛或駱駝的例子。母牛的照片全都在綠色的牧場上,而駱駝則在沙漠中。對模型進行訓練後,模型可能無法對沙灘上的母牛圖片進行分類,因為模型引入了虛假的關聯,將綠色景觀分類為母牛,將土色景觀分類為駱駝。

我們可以通過讓模型學習不同環境中的不變特徵來避免這種情況。例如,我們可以在不同綠色比例的牧場上拍攝奶牛的照片,其中一個牧場90%是綠色,另一個牧場80%是綠色。這樣模型就可以學到牧場和奶牛之間存在很強但變化的相關性,因此不能通過牧場來判斷圖片中的動物是不是奶牛。但是,不管母牛本身處於何種環境,模型都應該能夠識別它們。

因此,通過利用不同的分佈來識別不變屬性,而不是將它們全部混在一起,可以防止虛假的關聯性。儘管這只是一個例證,但廣泛利用分佈變化中的信息並學習變化分佈中的不變表示,可能有助於學得魯棒的表示。

順便說一下,與直接確定因果關係變量相比,確定在分佈變化中不變的變量相對容易,因此可以將其用作識別因果關係變量的方法,不過挑戰在於找出那些變化的分佈中不變的變量。

一個自然的問題是,如果我們放棄IID假設,我們如何在變化的環境中準確地學習表示?

4、兩種自監督表示學習方法

自監督表示學習的兩種方法為:

  • 在輸入空間中預測接下來會發生什麼。

  • 在抽象空間中預測接下來會發生什麼。

2020 年了,深度学习接下来到底该怎么走?

兩種自監督學習方法。在左圖中,通過預測輸入空間的缺失部分來進行表示學習。例如,在從視頻流進行自監督學習中,通過使用時間t-1處的圖像幀來預測時間t處的圖像幀。預測器將時間t-1處的幀和潛變量作為輸入來預測時間t處的幀。該模型輸出利用潛變量給出多個預測,然後(在基於能量的模型中)選擇能量最低的預測對(y,y’)。在右圖中,預測發生在學得的表示c和h所在的抽象空間中。訓練目標函數V以特定方式使當前狀態h與過去狀態c匹配,以保持這兩個狀態之間的一致性。該目標函數的實際實現還有待確定,參考部分提供了有關此方法的更多詳細信息。

這兩種方法並不是互斥的,模型也可以同時使用兩種方法學習表示。

1)在輸入空間中預測接下來會發生什麼

這通常是通過一個包含了有關環境所有未知信息(包括智能體和智能體之間交互信息)的潛變量來實現的,通過訓練模型來預測未來,或者等效地使用重構錯誤作為學習表示的方法來重構未來。基於能量的模型是學習此類表示的一種方法。

這種方法把輸入(x)和輸入的預測/重構部分(y)通過一個標量值能量函數映射到能量平面,並使得學得的輸入數據點x和y的表示具有較低的能量。這可以通過兩種途徑來實現:

(1)第一種途徑是降低輸入數據點(x及其預測y)的能量,同時提高所有其他點的能量(例如,在基於能量的GAN中生成器選擇遠離輸入點所在位置的對比數據點)

(2)第二種途徑是(通過網絡結構或某種正則化)將輸入數據點的能量大小限制在較低水平。如前所述,環境中的未知部分通常由一個潛變量(z)反映,通過變化z可以對y進行多個預測,然後選擇具有最低能量的一個預測。

潛變量的信息容量須受到多種方法的限制,例如使潛變量滿足稀疏性要求的正則化,添加噪聲等方法。這些潛變量通常是在訓練期間通過編碼器學得的,該編碼器同時接受輸入(x)和要預測的實際數據(y')。然後,解碼器利用潛變量和x(實際上,是x的變換版本,變換通過某種神經網絡完成)來進行預測。

能量函數作為成本函數,然後將此函數的標量輸出用於訓練模型以學習正確的表示。通過解碼器來進行推斷(實際上,編碼器還可以在下面會講到的終生訓練週期中使用)。Yann LeCun在最近的演講中(https://youtu.be/A7AnCvYDQrU)詳細介紹了這種方法,並展示了這種方法如何使汽車學習在模擬環境中駕駛(訓練數據是現實場景中汽車的行車記錄視頻,模型通過預測在視頻的下一幀中該車與其他車在車道上的位置來學習,成本函數考慮了該車與其他車之間的距離以及該車是否還在原來的車道上)。

這種方法在本質上是將 DL 1.0模型用於重構輸入的自監督學習任務,該任務的反饋信息非常豐富(視頻中的下一個圖像幀,音頻等),而不僅限於標量獎勵(強化學習),或者標籤(有監督學習)。

2)在抽象空間中預測接下來會發生什麼

該方法基於如下假設:環境變化可以由一些因果變量(最終體現為稀疏表示)來解釋,這些因果變量是從高維度表示(類似於DL 1.0中表示的感知空間)中提取的,而高維表示又是通過從環境中的感官輸入學得的。最後用因果變量的稀疏表示預測未來,也就是說,不是在原始輸入空間中進行預測,而是在所學得的稀疏表示與此表示所衍生的感知空間相一致的空間中進行預測。

這類似於我們計劃從工作地點開車回家,是在非常稀疏(低維度)的空間裡進行規劃路線操作,而不是在車輛行駛中實際感官輸入的空間中進行此操作。

相比於從感知流原始輸入空間中預測,從抽象空間中預測即將會發生什麼具有一些潛在的優勢,它不僅可以學得考慮環境變化的輸入流的更好表示(類似於DL 1.0中的表示),而且還可以學習輸入感知流變化的原因。

本質上,針對分佈變化和 OOD 性能訓練這些模型(如參考部分所述,用於學習這些表示的訓練目標函數該如何設計仍然是一個開放的問題)的做法可用作學習良好低維因果表示的訓練信號。同時,可以通過低維表示來解釋環境變化的假設對編碼器施加了學習此類表示的約束(可能還需要其他約束)。

已有一些早期工作使用DL方法來找變量(有向圖)之間的因果關係,該關係可用於在兩個隨機變量A和B的聯合分佈P(A,B)的兩個等效因式分解---P(A)P(B/A) 和P(B)P(A/B)之間進行選擇,以最好地捕獲A和B之間的因果關係。具有正確因果因式分解的模型,例如P(A)P(B/A),即當A是B的原因且A受到一些噪聲干擾時,可以更快地適應分佈變化。( Yoshua Bengio 最近的演講也詳細介紹了這種方法)。

雖然這兩種方法大不相同,但它們具有潛在的聯繫。一個聯繫是兩種方法(即使是不同方式的實現)都有稀疏性約束。另一個聯繫是因子圖和能量函數之間的聯繫。

變量之間(在合適的表示空間中的)的聯合分佈是對世界的粗略近似,可以幫助智能體進行計劃、推理、想象等。因子圖可以通過將聯合分佈劃分為多個隨機變量子集(一個變量可以在多個子集中)的函數來表示聯合分佈。正確的劃分會使能量函數下降,否則,將劃分放入因子圖中將不是一種明智的做法。

5、注意力機制的作用

儘管注意力本質上是一個加權和,但是在以內容驅動的訓練和推理期間權重本身是動態計算時,這種簡單操作的威力顯而易見。

  • 注意力集中在哪裡?

標準前饋神經網絡中任何節點的輸出是該節點的輸入加權和的非線性函數,該節點在訓練時學習權重。相反,注意力機制允許即使在利用輸入內容進行推理時,也動態地計算這些權重。這使得在訓練和推理時連接計算層的靜態權重可以被注意力機制根據內容計算出的動態權重所代替。

Transformer架構(例如BERT)就使用了這種方法。例如,單詞的向量表示是其鄰居的加權和,權重確定每個鄰居在計算單詞的向量表示時的重要性(也就是注意力集中在哪裡),關鍵在於這些權重由依賴句子中的所有單詞的注意頭(BERT模型的每一層中都有多個注意頭)動態算出。

2020 年了,深度学习接下来到底该怎么走?

注意力集中在哪裡? 該圖說明了在各層間具有動態權重邊連接的注意力模型與各層間具有靜態權重邊連接的普通模型(例如標準FFN)在推理時的比較。在左側圖中:節點X的輸出是輸入的加權和,在推理期間,權重w1,w2,w3,w4,w5保持不變,與輸入(A1-A5,B1-B5)無關。在右側圖中:注意力模型中節點X的輸出也是輸入的加權和,但權重本身(在訓練和推理期間)是根據輸入動態計算的。這就使得在輸入(A1-A5,B1-B5)不同時權重也會發生變化,如不同顏色的虛線邊所示。

  • 什麼時候集中注意力?

在機器翻譯中,給定由編碼器計算出的一組隱藏狀態,注意力機制將根據翻譯階段(解碼器隱藏狀態)的不同,在每個時間步中選擇不同數量的隱藏狀態矢量(也即決定什麼時候集中注意力)來產生翻譯,如下圖所示。

2020 年了,深度学习接下来到底该怎么走?

什麼時候集中注意力?該圖源自Jay Alammar關於神經機器翻譯的文章(https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/)。編碼器的輸出是三個隱藏狀態向量,在輸出翻譯文本時,兩個解碼狀態(時間步長4和5)通過注意力機制(A4和A5)選擇了這三個隱藏狀態向量的不同比例求和。

注意力機制在前面所述“在抽象空間中預測”的方法中起著關鍵作用,用於在大量表示(構成無意識空間的表示)中選擇需要注意的方面以幫助有意識的任務解決。因果推理,規劃或尋找最佳解決方案的圖搜索都可以作為時間上的序列處理任務,在每個時間步中,都需要用注意力機制來選擇合適的(源於無意識狀態集的)隱藏狀態子集。

將噪聲注入到圖遍歷的(用到注意力機制的)下一步選擇中,這為解決方案的搜索(類似於 RL 中的蒙特卡洛樹搜索)開闢了需要探索的方向。更重要的是,可以像 DL 1.0 在翻譯任務中所採取的做法,對序列處理任務合適的注意力掩碼(根據感官空間表示的函數動態計算)能通過學習得到。

注意力不僅可用於有意識的任務解決,而且還可以自上而下的方式潛在地影響任務的後續感知。這種自上而下的影響是從大腦中汲取的靈感,大腦新皮層(執行有意識的處理)的每個功能單元(皮質柱)都具有感覺傳入和傳出的連接,這些連接中的一些與運動區域有關。一旦輸入中的某些內容引起我們的注意,這些連接就會有意識地將感知引導到輸入流的特定部分。例如,從新皮層的感覺區域到處理音頻輸入的頭部肌肉都有運動連接,一旦有聲音引起我們的注意,我們的頭部就會轉到異常聲音的發出位置。

2020 年了,深度学习接下来到底该怎么走?

圖源自 Yoshua Bengio演講幻燈片(https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view)。有意識的思想自下而上地選擇無意識狀態中主要的方面,而這又反過來導致注意自上而下地集中在感覺輸入上。

6、多時間尺度的終身學習

多時間尺度的學習和迭代優化促進了 OOD 泛化。例如,智能體可以在不同的環境中學會快速的適應,同時通過較慢的迭代以泛化習得的適應。這種多時間尺度方法是一種學會如何去學習的方式。

DL 1.0的從業者通過人來做“學會如何去學習”部分以達到相同的效果,他們通過失敗案例擴展訓練集,並由人類專家來找到更多此類邊緣案例,然後圍繞這些失敗案例持續地訓練有監督的學習模型,最後將訓練好的模型部署到實際應用。

特斯拉的實踐就是這種方法的一個例子,他們在汽車的更新過程中不斷提高自動駕駛能力。這種緩慢地排除罕見事件的方法能否最終將黑天鵝事件發生的概率降到可以忽略的程度,達到現實中的安全,還有待觀察。

7、架構先驗

“在抽象空間中進行預測”的方法除了依賴於上述注意力機制之外,還可能需要將模型從DL 1.0中對向量處理的機器過渡到對向量集合進行操作的機器,並由動態重組的神經網絡模塊對其進行操作(相關工作 https://arxiv.org/pdf/1909.10893.pdf)。

迄今為止,在輸入空間預測的自監督學習方法似乎不需要新的體系結構,很多現有模型大都可以歸為基於能量的模型(例如BERT等語言模型就是基於能量的模型)。自監督學習則在很大程度上利用了這些現有架構。

三、實現接近人類水平的 AI 的其他方法

1、混合方法

迄今為止,有許多混合方法的實現將DL 1.0與傳統的符號處理和算法結合在一起。這些混合方法使應用程序能夠利用DL 1.0進行部署。因此,混合方法的重要性不可低估。

所有這些混合方法用在決策用例上時,共同點是它們對 DL 1.0 輸出執行進一步的算法處理,通常是將DL 1.0輸出的分佈式表示歸結為符號(圖嵌入除外),此時,組合性(符號不像矢量那樣適於組合,我們只能將它們與更多符號組合在一起,例如像語法樹那樣)以及分佈式表示中固有的相關性就會丟失。

將 DL 的輸出歸結為符號,然後進行 DL 2.0 任務(例如對這些符號進行推理和規劃)的混合方法是否能夠讓我們實現人類水平的AI,還有待觀察。

如今,不少人關於混合方法在實現人類水平AI方面是否具有潛力的爭論,可以歸結為:DL 2.0任務可以僅用符號來完成嗎?抑或是有了DL 1.0的分佈式表示所帶來的好處,DL 2.0任務是否一定需要分佈式表示才可以捕獲相關性?

2、仍然需要從自然智能中獲得更多的先驗知識?

從智能基本計算單元(從硬件的角度)---神經元(儘管人工神經元僅實現很少一部分生物神經元關鍵功能)開始,自然智能已經在許多方面啟發並繼續影響人工智能的發展。深度學習繼續從自然智能中汲取靈感,例如從多層計算(類似於視覺皮層的視覺感知過程)提供的組合性到有意識任務解決的先驗(Yoshua Bengio的論文,https://arxiv.org/pdf/1709.08568.pdf)。

Christos Papadimitriou 在 2019 年發表的論文(https://ccneuro.org/2019/proceedings/0000998.pdf,儘管論文的核心計算原語根源於生物學家實驗驗證的大腦計算方法中,但它可能會被迅速視為另一種關於大腦的計算模型)強調了上述問題的重要性。暫且先不論想法,我們還能從自然智能的實踐中借鑑一些技巧嗎?

以下面概述的機制為例,蒼蠅(通常代表昆蟲嗅覺系統的硬件和功能)如何僅用一個或兩個樣本就學會識別氣味。將這種學習稱為“高樣本效率”是一種輕描淡寫的說法,“在類固醇上學習”可能更合適。

3、蒼蠅是如何學會識別氣味的?

大約有 50個神經元會感覺到氣味,這些神經元隨機投射到2000個神經元上,形成了的隨機二部圖。用向量的術語來說,由50維矢量捕獲的氣味輸入隨機投影到2000維矢量上,然後抑制神經元將其強制變為其中非零值約為10%的稀疏矢量。這2000維稀疏矢量可充當蒼蠅對特定氣味的記憶。

2020 年了,深度学习接下来到底该怎么走?

圖摘自Christos Papidimitriou的演講(https://youtu.be/_sOgIwyjrOA)。上圖表示蒼蠅如何識別氣味的模型。它們能記住只暴露一兩次的氣味,並且能夠將其推廣到它們學到的知識之外,而且它們只有大約50種不同的氣味傳感器(我們大約有500種;小鼠大約有1500種)。

緊隨上限其後的隨機投影(在硬件中實現),似乎是人類也在使用的有關大腦計算的一個非常基本的功能原語(Christos的大腦模型主要基於在此基本計算原語的基礎上構建一些簡單的算法操作)。

隨機投影和上限保留相似性(在某些合適的超參數選擇下)。氣味之間的相似性被捕獲在它們的記憶表示中(突觸權重)。記憶回想喚起了與所學權重有關的激活。蒼蠅有大約50種不同類型的嗅覺傳感器(我們大約有500種,而老鼠有1500種)。將不同氣味映射到捕獲相似性的分佈式表示的能力對於果蠅的生存至關重要。

從本質上講,通過這種簡單的生物網絡,可以實現具有非常高的樣本效率(一次或兩次嘗試就學得一種氣味)和分佈外的學習(將新的氣味映射到現有的氣味上)。

2020 年了,深度学习接下来到底该怎么走?

從Christos Papidimitriou演講摘錄的插圖(https://youtu.be/_sOgIwyjrOA) 說明了隨機投影和上限保留了相似性。大自然似乎找到了最佳的稀疏度,即找到足夠數量的神經元來捕獲語義相似性的同時使活動神經元的數量受到限制,以分離出不同的氣味。

蒼蠅氣味系統設計的一個關鍵方面是表示的稀疏性在信息處理的所有階段強制執行。將此與DL模型進行對比,會發現,DL模型的每個輸入會像改變亮度的活動聖誕樹一樣照亮整個模型。

也許從輸入開始就一直執行稀疏性(類似於隨機投影和上限等操作原語)將權重更新限制在幾個參數上,有助於快速學習。同樣,“一起激發的細胞必定聯繫在一起”的簡單權重更新(學習)規則具有固有的記憶效率,當與隨機投影和上限結合使用時,有助於隨時間增加的泛化。

DL模型中的學習依賴於隨機梯度下降和反向傳——迄今為止DL中學習的基礎。也許我們還將對DL模型的學習效率進行根本性的改進,最終達到超越自監督學習的DL 2.0目標。

四、最後一點思考

在未來有可能出現一種能夠實現接近甚至超越人類水平的人工智能的全新學習方法。假設這種新方法終將出現,則新方法很可能會吸收深度學習的一些核心想法,比如分佈式表示,在正確的語義空間中捕獲相關性(DL 1.0)和因果關係(DL 2.0目標)等等。

via:https://towardsdatascience.com/deep-learning-beyond-2019-8f7e7a67829e


分享到:


相關文章: