前言
DeepMind 科學家 Sebastian Ruder總結整理了機器學習和自然語言處理領域 10 個影響巨大的有趣研究方向,本文將介紹該10個方向所取得的主要進展,簡要說明我認為這個方向重要的原因,最後對未來的工作進行簡短的展望。
這 10 個方向分別是:
- 通用無監督預訓練(Universal unsupervised pretraining)
- 彩票(Lottery tickets)假設
- 神經正切核(The Neural Tangent Kernel)
- 無監督多語言學習(Unsupervised multilingual learning)
- 更多魯棒的對比基準(More robust benchmarks)
- 機器學習與自然語言處理對科學發展的貢獻(ML and NLP for science)
- 解決自然語言生成問題中的解碼誤差(Fixing decoding errors in NLG)
- 增強預訓練的模型(Augmenting pretrained models)
- 高效且記憶範圍廣的 Transformer(Efficient and long-range Transformers)
- 更加可靠的分析方式(More reliable analysis methods)
通用非監督預訓練
由於 BERT(Devlin et al., 2019)及其變體橫空出世,無監督預訓練在今年的自然語言處理(NLP)領域大放異彩。眾多 BERT 的變體已經在多模態場景下被應用,這些場景主要涉及文本及其相關的圖像、視頻(如下圖所示)。無監督訓練也開始滲透到過去監督學習統治的領域。在生物信息學領域中,Transformer 語言模型的預訓練也開始被應用在蛋白質序列預測上了(Rives et al., 2019)。
在計算機視覺領域,包括 CPC(Hénaff et al., 2019), MoCo(He et al., 2019)和 PIRL(Misra & van der Maaten, 2019)在內的模型,以及為了提升在 ImageNet 數據上的採樣效率與圖像生成效果而提出的強大的生成器模型 BigBiGAN(Donahue & Simonyan, 2019)都利用了自監督學習方法。在語音領域,多層卷積神經網絡(Schneider et al., 2019)和雙向 CPC(Kawakami et al., 2019)學習到的表徵都比最先進的模型表現要好,而且所需的訓練數據也更少。
它為什麼重要?
無監督預訓練使得我們在訓練模型時對已標註數據的需求量大大減少。這使得那些以前數據需求得不到滿足的領域開始有了煥發活力的可能性。
接下來會怎麼發展?
儘管研究人員已經著手研究無監督預訓練,而且已經在一些獨立領域上已經取得了巨大的成功。但如果未來它能夠朝著多模態緊密融合的方向發展,應該還是很有趣的。
最近提出的 BERT 的多模態變體 VideoBERT(Sun et al., 2019)。它可以基於食譜生成視頻的「token」(圖片上半部分),還可以在給定某個視頻「token」時,預測後面不同的時間尺度下的「token」(圖片下半部分)。
彩票假設
如下圖所示,Frankle and Carbin(2019)定義了「中獎彩票」(winning tickets)——也就是在密集的、隨機初始化的前饋網絡中找到的初始化良好的子網絡,獨立訓練這個子網絡應該得到與訓練完整網絡相近的準確率。
雖然最初的剪枝過程只適用於小的視覺任務,但後來的工作 (Frankle et al., 2019) 將剪枝應用於早期的訓練,而不是初始化階段,這使得找到更深的模型的小子網絡成為可能。Yu et al.(2019) 在 NLP 與 RL 的 LSTM 和 Transoformer 模型中也發現了「中獎彩票」。儘管這種中獎的彩票還是很難找到的,但它們似乎可以在數據集和優化器之間轉移 (Morcos et al., 2019)。
為什麼重要?
在神經網絡變得越來越先進的同時,它們的規模也與日俱增,訓練它們並將其用於預測的算力需求也越來越大。能夠穩定地找出達到類似性能的較小的子網絡可以大大減少訓練與推理的算力需求。這可以加速模型迭代,並且為終端設備計算和邊緣計算開啟了新可能。
接下來會怎麼發展?
目前來說,在低資源的場景下,為了產生實際的效益,想要找出「中獎彩票」仍然需要巨大的計算開銷。更加魯棒的 one-shot 剪枝方法對剪枝過程中噪音的敏感度小一些,因此可以在一定程度上緩解這個問題。研究「中獎彩票」的特性也能夠幫助我們更好地理解初始化,瞭解神經網絡訓練的過程。
不同剪枝率下的測試準確率——實線代表中獎彩票,虛線代表隨機採樣得到的子網絡(Frankle & Carbin, 2019)。
神經正切核
估計一般人都很難想到,當神經網絡很寬(更確切地說是無限寬)時,其實是比它窄的時候更好研究的。研究結果表明,在無限寬極限下,神經網絡可以近似為一個帶核的線性模型,該核即為神經正切核(Neural Tangent Kernel,NTK,Jacot et al., 2018)。實際上,這些模型的性能不及深度有限的模型(Novak et al., 2019; Allen-Zhu et al., 2019 ; Bietti & Mairal, 2019 ),這也限制了研究結果在標準方法上的應用。
然而,近期的一些工作(Li et al., 2019; Arora et al., 2019)已經大大降低了神經正切核與標準方法的性能差距(參見 Chip Huyen 關於 NeurIPS 2019 其他相關論文的博文)。
為什麼重要?
NTK 可能是我們所掌握的用於分析神經網絡理論行為最強大的工具。雖然它也有其侷限性(即實用的神經網絡仍然比相應的 NTK 版本的模型性能更好),而且這個領域迄今為止的研究成果都還沒有轉化成實際效益,但它可能幫助我們打開深度學習的黑盒。
下一步該做什麼?
目前看來,NTK 與標準方法的差距主要來源於寬度的不同,未來的工作可能會試著去描述這種差距。這也將幫我們將無限寬度限制的想法放在實踐中。最終,NTK 可能幫助我們理解神經網絡的訓練過程和泛化行為。
帶有 NTK 的線性模型在輸出放縮因子 α 取不同值時的學習過程,圖中的橢圓為 NTK 的可視化結果。
無監督多語言學習
多年來,跨語言表徵主要關注單次級別的研究,詳見總綜述文章「A Survey of Cross-lingual Word Embedding Models」。得益於無監督預訓練的發展,2019 年間湧現出了諸如 multilingual BERT,XLM(Conneau & Lample, 2019)和 XLM- R(Conneau et al., 2019)。儘管這些模型沒有顯式地使用任何跨語言信號,但即使在沒有共享單詞表或進行聯合訓練的情況下(Artetxe et al., 2019; Karthikeyan et al., 2019 ; Wu et al., 2019),它們在不同語言之間的泛化效果也是出奇地好。
「Unsupervised Cross-lingual Representation Learning」對多語言模型進行了概述。這種深度模型也給無監督機器翻譯領域帶來了很多提升(Song et al., 2019; Conneau & Lample, 2019)。該領域在 2018 年也取得了重要的進展,由於統計方法與神經網絡方法更合理的融合而得到了提升。另一個值得高興的發展是我們可以根據現有的英文預訓練表徵構建深度多語言模型(見下圖)。
為什麼重要?
現有的跨語言表徵技術使得除了英語外的其它語言模型可以使用更少的語料進行訓練。而且,如果英文中有充足的標註數據,那這些方法就能讓 zero-shot 遷移成為可能。最終,它們也有可能幫助我們理解不同語言間的關係。
接下來該怎麼發展?
目前這些方法在沒有任何跨語言監督信號的情況下能取得如此好的性能的原因尚不明確。進一步瞭解這些方法的工作機理可能會幫助我們設計出更強大的算法,也有可能揭示出不同語言結構之間的關係。此外,我們不應該只把注意力放在 zero-shot 遷移上,我們還應該考慮從那些幾乎沒有標註數據的目標語言中學習。
Artetxe et al. (2019) 提出的單語言遷移方法的四個步驟。
更魯棒的對比基準
SOTA 中有東西腐朽了——Nie et al. (2019) 對莎士比亞的名言「Something is rotten in the state of Denmark」的改述。
近期,像 HellaSWAG(Zellers et al., 2019)這種新的 NLP 數據集都是為了考驗當前性能最優的模型而創建的。數據集中的示例都是經過人工篩選的,以明確保證留下的數據都是那些目前性能最優的模型無法成功處理的(相關示例見下圖)。這種人為參與的對抗性數據構建工作可以重複多次,例如最近的對比基準 Adversarial NLI(Nie et al., 2019)就使得數據集的創建對於目前的自然語言推斷模型來說更具挑戰性。
為什麼重要?
許多研究者發現,當前的 NLP 模型並沒有學到他們應該學到的東西,只是用一些很簡單的啟發式方法去發現一些數據中很淺層的線索,詳見「NLP's Clever Hans Moment has Arrived」。隨著數據集變得越來越魯棒,我們希望新提出的模型可以被逼著學習到數據中真正深層次的關係。
接下來該怎麼發展?
隨著模型越來越強大,大多數數據集需要不斷改進,否則很快就會過時。我們需要專用的基礎系統和工具來促進這一進程。此外,應該運行合適的對比基線,包括使用不同數據變體的簡單方法和模型(例如使用不完整的輸入),以便數據集的初始版本儘可能魯棒。
上圖為 HellaSWAG 中的一個句子填空多選題,當前性能最優的模型很難回答這個問題。最難的例子在於複雜度需要「剛剛好」,回答中會包含三個背景中的句子和兩個生成的句子(Zellers et al., 2019)。
科學中的機器學習與自然語言處理
將機器學習用於基礎科學問題取得了一些重要的進展。本文作者主要關注的領域是深度神經網絡在蛋白摺疊預測以及多電子薛定諤方程(Pfau et al., 2019)上的應用。從 NLP 的角度來說,值得高興的是,即使是標準模型在融合領域指示後也能得到巨大的進步。在材料科學領域,研究人員完成了一個使用詞嵌入來分析潛在知識的工作(Tshitoyan et al., 2019),從而預測某種材料會不會擁有某種特性(見下圖)。在生物領域,基因、蛋白質等數據都是序列型的,因此 NLP 方法(LSTM,Transformer 等)天生就適合解決這類問題,這些方法已經被應用於蛋白質分類任務中了(Strodthoff et al., 2019; Rives et al., 2019)。
為什麼重要?
科學可以說是機器學習影響最大的應用領域之一。解決方案可能對許多其它的領域產生很大的影響,並且可以幫助解決實際問題。
下一步怎麼做?
從在物理問題中對能量建模(Greydanus et al., 2019 )到求解微分方程(Lample & Charton, 2020),機器學習技術不斷地被應用在新的科學問題中。2020 年,讓我們看看這其中最具影響力的工作是什麼,這將非常有趣!
基於不同時間段文獻的摘要進行訓練獲得詞嵌入,從而預測這些材料在未來會被作為什麼(鐵電體、太陽能光伏、拓撲絕緣體)。
圖片展示了預測中最可能被研究的 50 個材料與所有候選材料的對比 (Tshitoyan et al., 2019 )。
解決自然語言生成(NLG)中的解碼誤差
儘管自然語言生成(natural language generation, NLG)領域的模型越來越強大,但是它們仍然經常生成重複或者毫無意義的話(如下圖所示)。這主要是最大似然訓練造成的。值得慶幸的是,這一點正在被改進,並且其進展是與建模工作是正交的。這類改進大部分都是以新的採樣方式(如原子核採樣,Holtzman et al., 2019)或新的損失函數(Welleck et al., 2019)的形式出現。
另外一個令人驚訝的發現是,好的搜索結果並沒有幫助模型獲得更好的生成結果:當前的模型在一定程度上依賴於不精確的搜索與集束搜索的誤差。相反,在機器翻譯的場景下,精確搜索通常會返回無意義的翻譯結果(Stahlberg & Byrne, 2019)。這個發現表明,搜索和建模方面的進步必須攜手並進。
為什麼重要?
NLG 是 NLP 中的最基本任務之一。在 NLP 和機器學習的研究中,大多數論文都重點關注對模型的改進,而其它部分的發展往往被忽略。對於 NLG 研究者來說,重要的是要提醒我們自己,我們的模型仍然有缺陷,也許可以通過修正搜索或訓練過程來改進輸出。
下一步怎麼做?
儘管 NLG 模型越來越強大,而且有了遷移學習的助力,但是模型的預測結果依然包含了很大程度的認為因素。找出並理解這些人為因素產生的原因是一個很重要的研究方向。
GPT-2 使用集束搜索以及單純的(貪婪)採樣方法產生的結果,藍色部分是重複的,紅色部分則是毫無意義的話。
增強預訓練的模型
2019 年,值得高興的是,我們使預訓練模型的方法擁有了新的能力。有些方法使用知識庫來加強預訓練模型,用以提升模型在實體識別(Liu et al., 2019 )任務上的表現和對事實的回憶(Logan et al., 2019)。還有一些方法通過訪問一些預定義的可執行程序完成簡單的算法推理(Andor et al., 2019)。由於大多數模型都有較弱的歸納偏置,且大部分知識是從數據中學習而來,因此增強預訓練模型的另一個選擇就是增強訓練數據本身(比如獲取常識,Bosselut et al., 2019),如下圖所示。
為什麼重要?
模型正變得越來越強大,但有許多知識是模型無法僅從文本中學習的。特別是在處理更復雜的任務時,可用的數據可能太有限,無法使用事實或常識進行顯式的推理,因此可能需要更強的歸納偏置。
下一步怎麼做?
隨著這些模型被應用於更有挑戰性的問題,越來越有必要對模型進行組合性的修改。在未來,我們可能會結合強大的預訓練模型和可學習的組合程序(Pierrot et al., 2019)。
一個標準的帶有多頭注意力機制的 Transformer。在給定頭實體和關係的情況下,訓練後的模型可以預測知識庫三元組中的尾實體(Bosselut et al., 2019)。
高效且記憶範圍廣的 Transformer
今年 Transformer 架構得到了一些改進(Vaswani et al., 2017 )。這些新的架構(如 Transformer-XL,Dai et al., 2019 與 the Compressive Transformer,Rae et al., 2020 )使其可以獲取長距離依賴。
還有一些方法希望通過使用不同的(通常也很稀疏的)注意力機制(如 adaptively sparse attention, Correia et al., 2019; adaptive attention spans, Sukhbaatar et al., 2019 ; product-key attention, Lample et al., 2019; locality-sensitive hashing, Kitaev et al., 2020 等)來使 Transformer 更高效。
在基於 Transformer 的預訓練領域中,也出現了很多更高效的變體,比如使用了參數共享的 ALBERT(Lan et al., 2020)以及使用更高效預訓練任務的 ELECTRA(Clark et al., 2020)等。當然,也有一些沒有使用 Transformer 而且同樣更高效的預訓練模型,比如一元文檔模型 VAMPIRE (Gururangan et al., 2019) 和 QRNN-based MultiFiT (Eisenschlos et al., 2019)。另一個值得注意的趨勢是:對大型 BERT 進行蒸餾,以獲得更小的模型(Tang et al., 2019 ; Tsai et al., 2019 ; Sanh et al., 2019)。
為什麼重要?
Transformer 架構從誕生之初就很有影響力。它是一種最先進的 NLP 模型,並已被成功地應用於許多其它的領域(參見第 1 和第 6 節)。因此,對 Transformer 架構的任何改進都可能產生強烈的連鎖反應。
下一步怎麼做?
這些改進需要一段時間才能落實到實踐中,但是考慮到預訓練模型的普及和易用性,這種更有效的替代方案可能很快就會被採用。總的來說,我們希望研究者可以持續關注強調效率的模型架構,而稀疏性就是其中的主要趨勢之一。
Compressive Transformer(Rae et al., 2020)可以將過去的激活函數的細粒度記憶壓縮成粒度較粗的壓縮記憶。
更可靠的分析方法
2019 年的一個關鍵趨勢是分析模型的論文越來越多。事實上,本文作者最喜歡的幾篇論文就是這樣的分析論文。比較早的一個亮點工作是 Belinkov & Glass 於 2019 年對分析方法的綜述。同時,在我的記憶中,今年也是第一次開始出現有工作致力於分析 BERT 這一種模型(這類論文被稱為 BERTology)的論文。在這種情況下,探針(probe)已經成為一種常用的工具,它的目的是通過預測某些屬性來了解模型是否「理解」了詞法、句法等。
本文作者特別喜歡那些探究如何讓探針技術更可靠的論文(Liu et al., 2019 ; Hewitt & Liang, 2019)。可靠性也是一直在被討論的一個主題,即注意力是否能提供有意義的解釋(Jain & Wallace, 2019; Wiegreffe & Pinter, 2019; Wallace, 2019)。研究人員對分析方法的興趣方興未艾,最好例證可能是 ACL 2020 的新賽道——NLP 模型的分析與可解釋性。
為什麼重要?
目前最先進的方法一般都被當做黑盒來使用。為了開發更好的模型並在現實世界中使用它們,我們需要理解為什麼模型會做出這些決策。然而,我們目前解釋模型預測結果的方法仍然有限。
下一步怎麼做?
我們需要做更多的工作來解釋那些超出我們預期的預測,它們通常是不可靠的。在這個方向上,的一個重要趨勢是更多數據集提供了人工書寫的解釋(Camburu et al., 2018 ; Rajani et al., 2019; Nie et al., 2019)。
用來學習表徵中的語言知識的 probing 設置。
以上便是作者對 2019 年 NLP 領域的盤點了。可以看出,NLP 依然是一個蓬勃發展的領域,很多理論都在快速發展,未來研究成果可期。
閱讀更多 洛鴻0920 的文章