受啟於做夢,DeepMind 提出壓縮 Transformer,並開源書本級數據集PG-19

受啟於做夢,DeepMind 提出壓縮 Transformer,並開源書本級數據集PG-19

雷鋒網AI科技評論按:DeepMind最近提出一種新的長程記憶模型——Compressive Transformer(壓縮Transformer),這種模型基於Transformer模型做了調整,通過增添壓縮記憶模塊,有效增加了模型的記憶長度。

而另一方面,為了提升對基於長程記憶的推理問題的研究,DeepMind的研究人員也開發了一個書籍級別的語言數據集PG-19。這個新的基準是目前已有的長時記憶基準的兩倍還多,包含的上下文文本是長程語言模型基準測試WikiText-103的10倍以上。

論文鏈接:https://arxiv.org/pdf/1911.05507.pdf

PG-19開源鏈接:https://github.com/deepmind/pg19

在過去二十年的時間裡,人工神經網絡在記憶這一方面有了長足的進展。

被稱為長短時記憶(Long Short-Term-Memory,LSTM)的遞歸神經網絡(RNN)是目前最早、應用最為廣泛的記憶結構之一。LSTM以數字向量的形式維護一個緊湊的內存,通過門控讀、寫和遺忘操作來訪問和修改這個內存。它最初是在一套綜合任務上開發的,包括學習一串bit的邏輯操作。不過現在它已經被廣泛應用在所有的序列數據模型當中了。

LSTM,以及許多現在所使用的RNNs,存在一個巨大的缺點,就是容量問題。最初設計這些結構的目的是為了,使每個單元的內存都可以影響其他單元,並且具有科學系的權重。但這導致系統的計算效率非常低下,模型中可學習參數的數量會隨內存大小的增加呈平方地增加,例如內存64KB的LSTM,會產生8GB的參數。

如何繞過這一記憶容量瓶頸,成為一個嚴峻的問題。

DeepMind的研究人員曾提出過一種新的架構,可微分神經計算機(DNC),它用更大的內存矩陣來擴充LSTM,以此來解決這些缺陷。

在我們看東西時,我們的眼睛會聚焦於視覺場景中的相關物體。例如,你可能會花更多的時間注意朋友的面部表情,而不是注意他們的鞋子。

DNC採用了類似的方法,使用一個「注意力操作」從這個內存矩陣中讀取數據。

在DNC中,內存模型可以處理過去的特定事件/數據。這種注意力操作需要固定數量的參數,而與內存大小無關,因此可以顯著提高模型的內存容量。

隨著 DNC的開發,帶有附加註意力機制的遞歸神經網絡在翻譯和問題回答領域顯示出了巨大的潛力。這些模型能夠使用兩種內存結構進行推理,一種是小型且緊湊的LSTM內存,一種是大型的外部內存。

不過,最近谷歌Google Brain 的研究人員提出了一種Transformer模型,它可以去除掉 LSTM,只利用注意力來傳輸信息。

Transformer 最初是應用在機器翻譯任務上,性能明顯優於遞歸神經網絡。

隨後Transformer被廣泛應用到NLP的的其他任務當中,例如問答、文本摘要、情感分析等。過去一年,因為Transformer,這些方面取得了巨大的進步。

但這些模型仍然存在一個缺點,即它們會把所有的信息都存儲起來,這樣在每一個時間步上所消耗的計算成本和存儲成本都非常大。

我們的大腦顯然不是這樣做的,我們不會像攝像機那樣,把我們一生當中接收到的所有信息存儲起來。而是會根據相關性、驚喜度、危險性、重複次數等因素來選擇、過濾、整合所有的輸入刺激。換句話說,我們會把一生的經歷壓縮成一組亮點記憶,幫助我們來理解過去,以及更好地預測未來。

這就是如何壓縮的問題。

之前有一些工作通過稀疏訪問機制來嘗試壓縮注意力中的計算消耗。但稀疏注意力方法並不能解決存儲問題,而且通常需要定製的稀疏核才能有效地實現。

1、壓縮Transformer

據雷鋒網AI科技評論瞭解,DeepMind為此提出了 Compressive Transformer模型(壓縮 Transformer)。

簡單來說,這是Transformer的一個簡單變種,將過去隱藏激活(past hidden activations ,記憶)映射到一個更小的壓縮表示集(壓縮記憶)中。在記憶和壓縮記憶上,壓縮Transformer會使用相同的注意力機制,來學習查詢它的短期顆粒記憶和長期粗記憶。

受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19

壓縮Transformer保持對過去激活的細粒度記憶,然後將其壓縮為更粗的壓縮記憶。上面的模型有三層,一個序列長度ns = 3,記憶大小nm = 6,壓縮記憶大小ncm = 6。高亮顯示的記憶被壓縮,每層使用壓縮函數fc將其壓縮到單個壓縮記憶中,而不是在下一個序列中丟棄。在本例中,壓縮率c = 3。

據作者 Jack Rae介紹,這個模型的靈感來源是,睡眠能夠鞏固我們的情景記憶。眾所周知,睡眠有助於記憶,原因是人們在睡覺過程中能夠將醒時的記憶進行壓縮和鞏固,從而提高記憶力。

受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19

我們知道谷歌提出的TransformerXL模型,為了進行長時推理,會對過去激活記憶進行保持。但是當過去激活足夠“老”(由內存大小決定)時,TranformerXL就會將這些記憶給丟棄掉。

受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19

與之不同的是壓縮Transformer並不將它們丟棄,而是通過一個壓縮函數進行壓縮,並存儲在一個額外的壓縮記憶(壓縮內存)中。這個壓縮函數能夠學習並過濾掉不相關的記憶,使一些較為重要的信息保留更長一段時間。這種方式,相比於TransformerXL模型,顯然能夠保留更長時間的記憶,對長時推理任務將大有裨益。

據作者介紹,這個模型具有較大的普適性,不僅可以用於語言序列,還能夠用於建模高頻語音波形,也可以充當增強學習agent、IMPALA等的記憶組件(顯然可以壓縮和利用過去的觀察加過)。

2、PG-19

為了進一步驗證壓縮Transformer在長時推理方面的強大功能,作者基於從古騰堡計劃的文本,提出了一個新的書籍級語言建模基準PG-19,來進一步促進長上下文序列建模(long-context sequence modelling)的研究。值得一提的是,這個新的基準是目前已有的長時記憶基準的兩倍還多,包含的上下文文本是長程語言模型基準測試WikiText-103的10倍以上。

受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19

書籍為長期記憶模型的發展提供了豐富的背景。作者從大約28,000本古騰堡計劃中1919年以前(也即100年前,避免版權問題)出版的書中選擇了一個子集。與以前的語言建模數據集不同,作者很少對文本應用預處理。舉例來說,他們不會限制數據的詞彙量或審查數字,以避免過濾有用的信息。

數據集包含了28752本書,共約 11GB。

其中,28602本用作訓練集,50本作為有效集,100本作為測試集:

受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19

DeepMind隨後將壓縮Transformer與TransformerXL在最新的PG-19書籍數據集上進行了基準測試,具體設置可以參看論文原文。結果如下圖所示:

受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19

可以看到,壓縮Transformer的測試困惑度為33.6,TransformerXL的為36.3。儘管數據集很大,但顯然這仍然是一個具有挑戰性的領域,而這個測試結果可以作為這個長程語言建模基準的第一個基線。

3、最後

如果想要創建一個操作時間超過幾天、幾周甚至幾年的agent,在每個步驟中對所有原始輸入數據都進行計算顯然是不切實際的。

即使在當前計算能力持續增長的情況下,我們仍然需要開發壓縮和稀疏的記憶架構來構建操作的表示和推理。

可以期待的是,能夠捕捉到以日、月、年為單位的相關性的模型,即將問世。而這需要我們有相應的任務和數據集來評判長時任務。PG-19顯然是朝向這個方向邁進的一步,因為「一整本書」已經是人類通常使用的最長文本形式。

而選擇性注意力,和其他更有效的壓縮機制,顯然也將極大地促進更加強大的推理研究。

雷鋒網報道。


分享到:


相關文章: