多項NLP任務新SOTA，Facebook提出預訓練模型BART 技术頭條網

論文選自arXiv

作者：Mike Lewis等機器之心編譯參與：魔王、一鳴

FaceBook 近日提出了一個名為BART的預訓練語言模型。該模型結合雙向和自迴歸 Transformer 進行模型預訓練，在一些自然語言處理任務上取得了SOTA性能表現。

近日，Facebook 發表論文，提出一種為預訓練序列到序列模型而設計的去噪自編碼器 BART。BART 通過以下步驟訓練得到：1）使用任意噪聲函數破壞文本；2）學習模型來重建原始文本。BART 使用基於 Transformer 的標準神經機器翻譯架構，可泛化 BERT（具備雙向編碼器）、GPT（具備從左至右的解碼器）等近期出現的預訓練模型，儘管它非常簡潔。Facebook 研究人員評估了多種噪聲方法，最終通過隨機打亂原始句子的順序，再使用新型文本填充方法（即用單個 mask token 替換文本段）找出最優性能。

BART 尤其擅長處理文本生成任務，不過它在理解任務中的性能也不錯。在提供同等的訓練資源時，BART 可在 GLUE 和 SQuAD 數據集上實現與 RoBERTa 相當的性能，並在抽象對話、問答和文本摘要等任務中獲得新的當前最優結果，在 XSum 數據集上的性能比之前研究提升了 6 ROUGE。在機器翻譯任務中，BART 在僅使用目標語言預訓練的情況下，獲得了比回譯系統高出 1.1 個 BLEU 值的結果。研究人員還使用控制變量實驗複製了 BART 框架內的其他預訓練機制，從而更好地評估影響終端任務性能的最大因素。

論文鏈接：https://arxiv.org/pdf/1910.13461.pdf

引言

自監督方法在大量 NLP 任務中取得了卓越的成績。近期研究通過改進 masked token 的分佈（即 masked token 被預測的順序）和替換 masked token 的可用語境，性能獲得提升。然而，這些方法通常聚焦於特定類型和任務（如 span prediction、生成等），應用較為有限。

Facebook 的這項研究提出了新架構 BART，它結合雙向和自迴歸 Transformer 對模型進行預訓練。BART 是一個適用於序列到序列模型的去噪自編碼器，可應用於大量終端任務。預訓練包括兩個階段：1）使用任意噪聲函數破壞文本；2）學得序列到序列模型來重建原始文本。BART 使用基於 Tranformer 的標準神經機器翻譯架構，可泛化 BERT、GPT 等近期提出的預訓練模型。

圖 1a：BERT：用掩碼替換隨機 token，雙向編碼文檔。由於缺失 token 被單獨預測，因此 BERT 較難用於生成任務。

圖 1b：GPT：使用自迴歸方式預測 token，這意味著 GPT 可用於生成任務。但是，該模型僅基於左側上下文預測單詞，無法學習雙向交互。

圖 1c：BART：編碼器輸入與解碼器輸出無需對齊，即允許任意噪聲變換。使用掩碼符號替換文本段，從而破壞文本。使用雙向模型編碼被破壞的文本（左），然後使用自迴歸解碼器計算原始文檔的似然（右）。至於微調，未被破壞的文檔是編碼器和解碼器的輸入，研究者使用來自解碼器最終隱藏狀態的表徵。

模型

去噪自編碼器 BART 可將被破壞文檔映射至原始文檔。它是一個具備雙向編碼器（對被破壞文本使用）和從左至右自迴歸解碼器的序列到序列模型。至於預訓練，研究人員優化了原始文檔的負 log 似然。

架構

BART 使用 (Vaswani et al., 2017) 提出的標準序列到序列 Transformer 架構，不過做了少許改動：按照 GPT 模型，將 ReLU 激活函數更改為 GeLU，從 N (0, 0.02) 初始化參數。BART base 模型的編碼器和解碼器各有 6 層，large 模型中層數各增加到了 12。BART 架構與 BERT 所用架構類似，區別如下：1）解碼器的每個層對編碼器最終隱藏層額外執行 cross-attention（和 Transformer 序列到序列模型一樣）；2）BERT 在詞預測之前使用了額外的前饋網絡，而 BART 沒有。總之，BART 相比同等規模的 BERT 模型大約多出 10% 的參數。

預訓練 BART

BART 是通過破壞文檔再優化重建損失（即解碼器輸出和原始文檔之間的交叉熵）訓練得到的。與目前僅適合特定噪聲機制的去噪自編碼器不同，BART 可應用於任意類型的文檔破壞。極端情況下，當源文本信息全部缺失時，BART 也等同於語言模型。