Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

Facebook AI近日發佈一個名為XLM-R的新模型,使用100種語言、2.5TB文本數據進行訓練,在四項跨語言理解基準測試中取得了迄今最好的結果。

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

Yann LeCun在Twitter上讚賞該研究

XLM-R使用自我監督(self-supervised)的訓練技術實現了跨語言理解的SOTA性能。在這項任務中,用一種語言對模型進行訓練,然後將模型用於其他語言,而不需要額外的訓練數據。

XLM-R模型通過合併更多的訓練數據和語言(包括缺乏標籤的的低資源語言和未標記的數據集),改進了以前的多語言方法。

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

在論文“Unsupervised Cross-lingual Representation Learning at Scale”中,研究人員全面分析了無監督多語言掩碼語言模型的能力和限制,特別是研究了高資源/低資源和傳輸/干擾的權衡,並揭示了所謂的“多語言的詛咒”。

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

XLM-R在四個跨語言理解基準測試中取得了迄今為止最好的結果,在XNLI跨語言自然語言推理數據集上的平均準確率提高了4.7%,在最近推出的MLQA問題回答數據集

上的平均F1得分提高了8.4%,在NER數據集上的平均F1得分提高了2.1%。

經過大量的實驗和消融研究,研究人員證明了XLM-R是第一個優於依賴預訓練模型的傳統單語言基線模型的多語言模型。具體而言,多語言模型通過在微調時利用多語言的訓練集,可以超越單語言的BERT模型。

XLM-R身手不凡:多項任務刷新SOTA,超越單語BERT


儘管該領域的早期工作已經證明了多語言掩碼語言模型(multilingual masked language models)在跨語言理解方面的有效性,但是諸如XLM和multilingual BERT這樣的模型在學習低資源語言的有用表示方面仍然能力有限。XLM-R在以下幾個方面改進了以前的方法:

在XLM和RoBERTa中使用的跨語言方法的基礎上,我們增加了新模型的語言數量和訓練示例的數量,用超過2TB的已經過清理和過濾的CommonCrawl 數據以自我監督的方式訓練跨語言表示。這包括為低資源語言生成新的未標記語料庫,並將用於這些語言的訓練數據量擴大兩個數量級。

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

用於XLM-100的Wiki-100語料庫和用於XLM-R的CC-100語料庫中出現的88種語言的GiB (log-scale)數據量。CC-100將數據量增加了幾個數量級,特別是對於低資源語言而言

在fine-tuning期間,我們利用多語言模型的能力來使用多種語言的標記數據,以改進下游任務的性能。這使我們的模型能夠在跨語言基準測試中獲得state-of-the-art的結果,同時超過了單語言BERT模型在每種語言上的性能。

我們調整了模型的參數,以抵消以下不利因素:使用跨語言遷移來將模型擴展到更多的語言時限制了模型理解每種語言的能力。我們的參數更改包括在訓練和詞彙構建過程中對低資源語言進行上採樣,生成更大的共享詞彙表,以及將整體模型容量增加到5.5億參數。

我們發現XLM-R在低資源語言上表現得特別出色,與以前使用15種語言進行訓練的最優技術相比,XLM-R 模型在斯瓦希里語和烏爾都語上的XNLI性能分別提高了2.3%和5%。

跨語言理解結果

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

跨語言分類結果

我們報告了15種XNLI語言的準確性和平均準確性,證明使用translate-train-all的方法,利用了多種語言的訓練集,XLM-R在XNLI上獲得了82.4%的平均準確率,而且也優於以前的跨語言遷移方法。

命名實體識別結果

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

命名實體識別的結果

問題回答結果

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

MLQA問題回答的結果

我們報告了F1和EM(精確匹配)的zero-shot分類得分,其中模型在英語數據集上進行了微調,並在MLQA的7種語言上進行了評估。†的結果取自原始MLQA論文。

GLUE基準結果

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

GLUE dev結果。†的結果來自 Liu et al. (2019)。我們比較了XLMR與BERT-Large、XLNet和Roberta在英語GLUE benchmark上的性能

多語言模型vs單語言模型

Facebook最新語言模型XLM-R:多項任務刷新SOTA,超越單語BERT

多語言模型vs單語言模型(BERT-BASE)。我們使用一個基於BERT的結構,比較了在七種語言上單語模型(BERT)和多語模型(XLM)的性能

總結而言,XLM-R在分類、序列標記和問題回答等方面都優於mBERT和XLM等多語言模型。我們揭示了多語言MLM的侷限性,特別是揭示了高資源與低資源的權衡、多語言的詛咒和關鍵超參數的重要性。我們還展示了多語言模型相對於單語言模型的驚人有效性,並展示了對低資源語言的強大改進。

論文地址:

https://arxiv.org/pdf/1911.02116.pdf


分享到:


相關文章: