Facebook最新語言模型XLM-R:多項任務刷新SOTA，超越單語BERT 頭條網

2021-05-24 14:24:40 佚名

Facebook AI近日發佈一個名為XLM-R的新模型，使用100種語言、2.5TB文本數據進行訓練，在四項跨語言理解基準測試中取得了迄今最好的結果。

Yann LeCun在Twitter上讚賞該研究

XLM-R使用自我監督(self-supervised)的訓練技術實現了跨語言理解的SOTA性能。在這項任務中，用一種語言對模型進行訓練，然後將模型用於其他語言，而不需要額外的訓練數據。

XLM-R模型通過合併更多的訓練數據和語言(包括缺乏標籤的的低資源語言和未標記的數據集)，改進了以前的多語言方法。

在論文“Unsupervised Cross-lingual Representation Learning at Scale”中，研究人員全面分析了無監督多語言掩碼語言模型的能力和限制，特別是研究了高資源/低資源和傳輸/干擾的權衡，並揭示了所謂的“多語言的詛咒”。

XLM-R在四個跨語言理解基準測試中取得了迄今為止最好的結果，在XNLI跨語言自然語言推理數據集上的平均準確率提高了4.7%，在最近推出的MLQA問題回答數據集

上的平均F1得分提高了8.4%，在NER數據集上的平均F1得分提高了2.1%。

經過大量的實驗和消融研究，研究人員證明了XLM-R是第一個優於依賴預訓練模型的傳統單語言基線模型的多語言模型。具體而言，多語言模型通過在微調時利用多語言的訓練集，可以超越單語言的BERT模型。

XLM-R身手不凡：多項任務刷新SOTA，超越單語BERT

儘管該領域的早期工作已經證明了多語言掩碼語言模型(multilingual masked language models)在跨語言理解方面的有效性，但是諸如XLM和multilingual BERT這樣的模型在學習低資源語言的有用表示方面仍然能力有限。XLM-R在以下幾個方面改進了以前的方法:

在XLM和RoBERTa中使用的跨語言方法的基礎上，我們增加了新模型的語言數量和訓練示例的數量，用超過2TB的已經過清理和過濾的CommonCrawl 數據以自我監督的方式訓練跨語言表示。這包括為低資源語言生成新的未標記語料庫，並將用於這些語言的訓練數據量擴大兩個數量級。

用於XLM-100的Wiki-100語料庫和用於XLM-R的CC-100語料庫中出現的88種語言的GiB (log-scale)數據量。CC-100將數據量增加了幾個數量級，特別是對於低資源語言而言

在fine-tuning期間，我們利用多語言模型的能力來使用多種語言的標記數據，以改進下游任務的性能。這使我們的模型能夠在跨語言基準測試中獲得state-of-the-art的結果，同時超過了單語言BERT模型在每種語言上的性能。

我們調整了模型的參數，以抵消以下不利因素：使用跨語言遷移來將模型擴展到更多的語言時限制了模型理解每種語言的能力。我們的參數更改包括在訓練和詞彙構建過程中對低資源語言進行上採樣，生成更大的共享詞彙表，以及將整體模型容量增加到5.5億參數。

我們發現XLM-R在低資源語言上表現得特別出色，與以前使用15種語言進行訓練的最優技術相比，XLM-R 模型在斯瓦希里語和烏爾都語上的XNLI性能分別提高了2.3%和5%。

跨語言理解結果

跨語言分類結果

我們報告了15種XNLI語言的準確性和平均準確性，證明使用translate-train-all的方法，利用了多種語言的訓練集，XLM-R在XNLI上獲得了82.4%的平均準確率，而且也優於以前的跨語言遷移方法。

命名實體識別結果

命名實體識別的結果

問題回答結果

MLQA問題回答的結果

我們報告了F1和EM(精確匹配)的zero-shot分類得分，其中模型在英語數據集上進行了微調，並在MLQA的7種語言上進行了評估。†的結果取自原始MLQA論文。

GLUE基準結果

GLUE dev結果。†的結果來自 Liu et al. (2019)。我們比較了XLMR與BERT-Large、XLNet和Roberta在英語GLUE benchmark上的性能

多語言模型vs單語言模型

多語言模型vs單語言模型(BERT-BASE)。我們使用一個基於BERT的結構，比較了在七種語言上單語模型(BERT)和多語模型(XLM)的性能

總結而言，XLM-R在分類、序列標記和問題回答等方面都優於mBERT和XLM等多語言模型。我們揭示了多語言MLM的侷限性，特別是揭示了高資源與低資源的權衡、多語言的詛咒和關鍵超參數的重要性。我們還展示了多語言模型相對於單語言模型的驚人有效性，並展示了對低資源語言的強大改進。

論文地址：

https://arxiv.org/pdf/1911.02116.pdf

分享到:

關鍵字: 單語語料庫語言

Facebook最新語言模型XLM-R:多項任務刷新SOTA，超越單語BERT

相關文章:

AUTOSAR學習筆記之AUTOSAR方法、模型、工具和一致性測試

模型——現實版的小人國

可編輯區塊鏈：模型、技術與方法

哥斯拉——怪物形象來源

今晚8點直播丨終極篇：財富經理如何做好資產配置？

比較常用的機器學習開源工具

高考物理150道易錯題+30個常考物理模型，考前重要資料33頁，收藏

4 月 24 日開播！基於神經網絡建模的信息傳播預測

如何擺脫在應用BIM時遇到的困惑？

美團對話理解技術及實踐

模型高手網 4月發表 模型作品集

PPT+模型，細數俄羅斯近年來那些紛繁複雜的航母計劃

生產銷售假冒高達模型涉案3600餘萬 16人被刑拘

發動機音效，就是這樣來的#機器傑克 #遙控車 #模型

模型轉向舵機中位確認的方法，新手必看#機器傑克 #抖音小助手 #模型

APP中的通知設計「轉載」「譯文」

國產第一艘核潛艇的曲折史，從一個玩具中得到的靈感

美疾控中心模型顯示：全美實際感染新冠人數或接近1億

3d打印一個模型多少錢？

規範駕駛哪家強？Python安全員幫你忙

大數淘寶賣家面對高昂的獲客成本無計可施，構建私域流量池案例！

方遠轉債每週觀察42 | 可轉債炒作捲土重來

圖說理財——家庭資產配置“帆船圖”模型

簡述模型歷史及材料

機械模型的價值體現及應用

搞不懂年輕人，就搞不定新商業

邊對角,內含高,隱圓模型來構造;子母一線三等角,半角模型也用到—

疫情對1-2月經濟損失的實證估計

「精彩覆盤」以文化驅動企業成長——模型

模型，可以讓對方“閱後即焚”嗎？

機器學習之評估假設 & 模型選擇和交叉驗證集

扎哈和她的跨界設計模型

如何選擇最方便的廁所

總結8大類BIM典型應用功能

南海上空的鷹——人民解放軍殲-8戰鬥機模型製作（1/48）

方遠轉債每週觀察44 | 現階段轉債投資的兩個方向

用財務模型說明：沒有優異續費率的SaaS只是個傳統生意

人是有智能的，為什麼物聯網需要人工智能？

信用洞察｜基於XGBoost的用戶信用評分模型研究

如期而至-用戶購買時間預測（下）

研究綜述 | AI-自動化機器學習

史上最強副駕駛——開車打瞌睡？Python叫醒你

新疆學者研究稱，芳香新塔花可防動脈粥樣硬化

人工智能背後的“操盤手”，向前金服智能風控迭代實錄

分享！ZBrush的十大優秀插件

給2020年A股算算命——再論A股市場的非週期循環

BIM在建築工程中的全過程應用，讓你切身感受到真正的技術！

如何讓CNN高效地在移動端運行

預測過去的事，應該用減法；預測未來的事，應該用加法

原畫和模型又拉開差距了！

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

模型高手網 4月發表模型作品集

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患