EMNLP 2018|結合通用和專用NMT的優勢,CMU爲NMT引入「語境參數生成器」

選自arXiv

作者:Emmanouil Antonios Platanios等

機器之心編譯

參與:白悅、劉曉坤

通用和專用 NMT 模型分別在相似語言對和罕見語言對的翻譯中具有優勢,但這也反映了各自的劣勢,取決於參數共享的程度。為此,CMU 的研究者在本文中提出了一種在兩者之間取得平衡方法,不需要改變 NMT 原有架構,而是引入新的組件 CPG,來可控地實現不同語言對模型之間的參數共享。該組件可無縫整合不同的 NMT,並在基準數據集上取得當前最佳。研究者強調,該方法使我們更接近普適的中間語言。

神經機器翻譯(NMT)無需單獨訓練或調整系統的任何部分就可以直接建模源語言到目標語言的映射。這使得 NMT 快速發展,並在許多大規模環境中成功應用 (Wu et al., 2016; Crego et al., 2016)。編碼器-解碼器抽象使構建將任何語言的源句映射到向量表示,再將向量表示解碼到任何目標語言的系統在概念上變得可行。因此,人們提出了各種方法來擴展這種多語言機器翻譯的抽象 (Luong et al., 2016; Dong et al., 2015; Johnson et al., 2017; Ha et al., 2016; Firat et al., 2016a)。

多語言 NMT 之前的工作可大致分為兩種範式。第一個通用 NMT (Johnson et al., 2017; Ha et al., 2016) 對所有語言使用單一模型。通用 NMT 沒有任何特定語言的參數化,在翻譯截然不同的語言和數據有限的情況下,這種模式過於簡單化且非常不利。通過實驗驗證,Johnson 等人的方法(2017)在高樣本複雜度情況下性能變差,因此在有限的數據設置中表現不佳。Ha 等人提出的通用模型(2016)需要輸入句子的新編碼方案,這會導致過大的詞彙量從而難以擴展。第二種範式,特定於每種語言的編碼器-解碼器 (Luong et al., 2016; Firat et al., 2016a),每種語言使用獨立的編碼器和解碼器。這不允許跨語言共享信息,可能導致過度參數化,且在語言相似的情況下可能有害。

在本文中,CMU 的研究者在這兩種方法之間取得了平衡,提出了一種能夠分別為每種語言學習參數的模型,同時也能在相似語言之間共享信息。研究者使用了新的語境相關的參數生成器(CPG),它可以(a)泛化所有這些方法;(b)緩解上述通用和獨立語言編碼器-解碼器系統的問題。它將語言嵌入作為翻譯的語境進行學習,並用它們為所有語言對生成共享翻譯模型的參數。因此,它為這些模型提供了每種語言單獨學習參數的能力,同時也在相似語言之間共享信息。參數生成器是通用的,允許以這種方式增強任何現有的 NMT 模型。此外,它具有以下所期望的特徵:

  1. 簡單:類似 Johnson 等人(2017)和 Ha 等人(2016)的方法,且與 Luong 等人(2016 年)和 Firat 等人(2016a)的方法相反,它只需稍作修改就可以應用於大多數現有的 NMT 系統,並且能夠無縫地容納注意力層。

  2. 多語言:和之前相同,允許使用相同的單個模型進行多語言翻譯。

  3. 半監督:可以使用單語數據。

  4. 可擴展:通過在語言間使用大量但可控的共享來減少參數的數量,從而減少大量數據的需求,如 Johnson 等人所述(2017)。它還允許語言的解耦,避免對大量共享詞彙需求,如 Ha 等人所述(2016)。

  5. 適應性強:無需完全重新訓練就可以適應新語言。

  6. 當前最先進的方法:比成對 NMT 模型和 Johnson 等人的模型具備更好的性能。(2017 年)。事實上,該方法優於最先進的性能。

作者首先介紹一個可用於定義和描述大多數現有 NMT 系統模塊化框架,然後,在第 3 節中,將根據該框架介紹本研究的主要貢獻,即語境參數生成器(CPG)。作者還論證了該方法使我們更接近普適的中間語言。

論文:Contextual Parameter Generation for Universal Neural Machine Translation

EMNLP 2018|结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」
  • 論文地址:https://arxiv.org/abs/1808.08493

  • 項目地址:https://github.com/eaplatanios/symphony-mt

摘要:我們對現有神經機器翻譯(NMT)模型進行了簡單修正,允許使用單個通用模型完成多種語言之間的翻譯,同時允許語言特定的參數化,並且還可以用於域適應。我們的方法不需要改變標準 NMT 系統的模型架構,而是引入了新的組件,即語境參數生成器(CPG),可以生成系統的參數(例如,神經網絡中的權重)。該參數生成器接受源語言嵌入和目標語言嵌入作為輸入,並分別為編碼器和解碼器生成參數。模型的其餘部分保持不變,並在所有語言中共享。我們展示了這種簡單的修正如何使系統使用單語數據進行訓練並實現 zero-shot 翻譯。我們進一步表明,它能夠超越 IWSLT-15 和 IWSLT-17 數據集的當前最佳性能,並且學習的語言嵌入能夠發現語言之間的有趣關係。

EMNLP 2018|结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

圖 1:在我們的模塊化框架下的 NMT 系統概述。我們的主要貢獻在於參數生成器模塊(即,耦合或解耦——具有藍色字體的每個框是單獨的選項)。注意,g 表示參數生成器網絡。在我們的實驗中,我們考慮該網絡的線性形式。但是,我們的貢獻並不取決於其他模塊的選擇;我們仍然可以將具有不同架構的參數生成器和不同類型的詞彙表用於編碼器和解碼器。

EMNLP 2018|结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

表 1:我們提出的有基礎成對 NMT(PNMT)模型的方法(陰影的一行)和用於 IWSLT-15 數據集的 Google 多語言 NMT 模型(GML)的比較。百分比的並列行顯示訓練時使用多少部分(1%、10%、100%)的平行語料庫;其餘的僅用作單語數據。表中顯示了 BLEU 和 Meteor 指標的結果。CPG *表示與 CPG 相同的模型,但未使用自動編碼訓練樣本進行訓練。每種情況下的最佳分數加粗顯示。

EMNLP 2018|结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

表 2:我們提出的有基礎成對 NMT(PNMT)模型的方法(陰影的一行)和用於 IWSLT-17 數據集的 Google 多語言 NMT 模型(GML)的比較。因為 Meteor 不支持 It、Nl 和 Ro,所以僅顯示了 BLEU 度量標準的結果,CPG8 表示使用 8 個語言嵌入來表示 CPG。「C4」下標表示用於受控參數共享的 CPG 的低級版本(參見第 3.1 節),使用等級 4 等。每種情況下的最佳得分加粗顯示。EMNLP 2018|結合通用和專用NMT的優勢,CMU為NMT引入「語境參數生成器」

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):[email protected]

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:[email protected]


分享到:


相關文章: