導讀

NeurIPS 2019上和Transformer有關的論文的主要內容解讀。

在我之前關於 BERT 在 EMNLP 2019 的報道之後，如果不在 NeurIPS 2019 年大會上簡要回顧一下關於 transformers 的論文，那將是一種犯罪。神經信息處理系統研討會於 12 月 8 日至 14 日在溫哥華舉行。像往常一樣，有很多令人驚歎的想法和先進的研究。以下是其中的一些。

ViLBERT：視覺和語言任務的預訓練任務的視覺語言表示

http://arxiv.org/abs/1908.02265

提出了一種新的方法來學習與任務無關的圖像內容和自然語言的聯合表示。

ViLBERT(Vision-and-Language BERT)由兩個並行的 BERT 風格的模型組成，它們在圖像區域和文本段上運行。每個流是一系列 transformer 塊和新的 co-attentional transformer 層，它們被引入以實現模式之間的信息交換。每個圖像通過從一個預訓練的目標檢測網絡(Faster R-CNN)中提取邊界框及其視覺特徵作為一組區域的特徵表示。

ViLBERT模型由兩個並行的視覺(綠色)和語言(紫色)處理流組成，它們通過新的共注意transformer層相互作用。

預訓練有兩項任務：masked 多模態建模和多模態對齊預測。masked 多模態建模任務遵循標準 BERT 中的 masked 語言建模任務 —— 掩蔽大約 15%的單詞和圖像區域作為輸入，並在給定剩餘輸入的情況下對模式進行重構。在多模態對齊任務中，模型提出了一個圖像 — 文本對，必須預測圖像和文本是否對齊，即文本是否描述圖像。

在許多已建立的視覺和語言任務中，ViLBERT 模型表現優於最先進的模型：視覺問題回答、視覺常識推理、引用表達式和基於標題的圖像檢索。

將我們的ViLBERT模型的任務結果與現有的最先進和合理的結構進行消融比較。

Ouroboros: 基於 Transformer 的語言模型的加速訓練

http://arxiv.org/abs/1909.06695

毫無疑問，Transformers 在很多任務上都取得了巨大的成就，但是訓練它們可能是一個漫長而昂貴的過程。解決這個問題的一種可能的方法是並行化。

當模型太大而不能在單個設備中進行訓練時，模型的並行化仍然是一個有待解決的問題。當一個模型變得太大而不能適用於單個計算設備時，最簡單的解決方案是將模型層分佈到多個設備上。

文章提出了一種新的模型並行算法來並行化基於 Transformers 的語言模型的訓練。這種算法可以在不損失精度的情況下產生顯著的加速效果。

每個batch的計算時間的加速(在K個gpu上)

可視化和 BERT 幾何形狀的測量

http://arxiv.org/abs/1906.02715

本文試圖證明 transformer 具有一組語義和句法信息的中間表示。為了尋找句法信息，他們在注意力向量的頂部訓練了線性模型。該模型必須預測兩個詞之間依賴關係的存在和類型。二分類預測的準確度為 85.8%，多分類預測的準確度為 71.9%。這個簡單線性預測的成功表明，句法信息被編碼在注意力向量中。

一個有序token對的模型範圍內的注意力向量包含該token對在所有注意力頭和層中的標量注意力值。

第二部分是語義信息。很自然地，我們可以推測 transformer 捕捉了一個詞在一個特定句子中的特殊含義。

對於一個具有 n 種含義的給定單詞，他們製作一個最近鄰分類器，其中每個鄰居都是訓練集中給定單詞含義的基於 BERT 的嵌入的質心。為了對一個新單詞進行分類，他們會找到這些質心中最近的一個，如果這個單詞在訓練數據中沒有出現，則默認為最常用的詞義。簡單最近鄰分類器的 F1 得分為 71.1，高於目前的技術水平，其準確率在層間單調遞增。這是一個強烈的信號，即上下文嵌入表示了詞意信息。