06.24 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

選自Github

作者:Sebastian Ruder

機器之心編譯

參與:思源、曉坤

自然語言處理有非常多的子領域,且很多都沒有達到令人滿意的性能。本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務,例如依存句法分析和詞性標註。以及更多近期出現的任務,例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽,作為未來研究的墊腳石。

  • 項目地址:https://github.com/sebastianruder/NLP-progress
  • 參考博客:http://ruder.io/tracking-progress-nlp/
自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

目錄(任務和對應數據集)

1.CCG 超級標記

  • CCGBank

2.分塊

  • Penn Treebank

3.選區解析

  • Penn Treebank

4.指代消歧

  • CoNLL 2012

5.依存解析

  • Penn Treebank

6.對話

  • 第二對話狀態追蹤挑戰賽

7.域適應

  • 多領域情感數據集

8.語言建模

  • Penn Treebank
  • WikiText-2

9.機器翻譯

  • WMT 2014 EN-DE
  • WMT 2014 EN-FR

10.多任務學習

  • GLUE

11.命名實體識別

  • CoNLL2003

12.自然語言推理

  • SNLI
  • MultiNLI
  • SciTail

13.詞性標註

  • UD
  • WSJ

14.閱讀理解

  • ARC
  • CNN/Daily Mail
  • QAngaroo
  • RACE
  • SQuAD
  • Story Cloze Test
  • Winograd Schema Challenge

15.語義文本相似性

  • SentEval
  • Quora Question Pairs

16.情感分析

  • IMDb
  • Sentihood
  • SST
  • Yelp

17.情感解析

  • WikiSQL

18.語義作用標記

  • OntoNotes

19.自動摘要

  • CNN/Daily Mail

20.文本分類

  • AG News
  • DBpedia
  • TREC

CCG 超級標記

組合範疇語法(CCG; Steedman, 2000)是一種高度詞彙化的形式主義。Clark 和 Curran 2007 年提出的標準解析模型使用了超過 400 個詞彙語類(或超級標記(supertag)),典型的解析器通常只包含大約 50 個詞性標註。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

CCGBank

CCGBank 是 CCG 衍生物的語料庫,以及從 Hockenmaier 和 Steedman 2007 年提出的 Penn Treebank 中提取的依存結構。第 2-21 部分用於訓練,第 00 部分用於開發,第 23 部分用作域內測試集。其性能僅在 425 個最常用的標籤上計算。模型基於準確率來評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

分塊

分塊(chunking)是解析的淺層形式,可以識別構成合成單元(例如名詞詞組或動詞詞組)的標記的連續跨度。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

Penn Treebank-分塊

Penn Treebank 通常用於評估分塊。第 15-18 部分用於訓練,第 19 部分用於開發,第 20 部分用於測試。模型基於 F1 評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

選區解析

選區解析(constituency parsing)的目的是從根據詞組結構語法來表徵其合成結構的句子中提取基於選區的解析樹。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

近期發展出來的方法(《Grammar as a Foreign Language》)將解析樹轉換為按深度優先遍歷的序列,從而能應用序列到序列模型到該解析樹上。以上解析樹的線性化版本表示為:(S (N) (VP V N))。

Penn Treebank-選區解析

Penn Treebank 的「Wall Street Journal」部分用於評估選區解析器。第 22 部分用於開發,第 23 部分用於評估。模型基於 F1 評估。以下大多數模型整合了外部數據或特徵。要對比僅在 WSJ 上訓練的單個模型,參見《Constituency Parsing with a Self-Attentive Encoder》。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

指代消歧

指代消歧(coreference resolution)是聚類文本中的涉及相同潛在真實世界實體的提述的任務。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

「I」、「my」和「she」屬於相同的聚類,「Obama」和「he」屬於相同的聚類。

CoNLL 2012

實驗是構建在《CoNLL-2012 shared task》的數據集之上的,其使用了 OntoNotes 的共指標註。論文使用官方 CoNLL-2012 評估腳本報告了精度、召回率和 MUC 的 F1、B3 以及 CEAFφ4 指標。主要的評估指標是三個指標的平均 F1。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

依存解析

依存解析(dependency parsing)是從表徵其語法結構中提取的依存解析,並定義標頭詞和詞之間的關係,來修改那些標頭詞。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

詞之間的關係在句子之上用定向、標記的弧線(從標頭詞到依存)展示,+表示依存。

Penn Treebank-依存解析

模型在《Stanford typed dependencies manual》中提出的 Penn Treebank 的 Stanford Dependency 變換和預測詞類標記上進行評估。評估指標是未標記依附分數(unlabeled attachment score,UAS)和標記依附分數(LAS)。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

對話

眾所周知,對話任務是很難評估的。以前的方法曾經使用了人類評估。

第二對話狀態追蹤挑戰賽

對於目標導向的對話,第二對話狀態追蹤挑戰賽(Second dialog state tracking challenge,DSTSC2)的數據集是一個常用的評估數據集。對話狀態追蹤涉及確定在對話的每個回合用戶在當前對話點的目標的完整表徵,其包含了一個目標約束、一系列請求機會(requested slot)和用戶的對話行為。DSTC2 聚焦於餐廳搜索領域。模型基於單獨的和聯合的機會追蹤的準確率進行評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

領域自適應

多領域情感數據集

多領域情感數據集(Multi-Domain Sentiment Dataset)是情感分析的領域自適應常用評估數據集。它包含了來自亞馬遜的不同產品類別(當成不同領域)的產品評價。這些評價包括星級評定(1 到 5 顆星),通常被轉換為二值標籤。模型通常在一個和訓練時的源域不同的目標域上評估,其僅能訪問目標域的未標記樣本(無監督域適應)。評估標準是準確率和對每個域取平均的分值。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

語言建模

語言建模是預測文本中下一個詞的任務。*表示模型使用了動態評估。

Penn Treebank-語言建模

語言建模的常用評估數據集是 Penn Treebank,已經過 Mikolov 等人的預處理(《Recurrent neural network based language model》)。該數據集由 929k 個訓練單詞、73k 個驗證單詞和 82k 個測試單詞構成。作為預處理的一部分,單詞使用小寫格式,數字替換成 N,換行符用空格表示,並且所有其它標點都被刪除。其詞彙是最頻繁使用的 10k 個單詞,並且剩餘的標記用一個標記替代。模型基於困惑度評估,即平均每個單詞的對數概率(per-word log-probability),越低越好。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

WikiText-2

WikiText-2(《Pointer Sentinel Mixture Models》)相比於 Penn Treebank,其在語言建模中是更接近實際的基準。WikiText-2 由大約兩百萬個從維基百科文章中提取的單詞構成。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

機器翻譯

機器翻譯是將句子從源語言轉換為不同的目標語言的任務。帶*的結果表示基於 21 個連續評估的平均驗證集 BLEU 分數的平均測試分數,正如 Chen 等人的論文《The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation》所報告的。

WMT 2014 EN-DE

模型在第九屆統計機器翻譯研討會(VMT2014)的 English-German 數據集上進行評估(根據 BLEU 分數)。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

WMT 2014 EN-FR

類似的,在第九屆統計機器翻譯研討會(VMT2014)的 English-French 數據集上進行評估(根據 BLEU 分數)。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

多任務學習

多任務學習的目標是同時學習多個不同的任務,並最大化其中一個或全部任務的性能。

GLUE

通用語言理解評估基準(GLUE)是用於評估和分析多種已有自然語言理解任務的模型性能的工具。模型基於在所有任務的平均準確率進行評估。

當前最佳結果可以在公開 GLUE 排行榜上查看:https://gluebenchmark.com/leaderboard。

命名實體識別

命名實體識別(NER)是在文本中以對應類型標記實體的任務。常用的方法使用 BIO 記號,區分實體的起始(begining,B)和內部(inside,I)。O 被用於非實體標記。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

CoNLL 2003

CoNLL 2003 任務包含來自 Reuters RCV1 語料庫的新聞通訊文本,以 4 種不同的實體類型進行標註(PER、LOC、ORG、MISC)。模型基於(基於跨度的)F1 評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

自然語言推理

自然語言推理是給定一個「前提」,確定一個「假設」為真(蘊涵)、假(矛盾)或者不確定(中性)的任務。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

SNLI

斯坦福自然語言推理(SNLI)語料庫包含大約 550k 個假設/前提對。模型基於準確率評估。

可以在 SNLI 的網站上查看當前最佳結果:https://nlp.stanford.edu/projects/snli/

MultiNLI

多語型自然語言推理(MultiNLI)語料庫包含大約 433k 個假設/前提對。它和 SNLI 語料庫相似,但覆蓋了多種口頭和書面文本的語型(genre),並支持跨語型的評估。數據可以從 MultiNLI 網站上下載:https://www.nyu.edu/projects/bowman/multinli/

語型內(匹配)和跨語型(不匹配)評估的公開排行榜可查看(但這些條目沒有對應已發表的論文):

  • https://www.kaggle.com/c/multinli-matched-open-evaluation/leaderboard
  • https://www.kaggle.com/c/multinli-mismatched-open-evaluation/leaderboard
自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

SciTail

SciTail(《SCITAIL: A Textual Entailment Dataset from Science Question Answering》)導出數據集包含 27k 個條目。和 SNLI、MultiNLI 不同,它不是眾包數據集,但是從已有的句子中創建的,假設是從科學問題和對應答案候選中創建的,同時相關網站的來自大型語料庫的句子被用作前提。模型基於準確率評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

詞性標註

詞性標註(POS tagging)是一種標註單詞在文本中所屬成分的任務。詞性表示單詞所屬的類別,相同的類別一般有相似的語法屬性。一般英語的詞性標註主要有名詞、動詞、形容詞、副詞、代詞、介詞和連詞等。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

UD

Universal Dependencies(UD)是一個跨語言語法標註的框架,它包含超過 60 多種語言的 100 多個 treebanks。模型一般通過 28 種語言中的平均測試準確率進行評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

Penn Treebank—POS tagging

用於詞性標註的標準數據集是華爾街日報(WSJ)分配的 Penn Treebank,它包含 45 個不同的詞性標籤。其中 0-18 用於訓練、19-21 用於驗證其它 22-24 用於測試。模型一般都通過準確率進行評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

閱讀理解/問答任務

問答是一種自動回答問題的任務。大多數當前的數據集都將該任務是為閱讀理解,其中問題是段落或文本,而回答通常是文檔之間的跨度。UCL 的機器閱讀研究組還介紹了閱讀理解任務的概覽:https://uclmr.github.io/ai4exams/data.html。

ARC

AI2 Reasoning Challenge(ARC)是一個問答數據集,其中它包含了 7787 個真實的小學水平多項選擇科學問題。數據集分割為了困難集與簡單集,困難集只包含那些基於詞檢索算法和詞共現算法所無法正確回答的問題。模型同樣通過準確率評估。

ARC 公開排行榜:http://data.allenai.org/arc/

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

QAngaroo

QAngaroo 是兩個閱讀理解數據集,它們需要結合多個文檔的多個推斷步驟。第一個數據集 WikiHop 是一個開放領域,且專注於維基文章的數據集,第二個數據集 MedHop 是一個基於 PubMed 論文摘要的數據集。

該數據集的排行榜可參見:http://qangaroo.cs.ucl.ac.uk/leaderboard.html

RACE

RACE 數據集是一個從中國初中和高中英語測試收集的閱讀理解數據集。該數據集包含 28000 多篇短文和近 100000 條問題。模型可基於中學測試(RACE-m)、高中測試(RACE-h)和完整數據集(RACE)使用準確率進行評估。

數據集下載地址:http://www.cs.cmu.edu/~glai1/data/race/

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

SQuAD

斯坦福問答數據集(SQuAD)是一個閱讀理解數據集,它包含由眾包基於維基文章提出的問題。回答為對應閱讀短文的文本片段。最近 SQuAD 2.0 已經發布了,它引入了與 SQuAD 1.1 中可回答問題類似的不可回答問題,難度高於 SQuAD 1.1。此外,SQuAD 2.0 還獲得了 ACL 2018 最佳短論文。

Story Cloze Test

Story Cloze Test 是一個用於故事理解的數據集,它提供了 four-sentence 形式的故事和兩個可能的結局,系統將嘗試選擇正確的故事結局。

Winograd Schema 挑戰賽

Winograd Schema Challenge 是一個用於常識推理的數據集。它使用 Winograd Schema 問題以要求人稱指代消歧:系統必須明確陳述中有歧義指代的先行詞。模型同樣基於準確率評估。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

語義文本相似性

語義文本相似性在於推斷兩段文本之間的距離,例如我們可以分配 1 到 5 來表示文本有多麼相似。對應任務有釋義轉換和重複識別。

SentEval

SentEval 是一個用於評估句子表徵的工具包,它包含 17 個下游任務,包括一般的語義文本相似性任務。語義文本相似性(STS)從 2012 到 2016(STS12、STS13、STS14、STS15、STS16、STSB)的基準任務基於兩個表徵之間的餘弦相似性度量了兩句子之間的相關性。評估標準一般是皮爾森相關性。

SICK 相關性(SICK-R)任務訓練一個線性模型以輸出 1 到 5 的分數,並指代兩句子之間的相關性。相同數據集(SICK-E)能視為使用蘊含標籤的二元分類問題。SICK-R 的度量標準也是皮爾森相關性,SICK-E 可以通過文本分類準確度度量。

Microsoft Research Paraphrase Corpus(MRPC)語料庫是釋義識別的數據集,其中系統旨在識別兩個語句是否相互為釋義句。評估標準為分類準確度和 F1 分數。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

Quora Question Pairs

Quora Question Pairs 數據集由 400000 對 Quora 問答組成,系統需要識別一個問題是不是其它問題的副本。模型也是通過準確率度量。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

情感分析

情感分析是在給定文本下識別積極或消極情感的任務。

IMDb

IMDb 是一個包含 50000 條評論的二元情感分析數據集,評論都來自與互聯網電影數據庫(IMDb),且標註為積極或消極兩類。模型同樣通過準確率進行評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

Sentihood

Sentihood 是一個用於針對基於方面的情感分析(TANSA)數據集,它旨在根據具體的方面識別細粒度的情感。數據集包含 5215 個句子,其中 3862 個包含單個目標,其它有多個目標。該任務使用 F1 分數評估檢測的方面,而使用準確率評估情感分析。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

SST

Stanford Sentiment Treebank 包含 215154 條短語,且 11855 條電影評論語句都以解析樹的方式有細粒度的情感標註。模型根據準確率評估細粒度和二元分類效果。

細粒度分類:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

二元分類:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

Yelp

Yelp 評論數據集包含超過 500000 條 Yelp 評論。它們同時有二元和細粒度(5 個類別)級別的數據集,模型通過誤差率(1 - 準確率,越低越好)評估。

細粒度分類:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

二元分類:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

情感解析

情感解析是一種將自然語言轉化為正式語義表徵的任務。正式表徵可能是 SQL 等可執行的語言,或更抽象的 Abstract Meaning Representation(AMR)表徵等。

WikiSQL

WikiSQL 數據集包含 87673 個問題樣本、SQL 查詢語句和由 26521 張表中建立的數據庫表。該數據集提供了訓練、開發和測試集,因此每一張表只分割一次。模型基於執行結果匹配的準確率進行度量。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

語義功能標註

語義功能標註旨在建模語句的述詞論元結構,它經常描述為回答「Who did what to whom」。BIO 符號經常用於語義功能標註。

示例:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

OntoNotes—語義功能標註

模型通常通過基於 F1 的 OntoNotes 基準進行評估(《Towards Robust Linguistic Analysis Using OntoNotes》)。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

自動摘要

自動摘要是一種總結原文本語義為短文本的任務。

CNN/日常郵件摘要

CNN / Daily Mail 數據集是由 Nallapati et al. (2016) 處理併發布,它已經用於評估自動摘要。該數據集包含帶有多句摘要(平均 3.75 個句子或 56 個詞)的再現新聞文章(平均 781 個詞)。經處理的版本包含 287226 個訓練對、13368 個驗證對和 11490 個測試對。模型基於 ROUGE-1、ROUGE-2 和 ROUGE-L 進行評估,* 表示模型在匿名數據集上進行訓練與評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

文本分類

文本分類是將句子或文本分配合適類別的任務。類別取決於選擇的數據集,可以有不同的主題。

AG News

AG News 語料庫包含來自「AG's corpus of news articles」的新文章,在 4 個最大的類別上預訓練。該數據集包含每個類別的 30000 個訓練樣本,以及每個類別的 1900 個測試樣本。模型基於誤差率評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

DBpedia

DBpedia ontology 數據集包含 14 個非重疊類別的每一個的 40000 個訓練樣本和 5000 個測試樣本。模型基於誤差率評估。

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

TREC

TREC(《The TREC-8 Question Answering Track Evaluation》)是用於問題分類的數據集,包含開放域、基於事實的問題,並被分成廣泛的語義類別。它有六類別(TREC-6)和五類別(TREC-50)兩個版本。它們都有 4300 個訓練樣本,但 TREC-50 有更精細的標籤。模型基於準確率評估。

TREC-6:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

TREC-50:

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文


分享到:


相關文章: