【數據】自然語言推理數據集

數據集是機器學習無法忽視的話題,我們根據數據集的類型,收集一些常用的數據集,方便大家快速找到自己需要的數據集。


【數據】自然語言推理數據集


SNLI

A large annotated corpus for learning natural language inference

Stanford Natural Language Inference (SNLI) 自然語言推理最常用版本。 包含了 550152 條訓練樣本,10000 條驗證樣本,10000條測試樣本。每條樣本是一個 句子對,每個 句子對 都被標註為這三個標籤之一:中立,牽連,矛盾。

Multi-NLI

A broad-coverage challenge corpus for sentence understanding through inference

Multi-Genre Natural Language Inference (MNLI) 收集了 433000 條 句子對。該語料庫是 SNLI 的擴展,涵蓋廣泛,包括 口語 和 書面語,並支持獨特的 跨類型概括評估(cross-genre generalization evaluation)。

SICK

Semeval-2014 task 1: Evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textual entailment,

Sentences Involving Compositional Knowledge (SICK) 包含 10000 個英語句子對,每個 句子對 都被標註為這三個標籤之一:中立,牽連,矛盾。

MSRP

Unsupervised construction of large paraphrase corpora: Exploiting massively parallel news sources,

Microsoft Research Paraphrase (MSRP) 經常用於 文本相似性任務。其包括 4076 條訓練樣本和 1725 條測試樣本。每個樣本都是一個 句子對,並用 二分類 來表示 兩個句子是否相似(paraphrases)。

其他常見數據集

  • Semantic Textual Similarity (STS)

Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation

  • RTE

The PASCAL Recognising Textual Entailment Challenge

  • SciTail

Scitail: A textual entailment dataset from science question answering

參考文獻

  1. Deep Learning Based Text Classification: A Comprehensive Review


分享到:


相關文章: