中文自然語言處理測評數據集、基準模型、語料庫、排行榜整理分享

中文自然語言處理測評數據集、基準模型、語料庫、排行榜整理分享

本資源整理了中文語言理解測評基準,包括代表性的數據集、基準(預訓練)模型、語料庫、排行榜。本文選擇一系列有一定代表性的任務對應的數據集,做為測試基準的數據集。這些數據集會覆蓋不同的任務、數據量、任務難度。

本資源源地址:https://www.toutiao.com/a1649075712242699

ChineseGLUE的定位

為更好的服務中文語言理解、任務和產業界,做為通用語音模型測評的補充,通過完善中文語言理解基礎設施的方式來促進中文語言模型的發展

為什麼我們需要一箇中文任務的基準測試?

首先,中文是一個大語種,有其自身的特定、大量的應用。

如中文使用人數近14億,是聯合國官方語言之一,產業界有大量的的朋友在做中文的任務。

中文是象形文字,有文字圖形;字與字之間沒有分隔符,不同的分詞(分字或詞)會影響下游任務。

其次,相對於英文的數據集,中文的公開可用的數據集還比較少。

很多數據集是非公開的或缺失基準測評的;多數的論文描述的模型是在英文數據集上做的測試和評估,那麼對於中文效果如何?不得而知。

再次,語言理解發展到當前階段,預訓練模型極大的促進了自然語言理解。

不同的預訓練模型相繼產生,但不少最先進(state of the art)的模型,並沒有官方的中文的版本,也沒有對這些預訓練模型在不同任務上的公開測試,

導致技術的發展和應用還有不少距離,或者說技術應用上的滯後。

那麼,如果有一箇中文任務的基準測試,包含一批大眾能廣泛使用和測評的數據集、適用中文任務的特點、能緊跟當前世界技術的發展,

能緩解當前中文任務的一些問題,並促進相關應用的發展。

中文任務的基準測試-內容體系

1)中文任務的基準測試,覆蓋多個不同程度的語言任務

2)公開的排行榜

3)基線模型,包含開始的代碼、預訓練模型

4)語料庫,用於語言建模、預訓練或生成型任務

數據集介紹與下載

1. LCQMC 口語化描述的語義相似度任務

輸入是兩個句子,輸出是0或1。其中0代表語義不相似,1代表語義相似。

數據量:訓練集(238,766),驗證集(8,802),測試集(12,500)

例子:

1.聊天室都有哪些好的 [分隔符] 聊天室哪個好 [分隔符] 1

2.飛行員沒錢買房怎麼辦?[分隔符] 父母沒錢買房子 [分隔符] 0

2. XNLI 語言推斷任務

跨語言理解的數據集,給定一個前提和假設,判斷這個假設與前提是否具有蘊涵、對立、中性關係。

數據量:訓練集(392,703),驗證集(?),測試集(?)

例子:

1.從 概念 上 看 , 奶油 收入 有 兩 個 基本 方面 產品 和 地理 .[分隔符] 產品 和 地理 是 什麼 使 奶油 抹 霜 工作 . [分隔符] neutral

2.我們 的 一個 號碼 會 非常 詳細 地 執行 你 的 指示 [分隔符] 我 團隊 的 一個 成員 將 非常 精確 地 執行 你 的 命令 [分隔符] entailment

原始的XNLI覆蓋15種語言(含低資源語言)。我們選取其中的中文,並將做格式轉換,使得非常容易進入訓練和測試階段。

3.TNEWS 今日頭條中文新聞(短文本)分類

數據量:訓練集(266,000),驗證集(57,000),測試集(57,000)

例子:

6552431613437805063_!_102_!_news_entertainment_!_謝娜為李浩菲澄清網絡謠言,之後她的兩個行為給自己加分_!_佟麗婭,網絡謠言,快樂大本營,李浩菲,謝娜,觀眾們

每行為一條數據,以_!_分割的個字段,從前往後分別是 新聞ID,分類code,分類名稱,新聞字符串(僅含標題),新聞關鍵詞

4. 更多數據集添加中,Comming soon!

更多數據集添加中,目標是8個覆蓋不同任務的有代表性的數據集。

數據集下載

或使用命令:

wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

基準測評-排行榜

TODO 此處將會被指向到一個排行榜的網站地址

語料庫:語言建模、預訓練或生成型任務

可用於語言建模、預訓練或生成型任務等,數據量超過10G,主要部分來自於nlp_chinese_corpus項目

當前語料庫按照【預訓練格式】處理,內含有多個文件夾;每個文件夾有許多不超過4M大小的小文件,文件格式符合預訓練格式:每句話一行,文檔間空行隔開。

包含如下子語料庫(總共14G語料):

1、新聞語料: 8G語料,分成兩個上下兩部分,總共有2000個小文件。

2、社區互動語料:3G語料,包含3G文本,總共有900多個小文件。

3、維基百科:1.1G左右文本,包含300左右小文件。

4、評論數據:2.3G左右文本,含有811個小文件,合併ChineseNLPCorpus的多個評論數據,清洗、格式轉換、拆分成小文件。

這些語料,你可以通過上面這兩個項目,清洗數據並做格式轉換獲得;

你也可以通過郵件申請(chineseGLUE#163.com)獲得單個項目的語料,告知單位或學校、姓名、語料用途;

如需獲得ChineseGLUE項目下的所有語料,需成為ChineseGLUE組織成員,並完成一個(小)任務。

參考文獻

1、GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

2、SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

3、LCQMC: A Large-scale Chinese Question Matching Corpus

4、XNLI: Evaluating Cross-lingual Sentence Representations

5、TNES:>

6、nlp_chinese_corpus: 大規模中文自然語言處理語料 Large Scale Chinese Corpus for NLP>

7、ChineseNLPCorpus>

往期精品內容推薦

NLP、CV、語音相關AI算法工程師面試問題、代碼、簡歷模板、知識點等資源整理分享

重磅乾貨-史上最全推薦系統資源分享

吳恩達(Andrew Ng)新書《Machine Learning Yearning》-2018年最新版本分享

重磅乾貨-Richard S. Sutton-2018年強化學習教程免費下載

吳恩達 - 如何規劃機器學習職業生涯

Geffery Hinton-數字代表模型從數據中抽取的知識、AI不會有寒冬

吳恩達新課-《CS230-深度學習基礎-2019年春》課程視頻分享

Stuart Russell訪談-AI的長遠未來

中文版-BERT-預訓練的深度雙向Transformer語言模型-詳細介紹

Andrew Ng新課-《大眾化AI》分享

免費教材分享-《理論計算機科學導論》-Boaz Barak

從入門到精通-Tensorflow深度強化學習課程

Tensorflow官方視頻課程-深度學習工具 TensorFlow入門

2019最新-UC Berkeley-《深度學習入門課程》分享


分享到:


相關文章: