中文自然语言处理测评数据集、基准模型、语料库、排行榜整理分享

中文自然语言处理测评数据集、基准模型、语料库、排行榜整理分享

本资源整理了中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。本文选择一系列有一定代表性的任务对应的数据集,做为测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

本资源源地址:https://www.toutiao.com/a1649075712242699

ChineseGLUE的定位

为更好的服务中文语言理解、任务和产业界,做为通用语音模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展

为什么我们需要一个中文任务的基准测试?

首先,中文是一个大语种,有其自身的特定、大量的应用。

如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。

中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。

其次,相对于英文的数据集,中文的公开可用的数据集还比较少。

很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。

再次,语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。

不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,

导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。

那么,如果有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展,

能缓解当前中文任务的一些问题,并促进相关应用的发展。

中文任务的基准测试-内容体系

1)中文任务的基准测试,覆盖多个不同程度的语言任务

2)公开的排行榜

3)基线模型,包含开始的代码、预训练模型

4)语料库,用于语言建模、预训练或生成型任务

数据集介绍与下载

1. LCQMC 口语化描述的语义相似度任务

输入是两个句子,输出是0或1。其中0代表语义不相似,1代表语义相似。

数据量:训练集(238,766),验证集(8,802),测试集(12,500)

例子:

1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1

2.飞行员没钱买房怎么办?[分隔符] 父母没钱买房子 [分隔符] 0

2. XNLI 语言推断任务

跨语言理解的数据集,给定一个前提和假设,判断这个假设与前提是否具有蕴涵、对立、中性关系。

数据量:训练集(392,703),验证集(?),测试集(?)

例子:

1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral

2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 [分隔符] entailment

原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。

3.TNEWS 今日头条中文新闻(短文本)分类

数据量:训练集(266,000),验证集(57,000),测试集(57,000)

例子:

6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词

4. 更多数据集添加中,Comming soon!

更多数据集添加中,目标是8个覆盖不同任务的有代表性的数据集。

数据集下载

或使用命令:

wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

基准测评-排行榜

TODO 此处将会被指向到一个排行榜的网站地址

语料库:语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等,数据量超过10G,主要部分来自于nlp_chinese_corpus项目

当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。

包含如下子语料库(总共14G语料):

1、新闻语料: 8G语料,分成两个上下两部分,总共有2000个小文件。

2、社区互动语料:3G语料,包含3G文本,总共有900多个小文件。

3、维基百科:1.1G左右文本,包含300左右小文件。

4、评论数据:2.3G左右文本,含有811个小文件,合并ChineseNLPCorpus的多个评论数据,清洗、格式转换、拆分成小文件。

这些语料,你可以通过上面这两个项目,清洗数据并做格式转换获得;

你也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;

如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。

参考文献

1、GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

2、SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

3、LCQMC: A Large-scale Chinese Question Matching Corpus

4、XNLI: Evaluating Cross-lingual Sentence Representations

5、TNES:>

6、nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP>

7、ChineseNLPCorpus>

往期精品内容推荐

NLP、CV、语音相关AI算法工程师面试问题、代码、简历模板、知识点等资源整理分享

重磅干货-史上最全推荐系统资源分享

吴恩达(Andrew Ng)新书《Machine Learning Yearning》-2018年最新版本分享

重磅干货-Richard S. Sutton-2018年强化学习教程免费下载

吴恩达 - 如何规划机器学习职业生涯

Geffery Hinton-数字代表模型从数据中抽取的知识、AI不会有寒冬

吴恩达新课-《CS230-深度学习基础-2019年春》课程视频分享

Stuart Russell访谈-AI的长远未来

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

Andrew Ng新课-《大众化AI》分享

免费教材分享-《理论计算机科学导论》-Boaz Barak

从入门到精通-Tensorflow深度强化学习课程

Tensorflow官方视频课程-深度学习工具 TensorFlow入门

2019最新-UC Berkeley-《深度学习入门课程》分享


分享到:


相關文章: