涵盖40种语言!谷歌发布多语言多任务综合评估新基准

机器学习模型在自然语言处理中的应用最近的进展是由评估各种任务模型的基准驱动的。然而,这些覆盖范围广泛的基准测试主要局限于英语,尽管人们对多语言模型的兴趣越来越大,但是仍然缺少一个基准测试来全面评估这些方法对各种语言和任务的影响。


近日,为了鼓励学界进行更多的关于多语言学习的研究,谷歌人工智能实验室引入了XTREME评估跨语言泛化的大规模多语言多任务基准,涵盖了40 种类型多样的语言(共12 种语系),包括9项任务,需要共同对不同的语言进行推理语法或语义级别。


选择XTREME 中的语言可以最大程度地提高语言多样性,现有任务的覆盖范围以及训练数据的可用性。这些语言中有许多未被充分研究的语言,例如德拉瓦语(泰米尔语(在印度南部,斯里兰卡和新加坡使用),泰卢固语和马拉雅拉姆语(主要在印度南部使用)以及尼日尔-刚果语(斯瓦希里语和约鲁巴语)在非洲。

XTREME任务和语言

XTREME中包含的任务涵盖了一系列范式,包括句子分类,结构化预测,句子检索和问题解答。因此,为了使模型在XTREME基准测试中获得成功,他们必须学习可以推广到许多标准跨语言传输设置的表示形式。


涵盖40种语言!谷歌发布多语言多任务综合评估新基准

XTREME基准测试中支持的任务


每个任务都包含40种语言的一部分。为了获得XTREME中用于分析的低资源语言的其他数据,两个代表性任务的测试集,(即自然语言推理(XNLI)和问题回答(XQuAD)),被自动地从英语翻译成其他语言。研究表明,模型使用翻译后的测试集所表现出的性能,与使用人类标记的测试集的性能相当。

零样本评估


要使用XTREME评估性能,首先要使用鼓励跨语言学习的目标对模型进行多语言文本的预训练。然后,对特定于任务上的英语数据进行微调,因为英语是最有可能使用标记数据的语言。然后XTREME在零样本跨语言传输性能上评估这些模型,即在没有看到特定任务数据的其他语言上,评估这些模型。


在实践中,零样本设置的好处之一是计算效率—预训练模型仅需要对每个任务在英语数据上进行微调,然后可以在其他语言上直接进行评估。但是,对于其他语言中有标签数据可用的任务,研究者也将其与语言内数据的微调进行比较。最后,研究者通过九个XTREME任务的零样本得分来得出综合得分。

迁移学习的测试平台

研究者使用几种最先进的预训练多语言模型进行实验,包括:多语言BERT(一种流行的BERT模型的多语言扩展;XLM和XLM-R,这是两种较大版本的多语言BERT,它们已经在更多数据上进行了训练;以及一个大规模的多语言机器翻译模型M4。这些模型的一个共同特征是,它们已经针对来自多种语言的大量数据进行了预训练。在实验中,研究者选择了这些模型的变体,这些变体在大约100种语言(包括他们基准测试的40种语言)中进行了预训练。

研究发现,虽然模型在大多数英语任务上的性能接近于人类,但在其他许多语言中,性能要低很多。在所有模型中,对于结构化的预测和问题解答任务而言,在英语任务上的性能与在其他语言上的性能差距最大,跨语言的结果分布在结构化的预测和句子检索任务上则是最大的。

为了说明这一点,在下图中,研究者根据任务和语言的不同,展示了所有语言在零样本设置XLM-R中,性能表现最佳的模型及其性能。不同任务之间的分数是不可比较的,所以主要的重点应该是不同任务之间语言的相对排名。正如研究者所看到的,许多高资源语言,特别是来自印欧语系的语言,一直被排在较高的位置。相比之下,该模型在汉藏语、日语、韩语和刚果语等其他语系语言上的性能较低。

任务之间的分数不可比,因此主要重点应该是任务之间语言的相对排名。由此可见,许多high-resource语言,尤其是印欧语系的语言,一直排名较高。相比之下,该模型在其他语系(例如汉藏语,日语,韩语和尼日尔-刚果语言)的语言上的性能较低。

涵盖40种语言!谷歌发布多语言多任务综合评估新基准

XTREME在零样本设置下,所有跨任务和语言的最佳模型(XLM-R)的性能。报告的分数是基于任务特定指标的百分比,在不同任务之间没有直接可比性。人类的表现(如果有的话)由红星表示。每种语言的具体示例都用ISO 639-1代码表示。

总的来说,研究者做了很多有趣的观察。

  • 在零样本设置中,M4和mBERT在大多数任务上与XLM-R不分高下,而XLM-R在特别具有挑战性的问题回答任务上胜过M4和mBERT。例如,在XQuAD测试中,XLM-R的得分为76.6,mBERT为64.5,M4为64.6,与MLQA和TyDi QA的得分相似。

  • 研究发现,使用机器翻译的基线,无论是翻译训练数据还是测试数据,都非常有竞争力。在XNLI任务中,mBERT在zero shot transfer设置中得分65.4,在使用翻译后的训练数据时得分74.0。
  • 对于一些较简单的任务(例如NER)而言,少样本设置(即使用有限的语言标记数据)尤其有竞争力,但对于复杂的问题回答任务却没有什么用。这可以从mBERT的性能上看出,在少样本设置中,它在NER任务上从62.2提升到88.3,提高了42%,但对于问答任务(TyDi QA),仅提高了25%(从59.7到74.5)。

  • 总的来说,在所有模型和设置中,英语和其他语言的性能之间仍然存在很大差距,这表明跨语言迁移的研究有很大的潜力。

跨语言迁移分析

与之前关于深度模型的泛化能力的观察类似,如果一种语言有更多的训练前数据可用,例如mBERT,而XLM-R有更多的训练前数据,结果就会改善。


然而,研究者发现这种相关性不适用于结构化预测任务,词性标记(POS)和命名实体识别(NER),这表明当前的深度预训练模型无法充分利用预训练数据以迁移到这类语法任务。研究者还发现,模型很难迁移到非拉丁文字。


这一点在POS任务中表现得很明显,mBERT在西班牙语任务中实现了86.9的零样本准确率,而在日语任务中仅为49.2。

对于自然语言推理任务XNLI,研究者发现一个模型对英语测试样本和另一种语言测试样本做出相同预测的概率大约是70%。半监督方法可能有助于提高示例的预测与不同语言的翻译之间的一致性。


他们还发现,模型很难预测英语训练数据中没有的POS标签序列,而英语训练数据是经过微调的,这突出表明,这些模型很难从大量用于训练前的未标记数据中学习其他语言的语法。


对于命名实体识别,模型最难以预测的实体是在英语训练数据中没有发现的语言——印度尼西亚语和斯瓦希里语的准确性分别为58.0和66.6,而葡萄牙语和法语的准确性分别为82.3和80.1。


多语言迁移学习取得进展


尽管世界上只有大约15%的人说英语,但英语一直是NLP最新研究的焦点。研究者相信,基于深层语境表达的基础,以及现在拥有的工具,可以在为世界其他语言服务的系统上取得实质性进展。

他们希望XTREME能够促进多语言迁移学习的研究,就像GLUE和SuperGLUE能够推动深度单语言模型的开发,包括BERT、RoBERTa、XLNet、AlBERT等。


参考链接

https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html


论文链接

https://arxiv.org/pdf/2003.11080.pdf


GitHub链接

https://github.com/google-research/xtreme


涵盖40种语言!谷歌发布多语言多任务综合评估新基准


分享到:


相關文章: